Repérage automatique de sens dans un cadre bi (multi-) lingue

2.1. Méthodes traductionnelles d’acquisition de sens

2.1.1. Principes sous-jacents aux méthodes traductionnelles

Les hypothèses sous-jacentes au fonctionnement des méthodes d’acquisition de sens développées dans un cadre bilingue ou multilingue diffèrent de manière importante de celles sur lesquelles se basent les méthodes monolingues. En effet, les méthodes bi- ou multilingues exploitent généralement des informations de traduction ; d’où leur dénomination comme méthodes traductionnelles. Le principe fondamental gouvernant ces méthodes est que les différents équivalents de traduction d’un mot polysémique de la langue source constituent des indices des distinctions sémantiques du mot. Par conséquent, les équivalents peuvent être utilisés pour repérer les sens du mot polysémique, en en révélant les sens « cachés » et, éventuellement, pour étiqueter les instances de ce mot à l’aide des sens rendus évidents par l’analyse sémantique.

Des exemples courants dans la littérature concernent les mots anglais duty et bank, dont les sens principaux sont révélés à l’aide de leurs équivalents de traduction en français (respectivement droit-devoir et banque-rive) (Resnik et Yarowsky, 2000 ; Resnik, 2004). Des conclusions sémantiques peuvent également être déduites dans le cas de correspondance entre différents mots source et un seul équivalent de traduction. Ce type de correspondance traductionnelle indique, souvent, que les mots source partagent un élément de sens (Resnik, 2004)90_{. Les traductions des mots sont ainsi considérées comme des « fenêtres »}

sur leurs propriétés sémantiques et constituent une base empirique pour leur description.

90_{Par exemple, dans le cas des mots anglais bank et shore, le fait qu’ils puissent être tous les deux} traduits par rive en français suggère que les deux sens qui correspondent à cette traduction partagent une même propriété sémantique.

2.1.2. Avantages des méthodes traductionnelles

2.1.2.1. Les traductions: une source objective d’informations sémantiques

L’utilisation des traductions en tant que source pour l’identification de distinctions sémantiques est considérée comme étant une solution au problème de la subjectivité qui caractérise la définition des sens dans les ressources existantes, subjectivité qui apparaît dans les divergences observées entre ces ressources91_{. Les variations concernant la conception du sens et la finalité des}

ressources constituent des facteurs qui contribuent au manque d’uniformité tant au niveau des descriptions sémantiques entre ressources différentes, qu’au niveau des jeux d’étiquettes utilisés lors des tâches d’étiquetage sémantique.

Les traductions sont, en revanche, considérées comme étant une source objective d’informations sémantiques (Resnik et Yarowsky, 2000 ; Ng et al., 2003). La relation de traduction peut même être considérée comme un primitif théorique (Dyvik, 1998a, 2003, 2005), i.e. un concept qui n’est pas défini en termes d’autres concepts, mais qui peut être extrait de données traductionnelles par des méthodes interprétatives. Les données de traduction issues d’un corpus parallèle peuvent alors être regardées comme le résultat d’un processus au cours duquel le mot source a été interprété dans son contexte92_{. Par conséquent, les}

relations sémantiques résultant de traductions sont considérées comme des relations ne découlant pas de considérations philosophiques et/ou théoriques sur le sens93_{. Ce souci d’objectivité au niveau des descriptions sémantiques est}

d’ailleurs visible dans des travaux comme celui de Resnik et Yarowsky (ibid.), qui proposent de restreindre un inventaire sémantique d’une LS aux distinctions

91_{Nous avons déjà abordé la problématique de la définition des sens lexicaux, de leur nombre et de} leur granularité, et nous avons décrit un ensemble de contraintes extra-linguistiques qui interviennent lors de la construction d’une ressource (ainsi, l’objectif visé et les utilisateurs envisagés, ou l’application visée dans un cadre automatique).

92_{Les traducteurs évaluent les possibilités interprétatives des expressions linguistiques de la LS} dans des contextes spécifiques, des textes ayant des objectifs précis, et essaient, ensuite, de récréer les mêmes possibilités d’interprétation dans un texte cible, qui sert un objectif comparable dans une autre langue.

93_{Les études sémantiques dépendent souvent de paraphrases, ou de manières alternatives de dire} la même chose. Les traductions constituent une source de telles alternatives, théoriquement intacte, dans le sens où celles-ci peuvent être extraites de corpus et constituent ainsi des données

sémantiques lexicalisées dans d’autres langues94_{. Kaji (2003), tout en prenant en}

considération la non univocité de correspondance entre les sens d’un mot polysémique et ses équivalents de traduction, propose, quant à lui, l’élaboration d’un inventaire sémantique où chaque sens serait défini comme un ensemble d’équivalents de traduction synonymes dans une autre langue95_.

2.1.2.2. Création automatique de corpus sémantiquement étiquetés

Un autre avantage des méthodes traductionnelles de repérage de sens et de désambiguïsation est d’offrir la possibilité de création automatique de corpus sémantiquement étiquetés, où les mots sont étiquetés à l’aide des équivalents de traduction qui servent à repérer leurs sens. L’intérêt de ces méthodes est grand dans la mesure où créer manuellement des ressources de ce type requiert beaucoup de temps et met en jeu la question de la subjectivité des annotateurs. Des expériences menées sur le sujet ont montré un fort taux de désaccord entre annotateurs, dû, en grande partie, à la nature des distinctions sémantiques fournies dans les ressources dont ils se servent pour effectuer l’étiquetage (Ng et al., 1999 ; Ide et al., 2001). Cette difficulté, constatée pour l’acquisition de ressources étiquetées de grandes dimensions et de bonne qualité, ne diminue pas pour autant leur grande utilité dans certaines applications du TAL, comme la désambiguïsation lexicale supervisée où elles pourraient constituer la base de l’apprentissage (Ide et al., 2001 ; Diab et Resnik, 2002 ; Ng et al., 2003 ; Resnik, 2004 ; Lyse, 2006).

Ce type de processus d’étiquetage non supervisé, fondé sur les traductions, présente l’avantage de ne pas nécessiter d’inventaire sémantique prédéfini dans la langue du corpus à étiqueter pour l’apprentissage. Néanmoins, certaines de ces

94_{Cette solution se situerait à mi-chemin entre les distinctions grossières – comme celles trouvées} au niveau des homographes – et l’expression de distinctions de granularité très fine. D’un point de vue pratique, Resnik et Yarowsky proposent la définition d’un ensemble de langues (les expériences menées par eux impliquent 12 langues différentes) et l’utilisation de dictionnaires bilingues associés pour le repérage des traductions. Ainsi, chaque distinction sémantique doit être réalisée lexicalement dans un sous-ensemble minimal des langues choisies. L’utilisation d’un vaste ensemble de langues est considérée comme ayant un effet positif sur la qualité des résultats de l’acquisition des sens.

95_{Cet élément différencie la méthode d’acquisition de sens proposée par Kaji des méthodes} monolingues d’acquisition de sens, où les sens sont souvent définis comme un ensemble de synonymes au sein de la même langue.

méthodes n’utilisent pas directement les équivalents comme étiquettes des mots source, mais ont plutôt recours à un inventaire dans la LC. L’algorithme de Diab et Resnik (2002), par exemple, regroupe les traductions d’un mot source, récupère leurs étiquettes sémantiques possibles à partir d’un inventaire, puis sélectionne le sens qui caractérise l’ensemble de ses traductions (ou leurs sens les plus proches) et qui sert à étiqueter le mot source. Cette méthode se fonde sur l’hypothèse de monosémie des mots source, manifeste dans le principe de repérage d’un sens commun à ses différentes traductions. Les cas de mots sémantiquement distants alignés au même mot source ne sont donc pas pris en considération, bien que les auteurs soulignent la fréquence de ce phénomène. L’amélioration envisagée à propos du fonctionnement de cet algorithme consiste à incorporer des informations de cooccurrence pour clustériser les traductions, dans le but de distinguer les sens des mots source96_.

2.1.2.3. Conformité pour le traitement bi- (et multi-) lingue

L’utilisation de méthodes traductionnelles pour l’analyse sémantique présente également des avantages au niveau des applications. Une critique régulièrement émise à l’égard des ressources sémantiques préétablies est qu’elles ne répondent pas aux besoins d’applications réelles. L’établissement de distinctions sémantiques par le biais des traductions différentes des mots, dans le cas des méthodes traductionnelles d’analyse sémantique, rend ces dernières conformes aux besoins de traitement dans le cadre d’applications bilingues ou multilingues. Par exemple, les distinctions sémantiques repérées peuvent être utilisées dans des tâches de désambiguïsation lexicale. La nature de ces distinctions permet en effet la sélection automatique d’un mot de la LC à la sortie de l’étape de désambiguïsation d’un mot source, ce qui correspond précisément à la sélection lexicale effectuée dans la Traduction Automatique (Ng et al., 2003)97_.

96_{Diab et Finsh (2000) utilisent également des techniques de clustering pour la création de} correspondances au niveau des mots dans des corpus comparables.

97_{Nous reviendrons sur l’assimilation de la tâche de désambiguïsation et de la tâche de sélection} lexicale en §1.2. du chapitre 8, qui porte sur le besoin de désambiguïsation lexicale pour la

Nous allons désormais analyser certains facteurs qui conditionnent le bon fonctionnement des méthodes traductionnelles d’acquisition de sens. Mais auparavant, nous estimons nécessaire de clarifier la manière dont la notion de « contexte lexical » est conçue dans un cadre bilingue et multilingue, qui diffère de celle définie dans un cadre monolingue. Ainsi, cette clarification permettra d’éviter des confusions et de mieux comprendre le fonctionnement des méthodes développées dans ces deux cadres.

2.2. Le « contexte lexical » bi- (multi-)lingue

2.2.1. Conception de la notion de contexte dans un cadre de traduction

Rappelons que les méthodes contextuelles monolingues d’acquisition de sens, présentées dans le paragraphe 1, exploitent les informations de cooccurrence venant du contexte local des mots. Ces informations peuvent être plus ou moins sophistiquées et concernent les mots qui co-apparaissent au sein d’une fenêtre textuelle, plus ou moins grande, autour des mots ambigus, ou qui entrent dans certains types de relations avec eux.

Dans un cadre impliquant l’utilisation de plus d’une langue, la notion de « contexte lexical » peut être conçue autrement. Le plus souvent, dans un tel cadre, le contexte des mots ne correspond pas à leur contexte lexical à l’intérieur de la même langue mais à leurs traductions dans d’autres langues, au sein de corpus parallèles, ou correspond au contexte de ces traductions. Cette conception du contexte se retrouve dans de nombreuses méthodes traductionnelles d’analyse sémantique, comme celles d’Ide et al. (2001, 2002), Tufiş et al. (2004c), Kaji (2003) et van der Plas et Tiedemann (2006). Elle repose sur l’hypothèse de lexicalisation différente des sens d’un mot dans d’autres langues98_{. Sur la base de}

cette hypothèse, la traduction est supposée « capter », d’une certaine manière, le contexte de la LS tel que le traducteur l’a conçu et, éventuellement, tel qu’il l’a utilisé pour identifier le sens correct du mot source.

98_{Hypothèse qui n’est vraie que jusqu’à un certain point, en raison de l’éventuelle préservation de} l’ambiguïté entre les langues. La préservation de l’ambiguïté dépend d’un ensemble de paramètres, comme la typologie des langues et la distance entre elles (Ide, 1999 ; Ide et al., 2002 ; Tufiş et al., 2004).

Les informations contextuelles de ce type peuvent être utilisées d’une manière similaire à celle employée dans les méthodes monolingues, pour le clustering sémantique des instances des mots et l’identification de distinctions sémantiques. Dans certaines méthodes, elles constituent même la seule source d’informations pour l’analyse sémantique, tandis que dans d’autres, elles sont enrichies par des informations provenant d’autres ressources. Tel est le cas, par exemple, dans la méthode de Tufiş et al. (ibid.), où les informations de traduction sont complétées par des informations du réseau sémantique multilingue BalkaNet99_{. Nous allons montrer maintenant la manière dont le clustering des}

instances et le repérage des sens sont réalisés au sein des méthodes traductionnelles précitées.

2.2.2. Clustering au sein de méthodes traductionnelles

La méthode d’Ide et al. (2001, 2002) considère comme contexte lexical d’un mot, ses traductions dans un grand ensemble de langues. Chaque mot polysémique source (anglais) est associé à l’ensemble de ses traductions au sein d’un corpus parallèle aligné, composé de versions du même texte dans six langues différentes (roumain, slovène, tchèque, bulgare, estonien et hongrois). Le contexte lexical du mot ambigu correspond à ses traductions trouvées au sein du corpus parallèle. Un vecteur est construit pour chaque occurrence du mot dans le corpus, qui représente les traductions de cette occurrence précise dans les six langues100_{. Les vecteurs créés constituent l’entrée d’un algorithme}

d’agglomération, qui les clusterise sur la base de la distance minimale calculée entre eux et fusionne, de manière itérative, les paires de clusters. Les clusters finaux représentent les différents sens et sous-sens du mot ambigu source, à l’instar du clustering appliqué dans un cadre monolingue (Schütze, 1992 ; 1998)101_.

99_{Nous décrirons cette méthode en détail dans le paragraphe 2.2.2. du chapitre 3, qui porte sur la} désambiguïsation lexicale dans un cadre bi- et multi-lingue.

100_{Si un équivalent donné est utilisé pour traduire une occurrence i du mot polysémique dans le} corpus, le vecteur a 1 en position i, sinon 0.

101_{Les clusters dérivés de cette manière n’identifient que les instances plus ou moins proches, sans} fournir une description du sens comme celle qui serait fournie par un dictionnaire, ni choisir des

Le travail de van der Plas et Tiedemann (2006) se base également sur l’alignement multilingue des mots. Les contextes d’alignement dans lesquels un mot est trouvé au sein du corpus utilisé, et qui correspondent aux mots des autres langues avec lesquels il est aligné, constituent les traits du vecteur correspondant à ce mot. Le vecteur construit est appelé vecteur contextuel, de la même manière que dans les travaux où les vecteurs sont construits à partir des informations de cooccurrence. Les vecteurs d’alignement sont comparés entre eux et leur similarité montre la similarité distributionnelle des mots. Comme dans un cadre monolingue, les mots qui présentent une similarité distributionnelle, qui partagent donc un certain nombre de contextes traductionnels, sont considérés comme sémantiquement liés.

Les travaux de Kaji et Morimoto (2002) et Kaji (2003) combinent, quant à eux, informations contextuelles monolingues et informations traductionnelles pour l’acquisition de sens. La conception du contexte adoptée dans cette approche ressemble cependant davantage à celle des méthodes monolingues. Cette différence avec les autres méthodes multilingues de désambiguïsation, décrites ci-dessus, s’explique par le fait que les corpus utilisés sont des corpus comparables, c’est-à-dire des corpus monolingues qui n’entretiennent pas de relations de traduction102_{. Plus précisément, la similitude de cette approche avec}

l’approche contextuelle « classique » consiste dans le repérage de relations entre les mots au sein de chaque langue, à l’aide d’une mesure d’association des mots (l’information mutuelle). Des paires de mots liés sont donc, tout d’abord, extraites de chaque langue à l’aide d’informations contextuelles monolingues qui sont, par la suite, mises en correspondance sur la base d’informations de traduction issues d’un dictionnaire. Ensuite, pour chaque paire de mots liés d’une langue, un ensemble de paires correspondantes est défini dans l’autre langue représentée dans le corpus, et pour chaque alignement de paires de mots,

pas une faiblesse de la méthode ; la désambiguïsation n’a pas besoin de faire appel à ce type de connaissances (définitions de sens), les informations sur l’utilisation d’un ensemble d’instances d’un mot ambigu dans le même sens (ou dans un sens différent) étant souvent suffisantes.

102_{L’exploitation de corpus comparables par la méthode de Kaji constitue une de ses forces, étant} donné que la disponibilité de tels corpus est beaucoup plus importante que celle de corpus parallèles. Néanmoins, cet avantage est nuancé par l’inconvénient de devoir utiliser un dictionnaire bilingue pour l’extraction des relations de traduction, dans la mesure où l’alignement lexical est très difficile dans le cas de corpus comparables. Ainsi, la méthode est soumise aux limitations inhérentes à l’exploitation de ressources lexicales préétablies.

un ensemble de mots liés communs est construit103_{. L’hypothèse sous-jacente à la}

méthode présuppose que les traductions de mots liés dans une langue correspondent à des mots également liés dans l’autre langue (Rapp, 1995).

Dans cette méthode, les sens d’un mot sont initialement définis à l’aide des équivalents de traduction différents, puis les sens sont progressivement agglomérés sur la base de motifs distributionnels qui montrent leur similarité. Les sens d’un mot sont décrits par des ensembles de synonymes, constitués du mot lui-même et d’un ou plusieurs équivalents de traduction représentant le sens en question dans une autre langue. Les équivalents de traduction synonymes d’un mot sont supposés posséder des motifs de distribution similaires, ce qui permet leur clustering104_{. La corrélation entre un sens d’un mot polysémique et}

un indice contextuel est calculée sur la base, d’une part, de leur information mutuelle et d’autre part, de la plausibilité des alignements (entre la paire mot- indice de la LS et une paire correspondante dans la LC) proposant le sens. Cette plausibilité est définie comme la somme pondérée des corrélations entre le sens et les mots liés communs. Cette méthode pourrait être caractérisée comme une méthode distributionnelle interlangue de clustering : un mot n’est pas caractérisé par un vecteur construit à partir des mots de la même langue, comme c’est le cas dans le clustering distributionnel conventionnel, mais par un ensemble pondéré de mots de l’autre langue.

Ce type de clustering, effectué dans un cadre bilingue, ne doit pas être confondu avec le clustering utilisé afin d’améliorer la qualité de l’alignement lexical. Dans ce dernier type de travaux, la formation de classes (clusters) de mots fournit une solution au problème de la dispersion des données. L’utilisation de classes permet d’effectuer des généralisations à partir des données et d’éliminer le besoin de correspondances exactes entre données d’apprentissage et données

103_{Pour qu’un mot fasse partie de cet ensemble de mots liés communs aux paires des deux langues,} il faut d’abord qu’il soit statistiquement lié aux deux mots de la paire de la LS. Il faut, ensuite, qu’une correspondance existe dans le dictionnaire entre ce mot et un mot de la LC et également que ce dernier soit statistiquement lié aux mots de la paire correspondante de la LC.

104_{L’algorithme de clustering utilisé ne permet pas le chevauchement des clusters.}_{Le choix de ce} type d’algorithme repose sur l’hypothèse qu’un équivalent de traduction ne représente souvent qu’un sens du mot ambigu, au moins dans le cas où les deux langues ont des origines différentes (les expériences menées par Kaji concerne la paire de langues anglais-japonais). La méthode de clustering ne permet pas non plus à un indice d’être lié à plus d’un sens, suivant en cela l’hypothèse d’ « un sens par discours » (Gale et al., 1992), selon laquelle un mot est toujours

d’entrée du système, afin d’aboutir à une solution. La formation de classes de mots des deux langues, liées entre elles, permet d’aligner des ensembles de mots, au lieu d’aligner des mots, processus supposé diminuer l’impact de la dispersion des données sur le résultat de la TA (Och et Weber, 1998 ; Och, 1999). Le clustering des mots effectué au sein de ces travaux se base sur l’algorithme d’espérance-maximisation. Deux types de probabilité sont modélisés : premièrement, une probabilité monolingue a priori, qui concerne l’appartenance d’un mot source à une classe et une probabilité de bigrammes, c’est-à-dire de transition d’une classe à une autre ; deuxièmement, une probabilité de traduction des mots d’une classe de la LS par les mots d’une classe de la LC, sur la base des résultats de l’alignement lexical. Les classes de mots liées des deux langues, ainsi obtenues, sont ensuite exploitées dans le but de généraliser l’applicabilité des patrons d’alignement, utilisés pour trouver la meilleure traduction possible d’une nouvelle phrase de la LS. Le clustering des mots des deux langues sert donc un but bien précis et n’implique pas de considérations d’ordre sémantique.

Nous venons de présenter la manière dont la notion de contexte lexical est

Dans le document Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction (Page 76-94)