• Aucun résultat trouvé

1.4 Lexiques bilingues `a partir de corpus comparables

1.4.2 Approche standard

Les principaux travaux s’int´eressant `a la cr´eation de lexiques bilingues `a partir de corpus comparables pourraient ˆetre vus comme une extension de l’hypoth`ese dis- tributionnelle de Harris (Harris, 1954) et reposent sur sur la simple observation que si dans une langue source deux mots cooccurrent plus souvent que par hasard, alors dans un texte de langue cible, leurs traductions doivent ´egalement cooccurrer plus souvent (Rapp, 1995). Sur la base de ces hypoth`eses, l’approche standard ou dite encore approche par traduction directe a vu le jour. Cette approche se base sur la caract´erisation et la comparaison d’environnements lexicaux des termes sources et cibles, repr´esent´es par des vecteurs de contexte. Ces vecteurs stockent un ensemble d’unit´es lexicales repr´esentatif de leur voisinage. Dans la pratique, afin de pouvoir comparer les vecteurs de contexte de langues diff´erentes, le passage d’une langue `a une autre est n´ecessaire et s’effectue g´en´eralement par l’interm´ediaire d’un diction- naire bilingue amorce. Un aper¸cu g´en´eral de cette approche est illustr´e dans la figure

Construction de vecteur de

contexte

Vecteur de contexte Vecteur de contexte traduit

Dictionnaire bilingue

Langue source Langue cible

Figure 1.6: Aper¸cu g´en´eral de l’approche standard d’extraction de lexiques bilingues `a partir de corpus comparables.

1. Construire un vecteur de contexte pour chaque terme `a traduire et tous les can- didats `a la traduction de la langue cible. Cela fournit une repr´esentation distri- butionnelle de chacun de ces termes.

2. Utiliser un dictionnaire bilingue amorce pour traduire le vecteur de contexte du terme `a traduire.

3. Comparer le vecteur de contexte de l’unit´e `a traduire avec tous les vecteurs de contextes cibles `a l’aide d’une mesure de similarit´e. Nous obtenons une liste ordonn´ee de traductions candidates pour le terme `a traduire selon leur similarit´e distributionnelle.

1.4.2.1 Constitution des vecteurs de contexte

Les vecteurs de contexte servent `a repr´esenter les termes `a traduire. Ils sont ex- traits en rep´erant les mots qui apparaissent autour du terme `a traduire. Id´ealement, ces termes doivent entretenir des relations de d´ependance syntaxique avec le terme `a traduire. Or, comme dans la plupart des cas cette analyse ne fournit que deux termes (op´erateur-op´erande), la caract´erisation de ce contexte risque de ne pas ˆetre suffisam- ment riche. En outre et pour ´eviter les erreurs de ce type d’analyse, les recherches actuels d´efinissent le contexte par les mots qui apparaissent simplement autour du

terme `a traduire dans une fenˆetre contextuelle de n mots. Ces mots sont g´en´eralement constitu´es de mots pleins (noms, verbes, adjectifs, adverbes).

Habituellement, des mesures d’associations comme l’information mutuelle (Morin et Daille, 2006), le rapport de vraisemblance (Morin et Prochasson, 2011) ou en- core le rapport des chances (odds-Ratio) (Laroche et Langlais, 2010) sont utilis´ees pour d´efinir les entr´ees du vecteur de contexte. Les mesures d’association comme le rapport des chances ou l’information mutuelle ´evaluent la d´ependance statistique de deux grandeurs mesur´ees. Plus ces grandeurs sont d´ependantes, plus leur valeur d’association sera importante. Le rapport de vraisemblance consiste par contre `a calculer le ratio des vraisemblances de deux configurations correspondants aux hy- poth`eses `a confronter : que les deux mots cooccurrent et qu’ils apparaissent de mani`ere ind´ependante. En extraction lexicale, la mesure d’association indique la degr´e de corr´elation entre les un mot et un mot avec lequel il cooccurre. Elle est aussi utilis´ee pour indiquer la force d’association entre un terme `a traduire et les ´el´ements de son vecteur de contexte. Les vecteurs de contexte sont ainsi construit pour chaque terme `a traduire et tous les candidats `a la traduction du corpus de la langue cible.

1.4.2.2 Transfert des vecteurs de contexte

Afin de rendre possible la comparaison des vecteurs sources et cibles, et contrai- rement aux m´ethodes introduites par (Rapp, 1995) et (Fung, 1995), les vecteurs des termes sources sont traduits par le biais d’un dictionnaire bilingue amorce. Ce dic- tionnaire sert de pont entre la langue source et cible. Il constitue l’´el´ement cl´e de l’approche standard. S’il propose plusieurs traductions pour un mot, l’ensemble de traductions propos´ees sont ajout´ees. Par contre, les mots qui n’y figurent pas sont simplement ignor´es. Les r´esultats d’extraction sont donc influenc´es par la couverture du dictionnaire bilingue.

1.4.2.3 Comparaison des vecteurs sources et cibles

Une fois traduits dans la langue cible, les vecteurs des termes `a traduire sont com- par´es `a l’ensemble des vecteurs de contexte des candidats `a la traduction `a l’aide d’une mesure de similarit´e vectorielle. La plus populaire est le cosinus, mais de nombreux

auteurs ont ´etudi´e des m´etriques alternatives comme l’indice de Jaccard pond´er´ee ou encore la distance de Manhattan. En fonction des valeurs de similarit´e, nous obtenons une liste ordonn´ee de traductions candidates pour chaque terme `a traduire.

1.4.2.4 R´esultats de l’approche standard

Les recherches exploitant l’approche standard se sont int´eress´ees `a la construc- tion et `a l’extension de lexiques bilingues par des mots du domaine g´en´eral (Rapp, 1995), de termes issue d’un domaine de sp´ecialit´e (Chiao et Zweigenbaum, 2002;

D´ejean et al., 2002;Prochasson et al., 2009) ou encore de termes complexes (Morin et Daille, 2006;Laroche et Langlais, 2010). Comme il a ´et´e mentionn´e pr´ec´edemment, le r´esultat d’alignement obtenu par cette approche est une liste ordonn´ee de candidats `a la traduction pour chaque terme `a traduire class´ee en fonction des valeurs de simi- larit´e entre leur vecteurs de contexte respectifs. Les r´esultats de cette approche sont ´evalu´es en comptant le nombre de candidats corrects trouv´es dans les N premiers candidats renvoy´es (succ`es au rang N ou succ`esN). Cette m´ethode d’´evaluation a

´et´e originellement utilis´ee dans la une conf´erence pour l’´evaluation des syst`emes de recherche d’information TrecEval.

La qualit´e des traductions obtenues par l’approche standard d´epend du domaine auquel on s’int´eresse, de la taille du corpus, de la taille de la fenˆetre contextuelle et des mesures d’association et de similarit´e adopt´ees. Par exemple, (Rapp, 1999a) ob- tient une pr´ecision de 72 % au succ`es1 pour un tr`es large corpus comparable compos´e

d’articles de journaux anglais-allemand. Dans le domaine m´edical, (Chiao et Zwei- genbaum, 2002) obtiennent une pr´ecision de 20 % pour le succ`es1 avec un corpus

fran¸cais-anglais d’environ 600 000 mots. Dans (Morin et al., 2008), les auteurs uti- lisent un corpus fran¸cais-japonais li´e `a la th´ematique du diab`ete et de l’alimentation. Pour les succ`es10, ils portent la pr´ecision `a 49 %. En pratique, et comme il a ´et´e not´e

dans (Prochasson, 2009), il est difficile de comparer les r´esultats de diff´erents tra- vaux en extraction de lexiques bilingues `a partir de corpus comparables, en raison de diff´erences entre les corpus, les domaines d’´etude ou encore les ressources linguistiques utilis´ees.