• Aucun résultat trouvé

2.2 Les approches de traduction de requˆ etes dans la RIT

2.2.1 Les approches ` a base de dictionnaire

Les dictionnaires bilingues sont de plus en plus disponibles pour de nombreuses langues, ce qui a support´e davantage l’utilit´e des approches bas´ees sur les diction-naires dans la TR (Aljlayl et Frieder, 2001 ; Hedlund et al., 2004 ; Levow et al., 2005). Ces approches deviennent plus populaires dans la RIT depuis le d´ebut des ann´ees 90, quand aucun syst`eme de traduction automatique de haute pr´ecision n’est disponible. N´eanmoins, ces approches souffrent de deux faiblesses majeures :

– L’ambigu¨ıt´e : les dictionnaires bilingues contiennent plusieurs traductions possibles pour chaque terme d’une requˆete source. Ainsi, choisir la traduction

appropri´ee etcorrecte `a partir d’une liste de termes candidats est une tˆache importante et n’est pas facile.

– Le manque de couverture : certains types de termes comme les termes nou-vellement invent´es, les mots techniques, les noms propres, les acronymes, les abr´eviations, etc., ne sont pas tous repr´esent´es dans les dictionnaires bi-lingues. Ces termes hors vocabulaire (OOV : Out-Of-Vocabulary) peuvent consid´erablement r´eduire l’efficacit´e de la recherche dans un SRIT, surtout lorsque les requˆetes sources sont tr`es courtes.

Nous pr´esentons dans ce qui suit les diff´erentes approches propos´ees pour diff´erentes paires de langues, la plupart d’elles sont Latines.

Les recherches et les ´evaluations effectu´ees, dans les SRIT dans l’Universit´e de Tampere (UTA1) au laboratoire de RI, ont ´et´e d´evelopp´ees par Pirkola et al. (Pir-kola et al., 2001). Les chercheurs ont discut´e des nombreux probl`emes caus´es par

les approches bas´ees sur le dictionnaire, et ils ont sugg´er´e le mod`ele des requˆetes structur´ees de Pirkola (Pirkola et al., 2002). Les r´esultats exp´erimentaux ont ´et´e r´ealis´es en utilisant quatre paires de langues diff´erentes2 pour bien ´evaluer l’effica-cit´e de la structuration des requˆetes dans la RIT.

(Pirkola et al., 2003) ont ´etudi´e la structuration des requˆetes dans la RIT de di-verses fa¸cons : premi`erement, ils ont exploit´e un dictionnaire Anglais-Finnois dans leur processus de TR, afin de r´ecup´erer des documents d’une base de donn´ees d’un journal finnois de 55000 articles. Les diff´erentes traductions finlandaises d’un terme anglais sont consid´er´ees comme des synonymes. Elles ont ´et´e combin´ees en utilisant l’op´erateur #syn()3 du syst`eme de recherche InQuery (Callan et al., 1992). Cette combinaison modifie implicitement la pond´eration des traductions, et permet de mieux ´equilibrer l’importance relative entre les parties de la requˆete. Les chercheurs ont confirm´e que les requˆetes structur´ees ont surpass´e les requˆetes non structur´ees : elles ont donn´e une efficacit´e de 77% par rapport `a une RI Monolingue et 52% par rapport `a une strat´egie de traduction sans structuration. Deuxi`emement, les auteurs ont ´etudi´e l’influence de la structuration `a base des composants en utilisant un op´erateur de proximit´e pour les composants des traductions, construits `a partir des termes de la requˆete. Malheureusement, cette approche n’est pas utile dans les requˆetes bas´ees sur l’op´erateur #syn(), car elle a r´eduit l’efficacit´e de la recherche. Troisi`emement, ils ont propos´e une technique de correspondance des chaˆınes de caract`eres bas´ees sur le n-gramme, appel´ee la technique cibl´ee de correspondance s-gramme (Pirkola et al., 2002). Dans cette technique, les n-s-grammes sont class´es en cat´egories, en se basant sur la contigu¨ıt´e des caract`eres dans les mots. La technique a ´et´e compar´ee `a la technique classique de n-gramme, en utilisant des caract`eres adjacents en tant que des n-grammes. Plusieurs types de mots et de paires de mots ont ´et´e ´etudi´es : les mots-cl´es des requˆetes en anglais, en allemand et en su´edois ont ´et´e adapt´es `a leurs variantes morphologiques et orthographiques finnoises, en utilisant une liste de 119000 mots cibles en langue finnoise. Dans tous les tests trans-linguistiques effectu´es, la technique cibl´ee de correspondance s-gramme a surpass´e la technique de correspondance de n-gramme.

Les noms propres et les termes techniques constituent un probl`eme majeur dans la RIT, en raison de la couverture limit´ee des dictionnaires bilingues. Aussi, ces der-niers ont de nombreuses variantes orthographiques, puisqu’ils partagent souvent la mˆeme origine grecque ou Latine. C’est pourquoi (Toivonen et al., 2005) ont sugg´er´e et ´evalu´e, en deux ´etapes, une approche floue pour la traduction translinguistique

2. Finnois vers l’Anglais, Anglais vers le Finnois, Su´edois vers l’Anglais, Allemand vers l’An-glais

3. dans op´erateur #syn(), les termes de l’argument doivent ˆetre consid´er´es comme des syno-nymes, dans le cas de Pirkola et al., les traductions d’un terme sont des synonymes.

des variantes orthographiques. Tout d’abord, des r`egles de transformation sont ap-pliqu´ees sur les termes des requˆetes sources pour les rendre plus similaires `a leurs traductions correspondantes dans la langue cible. Ensuite, les formes interm´ediaires, g´en´er´ees `a partir de la premi`ere ´etape, sont traduites vers la langue cible, en uti-lisant un mod`ele flou d’appariement. Enfin, les exp´erimentations sont effectu´ees dans cinq langues sources (finnois, fran¸cais, allemand, espagnol et su´edois) et l’an-glais comme une langue cible. Les r´esultats ont montr´e que la techniqueen deux ´etapesa surpass´e une simple technique floue d’appariement.

Par ailleurs, les m´ethodes probabilistes des requˆetes structur´ees ont ´et´e sugg´er´ees par (Darwish et Oard, 2003). Ils ont exploit´e les estimations des probabilit´es de remplacement et le concept de fr´equence de document du mod`ele des espaces vectoriels, pour calculer le poids de chaque terme de requˆete. Les r´esultats ont montr´e l’efficacit´e de ces m´ethodes dans la RIT, dans la paire de langues Arabe-Anglais et dans la recherche des documents arabes num´eris´es (scann´es), bas´ee sur la reconnaissance optique des caract`eres4.

Plus tard, les probabilit´es de traduction bidirectionnelle5 et la synonymie sont toutes les deux exploit´ees par (Wang et Oard, 2006) afin d’am´eliorer l’efficacit´e de la RIT. Les auteurs ont montr´e que la combinaison des connaissances de traduction bidirectionnelle avec la synonymie `a base de similarit´e donne de bons r´esultats par rapport `a certaines techniques existantes.

(Pourmahmoud et Shamsfard, 2008) ont propos´e une approche `a base d’un dic-tionnaire Anglais-Persan, pour retrouver des documents pertinents en anglais pour des requˆetes persanes. Dans cette approche, les auteurs ont pr´esent´e une m´ethode d’identification et de traduction de phrases. Aussi, ils ont enrichi les requˆetes avec des termes connexes, par une expansion avant et apr`es traduction, afin d’am´eliorer la TR.

(Saralegi et De Lacalle, 2010) ont d´evelopp´e une approche de TR bas´ee sur le dictionnaire qui aborde trois probl`emes principaux dans la RIT Basque-Anglais : (i) la pr´esence des mots hors vocabulaire OOV, (ii) la traduction des expressions multi-mots et (iii) le traitement des traductions ambigu¨es. Les auteurs ont propos´e des m´ethodes bas´ees sur les co-occurrences pour g´erer la s´election de traduction, la d´etection du connexe (Knight et Graehl, 1998) pour traiter les termes OOV et un processus d’appariement na¨ıf pour d´etecter les expressions multi-mots. De plus, les auteurs ont mesur´e comment chaque probl`eme affecte les performances de recherche dans la TR `a base de dictionnaire et comment les m´ethodes propos´ees les traitent.

4. OCR ( Optical Character Recognition) est la version des documents num´eris´es vers un texte ´

editable par les logiciels de traitement de texte.

5. traduire les requˆetes et les documents, ou plus pr´ecis´ement avoir une traduction dans les deux sens.

Dans les exp´erimentations, les r´esultats changent en fonction de la longueur des requˆetes, la diminution produite par la s´election de traduction et celle produite par les expressions multi-mots. Dans le cas de la s´election de traduction, on distingue deux cas : une mauvaise s´election dans le dictionnaire (baisse de 10 − 21%) et des traductions incorrectes dans le dictionnaire (baisse de 17 − 32%). Le traitement OOV (baisse de 4 − 12%) semble ˆetre le facteur le moins influent, probablement en raison de l’orthographe similaire des deux langues.

(Sharma et Mittal, 2018) ont construit un syst`eme de TR `a base de dictionnaire dans lequel les requˆetes sont segment´ees et les termes multi-mots sont cr´e´es en utilisant la technique de n-gramme. Les termes hors vocabulaire (OOV) sont trans-litt´er´es en utilisant la technique OOVTTM (OOV Terms Transliteration Mining). Les exp´erimentations ont montr´e que l’approche propos´ee a donn´e des meilleurs r´esultats.