• Aucun résultat trouvé

5.4.1 Traduction des documents vs traduction des requêtes

Une manière de rapprocher une requête et des documents écrits dans des langues différentes est de traduire les documents dans la langue de la requête. L’avantage de 12. Ce regroupement se fait traditionnellement sur des procédures de désuffixage (stemming), qui reviennent à rapprocher des mots uniquement sur leur graphie.

cette approche est la possibilité d’exploiter le contenu des documents afin d’effectuer une traduction de qualité. En particulier, le problème posé par les termes polysémiques, c’est-à-dire l’ambiguïté de leur traduction, un des problèmes récurrents de la traduction automatique, est mieux traité par la prise en compte des informations contextuelles contenues dans les documents.

Cette approche pose cependant des problèmes insurmontables notamment dans le contexte d’une recherche sur le Web qui présente une croissance exponentielle en terme de nombre de documents disponibles. En l’occurrence le volume de stockage est multiplié par le nombre de langues que l’on souhaite mettre à la disposition de l’utili-sateur. Cette façon d’opérer, irréaliste pour une recherche sur le Web, peut néanmoins être envisagée sur une base documentaire réduite ou sur un site Intranet.

L’alternative à la traduction des documents est la traduction de la requête. Cette approche a l’avantage d’être simple à mettre en œuvre. En général, les requêtes sont composées de termes simples dont la traduction est rapide. C’est la raison pour laquelle la plupart des systèmes de recherche translangue mettent en œuvre une traduction de la requête.

L’inconvénient de cette approche est de ne pas donner assez d’information sur le contexte des termes à traduire. Or la traduction de termes simples hors contexte pose des problèmes, notamment celui de la sélection de la traduction correcte dans le cas de termes ambigus. Par exemple le mot “marche” en français peut être traduit en anglais par “walking”, “step”, “progress”, “working”, etc. Plusieurs modèles de traduction décrits dans la section suivante ont été proposés dans le but de traduire les requêtes.

5.4.2 Modèles de traduction de requête

Trois principales approches de traduction des requêtes peuvent être utilisées en recherche d’information translangue.

Méthode basée sur la traduction automatique

L’utilisation d’un système de traduction automatique est l’approche la plus di-recte mais reste assez limitée. Le processus de traduction fournit une traduction de la requête en ne retenant qu’une seule solution parmi les résultats possibles. Les heu-ristiques de sélection d’une traduction parmi plusieurs sont peu efficaces (la première proposition ou la plus fréquente, etc.) parce qu’une requête contient peu de mots et donc peu de contextes qui peuvent aider l’automate à choisir. Une expérience rapportée dans TREC-6 ‘Text REtrieval Conference’ (Oard, 1998), montre que la performance du modèle basé sur la traduction automatique dépend de la longueur de la requête. Une meilleure performance est obtenue pour des requêtes plus longues (composées de phrases). Certaines études (Hull & Grefenstette, 1996; Franz et al., 1999; Braschler

Automatique des Langues) comme la racinisation, l’étiquetage syntaxique, ou l’in-dexation sur les syntagmes et l’analyse statistique de corpus peuvent diminuer le bruit et apporter une amélioration significative des résultats.

Méthode basée sur les lexiques ou les thésaurus bilingues

Cette approche utilise les traduction de mots stockées dans un lexique bilingue pour traduire une requête. Elle présente l’avantage d’être simple. Il existe de nombreux dictionnaires en version électronique pour plusieurs langues. Les expériences de (Davis & Ogden, 1997; Ballesteros & Croft, 1996) utilisent le dictionnaire Collins anglais-espagnol et celles de (Fujii & Ishikawa, 1999) le dictionnaire anglais-japonais EDR13. Toutefois, l’utilisation d’un dictionnaire bilingue pour traduire une requête im-pose certaines limites qui réduisent la performance de la recherche. En premier lieu, les domaines spécifiques souffrent d’un déficit de vocabulaire bilingue sous forme électro-nique. De plus, les problèmes d’ambiguïté et donc de sélection de la bonne traduction sont ici aussi mal résolus. Les requêtes sont souvent des mots simples, leur traduction hors contexte est problématique.

Pour résoudre le problème de la sélection des traductions, le projet EMIR (Eu-ropean Multilingual Information Retrieval) mené par Fluhr (Fluhr et al., 1998) utilise les documents recherchés pour filtrer les bonnes traductions à l’aide d’une analyse de cooccurrence. Par ailleurs, Ballesteros et Croft (Ballesteros & Croft, 1998) proposent une méthode de désambiguïsation par extension de la requête à l’aide d’analyses sta-tistiques.

Dans la plupart des dictionnaires bilingues, il n’y a pas assez d’informations lin-guistiques pour pouvoir traiter le problème de la polysémie et de la synonymie ni pour décrire les relations entre les termes. Les premières expériences ont montré que l’utili-sation d’un thésaurus multilingue permet de mieux traiter le problème de l’ambiguïté (Oard & Dorr, 1996). La méthode consiste à utiliser les relations conceptuelles entre les termes pour désambiguïser. Néanmoins, la constitution d’un thésaurus multilingue reste un travail laborieux et très coûteux. Le problème de la mise à jour des nouveaux concepts et de la formation de l’utilisateur à utiliser correctement les relations entre les termes sont des freins à l’usage de cette approche.

L’expérience de (Eichmann & Ruiz, 1998), utilisant le metathésaurus ‘UMLS’ (Unified Medical Language System) (www.nlm.nih.gov/research/umls) pour traduire les requêtes, atteint jusqu’à 70% de la performance de la recherche monolingue. Ac-tuellement, la tendance est de compléter cette approche par une analyse statistique de corpus (similarité de vecteurs, etc.), afin d’améliorer la qualité de la traduction (Fung & McKeown, 1997; Picchi & Peters, 1998; Rapp, 1999; Chiao & Zweigenbaum, 2002a). 13. Japan Electronic Dictionary Research Institute. Technical terminology dictionary (information processing), 1995.

Méthode basée sur les corpus

Ces techniques exploitent des indicateurs statistiques portant sur les mots pro-venant de corpus alignés ou comparables. Lorsque les corpus sont conséquents, les techniques statistiques permettent d’obtenir des équivalents de termes dans différentes langues. A partir de corpus alignés, l’approche consiste à extraire un modèle de traduc-tion en utilisant les cooccurrences des termes de différentes langues dans des contextes équivalents (Hiemstra et al., 1997; Carbonell et al., 1997; Yang et al., 1998).

Dans le même ordre d’idée, la méthode ‘LSI’ (Latent Semantic Indexing) (Litt-man et al., 1998; Oard & Dorr, 1996; Brown, 1998) examine la similarité des contextes dans lesquels se trouvent les termes. Pour cela, elle crée un espace sémantique multi-lingue à partir de textes parallèles. Les termes de langues différentes qui sont dans des contextes similaires se trouvent à proximité l’un de l’autre dans le nouvel espace ainsi créé. Lorsqu’un terme a toujours été traduit par un autre terme, leurs représentations dans cet espace sont identiques. De même, si un terme est souvent associé à un autre terme, par exemple le mot anglais not et le français pas, ils auront des représentations similaires dans l’espace sémantique. Trouver l’équivalent d’un terme dans une autre langue revient donc à trouver des termes de la langue cible ayant une distance minimale au terme source dans l’espace sémantique. La performance de cette approche dépend de la qualité et de la disponibilité de corpus alignés. La limite d’une telle approche est donc liée à l’acquisition de corpus parallèles qui reste souvent problématique et onéreuse pour les domaines de spécialité. Notons que certaines expériences tendent à exploiter les ressources disponibles sur le Web pour la constitution automatique de corpus alignés en recherche d’information translangue (Chen & Nie, 2000; Resnik, 1999).

D’autres études (Fung & McKeown, 1997; Fung & Yee, 1998; Rapp, 1999; Pic-chi & Peters, 1998; Sheridan et al., 1998) se sont davantage intéressées à exploiter les informations provenant de corpus comparables. Dans le cadre multilingue, il s’agit d’un ensemble de documents de langues différentes rassemblés selon des critères simi-laires : le domaine, le genre14, etc. L’idée repose sur l’hypothèse que les termes utilisés pour décrire un sujet particulier sont liés sémantiquement même à travers des langues différentes.

5.4.3 Désambiguïsation des traductions

Nous avons vu que chaque méthode de traduction présente des contraintes d’uti-lisation. Quelle que soit la méthode utilisée, la polysémie inhérente de certains mots pose le problème récurrent de la désambiguïsation de leurs traductions. Pour résoudre ce problème, plusieurs stratégies sont envisagées pour la sélection de la traduction correcte d’une requête. Soit seul le terme le plus utilisé dans les documents est re-tenu comme traduction de la requête (Ballesteros & Croft, 1998; Hiemstra & de Jong,

1999), soit l’identification de termes composés, l’utilisation de corpus parallèles ou les techniques statistiques, comme information mutuelle (section 3.2.2), par exemple, sont intégrés dans le modèle de traduction (Hull, 1997; Davis, 1998; Ballesteros & Croft, 1998; Fujii & Ishikawa, 1999; Jang et al., 1999).

Une autre manière de procéder à la désambiguïsation est d’utiliser toutes les traductions possibles de la requête pour effectuer la recherche en supposant que la per-tinence du résultat dépend plus de la performance des approches de la recherche de documents que de celle de la désambiguïsation. Partant de cette hypothèse, (Hiemstra & de Jong, 1999) montrent qu’avec une méthode de recherche appropriée, l’utilisa-tion de toutes les traducl’utilisa-tions possibles donne une meilleure performance que celle de l’utilisation d’une seule traduction. Il s’agit de la technique de l’extension de requête.