• Aucun résultat trouvé

Méthodes d’alignement par la technique de recherche d’information

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Algorithme 1 Alignement des phrases de Kay et Röscheisen

2.5 Méthodes d’alignement par la technique de recherche d’information

Fluhr et al. proposent un autre type d’algorithme (Fluhr et al., 2000 ; Semmar & Fluhr, 2007), qui, complètement différent des deux modèles classiques, supporte mieux la contrainte des hypothèses de bijectivité et de monotonie (voir la section 1.2.2).

Cette approche consiste à réaliser l’alignement par une méthode de recherche d’information multilingue (ou recherche documentaire multilingue), en particu-lier celle basée sur la « reformulation », dite enrichissement des requêtes.

Le choix de cette approche provient de l’observation comparative des pro-blèmes de l’alignement des phrases d’une part, et de la recherche documentaire multilingue basée sur l’enrichissement des requêtes d’autre part. Ces opérations nécessitent toutes les deux un calcul de similarité entre deux textes dans diffé-rentes langues.

Avant d’entrer dans l’étude de cette méthode originale, nous allons tout d’abord nous intéresser au principe de recherche documentaire multilingue basée sur l’enrichissement des requêtes, pour terminer la présentation par une discus-sion sur les avantages et les faiblesses de la méthode.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

2.5.1 Recherche d’information multilingue basée sur l’enrichissement des requêtes

La recherche d’information interlangue (Cross-Language Information

Retrie-val en anglais, CLIR) consiste à récupérer, à partir d’une requête formulée dans

une langue donnée (généralement dans la langue maternelle de l’utilisateur, fran-çais par exemple), des documents écrits dans d’autres langues différentes de celle de la requête (anglais par exemple).

Enrichissement des requêtes

La recherche documentaire basée sur l’enrichissement des requêtes est une méthode qui réalise la recherche d’information par enrichissement des requêtes (query expansion en anglais), c’est-à-dire le remplacement de chacun des mots de la requête par d’autres mots exprimant le même concept. L’enrichissement des re-quêtes, s’applique, s’il s’agit de recherche documentaire monolingue, à la même langue en remplaçant un mot de la requête par des synonymes et/ou des hypo-nymes, etc., et il produit comme résultat, lorsqu’il est appliqué dans le cadre de recherches multilingues, toutes les traductions possibles dans une autre langue à l’aide par exemple d’un dictionnaire bilingue.

Principe de fonctionnement

Les auteurs présentent l’architecture du système SPIRIT (Syntactic and

Proba-bilistic Indexing and Retrieval of Information in Texts) du projet EMIR (European Multilingual Information Retrieval).

Le système constitue une base de données à partir de documents auxquels il applique des analyses linguistique et statistique. Lorsqu’il reçoit une requête de l’utilisateur, il réalise une reformulation puis une comparaison des résultats de la reformulation avec les documents présents dans la base de données.

La procédure générale de recherche par enrichissement des requêtes utilisant un dictionnaire bilingue se déroule comme suit :

1. déduction de toutes les traductions possibles à partir des mots de la requête originale ;

2. élimination des traductions qui ne figurent pas dans la base de données ; 3. recherche de documents pertinents avec le module de comparaison. Plus

l’intersection entre les concepts exprimés par le document et ceux exprimés par la requête est vaste, plus le document est considéré comme pertinent. Le module de comparaison est capable d’évaluer rapidement toutes les in-tersections possibles entre les mots de la requête et les documents, et de calcu-ler pour chaque document un poids représentant le degré de pertinence. Pour la recherche d’information, le poids dépend uniquement de l’intersection entre re-quête et document.

2.5. Méthodes d’alignement par la technique de recherche d’information 2.5.2 Alignement des phrases basé sur la méthode CLIR

L’alignement est constitué de deux étapes. La première consiste en l’obten-tion d’un alignement 1-1 de haute précision. Elle est réalisée sans tenir compte de l’ordre des phrases, ce qui permet d’aligner efficacement des phrases même lorsque leur ordre dans un texte n’est pas préservé dans l’autre texte. La seconde étape réalise l’extension de l’alignement 1-1 obtenu à celui incluant les corres-pondances 1-2 et 2-1 par fusion de la phrase précédente (ou suivante) non alignée avec celle qui la suit (ou la précède) et qui est déjà alignée.

Première étape : alignement 1-1

Un corpus est composé de deux ensembles de phrases ordonnées. Le système d’alignement réalise l’indexation de ces deux textes dans deux bases de données différentes à l’aide du système SPIRIT. La détection des liens entre les phrases dans la langue de base et celles dans la langue en regard est réalisée par recherche d’in-formation multilingue.

Cette méthode n’est pas symétrique car l’une des langues est considérée comme langue de base et est utilisée comme langue de départ constituant les re-quêtes. Les auteurs posent comme hypothèse que le résultat dépendant fortement de la qualité du dictionnaire utilisé, il est fort probable que le choix de la langue de base influe également sur les résultats. D’après eux, le meilleur choix est sans doute la langue dont le dictionnaire bilingue possède la meilleure couverture.

Seconde étape : alignement 1-2 et 2-1

La seconde étape consiste, afin d’améliorer l’alignement 1-1 obtenu, à essayer de fusionner une phrase non alignée avec une phrase déjà alignée qui la précède ou qui la suit.

La procédure se déroule comme suit :

1. vérification pour chaque phrase non alignée Pi, si la phrase précédente ou suivante est déjà alignée ;

2. recherche d’information par croisement de langues avec comme requête la concaténation PiPi +1ou Pi −1Pi;

3. si on obtient le même résultat Rj que pour la recherche avec uniquement

Pi +1 ou Pi −1 et que l’intersection entre PiPi +1 (respectivement Pi −1Pi) et

Rjest supérieure à celle entre Pi +1(resp. Pi −1) et Rj, alors

Rjest aligné avec PiPi +1(resp. Pi −1Pi) et Rj.

2.5.3 Avantages et faiblesses

Le principal avantage de cette méthode est, comme il a été déjà présenté, l’ab-sence d’hypothèse de parallélisme, qui permet de supporter l’abl’ab-sence de traduc-tion de certaines parties ou l’insertraduc-tion de nouveaux passages.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

Malgré la robustesse, la méthode a également hérité d’une faiblesse de la mé-thode de recherche d’information par enrichissement des requêtes : la qualité du dictionnaire utilisé influe directement sur le résultat de l’alignement. Puisque l’ali-gnement est un outil de compilation de dictionnaires, une forte dépendance aux dictionnaires n’est pas une caractéristique favorable.

De plus, transformer un texte – un ensemble « ordonné » de phrases – en une base de données – un ensemble « non-ordonné » – provoque certainement une perte. Comme Brown et Gale l’ont remarqué très tôt, les marqueurs typogra-phiques tels que les retours chariots ou certains signes de ponctuation sont des éléments très intéressants pour l’alignement des phrases. Il est vraiment dom-mage de les supprimer et de ne pas profiter de ces éléments si porteurs d’infor-mation.

Par ailleurs, cette méthode robuste qui supporte bien le bruit et qui se montre particulièrement efficace pour l’alignement des corpus dits « noisy-parallel

cor-pora », est également utilisée pour l’alignement des corpus parallèles de journaux

au niveau des articles. L’étude de Collier et al. (1998) présente le résultat de la com-paraison de deux méthodes d’alignement d’articles, l’une basée sur une méthode CLIR avec traduction automatique et l’autre également sur une méthode CLIR mais avec simple consultation de dictionnaires. D’après les auteurs, la méthode avec consultation de dictionnaires est plus efficace que celle avec traduction auto-matique dans le cadre de la comparaison des résultats à des niveaux de fort rappel, c’est-à-dire lorsque l’on souhaite obtenir des quantités importantes d’articles ali-gnés. La méthode d’alignement des phrases des textes anglais-japonais proposée par Uchiyama et Isahara que nous présenterons dans la section 2.6.2 utilise une méthode CLIR avec consultation de dictionnaires pour aligner d’abord les articles de journaux, afin de réaliser ensuite leur alignement au niveau phrastique.

2.6 Méthodes adaptées pour l’alignement avec des textes