• Aucun résultat trouvé

Techniques d’alignement de phrases

1 G ÉNÉRALITÉS SUR L ’ ALIGNEMENT

1.5 Techniques d’alignement

1.5.1 Techniques d’alignement de phrases

Nous allons aborder les méthodes précurseurs, leurs méthodes dérivées et une nouvelle méthode tout à fait différente de ces dernières.

Méthodes précurseurs

La première méthode automatique d’alignement de textes parallèles a été dé-veloppée par Martin Kay et Martin Röscheisen (Xerox) en 1984 à partir du constat suivant : lorsqu’une personne essaie de mettre en correspondances des phrases de deux textes parallèles, elle compare généralement les mots constituant chaque phrase. De cette intuition, Kay et Röscheisen ont conçu un algorithme d’aligne-40

1.5. Techniques d’alignement ment (Kay & Röscheisen, 1993) basé sur les informations de correspondance

lexi-cale.

Après cette proposition de méthode exploitant les informations lexicales, Brown et al. (1991) ainsi que Gale & Church (1993) ont présenté leurs méthodes basées sur la corrélation des longueurs de phrases.

Ces deux premiers types de méthodes sont caractérisés par l’utilisation exclu-sive d’informations internes. Leurs concepteurs ont cherché avant tout la simpli-cité d’implémentation et de calcul.

Améliorations des premières méthodes

De nombreuses méthodes sont apparues depuis, mais la plupart de celles pu-bliées appartiennent à l’une des deux classes ou combinent les deux méthodes proposées par ces précurseurs. Les méthodes dérivées proposent généralement une amélioration de leurs ancêtres par l’introduction de certaines connaissances linguistiques ou d’un modèle de traduction probabiliste. Enfin, d’autres types d’améliorations sont apportés par l’introduction d’informations externes, no-tamment les dictionnaires. Les chercheurs japonais y recourent également pour l’adaptation de l’alignement aux textes japonais.

La méthode basée sur la corrélation des longueurs est beaucoup moins effi-cace lorsque le texte contient beaucoup de phrases. Pour remédier à ce problème, les précurseurs ont introduit une étape de pré-découpage des textes en grandes parties, marquées par un signe quelconque, telles que les paragraphes. Beaucoup ont ensuite cherché une amélioration de cet ancrage.

Les chercheurs tels que Simard et al. (1992) proposent l’utilisation, en combi-naison avec des méthodes d’alignement basées sur la corrélation des longueurs, d’un ancrage très simple, qui consiste en un repérage des éléments appelés « co-gnats ». Il s’agit de chaînes de caractères identiques ou ressemblantes graphique-ment, telles que les chiffres, les symboles ou les mots apparentés comme « lan-guage» en anglais et « langue » en français. Néanmoins, la méthode des cognats ne permet d’obtenir qu’un résultat très limité lors de l’alignement de textes dans des langues non apparentées.

Dans le cadre de l’adaptation de la méthode de Gale au traitement des textes parallèles anglais-chinois, Wu (1994) a présenté une amélioration par l’utilisation d’une liste bilingue anglais-chinois de certains mots clés. Mais cette liste semble étroitement liée à certains corpus donnés, notamment le corpus utilisé, Hong Kong Hansard, actes duLegislative Council (LegCo). Par conséquent, cette mé-thode n’a pas apporté une plus grande généralisation que celle des cognats.

Contrairement à cette méthode recourant à une liste étroitement liée à cer-tains corpus donnés, Debili & Sammouda (1992) essaient de profiter davantage d’informations lexicales grâce à l’utilisation d’un dictionnaire bilingue.

Enfin, d’autres chercheurs comme Chen (1993) essayent d’exploiter plus les informations lexicales et proposent l’utilisation d’un modèle de traduction pro-babiliste.

1. GÉNÉRALITÉS SUR L’ALIGNEMENT AUTOMATIQUE DES TEXTES PARALLÈLES

Mappage et méthodes combinant diverses techniques

Au fur et à mesure que les recherches avançaient, certains chercheurs se sont rendu compte de plus en plus des difficultés de l’alignement, de nature plutôt phy-sique qu’algorithmique, mais fondamentales.

Premièrement, les textes d’entrée contiennent en fait souvent du bruit. C’est dû par exemple au formatage (OCR ou conversion de format, etc.) ou aux erreurs faites par le traducteur. Les différences entre les textes d’entrée provoquées par ce bruit perturbent énormément le programme d’alignement, nécessitant une étape de pré-traitement où est réalisée manuellement une retouche des textes.

Deuxièmement, la reconnaissance même des unités à aligner pose déjà un grand problème pour les développeurs de systèmes. Les symboles considérés généralement comme séparateurs graphiques d’une certaine unité donnée sont souvent polysémiques, empêchant ainsi parfois une segmentation correcte.

Church (1993) ayant remarqué très tôt cette difficulté liée au bruit propose un alignement au niveau des caractères, qui produit des résultats un peu différents de l’alignement classique. En fait, ce n’est pas un alignement proprement dit, mais un mappage qui donne comme résultat un ensemble de paires de points (x,y), où x ety se réfèrent à des localisations précises dans le premier et le second texte respectivement pour dénoter des parties de texte correspondant l’une à l’autre. Ces travaux de Church ont créé une nouvelle optique pour l’exploitation des textes parallèles, engendrant des travaux dérivés (Dagan et al., 1993 ; Fung & McKeown, 1994 ; Melamed, 1996) que Simard a regroupé sous le nom debi-text mapping.

Ce nouveau type de solution au problème d’appariement des textes parallèles est caractérisé par sa robustesse. En effet, comme le dit Church dans la conclusion de son article :

«Char_alignhas succeeded in meeting many of these goals because it works at the character level and does not depend on finding sen-tence and/or paragraph boundaries which are surprisingly elusive in realistic applications. »

Son indépendance vis à vis des unités linguistiques extrêmement difficiles à re-connaître correctement, permet de supporter, voire d’ignorer, les problèmes dus au bruit tels que l’omission d’un séparateur ou même l’absence d’une partie de texte dans un des textes d’entrée.

La robustesse de cette méthode a attiré plusieurs chercheurs qui cherchaient un équilibre entre robustesse et précision du système. Les méthodes proposées dans Langlais (1997), Simard & Plamondon (1998) et Kraif (2001) combinent alors une étape de mappage et une étape d’alignement des phrases recourant elle-même à plusieurs indices – longueurs, informations lexicales –, constituant ainsi la dernière génération de l’alignement « classique », les méthodes combinées. 42

1.5. Techniques d’alignement

Autres types de méthodes

Enfin, a été proposé un autre type d’algorithme (Fluhr et al., 2000 ; Semmar & Fluhr, 2007), capable de mieux supporter la contrainte des hypothèses utilisées par tous les algorithmes précédents comme mentionné dans la section 1.4.1.

Comme nous l’avons déjà expliqué brièvement, cette approche consiste à réa-liser un alignement par la méthode de recherche d’information (ou d’interroga-tion documentaire multilingue), permettant ainsi de s’affranchir des limites dues aux hypothèses communes des méthodes précédentes. Cette approche très diffé-rente des autres consiste à trouver la phrase la plus similaire dans le texte en re-gard, transformé en base de données, à partir de la requête que constitue la phrase du texte de base.

Méthodes adaptées au traitement du japonais

Les chercheurs japonais proposent généralement des méthodes basées sur les techniques précurseurs adaptées à l’alignement du japonais par l’utilisation de dictionnaires.

Murao (1991) a conçu un système d’alignement s’appuyant sur un diction-naire bilingue anglais-japonais. Sa méthode exploite les informations de corres-pondance lexicale comme Kay et Röscheisen, mais pour le calcul il a adopté une méthode de programmation dynamique utilisée dans les algorithmes proposés par Brown et Gale. Le système d’appariement proposé par Utsuro et al. (1994) est basé sur cette méthode de Murao. Ce système a été utilisé par Collier & Takahashi (1995) à l’occasion de la compilation d’un corpus bilingue auCentre for Compu-tational Linguistics(CCL, Manchester), constitué d’articles d’un des grands quoti-diens japonais Asahi.

Haruno, Yamazaki et Ishihara (Isahara & Haruno, 2000 ; Haruno & Yamazaki, 1996) ont réalisé une adaptation de la méthode de Kay à l’alignement de textes anglais-japonais en recourant également à des dictionnaires bilingues.

Enfin, Hwang & Nagao (1994) a proposé une méthode originale pour le coréen, consistant à traduire chaque phrase du texte de base afin de trouver la phrase cor-respondante du texte en regard par ressemblance avec cette traduction. Cette mé-thode permet de ne pas dépendre de la capacité des analyseurs morphologiques coréens, qui ne fournissent pas encore de résultats satisfaisants. De plus, elle met à profit la ressemblance lexicale et structurelle entre les langues japonaise et co-réenne, permettant une traduction partielle relativement aisée.

1.5.2 Techniques d’alignement de mots