Méthodologie d’alignement

Tableau 5-1 Différents types de traduction

5.2.1. Méthodes d’alignement

L’état de l’art de l’alignement multilingue est abondamment décrit dans l’ouvrage Parallel Text

Processing édité par Jean Véronis [VER 00]. Nous présentons dans cette section les traits les plus

importants des méthodologies rencontrées dans la littérature.

5.2.1.1. Alignement de phrases

Deux familles d’approches différentes peuvent être distinguées, dans la lignée de deux études

initiales qui, malgré leurs différences, reposent sur un certain nombre d’hypothèses simplificatrices

communes.

Kay et Röscheisen [KAY 93] font l’hypothèse que, pour que des phrases soient en correspondance

de traduction, il faut que les mots qui les composent soient également en correspondance. Cette

hypothèse ne fait appel qu’à une information interne, c’est-à-dire que toute l’information nécessaire (et

en particulier les correspondances lexicales) est dérivée des textes à aligner eux-mêmes. Les auteurs

utilisent le fait qu’un tel alignement des mots, même très grossier et très imparfait, peut conduire à un

alignement satisfaisant au niveau des phrases. Le point de départ de l’algorithme est un ensemble

initial de phrases raisonnablement candidates à l’alignement : la première phrase et la dernière ont de

bonnes chances de se correspondre dans chaque texte, et les phrases intermédiaires sont certainement

en correspondance dans un couloir diagonal relativement étroit. L’algorithme compare ensuite la

distribution des mots de cet ensemble de phrases dans chacun des textes et fait l’hypothèse que si ces

distributions sont similaires au-delà d’un certain seuil pour un couple de mot donné, ces mots ont de

bonnes chances d’être en relation de traduction. Les mots en question fournissent alors un ensemble de

points d’ancrage qui permette de réduire le couloir diagonal des alignements de phrases candidats. La

procédure est itérée jusqu’à convergence vers une solution minimale.

Gale et Church [GAL 91, 93] proposent une méthode qui n’utilise également qu’une information

interne, mais ne fait aucune hypothèse directe sur le contenu lexical des phrases. Les auteurs partent de

la constatation que la longueur des phrases dans le texte source et de leurs traductions dans le texte

cible sont fortement corrélées. De plus, il semble exister un rapport assez constant entre les longueurs

de phrases d’une langue à l’autre en termes de nombre de caractères (ainsi, il est connu que les textes

français sont plus longs que leurs équivalents anglais : ce rapport est de l’ordre de 1,1 et varie peu

selon le genre des textes). Cette observation permet de construire un modèle probabiliste et une

mesure de dissimilarité entre phrases des deux textes à aligner, qui prennent en compte la proportion

des types d’alignements attendus m : n (m phrases dans le texte source correspondent aux n phrases

dans le texte cible). Pour de raisons de calculabilité, Gale et Church sont amenés à faire des

hypothèses simplificatrices, et en particulier à réduire le cas (m : n) à m, n ≤ 2 (cf. Tableau 5-1).

L’alignement optimal peut alors être calculé de façon efficace par un algorithme classique de

programmation dynamique. Brown et al. [BRO 91] utilisent également la même idée de corrélation

entre les longueurs de phrases, mais ils formulent le problème à l’aide de modèles de Markov cachés.

5.2.1.2. Alignement de mots et expressions

L’alignement ou l’extraction de lexiques consiste théoriquement en deux phases :

- détecter les mots et les expressions dans le texte source et le texte cible,

- mettre ces mots en correspondance.

Nombre de phrases du texte source Nombre de phrases du texte cible Type de traduction

1 1 Substitution

2 1 Compression

1 2 Extension

2 2 Mélange

1 0 Destruction

0 1 Insertion

> 1 0 Large destruction

0 > 1 Large insertion

Plusieurs méthodes statistiques ont été proposées pour choisir des expressions complexes d’une

langue. Pourtant les méthodes purement statistiques ne peuvent pas facilement découvrir des

opérations linguistiques réalisées sur des expressions « semi-figées » qui sont très fréquentes. En

conséquence, certaines approches linguistiques ont été proposées seules ou en combinaison avec des

méthodes statistiques. Ces méthodes se basent normalement sur des expressions régulières et des

grammaires locales.

5.2.1.3. Alignement de clauses et de structures de phrase

L’alignement des textes à un niveau supérieur aux mots ou expressions et inférieur à la phrase,

comme par exemple des clauses ou des fragments d’arbres syntaxiques, pourrait être très utile pour les

applications comme la traduction fondée sur l’exemple, l’étude comparative des langues etc. Mais

l’alignement à ce niveau soulève de grandes difficultés, car pour cela il faut d’abord détecter les

frontières des clauses ou les structures syntaxiques des textes, ce qui est une tâche très complexe. Un

second problème, encore plus délicat, naît de la grande différence de structure syntaxique pouvant

exister entre deux langues.

Plusieurs références sur ce problème sont listées dans Véronis [VER 00b].

5.2.2. Évaluation - Projets ARCADE I & II

L’action ARCADE I (1996-1999) financée par l’AUPELF-UREF (maintenant AUF) visait deux

objectifs principaux (cf. Véronis et Langlais [VER 00a]) :

- produire un grand corpus standardisé de textes multilingues alignés ;

Elle a montré que la qualité de l’alignement de phrases était fortement dépendante du degré de

parallélisme structurel des documents concernés. Sur des textes traduits avec un soin extrême de

parallélisme, la performance des meilleurs systèmes atteint environ 98% d’alignements corrects. Par

contre, face aux cas de non-parallélisme du à des causes diverses : omissions du traducteur,

différences de version, traductions abrégées, des glossaires techniques en ordre différent dans les

différentes langues, etc., tous les systèmes présentés dans l’ARCADE I ont montré une dégradation

rapide et très importante.

La campagne ARCADE II a pris la suite d’ARCADE I en octobre 2002. Dans ce nouveau projet,

deux tâches d’alignement sont évaluées : alignement des phrases et alignement des entités nommées.

Pour la première tâche, les évaluations de l’alignement du corpus JOC ((Journal officiel de la

Communauté Européenne, cf. 1.1.5.1) de l’action d’Arcade I seront reproduites, afin d’identifier les

Rappel= ^s