5.2.1. Méthodes d’alignement
L’état de l’art de l’alignement multilingue est abondamment décrit dans l’ouvrage Parallel Text
Processing édité par Jean Véronis [VER 00]. Nous présentons dans cette section les traits les plus
importants des méthodologies rencontrées dans la littérature.
5.2.1.1. Alignement de phrases
Deux familles d’approches différentes peuvent être distinguées, dans la lignée de deux études
initiales qui, malgré leurs différences, reposent sur un certain nombre d’hypothèses simplificatrices
communes.
Kay et Röscheisen [KAY 93] font l’hypothèse que, pour que des phrases soient en correspondance
de traduction, il faut que les mots qui les composent soient également en correspondance. Cette
hypothèse ne fait appel qu’à une information interne, c’est-à-dire que toute l’information nécessaire (et
en particulier les correspondances lexicales) est dérivée des textes à aligner eux-mêmes. Les auteurs
utilisent le fait qu’un tel alignement des mots, même très grossier et très imparfait, peut conduire à un
alignement satisfaisant au niveau des phrases. Le point de départ de l’algorithme est un ensemble
initial de phrases raisonnablement candidates à l’alignement : la première phrase et la dernière ont de
bonnes chances de se correspondre dans chaque texte, et les phrases intermédiaires sont certainement
en correspondance dans un couloir diagonal relativement étroit. L’algorithme compare ensuite la
distribution des mots de cet ensemble de phrases dans chacun des textes et fait l’hypothèse que si ces
distributions sont similaires au-delà d’un certain seuil pour un couple de mot donné, ces mots ont de
bonnes chances d’être en relation de traduction. Les mots en question fournissent alors un ensemble de
points d’ancrage qui permette de réduire le couloir diagonal des alignements de phrases candidats. La
procédure est itérée jusqu’à convergence vers une solution minimale.
Gale et Church [GAL 91, 93] proposent une méthode qui n’utilise également qu’une information
interne, mais ne fait aucune hypothèse directe sur le contenu lexical des phrases. Les auteurs partent de
la constatation que la longueur des phrases dans le texte source et de leurs traductions dans le texte
cible sont fortement corrélées. De plus, il semble exister un rapport assez constant entre les longueurs
de phrases d’une langue à l’autre en termes de nombre de caractères (ainsi, il est connu que les textes
français sont plus longs que leurs équivalents anglais : ce rapport est de l’ordre de 1,1 et varie peu
selon le genre des textes). Cette observation permet de construire un modèle probabiliste et une
mesure de dissimilarité entre phrases des deux textes à aligner, qui prennent en compte la proportion
des types d’alignements attendus m : n (m phrases dans le texte source correspondent aux n phrases
dans le texte cible). Pour de raisons de calculabilité, Gale et Church sont amenés à faire des
hypothèses simplificatrices, et en particulier à réduire le cas (m : n) à m, n ≤ 2 (cf. Tableau 5-1).
L’alignement optimal peut alors être calculé de façon efficace par un algorithme classique de
programmation dynamique. Brown et al. [BRO 91] utilisent également la même idée de corrélation
entre les longueurs de phrases, mais ils formulent le problème à l’aide de modèles de Markov cachés.
5.2.1.2. Alignement de mots et expressions
L’alignement ou l’extraction de lexiques consiste théoriquement en deux phases :
- détecter les mots et les expressions dans le texte source et le texte cible,
- mettre ces mots en correspondance.
Nombre de phrases du texte source Nombre de phrases du texte cible Type de traduction
1 1 Substitution
2 1 Compression
1 2 Extension
2 2 Mélange
1 0 Destruction
0 1 Insertion
> 1 0 Large destruction
0 > 1 Large insertion
Tableau 5-1 Différents types de traduction
Plusieurs méthodes statistiques ont été proposées pour choisir des expressions complexes d’une
langue. Pourtant les méthodes purement statistiques ne peuvent pas facilement découvrir des
opérations linguistiques réalisées sur des expressions « semi-figées » qui sont très fréquentes. En
conséquence, certaines approches linguistiques ont été proposées seules ou en combinaison avec des
méthodes statistiques. Ces méthodes se basent normalement sur des expressions régulières et des
grammaires locales.
5.2.1.3. Alignement de clauses et de structures de phrase
L’alignement des textes à un niveau supérieur aux mots ou expressions et inférieur à la phrase,
comme par exemple des clauses ou des fragments d’arbres syntaxiques, pourrait être très utile pour les
applications comme la traduction fondée sur l’exemple, l’étude comparative des langues etc. Mais
l’alignement à ce niveau soulève de grandes difficultés, car pour cela il faut d’abord détecter les
frontières des clauses ou les structures syntaxiques des textes, ce qui est une tâche très complexe. Un
second problème, encore plus délicat, naît de la grande différence de structure syntaxique pouvant
exister entre deux langues.
Plusieurs références sur ce problème sont listées dans Véronis [VER 00b].
5.2.2. Évaluation - Projets ARCADE I & II
L’action ARCADE I (1996-1999) financée par l’AUPELF-UREF (maintenant AUF) visait deux
objectifs principaux (cf. Véronis et Langlais [VER 00a]) :
- produire un grand corpus standardisé de textes multilingues alignés ;
Elle a montré que la qualité de l’alignement de phrases était fortement dépendante du degré de
parallélisme structurel des documents concernés. Sur des textes traduits avec un soin extrême de
parallélisme, la performance des meilleurs systèmes atteint environ 98% d’alignements corrects. Par
contre, face aux cas de non-parallélisme du à des causes diverses : omissions du traducteur,
différences de version, traductions abrégées, des glossaires techniques en ordre différent dans les
différentes langues, etc., tous les systèmes présentés dans l’ARCADE I ont montré une dégradation
rapide et très importante.
La campagne ARCADE II a pris la suite d’ARCADE I en octobre 2002. Dans ce nouveau projet,
deux tâches d’alignement sont évaluées : alignement des phrases et alignement des entités nommées.
Pour la première tâche, les évaluations de l’alignement du corpus JOC ((Journal officiel de la
Communauté Européenne, cf. 1.1.5.1) de l’action d’Arcade I seront reproduites, afin d’identifier les
évolutions réalisées depuis 1998, et de fournir une base de comparaison aux systèmes participants. En
plus de l’anglais, trois autres langues (allemand, espagnol, italien) sont intégrées, le français
demeurant la langue pivot. Une deuxième évaluation porte ensuite sur l’alignement d’un corpus extrait
des archives du mensuel Le monde diplomatique, où le français est toujours la langue pivot, et 6 autres
langues sont prises en compte : arabe, chinois, grec, japonais, persan et russe.
Concernant la deuxième tâche, l’évaluation porte sur un corpus bilingue français-arabe, dont les
entitées nommées dans la partie en français sont précisément annotées. Les systèmes participants ont
pour but d’identifier les entitées nommées correspondant dans la partie en arabe, qui, pour sa part,
n’est pas annotée.
Le format d’annotation des corpus est défini en prenant en compte les différentes normes et
recommandations applicables : TEI (Text Encoding Initiative), CESAlign (Corpus Encoding
Standard) et le standard TMX (Translation Memory Interchange).
Les métriques d’évaluation : Pour évaluer un alignement de phrases A par rapport à un
alignement de référence A
ref, on utilise les mesures de précision et rappel :
ref ref
A
A
A∩
=
Rappel
A
A
A∩
ref=
Précision
Le cardinal d’un alignement est calculé comme étant sa surface dans l’espace à deux dimensions
formé par le produit cartésien des deux textes, l’unité de longueur étant calculée en nombre de phrases,
de mots ou de caractères. Il a été montré dans le cadre du projet ARCADE I que ces mesures sont
fortement corrélées. En pratique, une évaluation reposant sur le nombre de caractères est donc
préférable, car elle ne dépend pas de la segmentation du texte. Pour ARCADE II, la mesure utilisée
prend en compte le nombre de caractères hors espaces, ce qui se justifie par le fait que certaines des
langues considérées n’utilisent pas (ou très peu) d’espaces.
ARCADE favorise l’utilisation de la F-mesure, qui combine le rappel et la précision dans une seule
mesure :
précision
rappel
précision
rappel
2
F
+
×
=
Pour l’évaluation de la détection des zones non parallèles (omissions, ajouts, interversions), les
mesures de rappel et de précision ne concerneront qu’un côté du bi-texte, et donc une seule dimension.
Pour le repérage de traduction (ainsi que le repérage des cognats), précision et rappel sont calculées au
niveau de chaque appariement :
référence
de
t
appariemen
l'
de
Mots
correct
Mots
Rappel= s
correct
Mots s
=
Un appariement vide est considéré comme un appariement avec un mot spécial (null). Des
moyennes différentes en fonction des classes d’unités (partie du discours) peuvent être calculées pour
l’ensemble des appariements.
5.2.3. Plan de la présentation
Dans le cadre de cette thèse, nous avons été amenée d’une part à nous intéresser aux problèmes
d’alignement au niveau des phrases, puis des mots, d’autre part à proposer une méthode permettant de
combiner ces deux approches complémentaires. La présentation de nos travaux est donc réalisée en
trois parties :
- Nous traitons dans un premier temps la problématique d’alignement au niveau de phrases
(section 5.4). Nous disposons d’un outil fondant son analyse sur la structure hiérarchique des
documents, qui s’est montré d’une grande efficacité pour le couple de langues français-anglais
dans le cadre de la campagne d’évaluation ARCADE I. Notre tâche est donc d’évaluer
l’adaptation de cet outil aux textes français-vietnamiens, et au passage, anglais-vietnamiens,
en comparant les résultats obtenus sur ces textes avec ceux sur les mêmes textes
français-anglais. Afin d’améliorer l’adaptation de l’algorithme au cas de l’alignement au vietnamien,
nous sommes amenée à introduire une nouvelle méthode de mesure de probabilité
d’association entre phrases indépendante des langues considérées.
- Dans un deuxième temps, nous abordons la question de l’alignement au niveau des mots
(section 5.5). Nous développons à partir d’une méthode classique un outil d’alignement au
niveau des unités lexicales. Un alignement à ce niveau peut être utilisé pour améliorer
l’alignement phrastique, au cas de rupture fréquente ou de codage grossier du corpus parallèle
à aligner. Dans le temps limité de la thèse, nous ne faisons qu’une petite évaluation de
l’application de cet outil à chaque coupe de langues d’un texte multilingue français -
vietnamien - anglais, dont chaque texte est passé à un pré-traitement lexical, afin de montrer la
perspective de la technique utilisée.
- Enfin, nous présentons à la section 5.6 une expérience de mise en place d’une boucle de
rétroaction par laquelle le résultat de l’alignement lexical (au niveau des mots) permet de
renforcer l’alignement structurel (au niveau de segments de texte), et réciproquement. Nous
évaluons l’apport de cette méthode par rapport aux algorithmes originaux présentés
auparavant.
Nous terminons ce chapitre sur une présentation de la campagne d’évaluation ARCADE II, et des
résultats obtenus par notre soumission. Avant de présenter ces divers points, nous discutons
brièvement à la section suivante de la construction et du codage des corpus multilingues alignés.
Dans le document
Outils et ressources linguistiques pour l'alignement de textes multilingues français-vietnamiens
(Page 164-168)