• Aucun résultat trouvé

5.2.1. Méthodes d’alignement

L’état de l’art de l’alignement multilingue est abondamment décrit dans l’ouvrage Parallel Text

Processing édité par Jean Véronis [VER 00]. Nous présentons dans cette section les traits les plus

importants des méthodologies rencontrées dans la littérature.

5.2.1.1. Alignement de phrases

Deux familles d’approches différentes peuvent être distinguées, dans la lignée de deux études

initiales qui, malgré leurs différences, reposent sur un certain nombre d’hypothèses simplificatrices

communes.

Kay et Röscheisen [KAY 93] font l’hypothèse que, pour que des phrases soient en correspondance

de traduction, il faut que les mots qui les composent soient également en correspondance. Cette

hypothèse ne fait appel qu’à une information interne, c’est-à-dire que toute l’information nécessaire (et

en particulier les correspondances lexicales) est dérivée des textes à aligner eux-mêmes. Les auteurs

utilisent le fait qu’un tel alignement des mots, même très grossier et très imparfait, peut conduire à un

alignement satisfaisant au niveau des phrases. Le point de départ de l’algorithme est un ensemble

initial de phrases raisonnablement candidates à l’alignement : la première phrase et la dernière ont de

bonnes chances de se correspondre dans chaque texte, et les phrases intermédiaires sont certainement

en correspondance dans un couloir diagonal relativement étroit. L’algorithme compare ensuite la

distribution des mots de cet ensemble de phrases dans chacun des textes et fait l’hypothèse que si ces

distributions sont similaires au-delà d’un certain seuil pour un couple de mot donné, ces mots ont de

bonnes chances d’être en relation de traduction. Les mots en question fournissent alors un ensemble de

points d’ancrage qui permette de réduire le couloir diagonal des alignements de phrases candidats. La

procédure est itérée jusqu’à convergence vers une solution minimale.

Gale et Church [GAL 91, 93] proposent une méthode qui n’utilise également qu’une information

interne, mais ne fait aucune hypothèse directe sur le contenu lexical des phrases. Les auteurs partent de

la constatation que la longueur des phrases dans le texte source et de leurs traductions dans le texte

cible sont fortement corrélées. De plus, il semble exister un rapport assez constant entre les longueurs

de phrases d’une langue à l’autre en termes de nombre de caractères (ainsi, il est connu que les textes

français sont plus longs que leurs équivalents anglais : ce rapport est de l’ordre de 1,1 et varie peu

selon le genre des textes). Cette observation permet de construire un modèle probabiliste et une

mesure de dissimilarité entre phrases des deux textes à aligner, qui prennent en compte la proportion

des types d’alignements attendus m : n (m phrases dans le texte source correspondent aux n phrases

dans le texte cible). Pour de raisons de calculabilité, Gale et Church sont amenés à faire des

hypothèses simplificatrices, et en particulier à réduire le cas (m : n) à m, n ≤ 2 (cf. Tableau 5-1).

L’alignement optimal peut alors être calculé de façon efficace par un algorithme classique de

programmation dynamique. Brown et al. [BRO 91] utilisent également la même idée de corrélation

entre les longueurs de phrases, mais ils formulent le problème à l’aide de modèles de Markov cachés.

5.2.1.2. Alignement de mots et expressions

L’alignement ou l’extraction de lexiques consiste théoriquement en deux phases :

- détecter les mots et les expressions dans le texte source et le texte cible,

- mettre ces mots en correspondance.

Nombre de phrases du texte source Nombre de phrases du texte cible Type de traduction

1 1 Substitution

2 1 Compression

1 2 Extension

2 2 Mélange

1 0 Destruction

0 1 Insertion

> 1 0 Large destruction

0 > 1 Large insertion

Tableau 5-1 Différents types de traduction

Plusieurs méthodes statistiques ont été proposées pour choisir des expressions complexes d’une

langue. Pourtant les méthodes purement statistiques ne peuvent pas facilement découvrir des

opérations linguistiques réalisées sur des expressions « semi-figées » qui sont très fréquentes. En

conséquence, certaines approches linguistiques ont été proposées seules ou en combinaison avec des

méthodes statistiques. Ces méthodes se basent normalement sur des expressions régulières et des

grammaires locales.

5.2.1.3. Alignement de clauses et de structures de phrase

L’alignement des textes à un niveau supérieur aux mots ou expressions et inférieur à la phrase,

comme par exemple des clauses ou des fragments d’arbres syntaxiques, pourrait être très utile pour les

applications comme la traduction fondée sur l’exemple, l’étude comparative des langues etc. Mais

l’alignement à ce niveau soulève de grandes difficultés, car pour cela il faut d’abord détecter les

frontières des clauses ou les structures syntaxiques des textes, ce qui est une tâche très complexe. Un

second problème, encore plus délicat, naît de la grande différence de structure syntaxique pouvant

exister entre deux langues.

Plusieurs références sur ce problème sont listées dans Véronis [VER 00b].

5.2.2. Évaluation - Projets ARCADE I & II

L’action ARCADE I (1996-1999) financée par l’AUPELF-UREF (maintenant AUF) visait deux

objectifs principaux (cf. Véronis et Langlais [VER 00a]) :

- produire un grand corpus standardisé de textes multilingues alignés ;

Elle a montré que la qualité de l’alignement de phrases était fortement dépendante du degré de

parallélisme structurel des documents concernés. Sur des textes traduits avec un soin extrême de

parallélisme, la performance des meilleurs systèmes atteint environ 98% d’alignements corrects. Par

contre, face aux cas de non-parallélisme du à des causes diverses : omissions du traducteur,

différences de version, traductions abrégées, des glossaires techniques en ordre différent dans les

différentes langues, etc., tous les systèmes présentés dans l’ARCADE I ont montré une dégradation

rapide et très importante.

La campagne ARCADE II a pris la suite d’ARCADE I en octobre 2002. Dans ce nouveau projet,

deux tâches d’alignement sont évaluées : alignement des phrases et alignement des entités nommées.

Pour la première tâche, les évaluations de l’alignement du corpus JOC ((Journal officiel de la

Communauté Européenne, cf. 1.1.5.1) de l’action d’Arcade I seront reproduites, afin d’identifier les

évolutions réalisées depuis 1998, et de fournir une base de comparaison aux systèmes participants. En

plus de l’anglais, trois autres langues (allemand, espagnol, italien) sont intégrées, le français

demeurant la langue pivot. Une deuxième évaluation porte ensuite sur l’alignement d’un corpus extrait

des archives du mensuel Le monde diplomatique, où le français est toujours la langue pivot, et 6 autres

langues sont prises en compte : arabe, chinois, grec, japonais, persan et russe.

Concernant la deuxième tâche, l’évaluation porte sur un corpus bilingue français-arabe, dont les

entitées nommées dans la partie en français sont précisément annotées. Les systèmes participants ont

pour but d’identifier les entitées nommées correspondant dans la partie en arabe, qui, pour sa part,

n’est pas annotée.

Le format d’annotation des corpus est défini en prenant en compte les différentes normes et

recommandations applicables : TEI (Text Encoding Initiative), CESAlign (Corpus Encoding

Standard) et le standard TMX (Translation Memory Interchange).

Les métriques d’évaluation : Pour évaluer un alignement de phrases A par rapport à un

alignement de référence A

ref

, on utilise les mesures de précision et rappel :

ref ref

A

A

A

=

Rappel

A

A

A

ref

=

Précision

Le cardinal d’un alignement est calculé comme étant sa surface dans l’espace à deux dimensions

formé par le produit cartésien des deux textes, l’unité de longueur étant calculée en nombre de phrases,

de mots ou de caractères. Il a été montré dans le cadre du projet ARCADE I que ces mesures sont

fortement corrélées. En pratique, une évaluation reposant sur le nombre de caractères est donc

préférable, car elle ne dépend pas de la segmentation du texte. Pour ARCADE II, la mesure utilisée

prend en compte le nombre de caractères hors espaces, ce qui se justifie par le fait que certaines des

langues considérées n’utilisent pas (ou très peu) d’espaces.

ARCADE favorise l’utilisation de la F-mesure, qui combine le rappel et la précision dans une seule

mesure :

précision

rappel

précision

rappel

2

F

+

×

=

Pour l’évaluation de la détection des zones non parallèles (omissions, ajouts, interversions), les

mesures de rappel et de précision ne concerneront qu’un côté du bi-texte, et donc une seule dimension.

Pour le repérage de traduction (ainsi que le repérage des cognats), précision et rappel sont calculées au

niveau de chaque appariement :

référence

de

t

appariemen

l'

de

Mots

correct

Mots

Rappel= s

correct

Mots s

=

Un appariement vide est considéré comme un appariement avec un mot spécial (null). Des

moyennes différentes en fonction des classes d’unités (partie du discours) peuvent être calculées pour

l’ensemble des appariements.

5.2.3. Plan de la présentation

Dans le cadre de cette thèse, nous avons été amenée d’une part à nous intéresser aux problèmes

d’alignement au niveau des phrases, puis des mots, d’autre part à proposer une méthode permettant de

combiner ces deux approches complémentaires. La présentation de nos travaux est donc réalisée en

trois parties :

- Nous traitons dans un premier temps la problématique d’alignement au niveau de phrases

(section 5.4). Nous disposons d’un outil fondant son analyse sur la structure hiérarchique des

documents, qui s’est montré d’une grande efficacité pour le couple de langues français-anglais

dans le cadre de la campagne d’évaluation ARCADE I. Notre tâche est donc d’évaluer

l’adaptation de cet outil aux textes français-vietnamiens, et au passage, anglais-vietnamiens,

en comparant les résultats obtenus sur ces textes avec ceux sur les mêmes textes

français-anglais. Afin d’améliorer l’adaptation de l’algorithme au cas de l’alignement au vietnamien,

nous sommes amenée à introduire une nouvelle méthode de mesure de probabilité

d’association entre phrases indépendante des langues considérées.

- Dans un deuxième temps, nous abordons la question de l’alignement au niveau des mots

(section 5.5). Nous développons à partir d’une méthode classique un outil d’alignement au

niveau des unités lexicales. Un alignement à ce niveau peut être utilisé pour améliorer

l’alignement phrastique, au cas de rupture fréquente ou de codage grossier du corpus parallèle

à aligner. Dans le temps limité de la thèse, nous ne faisons qu’une petite évaluation de

l’application de cet outil à chaque coupe de langues d’un texte multilingue français -

vietnamien - anglais, dont chaque texte est passé à un pré-traitement lexical, afin de montrer la

perspective de la technique utilisée.

- Enfin, nous présentons à la section 5.6 une expérience de mise en place d’une boucle de

rétroaction par laquelle le résultat de l’alignement lexical (au niveau des mots) permet de

renforcer l’alignement structurel (au niveau de segments de texte), et réciproquement. Nous

évaluons l’apport de cette méthode par rapport aux algorithmes originaux présentés

auparavant.

Nous terminons ce chapitre sur une présentation de la campagne d’évaluation ARCADE II, et des

résultats obtenus par notre soumission. Avant de présenter ces divers points, nous discutons

brièvement à la section suivante de la construction et du codage des corpus multilingues alignés.