• Aucun résultat trouvé

L’alignement automatique des corpus

2.2 L’alignement automatique des phrases

2.2.1 L’alignement par longueurs de segments

Les méthodes proposées par Gale et Church ou Brown, Lai et Mercer reposent sur un certain nombre d’hypothèses communes qui permettent de les considérer comme un même type d’alignement que l’on appellera ici alignement par

longueurs des segments 39. Ce type d’alignement fait appel à un ensemble de

règles opératoires fondées sur l’observation de corrélations entre la longueur

37

Sur ces questions, on consultera, par exemple, [Kraif, 2001], disponible sur : http://www.u-grenoble3.fr/kraif/publis/these.pdf.

38 Sur la description de principaux algorithmes d’alignement, voir [Klevbacke, 2001] : http://www.dtek.chalmers.se/~d95ankle/algorithms-ac-project.html.

39

Chapitre 2 : L’alignement automatique des corpus 56

d’un segment source et celle de sa traduction. Les auteurs partent de la constatation que la longueur des phrases dans le texte source et celles de leur traduction dans le texte cible sont fortement corrélées et qu’il existe un rapport assez constant entre ces longueurs d’une langue à l’autre 40.

Les principales différences entre les deux familles d’algorithmes résident dans la métrique employée pour calculer la longueur des phrases. Brown, Lai et Mercer fondent leur algorithme sur le nombre des mots dans chaque phrase 41. Pour chaque mot dans la phrase du texte cible, on choisit un unique mot source. L’appariement est unidirectionnel : les calculs de correspondance ne fonctionnent que dans le sens source-cible. De ce fait, certains mots du texte cible ne sont pas pris en compte et restent sans correspondance directe dans le texte source. Si l’algorithme ne trouve pas de correspondance pour un mot source, ce mot est lié à un mot vide et reçoit une correspondance zéro. Gale et Church estiment que les données en nombre de caractères conviennent d’avantage pour l’alignement parce que les caractères sont plus nombreux et constituent une donnée plus stable.

Les deux méthodes ne font aucune hypothèse directe sur le contenu lexical des phrases à apparier et demeurent dans le cadre de l’alignement statistique. Les textes bilingues soumis au traitement sont d’abord alignés au niveau des paragraphes. Le calcul des correspondances de paragraphes est fait soit par un simple appariement un-pour-un, soit par l’utilisation du même algorithme

40

L’étude de corpus de textes bilingues effectuée dans le cadre du projet ARCADE a montré, par exemple, qu’il existe un rapport relativement constant entre la longueur des textes français mesurée en nombre de caractères et leurs équivalents anglais. Les textes français sont généralement plus longs, cf. Langlais et al. [1998] ; Véronis et Langlais [2000].

41

Plusieurs algorithmes d’alignement nécessitent une segmentation préalable des phrases en mots. Cette information est requise pour l’implémentation des mécanismes de recherche axés sur les mots plutôt que sur les chaînes de caractères. La segmentation en mots est faite en utilisant les frontières habituelles (espace, retour chariot, ponctuation), aussi bien que des règles spécifiques à chaque langue pour segmenter des chaînes de caractères qui sont des agrégats de plusieurs mots. Par exemple : jusqu’alors -> jusqu’ + alors ; women’s rights -> women + s’ + rights (le caractère « + » marque l’endroit où la segmentation a été faite). Ce repérage est très délicat lorsqu’il s’agit d’un certain nombre de caractères qui fonctionnent soit comme séparateurs, soit comme composants de mots (le trait d’union, par exemple) : dis-le (valeur grammaticale) et casse-tête (unité polylexicale).

Chapitre 2 : L’alignement automatique des corpus 57

d’alignement par longueur des segments. A l’intérieur des couples de paragraphes ainsi obtenus, on procède à l’alignement des phrases. Une probabilité est ensuite attribuée à chaque paire de phrases proposée pour l’appariement. Cette valeur est utilisée par un algorithme de programmation

dynamique 42 pour trouver une paire de phrases dont les caractéristiques sont

potentiellement appropriées pour l’alignement 43. Les types d’alignement admis sont limités à des schèmes de traduction suivants décrits ci-dessous :

• une phrase d’un texte source est traduite par une phrase dans un texte cible ;

• deux phrases consécutives se traduisent par une phrase ;

• une phrase se traduit par deux phrases qui se suivent ;

• deux phrases consécutives se traduisent par deux phrases qui se suivent ;

• une phrase d’un texte source reste sans traduction ;

• une phrase sans équivalent dans un texte source est introduite par le traducteur.

Les algorithmes d’alignement par longueur respectent deux limitations :

• conserver l’ordre des segments

a) correspondances admises b) correspondances rejetées

S1 – – – C1 S1 C1

S2 – – – C2 S2 C2

• conserver les correspondances plusieurs-pour-plusieurs à condition qu’elles ne dépassent pas un petit nombre (généralement de deux) 44.

42

La programmation dynamique est une méthode de résolution qui permet de déterminer une solution optimale d’un problème à partir des solutions de tous les sous-problèmes.

43

Chaque alignement possible reçoit un score qui reflète la qualité des corrélations de longueur qu’il contient. Un bon score dépend des conditions suivantes : 1) les longueurs des phrases ont une bonne corrélation ; 2) l’alignement donne une bonne résolution (le mécanisme de pointage permet de pénaliser un alignement qui réduit la résolution).

44

Chapitre 2 : L’alignement automatique des corpus 58

Les premiers succès dans l’alignement de phrases de corpus bilingues ont suscité des expérimentations plus ambitieuses sur des corpus de textes parallèles composés de plusieurs volets multilingues 45. Simard [2000] a développé une approche originale d’alignement qui repose sur l’utilisation de multiples versions d’un même texte pour obtenir une meilleure estimation de « similarité » de séquences textuelles dans des langues différentes 46.