• Aucun résultat trouvé

Description de la méthode

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Algorithme 1 Alignement des phrases de Kay et Röscheisen

2.2 Méthodes d’alignement basées sur la corrélation des longueurslongueurs

2.2.1 Description de la méthode

La méthode de Brown, ainsi que celle de Gale, réalisent toutes deux le traite-ment en deux opérations : un pré-alignetraite-ment grossier – c’est-à-dire un alignetraite-ment au niveau section ou paragraphe – puis l’alignement des phrases à proprement parler.

Pré-alignement

On considère les indices de section tels que les titres conventionnels ou les signes typographiques comme points d’ancrage.

Méthode de Brown La méthode de Brown distingue d’abord ces points

d’an-crage en deux types : petite ancre et grande ancre (minor et major en anglais). En général, les grandes ancres sont systématiquement traduites et les petites ancres sont parfois omises dans la/les traduction(s). L’alignement des points d’ancrage est ensuite réalisé en deux passages, le premier alignant les grandes ancres et le se-cond les petites ancres. Au premier passage, on assigne à tous les couples possibles de grandes ancres des deux textes un coût compris entre 0 et 10 selon la similarité des deux séquences de caractères, la similarité maximum étant représentée par un coût nul. On réalise ensuite un alignement en considérant la minimisation de ce coût comme un problème standard de programmation dynamique. Le premier passage transforme les textes d’entrée en une séquence de sections situées entre deux grandes ancres alignées. Au second passage, on compte le nombre de pe-tites ancres de chaque section afin d’éliminer celles pour lesquelles le nombre et l’ordre des petites ancres dans les deux textes d’entrée diffèrent. Cette opération rejette environ 10% des données de chaque texte d’entrée.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

Méthode de Gale La méthode de Gale propose un alignement automatique de

paragraphes balisés par des ancres, mais elle doit être suivie d’une vérification ma-nuelle. Les auteurs mentionnent à la fin une possibilité d’amélioration par l’utili-sation d’un algorithme plus élaboré pour l’alignement de paragraphes. L’amélio-ration proposée consiste en une distinction des ancres en deux types : dur (hard en anglais) et mou (soft). Les ancres dures doivent se trouver en nombre égal dans les deux textes d’entrée et elles ne peuvent pas être modifiées. En revanche, on peut déplacer les ancres molles si nécessaire tout en respectant la contrainte éta-blie par les ancres dures. Ainsi, on pourra explorer la totalité des données sans être obligé d’en abandonner une partie si certaines ancres ne correspondent pas dans les deux textes d’entrée.

Alignement de phrases

Cette étape est dédiée à l’alignement des phrases contenues entre deux ancres. Brown réalise cette opération à l’aide d’un modèle de Markov caché et Gale par une méthode de programmation dynamique.

Méthode de Brown La méthode de Brown définit le texte Tl écrit dans la langue

l comme une simple séquence de longueurs de phrases nl (nombre de mots gra-phiques), balisée éventuellement par des marqueurs de paragraphe – retour cha-riot ¶l. Par exemple, un corpus parallèle composé d’une part d’un texte en français constitué de trois phrases contenant respectivement 19, 20 et 8 mots graphiques, se terminant par un retour chariot, et d’autre part d’un texte en anglais constitué de trois phrases contenant respectivement 17, 25 et 12 mots graphiques, se termi-nant par un retour chariot, est représenté comme suit :

Tf : 19f20f8ff

Ta: 17a25a12aa

On appelle « perle » l’ensemble des phrases et des marqueurs de paragraphe ali-gnés.

Les auteurs posent comme hypothèse qu’une phrase dans une langue corres-pond à zéro, une ou deux phrases dans l’autre langue. Ainsi, huit types de perle sont possibles. Par exemple, dans le cas d’un alignement français-anglais, nous avons les huit possibilités de perle suivantes :

– perle-fa : une phrase française et une phrase anglaise ; – perle-f : une phrase française et aucune phrase anglaise ; – perle-a : aucune phrase française et une phrase anglaise ; – perle-ffa : deux phrases françaises et une phrase anglaise ; – perle-faa : une phrase française et deux phrases anglaises ;

– perle-¶f : un marqueur de paragraphe français et aucun marqueur anglais ; – perle-¶a: aucun marqueur de paragraphe français et un marqueur anglais ; – perle-¶fa: un marqueur de paragraphe français et un marqueur anglais. 64

2.2. Méthodes d’alignement basées sur la corrélation des longueurs

Un alignement est donc une séquence de certaines de ces huit perles repré-sentant des phrases et des marqueurs de paragraphe. Si l’alignement correct des textes d’exemple est :

{ (1èrephrase française - 19f, 1èrephrase anglaise - 17a),

(2èmeet 3èmephrases françaises - 20f8f, 2èmephrase anglaise - 25a), (3èmephrase anglaise - 12a),

(marqueur de paragraphe - ¶f, marqueur de paragraphe - ¶a) } il est représenté comme :

(perle-fa, perle-ffa, perle-a, perle-¶fa).

La séquence de perles représentant l’alignement valide est générée par deux processus aléatoires : le premier est la génération des perles et le second le calcul de la probabilité de chacune des perles considérées en fonction des longueurs des phrases qu’elle contient.

Ces deux processus constituent un modèle de Markov caché.

Méthode de Gale La longueur des phrases est mesurée en terme de nombre de

caractères, par contraste avec la méthode précédente qui la mesure par le nombre de mots graphiques. Les auteurs justifient leur choix par le fait qu’ils ont obtenu de moins bons résultats avec la version « mots » qu’avec la version « caractères ». Cette différence provient, d’après eux, du nombre plus élevé de caractères (dans leur étude, la longueur moyenne d’une phrase est de 117 caractères contre 17 mots seulement).

Pour l’hypothèse des combinaisons possibles de phrases à aligner, Gale ajoute aux cinq possibilités proposées par Brown, une autre combinaison constituée de deux phrases de chaque texte. Il s’agit de la situation où la première phrase du texte A et la première phrase du texte B ne sont pas des traductions mutuelles, ni les deuxièmes phrases des deux textes, mais où l’ensemble de la première et de la deuxième phrase du texte A constitue une traduction de l’ensemble de la première et de la deuxième phrase du texte B. Ainsi, Gale définit les six modèles de traduction suivants : 1. substitution (1-1) ; 2. suppression (1-0) ; 3. insertion (0-1) ; 4. contraction (2-1) ; 5. expansion (1-2) ; 6. fusion (2-2).

En s’appuyant sur cette hypothèse, les opérations se déroulent comme suit : – Soit D(i , j ) le meilleur score entre les phrases P1,...,Pi et leurs traductions

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

– Pour chaque paire de paragraphes alignés,

considérer toutes les possibilités de couples constitués d’une phrase du texte de base, Pi(1 ≤ i ≤ I), et d’une phrase du texte en regard, Tj(1 ≤ j ≤ J) ; 1. calculer pour chaque couple (Pi,Tj) le coût de chacun des six modèles

à l’aide de la fonction d.

La fonction d(x1, y1; x2, y2) est basée sur un modèle probabiliste qui produit à partir de leurs longueurs et de la probabilité du modèle de traduction qui les connecte, une approximation de la probabilité que les deux segments de chaque texte considéré soient des traductions mutuelles :

a) d(x1, y1;0,0) donne le coût de la substitution de x1avec y1; b) d(x1,0;0,0) donne le coût de la suppression de x1;

c) d(0, y1;0,0) donne le coût de l’insertion de y1;

d) d(x1, y1; x2,0) donne le coût de la contraction de x1et x2en y1; e) d(x1, y1;0, y2) donne le coût de l’expansion de x1en y1et y2;

f) d(x1, y1; x2, y2) donne le coût de la fusion de x1 et x2 correspon-dant à l’ensemble y1et y2;

2. assigner à chaque couple (Pi,Tj) le meilleure score jusqu’au point (i , j ) à l’aide de la fonction D.

La fonction D(i , j ) calcule le minimum des six cas de modèle :

D(i , j ) = min                  D(i − 1, j − 1) + d(x1, y1;0,0) D(i − 1, j) + d(x1,0;0,0) D(i , j − 1) + d(0, y1;0,0) D(i − 2, j − 1) + d(x1, y1; x2,0) D(i − 1, j − 2) + d(x1, y1;0, y2) D(i − 2, j − 2) + d(x1, y1; x2, y2)

3. déterminer la séquence de couples ayant le meilleur score, représen-tant un alignement valide.