Description de la méthode - Méthodes d’alignement basées sur la corrélation des longueurslongue

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Algorithme 1 Alignement des phrases de Kay et Röscheisen

2.2 Méthodes d’alignement basées sur la corrélation des longueurslongueurs

2.2.1 Description de la méthode

La méthode de Brown, ainsi que celle de Gale, réalisent toutes deux le traite-ment en deux opérations : un pré-alignetraite-ment grossier – c’est-à-dire un alignetraite-ment au niveau section ou paragraphe – puis l’alignement des phrases à proprement parler.

Pré-alignement

On considère les indices de section tels que les titres conventionnels ou les signes typographiques comme points d’ancrage.

Méthode de Brown La méthode de Brown distingue d’abord ces points

d’an-crage en deux types : petite ancre et grande ancre (minor et major en anglais). En général, les grandes ancres sont systématiquement traduites et les petites ancres sont parfois omises dans la/les traduction(s). L’alignement des points d’ancrage est ensuite réalisé en deux passages, le premier alignant les grandes ancres et le se-cond les petites ancres. Au premier passage, on assigne à tous les couples possibles de grandes ancres des deux textes un coût compris entre 0 et 10 selon la similarité des deux séquences de caractères, la similarité maximum étant représentée par un coût nul. On réalise ensuite un alignement en considérant la minimisation de ce coût comme un problème standard de programmation dynamique. Le premier passage transforme les textes d’entrée en une séquence de sections situées entre deux grandes ancres alignées. Au second passage, on compte le nombre de pe-tites ancres de chaque section afin d’éliminer celles pour lesquelles le nombre et l’ordre des petites ancres dans les deux textes d’entrée diffèrent. Cette opération rejette environ 10% des données de chaque texte d’entrée.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

Méthode de Gale La méthode de Gale propose un alignement automatique de

paragraphes balisés par des ancres, mais elle doit être suivie d’une vérification ma-nuelle. Les auteurs mentionnent à la fin une possibilité d’amélioration par l’utili-sation d’un algorithme plus élaboré pour l’alignement de paragraphes. L’amélio-ration proposée consiste en une distinction des ancres en deux types : dur (hard en anglais) et mou (soft). Les ancres dures doivent se trouver en nombre égal dans les deux textes d’entrée et elles ne peuvent pas être modifiées. En revanche, on peut déplacer les ancres molles si nécessaire tout en respectant la contrainte éta-blie par les ancres dures. Ainsi, on pourra explorer la totalité des données sans être obligé d’en abandonner une partie si certaines ancres ne correspondent pas dans les deux textes d’entrée.

Alignement de phrases

Cette étape est dédiée à l’alignement des phrases contenues entre deux ancres. Brown réalise cette opération à l’aide d’un modèle de Markov caché et Gale par une méthode de programmation dynamique.

Méthode de Brown La méthode de Brown définit le texte T_l écrit dans la langue

l comme une simple séquence de longueurs de phrases n_l (nombre de mots gra-phiques), balisée éventuellement par des marqueurs de paragraphe – retour cha-riot ¶_l. Par exemple, un corpus parallèle composé d’une part d’un texte en français constitué de trois phrases contenant respectivement 19, 20 et 8 mots graphiques, se terminant par un retour chariot, et d’autre part d’un texte en anglais constitué de trois phrases contenant respectivement 17, 25 et 12 mots graphiques, se termi-nant par un retour chariot, est représenté comme suit :

T_f : 19_f20_f8_f¶_f

Ta: 17a25a12a¶a

On appelle « perle » l’ensemble des phrases et des marqueurs de paragraphe ali-gnés.

Les auteurs posent comme hypothèse qu’une phrase dans une langue corres-pond à zéro, une ou deux phrases dans l’autre langue. Ainsi, huit types de perle sont possibles. Par exemple, dans le cas d’un alignement français-anglais, nous avons les huit possibilités de perle suivantes :

– perle-fa : une phrase française et une phrase anglaise ; – perle-f : une phrase française et aucune phrase anglaise ; – perle-a : aucune phrase française et une phrase anglaise ; – perle-ffa : deux phrases françaises et une phrase anglaise ; – perle-faa : une phrase française et deux phrases anglaises ;

– perle-¶_f : un marqueur de paragraphe français et aucun marqueur anglais ; – perle-¶_a: aucun marqueur de paragraphe français et un marqueur anglais ; – perle-¶_f¶_a: un marqueur de paragraphe français et un marqueur anglais. 64

2.2. Méthodes d’alignement basées sur la corrélation des longueurs

Un alignement est donc une séquence de certaines de ces huit perles repré-sentant des phrases et des marqueurs de paragraphe. Si l’alignement correct des textes d’exemple est :

{ (1^èrephrase française - 19_f, 1^èrephrase anglaise - 17_a),

(2èmeet 3èmephrases françaises - 20_f8_f, 2èmephrase anglaise - 25_a), (3^èmephrase anglaise - 12a),

(marqueur de paragraphe - ¶_f, marqueur de paragraphe - ¶_a) } il est représenté comme :

(perle-fa, perle-ffa, perle-a, perle-¶_f¶a).

La séquence de perles représentant l’alignement valide est générée par deux processus aléatoires : le premier est la génération des perles et le second le calcul de la probabilité de chacune des perles considérées en fonction des longueurs des phrases qu’elle contient.

Ces deux processus constituent un modèle de Markov caché.

Méthode de Gale La longueur des phrases est mesurée en terme de nombre de

caractères, par contraste avec la méthode précédente qui la mesure par le nombre de mots graphiques. Les auteurs justifient leur choix par le fait qu’ils ont obtenu de moins bons résultats avec la version « mots » qu’avec la version « caractères ». Cette différence provient, d’après eux, du nombre plus élevé de caractères (dans leur étude, la longueur moyenne d’une phrase est de 117 caractères contre 17 mots seulement).

Pour l’hypothèse des combinaisons possibles de phrases à aligner, Gale ajoute aux cinq possibilités proposées par Brown, une autre combinaison constituée de deux phrases de chaque texte. Il s’agit de la situation où la première phrase du texte A et la première phrase du texte B ne sont pas des traductions mutuelles, ni les deuxièmes phrases des deux textes, mais où l’ensemble de la première et de la deuxième phrase du texte A constitue une traduction de l’ensemble de la première et de la deuxième phrase du texte B. Ainsi, Gale définit les six modèles de traduction suivants : 1. substitution (1-1) ; 2. suppression (1-0) ; 3. insertion (0-1) ; 4. contraction (2-1) ; 5. expansion (1-2) ; 6. fusion (2-2).

En s’appuyant sur cette hypothèse, les opérations se déroulent comme suit : – Soit D(i , j ) le meilleur score entre les phrases P₁,...,P_i et leurs traductions

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

– Pour chaque paire de paragraphes alignés,

considérer toutes les possibilités de couples constitués d’une phrase du texte de base, P_i(1 ≤ i ≤ I), et d’une phrase du texte en regard, Tj(1 ≤ j ≤ J) ; 1. calculer pour chaque couple (P_i,T_j) le coût de chacun des six modèles

à l’aide de la fonction d.

La fonction d(x₁, y₁; x₂, y₂) est basée sur un modèle probabiliste qui produit à partir de leurs longueurs et de la probabilité du modèle de traduction qui les connecte, une approximation de la probabilité que les deux segments de chaque texte considéré soient des traductions mutuelles :

a) d(x₁, y₁;0,0) donne le coût de la substitution de x₁avec y₁; b) d(x1,0;0,0) donne le coût de la suppression de x1;

c) d(0, y₁;0,0) donne le coût de l’insertion de y₁;

d) d(x₁, y₁; x₂,0) donne le coût de la contraction de x₁et x₂en y₁; e) d(x₁, y₁;0, y₂) donne le coût de l’expansion de x₁en y₁et y₂;

f) d(x1, y1; x2, y2) donne le coût de la fusion de x1 et x2 correspon-dant à l’ensemble y₁et y₂;

2. assigner à chaque couple (P_i,T_j) le meilleure score jusqu’au point (i , j ) à l’aide de la fonction D.

La fonction D(i , j ) calcule le minimum des six cas de modèle :

D(i , j ) = min                  D(i − 1, j − 1) + d(x₁, y₁;0,0) D(i − 1, j) + ^d(x1,0;0,0) D(i , j − 1) + d(0, y1;0,0) D(i − 2, j − 1) + d(x1, y₁; x₂,0) D(i − 1, j − 2) + d(x1, y₁;0, y₂) D(i − 2, j − 2) + d(x1, y1; x2, y2)

3. déterminer la séquence de couples ayant le meilleur score, représen-tant un alignement valide.

Dans le document Alignement automatique de textes parallèles Français-Japonais (Page 64-67)