diagonalité de l’alignement - É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Hypothèse 2 diagonalité de l’alignement

La seconde hypothèse est la correspondance des phrases selon la diagonale de la matrice ayant comme cardinal le nombre de phrases du texte A multiplié par le nombre de phrases du texte B.

La matrice et la diagonale pour les deux textes d’exemple A et B sont ainsi :

B3 · · •

B₂ _· _• _· B₁ _• _· _· A1 A2 A3

Diagonale = {(A1,B1),(A2,B2),(A3,B3)} 52

2.1. Méthode basée sur les informations de correspondance lexicale 2.1.2 Table « Word-Sentence Index » (WSI)

Les occurrences d’un élément a n’ont pas forcément la même forme. Si l’une des langues considérées possède le concept de nombre et que a est un substantif, il peut apparaître avec ou sans la marque du pluriel. Ou encore s’il s’agit d’une langue flexionnelle, il est possible qu’il change de forme à chaque occurrence.

Afin de résoudre ce problème, l’algorithme commence par une étape prépara-toire, pendant laquelle il cherche à réunir les éléments ayant le même contenu sé-mantique en leur attribuant une « forme normalisée ». Nous appelons ces formes ci-après « lemmes » (ou « formes de base »), encore que les formes obtenues avec la méthode de Kay n’aient souvent rien à voir avec les lemmes obtenus par des méthodes purement linguistiques.

Afin de concevoir un système capable de traiter n’importe quelle langue, les auteurs écartent la possibilité de recourir à des moyens extérieurs tels qu’un dic-tionnaire ou un analyseur morphologique, choisissant ainsi une méthode ne per-mettant d’obtenir qu’un résultat assez grossier mais considéré comme suffisant. En effet, le véritable objectif étant l’alignement des phrases, ils considèrent qu’une analyse morphologique très fine et précise n’est pas forcément nécessaire.

Ils posent comme hypothèse que les lemmes sont des sous-chaînes préfixales ou suffixales, donc qu’un mot est divisé en deux parties – dont l’une est le lemme, l’autre appartenant au paradigme de préfixe ou de suffixe. La division est considé-rée comme sûre si les deux parties apparaissent chacune dans d’autres mots.

Cette division est réalisée à l’aide d’une structure de données appelée trie (car élément d’un processus d’« information retrieval » (Knuth, 1997)). Elle permet de reconnaître les séquences initiales ou finales communes à plusieurs mots. Soit la liste des mots :

abcde abc f g abch abci j

trie nous donne comme information que la chaîne abc est une sous-chaîne

ini-tiale des quatre mots.

Les auteurs considèrent ensuite que les séquences communes à plusieurs mots marquent la frontière entre la forme de base et la sous-chaîne affixale. La chaîne abc étant la séquence commune, elle marque dans les quatre mots qui la contiennent une frontière comme suit :

abcde −→ abc + de abc f g −→ abc + f g abch −→ abc + h abci j −→ abc + i j

Après avoir détecté la frontière, on détermine le lemme. Le lemme est la sous-chaîne la plus longue des deux parties divisées par la frontière. Par exemple, la

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

détection dans le mot graphique « nouveaux » de la frontière entre « nouve » et « aux » entraînerait la caractérisation de « nouve » comme lemme.

Cette forme de base permet également de rassembler plusieurs formes effec-tives considérées comme des mots représentant le même contenu.

Le lemme rassemble plusieurs formes effectives sous une même forme de base. Prenons comme exemple le lemme « nouve ». Il pourrait regrouper les mots graphiques « nouveaux », « nouvelle », « nouvelles » comme ses formes effectives.

Ainsi, est obtenu le lemme de chaque mot qui constitue la table WSI.

2.1.3 Table « Alignable Sentence Table » (AST)

En s’appuyant sur les hypothèses décrites précédemment, la méthode réalise d’abord le calcul de la diagonale représentant les paires de phrases susceptibles d’être alignées et construit la table AST.

Soient les textes parallèles

texte A : texte B :

abc – phrase A₁ αβγ – phrase B₁

ade – phrase A₂ αδθ – phrase B₂

cb f – phrase A3 γβλ – phrase B3

ab f – phrase A₄ αβλ – phrase B₄

La diagonale de A × B est :

Diagonale = {(A1,B1),(A2,B2),(A3,B3),(A4,B4)}

Lors de l’alignement de textes réels, le calcul de la diagonale est plus com-pliqué que dans le présent exemple, car le nombre de phrases de chacun des deux textes est généralement différent, et surtout nous devons poser comme hypothèse qu’une phrase peut avoir plus d’une phrase correspondante.

Les deux extrémités des textes (la première phrase de chaque texte et la der-nière phrase de chaque texte) sont deux paires dont la relation traductionnelle est quasiment sûre, paires que nous appellerons « ancres ». Ainsi, la première phrase d’un texte est associée avec celle de l’autre texte et sa dernière phrase avec celle de l’autre texte.

Pour les autres phrases situées entre ces deux ancres, la jèmephrase du texte

A est associée avec plusieurs phrases du texte B aux positions proches de la

dia-gonale. Plus la phrase considérée s’éloigne de l’ancre, plus le nombre de phrases avec lesquelles elle est associée est important.

Les paires de phrases susceptibles d’être alignées sont donc beaucoup plus nombreuses que le cas simple que présente l’exemple, ce qui entraîne plus de cal-cul dans les autres étapes également.

2.1. Méthode basée sur les informations de correspondance lexicale 2.1.4 Table « Word Alignment Table » (WAT)

Les éléments d’une paire de phrases susceptibles d’être alignées sont ensuite comparés afin de calculer leur similarité de distribution.

Les distributions de chaque élément de l’exemple sont : distribution de a = {A₁, A₂, A₄} distribution de b = {A₁, A₃, A₄} distribution de c = {A1, A3} distribution de d = {A₂} distribution de e = {A₂} distribution de f = {A3, A4} distribution de α = {B₁,B₂,B₄} distribution de β = {B₁,B₃,B₄} distribution de γ = {B1,B3} distribution de δ = {B₂} distribution de θ = {B₂} distribution de λ = {B3,B4}

Si un certain nombre de paires, constituées d’une occurrence de chaque élé-ment à comparer, coïncident avec des paires de phrases susceptibles d’être ali-gnées (i.e. la diagonale), ces deux éléments sont considérés comme éléments cor-respondants.

Par exemple, nous obtenons à partir des distributions de a et de α, les paires de phrases suivantes qui coïncident avec les paires de phrases susceptibles d’être ali-gnées :

{(A₁,B₁),(A₂,B₂),(A₄,B₄)}

Nous considérons donc les éléments a et α comme éléments correspondants. Autrement dit, plus le cardinal de l’intersection entre le produit cartésien des distributions de deux éléments et la diagonale est proche du nombre moyen de cardinaux de la distribution de ces deux éléments, plus la probabilité de corres-pondance de ces deux éléments est élevée.

Le produit cartésien des distributions de a et de α est :

R = { (A1,B₁),(A₁,B₂),(A₁,B₄),(A₂,B₁),

(A₂,B₂),(A₂,B₄),(A₄,B₁),(A₄,B₂),(A₄,B₄) } L’intersection entre la relation ci-dessus et la diagonale est :

R ∩ Diagonale = {(A1,B₁),(A₂,B₂),(A₄,B₄)}

La similarité des éléments est calculée à partir de ce cardinal de l’intersection à l’aide du coefficient de Dice (van Rijsbergen, 1979) :

similarité = ² ¯

¯R ∩Diagonale^¯¯

|distribution de a| + |distribution de α|^{= 1}

La similarité pouvant être comprise entre 0 et 1, une valeur 1 signifie que les élé-ments (ici a et α) sont considérés comme éléélé-ments correspondants.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

Nous obtenons ainsi les paires d’éléments supposés correspondre : (a,α) : distributions a × α = {(A1,B₁),(A₂,B₂),(A₄,B₄)} (b,β) : distributions b × β = {(A1,B₁),(A₃,B₃),(A₄,B₄)} (c,γ) : distributions c × γ = {(A1,B₁),(A₃,B₃)}

(d,δ) : distributions d × δ = {(A2,B₂)} (e,θ) : distributions e × θ = {(A2,B2)}

(f ,λ) : distributions f × λ = {(A3,B₃),(A₄,B₄)} Ces paires d’éléments appariés constituent la tableWAT.

Par ailleurs, cette méthode de calcul de la similarité est étudiée par beaucoup de chercheurs et un grand nombre d’améliorations ont été proposées. Nous pré-sentons l’ensemble de ces travaux dans la section 2.1.7.

2.1.5 Table « Sentence Alignment Table » (SAT)

La procédure se poursuit par le calcul du nombre d’éléments correspondants que contient chaque paire de phrases susceptibles d’être alignées afin d’apparier les phrases et de construire la tableSAT.

(A1,B1) contient (a,α), (b,β) et (c,γ) (A₂,B₂) contient (a,α), (d,δ) et (e,θ) (A₃,B₃) contient (b,β), (c,γ) et (f ,λ) (A4,B4) contient (a,α), (b,β) et (f ,λ)

Si les correspondances sont justifiées par plusieurs éléments correspondants, alors les phrases sont considérées comme alignées. Ainsi, dans notre exemple, les phrases A₁et B₁sont alignées, de même que A₂et B₂, A₃et B₃et A₄et B₄.

Ce calcul de l’associativité des paires de phrases est semblable à celui de l’étape de création de la tableWATsauf qu’il exige une désambiguïsation des paires de phrases. Une paire de phrases est considérée comme ambiguë si une des oc-currences d’un mot peut être associée avec plus d’une occurrence du mot avec laquelle elle est appariée.

Par exemple, supposons que la paire de mots (MA i , MB

j) appartienne à la tableWAT, et que l’ensemble des phrases {P_r,...,P_s} soit les occurrences de MA

i et {Pt,...,Pu}, celles de M^B_j.

Bien que (P_r,P_t) appartienne à la tableAST, s’il y a une autre occurrence de

i telle que (P_v,P_t) appartient à la tableASTou qu’il y a une autre occurrence de

M^B_j telle que (Pr,Pw) appartient à la tableAST, alors la paire (Pv,Pt) est considérée comme ambiguë et n’est pas prise en compte, de même que l’autre paire (P_r,P_w) ou (P_v,P_t) est ignorée.

Les paires de phrases de la table SAT, qui ont été associées par un certain nombre de paires de mots, sont considérées comme des « ancres ». Toutes les opérations consistent en fait à trouver les paires de phrases entre deux ancres, qui deviendront elles-mêmes des ancres aux itérations suivantes. Ce processus est ainsi recommencé de manière à trouver, entre deux ancres obtenues lors de précédentes itérations, de nouvelles paires de phrases qui seront considérées par 56

2.1. Méthode basée sur les informations de correspondance lexicale

la suite comme de nouvelles ancres. Ces opérations sont répétées jusqu’à ce que toutes les phrases du texte A soient associés avec celles du texte B.

2.1.6 Algorithme général

Nous présentons dans cette section l’algorithme dans sa totalité.

Dans le document Alignement automatique de textes parallèles Français-Japonais (Page 53-58)