L’espace formel des alignements sous-phrastiques

CHAPITRE 2 : L’ENSEMBLE DES ALIGNEMENTS

2.1 Discussion en faveur d’un modèle d’alignement adapté aux divergences

2.2.2 L’espace formel des alignements sous-phrastiques

On définit ici un alignement entre deux listes d’éléments2 _{S = (s}

1, . . . , sn) et C =

(c1, . . . , cm). En pratique, ces éléments peuvent être des textes, des paragraphes, des

phrases, des mots ou des caractères. Dans notre cas, les éléments siet cj(pour 1 ≤ i ≤ n

et 1 ≤ j ≤ m) seront des "mots" issus d’une segmentation automatique (les analyseurs utilisés sont présentés partie 6.1.2). On notera B = (S,C) la biphrase formée par S et C. On dira que B est une biphrase de longueur (n,m).

Nous avons déjà écarté en partie 2.1 la possibilité de définir simplement un alignement comme un ensemble de liens entre S et C en interdisant les formes dégénérées, peu pertinentes linguistiquement (revoir figure 2.1 page 36). La définition souhaitée doit

2_{Le S et le C sont des notations traditionnelles en traduction automatique pour désigner les phrases}

donc se montrer plus restrictive que de considérer l’ensemble des graphes bipartis entre Set C (noté B(S,C)) qui inclut toutes les formes dégénérées. Naturellement, l’ensemble des alignements entre S et C, que nous noterons A (S,C), doit pouvoir se plonger injec- tivement dans B(S,C). La condition de bonne formation impose de voir un alignement comme un ensemble de liens simples entre des sous-parties de S et C ou plus formellement une bijection entre une partition partielle de J1,nK et une partition partielle de J1, mK. L’utilisation des partitions partielles permet de modéliser des alignements égale- ments partiels.

On peut alors définir un alignement entre S (de longueur n) et C (de longueur m), en considérant deux partitions partielles de J1,nK et J1,mK de même cardinalité k. Elles définissent intuitivement deux découpages en "syntagmes" des phrases S et C que l’on peut mettre en bijection (voir la représenation à la figure 2.8).

Définition 5. Un alignement_{✄❧ sur une biphrase B = (S,C) de longueur (n,m) sera la} donnée de3 éléments :

1. Une partition partielle à k classes de J1,nK, notée V =V1, . . . ,Vk 2. Une partition partielle à k classes de J1,mK notée W =W1, . . . ,Wk 3. une permutation des classes σ : V 7→ W qui définit le transfert. où0 ≤ k ≤ min(n,m). On notera✄❧ = (V ,W ,σ).

On notera A (S,C) l’ensemble des alignements entre S et C (On pourra aussi le noter A_{(n, m) lorsque le contexte ne fait pas explicitement références à S et C).}

45 On peut donner comme exemples d’alignements triviaux l’alignement vide ✄❧ O =

( /0, /0, O) (où O désigne la fonction vide de /0 dans lui même) et l’alignement grossier ✄❧1= (S,C, 1) (où 1 désigne la fonction triviale qui à S associe C) qui lie tous les mots

ensemble (voir figure 2.9).

Figure 2.9 – Les alignements triviaux✄❧O et✄❧1

Définition 6. On dira que deux mots si∈ S et cj∈ C sont liés selon✄❧ si il existe V ∈ V

et W ∈ W vérifiant :

i ∈ V , j ∈ W et σ(V ) = W

Autrement dit, les classes de mots contenant siet cjsont liées par σ.

Remarque 1. Comme annoncé, l’ensemble des alignements entre S et C, A (S,C) s’injecte naturellement dans l’ensemble des graphes bipartis de parties S et C. Pour s’en appercevoir, il suffit à partir d’un alignement✄❧ donné de construire le graphe biparti associé en plaçant un arc entre tous les mots source et cible liés. Il en résulte un graphe biparti qui est l’union de ses bicliques maximales (voir la figure 2.10).

Figure 2.10 – L’espace des alignements s’injecte dans celui des graphe bipartis Cette remarque nous permettra de donner un majorant, même grossier, de la taille de l’espace que nous considérons.

Définissons les notions intuitives de couverture et d’alignement couvrant : Définition 7. Soit✄❧ = (V ,W ,σ) un alignement sur (S,C).

• On dira que le i-ème mot source si∈ S (resp. le j-ème mot cible cj∈ C) est couvert

par ✄❧ si il existe V ∈ V (resp. W ∈ W ) contenant i (resp. j).

• Le support source correspond aux positions des mots source couverts par✄❧ (noté suppS(✄❧ )), c’est-à-dire suppS(✄❧ ) = supp(V ) = [

V ∈V

• Le support cible correspond aux positions des mots cibls couverts par ✄❧ (noté suppS(✄❧ )), c’est-à-dire suppC(✄❧ ) = supp(W ) = [

W ∈W

• Un alignement sera dit couvrant si tous les mots source et cible de la biphrase sont couverts par✄❧ .

• On appelle couverture de✄❧ le nombre de mots source et cible couverts, c’est-à- dire couv(✄❧ ) = |suppS(✄❧ )| + |suppC(✄❧ )|

2.2.2.2 Notion de finesse et structure de treillis

Nous avons vu en état de l’art (partie 1.1.3.3) qu’il existe des méthodes heuristiques combinant des alignements asymétriques pour former une alternative symétrique plus fine ou plus grossière [107]. Les deux voies possibles qui dépendent de l’utilisation sou- haitée. La première permet de renforcer les informations communes, quitte à réduire les données pour limiter les erreurs. Elle est souvent privilégiée dans des approches d’alignement nécessitant des points d’ancrage sûrs [107]. Elle est analogue à une opération d’intersection. La deuxième possibilité consiste à conserver les informations des deux alignements, quitte à "lisser" les parties en désaccord. Moins discriminante, elle retien- dra une information floue produite de la superposition de plusieurs informations proches plutôt que de l’ignorer [82]). Elle est analogue à une opération d’union.

Ces deux opérations appliquées aux alignements asymétriques des modèles IBM pour les "symétriser", permettent de se déplacer, soit dans un sous-espace (celui des alignements de mots pour l’intersection) soit dans un niveau supérieur (celui des alignements de groupes de mots pour l’union étendue).

47 Nous définirons ici deux opérations similaires, l’affinement et l’élargissement. L’espace A (n,m) est suffisemment général pour que les deux opérations y soient internes. Elles nous permettront de munir l’ensemble des alignements d’une structure de treillis propre à cette approche à base d’exemples. Cette représentation de l’espace des alignements comme un ensemble structuré et cohérent avec ses opérations naturelles est originale, à notre connaissance. Nous prendrons donc la peine de définir précisément chacune des notions de manière formelle.

Afin d’alléger les notations dans cette partie, nous donnons maintenant quelques notations utilisées pour les différents éléments formels qui ne seront pas systématiquement rappelées dans cette section.

On se donne B = (S,C) une biphrase de longueur (n,m) et considérerons deux alignements✄❧1 et ✄❧2∈ A (S,C). On notera✄❧1= (V1, W1, σ1) et ✄❧ 2= (V2, W2, σ2) deux

alignements où V1et V2sont des partitions partielles de J1,nK. De même, W1et W2sont

des partitions partielles de J1,mK. Les fonctions σ1et σ2, liant les classes source et cible,

seront des permutations respectivement de V1 vers W1 et de V2 vers W2. Afin d’alléger

les notations, nous utiliserons hors contexte les notations V1 pour désigner un élément

de V1, ainsi que V2pour V2, W1pour W1et W2pour W2.

On peut définir formellement l’opération d’affinement sur A (S,C). Cette opération permettra d’exprimer par un alignement tiers l’information commune à✄❧1et✄❧2:

Définition 8. On définit la loi de composition interne de A (S,C), appelée opération d’affinemententre✄❧₁et✄❧₂, de la manière suivante :

✄❧1∧✄❧2= ( ˆV, ˆW , ˆσ).

On définit ses différents éléments comme suit :        ˆ V ₌ _{ _V₁_∩V₂ _{tel que V}₁_∩V₂_{6= /0 et σ}₁_(V₁_{) ∩ σ}₂_(V₂_{) 6= /0}} ˆ W _{= { σ}₁_(V₁_{) ∩ σ}₂_(V₂₎ tel que V₁_∩V₂_{6= /0 et σ}₁_(V₁_{) ∩ σ}₂_(V₂_{) 6= /0}} ˆσ(V1∩V2) = σ1(V1) ∩ σ2(V2), où V1∩V26= /0 et σ1(V1) ∩ σ2(V2) 6= /0}

✄❧1∧✄❧2définit un alignement de A (S,C). L’opération d’affinement admet l’alignement

On remarque que dans l’exemple de la figure 2.11, les éléments s2 et c3 ont été

"déliés" durant l’opération d’affinement.

Figure 2.11 – L’opérations d’affinement sur un exemple

Nous définissons l’opération duale qui "englobera" les différences pour obtenir un alignement moins fin que les deux alignements d’origine : l’élargissement. Pour cela nous devons utiliser la notion de chaîne de parties qui correspond à une suite de parties qui se chevauchent de proche en proche :

Définition 9. Soient E un ensemble fini et E ∈ P(E) un ensemble de parties de E. On dit que E est une chaîne sur E si il est possible de numéroter les éléments de E de sorte que E = {E1, ..., Ek} et que pour tout i ∈ {1, ..., k − 1} on ait :

Ei∩ Ei+16= /0

Définition 10. On définit la loi de composition interne de A (S,C) appelée opération d’élargissemententre✄❧₁et✄❧₂de la manière suivante :

✄❧1∨✄❧2= ( ˇV, ˇW , ˇσ).

On définit ses différents éléments comme il suit :                    ˇ V ₌ _{ [ ˇ V ∈ ˇV₁_{∪ ˇ}V₂ ˇ

V tel que Vˇ₁_{∪ ˇ}V₂_{ou σ}₁_{( ˇ}V₁_{) ∪ σ ( ˇ}V₂_{) est une chaîne maximale}} ˇ

W _{= {} [

W ∈σ1( ˇV1)∪σ2( ˇV2) ˇ

W tel que Vˇ₁_{∪ ˇ}V₂ou σ₁_{( ˇ}V₁_{) ∪ σ ( ˇ}V₂_{) est une chaîne maximale}} ˇσ( [ ˇ V ∈ ˇV₁∪ ˇV₂ ˇ V ) = [ ˇ W ∈σ1( ˇV₁)∪σ2( ˇV₂) ˇ

W où ˇV₁_{∪ ˇ}V₂ou σ₁_{( ˇ}V₁_{) ∪ σ ( ˇ}V₂_{) est une chaîne maximale}

✄❧1∨✄❧2est un alignement de A (S,C). L’opération d’élargissement admet l’alignement

49 On observe sur la figure 2.12 que l’opération a regroupé des liens en désaccord, proposant ainsi un consensus formant un alignement moins fin.

Figure 2.12 – L’opérations d’élargissement sur un exemple

On définit la relation de finesse entre alignements (voir figure 2.13). Intuitivement, un alignement✄❧1sera dit plus fin que✄❧2si tout couple de mots (si, cj) liés par✄❧1est lié

par✄❧2:

Définition 11. On dira que✄❧1est plus fin que✄❧2(noté✄❧1≺✄❧2) si les trois conditions

suivantes sont remplies :

1. Tout élément de V1est inclus dans un élément de V2

2. Tout élément de W1est inclus dans un élément de W2

3. Pour tous V1de V1et V2de V2tels que V1⊂ V2, on a σ1(V1) ⊂ σ2(V2)

Propriété 1. On a les propriétés suivantes :

• ≺ est une relation d’ordre partiel sur l’ensemble A (S,C).

• ✄❧1∧✄❧2 est l’alignement le moins fin parmi les alignements à la fois plus fins que

✄❧1et que✄❧2.

• ✄❧1∨✄❧2 est l’alignement le plus fin parmi les alignements à la fois moins fins que

✄❧1et que✄❧2.

• (A (V,W ), ∧, ∨, ≺) forme un treillis complet de plus grand élément l’alignement grossier✄❧1et de plus petit élément l’alignement vide✄❧O(définis au 2.2.2).

Nous venons de munir l’ensemble des alignements A (S,C) d’une structure de treillis. La relation de finesse ’≺’ permet de les comparer lorsqu’ils sont compatibles et les opé- rations ∧ et ∨ permettent de les combiner. On peut observer à la figure 2.14 le diagramme de Hasse représentant l’espace des alignements entre une phrase source de longueur 3 et une phrase cible de longueur 2.

On remarque qu’en général, l’opération ∧ dégrade la couverture, tandis que ∨ l’aug- mente. La dégradation par l’affinement ∧ pourra être assez importante lorsque les alignements présentent un désaccord structurel relativement important. On ne peut en toute généralité énoncer que la propriété suivante :

Propriété 2. Les supports vérifient les inclusions suivantes :

• Le support source (resp. cible) de✄❧1∧✄❧2est inclus dans l’intersection des sup-

ports source (resp. cible) couverts par✄❧1et✄❧2

• Le support source (resp. cible) de✄❧1∨✄❧2) est égal à l’union des supports source

(resp. cible) couverts par✄❧1et✄❧2

Remarque 2. La couverture est une fonction croissante de A (n,m) dans N, mais n’est pas une valuation car elle n’est pas strictement croissante.

Dans le document Mémoires partagées d'alignements sous-phrastiques bilingues (Page 58-67)