• Aucun résultat trouvé

Les mémoires d’alignements

CHAPITRE 5 : UNE MÉMOIRE DE FRAGMENTS POUR L’ALIGNEMENT

5.1 Constitution d’une mémoire d’exemples

5.1.2 Les mémoires d’alignements

Nous utilisons le terme fragmentation pour faire référence au processus de consti- tution des fragments, mais aussi à l’ensemble de fragments produits (la notation cou- rante pour un ensemble de fragments sera L ). En pratique, nous préfèrerons retenir certains fragments plutôt que l’ensemble exhaustif des sous-fragments. Sélectionner un sous-ensemble de fragments est courant dans les travaux existant de TABE. En général, les arguments avancés sont, la réduction de la masse des informations à traiter ou une restriction à des fragments de qualité (voir [62], par exemple). Ici, les fragments sont bidimensionnels et il y a donc une composante géométrique supplémentaire à prendre en compte.

Il n’y a pas une unique manière de fragmenter un alignement, et donc pas une unique manière de construire une mémoire d’alignements. Notre approche étant expérimentale, nous avons abordé plusieurs types de fragmentation en prenant garde toutefois que les fragments retenus, pour un alignement✄❧ validé, suffisent à le reconstruire par la compo- sition ⊕. Ainsi, nous verrons que la mémoire, notée L dans la partie précédente, est en fait divisée en sept mémoires provenant de sept types de fragmentation :

L = LB∪ LW∪ LX∪ LW1∪ LX1∪ LW2∪ LX2

Nous les décrivons dans la partie suivante. Dans chaque cas, en partant d’un alignement de départ✄❧ , la fragmentation produira un ensemble de fragments à partir desquels il sera possible de reconstruire✄❧ . la fragmentation imposera une contrainte spécifique pouvant être de nature géométrique ou syntaxique. Nous suivront l’exemple de l’alignement en figure 5.8 pour représenter les différentes fragmentations possibles.

149 Fragments B

Les fragments de type B constituent la première mémoire LBque nous avons formé.

Cette mémoire, parmi toutes, est celle qui présente les fragments les plus petits et les plus génériques possibles. Le processus de fragmentation ne retient que les sous-alignements minimaux non nuls de A✄❧ (au sens de ⊳). On peut observer ces fragments B repérés à la figure 5.9. Nous verrons que par rapport à cette première, les autres mémoires sembleront présenter un défaut de puissance (au sens de la généricité).

Figure 5.9 – Fragmentation B

Fragments W

Les fragments de type W constituent une seconde mémoire LW dans laquelle la

fragmentation englobe les phénomènes non contigus. Pour celle-ci, nous retiendrons les fragments de A✄❧ , contigus et minimaux pour la relation ’⊳’. La configuration en W observée en figure 5.10 lui vaut cet appellation (les liens entre "n’est pas" et "is not").

Fragments X

Les fragments de type X constituent une mémoire LX dans laquelle la fragmen-

tation englobe les croisements (d’où la lettre X). LX sera la plus grande collection de

fragments deux à deux disjoints et non croisants.

Figure 5.11 – Fragmentation X

Fragmentation unilingue par les syntagmes

Dans l’article [104], sont énoncés deux principes d’une importance cruciale dans toute approche à base d’exemples : les fragments courts ont plus de chance d’être réuti- lisables, mais les fragments très courts présentent un risque d’ambiguïté. Il s’agit donc de trouver un compromis intéressant pour la taille des fragments. En utilisant l’arbre syntag- matique pour découper en fragments plus longs, nous proposons de créer des fragments un peu moins génériques, mais plus sûrs. De plus, en respectant un découpage linguis- tiquement motivé, nous espérons moins de "friction" entre les fragments compatibles retenus.

La fragmentation proposée ici, que nous appelons la fragmentation unilingue par les syntagmes, impose une dimension syntaxique asymétrique en s’appuyant sur un seul arbre d’analyse pour former des fragments plus longs. Nous faisons l’hypothèse selon laquelle le groupement de mots cible induit par l’arbre source présente une certaine cohérence. Il ne sera pas rare dans des cas de divergence modérée, que les fragments forment de véritables paires de syntagmes. De plus, cette fragmentation asymétrique aura l’intérêt pratique, lorsqu’une des deux langues ne dispose pas d’un analyseur syntaxique générant des structures profondes, de s’appuyer sur les outils disponibles de l’autre.

151 En pratique, la fragmentation unilingue par les syntagmes sera utilisée en conjonction avec les contraintes de contiguïté (type W ) et de croisement (type X). Dans les deux cas, les fragmentations produites devront respecter une double contrainte à la fois syntaxique (découpage syntagmatique asymétrique) et géométrique (contiguïté des fragments ou non-croisement). Nous notons les deux mémoires LW1 et LX1. On peut observer en

figure 5.12 une fragmentation correspondant autant à LW1 qu’à LX1. Nous parlerons

aussi de fragments de types W 1 ou X1.

Figure 5.12 – Fragmentation unilingue par les syntagmes, de type X1 et W 1 Le schéma ne représente qu’une étape de fragmentation puisque les fragments ob- servés descendent des nœuds internes situés en bas de l’arbre. Par remontée au travers de l’arbre, on collecte des fragments plus longs et on finit par rencontrer le nœud racine qui formera le fragment le plus long correspondant à la biphrase tout entière. Un tel frag- ment se sera pas très réutilisable, mais à le mérite de contribuer à ce qu’un alignement déjà rencontré soit toujours correctement reformé par le processus. Il permet aussi de justifier la justesse de la définition de fragmentation unilingue qui sera toujours capable de produire des fragments, même triviaux.

Formellement, la structure sous-jacente est une S-SSTC (S,C,✄❧node,✄❧tree) (voir le

chapitre 4) dont l’arbre d’analyse cible trCest plat. Nous nous reposons donc sur l’arbre

compatible avec l’alignement✄❧node= (Vnode, Wnode, σnode) issu d’une fragmentation uni-

lingue par les syntagmes. La contrainte syntaxique devant être respectée par✄❧′est :

il existe V′

tree⊂ Vtreetel que S

V′∈V′ST REE

S(V) = S

Vtr∈Vtree′

ST REES(Vtr)

Autrement dit, les mots source couverts par V′ correspondent à l’union de syntagmes

de l’arbre trS. Les fragments s’obtiennent par remontée au travers de l’arbre source. Le

nombre d’opérations nécessaires est linéaire en la taille de la structure source.

Alimenter la mémoire de ces fragments plus longs permettra aussi au système de prendre des raccourcis dans le processus d’alignement sans avoir à revenir systémati- quement aux briques de bases. Notamment, une biphrase déjà rencontrée sera reconnue en tant que tel et l’alignement sera donné sans devoir être recalculé.

Fragmentation bilingue par les syntagmes

Enfin, nous proposons une fragmentation respectant les deux structures au niveau du découpage en syntagmes. La condition nécessaire pour utiliser cette fragmentation est de travailler sur une paire de langues dotées d’analyseurs syntaxiques en structures profondes et similaires. Aligner une structure en dépendance et une structure en consti- tuants aura ici pour effet de produire des fragments très longs et très peu génériques. Le même problème se produira si l’on applique cette fragmentation à une paire de langues très divergentes, le consensus ne saura produire que quelques fragments très longs.

De la même manière que pour la fragmentation unilingue, deux contraintes devront être respectées : une contrainte syntaxique et une contrainte géométrique concernant la contiguïté ou les croisements. Nous reprenons les notations de la partie précédente en prenant une S-SSTC (S,C,✄❧node,✄❧tree) et un fragment✄❧′= (V′, W′, σ′) compatible avec

l’alignement ✄❧node = (Vnode, Wnode, σnode). La contrainte syntaxique que doit respecter

✄❧′est maintenant double et correspond à l’intersection de deux contraintes unilingues, à

savoir l’existance de V′

tree⊂ Vtreeet Wtree′ ⊂ Wtreetels que :

       S V′∈V′ST REE S(V) = S Vtr∈Vtree′ ST REES(V tr) S W′∈V′ST REE C(W) = S Wtr∈Wtree′ ST REES(Wtr)

153 Il faut noter qu’en plus de produire des fragments a priori longs (donc peu expressifs mais stables), cette fragmentation nécessitera des traitements plus importants. La mé- moire produite sous la contrainte de contiguïté sera notée LW2et celle sous la contrainte

de non-croisement, LX2. Nous parlerons de fragments de type W 2 et X2. Nous pouvons

observer des fragments de ce type en figure 5.13. De même que pour la fragmentation unilingue, des fragments plus longs peuvent être constitués par remontée au travers des arbres.

Figure 5.13 – Fragmentation bilingue par les syntagmes

Quelques remarques

Les différentes fragmentations sont présentées séparément, car elles possèdent des propriétés structurelles différentes, mais il n’y aura qu’une seule mémoire de fragments qui seront typés selon la fragmentation dont ils sont issus. Le type des fragments utilisés aura un impact sur l’étape de résolution

4 (figure 5.7 page 147). Notamment, les pro- cessus utilisés seront différents et par exemple, reconstruire un alignement à partir de ses

fragments de type X pourra se faire par une composition sans croisement. Mais les diffé- rentes fragmentations ne sont pas pour autant à séparer complètement. En effet, on sait que peut importe le type, un fragment est toujours la composition de ses B-fragments. De plus, un X-fragment peut-être obtenu comme la composition de W -fragments. On note également qu’un fragment/syntagme bilingue est composé de fragments/syntagmes unilingues. Une hiérarchie entre les types de fragments est représentée en figure 5.14, al- lant du plus générique tout en bas, aux plus spécifiques tout en haut. Les fragmentations B, W et X requièrent seulement un étiqueteur morphosyntaxique pour former les patrons syntaxiques, tandis que la partie haute impose la présence d’outils d’analyse profonds. La fragmentation bilingue par les syntagmes ne sera pas utilisée dans notre approche.

Figure 5.14 – Hiérarchie des différentes fragmentations

Ainsi, un processus d’alignement adapté à des W -fragments pourra tout à fait utiliser des fragments de types supérieurs X, W 1, W 2, X1 ou X2 comme le suggère la hierarchie (les fragments plus longs sont un raccourci pour l’étape

). En général, compléter par

4

des fragments de types supérieurs et moins génériques l’ensemble de fragments compa- tibles collectés par l’étape

3 ne pourra que se montrer avantageux en terme de qualité, peut importe le type de départ.

On pourrait alors supposer que le contraire soit une erreur : mêler des fragments de types inférieurs, plus courts et linguistiquement moins pertinents, à de bons fragments compatibles risquerait d’ajouter du bruit et de nuire à la reconstruction. Ce n’est pas toujours vrai, et nous pouvons constater dans certains cas que cette hiérarchie reste assez artificielle. Par exemple, un fragment non contigu tel que la négation française "ne...pas"

155 rencontré dans "il ne faut pas nourrir les animaux", peut tout à fait se retrouver employé de manière contigües dans la forme "ne pas nourrir les animaux". Un fragment de type Best ici réutilisé en fragment de type supérieur.

On peut également donner l’exemple de l’inversion adjectif-nom entre l’anglais et le français qui, bien que majoritaire, n’est pas toujours vérifiée. On l’observe en confrontant les deux phrases : "Elle préfère les hommes grands"/"She likes better tall men" et "C’est l’époque des grands hommes de petite vertu"/"These are the times of tall men, and short character". Une fragmentation de type X du premier alignement ne donne pas de fragments suffisemment génériques pour résoudre le cas de non-inversion. Par contre, une B-fragmentation aurait permis d’en tenir compte.

Documents relatifs