Modélisation du problème - Constitution d’une mémoire d’exemples

CHAPITRE 5 : UNE MÉMOIRE DE FRAGMENTS POUR L’ALIGNEMENT

5.1 Constitution d’une mémoire d’exemples

5.2.1 Modélisation du problème

Nous nous plaçons maintenant à l’étape

4 , dite de synthèse du résultat à partir d’un ensemble de fragments retournés par l’étape

3 (revoir les figures 3.16 et 5.7 pages 103 et 147). Nous rappelons que les fragments produits à partir d’un alignement ✄❧ et munis de leurs positionnements sont notés AΦΨ

✄❧ (nous utiliserons la même notation

lorsqu’une fragmentation n’est pas exhaustive). L’ensemble des fragments positionnés compatiblesavec✄❧ est noté

a

ΦΨ

✄❧ . Il correspond à l’ensemble des fragments compatibles

avec✄❧ que l’étape

3 peut potentiellement extraire de la mémoire L . Pour alléger les notations, un fragment positionné (✄❧ ′_{, ϕ, ψ) ∈}

_a

ΦΨ

✄❧ sera abusivement noté ✄❧

′_∈

_a

ΦΨ ✄❧ .

Nous noterons L l’ensemble des fragments compatibles avec✄❧ effectivement retour- nés par l’étape

3 , puisqu’il est clair que la mémoire L , en pratique, est partielle et en évolution. Nous avons les inclusions suivantes :

AΦΨ ✄❧ ⊂

a

ΦΨ ✄❧ et L ⊂

a

ΦΨ ✄❧

Lorsque la biphrase à aligner à déjà été rencontrée et alignée par le passé, les fragments nécessaires à son "bon alignement" sont déjà présents en mémoire L (étape

). Dans

ce cas l’étape

4 sera plutôt une étape de reconstruction et nous avons les inclusions successives :

AΦΨ

✄❧ ⊂ L ⊂

a

ΦΨ ✄❧

Ce cadre favorable serait systématiquement vérifié pour une mémoire idéale pour laquelle L =

a

ΦΨ

✄❧ . Bien sûr la situation favorable dans laquelle un ensemble de fragments

nécessaires est retourné peut se produire, en pratique, sur des nouvelles biphrases. Pour être viable, la synthèse du résultat doit être capable de reconstruire un alignement✄❧ sur une biphrase B déjà fragmentée par le passé. Si la mémoire L de fragments fouillée est celle d’une fragmentation par les syntagmes (LW1, LX1, LW2 ou LX2), l’aligne-

ment pourra être reconstitué puisqu’un fragment total (✄❧ lui-même), correspondant au(x) nœud(s) racine, aura été sauvegardé.

Pour les mémoires non exhaustives LB, LW et LX un fragment total ne sera en

général pas disponible. Seuls des alignements compatibles plus courts issus d’un dé- coupage en fragments disjoints seront présents. Intuitivement, il est toujours possible de combiner ces fragments compatibles pour reformer l’alignement ✄❧ initial, car comme nous l’avons remarqué précédemment (section 5.1.1 page 144), la composition ⊕ des fragments de AΦΨ

✄❧ donne ✄❧ . L’étape

3 renvoie un ensemble de fragments position-

nés Lqui, en général, contient non seulement l’ensemble des fragments nécessaires à la reconstruction AΦΨ

✄❧ , mais aussi des fragments inutiles et/ou erronés provenant de frag-

mentations d’autres biphrases que✄❧ . L’étape

4 de notre architecture consiste donc en un processus de filtrage, c’est-à-dire sélectionner le meilleur sous-ensemble de L selon un critère adapté. Dans le cas de la reconstruction de ✄❧ , le sous-ensemble attendu est AΦΨ

✄❧ ⊂ L.

On remarque que si✄❧ recouvre entièrement la biphrase S, le sous-ensemble de fragments AΦΨ

✄❧ pourra être retrouvé parmi les sous-ensembles de L dont les fragments sont

deux à deux composables et dont la composée a une couverture maximum. Cela revient à considérer l’étape

4 comme la résolution du problème suivant :

Problème 1. À partir d’un ensemble de fragments positionnés L, sélectionner un sous- ensemble L′_{⊂ L tel que :}

        

Les fragments de L′_{sont deux à deux composables}

couv  M ✄❧′_∈L′ ✄❧′ 

 réalise son maximum sur L

Mais le calcul de la couverture d’un ensemble de fragments deux à deux composables nécessite le calcul de la composée, et complexifie la modélisation du problème. En effet, nous allons voir à la partie 5.2.2 que des versions faibles de ce problème ont des complexités déjà élevées. Nous faisons une hypothèse simplificatrice en recherchant un sous-ensemble de fragments non pas deux à deux composables, mais deux à deux

163 disjoints. Il est important de se rendre compte que même si il y a un affaiblissement du problème, l’expressivité des solutions n’en est nullement entamée et que la reconstruction de l’alignement ✄❧ est toujours possible. C’est le cas car nous avons pris soin de ne définir en section 5.1.2 que des fragmentations produisant des fragments deux à deux disjoints ou en relation d’inclusion. Par conséquent, la reconstruction de✄❧ à partir des fragments AΦΨ

✄❧ sera possible en composant uniquement des fragments disjoints. On

remarque cependant, comme le représente la figure 5.16, que le problème ainsi posé ne tient pas compte des liens internes, mais seulement des positionnements des fragments.

Figure 5.16 – Le problème 2 sur un ensemble de fragments contigus (les liens internes ne sont pas pris en compte)

Cette hypothèse permet de simplifier considérablement le problème car la couverture de la composée de fragments deux à deux disjoints est simplement la somme de la couverture des fragments. On voit que pour le problème simplifié, défini ci-dessous, il n’est plus nécessaire de calculer la composée des fragments dans la deuxième condition : Problème 2. À partir d’un ensemble de fragments positionnés L, sélectionner un sous- ensemble L′_{⊂ L tel que :}

    

Les fragments de L′_{sont deux à deux disjoints}

∑

✄❧′_∈L′

couv(✄❧′_{) réalise son maximum sur L}′

Nous pouvons remarquer à ce stade que le critère de couverture maximum peut subir deux critiques essentielles. Premièrement, les alignements manuels ne sont pas toujours couvrants. Il arrive effectivement que certains mots ne soient pas liés. Mais nous remar- quons empiriquement, de même que dans le projet Blinker [95], que les alignements ma-

nuels ont plutôt tendance à être très couvrants, même dans des cas de grande divergence. De plus les fragmentations contigües proposées, X et W , ont tendance à "capturer" des mots non liés au sein d’un fragment, ce qui compte dans l’estimation de la couverture comme un mot liés avec un "mot vide". Enfin, la mémoire étant partielle, les alignements reconstruits ne seront en général pas toujours couvrants. Une deuxième critique peut être faite au sujet de la non-unicité d’une solution aux problèmes 1 et 2. Par conséquent, un ensemble solution L′_{ne correspondra pas nécessairement à A}ΦΨ

✄❧ dans le cas du problème

de reconstruction. Il existe un cas où L′_{n’est pas à proprement parler une erreur, mais}

constitue plutôt une solution alternative. Il s’agit d’une situation inhérente à l’annotation manuelle : les choix contradictoires. Parfois un annotateur fait des choix différents dans des situations identiques et le phénomène est encore plus visible lorsqu’il y a plusieurs annotateurs. Nous pouvons voir en figure 5.17 un exemple courant pour lequel des annotateurs proposent des fragments différents bien que positionnés sur les mêmes parties de la biphrase.

Figure 5.17 – Deux fragments différents compatibles avec la biphrase mais identique- ment positionnés

La problème 1, ne tenant pas compte des liens internes aux fragments sélectionnés, pourra proposer autant de solutions alternatives qu’il y a de combinaisons de fragments aux positionnements identiques. Une résolution du problème posé en tant que tel ne pourra faire un choix qu’arbitraire entre ces fragments, il est donc plus judicieux de filtrer au préalable L de sorte à ce qu’il ne contienne qu’un seul fragment pour un posi- tionnement dans✄❧ donné.

165 Ce choix peut être géré en amont par l’étape

3 : plutôt que de se contenter de prendre le premièr représentant venu, on a alors la possibilité de faire intervenir différents critères parmi lesquels nous avons retenu la fréquence et l’utilisateur courant. Dans la mémoire d’alignements, les fragments sont représentés, de même que dans la définition formelle, par trois éléments : le support source, le support cible et les liens internes. Le champ des liens internes est, entre autres, attaché à un compteur d’utilisation (incrémenté à chaque sauvegarde par un utilisateur) et un champ utilisateur2. Parmi les listes de liens possibles, sera donc retenue en priorité celle utilisée le plus fréquemment par l’utilisateur en cours. Si celui-ci n’a jamais aligné ce fragment, seul le critère de fréquence compte. Ce qui était en apparence une faiblesse dans le modèle de résolution constitue en fait un avantage pour cette approche collaborative en nous permettant de tenir compte de choix individuels. Pré-filtrer les fragments de même support présenterait l’avantage, pour un utilisateur, de se voir rappeler ses choix les plus fréquents et donc de consolider son style.

5.2.2 Complexités

Dans le document Mémoires partagées d'alignements sous-phrastiques bilingues (Page 176-180)