• Aucun résultat trouvé

5.4 Evaluation ´

5.4.1 Premi` ere ´ evaluation

Le tableau 5.4.1 pr´esente les r´esultats d´etaill´es des quatre ´etapes d’´evaluation propos´ees pour le syst`eme d´evelopp´e dans la section pr´ec´edente. La colonne « R´egr. » donne l’erreur moyenne 5.4 par d´ecision pour SEARN uniquement puisque cette mesure ne peut pas ˆetre calcul´ee pour le syst`eme de r´ef´erence ou l’oracle. La colonne « Classification SC » (sous-colonne gauche) indique l’erreur moyenne 5.5 sur le chemin obtenu `

a l’aide de la politique d’apprentissage. La colonne « Classification SC » (sous-colonne droite) pr´esente l’erreur moyenne5.6 sur le chemin choisi par SEARN et donc obtenu `a l’aide de la politique ´evalu´ee. Pour la classification sensible aux coˆuts on donne ´egalement le pourcentage de r´eponses correctes (ayant le coˆut de 0). Enfin, les deux derni`eres colonnes indiquent les scores LinBLEU et BLEU de la traduction obtenue. Tous les r´esultats sont donn´es pour la 15-`eme it´eration de SEARN.

Performances en classification On constate que d`es la deuxi`eme ´etape d’´evaluation (score de classification sur le chemin construit `a l’aide de la politique d’apprentissage) les r´esultats sont inf´erieurs `a ceux du syst`eme de r´ef´erence. Apr`es avoir exclus les probl`emes li´es `a la qualit´e d’apprentissage (sur-apprentissage, mauvais r´eglage de param`etres), nous pouvons constater que l’expressivit´e de notre mod`ele est plus faible que celle du syst`eme de r´ef´erence.

Rˆole de la structure des treillis En observant la structure des treillis on constate que le r´esultat obtenu est attendu. Pour les tˆaches pr´esent´ees au chapitre pr´ec´edent, la structure des treillis ´etait telle que le choix d’une action n’ait pas d’impact sur les actions possibles sur la suite du chemin et am`ene donc `a une perte bien d´efinie. Cela a pour cons´equence qu’il est toujours possible pour le syst`eme de retrouver un chemin de bonne qualit´e apr`es une erreur (mˆeme si en pratique cela peut ˆetre difficile car les erreurs peuvent se propager).

Langue Syst`eme R´egr. Classification SC LinBLEU BLEU Russe Oracle - 0.0 (100%) 0.0 (100%) 2.82 42.19 MIRA - 0.85 (71%) 0.85 (71%) 17.72 25.11 SEARN 2.12 1.19 (66%) 1.19 (66%) 18.22 14.86 Tch`eque Oracle - 0.0 (100%) 0.0 (100%) 5.10 37.63 MIRA - 0.83 (68%) 0.83 (68%) 16.62 18.74 SEARN 1.95 1.11 (65%) 1.11 (65%) 16.71 13.03 Roumain Oracle - 0.0 (100%) 0.0 (100%) 1.75 47.50 MIRA - 0.89 (70%) 0.89 (70%) 18.54 28.12 SEARN 2.15 1.24 (65%) 1.24 (65%) 19.52 18.54 Fran¸cais Oracle - 0.0 (100%) 0.0 (100%) -0.22 48.92 MERT - 0.89 (70%) 0.90 (69%) 18.03 30.47 SEARN 2.28 1.45 (60%) 1.46 (60%) 20.51 17.01 Tableau 5.5 – R´esultats d´etaill´es des quatre ´etapes d’´evaluation propos´ees pour le syst`eme d´evelopp´e dans la section pr´ec´edente. Les colonnes 3 `a 7 repr´esentent les 5 ´etapes (dont une sous-´etape) d’´evaluation : performances en r´egression, performances en classification sensible aux coˆuts sur le chemin d’apprentissage/sur le chemin d’inf´erence, ´evaluation en LinBLEU et en BLEU. Les poids correspondants aux 0, 1, 2-grammes dans LinBLEU sont respectivement 1, -0.5 et -1.

Les treillis construits par NCODE n’ont pas cette propri´et´e : certaines actions induisent des puits car elles entrainent le d´ecodeur dans des zones du treillis qui ne contiennent aucun chemin correspondant `a une bonne tra-duction. Une recherche exacte dans le treillis va pouvoir prendre en compte le potentiel des chemins qui suivent une action et donc ´eviter de tomber dans ces puits. Cette information sur le futur est donc cruciale et manque au d´ecodage glouton. La politique du syst`eme de r´ef´erence utilisant un d´ecodage exact a donc acc`es `a cette information globale ce qui lui donne un avantage important par rapport `a SEARN.

Un exemple d’action qui am`ene dans un puits peut ˆetre trouv´e dans le treillis NCODE correspondant `a la traduction en russe de la phrase

that number was reached Friday before the game against Panama. . . эта цифра была достигнута в прошлую пятницу в игре против Панамы. . .

La traduction propos´ee par l’oracle sur le treillis complet est tr`es proche de la r´ef´erence, il y manque seulement une traduction de before :

5.4. ´EVALUATION 113

эта цифра была достигнута в пятницу в игре против Панамы. . .

Le pronom that est ici correctement traduit par le pronom indicatif au nominatif : эта. Une autre action de traduction possible dans le treillis de recherche est de traduire that par le mˆeme pronom mais `a l’accusatif : эту. Cette erreur am`ene le d´ecodeur dans une zone du treillis o`u aucun chemin proche de la r´ef´erence n’existe, l’oracle obtenu apr`es cette d´ecision contient de nombreuses erreurs (les portions rouges repr´esentent les parties erron´ees de la traduction) :

эту цифру было достигнуто в пятницу впреддверии матча против Панамы. . . L’erreur dans la d´eclinaison du pronom se propage au nom suivant qui est lui aussi mal d´eclin´e, les erreurs suivantes sont par contre ind´ependantes et li´ees au filtrage du treillis.

La figure 5.4.1 montre la r´epartition des pertes de potentiel pour l’en-semble des treillis du corpus de test. Dans un treillis r´egulier18une mauvaise action am`enerait `a une perte maximale de 5 points LinBLEU, alors qu’ici on peut observer qu’une importante part des actions est associ´ee `a des pertes sup´erieures pointant vers les irr´egularit´es ou puits.

Solutions envisag´ees Afin de corriger ce probl`eme, une solution possible est d’augmenter le nombre d’hypoth`eses consid´er´ees et diminuer ainsi la quantit´e de puits dans le treillis. Dans l’id´eal on souhaiterait consid´erer l’espace de recherche r´egulier et non pas le treillis ´elagu´e par la recherche en faisceau r´ealis´ee par NCODE. Cette solution permettrait de cr´eer des conditions plus adapt´ees `a un d´ecodage glouton tout en conservant une complexit´e lin´eaire. Elle n´ecessiterait par contre de r´eimpl´ementer tout le processus de construction de l’espace de recherche actuellement r´ealis´e par NCODE, avant de mettre en œuvre cette solution radicale et il est pertinent de poursuivre l’´evaluation du syst`eme actuel avant de l’envisager.

Une solution alternative, que nous d´eveloppons dans la section suivante, consiste `a utiliser les informations sur les futures possibilit´es de traductions. 18. On consid`ere ici comme ´etant r´egulier un treillis th´eorique repr´esentant des hy-poth`eses de traduction de mˆeme longueur avec `a chaque ´etat l’ensemble des mots du vocabulaire cible possible comme action. Cette contrainte de longueur est peu naturelle pour le cas de la traduction mais permet d’´etablir les pertes de mani`ere homog`ene. Les hypoth`eses de traduction pr´esentes dans le treillis sont relativement peu vari´ees en longueur (±10%), cette contrainte ne perturbe donc que peu l’´evaluation.

Figure 5.3 – Le r´epartition des pertes de potentiel (vis-`a-vis de l’expert) des actions pour l’ensemble des treillis du corpus de test.

1 5 10 15 20

0 200 400 600

Perte de potentiel vis-`a-vis de l’expert en LinBLEU

Nom bre d’actions (× 1000 )