• Aucun résultat trouvé

4.3 Exp´ erimentations

5.1.2 Le syst` eme NCODE

a la fois `a ej et rj) et cm(E ) le nombre total de m-grammes dans E . La p´enalit´e de bri`evet´e est un facteur suppl´ementaire p´enalisant les phrases trop courtes : BP = min  1, e  1−c1(R) c1(E) 

Le score BLEU tel que nous venons de le d´ecrire pr´esente toutefois un probl`eme : pour chaque phrase source il est g´en´eralement possible de trouver au moins un mot de la phrase cible de mani`ere sˆure. Il devient alors possible de r´ep´eter un grand nombre de fois ce mot dans la traduction afin de gonfler artificiellement le nombre d’unigrammes corrects. Afin d’´eviter ce probl`eme, les quantit´es cm(E , R) sont limit´ees au nombre d’occurrences de m-gramme correspondant dans la r´ef´erence.

Le score BLEU varie de 0.0 (aucun m-gramme en commun entre l’hy-poth`ese et la r´ef´erence) `a 1.0 (co¨ıncidence compl`ete de l’hypoth`ese avec la r´ef´erence). Il est g´en´eralement pr´esent´e sous la forme d’un pourcentage entre 0.0 et 100.0. Remarquons que le score BLEU suppose l’´evaluation de l’hypoth`ese en fonction d’une r´ef´erence donn´ee, il ne prend donc pas en compte la vari´et´e des traductions possibles pour une phrase source ; seule la r´ef´erence est consid´er´ee comme une traduction correcte1.

Remarquons aussi que le score BLEU n’a de sens que si les pr´ecisions des n-grammes ne sont pas nulles, dans le cas contraire le score complet se r´eduit `a z´ero. C’est pour cette raison qu’il doit ˆetre calcul´e sur un corpus complet de phrases : cela minimise le risque d’avoir une pr´ecision nulle pour les grandes valeurs de n, ce qui est fr´equent au niveau des phrases.

5.1.2 Le syst`eme NCODE

Un syst`eme de traduction automatique a donc pour objectif de trouver une traduction de bonne qualit´e selon la m´etrique choisie. Cette tˆache est loin d’ˆetre triviale : l’espace des sorties est constitu´e de toutes les phrases possibles en langue cible, dans le cas des langues naturelles la bonne tra-duction doit alors ˆetre choisie parmi un nombre d’hypoth`eses gigantesque. Le processus de traduction du syst`eme NCODE [Crego et al., 2011] s’ef-fectue en deux phases. La premi`ere phase est la r´eduction, `a l’aide de crit`eres 1. Il existe des variantes de score BLEU adapt´ees au cas o`u plusieurs r´ef´erences sont disponibles. Elles sont peu utilis´ees en pratique `a cause du manque de donn´ees disposant de multiples r´ef´erences adapt´ees. Dans ce travail nous ne consid`ererons pas ce type d’´evaluation.

simples, de l’espace des sorties `a un ensemble d’hypoth`eses de taille rai-sonnable parmi lesquelles la traduction sera cherch´ee. Cet ensemble d’hy-poth`eses est organis´e de mani`ere compacte et appel´e par la suite le treillis de recherche. La deuxi`eme phase consiste `a choisir la meilleure hypoth`ese de traduction dans ce treillis `a l’aide d’un crit`ere plus raffin´e.

Premi`ere phase : construction du treillis de recherche. La construction du treillis de recherche est r´ealis´ee en trois ´etapes. La phrase source est tout d’abord r´eordonn´ee de mani`ere `a ce que les mots qui la composent soient dans l’ordre attendu dans la phrase cible. La phrase source r´eordonn´ee est ensuite segment´ee et traduite segment par segment de mani`ere monotone.

L’´etape de r´eordonnancement produit un treillis qui encode de mani`ere compacte une partie des permutations de la phrase source. Cette ´etape est r´ealis´e `a l’aide de r`egles sur les s´equences de cat´egories morpho-syntaxiques et permet de mod´eliser des ph´enom`enes tels que l’inversion du nom et de l’adjectif entre le fran¸cais et l’anglais. Ces r`egles sont collect´ees lors de l’apprentissage sur des corpus parall`eles align´es et leur application sur la phrase source permet de construire un treillis des mots sources r´eordonn´es. NCODE appelle tuple une paire de s´equences de mots o`u la premi`ere s´equence est une s´equence arbitraire des mots de la langue source et la deuxi`eme s´equence est une de ses traductions possibles. Voici quelques exemples de tuples pour la traduction du fran¸cais vers l’anglais :

(nous, we) (voulons, want) (nous voulons, we want) (traductions, translations) (des traductions, translations)

Les ´etapes suivantes de construction du treillis de recherche reposent sur la table des tuples qui est compos´ee de toutes les paires connues du syst`eme. Le treillis de r´eordonnancement est transform´e en treillis segment´e pour le-quel les arcs repr´esentent non pas un seul mot source mais des segments continus. Le treillis de traduction, o`u chaque arc repr´esente un tuple, est ensuite obtenu en appliquant la table des tuples `a ce treillis de segmenta-tion. La figure5.1 illustre les ´etapes de r´eordonnancement, segmentation et traduction pour une phrase.

L’exemple de la figure 5.2 repr´esente un treillis de traduction complet, ainsi qu’un zoom sur une partie de ses nœuds et arcs pour une meilleure lisibilit´e. Chaque chemin dans le treillis de traduction repr´esente une tra-duction compl`ete de la phrase source pouvant ˆetre produite par le syst`eme.

5.1. G ´EN ´ERALIT ´ES, TRADUCTION AUTOMATIQUE `A BASE DE

SEGMENTS 93

nous voulons des traductions parfaites nous voulons parfaites des traductions nous voulons parfaites des_traductions

we want perfect translations

r´eordonnancement

segmentation

traduction

Figure 5.1 – Les ´etapes de d´ecodage de NCODE. Cet exemple est une reprise de la figure 2 de [Crego et al., 2011].

Figure 5.2 – Exemple de treillis de traduction de taille r´eelle.

En pratique, ce treillis peut ˆetre gigantesque et n’est donc pas construit enti`erement avant la recherche mais au fur et `a mesure de celle-ci. Une re-cherche en faisceau est utilis´ee afin de n’explorer qu’une partie raisonnable du treillis complet sans trop d´egrader les performances du syst`eme.

Deuxi`eme phase : recherche de la meilleure hypoth`ese du treillis. C’est lors de la deuxi`eme phase que l’on choisit la meilleure traduction dans le treillis de recherche. Pour cela, un score est attribu´e `a chaque hypoth`ese de traduction en combinant les scores individuels de mod`eles qui ´evaluent diff´erents aspects de la traduction. Les principaux mod`eles utilis´es sont :

— mod`ele de traduction : les scores associ´es `a la paire segment source / segment cible qui ´evaluent la plausibilit´e de cet appariement ; — mod`ele de r´eordonnancent : les scores associ´es `a une permutation des

mots ;

— mod`ele de langue : le score donn´e par un mod`ele de langue n-grammes sur la traduction.

Tous ces mod`eles sont entrain´es de mani`ere heuristique sur des corpus pa-rall`eles. Le score final d’une traduction est obtenu par une combinaison lin´eaire des scores des mod`eles estim´es de mani`ere `a maximiser2 le score BLEU d’un corpus de d´eveloppement.

Le choix d’un algorithme d’optimisation performant est crucial pour construire une traduction de bonne qualit´e. N´eanmoins aucun algorithme ne pourra donner de bon r´esultats, si le treillis de recherche ne contient que des hypoth`eses de mauvaise qualit´e. Les deux phases de traduction d´eterminent ainsi la qualit´e de la traduction produite par NCODE.

Le syst`eme NCODE repr´esentait l’´etat de l’art de la traduction automa-tique ces derni`eres ann´ees, ce qui a ´et´e confirm´e par plusieurs campagnes d’´evaluation WMT. La situation change en ce moment avec l’arriv´ee `a ma-turit´e de syst`emes de traduction `a base de r´eseaux de neurones qui a pro-fond´ement chang´e la traduction automatique et domine actuellement les campagnes d’´evaluation [Bojar et al., 2017].