Le score Bleu - L’évaluation automatique - L’évaluation de systèmes de TA

3. L’évaluation de systèmes de TA

3.2. L’évaluation automatique

3.2.2. Le score Bleu

3.2.2.1.

Présentation et fonctionnement

Le score Bleu (Bilingual Evaluation Understudy) est la méthode d’évaluation automatique la plus utilisée à l’heure actuelle, car elle propose une solution satisfaisante au problème de l’ordre des mots. Le but du score Bleu est de mesurer combien de N-grammes, c’est-à-dire combien de mots consécutifs, les traductions automatiques ont en commun avec la traduction de référence, sans prendre en compte leur position dans la phrase. Plus une traduction a de N-grammes en commun avec la référence, plus haut sera son score (Papineni et al., 2002, pp. 311-313).

Tout comme le WER et le TER, le Bleu se base sur le taux d’erreurs au niveau des mots, mais prend en compte des équivalences plus grandes de N-grammes entre la traduction des systèmes de TA et la traduction de référence. Le nombre maximum d’équivalences recherché est généralement de 4- grammes : 1-gramme correspondrait à la fidélité, et 4 à la fluidité (Hartley et Popescu-Belis, 2008, p. 323), c’est pourquoi on appelle aussi parfois cette méthode le Bleu-4. La Figure 14 montre un exemple d’application du score Bleu :

Figure 14: Calcul du nombre de N-grammes entre les traductions automatiques et la référence (Koehn, 2009, p. 226)

La traduction du système A a une équivalence de 2-grammes pour Israeli officials et de 1-gramme pour airport. Pour le système B, airport security est une équivalence de 2-grammes et Israeli offi-cials are responsible de 4-grammes (Papineni et al., 2002, pp. 313-315).

Selon ces équivalences de N-grammes, il est possible de calculer leur précision, c’est-à-dire le taux de N-grammes qui sont dans un certain ordre n correct par rapport au nombre total de N-grammes qui sont dans le même ordre :

 Pour le système A, la précision des 1-gramme est de 3/6, la précision des 2-grammes est de 1/5, celle des 3-grammes est de 0/4, et pour les 4-grammes de 0/3.

 Pour le système B, la précision des 1-gramme est de 6/6, des 2-grammes 4/5, 3-grammes 2/4, et enfin des 4-grammes 1/3.

Bleu ne pénalise pas les mots manquants, mais une pénalité de brièveté (brevity penalty) a été ajoutée pour réduire le score de la TA si elle est plus courte que la traduction de référence (Koehn, 2009, p. 226).

Une autre innovation du score Bleu est l’utilisation de plusieurs traductions de référence (multiple reference translations). Etant donné le caractère très variable de la traduction, il paraît pertinent

de soumettre plusieurs traductions de référence au lieu d’une seule considérée comme correcte et réalisée par un seul humain. Le calcul du score Bleu avec plusieurs traductions de référence fonc-tionne comme suit :

 Si un N-gramme d’une TA a une équivalence avec n’importe laquelle des traductions de référence, elle est considérée comme correcte ;

 si un N-gramme apparaît à plusieurs reprises dans la TA (comme le ou la, ou the en anglais), il doit à chaque fois apparaître dans une seule des traductions de référence pour qu’il soit considéré comme correct ;

 si le N-gramme apparaît moins de fois dans les traductions de référence, on le considérera comme correct uniquement les fois où il apparaît (Koehn, 2009, p. 227)

3.2.2.2.

Avantages du Bleu

Le score Bleu est la méthode d’évaluation automatique de TA la plus en vogue à l’heure actuelle, et ce pour plusieurs raisons : c’est une méthode automatique, qui ne se contente pas d’analyser si les mots entre les traductions sont identiques ou d’attribuer un score aux erreurs mais mesure si la traduction est fluide, et fidèle. De plus, le score Bleu semble obtenir des résultats qui sont très similaires avec ceux des juges humains, même en utilisant une seule traduction de référence (cf.

Figure 15) :

Figure 15: Corrélation entre le score Bleu et des juges monolingues et bilingues anglais-chinois (Papineni et al., 2002, p. 318)

41 3.2.2.3.

Critiques du Bleu

Le fait d’avoir plusieurs traductions de référence complique le problème de la longueur de la tra-duction de référence. Ainsi, la longueur de la tratra-duction de référence qui se rapproche le plus de chaque traductions d’un système de TA est pris comme référence. Si les longueurs sont identiques, on choisit systématiquement la plus courte. Par exemple, si l’on considère une traduction d’un système de TA de 10 mots et des traductions de référence de respectivement 8, 9, 11 et 15 mots, la longueur de référence pour cette traduction de système de TA est 9 (car 9 et 11 sont aussi proches de 10, mais 9 est plus petit) (Koehn, 2009, pp. 197-198).

L’utilisation de l’évaluation automatique est constamment débattue par les chercheurs et les cher-cheuses. Callison-Burch et al. (2006, pp. 255-256) avancent qu’il semble difficile de croire qu’un système simpliste tel que le score BLEU reflète réellement les différences de sens entre la ou les traductions de référence et les traductions proposées par les systèmes de TA.

Hartley et Popescu-Belis (2008, p. 114) expliquent que cette méthode est pratiquement la seule et unique qu’utilisent les chercheurs et les chercheuses en TAS, et que leurs résultats sont souvent remis en question par les praticien-ne-s d’autres types de TA. Ils ajoutent que Bleu noterait moins bien les documents longs, ainsi que les langues plus complexes morphologiquement que l’anglais (comme le japonais ou le français).

En outre, il semblerait que Bleu, qui se base sur les n-grammes, donne de meilleurs résultats lors de l’analyse de systèmes statistiques (qui se reposent justement sur les n-grammes) mais qu’il dé-favorise les systèmes neuronaux qui fonctionnent de manière toute-à-fait différente et qui, de plus, produisent des traductions qui s’éloignent de manière non négligeable de la traduction de référence, ce qui conduit à une baisse du score Bleu (Shterionov et al., 2017, p. 79 et Shterionov et al., 2018, p. 19).

Enfin, Koehn (2009, p. 200) énumère les principales critiques énoncées à l’encontre de Bleu :

 Le Bleu ne tiendrait pas compte de la pertinence relative de différents mots, c’est-à-dire du fait que certains mots ont plus d’importance que d’autres. Par exemple, la négation ne (ou not en anglais) relève d’une importance toute particulière, car ce mot change l’entièreté du sens de la phrase. Les noms communs ou les concepts

fondamentaux sont également très importants, plus que les déterminants ou la ponc-tuation par exemple. Pourtant, la méthode Bleu les juge tous sur un pied d’égalité.

 Le Bleu fonctionnerait à un niveau très local et ne tiendrait pas compte de la gram-maire de la traduction étudiée. La traduction d’un système de TA peut sembler juste sur la base d’un certain N-gramme, puis devenir très confuse au-delà. C’est de là qu’émane la critique selon laquelle le Bleu fonctionne bien pour les systèmes de TAS qui produisent généralement des N-grammes corrects, mais pas des phrases entières quoi soient grammaticalement correctes.

 Le score Bleu en soi n’aurait pas beaucoup de poids, car personne ne sait vraiment à quoi correspond un score Bleu de 30% par exemple, puisque ce taux dépend de nombreux facteurs tels que le nombre de traductions de référence, la paire de langues, le domaine, etc.

 Des recherches récentes ont calculé un score Bleu en analysant uniquement des tra-ductions humaines (que l’on appelle un human Bleu score). Ces scores ont été à peine plus élevés que les scores calculés pour des traductions réalisées par des sys-tèmes de TA, alors que les traductions humaines étaient de bien meilleure qualité.

3.2.2.4.

Au-delà du Bleu : le score METEOR

Selon Koehn (2009, p. 201), beaucoup de changements et d’extensions ont été proposées pour la méthode Bleu, par exemple la remise en cause de l’importance du rappel et de la précision dans l’évaluation de la TA, et notamment l’importance supérieure du rappel, qui garantit que le système de TA testé rend l’entièreté du message de la phrase à traduire.

Lavie et Denkowski (2009, pp. 105) expliquent que METEOR, développé et publié en 2004, est une méthode d’évaluation automatique qui utilise aussi plusieurs traductions de références et qui met justement l’accent sur le rappel, et introduit à cet effet plusieurs perspectives nouvelles, no-tamment celle selon laquelle une même idée peut être transcrite avec des mots différents.

En effet, un des défauts principaux de Bleu est qu’il ne valorise pas les équivalences partielles. La solution proposée par METEOR est de ramener les mots à leur racine (un procédé que l’on appelle la racinisation) et d’utiliser des mots avec un sens sémantiquement proche, comme des synonymes.

METEOR analyse la forme superficielle des mots, puis leur racine et leur classe sémantique en se

basant sur Wordnet, une base de données lexicale en anglais et dans d’autres langues (Lavie &

Denkowski, 2009, p. 106)

Les défauts du score METEOR sont qu’elle est bien plus compliquée à utiliser que Bleu, qu’elle est composée de beaucoup de paramètres à régler (la précision, le rappel, les équivalences au niveau de la racine ou de la synonymie, etc.), et qu’elle nécessite un alignement des mots qui peut s’avérer très coûteux (Lavie & Denkowski, 2009, p. 107).

3.2.3. Le Word Error Rate (WER) et le Translation Edit Rate

Dans le document La traduction automatique post-éditée d'un jeu vidéo peut-elle rivaliser avec la traduction humaine ? Etude de cas du jeu Divinity : Original Sin 2 (Page 39-44)