Evaluation automatique - Evaluation des logiciels de traduction automatique

2.3 Evaluation des logiciels de traduction automatique

2.3.2 Evaluation automatique

Le but de l’évaluation automatique est de comparer automatiquement des traductions fournies par des systèmes de traduction automatique avec une ou plusieurs traductions de référence, qui ont été produites par des traducteurs humains.

La précision (precision) et le rappel (recall) sont des métriques traditionnelles basées sur le mot : la précision calcule le nombre de mots corrects générés par rapport au nombre total de mots générés par le système de traduction automatique ; le rappel, quant à lui, calcule le nombre de mots corrects générés par rapport au nombre total de mots dans la référence (Koehn, 2010, p. 223). La précision calcule le bruit (tous les mots incorrects qui ont été générés) et le rappel le silence (tous les mots présents dans la référence mais qui n’ont pas été générés par le système de traduction automatique).

9 http://www.apex-translations.com/documents/sae_j2450.pdf, consulté le 04.09.2017.

http://producthelp.sdl.com/SDL_TMS_2011/en/Creating_and_Maintaining_Organizations/Managing_QA_Mode ls/LISA_QA_Model.htm, consulté le 04.09.2017.

Le grand inconvénient de ces deux métriques est qu’elles ne tiennent pas compte de l’ordre des mots. Si par exemple la traduction de référence est Le chat dort sur la chaise et le système génère Chaise le dort la sur chat, la précision et le rappel vont être 100 %, valeur qui indique une phrase parfaite, mais la traduction n’a aucun sens.

Une autre métrique traditionnelle issue de la reconnaissance vocale est le WER (Word Error Rate), également basée sur le mot mais qui tient compte de l’ordre des mots. Le WER calcule le nombre minimal de corrections (insertions, suppressions ou substitutions) à effectuer pour que la traduction automatique soit identique à la référence. On divise ensuite ce nombre par le total de mots de la référence. Le résultat est un pourcentage : plus ce chiffre est bas, plus le système est bon, car cela veut dire qu’il y a moins de correction à effectuer. Par contre, il s’agit d’une métrique trop stricte, car le WER exige que l’ordre des mots soit identique. Par exemple, une phrase X et une phrase Y auront des scores différents, même si les deux phrases ont le même sens.

Mises à part les métriques traditionnelles, il y a aussi la référence en évaluation automatique, le score BLEU (Bilingual Evaluation Understudy). BLEU est une métrique qui compare de manière automatique les traductions produites par les systèmes de traduction avec une ou plusieurs références, en tenant compte du nombre de N-grammes (et non pas tout simplement des mots) en commun entre les deux.

Pour mieux expliquer le fonctionnement de BLEU, nous reportons ici l’exemple de Koehn (2010, p. 226) :

Système A : Israeli officials responsibility of airport safety Référence : Israeli officials are responsible for airport security

Système B : airport security Israeli officials are responsible

BLEU divisera le nombre de N-grammes de chaque type dans la traduction présents dans la référence par le nombre total de N-grammes de chaque type dans la traduction. Plus le score est haut, plus le système est bon. Le score fonctionne aussi avec plusieurs références (Papineni et al., 2002, pp. 311-318).

Pour le système A, le calcul BLEU simplifié est le suivant : 3/6 pour les unigrammes (3 unigrammes générés sont présents dans la référence), 1/5 pour les bigrammes (1 bigramme

généré est présent dans la référence), 0/4 pour les trigrammes (aucun trigramme n’a été généré) et 0/3 pour les quadrigrammes (aucun quadrigramme n’a été généré), ce qui donne un total de 4/18 N-grammes générés présents dans la référence. Pour le système B, il s’agit d’appliquer le même principe : 6/6 pour les unigrammes, 4/5 pour les bigrammes, 2/4 pour les trigrammes et 1/3 pour les quadrigrammes, ce qui donne un total de 13/18 N-grammes générés présents dans la référence.

Le score inclut aussi une pénalité (brevity penalty), c’est-à-dire qu’il est réduit si la traduction est plus courte que la référence (Koehn, 2010, p. 226).

Les principaux avantages de BLEU sont qu’il est, bien évidemment, automatique, qu’il permet de mesurer la fidélité (grâce aux unigrammes) et la fluidité (grâce aux multigrammes) (Papineni et al., 2002, pp. 311-318) et qu’il semble donner des corrélations élevées avec les jugements humains (Koehn, 2010, p. 229). Toutefois, BLEU présente aussi des limites.

Tout d’abord, ce n’est pas clair que BLEU reflète vraiment des différences de qualité entre les traductions. BLEU ne fait que comparer une traduction à une ou plusieurs références limitées, même s’il y a un nombre élevé de bonnes traductions. Deuxièmement, on ne sait pas vraiment ce que signifie le score BLEU, c’est-à-dire, à partir de quel score pourrait-on utiliser une phrase ? Toral et Way, dans leur étude de 2015 « Machine-assisted translation of literary texts: a case study », indiquent que « [t]o system developers, a BLEU score of less than 20 would be indicative of unusable quality in a post-editing workflow » (2015b, p. 249). Ce score dépend de beaucoup de facteurs, par exemple du nombre de traductions de référence, de la paire de langues, du domaine et de la manière selon laquelle les phrases (traductions et références) sont segmentées (Koehn, 2010, p. 229).

Les chercheurs ont essayé d’améliorer le score BLEU de différentes manières : avec les métriques METEOR et NIST. METEOR part du principe que BLEU ne tient pas compte des correspondances partielles entre les traductions et la ou les références. Il intègre donc l’utilisation des synonymes et des lemmes pour ne pas pénaliser des phrases qui sont correctes, comme security et safety dans l’exemple précédent. NIST, quant à lui, donne plus de poids selon la fréquence d’apparition d’un N-gramme (plus ce dernier est rare, plus il aura de poids) (Koehn, 2010, pp. 228-229).

Une autre métrique automatique utilisée est le TER (Translation Edit Rate). Cette méthode compare le résultat de la traduction automatique avec une traduction de référence, ou, en cas

de plusieurs références, au nombre de mots de la référence la plus proche. Le TER calcule le nombre minimum de corrections (ajouts, suppressions, substitutions) nécessaires pour arriver à la référence. Il est donc similaire au WER (décrit plus haut), mais prend en considération les déplacements de séquences (Snover et al., 2006, pp. 223-231). Pour illustrer, nous reprenons l’exemple tiré de Snover et al :

Référence : SAUDI ARABIA denied THIS week information published in the AMERICAN new york times

Hypothèse : THIS WEEK THE SAUDIS denied information published in the new york times

Pour arriver à la référence, nous devons faire quatre corrections : un déplacement (this week), deux substitutions (the Saudis) et une insertion (American). Ce qui donne un score TER de 4/13, ou de 31 %. Le score TER se lit de la façon suivante : plus il est haut, plus il y a eu de changements.

Dans le document La post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? : Etude expérimentale avec des étudiants en traduction (Page 32-35)