Évaluation automatique : BLEU et TER

3 Post-édition

5.2 Évaluation automatique : BLEU et TER

Les données de MateCat permettent d’évaluer l’effort et le temps de PE. Toutefois, elles ne donnent aucune information sur la qualité finale du texte post-édité. Il convient alors d’évaluer la qualité de la TA.

Il existe deux principaux types d’évaluation de la TA : l’évaluation automatique et l’évaluation humaine (détaillées dans la section 2.5). Bien qu’elles n’aient à l’origine pas été prévues pour évaluer la PE, l’évaluation humaine et l’évaluation automatique seront utilisées dans ce travail pour analyser les textes finaux des post-éditeurs, afin de déterminer si l’intervention humaine a réellement amélioré les résultats de la TA.

L’évaluation automatique se fera à l’aide du score BLEU et du score TER et permettra de vérifier le niveau de similitude entre la TH de référence (celle qui apparaît dans le rapport annuel 2018 de la Banque du Canada, en version française) et les versions rendues par les participants.

5.2.1 Score BLEU

Le score BLEU permet d’évaluer la qualité d’une TA selon sa similarité avec une TH de référence. Comme une PE permet de corriger et d’améliorer une TA, il devient alors intéressant de calculer le score BLEU d’une TA post-éditée afin de vérifier si elle obtient un score plus élevé. On pourrait en effet s’attendre à ce qu’une intervention humaine dans une TA la rende plus similaire à une TH.

94 L’interface utilisée pour le calcul du score BLEU est Interactive BLEU score evaluator²⁶ de Tilde. Bien que la valeur du score BLEU se situe entre 0 et 1, 1 étant le niveau de similarité le plus élevé (Papineni et al., 2002), l’outil utilisé donne cette valeur sous forme de pourcentage : plus le score est proche de 100 %, plus la TA est similaire à la TH.

La TA semble de bonne qualité lors d’une première lecture, à l’exception de quelques calques maladroits de l’anglais et de quelques tournures peu idiomatiques. Pourtant, elle n’obtient qu’un score BLEU de 33,75 % sans PE, ce qui veut dire qu’elle est différente de la TH de référence.

La PE des participants semble avoir péjoré le score BLEU de la TA alors qu’elle aurait dû l’améliorer : en effet, seule la PE du traducteur 3 obtient un score légèrement plus élevé, de 35,18 %.

Participant Score BLEU (%)

TA brute 33,75

PE de l’expert 1 29,16

PE de l’expert 2 29,29

PE de l’expert 3 29,75

Moyenne du groupe 29,40

Tableau 20 : Score BLEU des experts

Participant Score BLEU (%)

TA brute 33,75

PE du traducteur 1 32,82

PE du traducteur 2 31,33

PE du traducteur 3 35,18

PE du traducteur 4 30,07

Moyenne du groupe 32,25

Tableau 21 : Score BLEU des traducteurs

26 https://www.letsmt.eu/Bleu.aspx (consulté le 19.09.2020)

95 Il est difficile d’expliquer de tels résultats : en effet, une des limites du score BLEU est qu’il ne donne aucune indication quant aux raisons du résultat obtenu, comme expliqué précédemment. De plus, une seule TH est utilisée en guise de référence, alors qu’il peut exister des dizaines de variantes correctes pour la traduction d’une phrase.

Néanmoins, s’il fallait se fier aux résultats du score BLEU uniquement, les traducteurs seraient les meilleurs post-éditeurs, puisque malgré de plus faibles performances (section 5.1), ils ont produit des textes finaux de meilleure qualité.

5.2.2 Score TER

Le score TER a l’avantage d’être plus intuitif que le score BLEU, car il correspond au nombre de modifications nécessaires pour qu’un segment de la TA corresponde à un segment d’une TH de référence. Contrairement au score BLEU, plus il est bas, meilleure est la TA, car cela veut dire qu’il faut faire moins de changements.

Le calcul du score TER a été fait grâce à l’interface MT3²⁷, qui permet également de calculer les scores BLEU et WER. La traduction a obtenu un score de 54,5 %, ce qui signifie qu’un peu plus de la moitié du contenu devrait être modifiée afin que la TA corresponde parfaitement à la TH de référence.

Le score TER des PE des participants corrobore les résultats du score BLEU : à l’exception de la PE du traducteur 3 (dont la PE a obtenu un score de 53,9 %), toutes les PE ont obtenu un score plus élevé (et donc moins bon) que la TA brute.

Participant Score TER (%)

TA brute 54,5

PE de l’expert 1 57,3

PE de l’expert 2 60,1

PE de l’expert 3 59,1

Moyenne du groupe 58,8

Tableau 22 : Score TER des experts

27 http://mt3.unige.ch/app (consulté le 05.12.2020)

Participant Score TER (%)

TA brute 54,5

PE du traducteur 1 58,1

PE du traducteur 2 56,8

PE du traducteur 3 53,9

PE du traducteur 4 55,9

Moyenne du groupe 56,2

Tableau 23 : Score TER des traducteurs

À nouveau, l’évaluation automatique attribue de meilleurs résultats aux traducteurs : ceux-ci ont obtenu un score TER de 56,2 % en moyenne, alors que les experts ont reçu un score de 58,8 %.

5.2.3 Synthèse de l’évaluation automatique

Si l’évaluation des performances sur MateCat a désigné les experts comme des post-éditeurs plus performants, l’évaluation automatique donne raison aux traducteurs : ceux-ci obtiennent un score BLEU de 32,3 % et un score TER de 56,2 %.

Participant Score BLEU (%) Score TER (%)

TA brute 33,8 54,5

PE de l’expert 1 29,2 57,3

PE de l’expert 2 29,3 60,1

PE de l’expert 3 29,8 59,1

Moyenne du groupe 29,4 58,8

Tableau 24 : Scores BLEU et TER des experts

Participant Score BLEU (%) Score TER (%)

TA brute 33,8 ^54,5

PE du traducteur 1 32,8 ^58,1

PE du traducteur 2 31,3 ^56,8

PE du traducteur 3 35,2 ^53,9

PE du traducteur 4 30,1 ^55,9

Moyenne du groupe 32,3 ^56,2

Tableau 25 : Scores BLEU et TER des traducteurs

97 Il est toutefois difficile de justifier ces scores : en effet, BLEU et TER ne sont que des scores, de simples valeurs numériques qui mesurent la ressemblance entre un texte et une référence. Afin d’évaluer et de comparer en détail les PE des experts et des traducteurs, une évaluation humaine est indispensable.

Dans le document Post-édition de textes spécialisés dans le domaine économique : comparaison des performances entre traducteurs et experts du domaine (Page 95-99)