Score BLEU - Difficultés rencontrées par les traducteurs et post-éditeurs

6.3 Difficultés rencontrées par les traducteurs et post-éditeurs

6.4.1 Score BLEU

Ci-après, nous allons calculer les scores BLEU (Section 2.3.2) pour ces textes, avec l’outil en ligne proposé par Tilde MT, le Interactive BLEU score evaluator¹⁹. Nous avons décidé de calculer le BLEU en prenant en considération la casse (Lowercase) et le Tokenized (sans pour autant avoir trouvé des explications sur comment fonctionne l’outil, même en cliquant sur Click here to learn more).

19 https://www.letsmt.eu/Bleu.aspx, consulté le 30.05.2018

Figure 18 : Le paramétrage de Tilde MT pour le calcul du BLEU

Tilde donne un score BLEU global pour chaque texte, mais permet également de visualiser les scores segment par segment. Nous allons nous limiter au score global.

Tout d’abord, nous allons comparer la référence choisie (la traduction de Wuthering Heights de Anna Luisa Zazo, section 5.1) avec la traduction humaine, ensuite cette même référence avec la traduction automatique brute et post-éditée Nous résumons les scores dans le tableau suivant :

Numéro extrait Score BLEU (Réf vs.

TH)

Score BLEU (Réf vs.

TA brute)

Score BLEU (Réf vs.

TA PE)

Extrait 1 16.73 11.54 15.86

Extrait 2 26.4 16.38 21.82

Extrait 3 26.67 18.52 23.72

Extrait 4 16.41 20.39 27.64

Extrait 5 18.29 13.57 23.35

Extrait 6 20.22 16.73 25.44

Extrait 7 16.4 14.51 20.43

Extrait 8 18.97 11.48 19.20

Extrait 9 16.49 17.04 24.20

Extrait 10 19.3 16.15 22.90

Totaux 19.67 15.78 22.63

Tableau 9 : Scores BLEU (Réf. vs. TH et TA brute) par extrait

Le score BLEU allant de 0 à 100, ces résultats ne sont pas vraiment encourageants, et montrent sans doute que la référence n’est pas idéale. Si nous reprenons la citation de Toral et Way (Section 2.3.2) « To system developers, a BLEU score of less than 20 would be indicative of unusable quality in a post-editing workflow » (2015b, p. 249). Pour quasiment toutes les traductions de Google Translate donc, le flux de travail TA + PE serait déconseillé.

Les traductions humaines ne s’en sortent pas mieux, étant donné qu’uniquement pour deux extraits BLEU dépasse 20.

Malgré le fait qu’ils soient bas, les scores pour les traductions humaines sont plus élevés que ceux des traductions automatiques, sauf dans deux cas (extraits 4 et 9). L’extrait 4 contenait plus de parties descriptives que de dialogues, donc peut-être la traduction automatique a suivi plus le texte source par rapport au traducteur qui a traduit plus librement le texte ; l’extrait 9 étant un mélange, les mêmes considérations peuvent s’appliquer.

Cependant, nous avons remarqué que le calcul de BLEU peut ne pas toujours être pertinent, comme le montrent les exemples suivants (des copies d’écrans de Tilde MT). Human est le segment provenant de la version publiée que nous avons retenue comme référence, Machine est soit un segment traduit humainement soit un segment traduit automatiquement.

Les deux exemples ci-dessous (Figure 19) démontrent que ce score dépend beaucoup du nombre de mots présents dans la phrase, et dans une moindre mesure, de la ponctuation : dans la première phrase Vai di sopra? / Stai salendo?, qui compte 3 et 2 mots respectivement et dont la seule chose en commun est le point d’interrogation, le score BLEU est de 27.22. Sans la ponctuation, le score augmente ultérieurement jusqu’à 30.33, mais les deux phrases n’ont rien en commun.

Figure 19 : Exemple du manque de fiabilité de BLEU

Même test pour les deux phrases ci-dessous (Figure 20), qui comptent un mot chacune. Elles ont en commun le point et les guillemets, et le score est de 63.89. Sans ponctuation, il est de 84.09, mais encore une fois, les deux phrases n’ont rien en commun.

Figure 20 : Exemple du manque de fiabilité de BLEU

L’exemple suivant (Figure 21) démontre également que ce score doit être utilisé avec prudence : tous les composants du segments Machine sont présents dans la référence (sauf les deux points qui sont remplacé par , ma) mais le score ne dépasse pas 60.

Figure 21 : Exemple du manque de fiabilité de BLEU

Dans cet exemple (Figure 22), où uniquement le point d’exclamation est présent dans les deux segments, le score BLEU est de 50.

Figure 22 : Exemple du manque de fiabilité de BLEU

D’une part nous avons des scores BLEU extrêmement faussés, et d’autre part des scores BLEU qui sont, selon nous, calculés correctement. Dans l’exemple ci-dessous (Figure 23, qui ressemble légèrement à celui de la Figure 21) le score BLEU est plus haut.

Figure 23 : Exemple de fiabilité de BLEU

Ou encore, dans le segment suivant (Figure 24), où les seuls mots en commun sont che, continuò et entrambi, le score est de 3.22.

Figure 24 : Exemple de fiabilité de BLEU

Toutefois, nous ne comprenons pas pourquoi l’outil sépare les points d’interrogation, les points, les virgules ou encore les deux points, mais pas le point d’exclamation. Cela a évidemment un impact sur le calcul du score, comme le démontre ce dernier exemple (le même segment que la Figure 22) : nous avons séparé manuellement le point d’exclamation, et le score BLEU change.

Figure 25 : Exemple du manque de fiabilité de BLEU

Nous avons voulu approfondir cette prise en compte particulière de la ponctuation, et avons testé à nouveau BLEU en remplaçant par rien les signes de ponctuation suivants : la virgule, le point, le point-virgule, le point d’exclamation, le point d’interrogation, les deux points, et les guillemets. En ce qui concerne BLEU (Réf. vs. TH) il passe à 19.24 (avant il été 19.67) ; BLEU (Réf. vs. TA brute) il passe à 15.80 (avant il été 15.78). Il n’y a pas de différence, donc la ponctuation n’est pas un facteur important.

6.4.1.1 Conclusion

En conclusion, BLEU donne un meilleur score pour la traduction humaine et automatique post-éditée que pour la traduction automatique brute (sauf en deux cas, les extraits 4 et 9), mais la différence est moins tranchée que pour l’évaluation humaine, ce qui voudrait dire qu’il n’y a pas de corrélation entre cette métrique et les évaluations humaines : il faut donc faire très attention lors de son interprétation. Cela est probablement dû à la référence, qui n’est pas idéale. Ce que les scores montrent, c’est que la TA post-éditée est certainement de meilleure qualité par rapport à la traduction automatique brute.

Dans le document La post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? : Etude expérimentale avec des étudiants en traduction (Page 69-74)