Taxonomie d’erreurs MQM adaptée aux textes littéraires

Les éléments barrés ont été supprimés, tandis que les éléments en gras ont été ajoutés.

7 Résultats

Une fois présentée la méthodologie adoptée pour les tâches prévues dans le cadre de notre étude - traduction humaine, traduction automatique, post-édition et évalua-tion -, ce chapitre vise à analyser les résultats de l’expérience. Cette analyse porte sur le choix du système de TA à utiliser pour la tâche de post-édition (Section 7.1), l’ef-fort temporel et technique (Section 7.2), les scores d’évaluation automatique BLEU et TER (Section 7.3), l’évaluation comparative (Section 7.4), la classification d’er-reurs (Section 7.5) et, enfin, les difficultés rencontrées par les traducteurs et les post-éditeurs (Section 7.6).

7.1 Choix du système de TA

Afin de déterminer le système de TA à utiliser comme point de départ pour la tâche de post-édition, nous avons mené une évaluation automatique de six systèmes de TA. Nous présentons maintenant les résultats obtenus avec deux métriques auto-matiques largement utilisées : BLEU et TER. BLEU est la métrique standard de facto dans le domaine de la TA. Nous utilisons également TER car il s’agit d’une mé-trique de taux d’erreur dont le score est basé sur le nombre d’opérations d’édition - insertions, suppressions et substitutions - nécessaires pour que l’output de la TA corresponde à la référence utilisée, ce qui la rend davantage appropriée au scénario de traduction que nous envisageons. Par ailleurs, il a été constaté que le TER est en corrélation avec l’effort temporel de PE (O’Brien, 2011). Afin de bien interpréter les résultats, il faut garder à l’esprit que les deux métriques fonctionnent sur une échelle de 0 à 100. Pour BLEU, plus le score est élevé, mieux il est - 100 indiquant que l’output de la TA et la référence sont identiques - tandis que pour TER, plus le score est faible, mieux il est - 0 indiquant que l’output de la TA et la référence sont identiques.

Nous avons utilisé deux ensembles de données de test pour mener l’évaluation : un premier ensemble soustrait des données d’entraînement, composé de phrases assez longues et riches sur le plan lexical, et un second, composé d’un poème du XX^esiècle d’une grande complexité. Nous présentons ensuite les scores TER et BLEU - avec et sans prise en considération de la casse¹ - du premier (Figure 7.1) et du second ensemble de données de test (Figure 7.2).

Système de TA BLEU lowercase BLEU TER

DeepL 21.38 21.29 68.94

Google Translate 20.59 20.31 71.42

Microsoft Translator 18.47 18.28 74.86

Yandex.Translate 20.70 20.56 71.51

Apertium 7.88 7.87 86.48

Custom Translator 19.93 19.66 71.75

TABLEAU7.1 – Scores du premier ensemble de données de test

Système de TA BLEU lowercase BLEU TER

DeepL 24.93 24.66 64.57

Google Translate 23.09 22.73 66.80

Microsoft Translator 21.27 20.98 68.79

Yandex.Translate 18.29 18.19 70.27

Apertium 13.96 12.84 79.57

Custom Translator 22.31 21.90 67.28

TABLEAU7.2 – Scores du second ensemble de données de test

Ainsi, on constate que DeepL obtient les meilleurs scores pour les deux ensembles de données de test. Le système adapté aux textes littéraires est surpassé par DeepL, Google Translate et Yandex.Translate pour le premier ensemble de données, et seule-ment par DeepL et Google Translate pour le second ensemble. Après une comparai-son rapide entre l’output de DeepL et de notre système, nous pouvons effectivement constater que l’output de DeepL est plus fluide et fidèle. Par conséquent, nous avons décidé d’écarter notre système spécialisé et d’utiliser DeepL pour la tâche de post-édition.

1. Le paramètreLowercasemet en minuscules le texte de la référence et de l’hypothèse.

7.2 Effort temporel et technique

Une fois déterminé le système de TA à retenir, les participants l’ont utilisé comme point de départ pour post-éditer des extraits similaires à ceux qu’on leur avait pré-cédemment demandé de traduire - par exemple, ils devraient post-éditer la par-tie précédente ou subséquente du fragment qu’ils ont traduit. Nous allons mainte-nant comparer l’effort temporel (Tableau 7.3) et technique, mesuré par le nombre de frappes de clavier utilisées (Tableau 7.4) et au moyen du score HTER (Tableau 7.5), requis pour fournir une traduction humaine et pour post-éditer une traduction automatique.

Extrait Traduction humaine Post-édition Gain en effort temporel

1 136 min 15 s 54 min 14 s 82 min 1 s TABLEAU7.3 – Effort temporel

Extrait Traduction humaine Post-édition Gain en effort technique

1 4694 533 4161

TABLEAU 7.4 – Effort technique mesuré par le nombre de frappes de clavier

Extrait Traduction humaine Post-édition Gain en effort technique

TABLEAU7.5 – Effort technique mesuré au moyen du score HTER

Le temps total de traduction humaine est de 19 heures 15 minutes. Le temps de post-édition a été de 5 heures 53 minutes. Cela signifie que l’effort temporel gagné pour les dix extraits a été de 13 heures 21 minutes. Quant à l’effort technique mesuré par le nombre de frappes de clavier, la post-édition a nécessité 5650 frappes de clavier, ce qui signifie qu’il y a eu une réduction de 49 837 frappes de clavier par rapport aux 55 487 frappes de clavier nécessaires pour traduire les dix passages à partir de zéro.

En ce qui concerne l’effort technique mesuré par HTER, nous avons calculé l’ef-fort de post-édition en utilisant la traduction automatique comme hypothèse et la traduction automatique post-éditée comme référence ; de la même manière, nous avons calculé l’effort nécessaire pour produire une traduction à partir de zéro en utilisant la traduction automatique comme hypothèse et la traduction humaine pro-duite par les participants de notre étude comme référence. Si nous additionnons les scores de tous les passages et divisons le résultat par dix, nous pouvons affirmer que l’effort technique nécessaire pour produire une traduction post-éditée est de 15,029, alors qu’il est de 48,092 pour la traduction humaine. Cela signifie qu’il y a eu une réduction de 33,063 points.

Nous pouvons conclure que la production d’une traduction post-éditée est nette-ment moins coûteuse en effort temporel et technique que la production d’une tra-duction à partir de zéro. Nous venons de mesurer l’effort nécessaire pour la produc-tion de ces deux modalités de traducproduc-tion. Nous allons maintenant comparer leur qualité.

7.3 Évaluation automatique

Afin d’avoir une première idée de la qualité des traductions obtenues, nous allons maintenant mener une évaluation automatique des trois modalités de traduction - traduction automatique brute, traduction automatique post-éditée et traduction humaine - au moyen des métriques BLEU (Tableau 7.6) et TER (Tableau 7.7). Nous avons utilisé comme référence une traduction publiée de chacun des extraits. Pour calculer le score BLEU, la casse a été prise en compte et le texte a été tokenisé.²

Extrait Traduction humaine Post-édition Traduction automatique

1 26.75 28.80 39.55

TABLEAU7.6 – Score BLEU des trois modalités de traduction

Il est tout à fait surprenant que la TA obtienne de meilleurs scores, BLEU et TER, que la PE et que la traduction humaine pour la plupart des extraits, car on aurait pu s’attendre que ce soit l’inverse, la traduction humaine obtenant les meilleurs scores, suivie de la PE et, en dernière position, la TA. Seulement pour un des extraits, la traduction humaine est meilleure que la traduction automatique ; pour le reste, elle obtient des scores inférieurs à ceux de la PE et de la traduction automatique. La PE est une seule fois manifestement meilleure que la TA et, dans trois cas, elle est légèrement meilleure que la TA ; pour le reste, elle obtient des scores inférieurs à la TA. Nous pouvons également constater que la moyenne de la TA est légèrement supérieure à celle de la PE et qu’il y a un écart d’environ 9 points par rapport à la traduction humaine, pour les deux métriques.

2. La tokenisation consiste à isoler chaque mot du texte, dans le cas des langues latines, il s’agit surtout de séparer les mots des signes de ponctuation en ajoutant des espaces (Koehn, 2010).

Extrait Traduction humaine Post-édition Traduction automatique

TABLEAU7.7 – Score TER des trois modalités de traduction

Après avoir eu un premier aperçu de la qualité grâce aux métriques d’évaluation au-tomatique, nous présentons maintenant les résultats de l’évaluation humaine pour déterminer s’ils sont en accord avec les scores automatiques.

7.4 Évaluation comparative

Les scores BLEU et TER seuls ne sont pas suffisants pour évaluer de manière fiable la qualité d’une traduction dans la mesure où ils dépendent d’une traduction humaine - ou plusieurs - en tant que référence. De plus, nous avons remarqué quelques in-exactitudes mineures dans les traductions de référence utilisées pour notre étude.

Pour cette raison, nous avons également mené une évaluation comparative afin de déterminer quelle traduction était préférée par les évaluateurs humains et de véri-fier si ces résultats confirment ceux de l’évaluation automatique. Étant donné que la qualité de la traduction humaine et de la traduction automatique post-éditée est, en principe, bien meilleure que celle de la traduction automatique brute, cette dernière n’avait pas été prise en compte dans l’évaluation comparative.

Les résultats sont présentés dans le tableau suivant (Tableau 7.8). TH ++ veut dire que la traduction humaine est nettement meilleure que la traduction automatique post-éditée ; TH + veut dire que la traduction humaine est légèrement meilleure que la traduction automatique post-éditée ; TH = PE veut dire que la traduction humaine et la traduction automatique post-éditée sont sont à peu près au même niveau ; PE + veut dire que la traduction automatique post-éditée est légèrement meilleure que

la traduction humaine ; en fin, PE ++ veut dire que la traduction automatique post-éditée est nettement meilleure que la traduction humaine.

Extrait TH ++ TH + TH = PE PE + PE ++

1 15 % 10 % 35 % 20 % 20 %

2 10 % 15 % 15 % 35 % 25 %

3 15 % 15 % 20 % 15 % 35 %

4 10 % 10 % 15 % 25 % 40 %

5 15 % 20 % 20 % 35 % 10 %

6 20 % 10 % 15 % 25 % 30 %

7 35 % 10 % 20 % 30 % 05 %

8 15 % 10 % 20 % 35 % 20 %

9 20 % 15 % 25 % 25 % 15 %

10 25 % 10 % 15 % 20 % 30 %

TABLEAU7.8 – Résultats de l’évaluation comparative par extrait

Les extraits ont été divisés en un nombre égal de segments, en essayant de respecter autant que possible la segmentation originale utilisée pour les tâches de traduction et de post-édition. Dans l’ensemble, la traduction humaine a été jugée meilleure 71 fois, soit 30,5 % ; la TA post-éditée a été jugée meilleure 99 fois, soit 49,5 % ; et le reste a été jugé sans différence ou très similaire 40 fois, soit 20 % (Figure 7.1).

Il convient de souligner que, malheureusement, les cinq premiers extraits ont été évalués par une personne et les cinq derniers par une autre, de sorte que l’on ne peut mesurer l’accord inter-évaluateur.

Puisque nous avons confirmé que, en effet, la traduction automatique post-éditée est majoritairement jugée meilleure que la traduction humaine par les évaluateurs, nous allons maintenant tenter de déterminer les causes de cette qualité apparem-ment supérieure au moyen d’une analyse d’erreurs.

7.5 Classification d’erreurs

Ayant pris connaissance des résultats de l’évaluation comparative, nous aimerions connaître plus en détail la nature de ces préférences. Pour cette raison, nous avons procédé à une analyse d’erreurs selon la taxonomie adaptée aux textes littéraires présentée précédemment (Section 6.5).

FIGURE7.1 – Résultats de l’évaluation comparative dans l’ensemble du

Dans le document Traduction automatique neuronale et littérature : Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée (Page 94-102)