Evaluation humaine 2 : qualité des traductions

6. Comparaison de MTH et DeepL

6.3. Evaluation humaine 2 : qualité des traductions

Nous avons décidé de conduire une deuxième évaluation humaine afin de voir si le système de TA utilisé avait un impact sur la qualité de la traduction post-éditée. En effet, pour être utile au traducteur, un système de TA doit permettre une post-édition rapide et nécessitant le moins de changement possible, mais il ne doit pas conduire à une altération de la qualité de la traduction finale. Nous allons donc cherché à savoir si notre système neuronal, en plus de produire une TA brute de meilleure qualité, donne aussi lieu à une traduction post-éditée de bonne qualité.

6.3.1. Déroulement de l’évaluation humaine 2

Pour conduire cette évaluation, nous avons demandé à trois étudiantes en traduction de langue maternelle française de comparer la qualité des traductions finales produites par nos post-éditrices lors de l’évaluation 1 à partir de la TA de MTH et de DeepL. Pour chaque segment, nous avons soumis aux étudiantes la traduction finale post-éditée à partir de la TA de MTH et celle post-éditée à partir de la TA de DeepL et nous leur avons demandé d’indiquer laquelle des traductions étaient, selon elles, la meilleure. Nos évaluatrices n’ayant pas toutes l’allemand dans leur combinaison de langues, nous leur avons fourni une traduction de référence (qui était la traduction présente dans la mémoire de traduction de La Poste) sur laquelle elles pouvaient s’appuyer pour juger de la qualité des traductions soumises.

Le test se présentait sous la forme d’un tableau Excel dans lequel les évaluatrices devaient indiquer si elles estimaient que la meilleure traduction était la 1 ou la 2 ou si elles les jugeaient équivalentes. Les traductions issues de DeepL et de MTH avaient été mélangées afin de ne pas influencer le jugement des évaluatrices. Chaque juge a évalué les deux corpus post-édités par nos deux traductrices lors de l’évaluation humaine 1 (soit 500 segments issus de DeepL comparé aux mêmes 500 segments issus de MTH).

71 Les consignes données aux participantes de l’évaluation se trouvent dans l’annexe D.

6.3.2. Résultats de l’évaluation humaine 2

Le tableau ci-dessous (Tableau 15) présente le nombre de traductions jugées meilleures par chacune des juges pour chaque système. La troisième colonne indique les traductions jugées équivalentes :

Juges Traductions issues de DeepL

Traductions issues de MTH

Traductions jugées équivalentes

Total

Juge 1 221 106 173 500

Juge 2 197 206 97 500

Juge 3 221 166 113 500

Tableau 15 - Nombre de traductions jugées meilleures par chaque juge pour chaque système

Nous voyons que la juge 1 et la juge 3 obtiennent des résultats semblables. Sur les 500 segments qu’elles ont comparés, elles ont estimé qu’une majorité des traductions post-éditées à partir de DeepL étaient meilleures que celles post-éditées à partir de MTH. La juge 2, en revanche, a indiqué une majorité de traductions de MTH comme meilleures. Les trois juges ont indiqué un nombre assez important de traductions équivalentes. Afin de mesurer l’accord entre les juges, nous avons calculé le score kappa de Light (Light, 1971)²⁰. Nous avons obtenu un score kappa de 0,226, ce qui indique un « accord faible » entre les juges selon la grille de lecture de Landis et Koch (1977).

Les résultats de nos trois juges étant assez partagés et l’accord entre elles étant faible, nous avons décidé de les compiler segment par segment pour départager chaque traduction à la majorité. Pour ce faire, nous avons regardé le jugement des trois évaluatrices pour chaque segment et nous avons compté, d’une part, les segments pour lesquels il y avait un jugement

20 Le kappa de Light permet de calculer l’accord entre plus de deux juges (Light 1971).

72 unanime de la part de nos trois évaluatrices et, d’autre part, les segments pour lesquels il y avait un jugement majoritaire (deux juges ayant le même avis). Le tableau ci-dessous (Tableau 16) présente le nombre de segments jugés de manière unanime pour chaque système et le nombre de segments ayant été jugés comme meilleur par deux juges. La dernière colonne indique le nombre de segments pour lesquels il n’y avait aucune majorité :

Traductions

Tableau 16 - Nombre de segments jugés meilleurs à l’unanimité et à la majorité (2 contre 1) pour chaque système (pourcentage du nombre total de segments (500))

Nous voyons que 80 segments issus de DeepL ont été qualifiés de meilleurs à l’unanimité (soit 16 % des segments), contre seulement 45 segments (9 %) issus de MTH. Il y a peu de traductions (27 soit 5,4% des segments) qui ont été qualifiées d’équivalentes à l’unanimité. Les résultats à la majorité (deux juges contre un), penchent aussi en faveur de DeepL avec 129 segments (soit 25,8 % des segments) jugés meilleurs contre 90 pour MTH (18 %).

Dans le tableau ci-dessous (Tableau 17), nous avons regroupé les jugements unanimes et les jugements « deux contre un » afin d’avoir une vue d’ensemble des jugements à la majorité (au moins deux juges).

Tableau 17 - Nombre de segments jugés meilleurs à la majorité (au moins 2 juges) pour chaque système (pourcentage par rapport au nombre total de segments)

73 Ces résultats nous montrent que 41,80 % des segments les traductions de DeepL sont jugées meilleures que celles de MTH par au moins deux juges sur trois contre 27 % pour les traductions de MTH. 31,2 % des traductions sont jugées équivalentes ou n’obtiennent aucune majorité.

D’après ces résultats, il semblerait que le système de TA ait une influence sur la qualité de la traduction post-éditée et dans notre cas, il semblerait que la TA de DeepL donne lieu, de manière générale, à des traductions de meilleure qualité que celle de MTH après post-édition. Nous pensons cependant qu’il faut prendre ces résultats avec précaution, car l’accord entre les juges est faible pour notre test et un nombre important de traductions sont équivalentes ou non départagées. L’évaluation humaine 1 a clairement indiqué DeepL comme étant le meilleur système pour notre tâche de PE et, dans cette seconde évaluation humaine, nous cherchions surtout nous assurer que l’utilisation de ce système n’affectait pas la qualité des traductions finales. Cette évaluation nous a montré qu’après PE, la TA de DeepL n’est pas moins bonne que celle de MTH, elle est même meilleure pour 41,80 % des segments.

Dans le document Traduction automatique statistique vs. neuronale : Comparaison de MTH et DeepL à La Poste Suisse (Page 80-83)