Comparaison au niveau des segments - Evaluation humaine vs automatique

7. Evaluation humaine vs automatique

7.3. Comparaison au niveau des segments

Dans un deuxième temps, nous avons procédé à une évaluation plus précise en comparant les résultats obtenus au niveau des segments. Notre évaluation humaine 1 nous a donné deux

78 mesures permettant d’évaluer les traductions de nos deux systèmes : le temps de PE et le nombre de modifications apportées à l’output de la TA (mesuré à l’aide du HTER). Pour cette évaluation, nous avons considéré qu’une traduction était donnée comme meilleure par l’évaluation humaine si son temps de PE et son HTER étaient meilleurs pour les deux traductrices. Nous n’avons donc pas pris en compte les traductions pour lesquelles l’output de DeepL obtenait un temps de PE meilleur que celui de MTH mais un HTER moins et inversement, car il est difficile de déterminer laquelle de ces deux métriques il faudrait prendre en compte pour départager les 2 traductions. Nous n’avons pas non plus pris en compte les segments pour lesquels il n’y avait pas d’accord entre nos deux traductrices.

Nous avons tout d’abord calculé les scores BLEU et HTER de DeepL et de MTH pour chacun des segments du corpus.

Le tableau ci-dessous (Tableau 20) présente le nombre de segments qualifiés de meilleurs par l’évaluation automatique pour chaque système, c’est-à-dire les segments qui ont un meilleur score BLEU. Les segments non départagés sont les segments qui obtiennent des scores identiques :

DeepL MTH Non départagés

117 (46,8 %) 129 (51,6 %) 4 (1,6 %)

Tableau 20 - Résultats de l’évaluation automatique par segment (pourcentages de segments qui ont un meilleur score BLEU)

Pour l’évaluation automatique, nous voyons qu’une majorité des segments (51,6%) de MTH obtiennent un score BLEU supérieur à ceux de DeepL.

Nous avons ensuite compté le nombre de segments pour lesquels la TA de DeepL obtient un temps de PE et un HTER meilleurs que celle de MTH pour nos deux traductrices. Le tableau ci-dessous (Tableau 21) présente le nombre de segments identifiés comme meilleurs pour nos deux traductrices lors de l’évaluation humaine pour chaque système, c’est-à-dire les segments qui ont un meilleur temps de PE et un meilleur HTER :

79 Tableau 21 - Résultats de l’évaluation humaine par segment (pourcentages de segments qualifiés de

meilleurs par l’évaluation humaine)

Ces résultats par segments montrent qu’une majorité des segments issus de DeepL obtiennent un temps de PE et un HTER meilleurs que ceux de MTH pour nos deux traductrices. Les segments non départagés correspondent aux segments pour lesquels le temps de PE et le HTER ne sont pas tous deux meilleurs pour les deux traductrices. Les résultats obtenus semblent donc indiquer que le score BLEU a tendance à sous-évaluer la qualité de la TA de DeepL puisque BLEU estime que 117 segments DeepL sont meilleurs contre 144 pour l’évaluation humaine.

Parmi les segments qualifiés de meilleurs par l’évaluation humaine, nous avons regardé combien d’entre eux avaient obtenu un score BLEU inférieur à celui de MTH. Nous avons fait la même chose pour les segments traduits par MTH. Pour calculer le pourcentage de sous-estimation du score BLEU, nous avons utilisé la même formule que Shterionov et al. (2017)²¹ : nous avons divisé le nombre de segments désignés comme meilleurs par l’évaluation humaine et comme moins bons par le score BLEU par le nombre de segments désignés comme meilleurs par l’évaluation humaine et nous avons multiplié le tout par 100.

Dans le tableau ci-dessous (Tableau 22), présente le pourcentage de segments traduits par DeepL qui ont obtenu un score BLEU inférieur à ceux de MTH, mais qui ont été qualifiés de meilleurs par l’évaluation humaine :

21 Le calcul proposé par Shterionov et al. se présente comme suit : ^𝑑^{𝑃𝐵𝑆𝑀𝑇}

𝑁𝑀𝑇

𝑑^𝑁𝑀𝑇 où 𝑑^𝑁𝑀𝑇 est le nombre de traductions issues du système de TAN qui ont été qualifiées de meilleures (que celles du TAS) par l’évaluation humaine et 𝑑_{𝑃𝐵𝑆𝑀𝑇}^𝑁𝑀𝑇 est le nombre de traductions de 𝑑^𝑁𝑀𝑇dont le score BLEU est inférieur aux traductions correspondantes issues du système de TAN.

DeepL MTH Non départagés Total

Nombre de segments

(pourcentage) 144 (57,6 %) 15 (6 %) 91 (36,4 %) 250 (100%)

80 Nombre de segments

meilleurs selon évaluation humaine

Nombre de segments meilleurs selon l’évaluation humaine, mais pas selon le BLEU

% de segments sous-évalués par BLEU

DeepL 144 63 43,75 %

MTH 15 5 33,33 %

Tableau 22 - Nombre et pourcentage de segments sous-évalués par BLEU pour les deux systèmes

Ces résultats montrent que 43,75 % des segments de DeepL qui apparaissent comme meilleurs que ceux de MTH lors de l’évaluation humaine obtiennent des scores BLEU inférieurs à ceux des segments de MTH. De ce fait, nous pouvons dire que, dans notre cas, le score BLEU sous-évalue 43,75 % des segments traduits par DeepL. En ce qui concerne MTH, nos résultats indiquent que le score BLEU sous-évalue 33,33 % des segments.

Conclusion

Cette comparaison nous montre que les résultats des évaluations humaines et automatiques diffèrent sensiblement dans notre cas, tant au niveau du corpus qu’au niveau des segments.

Tandis que le score BLEU ne départage pas nettement DeepL de MTH, l’évaluation humaine, elle, donne clairement DeepL comme étant le meilleur de nos deux systèmes. La métrique BLEU étant généralement considérée comme une métrique ayant une bonne corrélation avec le jugement humain pour les systèmes statistiques (voir section 3.2), nous en déduisons qu’elle sous-évalue DeepL dans les évaluations que nous avons conduites. Ces résultats semblent confirmer notre hypothèse selon laquelle le score BLEU aurait tendance à sous-évaluer les performances des systèmes neuronaux de manière générale.

Dans le document Traduction automatique statistique vs. neuronale : Comparaison de MTH et DeepL à La Poste Suisse (Page 87-91)