Qualité de la traduction automatique 2

5. RESULTATS

5.3 Qualité de la traduction automatique 2 – Score BLEU

La deuxième méthode d’évaluation que nous avons sélectionnée est le score BLEU (voir Section 2.4.2).

Celui-ci nous permettra soit de corroborer les résultats que nous avons obtenus jusqu’à présent soit à les nuancer. Afin d’établir le score BLEU de chacune des traductions, nous avons utilisé l’outil en ligne de Tilde²⁵. Celui-ci possède un certain nombre d’avantages de même qu’un certain nombre de désavantages. Du point de vue des avantages, il s’agit d’un outil en ligne facile à utiliser, gratuit et ne

demandant aucune connaissance informatique particulière. Cependant, le score BLEU généré par Tilde a tendance à effectuer des erreurs si l’un des fichiers possède certains caractères typographiques. Afin d’essayer de contourner le problème, nous avons donc été contraints de supprimer tous les accents de notre corpus ainsi que les caractères spéciaux. Nous avons ainsi pu observer une augmentation des notes obtenues, même si toutes les notes obtenues restent plutôt mauvaises.

5.3.1 Moyenne des résultats

Comme pour la section précédente, nous avons commencé par calculer la moyenne générale (voir Tableau 14 pour le récapitulatif) de même que la moyenne obtenue pour chaque système. Les résultats du score BLEU se trouvent à l’annexe 5.

La moyenne de Google Traduction se situe à 29.02, celle de Bing à 24.92 et celle de DeepL à 31.03. Ce premier résultat va dans le sens des résultats des annotateurs humains : l’ordre des systèmes du meilleur au moins bon est conservé. Nous avons ensuite décidé de calculer les notes moyennes obtenues pour les commentaires ironiques ainsi que les commentaires standards. Celle de Google Traduction est de 29.18, celle de Bing est de 25.05 et finalement celle de DeepL est de 32,69. L’on constate donc que le score BLEU considère les commentaires ironiques comme ayant été – en moyenne – mieux traduits que les commentaires standards. Les moyennes des commentaires standards sont les suivantes pour Google Traduction 28.86, pour Bing : 24.79 et finalement pour DeepL : 29.37. Cela s’oppose aux résultats des annotateurs humains pour qui la moyenne des résultats des commentaires ironiques était légèrement plus faible.

Nous avons ensuite calculé la moyenne des scores obtenus pour chaque commentaire (en prenant donc en compte les notes des trois systèmes). Celle-ci est de 28,32. Le seul système en dessous de celle-ci est Bing ce qui corrobore les résultats des annotations humaines. Le Tableau 14 démontre bien que l’écart des résultats entre les commentaires ironiques et les commentaires standards est très mince, avec l’exception de DeepL pour qui l’écart entre les commentaires est marginalement plus marqués.

Tableau 14 : Récapitulatif des moyennes obtenues avec le score BLEU

5.3.2 Médianes

Nous nous sommes également intéressés aux médianes des scores BLEU des différents systèmes de même qu’à la médiane générale en prenant toutes les notes des phrases en compte. Pour Google Traduction, la médiane est de 28.99. 25 Commentaires ironiques se trouvent en dessous de celle-ci. Pour Bing, la médiane est de 25.24. 26 commentaires ironiques se trouvent en dessous de celle-ci. Quant à DeepL, la médiane de ses scores est de 30.91. 23 commentaires ironiques se trouvent en dessous de celle-ci. Pris individuellement, les résultats font état de la même situation qu’auparavant. La qualité des traductions n’a été influencée par la présence de l’ironie que très marginalement.

En prenant l’ensemble des scores, la médiane est de 28.64. Le nombre de commentaires ironiques sous cette médiane est de 25. Le résultat est encore plus frappant : un commentaire ironique a autant de chance d’être jugé comme étant de bonne qualité qu’un commentaire standard. Un autre résultat allant dans ce sens, les trois commentaires ayant reçu les meilleures notes au score BLEU sont tous les trois des commentaires ironiques. Il est toutefois intéressant de noter que les deux commentaires les moins bien notés sont aussi ironiques. Ainsi, vis-à-vis de notre corpus il n’existe pas de lien prépondérant entre qualité estimée par le score BLEU et ironie - que ce lien soit positif ou négatif.

29,02

Récapitulatif des moyennes obtenues avec le score BLEU

Moyenne Générale Moyenne Commentaires Ironiques Moyenne Commentaires Standards

Nous avons également décidé de présenter nos résultats sous forme de BoxPlot (Tableaux 15, 16 et 17).

Plusieurs éléments ressortent de ces tableaux. Le premier est que certaines notes ont été jugées comme étant « aberrantes » par Excel. Il s’agit des points qui s’écartent des boîtes. Tous les systèmes sont touchés. Il est toutefois intéressant de noter que les commentaires standards n’ont pas de notes jugées

« peu cohérentes » avec le reste des données. L’on constate également que pour les commentaires standards, la note maximale est de 45 alors que pour les commentaires ironiques est la note maximale est de 73. Cela correspond à ce que nous avancions plus tôt, c’est-à-dire que les commentaires ironiques ont été mieux jugés que les commentaires standards. Toutefois les notes supérieures à 55 ont été jugées comme aberrantes (et donc comme des exceptions) par Excel. L’écart entre les commentaires standards et ironiques n’est donc pas marqué d’une manière très forte.

Quoiqu’il en soit, ces Boxplot nous permettent d’établir les mêmes constatations qu’auparavant, l’ironie n’as qu’un impact très faible sur la qualité de la traduction automatique.

Tableau 15 : Boxplot des résultats du score BLEU

Tableau 16 : Boxplot des résultats du score BLEU – les commentaires ironiques

Tableau 17 : Boxplot des résultats du score BLEU – les commentaires standards

5.3.3 Conclusion

En conclusion de cette courte section concernant les résultats du score BLEU, il s’avère que celui-ci est en accord avec les résultats obtenus par les humains. En effet, il n’existe pas non plus de différence significative entre les résultats des commentaires ironiques et les résultats des commentaires standards.

Ceux-ci sont équitablement répartis. Pour ce qui est des systèmes, ils conservent le même classement que celui dévoilé dans la section 7.2. En effet, c’est DeepL qui obtient globalement les meilleurs scores, suivi de Google Traduction. Bing arrive une nouvelle fois en dernière place.

Dans le document L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon (Page 88-93)