Médianes et répartition des notes - Qualité de la traduction automatique 1

5. RESULTATS

5.2 Qualité de la traduction automatique 1 – Evaluations humaines

5.2.3 Médianes et répartition des notes

Tout d’abord, nous avons établi la médiane des scores de chaque système (Tableau 5). La médiane, pour Google Traduction et DeepL est de 3.66. Pour Bing, en revanche, elle est de 2,33. Nous nous sommes intéressé aux commentaires qui se trouvaient en dessous de cette médiane, notamment pour voir si les commentaires ironiques y étaient plus présents. Pour Google Traduction et DeepL, 24

commentaires ironiques se trouvent en dessous de la médiane, ce qui veut dire que 26 commentaires ironiques se trouvent au-dessus de celle-ci. Quant à Bing, 28 commentaires se trouvent en dessous de la médiane et donc 22 se trouvent au-dessus.

Nous nous sommes également intéressés à la médiane des commentaires ironiques et des commentaires standards. Il est intéressant de constater que dans le cas de Google Traduction et DeepL, la médiane reste la même quel que soit le type de commentaires. Pour Bing en revanche, la médiane des commentaires ironiques est plus basse que pour les commentaires standards. Nous pouvons toutefois postuler plusieurs choses. La première est que les différentes médianes pour Google Traduction montre que s’il y a une différence de moyenne (voir Tableau 4), c’est probablement parce que les notes des commentaires ironiques étaient globalement plus mauvaises que les notes attribuées aux commentaires standards, mais que la polarité des notes sont réparties équitablement, ce qui est souligné par les médianes obtenues. Le constat n’est pas le même pour Bing pour qui la médiane démontre que les commentaires ironiques sont en général plus mauvais que la moyenne. Pour ce qui est de DeepL, non seulement il n’y a pas de différence significative dans la moyenne des notes, mais en plus la médiane montre que les notes ont été répartie équitablement sur l’ensemble du corpus.

Toutefois, et c’est la représentation en « boîte à moustache » (boxplot) qui nous permet de le constater (Tableaux 6 à 8), il y a une plus grande variation dans l’attribution des notes lorsque les commentaires sont ironiques. De plus, les commentaires ironiques ont plus souvent obtenu de très mauvaises notes (entre 1 et 2) que les commentaires standards.

En d’autres termes, si l’on ne se focalise que sur les différentes moyennes que nous avons proposées jusqu’à présent, l’ironie n’a pas d’impact sur la qualité des notes accordées. Toutefois, si la traduction d’un commentaire ironique a été jugée mauvaise, elle a souvent été jugée comme étant très mauvaise.

Les commentaires standards, lorsqu’ils sont mauvais, auront plutôt tendance à ne pas recevoir de 1.

Tableau 5 : Récapitulatif des Médianes (1 à 5)

Tableau 6 : BoxPlot de la répartition des notes 3,66

2,33

3,66 3,66

2,33

3,66 3,66

2,66

3,66

0 0,5 1 1,5 2 2,5 3 3,5 4

Google Traduction Bing DeepL

Récapitulatif des Médianes

Médiane Moyenne Médiane Commentaires Ironiques Médiane Commentaires Standards

Tableau 7 : BoxPlot des commentaires ironiques

Tableau 8 : BoxPlot des commentaires standards

Nous venons de postuler que dans le cas de Google Traduction – surtout – les notes n’avaient pas été attribuées équitablement. En effet, au vu de nos résultats précédents, tout semble indiquer qu’il n’y a pas de différence entre la qualité des commentaires ironiques et des commentaires standards - mais que les très mauvaises notes ont plus souvent été attribuées aux commentaires ironiques. Afin de vérifier cet état de fait, nous avons décidé d’établir quel était le rapport entre les notes données et le type de commentaire. Le but était de savoir si, par exemple, les commentaires standards obtenaient plus souvent la note 5 que les commentaires ironiques.

Pour rendre cela le plus clair possible et pour mieux pouvoir comparer les différents systèmes, nous avons décidé de présenter les tableaux (Tableaux 9 à 13) par note plutôt que par système. Nous avons choisi de donner d’abord le nombre total de notes 1 à 5 attribuées sur l’ensemble des notes. Par exemple, pour la note 5, il s’agit dans le cas de Google Traduction de 55 « 5 » sur 300. Les notes sont ensuite séparées en deux catégories selon si elles sont liées à un commentaire ironique ou standard.

Notes 5 attribuées

Tableau 9 : Récapitulatif des notes « 5 » attribuées aux systèmes

Nous constatons que Google traduction a obtenu 18.33% de 5 dans l’ensemble des notes. Ceux-ci sont répartis équitablement entre les commentaires ironiques et les commentaires standards. Bing est le système qui a obtenu le moins de 5. En effet, il n’a obtenu la note de 5 que 15 fois sur les 300 notes attribuées par les annotateurs, ce qui représente 5% des notes totales. Cela dit, pour lui aussi les notes sont reparties équitablement entre les commentaires sarcastiques et les commentaires standards. DeepL

est le seul système pour lequel les commentaires ironiques ont obtenu plus de fois la note 5 que les commentaires standards. La note 5 représentant 20% des notes totales, les commentaires ironiques l’ont obtenue à 58% contre 42% pour les commentaires standards.

Notes 4 attribuées

Tableau 10 : Récapitulatif des notes « 4 » attribuées aux systèmes

Pour ce qui est de Google Traduction, La note 4, elle, représente 35.66% de l’ensemble des notes. Pour elle aussi, les commentaires sont répartis équitablement. L’on remarque aussi que la note 4 représente à peu près le tiers des notes de Google Traduction et de DeepL. Pour Bing, la note représente 15.3% de l’ensemble des notes. L’écart entre ironique et standard est un peu plus marqué : 61% des 4 ont été attribués à un commentaire standard. Contrairement à ce que nous avons pu constater pour la note 5, la note 4 chez DeepL (39% de l’ensemble des notes), a été attribuée à 39% à des commentaires ironiques contre 61% pour des commentaires standards.

52 55

Google Traduction:

107 / 300

Ironique Standard

18 28

Bing : 46 / 300

Ironique Standard

46 71

DeepL : 117 / 300

Ironique Standard

Notes 3 attribuées

Tableau 11 : récapitulatif des notes « 3 » attribuées aux systèmes

Pour Google Traduction, la situation change pour la note 3 (et les suivantes) où l’on ne constate plus une répartition équilibrée. La note 3 représente 26.33% de l’ensemble des notes. Mais ici, la majorité des commentaires (soit 64.55%) sont standards. Quant à Bing, la note 3 (24,6% de l’ensemble des notes) a été attribuées à un commentaire ironique dans 47% des cas. Pour DeepL, La note 3 (25% de l’ensemble des notes) a été distribuée plus équitablement : les commentaires ironiques représentent 52% du total.

Notes 2 attribuées

Tableau 12 : Récapitulatif des notes « 2 » attribuées aux systèmes

Chez Google Traduction, la note 2, qui représente 14.33% de l’ensemble des notes, a plus souvent été associée à un commentaire ironique (62.7%) qu’à un commentaire standard. Quant à Bing, La note 2 (34.5% de l’ensemble des notes) a été attribuée aux commentaires ironiques à 54%. Ce qui est une

distribution plutôt équitable entre les commentaires. Finalement pour DeepL, la note 2 (14% de l’ensemble des notes) a été beaucoup plus souvent attribuée à un commentaire ironique (63%).

Notes 1 attribuées

Tableau 13 : Récapitulatif des notes « 1 » attribuées aux systèmes

Chez Google, l’écart est encore plus marqué pour la note 1 que pour les notes précédentes : elle a presque toujours (94%) été donnée à des commentaires sarcastiques. Quant à Bing, la note 1 (20.6%) a été attribuée à 53% aux commentaires ironiques. Là aussi, la distribution est plutôt équitable. Finalement pour DeepL, la note 1 ne représente que 2% de l’ensemble des notes. Dans 67% des cas, elle a été attribuée à un commentaire ironique.

Les résultats de l’ensemble des notes sont donc assez significatifs. Nous pouvons constater un certain nombre de choses. Pour Google Traduction, notre hypothèse précédente se trouve vérifiée. En effet, si les notes positives ont été distribuées équitablement entre les deux sortes de commentaires, les notes négatives ont plus souvent été données aux commentaires ironiques qu’aux commentaires standards.

Cela explique les résultats que nous avons obtenus au niveau de la moyenne et des médianes. Pour Bing, les résultats sont répartis beaucoup plus équitablement que pour Google Traduction. La seule exception étant la note 4 qui a plus souvent été attribuée aux commentaires standards qu’aux commentaires ironiques. L’on remarque aussi que Bing est le système qui a obtenu le moins de notes positives et le plus de note négatives. DeepL se différencie des deux autres systèmes sur différents points.

Premièrement, il est celui qui a obtenu les notes les moins négatives – ce qui se reflétait déjà dans sa

moyenne. L’on peut aussi constater que la répartition des notes entre commentaires ironiques et standards est moins marquée que pour les deux autres systèmes.

Ainsi, cette répartition des notes nous permet d’observer quelques tendances : lorsque des notes positives sont attribuées, elles peuvent l’être à des commentaires ironiques ou standards d’une manière plutôt égale. Cela dit, les mauvaises notes (2 et 1) ont été plus souvent attribuées aux commentaires ironiques (59%). Au vu des médianes que nous avons présentées plus tôt – et qui, elles, indiquent que les commentaires ironiques ne sont pas systématiquement en dessous de celle-ci, il semblerait donc que les notes 1 et les notes 2 ont souvent été attribuées conjointement par les annotateurs. Cela expliquerait leur nombre et leur influence relative sur la moyenne obtenue vis-à-vis de la totalité des notes.

Dans le document L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon (Page 78-86)