Compréhension de la traduction automatique 1

5. RESULTATS

5.4 Compréhension de la traduction automatique 1 – Evaluation humaine

5.4.1 Polarités

Les sections précédentes ont démontré qu’il n’y avait pas de lien significatif entre la qualité de la traduction automatique et la présence de l’ironie, avec l’exception notable de Google Traduction. Dans le Chapitre 3 de notre travail, qui était dédié à la présentation des concepts théoriques de l’ironie, nous avons établi que l’être humain n’est pas infaillible lorsqu’il est question de la détecter. Nous nous attendons donc à constater un certain nombre d’erreurs dans les annotations. Il est probable que celles-ci ne soient pas liées à la traduction mais, plutôt, au fait que l’ironie peut parfois passer inaperçue. Ainsi, dans cette section, nous tenterons de déterminer si l’un des systèmes a généré des traductions qui ont permis de mieux appréhender les commentaires ironiques.

Nous avons commencé par soumettre notre corpus à trois annotateurs anglophones. Ceux-ci ont été chargés de noter les commentaires vis-à-vis des sentiments dont ceux-ci sont emprunts. L’échelle que nous avons choisie est à nouveau de 1 à 5. 1 exprimant que le commentaire a été perçu comme étant très négatif, 5 exprimant que le commentaire a été perçu comme étant très positif. Nous avons ensuite demandé aux annotateurs francophones de faire la même chose. Finalement, nous avons demandé aux annotateurs francophones et anglophones d’estimer le nombre d’étoiles que le critique a donné au produit.

5.4.1.1 Score Kappa

La première chose que nous avons décidé de calculer est à nouveau le score Kappa de Fleiss (Tableau 18). En effet, il nous paraît intéressant de mesurer si les anglophones et les francophones ont globalement été plutôt d’accord vis-à-vis des sentiments des différents commentaires. La langue source a obtenu le score Kappa de 0.33, ce qui, si l’on se réfère à la Figure 16, est considéré comme « fair ». Tout comme pour les scores Kappa relatifs à la qualité de la traduction, nous avons ensuite transformé les notes de 1 à 5 en appréciations qualitatives. Ainsi, 1 et 2 sont devenus négatifs, 3 est devenu neutre et les notes de 4 et 5 sont devenues positives. En modifiant ainsi l’échelle, le score Kappa des commentaires en langue source est passé à 0.55 ce qui est un accord modéré. Pour Google Traduction le score Kappa non-modifié est également de 0.33 et modifiée il augmente à 0.54. L’on constate que ces données sont très proches

de celles obtenues par les commentaires en langue source. Pour Bing, le score Kappa non modifié est de 0.32 et passe à 0.61 une fois l’échelle modifiée. Il est intéressant de souligner qu’ici aussi, Bing a tendance à mettre les annotateurs plus d’accord que les autres systèmes. Son score est même meilleur que le score Kappa de la langue source. Finalement, DeepL a obtenu un score Kappa de 0.33 puis de 0.59.

Score Kappa non-modifié Score Kappa modifié

Langue Source 0.33 0.55

Google Traduction 0.33 0.54

Bing 0.32 0.61

DeepL 0.33 0.59

Tableau 18 : Récapitulatif des scores Kappa pour la compréhension de la TA

5.4.1.2 Notes dans les deux langues

L’étape suivante a été de voir dans quelle mesure les francophones ont attribué les mêmes notes que les anglophones. Afin d’être les plus clairs possibles, nous avons décidé d’utiliser l’échelle modifiée (positif, négatif et neutre) afin de mesurer l’écart. Les résultats sont dans le Tableau 19 (un tableau récapitulatif plus complet se trouve dans la Section 6.2) :

Même note que les anglophones Notes différentes que les anglophones

Google Traduction 73% 27%

Bing 74% 26%

DeepL 73% 27%

Tableau 19 : Pourcentages de notes qui ont été attribuées de la même manière ou différemment que celles des anglophones

Pour Google Traduction, les annotateurs ont mis les mêmes notes que les anglophones dans 73% des cas. 27% des commentaires ont donc été placés dans une catégorie différente que celle assignée par les anglophones. Dans ces commentaires, 67% sont des commentaires ironiques. Ainsi, au total, 36% des

commentaires ironiques ont été évalués comme porteurs d’un sentiment différent que celui que leur impute les anglophones.

Pour Bing, les annotateurs ont mis les mêmes notes que les anglophones dans 74% des cas. 26% des commentaires ont donc été placés dans une catégorie différente que celle assignée par les anglophones.

Parmi ces commentaires assignés ailleurs, 58% sont des commentaires ironiques. Ainsi au total, 30%

des commentaires ironiques ont été évalué comme porteur d’un autre sentiment que celui décelé par les annotateurs de langue source.

Finalement, pour DeepL, les annotateurs ont mis les mêmes notes que les anglophones dans 73% des cas également. 27% des commentaires ont donc été placés dans une catégorie ne correspondant pas à celle sélectionnée par les anglophones. Parmi ces commentaires « mal-placés », 67% sont ironiques. En résumé, 36% des commentaires ironiques ont été placés dans une autre catégorie que celle sélectionnée par les anglophones.

Les résultats des différents systèmes sont très similaires. Nous avons donc décidé de voir si les commentaires « problématiques » c’est-à-dire ceux qui n’ont pas reçu les mêmes résultats, sont les mêmes pour tous les systèmes. Parmi tous les commentaires ironiques qui n’ont pas obtenu les mêmes scores, 8 se trouvent dans les trois systèmes. Il y a également 3 commentaires standards qui se trouvent dans les différents systèmes. Quelques exemples parmi ces 11 commentaires se trouvent à l’annexe 6 en langue originale. Il y a plusieurs explications à cet état de fait. En effet, la figure 18 représente l’un de ces commentaires ironiques :

Figure 18 : Exemple de commentaire ironique dont les résultats divergent

Le problème de l’annotation de ce commentaire ne vient probablement pas de la traduction mais de la difficulté de l’annoter. En effet, est-il négatif ou positif ? Il s’agit très clairement d’un commentaire humoristique qui ne vise pas spécialement à critiquer un produit après l’avoir essayé. En soi, les deux notes peuvent se justifier. Négatif parce que l’essence du commentaire est négative, mais il peut aussi être perçu comme positif si l’on décide de le prendre comme étant un clin d’œil vis-à-vis de l’absurdité du produit proposé. Assigner une note à un commentaire ironique implique donc une difficulté supplémentaire, celle de devoir prendre une position vis-à-vis de celui-ci. En effet, le fait que tous les systèmes aient plus ou moins le même nombre de divergences montre bien que la traduction n’est pas responsable en tant que telle de ces divergences.

5.4.2 Estimation des étoiles

Toutefois, nous avons fait état ici de suppositions. Nous avons inclus dans les annotations une autre mesure qui nous permettra de voir si les francophones ont réellement compris les commentaires qu’ils avaient sous les yeux. En effet, comme mentionné dans la section 5.3, Amazon possède un système d’annotation qui consiste à donner des étoiles après avoir écrit son commentaire et qui permet ainsi de résumer son avis vis-à-vis d’un produit. Dans son étude, Filatova (2012) rend compte du fait que les humains sont plutôt bons pour réussir à estimer le nombre d’étoiles qui ont été attribuées aux produits.

Nous avons donc demandé aux francophones de faire de même afin de voir si nous obtenons les mêmes résultats.

Pour ce faire nous avons analysé les réponses de la sorte. Nous avons considéré comme étant « juste » une estimation d’étoiles parfaite : c’est-à-dire estimer 5 étoiles et que le critique en a effectivement mis 5 ; de même que s’il y a un décalage d’un chiffre seulement. : par exemple l’annotateur a estimé un 4 étoiles alors qu’il y en a 5. Nous avons considéré comme fausses toutes les autres réponses. Le Tableau 20 résume les résultats.

Pour Google Traduction, 43 commentaires ont reçu une estimation erronée du nombre d’étoiles. Parmi ceux-ci, 30 sont ironiques. 12 de ces commentaires ont été annotés faux par tous les annotateurs, 19 par deux et 17 par un seul.

Pour Bing, 33 commentaires ont reçu une mauvaise estimation du nombre d’étoiles. Parmi ceux-ci, 23 sont ironiques. Il y a 6 commentaires où les trois annotateurs ont répondu faux et 9 où deux se sont trompés. Il reste 18 commentaires où un seul annotateur s’est trompé.

Pour DeepL, 37 commentaires ont reçu une mauvaise estimation dont 30 sont ironiques. Il y a 6 commentaires où les trois se sont trompés et 8 commentaires où deux annotateurs se sont trompés.

En résumé, plus de la moitié des commentaires ironiques ont donc été mal-estimés par les francophones.

Nous avons décidé de calculer la même chose vis-à-vis de la langue source afin de voir si le problème émanait de la traduction ou s’il venait plutôt de la présence de l’ironie dans les commentaires.

En langue source, 37 commentaires ont reçu une mauvaise estimation du nombre d’étoiles. Il y a 3 commentaires où les trois annotateurs se sont trompés, 16 où deux se sont trompés et 19 où un annotateur s’est trompé.

GT BING DEEPL LS

3 annotateurs 12 6 6 3

2 annotateurs 19 9 8 16

1 annotateur 17 18 23 19

Total des commentaires estimés faux 43 33 37 37

Tableau 20 : Récapitulatif des erreurs liées aux étoiles

Ce tableau est intéressant dans la mesure où il démontre que même en langue source, les annotateurs n’ont pas obtenu un meilleur score que les annotateurs francophones face aux traductions.

Nous nous sommes également intéressé aux commentaires qui avaient posé des problèmes aux annotateurs francophones pour les trois systèmes. Il s’avère que ces 9 commentaires là (Annexe 7) n’ont pas mieux été notés par les anglophones.

Puisqu’il semblait ne pas y avoir de différence entre les résultats obtenus par les anglophones et par les francophones, nous nous sommes intéressé plus en avant aux commentaires mentionnés. Sur ces 9 commentaires, 6 ont été jugés par la communauté Amazon comme étant « unhelpful » (peu utiles).

C’est-à-dire que la majorité de la communauté, en lisant le commentaire, a jugé qu’il n’était d’aucune utilité. Les trois restants ont été jugés très favorablement, probablement parce qu’ils étaient humoristiques.

En résumé, la difficulté, lorsque l’on se trouve face à une traduction contenant de l’ironie est la même pour des lecteurs en langue cible et en langue source : la compréhension de celle-ci. Selon notre étude le fait que le texte soit issu d’une traduction automatique n’apporte pas de difficulté supplémentaire.

D’un point de vue de comparaison des systèmes, ceux-ci sont tous plutôt égaux. Notons tout de même que Bing a été le plus performant des trois, puisque les annotateurs se sont moins trompés face à lui, qu’il est suivi par DeepL dont le nombre est le même que pour la langue source et que Google est le système qui a été le moins performant des trois.

Dans le document L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon (Page 93-98)