Synthèse et résultat du travail - L'impact de l'ironie sur la traduction automatique

6. CONCLUSION

6.2 Synthèse et résultat du travail

Dans l’introduction de notre travail, à la section 1.2, nous avons présenté la question de recherche qui motivait la rédaction de ce mémoire. Celle-ci était formulée de cette manière :

Dans le cadre de commentaires rédigés par des utilisateurs anglophones, quel est l’impact de l’ironie sur la traduction automatique ?

Nous avions ensuite établi trois questions sous-jacentes qui avaient pour but de répondre pas à pas à notre question de recherche principale. Maintenant que nous avons traité les données que nous avions récoltées et que nous les avons exploitées, nous pouvons désormais répondre à ces questions.

1) Quel est l’impact de l’ironie sur la traduction automatique des commentaires sélectionnés ? Comme nous avons pu le voir dans les sections 5.2 et 5.3, dans notre travail, l’ironie n’a – globalement - pas eu d’impact sur la qualité des traductions automatiques. Certes, certains commentaires ironiques ont été jugés comme étant très mal traduits mais d’autres, au contraire, ont été jugés comme traduits tout à fait adéquatement. La seule exception est Google Traduction, système vis-à-vis duquel nous avons pu établir un chi² qui a démontré qu’il existait un lien statistiquement significatif entre la qualité de la traduction et l’ironie. Sans mener une étude plus approfondie, il est difficile de trouver une raison à cet état de fait. Nous pouvons exclure l’idée que certains annotateurs aient été plus sévères que d’autres puisqu’ils ont les 9 attribués les notes à chaque système. Ainsi, cela serait également reflété sur les autres

systèmes. Cela dit, nous pouvons néanmoins tenter de formuler quelques hypothèses. Il est possible que Google Traduction ne réagisse pas bien face aux énoncés ironiques et plus généralement face à l’humour, comme le montre le score du Chi². Il est également possible que notre échantillon ait contenu précisément les traductions qui allaient poser un problème à GT. Quoiqu’il en soit, les scores de DeepL et de Bing sont restés cohérents que le commentaire soit ironique ou non et quelle que soit la méthode d’évaluation. Le tableau 21 ci-dessous récapitule les résultats obtenus par les différents systèmes.

Annotation

Tableau 21 : Récapitulatif des évaluations liées à la qualité

Comme nous pouvons le constater, et DeepL et Bing perdent en moyenne 0.8 « points » lorsqu’ils sont confrontés à de l’ironie (DeepL passe de 3.52 en moyenne à 3.6 et Bing de 2.49 à 2.41). Mais, contrairement à Google Traduction qui perd 0.13 points, cet écart n’est pas suffisant pour que nous puissions le considérer comme étant significatif. Il apparaît également que selon le score BLEU, les commentaires ironiques ont été légèrement mieux traduits que les commentaires standards.

En résumé, l’ironie en tant que telle n’a pas eu d’impact sur la qualité des commentaires sélectionnés.

Certains procédés ironiques, en revanche, en ont eu. Dans la section 4.3 nous avions mentionné l’existence de marqueurs ironiques typologiques. Ceux-ci ont typiquement posé un problème aux systèmes de TA. La figure 10 (Section 3.3) est un excellent exemple d’un commentaire portant ces marqueurs. Or il s’agit là justement d’un commentaire qui a été jugé comme étant mal traduit et par le score BLEU et par les annotations humaines.

La deuxième question à laquelle nous avions prévu de répondre était la suivante :

2) Un utilisateur francophone peut-il comprendre l’intention d’un commentaire ironique traduit automatiquement ?

Nous avons pu le constater dans les sections 5.4 et 5.5 : en moyenne 26.6% des commentaires n’ont pas été annotés de la même manière par les anglophones et les francophones. Le tableau 22 ci-dessous résume la répartition des annotations. Les nombres écrits dans les cases blanches représentent les commentaires, les nombres écrits dans les cases grises correspondent aux commentaires standards et finalement les les cases bleu correspondent aux commentaires ironiques.

Commentaires annotés de la

Tableau 22 : Récapitulatif des scores assignés au sentiment des commentaires

Comme nous pouvons le constater, pratiquement les trois quarts des commentaires ont été classés de la même manière que les anglophones. Les commentaires ironiques ont en moyenne été bien classés dans 66% des cas. L’on remarque un taux « d’erreurs » assez élevé. Pourtant, nous considérons qu’il y a plusieurs problèmes théoriques à utiliser ces chiffres. En effet, comme nous l’avons évoqué plus tôt (notamment à l’aide de la figure 18), il est très difficile d’accorder une note à un commentaire qui est évidemment et impudemment ironique. Tous les annotateurs n’ont pas utilisé la même stratégie pour noter ces commentaires. 6 d’entre eux (sur 9) ont décidé de marquer l’ironie qu’ils avaient perçue en donnant le score apparent du commentaire comme s’ils le lisaient au premier degré puis de donner le score d’une étoile au même commentaire afin de marquer l’écart entre ce qui est dit et la véritable intention. Or, certains autres ont décidé de faire l’inverse afin de marquer l’ironie ; c’est-à-dire qu’au lieu de donner un score « naïf » au commentaire, ils lui ont donné le score perçu. Les données seront donc inversées et l’annotateur qui aura procédé de la même manière que les anglophones (qui

eux-mêmes n’ont pas toujours choisi la même stratégie) verra son score considéré comme « correct », alors qu’un autre annotateur ayant choisi l’autre stratégie verra son score considéré comme « faux » alors même qu’ils avaient tous les deux l’intention de dire la même chose. L’annotation des commentaires aurait sans doute été plus efficace si les annotateurs avaient dû se prononcer sur la présence ou l’absence d’ironie dans le commentaire.

Nous avons ensuite essayé de voir si les erreurs liées à l’estimation des étoiles pouvaient être intéressantes. Nous avons constaté après notre analyse que les commentaires dont les francophones n’avaient pas réussi à estimer les étoiles (voir Tableau 20 Section 5.4.2) avaient également posé problème aux anglophones et ont été mal notés sur le site d’Amazon.

En résumé, tout porte à croire qu’un francophone est tout aussi capable de déceler l’ironie dans une traduction que l’est un anglophone devant le texte original. Si des erreurs subsistent, elles sont la conséquence de la qualité du texte source plutôt que la conséquence de la qualité des traductions. Il faut toutefois noter que notre système d’appréciation n’a sans doute pas été le plus efficace. Comme nous l’avons suggéré plus haut, demander au francophone de dire clairement s’ils décelaient la présence de l’ironie aurait permis d’obtenir des données plus fiables et plus facile à quantifier. Quoiqu’il en soit, la réponse à notre question de recherche sous-jacente est qu’un utilisateur francophone sera très probablement capable de comprendre l’intention d’un énoncé ironique dans une traduction.

Pour ce qui est des systèmes automatiques d’analyse de sentiment, une synthèse de leurs résultats est plus complexe au vu du peu de résultats qu’ils ont fournis. Le tableau 23 ci-dessous tente toutefois de les résumer. Nous avons utilisé la même mise en forme que pour le tableau précédent. Pour rappel, les cases grises sont les commentaires standards et les cases bleues sont les commentaires ironiques.

MTA Lexalytics

Correct Incorrect Correct Incorrect

EN 50 50 48 52

30 20 20 30 29 19 21 31

Google Traduction 9* 91 41 59

8 1 42 59 20 21 30 29

Bing 12* 88 48 52

10 2 40 48 27 21 24 29

DeepL 12* 88 43 57

10 2 40 48 21 22 29 28

*Nous n’avons conservé ici que les résultats strictement juste – c’est-à-dire en excluant les neutres.

Tableau 23 : Récapitulatif des scores des systèmes automatiques d’analyse de sentiment

Comme nous pouvons le voir dans le tableau 23, les systèmes sélectionnés d’analyse de sentiment n’ont pas été performants que cela soit en langue source ou en langue cible. Cela dit, Lexalytics a donné des résultats cohérents pour l’ensemble des données. Dans son cas, les différences de traitement entre les commentaires standards et les commentaires ironiques sont assez marginales notamment avec les traductions de Google et de DeepL. Elles sont un peu plus marquées pour la langue source et Bing mais ne témoignent pas d’une différence statistiquement significative. Il est toutefois intéressant de noter que Bing a obtenu le meilleur score des trois systèmes. Pour ce qui est de MTA, celui-ci n’a pas été performant et l’a été encore moins avec l’ironie. Il est difficile de pouvoir établir des résultats statistiques face à un échantillon aussi mince (8-1, 10-2, 10-2 selon le tableau ci-dessus) mais il paraît évident que MTA ne peut pas être utilisé – à l’heure actuelle et dans la version à laquelle nous avons eu accès – comme un système automatique d’analyse de sentiment pour la langue française.

Nous en venons à une comparaison des différents systèmes de traduction automatique employés. Dans notre travail, le système qui s’est révélé être le plus efficace au niveau de la qualité de la traduction est DeepL. En effet, il est non seulement celui qui a obtenu de meilleures moyennes générales, mais aussi celui qui a obtenu les meilleurs scores individuels (voir tableaux 9 à 13 et tableau 21). En outre, il a aussi reçu des résultats probants lors de l’annotation des scores. Le deuxième système le plus efficace est Google Traduction qui a également fourni – dans l’ensemble – des traductions plutôt acceptables.

Cela se reflète non seulement vis-à-vis des annotations humaines mais aussi du score BLEU. Tout comme pour DeepL, il a aussi obtenu de bons résultats dans l’analyse de sentiment humaine. Finalement, Bing – le seul système statistique de notre mémoire - est le système qui a obtenu les résultats les plus mauvais. En effet, il est celui qui a obtenu les moyennes les plus basses que ce soit des moyennes obtenues à partir des scores de l’annotation humaine ou du score BLEU, ce qui corrobore les résultats de la recherche présentés dans la section 2.2. Il est toutefois intéressant de noter que c’est le système qui a obtenu les meilleures notes lorsqu’il a été question de noter les sentiments de ses traductions. En effet, qu’elles soient humaines ou automatique, les notes obtenues sont celles qui s’approchent le plus des annotations anglophones.

Cela dit, l’écart entre DeepL et Bing au niveau de l’analyse de sentiment n’est pas suffisamment élevée pour que Bing puisse être considéré comme une alternative utile lorsque l’on est face à un commentaire ironique en ligne. Un utilisateur devrait – selon nous – plutôt utiliser DeepL qui en plus d’avoir des résultats plutôt bons en analyse de sentiment, a aussi obtenu les meilleurs résultats en matière de qualité des traductions.

Dans le document L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon (Page 102-107)