L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon

(1)

Master

Reference

L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon

FUETER, Marie-Zoé

Abstract

Ce mémoire cherche à définir dans quelle mesure l'ironie présente dans des commentaires Amazon peut porter préjudice à la qualité de la traduction automatique (TA) ainsi qu'à la compréhension de celle-ci. Pour ce faire, nous avons sélectionné trois systèmes de TA disponibles en ligne (Google Traduction, DeepL et Bing) à qui nous avons fait traduire 100 commentaires Amazon dont la moitié est ironique et l'autre standard. Afin de pouvoir les juger, nous avons mobilisé plusieurs méthodes d'évaluations humaines (annotations relatives à la qualité de la TA et relatives à la polarité des commentaires) et automatiques (score BLEU et systèmes d'analyse des sentiments). Nos résultats montrent que, dans le cadre de notre corpus, l'ironie n'a d'influence ni sur la qualité ni sur la compréhension de la TA. Nous avons également constaté que DeepL (neuronal) a obtenu les meilleurs scores et que Bing (statistique) a obtenu les plus mauvais.

FUETER, Marie-Zoé. L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon. Master : Univ. Genève, 2019

Available at:

http://archive-ouverte.unige.ch/unige:123912

Disclaimer: layout of this document may differ from the published version.

(2)

Marie-Zoé Fueter

L’impact de l’ironie sur la traduction automatique

Étude sur un corpus de commentaires Amazon

Directrice : Pierrette Bouillon Jurée : Johanna Gerlach

Mémoire présenté à la Faculté de traduction et d’interprétation pour l’obtention de la Maîtrise universitaire en traduction, mention Traduction et technologie.

Université de Genève Août 2019

(3)

Déclaration attestant le caractère original du travail effectué

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant-e-s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide-mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis conscient-e que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Marie-Zoé Fueter

Genève, le 10 août 2019.

(4)

REMERCIEMENTS

Avant tout, je tiens à remercier les personnes sans qui la rédaction de ce mémoire n'aurait pas pu arriver à son terme.

Tout d'abord, merci à ma directrice de mémoire Pierrette Bouillon, pour m'avoir donné la chance de travailler sur un sujet aussi intéressant et de m'avoir guidée dans la rédaction de ce mémoire. Merci à elle pour sa disponibilité, ses conseils et sa patience.

Merci à ma jurée, Johanna Gerlach, d’avoir accepté de de juger mon travail.

Je tiens également à remercier Chantal et David pour m'avoir soutenue durant ces (longues) années et dont la confiance est restée infaillible.

Merci également à Joseph, Ulysse, Chantal, Anna, Elodie, Olivier, Julia, Marie J, Camille, Louise, Marie L, Ella, Lisa, Dominic, Simon, Maëlle, Justin, Mark, qui ont passé bien des heures à annoter les diverses traductions.

Finalement, je tiens à remercier particulièrement Joseph ainsi que la Communauté pour leur soutien inestimable durant tout le processus.

(5)

TABLE DES MATIÈRES

REMERCIEMENTS ... II TABLE DES MATIÈRES ... III LISTE DES FIGURES ... VI LISTE DES TABLEAUX ... VII LISTE DES ABRÉVIATIONS ... VIII

1.INTRODUCTION ... 1

1.1 Motivation ... 1

1.2 Question de recherche ... 2

1.3 Démarche... 3

1.4 Plan ... 4

2.LA TRADUCTION AUTOMATIQUE ... 6

2.1 Introduction ... 6

2.2 Architectures ... 6

2.2.1 Définition de la traduction automatique ... 7

2.2.2 Les systèmes de traduction automatique ... 8

2.3 Historique ... 22

2.4 L’évaluation de la traduction automatique ... 24

2.4.1 Les annotations humaines... 25

2.4.2 Le score BLEU ... 26

2.5 Conclusion ... 29

3. L’IRONIE ET LE SARCASME ... 31

3.2 Traduction automatique et littérature ... 31

3.3 Définition de l’ironie et du sarcasme ... 33

3.4 Traduction humaine et ironie... 39

3.5 Traduction automatique et ironie... 41

3.6 L’analyse de sentiment ... 43

3.7 Détection et gestion de l’ironie... 46

4. METHODOLOGIE ... 50

4.2 Corpus ... 51

4.3 Outils mobilisés pour la TA et l’analyse de sentiments ... 51

4.3.1 Amazon et ses commentaires ... 51

(6)

4.3.2 Outils de traduction automatique ... 55

4.3.3 Outils d’analyse de sentiment ... 58

4.4 Mise en place de l’expérience ... 60

4.5 Évaluation humaine ... 61

4.5.1 Répartition des commentaires ... 61

4.5.2 Évaluation 1 : La qualité de la TA ... 62

4.5.3 Évaluation 2 : La polarité des commentaires ... 63

4.6 Évaluation automatique ... 63

4.6.1 Le score BLEU ... 63

4.6.2 Analyse de sentiments ... 63

5. RESULTATS ... 65

5.2 Qualité de la traduction automatique 1 – Evaluations humaines ... 65

5.2.1 Score Kappa ... 65

5.2.2 Moyenne des résultats et écart type ... 67

5.2.3 Médianes et répartition des notes ... 68

5.2.4 Score du Chi² ... 76

5.2.5 Intention des commentaires ... 77

5.3 Qualité de la traduction automatique 2 – Score BLEU ... 78

5.3.1 Moyenne des résultats ... 79

5.3.2 Médianes ... 80

5.3.3 Conclusion ... 82

5.4 Compréhension de la traduction automatique 1 – Evaluation humaine ... 83

5.4.1 Polarités ... 83

5.4.2 Estimation des étoiles ... 86

5.5 Compréhension de la traduction automatique – Analyse de sentiment automatique ... 88

6. CONCLUSION ... 92

6.2 Synthèse et résultat du travail ... 92

6.3 Limites de l’étude ... 97

RÉFÉRENCES ... 101

ANNEXES ... 107

Annexe 1 : Instructions pour les annotateurs chargés de noter la qualité de la TA ... 107

Annexe 2 : Exemples de commentaire à annoter pour les annotateurs chargés de la qualité ... 109

(7)

Annexe 3 : Instructions pour les annotateurs chargés de noter la polarité de la TA ... 110

Annexe 4 : Exemples de commentaires à annoter par les annotateurs chargés de la polarité ... 112

Annexe 5 : Résultats du score BLEU (Extraits) ... 113

Annexe 6 : commentaires problématiques vis-à-vis de la polarité (extrait) ... 115

Commentaire 1 ... 115

Annexe 7 : Commentaires problématiques pour l’estimation des étoiles (extrait) ... 117

(8)

LISTE DES FIGURES

Figure 1 : Le triangle de Vauquois (Trujillo, 1999)………..8

Figure 2 : Le triangle de Vauquois – Les systèmes directs (Saers, 2011)………10

Figure 3 : Le triangle de Vauquois – Les systèmes de transfert (Saers, 2011)……….11

Figure 4 : Le triangle de Vauquois – Les systèmes par interlangue (Saers, 2011)………...12

Figure 5 : Le triangle de Vauquois – Les systèmes statistiques (http://blog.systransoft.com/how-does- neural-machine-translation-work/, consulté le 05 avril 2019)……….14

Figure 6 : Fonctionnement d'un système neuronal pour la reconnaissance d'images. (Goodfellow et al., 2016) ………...………...18

Figure 7 : Un plongement lexical projeté en 2D (Koehn, 2017)………..20

Figure 8 : Exemple d’un compliment ironique………...…35

Figure 9 : Exemple d’une critique ironique………36

Figure 10 : Exemple de commentaire dont la typographie est un marqueur d’ironie……….38

Figure 11 : Exemple de commentaire sarcastique sur Reddit avec le marqueur sarcastique /s…………38

Figure 12 : Exemple d’antiphrase………...40

Figure 13 : Classement des sites Internet les plus visités depuis un ordinateur en France en décembre 2018, selon le nombre de visiteurs uniques par mois (en milliers)………..52

Figure 14 : Exemple d'analyse de sentiment effectuée avec Microsoft Text Analytics……….59

Figure 15 : Exemple d'analyse de sentiment avec Lexalytics……….60

Figure 16 : Interprétation du score Kappa de Fleiss………...……….66

Figure 17 : Valeurs critiques du score chi²………..77

Figure 18 : Exemple de commentaire ironique dont les résultats divergent…………...………...86

(9)

LISTE DES TABLEAUX

Tableau 1 : Récapitulatif des marqueurs possibles d’ironie………...48

Tableau 2 : Répartition des annotateurs et des systèmes de TA………..61

Tableau 3 : Score Kappa – Qualité des traductions automatique………67

Tableau 4 : Moyenne des scores des trois systèmes (1 à 5)………68

Tableau 5 : Récapitulatif des médianes (1 à 5)………..……..70

Tableau 6 : BoxPlot de la répartition des notes………..……….70

Tableau 7 : BoxPlot des commentaires ironiques………..71

Tableau 8 : BoxPlot des commentaires standards………..………71

Tableau 9 : Récapitulatif des notes « 5 » attribuées aux systèmes………...72

Tableau 10 : Récapitulatif des notes « 4 » attribuées aux systèmes ………...….…………..…....73

Tableau 11 : Récapitulatif des notes « 3 » attribuées aux systèmes ………...………...74

Tableau 12 : Récapitulatif des notes « 2 » attribuées aux systèmes ………...…….….…...74

Tableau 13 : Récapitulatif des notes « 1 » attribuées aux systèmes ………...75

Tableau 14 : Récapitulatif des moyennes obtenues avec le score BLEU ………..80

Tableau 15 : BoxPlot des résultats du score BLEU………81

Tableau 16 : BoxPlot des résultats du score BLEU – Les commentaires ironiques………82

Tableau 17 : BoxPlot des résultats du score BLEU – Les commentaires standards………....82

Tableau 18 : Récapitulatif des scores kappas pour la compréhension de la TA……….84

Tableau 19 : Pourcentages des notes qui ont été attribuées de la même manière ou différemment que celles des anglophones………....84

Tableau 20 : Récapitulatif des erreurs liées aux étoiles………..…87

Tableau 21 : Récapitulatif des évaluations liées à la qualité ……….………93

Tableau 22 : Récapitulatif des scores assignés au sentiment des commentaires….………...……...…94

Tableau 23 : Récapitulatif des scores des systèmes automatiques d’analyse de sentiment...………....96

(10)

LISTE DES ABRÉVIATIONS

TA : Traduction automatique

RBMT : Rule-based Machine Translation TAS : Traduction automatique statistique SMT : Statistical Machine Translation TAN : Traduction automatique neuronale NMT : Neural Machine Translation

TAAH : Traduction automatique assistée par l’humain

TEAHQ : Traduction entièrement automatique de haute qualité TH : Traduction humaine

CGU : Contenu généré par les utilisateurs DL : DeepL

GT : Google Traduction LS : Langue source LC : Langue cible

MTA : Microsoft Text Analytic

(11)

1.INTRODUCTION

« Все счастли́ вые се́мьи похо́жи друг на дру́га, ка́ждая несчастли́вая семья́ несчастли́ва по-сво́ему. »

Il y a 20 ans, cette phrase aurait laissée perplexe bien des internautes francophones. En effet, lorsqu’Internet en était à ses débuts et que les systèmes de traduction automatique en ligne n’existaient pas encore, comprendre une locution étrangère était pratiquement impossible. Cela est bien différent aujourd’hui. Il suffit de faire quelques clics pour découvrir quasi instantanément que cette phrase russe est l’incipit du roman de Tolstoï : Anna Karénine et qu’elle veut dire – selon Google Traduction - :

« Toutes les familles heureuses se ressemblent, chaque famille malheureuse est malheureuse à sa manière. » Ainsi, grâce aux nombreux systèmes de traduction automatique présents sur Internet, les utilisateurs ne sont plus contraints à ne fréquenter que les sites qui partagent leur langue.

Cet état de fait, conjugué à l’avènement du Web 2.0 et à la propagation du contenu généré par les utilisateurs qu’il implique, nous permet de nous questionner sur la pertinence de la traduction de ce type de contenu. Il est assurément utile de pouvoir traduire une recette de cuisine ou la critique d’un film, mais – et cela est inhérent à l’essence même d’Internet – il arrive que les utilisateurs masquent leur propos derrière des filtres linguistiques. Grossièreté, raccourcis, orthographe non-canonique et ironie sont autant de procédés qui peuvent participer à rendre leurs intentions opaques et ainsi potentiellement nuire à un utilisateur de langue étrangère.

1.1 Motivation

Livres, films, voyages, restaurants… Rien n’y échappe : sur Internet, l’on trouve des informations sur tous types de services. Cela est pratique : il suffit d’une part de connaître le nom d’un produit, d’une activité ou d’un lieu et d’autre part d’avoir accès à une connexion internet pour obtenir un grand nombre d’informations à son sujet. Or, l’anglais étant la langue la plus présente sur Internet¹, la plupart de ces informations sont rédigées dans cette langue. Il paraît ainsi tout à fait possible qu’un utilisateur, face à un commentaire en anglais, décide de faire traduire celui-ci par un système de traduction automatique

1 https://www.internetworldstats.com/stats7.htm [consulté le 11.07.2019]

(12)

en ligne afin d’avoir une idée de son contenu. Ce postulat se vérifie par les chiffres : en 2011, déjà, les internautes traduisaient 50 millions de page web par jour (Koehn, 2011). Toutefois, le corolaire qui résulte de ces commentaires écrits par des anonymes est le suivant : une grande partie de ces critiques sont bien souvent des amateurs et non des professionnels. Ceux-ci auront donc tendance à ne pas rédiger leurs messages dans une langue canonique. En effet, il n’existe pas de « règles » de rédaction sur le Web. Certes, des codes de conduite peuvent exister selon les plateformes mais l’on est loin d’une norme qui serait valable partout. Les utilisateurs jurent, écrivent en langage SMS et s’expriment, somme toute, naturellement. Parmi ces moyens naturels de l’expression humaine, l’on retrouve la notion d’ironie. Ce procédé consiste à dire l’inverse de ce que l’on pense et masque ainsi l’intention du locuteur. Le domaine de l’analyse de sentiment, qui cherche justement à trouver le sentiment – positif ou négatif – d’un commentaire, s’intéresse beaucoup à l’ironie puisque celle-ci rend la compréhension de ce sentiment plus difficile et qu’elle est très présente dans tous les types de contenu créés par les utilisateurs du Web.

L’on peut donc se demander dans quelle mesure un internaute francophone ayant recours à la traduction automatique peut comprendre l’ironie d’un commentaire.

1.2 Question de recherche

Nous l’avons mentionné plus tôt, la traduction automatique est une excellente ressource pour obtenir des informations, surtout lorsque celles-ci n’ont pas besoin d’être précises. Un utilisateur aura ainsi envie de savoir si un produit a été jugé satisfaisant ou non. Or, et on le constate facilement en lisant des commentaires, l’ironie et le sarcasme sont des procédés souvent utilisés lorsqu’un critique décide de donner son avis. Le problème c’est que l’un comme l’autre créent une scission entre ce qui est dit et ce qui est pensé. Ainsi, dans un commentaire ironique, un discours positif sera utilisé pour dénigrer le produit dont il fait état. Un utilisateur francophone utilisant un logiciel de traduction automatique afin d’obtenir des informations sur un produit quelconque risque donc de ne pas être en mesure de comprendre le fond d’un commentaire et donc d’être induit en erreur.

Cela résume bien le but de notre projet : dans notre mémoire, nous essayerons de définir dans quelle mesure la présence de l’ironie et de son dérivé : le sarcasme, peuvent nuire à la compréhension de la

(13)

traduction automatique. Notre question de recherche principale peut donc être formulée de la façon suivante :

Dans le cadre de commentaires rédigés par des utilisateurs anglophones, quel est l’impact de l’ironie sur la traduction automatique ?

Cette question plutôt large est le point d’ancrage de notre mémoire et le motif principal de toutes nos démarches. Afin de tenter de trouver une réponse à cette question, nous tâcherons de répondre à deux autres sous questions – plus spécifiques. La première concerne la qualité de la traduction automatique :

1) Quel est l’impact de l’ironie sur la traduction automatique des commentaires sélectionnés ? La deuxième question sous-jacente concerne la relation entre le texte cible et son interprétation par un locuteur francophone. En effet, nous tâcherons de mesurer l’élément suivant :

2) Un utilisateur francophone peut-il comprendre l’intention d’un commentaire ironique traduit automatiquement ?

Ces deux questions nous permettrons donc d’établir si l’ironie a une influence néfaste sur les systèmes de traduction automatique. C’est grâce à ces deux sous questions que nous pourrons essayer d’estimer plus globalement s’il y a des conséquences quant à l’utilisation de l’ironie lorsque celle-ci est confrontée à la traduction automatique, et s’il y en a effectivement, à quel point ces conséquences sont négatives.

Tout cela nous permettra également de voir si la prise en charge de l’ironie est mieux gérée par un système de traduction automatique en particulier, puisque nous avons décidé d’en sélectionner plusieurs.

1.3 Démarche

La section précédente était dédiée à l’explicitation de nos questions de recherche. Le but de celle-ci est de présenter la démarche que nous avons suivie afin de mener à bien notre projet.

La première chose que nous avons faite a tout d’abord été de choisir un corpus composé de commentaires Amazon standards et ironiques/sarcastiques. Celui-ci a été mis en place pour une étude menée par Elena Filatova (2012) et est disponible gratuitement en ligne². Une fois le corpus trouvé, nous avons sélectionné aléatoirement 50 commentaires normaux et 25 commentaires ironiques. Nous avons ensuite demandé à un francophone de choisir 25 autres commentaires ironiques qui lui paraissaient intéressants.

2 https://github.com/ef2020/SarcasmAmazonReviewsCorpus/wiki [Consulté le 03 Août 2019]

(14)

Ensuite, nous avons fait traduire ces 100 commentaires par trois systèmes de traduction automatique disponibles en ligne : Google Traduction, Bing et DeepL. Par la suite, nous avons jugé deux éléments : le premier concerne la qualité de la traduction automatique ; nous les avons donc soumises à des annotateurs humains et au score BLEU afin de pouvoir jauger s’il existe des corrélations entre systèmes de traduction automatique et qualité, ou types de commentaires (standards ou sarcastiques) et qualité.

Le deuxième élément que nous avons décidé de mesurer concerne la compréhension de la traduction.

Nous avons donc soumis les commentaires traduits automatiquement à une autre série d’annotateurs humains chargés de noter leur ressenti (positif ou négatif) vis-à-vis de ceux-ci. Nous avons également décidé de soumettre ces commentaires à des systèmes d’analyse des sentiments afin de voir s’ils sont capables de relever l’ironie dans la langue source et, après la traduction, dans la langue cible. Ces trois types d’évaluation (humaine, score BLEU et analyse de sentiment) nous permettront de voir si, après la traduction automatique, l’intention d’un commentaire est préservée, si la qualité change selon le type de commentaire et finalement de voir si l’un des systèmes de traduction automatique se prête mieux à la traduction de commentaires ironiques qu’un autre.

1.4 Plan

Afin de rendre ce mémoire le plus digeste et compréhensible possible, nous avons décidé de le diviser en deux parties. La première partie sera théorique et concernera toutes les notions intervenant dans notre mémoire, alors que la seconde sera pratique et concernera d’une part la présentation de nos outils et d’autre part l’analyse de nos données ainsi que nos résultats.

Nous commencerons donc d’abord par une présentation de la traduction automatique (Chapitre 2). Nous nous arrêterons d’abord sur les différents systèmes existants puis nous nous pencherons sur son historique. Nous nous intéresserons également aux différents moyens d’évaluation de la traduction automatique : les annotations humaines et le score BLEU. Dans le chapitre suivant (Chapitre 3), nous expliciterons les problèmes liés à la traduction automatique et à la littérature avant de nous pencher plus en avant sur les notions théoriques de l’ironie et plus largement à la traduction de celle-ci. Nous terminerons cette section en présentant l’analyse de sentiment – domaine que nous avons sélectionné

(15)

pour évaluer la réception des traductions automatiques générées – puis par un survol des problèmes liés à l’ironie et à l’automation.

Une fois ces bases théoriques posées nous passerons à la seconde partie qui, elle, sera consacrée aux éléments pratiques de notre mémoire. Ainsi nous présenterons notre méthodologie (Chapitre 4) en nous arrêtant d’abord sur les différents outils que nous avons utilisés : le corpus, puis d’une part les systèmes de traduction automatique, et d’autre part les systèmes d’analyse de sentiment. La partie suivante (Chapitre 5), elle, sera consacré à l’analyse des données recueillies pour répondre à notre question de recherche et aux questions sous-jacentes que nous avons détaillés dans la section 1.2. Nous essayerons ainsi de déterminer si l’ironie a une influence sur la qualité de la traduction automatique et dans quelle mesure, puis si les traductions ont été comprises par les francophones s; nous tenterons aussi d’établir si les systèmes d’analyse de sentiment ont réussi à gérer les commentaires ironiques et finalement quel système a été le plus performant pour ce travail. Cela nous permettra de conclure notre travail (Chapitre 6) en établissant si d’une part l’un des systèmes s’illustre plus qu’un autre pour ce qui est de la qualité de la traduction automatique et d’autre part de mesurer si l’utilisation de l’ironie ou du sarcasme rend la traduction automatique impuissante.

(16)

2.LA TRADUCTION AUTOMATIQUE

2.1 Introduction

Il devient de plus en plus difficile d’imaginer que jusqu’à récemment, le contact entre les êtres humains était limité par la distance qui séparait une personne d’une autre et que leur langue respective pouvait être un obstacle insurmontable. En effet, depuis la naissance d’Internet il y a une vingtaine d’années, les différentes barrières qui pouvaient rendre les échanges, quels qu’ils soient, difficiles, se sont progressivement effondrées. Et aujourd’hui, devant un texte en langue étrangère, peu d’internautes se sentent démunis : les systèmes de traduction automatique en ligne permettent de comprendre (avec plus ou moins de facilité) le contenu d’un texte rédigé dans une langue étrangère.

C’est donc sur ce domaine au cœur de notre mémoire, la Traduction Automatique (ou TA), que nous nous arrêterons en premier en y consacrant notre deuxième chapitre. Nous tâcherons d’abord de proposer des définitions ainsi que de présenter les principaux systèmes qui ont jalonné le domaine (Section 2.2).

Nous présenterons ensuite brièvement son histoire (Section 2.3). Nous nous intéresserons ensuite aux différents moyens d’évaluation de la TA que nous avons sélectionnés pour notre travail (Section 2.4).

Nous clôturerons ce deuxième chapitre en proposant une conclusion (Section 2.5) qui ouvrira notre discussion sur un élément essentiel de notre travail, la présentation de l’ironie ainsi que des problématiques qui entourent son utilisation.

2.2 Architectures

Afin de faciliter la compréhension de la suite de notre travail, de même que pour poser des bases théoriques qui auront leur importance lorsque nous comparerons les différents outils de traduction automatique que nous avons utilisés, il nous paraît important de proposer des définitions explicites concernant les notions clés de notre étude de même qu’expliciter le fonctionnement des divers systèmes de traduction automatique :

(17)

2.2.1 Définition de la traduction automatique

La traduction automatique est définie de la façon suivante par Jurafsky: « [Machine Translation is] the use of computers to automate translation from one language to another. » (Jurafsky et al., 2009, p.895) Yvon, lui, écrit dans son article pour les Oxford Bibliographies :

« Machine translation (MT) is an interdisciplinary scientific field that brings together linguists, lexicologists, computer scientists, and translation practitioners in the pursuit of a common goal: to design and develop electronic resources and computer software capable of automatically translating a document in a source language (SL) into an equivalent text in a target language (TL). » (Yvon, 2014)

Ces définitions mettent en exergue le but absolu de la traduction automatique : traduire informatiquement et sans intervention humaine un texte de langue source en un texte de langue cible.

Toutefois, bien qu’il existe de nombreux programmes et logiciels qui permettent effectivement de passer d’une langue à une autre, l’efficacité de ceux-ci est actuellement relative. En effet, une intervention humaine est encore nécessaire - et à différents niveaux - pour que la qualité d’une telle traduction puisse être considérée comme équivalente à celle d’un être humain. Cela est exprimé dans la citation ci-dessus par l’utilisation des termes « pursuit of a common goal », l’objectif final de la TA n’est pas encore atteint. Le but d’obtenir des traductions entièrement automatiques de haute qualité (TEAHQ ou HQMT en anglais) n’est donc possible pour l’instant que lorsque certaines conditions sont réunies : la présence d’un domaine restreint, par exemple, dont les textes en langue source sont soit rédigés dans un sous- langage soit rédigés avec une langue contrôlée.

Si d’un côté il existe les traductions entièrement automatiques d’une qualité irréprochable (possibles actuellement uniquement sous certaines conditions) et de l’autre côté des traductions effectuées par des traducteurs humains, il existe également un entre deux qui n’est toutefois pas englobé dans la TA puisque le terme « n’inclut pas les outils informatiques d’aide à la traduction ou aides informatisées à la traduction qui s’inscrivent dans le cadre de la traduction humaine assistée par ordinateur (THAO) » (Bouillon, 1993).

(18)

Cela concerne toutes les aides informatiques (comme les mémoires de traduction) auxquelles un traducteur humain peut faire appel lorsqu’il travaille, de même que tout ce qui concerne la TAAH, la traduction automatique assistée par l’humain. L’on peut par exemple mentionner la post-édition qui est la correction d’une traduction obtenue automatiquement par un traducteur humain.

Tous les programmes et logiciels de traduction automatique ne fonctionnent pas selon la même architecture. Certains s’appuient sur des connaissances linguistiques alors que d’autres reposent sur des corpus (Quah, 2006). Nous tâcherons de présenter les systèmes principaux ci-dessous puisque l’architecture d’un système témoigne souvent d’une certaine idéologie ou du moins de certaines priorités.

2.2.2 Les systèmes de traduction automatique

Afin de faciliter l’illustration des différents systèmes de TA, il nous paraît pertinent de nous arrêter un instant sur une représentation visuelle du procédé de la traduction automatique. Le triangle de Vauquois (Figure 1) est un schéma imaginé par Bernard Vauquois, mathématicien et informaticien français, représentant les différents niveaux d’analyse que peut effectuer un système pour passer d’une langue source à une langue cible (Trujillo, 1999).

Figure 1 : Le triangle de Vauquois (Trujillo, 1999).

La première chose que nous pouvons constater est que d’une part et de l’autre du triangle se trouvent la langue source (SL) et la langue cible (TL). La seconde est que le triangle est composé de plusieurs

(19)

éléments qui sont tous accompagnés de flèches. Ceux-ci représentent les trois étapes nécessaires, selon Vauquois, à la traduction automatique. La première étape étant l’analyse (analysis), la deuxième étant le transfert (transfer) et la dernière étant la génération (generation). Dans ce triangle, l’analyse et la génération ne sont présentes qu’une seule fois alors qu’il présente quatre sortes de transferts différents (si l’on prend en compte l’interlangue). Cela s’explique par le fait que le triangle ne fait pas que représenter les trois étapes de la traduction automatique, il présente aussi les différents niveaux d’analyse qu’un système peut effectuer. Nous présenterons ces différents systèmes dans la section ci-dessous mais il nous paraît tout de même pertinent de relever que ce schéma illustre une conception importante : plus on analyse finement la langue source, plus la phase de transfert sera facile – concept explicité par la longueur des flèches.

2.2.2.1 Les Systèmes Linguistiques (RBMT) : Il s’agit des premiers systèmes de traduction automatique

(dont l’apogée est les années 90) qui ont réussi à prouver leur efficacité et sont actuellement les seuls capables – pour les systèmes indirects - de faire de la traduction automatique de haute qualité (TAHQ).

Comme leur nom l’indique, ceux-ci ont été conçus comme étant linguistiques, c’est-à-dire que la grammaire d’une langue ainsi que son vocabulaire en sont une partie intégrante. Ceux-ci sont décrits par le triangle de Vauquois (Figure 1). Il existe deux types de systèmes linguistiques. Les systèmes directs et les systèmes indirects.

Les systèmes directs (ou minimalistes), pionniers de la traduction automatique, effectuent les traductions assez simplement (Bouillon, 1993).

(20)

Figure 2 : Le triangle de Vauquois : les systèmes directs (Saers, 2011).

En effet, comme représentés dans le triangle de Vauquois (Figure 2), leur niveau d’analyse est placé au plus bas puisque dans les faits, ils n’en font tout simplement pas. Composés uniquement d’un dictionnaire bilingue qui servira à effectuer la transformation, il n’y a ni une intervention de structures intermédiaires ni une analyse du texte source. La traduction sera donc uniquement basée sur ce dictionnaire bilingue et les informations qu’il contient. Pour reprendre les termes de Jurafsky, chaque entrée lexicale peut être considérée comme un petit programme informatique dont la seule fonction est de traduire « son » mot. Une fois qu’ils auront tous été traduits, ceux-ci pourront néanmoins être réorganisés aux moyens de règles simples afin, par exemple, d’organiser correctement les mots dans la phrase (Jurafsky et al., 2009). Ces systèmes directs sont devenus obsolètes pour plusieurs raisons. La plus évidente est que les résultats qu’ils proposent sont loin d’être satisfaisants. En effet, s’ils sont certes capables de réagir à des conditions simples le fait qu’ils n’aient aucune connaissance des structures grammaticales de la langue source ou de la langue cible les rend très vite impuissants (Jurafsky et al., 2009). De plus, il faut non seulement faire preuve d’une exhaustivité exemplaire, voire impossible, au moment d’entrer les mots dans le dictionnaire ; mais, en plus, les ressources demandées ne sont pas anodines : l’énergie et le temps nécessaire à la préparation de ces systèmes n’est pas négligeable et les rendent peu rentables. Finalement leur application à une seule paire de langue les rend moins intéressants actuellement. Il faut toutefois noter que l’idée de « transformation » est un concept qui est resté important dans les systèmes de traduction postérieurs.

(21)

Les systèmes indirects (ou maximalistes), quant à eux, sont l’évolution des systèmes directs puisqu’ils tentent de pallier aux défauts des précédents : plutôt que de munir le système d’un seul dictionnaire bilingue, celui-ci est désormais également équipé de connaissances contrastives (contrastive knowledge) entre les langues qu’il sera chargé de traduire. Les systèmes indirects peuvent se découper en deux types.

Figure 3 : Le triangle de Vauquois : les systèmes de transfert (Saez, 2011).

Le premier concerne les systèmes de transfert représentés ci-dessus dans le triangle de Vauquois (Figure 3). Ceux-ci suivent parfaitement les concepts sous-jacents de ce triangle puisqu’ils sont munis des trois phases qui le caractérisent. En effet, contrairement aux systèmes directs, les systèmes de transfert, comme leur nom l’indique, passeront après l’analyse du texte source par une phase de transfert avant la génération du texte cible. Cela est rendu possible grâce à l’ajout de deux éléments capitaux : les dictionnaires monolingues et les grammaires. En effet, en plus d’un dictionnaire bilingue – déjà présent dans les systèmes directs – les systèmes de transfert possèdent tous des dictionnaires monolingues respectivement pour la langue source et la langue cible. Ces dictionnaires permettent donc au système de ne plus passer directement d’une langue à une autre mais d’avoir une étape supplémentaire avant la génération de l’énoncé traduit en langue cible. Après avoir analysé le texte source, une procédure de transfert représente la phrase en langue source d’une manière abstraite (en arbre syntaxique). Ensuite, grâce à ses connaissances concernant la langue cible, le programme pourra finalement générer une traduction. En résumé, le programme passe donc d’abord du texte en langue source à une représentation de celui-ci, qui est ensuite convertie en une représentation de la langue cible.

(22)

Finalement, le programme génère le texte cible (Quah, 2006). Ces trois étapes utilisent une base de données lexicales et grammaticales sur lesquelles le système peut s’appuyer pour générer une traduction.

Ces deux approches, directes et indirectes avec transfert, sont donc résolument linguistiques, puisqu’elles mettent un accent considérable sur la grammaire et le vocabulaire des langues source et cible qu’elles essayent de représenter – bien que la syntaxe ne soit réellement présente que dans les systèmes de transfert. La solution la plus efficace est cependant de combiner les deux approches que nous venons de présenter, en munissant les systèmes de transfert de dictionnaires bilingues très riches (Jurafsky et al., 2009).

Ces systèmes, comme tous les systèmes actuels de traduction automatique, ont tout de même des limites : le vocabulaire est circonscrit à celui que les utilisateurs auront entré dans le programme ; quant à la grammaire, il est difficile (voire impossible) d’en rédiger une suffisamment exhaustive pour qu’elle couvre toutes les possibilités phrastiques de l’expression humaine. Finalement, l’un des problèmes majeurs de ces systèmes vient du fait qu’ils seront incapables de générer une phrase si la phase de transfert est mise à mal par une erreur dans les règles entrées.

La deuxième catégorie de systèmes indirects est dite par interlangue. Le concept de l’interlangue est qu’au moment de la phase de transfert, plutôt que de passer à une représentation en arbre syntaxique spécifique à la langue, de recourir à une représentation « universelle » et abstraite du langage - en excluant donc la langue en tant que telle.

Figure 4 : Le triangle de Vauquois : les systèmes par interlangue (Saers, 2011).

Cette idée prend sa source dans les recherches linguistiques des années 60 où les chercheurs tentaient d’identifier les points communs entre chaque langue (Quah, 2006). Le texte source est donc converti en

(23)

une représentation complètement abstraite qui capture toutes les informations syntaxiques et sémantiques essentielles du texte. Cela se constate dans le triangle de Vauquois ci-dessus (Figure 4) puisque la transformation de la langue en une abstraction universelle pendant la phase d’analyse supprime le besoin d’une phase de transfert. Cette abstraction est très utile puisque le texte peut ensuite être traduit dans un grand nombre de langues - contrairement aux approches citées précédemment qui sont limitées par les systèmes grammaticaux propres à chaque langage (Quah, 2011). Le problème de cette approche est justement de réussir à développer cette interlangue afin qu’elle puisse ensuite être déployée pour un maximum de langues. Il n’existe actuellement pas de méthodologie qui parvienne à la construction d’une véritable représentation non-langagière (Quah, 2011), bien que les systèmes neuronaux s’en rapprochent, comme nous le verrons lorsque nous tenterons de présenter ces systèmes.

2.2.2.2 Les systèmes basés sur les corpus : Il s’agit de systèmes de TA les plus récents : ils commencent

à prendre de l’ampleur à la fin des années 90 mais sont réellement démocratisés à l’aube du 21^ème siècle.

Ceux-ci ont une approche très différente des systèmes que nous avons évoqués précédemment puisque ceux-ci : « rejettent, partiellement ou totalement, l’approche basée sur les règles. » (Somers, 1993).

Ainsi, leur idéologie sous-jacente est plus de se baser sur le résultat que sur le processus (Jurafsky et al., 2009). L’on abandonne ainsi l’idée de donner des connaissances monolingues et contrastives au système.

D’après la classification de Quah (2006), il existe deux catégories de systèmes basés sur des corpus. Les systèmes statistiques et les systèmes basés sur les exemples. Nous tâcherons de définir les premiers avant de nous intéresser aux seconds. Son livre datant de 2006, Quah ne fait pas mention d’une troisième catégorie proposée en 2014 par Cho et al. : les systèmes neuronaux. Ceux-ci fonctionnent également avec des corpus mais au vu des différences notables dans leur architecture, nous leur réservons une partie à part à la fin de cette section.

Les systèmes statistiques (SMT), comme leur nom l’indique, ne s’appuient pas sur des connaissances linguistiques mais fonctionnent en recherchant les occurrences des mots qu’ils ont à traduire ainsi que leur contexte dans des corpus souvent composés de traduction de référence, sur lesquels ils se seront

(24)

entraînés au préalable. C’est en comparant les divers résultats qu’ils auront obtenus qu’ils essayeront ensuite de définir quelle est la phrase qui sera la plus probable d’un point de vue statistique :

« Statistical MT is the name for a class of approaches that do just this [maximize some value function that represents the importance of both faithfulness and fluency] by building probabilistic models of faithfulness and fluency and then combining these models to choose the most probable translation» (Jurafsky et al., 2009).

Figure 5 : Le Triangle de Vauquois - les systèmes statistiques³.

Ces approches sont résolument éloignées de la proposition théorique de Vauquois (Figure 5). Toutefois, celle-ci est tout de même utile pour faciliter la compréhension de ces systèmes, par contraste. En effet, l’on peut d’ores et déjà constater que ces systèmes n’ont pas de phase d’analyse. Cela s’explique évidemment par le fait qu’il n’y ait plus de connaissances linguistiques. Quant à la phase de transfert, celle-ci ne sert pas à la création d’un squelette syntaxique de la phrase en langue source puis cible, mais trouvera plusieurs possibilités de traductions parmi lesquelles le système sera chargé de choisir. Pour cela, c’est à dire pour qu’un système statistique soit capable de faire ce choix, celui-ci doit être entraîné.

Cet entraînement est composé de deux phases (qui ne sont pas effectuées conjointement). La première est l’alignement du corpus qui consiste à faire correspondre à chaque phrase du texte source sa traduction en texte cible. Afin de maximiser l’efficacité du système, ce corpus devrait être aussi grand que possible.

La deuxième phase est une phase de construction des deux modèles qui forment le système. Il s’agit du modèle de langue et du modèle de traduction ainsi que de leurs séquences.

3 SYSTRAN : http://blog.systransoft.com/how-does-neural-machine-translation-work/ [Consulté le 08 Avril

(25)

Après l’entraînement, le système sera en mesure de « prédire » (à l’aide de la théorie de Bayes) une traduction en se basant sur les deux modèles que celui-ci aura pu établir. En effet, celui-ci représentera la phrase en N-gramme. Le fonctionnement est le suivant : le programme va découper le texte source en N-grammes qui seront ensuite comparés au modèle de traduction. Le programme pourra ensuite tenter de choisir statistiquement, parmi les phrases qu’il aura générées, la phrase qui a la plus haute probabilité d’être correcte. Ce choix est rendu possible par la deuxième caractéristique des systèmes statistiques : en plus de la capacité du système à découper un texte et à générer grâce à un corpus différentes traductions possibles, ceux-ci possèdent un modèle de langue où sont stockées toutes les informations quant à celle-ci. Ce modèle sert à attribuer un score aux différentes possibilités de traduction pour trouver la plus probable parmi les possibilités qu’il aura extraites en utilisant les n-grammes (Koehn, 2011).

Finalement, les systèmes statistiques sont aussi pourvus d’une « table de réordonnencement » (reordering table) qui indique au système dans quel ordre les mots doivent être placés. Ce genre de systèmes est encore utilisé notamment sur Internet bien que ceux-ci se fassent petit à petit supplanter par les derniers systèmes basés sur les corpus en date : les systèmes neuronaux.

Les autres systèmes de traduction basés sur des corpus sont dits basés sur les exemples (example-based) Les éléments principaux de ces types de systèmes sont d’une part un corpus bilingue constitué de segments en langue source et en langue cible et d’autre part d’un algorithme qui sera capable de trouver, dans ce corpus bilingue, le segment le plus proche (l’exemple) du texte source et de le faire correspondre à son segment de texte cible. C’est sur cet exemple que sera basé la traduction. Le postulat de base est donc plutôt simple : afin de traduire une phrase, l’on cherchera d’anciennes traductions composées de phrases similaires à celle que l’on tente de traduire. L’idée sous-jacente est que beaucoup de traductions ne sont que des modifications d’anciennes traductions (Trujillo, 1999). La traduction sera donc opérée de la façon suivante : premièrement, le système cherchera à faire correspondre aux segments du nouveau texte d’autres paires bilingues et similaires existant déjà dans son corpus, puis, après avoir aligné les traductions de ces segments, il les combinera afin de générer une traduction. Le problème qui émerge de ces systèmes est celui que Jurafsky & Martin évoquent dans leur chapitre sur les N-grammes :

« language is creative; new sentences are created all the time, and we won’t always be able to count entire sentences. » (Jurafsky et al., 2018). Il est difficile pour ces systèmes de trouver les « exemples

(26)

parfaits » afin de générer la traduction. Ils ont donc tendance à devoir séparer les phrases en des fragments trop courts, ce qui, comme le note Harold Somers (Somers, 1999), affecte la qualité des traductions.

En conclusion, ces deux systèmes sont donc intéressants dans la mesure où ils permettent une plus grande flexibilité que les systèmes linguistiques puisque ceux-ci sont capables de s’adapter. Qui plus est, puisqu’ils se basent sur des corpus et donc des textes déjà existants, les traductions qu’ils produisent auront tendance à être plus idiomatiques. Toutefois, pour qu’elles puissent réellement être jugées comme étant satisfaisantes, elles doivent venir d’un système qui aura été entraîné - si possible – sur un sujet très spécifique et avec des corpus gigantesques, ce qui peut être un problème informatique en tant que tel.

Toutefois, s’ils nécessitent un matériel informatique puissant, les phases d’entraînement, elles, ne demandant que peu d’intervention humaine : ces systèmes sont donc moins couteux en termes d’énergie humaine que les systèmes linguistiques que nous avons présentés plus tôt.

Systèmes hybrides : Bien que nous ayons présenté les systèmes précédents séparément comme s’ils étaient des entités incompatibles les unes avec les autres, la réalité est bien différente. En effet, les approches linguistiques sont souvent coûteuses et ne parviennent parfois à ne produire que des résultats peu probants quand de nouvelles règles sont ajoutées. Quant aux approches statistiques, elles sont suffisamment flexibles pour parvenir à un résultat et ce même si l’énoncé n’a pas été prévu par le système. Ce résultat, néanmoins, pourra contenir des erreurs. Quah note que la recherche bornée d’une approche en éliminant les autres peut être une mauvaise idée et que la meilleure manière d’avancer dans la recherche est de combiner ces approches en systèmes hybrides (Quah, 2006). Ceux-ci permettraient de combiner des approches « corpus » (quelles soient statistiques ou basées sur des exemples…ou les deux) avec des connaissances linguistiques qui permettraient de prévenir des séries d’erreurs et qui amélioreraient la qualité des traductions (Koehn, 2011).

Les système neuronaux : Très récents et très complexes puisqu’ils se basent sur les théories de l’« apprentissage profond » (deep learning en anglais), ces systèmes sont actuellement sous le feu des

(27)

projecteurs⁴ grâce à leurs résultats dépassant ceux des systèmes évoqués précédemment. Nous tenterons donc d’expliquer leur fonctionnement et les principes qui les animent. Mais avant de pouvoir nous arrêter sur leurs particularités, il nous paraît pertinent de présenter d’abord le deep-learning qui est à la base de ces systèmes.

Nous le verrons plus en détail dans le bref historique mais, tout comme pour l’histoire de la Traduction Automatique, l’idée théorique du deep learning est née peu après la Seconde Guerre mondiale alors que les premiers « ordinateurs » voyaient le jour. L’idée de base est de créer une machine capable d’apprendre automatiquement et sans intervention humaine, afin que celle-ci puisse utiliser seule ses nouvelles connaissances. Ainsi, les ordinateurs seraient capables d’analyser des données et d’en ressortir des schémas qu’ils pourraient ensuite utiliser pour effectuer des prédictions (Hao, 2016). Comme nous l’avons déjà exposé plus tôt, c’est comme cela que les systèmes statistiques fonctionnent. Toutefois, à l’inverse des systèmes neuronaux, les systèmes statistiques (qui sont appelés des shallow models) ne possèdent qu’une seule « couche cachée » (hidden layer) d’analyse. Ces couches cachées multiples (et donc deep)– cœur des réseaux neuronaux – ne sont théorisées qu’en 2006 dans un article de Geoffrey Hinton qui pave la voie pour les réseaux dits neuronaux et donc le Deep Learning. Celui-ci déclare que, pour passer à une étape supérieure de l’intelligence artificielle, il faut tout d’abord donner aux machines plusieurs « niveaux d’analyses » et que ces différents niveaux d’analyse doivent pouvoir être entraînés afin d’aider la machine à apprendre. Ces deux postulats sont ceux qui ont permis à l’intelligence artificielle de faire un bond en matière de qualité, et ce dans de nombreux secteurs : la reconnaissance vocale, la reconnaissance d’images et, bien entendu, la traduction automatique. En résumé le deep learning utilise une cascade de niveaux d’unités de traitement non-linéaires, c’est-à-dire que les données peuvent se croiser ou s’influencer rétroactivement. La figure ci-dessous (Figure 6) est une représentation d’un réseau neuronal classique qui permet d’extraire - et à terme d’exploiter - les particularités des différentes couches (Hao, 2016). Cela permet aux ordinateurs d’apprendre grâce à une représentation hiérarchique des données où les particularités d’un niveau élevé seront dérivées de particularités des niveaux plus bas et plus abstraits (Goodfellow et al, 2016). Les outputs seront donc

4 https://omniscien.com/state-neural-machine-translation-nmt/ [Consulté le 11 Avril 2019]

(28)

dérivés par la computation des couches cachées ce qui est censé ressembler au processus neuronal des êtres vivants.⁵

Les systèmes neuronaux fonctionnent donc sur ces bases : ils sont composés de milliers d’unités artificielles qui ressemblent à des neurones humains, dans le sens que leur activation (qu’elle soit positive ou négative) dépend du stimulus qu’ils reçoivent. De plus, ces neurones sont groupés en couches cachées (et donc opaques à l’analyse) afin qu’ils puissent passer d’un input en langue source (dans le cas de la traduction automatique) à un output en langue cible. Nous tenterons dans les paragraphes qui suivent d’expliquer plus en détail le fonctionnement de ces systèmes.

Comme les systèmes statistiques mentionnés plus tôt, les systèmes neuronaux sont basés sur des questions de probabilités (Forcada, 2017) ; ainsi, tous deux doivent s’entraîner sur des corpus afin de pouvoir acquérir des connaissances. Ces corpus sont composés de paires de segments en langue source et de leurs traductions. Contrairement à l’entraînement des systèmes statistiques qui se fait étape par étape et partie par partie, les systèmes neuronaux, eux, entraînent leurs deux parties en même temps ; qui plus est, aucun modèle n’est extrait de cet entraînement. Les deux parties qui les constituent sont appelées l’encodeur et le décodeur qui sont deux réseaux neuronaux récurrents. L’encodeur analysera l’input et le décodeur transformera cet input en output de langue cible. La plupart des systèmes actuels sont également munis d’un système d’attention qui permet au décodeur d’affiner ses prédictions et de

Figure 6 : Fonctionnement d'un système neuronal pour la reconnaissance d'images.

(Goodfellow et al.,2016).

(29)

prendre en compte les éléments les plus pertinents de la phrase source afin de produire les mots du texte cible.

Ce bref schéma n’est pas suffisant pour décrire la complexité et les différents mécanismes de ces systèmes. Nous essayerons donc de donner un bref exemple qui nous permettra non seulement de proposer une définition sans doute plus exhaustive mais également de mentionner les outils utilisés par les réseaux neuronaux.

La première étape, lorsque l’on veut déployer un système de TA neuronal est donc de l’entraîner sur un corpus. Cela peut prendre plusieurs jours et demande des appareils très performants. En effet, l’une des particularités de cet entraînement est que le système sera capable de créer des plongements de mots (embedded distributional representations) qui formeront une représentation des mots que le système pourra ensuite utiliser. Ce terme vient d’une théorie de Firth qui postule que « des mots qui se trouvent dans des contextes d’apparitions similaires tendent à avoir des sens similaires » (Kris et al., 2016) ou en langue originale : « You shall know a word by the company it keeps » (Firth, 1957). Afin de mettre en place cette représentation distributionnelle, le programme utilisera des vecteurs qui faciliteront celle-ci.

En effet, les mots étant des unités discrètes et symboliques (une voiture veut dire une voiture, un taxi veut dire un taxi) représenter chacun d’entre eux traditionnellement demanderait des ressources informatiques beaucoup trop grandes. De plus, il est impossible de « faire comprendre » à la machine qu’une voiture et un taxi sont sémantiquement proches. Ces problèmes expliquent l’intérêt d’utiliser une représentation distributionnelle : « the distributed representation achieves a level of generalization that is not possible with classical n-gram languages models ; whereas a n-gram model works in terms of discrete units that have no inherent relationship to one another, a continuous space model works in terms of word vectors where similar words are likely to have similar vectors. » (Mikolov et al., 2013) Utiliser les n-grammes traditionnels, c’est-à-dire considérer chaque mot comme une unité existant dans son contexte de n-mot, voudrait dire devoir multiplier chaque mot unique du corpus de langue source par lui-même. Une représentation distributionnelle à l’aide de vecteurs continus permet de séparer chaque mot selon son contexte et ainsi le reformaliser en une série de chiffre. En reprenant notre exemple précédent, une voiture pourrait être représentée par les valeurs (0.12, 1.23, 0.34) et un taxi par les valeurs (0.12, 1.23, 0.33). Cela permet une classification plus pertinente et demandant moins de ressources.

(30)

Nous pouvons également souligner que ces vecteurs transforment chaque mot en une unité multi- dimensionnelle. Après avoir décomposé-recomposé les noms en vecteur (aussi appelés contextes), le système les déploiera dans un plongement lexical (word embedding) (Figure 7) qui lui permettra de tisser des liens entre chaque occurrence de mots.

Figure 7 : Un plongement lexical projeté en 2D (Koehn, 2017).

Ces représentations sont dites « profondes », elles ne sont pas construites en une fois mais étapes par étapes (comme nous l’évoquions précédemment) à partir de couches plus « profondes » (shallower) (Forcada, 2017).

Une fois l’entraînement terminé, il sera possible de passer au déploiement du système. Celui-ci est composé de l’encodeur et du décodeur. Avant de tenter d’expliquer plus en détail leur fonctionnement, il est pertinent de préciser que ceux-ci sont des réseaux neuronaux récurrents (recurrent neural network / RNN) c’est-à-dire : « a recurrent neural network (RNN) works on variable lenght sequence by maintaining a hidden state (h) over time. At each timestep the hidden state is updated » (Cho et al., 2014 - a) c’est cette couche cachée qui est la particularité de ces systèmes. En effet, lors de l’analyse du segment source, l’encodeur gardera pour chacun des mots des informations concernant les mots précédents, informations qui seront actualisées après chaque mot. Le résultat de cet encodage permettra au décodeur de produire une traduction. Pour reprendre l’expression de Cho : « The encoder extracts a fixed-lenght vector representation from a variable lenght input sentence and the decoder generates a correct variable-lenght target translation from this representation » (Cho et al., 2014 - a). Ainsi, le

(31)

premier réseau neuronal récurrent encode une séquence de symboles en une représentation vectorielle dont la longueur est déterminée et l’autre réseau neuronal décode cette représentation dans une autre séquence de symboles (Cho et al., 2014 – b). Tout ce processus permet de maximiser la probabilité d’une séquence en langue cible sans pour autant demander d’informations linguistiques extérieures. Ainsi les systèmes neuronaux permettent de s’éloigner de la « phrase » et des séquences (Cho et al., 2014 – b).

Toutefois ces systèmes ne sont pas encore parfaits, comme le constate Cho et al. Dans leur article, leurs performances étaient au départ plus faibles que les systèmes statistiques conventionnels. En effet, leurs résultats étaient bons mais perdaient dramatiquement en qualité dès que les phrases devenaient plus longues. C’est précisément ce que note Bahdanau :

« This approach means that the neural network needs to be able to compress all the necessary info of a source sentence into a fixed-length vector. This may make it difficult for the neural network to cope with long sentences especially for those longer than those in the training corpus » (Bahdanau, 2014).

C’est à cause de ces problèmes qu’il a proposé d’inclure un autre élément : l’attention. Ce dispositif est placé au niveau du décodeur qui « fait attention » (ou qui répond) non seulement à la dernière représentation construite par le décodeur mais aussi à la séquence complète des différentes représentations construites durant l’encodage (Forcada, 2017). Donner à l’encodeur un mécanisme d’attention, c’est enlever à l’encodeur la responsabilité de devoir inclure toutes les informations dans un vecteur à la taille déterminée (Bahdanau, 2014). C’est grâce à ce dispositif que les systèmes neuronaux ont pu se démocratiser puisque cela leur permet de réagir adéquatement à des phrases plus longues. À terme, l’attention leur a permis de surpasser les systèmes statistiques traditionnels : « the neural approach (NMT) has emerged as a new paradigm in MT systems, raising interest in academia and industry by outperforming phrase-based statistical systems (PBSMT) based largely on impressive results in automatic evaluation » (Castilho et al., 2017).

Ces systèmes sont donc efficaces et il est facile de comprendre l’enthousiasme que ceux-ci suscitent, même si Koehn (2018) met en garde qu’il y a encore du chemin à parcourir avant que la traduction neuronale (NMT) puisse détrôner définitivement les systèmes linguistiques (RBMT) et les systèmes

(32)

statistiques (SMT) : en effet, ceux-ci ne fonctionnent bien que lorsque les corpus qu’ils ont à dispositions sont énormes. Si les corpus sont restreints, ils auront tendance à produire de plus mauvais résultats que tous les autres types de systèmes. Cela s’explique par le fait que pour qu’ils puissent être efficaces - tant les encodeurs que les décodeurs - il faut que leurs critères de sélection puissent être nombreux ce qui est impossible avec un corpus restreint. Il sera donc intéressant, dans la suite de notre travail, de voir s’il existe une corrélation entre le type de système utilisé et la qualité de la traduction ou de compréhension de la traduction.

2.3 Historique

La traduction automatique est née dans les années 50 aux Etats-Unis où, selon Maurice Gross, elle a connu un « départ brillant » (Gross, 1972). L’on comprend bien sûr, après la Deuxième Guerre mondiale et alors que le rideau de fer divisait l’occident en deux entités antinomiques, l’intérêt qu’a pu susciter l’idée de pouvoir confier à des machines la tâche de la traduction. C’est pourquoi de nombreux chercheurs, qu’ils soient linguistes ou informaticiens, se sont penchés sur la question appuyés par d’énormes subventions émanant principalement des États-Unis. Dès 1955 l’intérêt est tel qu’est publié Machine Translation of language : Fourteen essays de William Locke et Donald Booth qui est le premier livre dédié à la traduction automatique. Cependant, après des années de recherches intensives et globales, dix-huit pays possèdent des centres de traduction automatique, les premières expériences s’avèrent infructueuses. Chan le souligne dans The Routledge Encyclopaedia of Translation Technology, l’un des problèmes majeurs de cette première tentative est que : « Unfortunately, most of them set out to pursue a mistaken and unattainable goal of MT research which is called ‘fully automatic high quality (FAHQ) translation.» (Chan, 2015). Les causes sont d’une part liées aux limites informatiques de l’époque qui ne permettaient pas encore l’utilisation de base de données dont la taille aurait été suffisante et d’autre part à des concepts théoriques qui n’étaient pas encore pertinents pour que la traduction automatique puisse prendre son essor (Bouillon, 1993). En effet, le concept selon lequel les mots ne peuvent pas être traduits correctement si on les considère comme des entités isolées et indépendantes les unes des autres n’avait pas encore fait son chemin (Quah, 2006).

(33)

Ainsi, la traduction automatique après avoir été la source d’un tel engouement se trouve laissée de côté : le plus grand projet de recherche aux États-Unis ferme ses portes en 1963, témoin du désintérêt croissant qu’elle subit. En 1966, le rapport ALPAC (Automatic Language Processing Advisory Committe), mis en place pour juger les progrès du domaine, tranche : « there is no immediate or predictable prospect of useful machine translation. » (ALPAC, 1966). Les effets de ce rapport sont désastreux et la traduction automatique est délaissée après que la plupart des subsides ont été coupés. Les programmes heurtant tous un mur infranchissable ont vite fini par faire passer la traduction automatique pour une illusion.

L’abandon du domaine est tel que Maurice Gross, en 1972, écrit : « Il semble difficile de justifier le maintien d'une activité de Traduction automatique. » (Gross, 1972) Le constat est le suivant : dans les années 70, après avoir enthousiasmé la recherche pendant une quinzaine d’années, la traduction automatique passe pour quelque chose de pratiquement chimérique. Pourtant, c’est peu avant les années 60 que Noam Chomsky, célèbre linguiste, théorise sur les grammaires formelles et sur la syntaxique des langues (Bouillon, 1993). Ce sont ses idées qui permettront de changer de paradigme en ce qui concerne la traduction automatique et qui donneront lieu à la fin des années 70 à la création des premiers systèmes de traduction automatique performants, les systèmes directs puis indirects (voir section 2.2.2.1). En effet, pour des raisons évidentes de multiculturalisme, le Canada et l’Europe reprennent le flambeau que tenait jusqu’à présent les États-Unis (Chan, 2015). C’est donc à cette époque que naissent des logiciels tels que Météo (1976), un système de traduction automatique indirect qui, comme son nom l’indique sert à traduire les bulletins météorologiques de l’anglais vers le français, ou encore SYSTRAN. Tous les systèmes de traduction automatique des années 70 jusqu’à la fin des années 80 n’étaient que des variations de ces systèmes linguistiques. Ce n’est qu’à l’orée des années 90 que : « the dominance of linguistic rules-based approaches [is] broken by the appearance of new corpus-based methods and strategies. First, an IBM research group purely based on statistical methods developed MT system, which carved out the way to statistical machine translation (SMT) » (Chan, 2015). C’est à ce moment- là de l’histoire de la traduction automatique que la création des systèmes de traduction automatique statistique (Section 2.2.2.2). D’abord avec des systèmes dits « Word-based » qui fonctionnent en proposant un « attribut-x » constitué du nombre de mots sources qu’un mot cible pouvait générer (a fertility) pour permettre à un mot cible de se connecter à plusieurs mots sources (Xiong et al., 2015)

(34)

(Section 2.2.2.2). Ces systèmes ont ensuite été remplacés par des systèmes dits « Phrase-based » qui ne se concentrent plus sur les mots mais, comme leur nom l’indique, sur les phrases. Dans ces systèmes, une phrase source est divisée en segments qui sont ensuite traduits puis réordonnés afin de former une phrase cible (Xiong et al., 2015)

Après un règne d’une vingtaine d’année, entre les années 90 et les années 2010, où les systèmes statistiques et linguistiques se sont partagé l’intérêt académique et le marché, les systèmes neuronaux voient le jour et bousculent le paradigme en place, d’abord en intégrant les systèmes statistiques (avec les propositions de Cho et al., par exemple) puis en devenant un type de système à part entière.

Aujourd’hui tous les systèmes que nous avons mentionnés précédemment restent pertinents même si, comme nous l’avons souligné plus tôt, les systèmes neuronaux suscitent un intérêt global et que la recherche se concentre sur leur amélioration, comme le prouve l’article de Bengio et al. pour l’amélioration du mécanisme d’attention (Bengio et al., 2018) (Section 2.2.2.2). Nous les présenterons plus tard dans notre travail, mais parmi les trois systèmes de traduction automatique que nous avons sélectionnés pour mener à bien notre étude, deux sont neuronaux (Google Traduction et DeepL) et le dernier (Bing) est statistique.

2.4 L’évaluation de la traduction automatique

Nous l’avons introduit dans la première partie de notre travail (Chapitre 1) : celui-ci porte sur la traduction automatique de commentaires Amazon ironiques ; ainsi, afin de pouvoir mesurer si ceux-ci peuvent être un problème pour les systèmes de traduction automatique, cela sous-entend nécessairement une forme d’évaluation. Il existe plusieurs façons d’évaluer des traductions automatiques qui ont toutes leurs avantages et leurs inconvénients. Dans la plupart des cas, les traductions sont évaluées selon deux critères : la fidélité (fidelity en anglais) au texte source ou l’idiomaticité (fluency en anglais) du texte cible. Pour notre travail, nous avons décidé d’évaluer les traductions que nous avons obtenues avec Google Traduction, Bing et DeepL de deux manières différentes, ce qui nous permettra de nuancer nos résultats puisque les méthodes sélectionnées ne répondent pas à la même demande. La première est une évaluation humaine que nous présenterons en premier lieu (Section 2.4.1). La seconde est une évaluation automatique que l’on appelle BLEU (Section 2.4.2).

L&#039;impact de l&#039;ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon

Master

Reference

L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon

Marie-Zoé Fueter

L’impact de l’ironie sur la traduction automatique

Étude sur un corpus de commentaires Amazon

Directrice : Pierrette Bouillon Jurée : Johanna Gerlach

Déclaration attestant le caractère original du travail effectué

REMERCIEMENTS

TABLE DES MATIÈRES

LISTE DES FIGURES

LISTE DES TABLEAUX

LISTE DES ABRÉVIATIONS

1.INTRODUCTION

1.1 Motivation

1.2 Question de recherche

1.3 Démarche

1.4 Plan

2.LA TRADUCTION AUTOMATIQUE

2.1 Introduction

2.2 Architectures

2.3 Historique

2.4 L’évaluation de la traduction automatique

L'impact de l'ironie sur la traduction automatique : Étude sur un corpus de commentaires Amazon