• Aucun résultat trouvé

La traduction automatique post-éditée d'un jeu vidéo peut-elle rivaliser avec la traduction humaine ? Etude de cas du jeu Divinity : Original Sin 2

N/A
N/A
Protected

Academic year: 2022

Partager "La traduction automatique post-éditée d'un jeu vidéo peut-elle rivaliser avec la traduction humaine ? Etude de cas du jeu Divinity : Original Sin 2"

Copied!
128
0
0

Texte intégral

(1)

Master

Reference

La traduction automatique post-éditée d'un jeu vidéo peut-elle rivaliser avec la traduction humaine ? Etude de cas du jeu Divinity :

Original Sin 2

HERITIER, Annick

Abstract

Le domaine du jeu vidéo connaît un véritable essor depuis plusieurs années, engrangeant des milliards de dollars de bénéfices. Pour rester compétitifs, les studios doivent sortir leurs jeux simultanément sur tous les marchés internationaux (Europe, Asie, Amérique du Nord, etc.). En parallèle, ces studios doivent s'assurer que leurs jeux sont correctement traduits pour éviter une mauvaise publicité, voire l'ire des joueurs et des joueuses. Du côté de la traduction automatique (TA), les systèmes se sont beaucoup amélioré grâce notamment à la TA neuronale, dont le système le plus connu est DeepL. Ce mémoire a pour but d'observer si la TA post-éditée de textes issus d'un jeu vidéo est meilleure que sa traduction humaine « classique » du point de vue de la qualité, du gain de temps de travail et de la préférence des joueurs et des joueuses ainsi que des professionnel(le)s de la traduction.

HERITIER, Annick. La traduction automatique post-éditée d'un jeu vidéo peut-elle rivaliser avec la traduction humaine ? Etude de cas du jeu Divinity : Original Sin 2. Master : Univ. Genève, 2019

Available at:

http://archive-ouverte.unige.ch/unige:114730

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

ANNICK HERITIER

La traduction automatique post-éditée d’un jeu vidéo peut-elle rivaliser avec la traduction humaine ?

Etude de cas du jeu Divinity : Original Sin 2

Directrice de Mémoire : Mme Pierrette Bouillon Jury : Mme Lucía Morado Vázquez

Mémoire présenté à la Faculté de Traduction et d’interprétation (Département TIM) pour l’obtention de la Maîtrise universitaire en traduction, mention technologies de

la traduction

Université de Genève

Session de janvier 2019

(3)

2

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la Faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant‐e‐s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide‐mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis consciente que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Nom et prénom : Annick Héritier

Lieu / date / signature : Lausanne, le 16 janvier 2019

(4)

3

Remerciements

Je tiens avant toute chose à remercier ma directrice de Mémoire, Madame Pierrette Bouillon, qui a su me guider avec patience et bienveillance dès le premier jour où je l’ai contactée au sujet de ce travail. Ses conseils et son expertise ont été des outils précieux qui m’ont beaucoup aidée. Merci aussi à Madame Johanna Gerlach qui a si gentiment pris le temps de répondre à mes e-mails ainsi qu’à Madame Morado Vázquez, qui a accepté de faire partie du jury de ce Mémoire.

Je souhaite ensuite remercier mes cinq traductrices qui ont eu la lourde tâche de traduire et de post- éditer mon corpus de phrases. Sans leur gentillesse et leur ferveur, ce Mémoire n’existerait pas.

Merci aussi à mes cinq juges qui, malgré leur méconnaissance des domaines de la traduction et de la traduction automatique, ont eu la patience et l’enthousiasme nécessaires pour participer à mon évaluation humaine.

Enfin, merci énormément à mes frères, Francis et Pascal, à mes amis, Jérôme, Romain, Martin, Alizée, Manon et Florence pour m’avoir encouragée et rassurée tout au long de la rédaction de ce travail, à Mélissa pour avoir été ma coach personnelle, et à Fred, qui a fait preuve d’énormément de patience et de bienveillance dans tous mes moments de doute.

(5)

4

Table des matières

1. Introduction ... 8

2. La traduction automatique ... 12

2.1. L’histoire de la TA ... 12

2.2. Les différents systèmes de TA ... 18

2.2.1. Les systèmes basés sur les règles ... 19

2.2.2. Les systèmes basés sur les corpus ... 22

2.3. Conclusion ... 31

3. L’évaluation de systèmes de TA ... 32

3.1. L’évaluation humaine ... 32

3.2. L’évaluation automatique ... 36

3.2.1. La précision et le rappel ... 36

3.2.2. Le score Bleu ... 38

3.2.3. Le Word Error Rate (WER) et le Translation Edit Rate (TER) ... 43

3.3. Conclusion ... 45

4. La post-édition ... 46

4.1. Historique et évolution ... 46

4.2. La PE en action : les recommandations du TAUS ... 47

4.3. L’effort de PE ... 49

4.4. Les compétences d’un bon post-éditeur ... 50

4.5. Conclusion ... 52

5. La TA et le jeu vidéo ... 53

5.1. Etat de l’art ... 53

5.1.1. Hevia (2007) ... 54

5.1.2. Bernal-Merino (2015) ... 55

5.1.3. Fung (2012) ... 58

5.2. Conclusion ... 60

6. Méthodologie et résultats ... 61

6.1. Choix du jeu ... 61

6.2. Collecte du corpus ... 62

6.3. Analyse de la TA brute ... 63

6.4. La traduction ... 64

6.4.1. Choix des traductrices ... 64

6.4.2. Mise en place du projet et traduction... 65

6.4.3. Temps, difficultés et ressenti ... 66

6.4.4. Conclusion ... 67

(6)

5

6.5. La post-édition ... 68

6.5.1. Présentation du logiciel de PE : Matecat ... 68

6.5.2. Création des projets avec Matecat ... 68

6.5.3. Résultats de la PE et effort de PE ... 70

6.5.4. Comparaison des temps de traduction et de PE et ressenti ... 71

6.6. Conclusion ... 72

6.7. Qualité de la traduction ... 73

6.7.1. Le score Bleu ... 73

6.7.2. Le score TER ... 77

6.7.3. Conclusion ... 78

6.8. L’évaluation humaine ... 78

6.8.1. Choix des juges ... 78

6.8.2. La plateforme du TAUS ... 79

6.8.3. Résultats de l’évaluation humaine comparative ... 79

6.8.4. Le score Kappa ... 80

6.8.5. Commentaires des juges ... 80

6.8.6. Analyse des traductions finales ... 82

6.8.7. Conclusion ... 83

7. Conclusion du travail ... 85

8. Bibliographie et webographie ... 88

8.1. Bibliographie ... 88

8.2. Webographie ... 91

9. Annexes ... 92

(7)

6

Liste des abréviations

TA : Traduction automatique

TAN : Traduction automatique neuronale TAS : Traduction automatique statistique TH : Traduction humaine

TAO : Traduction assistée par ordinateur

TEAHQ : Traduction entièrement automatique de haute qualité PE : Post-édition

Liste des tableaux

Tableau 1 : Exemple de résultats d’évaluation humaine (inspiré du cours de TA2 de Mme P.

Bouillon, 2018)

Tableau 2 : Temps pour réaliser la traduction

Tableau 3 : Phrases à traduire et à post-éditer pour chaque traductrice Tableau 4 : Résultats de la PE

Tableau 5 : Résultats du score Bleu avec l’option « lowercase » sélectionnée Tableau 6 : Résultats du score Bleu sans l’option « lowercase » sélectionnée Tableau 7 : Les scores TER

Tableau 8 : Résumé des résultats

Liste des figures

Figure 1: Encyclopédie sur les monstres et les personnages incorporée au jeu The Witcher 3 Figure 2 : Dialogue dans le jeu de plateforme Shovel Knight

Figure 3 : Le triangle de Vauquois

Figure 4 : Architecture d’un système direct (Arnold et al., 1994, p.25)

Figure 5 : Exemple de règles de grammaire d’un système direct (Arnold et al. 2001, p. 26) Figure 6 : Architecture d’un système par transfert (Arnold et al., 1994, p. 68)

(8)

7

Figure 7 : Fonctionnement des systèmes basés sur l’exemple (SL : langue source, TL : langue cible) (Quah, 2006, p. 81)

Figure 8 : Illustration d’une architecture avec codificateur et décodificateur, pour traduire « a black horse » en « un caballo negro » (Nolla & Peris Abril, 2017, p. 70)

Figure 9 : Interface de DeepL

Figure 10 : Exemple d’échelle pour mesurer la fluidité (Koehn, 2009, p. 219) Figure 11 : Exemple d’échelle pour mesurer la pertinence (Koehn, 2009, p. 219)

Figure 12 : Calcul de la précision entre la traduction de référence et deux traductions automatiques (Koehn, 2009, p. 223)

Figure 13 : Illustration de TA (exemple inspiré de Jurafsky & Martin, 2000, p. 40)

Figure 14 : Calcul du nombre de N-grammes entre les traductions automatiques et la référence (Koehn, 2009, p. 226)

Figure 15 : Corrélation entre le score Bleu et des juges monolingues et bilingues anglais-chinois (Papineni et al., 2002, p. 318)

Figure 16 : Exemple de résultats avec le WER (Koeh, 2009, p. 225) Figure 17 : Exemple de dialogue dans Divinity : Original Sin 2

Figure 18 : Exemple de précisions indiquées en italiques à l’intention des traductrices Figure 19 : Graphique sur la comparaison des temps entre la PE et la traduction Figure 20 : Bleu et le sens des mots

Figure 21 : Bleu et les majuscules Figure 22 : Bleu et la conjugaison

Figure 23 : Résumé des choix des cinq juges

(9)

8

1. Introduction

1

L’industrie du jeu vidéo connaît à l’heure actuelle son heure de gloire. Selon le rapport Superdata 20172, les jeux vidéo sur ordinateur ont représenté 33 milliards de bénéfices rien que pour l’année 2017, et c’est sans compter sur les jeux sur mobiles, sur consoles, les jeux à réalité virtuelle, les contenus sur Internet et l’e-sport. Le jeu de rôle Divinity : Original Sin 2 des studios Larian se classe à la neuvième place mondiale des jeux les plus rentables de 2017 avec 85 millions de dollars de recettes. Le jeu vidéo est donc aujourd’hui une industrie de taille non-négligeable, présente sur tous les continents et qui connaît une croissance sans précédent. Comme nous le verrons dans la section sur l’état de l’art (section 5.1), les studios de jeux vidéo ont bien compris que face à la concurrence toujours plus importante qui existe sur le marché, il est aujourd’hui impératif de sortir leurs produits sur l’ensemble des marchés internationaux de manière simultanée. Ceci implique que la traduction et l’internationalisation de leurs jeux doit être d’excellente facture pour éviter l’ire des joueurs et des joueuses ou la catastrophe commerciale, souvent à cause de choix problé- matiques au niveau de la culture ou à cause du non-respect de la traduction des précédents opus d’une licence.

Du côté de la traduction justement, et plus précisément de la traduction automatique (TA) et de la post-édition (PE, décrite à la section 4), les nouveaux systèmes de TA (c’est-à-dire les systèmes de traduction automatique neuronale (TAN, comme Google Translate ou DeepL, que nous décri- rons plus en détails aux sections 2.2.2.3 et 2.2.2.4) ont réalisé d’énormes progrès à l’heure actuelle grâce à leur architecture nouvelle et grâce à leur apprentissage basé sur des corpus gigantesques, à tel point qu’ils proposent des résultats tout-à-fait corrects et bien plus élaborés que les traductions approximatives des premiers systèmes directs (section 2.2.1.1). L’argument principal pour l’utili- sation de la TA couplée à la PE est le gain de temps, et donc d’argent : à première vue, il semble en effet logique que la correction des erreurs de grammaire, de syntaxe, de vocabulaire, etc. d’une traduction prenne moins de temps que la traduction d’un texte en partant de zéro.

1 Note : Ce travail de Mémoire a été rédigé en écritures inclusive et épicène, selon la Brochure des recommandations HES·SO pour une communication épicène.

2 Rapport Superdata 2017: 2017 Year in Review: Digital Games and Interactive Media,

https://www.superdataresearch.com/market-data/market-brief-year-in-review/ (consulté le 26 novembre 2018)

(10)

9

Comme nous le verrons à la section 2.2.2.3, les nouveaux systèmes de TAN sont encore plus effi- caces si l’on se cantonne à les utiliser pour traduire des textes d’un seul type de langue spécialisée, économique par exemple.

Dans le cadre des jeux vidéo, les textes qu’ils contiennent sont a priori plutôt à classer dans la catégorie des textes plus « libres » ou plus « littéraires ». Un jeu vidéo peut avoir pour thème n’importe quel domaine de la vie humaine : la médecine (Theme Hospital), la guerre (notamment les Guerres mondiales, Battlefield 1 ou Warfare 1917 pour la première, Battlefield 1942, Call of Duty ou Castle Wolfenstein pour la seconde), les parcs d’attraction (Roller Coaster Tycoon), l’he- roic fantasy (la série des Elder Scrolls, des Legend of Zelda, The Witcher, Guild Wars, …) et tant d’autres. La taille et la complexité des textes varient également beaucoup selon le type de jeu : un jeu de type « jeu de rôle », où le joueur ou la joueuse incarne un héros dans un certain type d’envi- ronnement (post-apocalyptique dans la série des Fallout, heroic fantasy dans la série des The Wit- cher ou Dragon Age) contiendra généralement beaucoup de textes parce que le personnage incarné par le joueur ou la joueuse interagit constamment avec les personnages qui peuplent l’environne- ment du jeu, et que le but visé est de lui faire ressentir que le monde dans lequel évolue son avatar est vraisemblable, que les personnages ont des vies bien remplies et que les quêtes à compléter ont une importance réelle, comme nous pouvons l’observer dans la capture d’écran de l’encyclopédie des monstres et des personnages du jeu The Witcher 3 (Figure 1) :

Figure 1: Encyclopédie sur les monstres et les personnages incorporée au jeu The Witcher 3 (https://www.nexusmods.com/witcher3/mods/2937, consulté le 17.09.18).

(11)

10

Au contraire, dans un jeu de plateformes (Donkey Kong ou Shovel Knight, Figure 2), où le but du joueur ou de la joueuse est de faire survivre son avatar le plus longtemps possible à travers diffé- rents niveaux en vue de côté et où son habileté est mise à rude épreuve, les textes sont beaucoup plus courts et moins denses car ils ne servent que de prétexte à un environnement qui n’est au final qu’une toile de fond aux plateformes du jeu :

Figure 2: Dialogue dans le jeu de plateforme Shovel Knight (http://scientificgamer.com/thoughts-shovel- knight/, consulté le 17.09.18).

Pour ce Mémoire, nous avons voulu déterminer s’il serait intéressant pour un studio de jeux vidéo de se tourner vers la TA post-éditée pour optimiser la traduction de l’un de ses jeux, plutôt que de recourir à une traduction humaine (TH) « classique ». Nous avons cherché à savoir d’une part si la TA post-éditée était plus rapide à réaliser que la TH, mais aussi d’autre part si la TA post-éditée était préférée à la TH au niveau du sens, du style, et de la fidélité au texte source. Nous revenons plus en détails sur le choix de ce jeu à la section 6.1.

Pour répondre à ces questions, nous avons employé une méthodologie (décrite en détails à la sec- tion 6) qui se découpe en plusieurs parties : nous avons d’abord demandé à cinq traductrices de traduire notre corpus de textes (section 6.4), puis nous leur avons demandé de post-éditer les seg- ments traduits automatiquement au préalable par DeepL (section 6.5), avant de comparer leurs temps de travail entre la traduction et la PE (section 6.5.4), afin de voir si la PE prenait moins de temps à faire que la traduction. Ensuite, nous sommes passées à l’évaluation de la qualité des tra-

(12)

11

ductions humaine et automatique, en procédant à trois évaluations distinctes pour comparer plu- sieurs résultats et avoir une vue d’ensemble plus objective : les deux premières sont des évaluations automatiques, le score Bleu (section 6.7.1) et le score TER (section 6.7.2), et la dernière est une évaluation humaine réalisée par cinq juges (section 6.8).

Nous avons choisi de nous pencher sur le jeu Divinity : Original Sin 2. Il s’agit d’un jeu de rôles à la troisième personne se déroulant dans un univers fantastique type heroic fantasy. Le personnage du joueur ou de la joueuse contrôle la Source, qui lui confère d’impressionnants pouvoirs magiques mais qui l’ont rendu prisonnier des Magisters sur un navire en direction de Fort Joie, une énorme prison à l’air libre. Sur le bateau, le personnage rencontrera d’autres captifs comme Lohse, une magicienne possédée par un démon ou Sébille, une elfe avide de vengeance. Après le naufrage du navire sur une île inconnue, le joueur ou la joueuse devra choisir des alliés parmi les survivants pour commencer son aventure épique et tenter d’en savoir plus sur la Source et de vaincre les Magisters. Nous avons choisi ce jeu pour plusieurs raisons : comme nous l’avons déjà mentionné, il s’agit d’une part de l’un des plus gros succès de l’année 2017, ce qui garantissait que nous nous intéressions à un jeu de qualité. D’autre part, il contient de très nombreux dialogues denses et bien écrits, ce qui nous a permis d’élaborer un corpus intéressant et, enfin, nous connaissons très bien le jeu pour y avoir joué de nombreuses heures, tout comme d’autres personnes de notre entourage, ce qui a rendu la recherche de juges connaissant le jeu plus facile.

Dans ce travail, nous allons d’abord revenir sur l’histoire et l’évolution de la TA à travers les âges (section 2.1), puis nous décrirons les différents types de systèmes de TA (section 2.2). Ensuite, nous parlerons des différentes manières d’évaluer la qualité de la TA (section 3) et nous nous at- tarderons également sur la PE (section 4). Nous reviendrons sur l’état de l’art de la TA et du jeu vidéo (section 5), puis nous passerons à la partie pratique de ce travail : nous décrirons notre mé- thodologie et les résultats obtenus (section 6), et plus précisément le déroulement de la traduction (section 6.4) et de la PE (section 6.5) de notre corpus, avant de passer aux évaluations automatiques puis humaine (section 6.7). Nous résumerons l’analyse de nos résultats et tenterons d’en tirer une conclusion au terme de ce travail (section 7).

(13)

12

2. La traduction automatique

Nous allons aborder ce travail en parlant des différents aspects de la TA. Nous commencerons avec son histoire (section 2.1), puis les différents systèmes de TA (section 2.1), et enfin le système de TA neuronal avec lequel nous avons décidé de travailler pour ce Mémoire, DeepL (section 2.2.2.4).

2.1. L’histoire de la TA

L’être humain rêve depuis des siècles de pouvoir comprendre ses contemporains s’exprimant dans une langue étrangère sans délai et sans effort, c’est-à-dire de manière automatique. Reconnaissance vocale, interprétation et bien sûr, systèmes de TA, sont autant d’outils développés dans un idéal bien précis : la TA devrait être de qualité équivalente à la TH, et elle devrait demander moins d’effort aux professionnel-le-s ou aux néophytes que si l’un-e ou l’autre traduisait un texte de ma- nière plus conventionnelle (c’est-à-dire sans recourir à des machines mécaniques ou informatiques) (Hutchins, 1995, p. 95).

L’aventure de la TA commence au XVIIe siècle, où il a été suggéré pour la première fois d’utiliser des dictionnaires « mécaniques ». Elle continuera bien plus tard, au XXe siècle, avec des brevets enregistrés en 1933 par le franco-arménien George Artsrouni et le Russe Petr Smirnov-Troyanskii, qui imaginèrent un dispositif de stockage capable de trouver une équivalence à n’importe quel mot dans une autre langue donnée, et dont un prototype aurait été présenté en 1937. Troyanskii pour- suivit le travail, rêvant à une traduction multilingue, et poussa son idée de traduction mécanique plus loin, en la découpant en trois étapes : premièrement, un rédacteur ou une rédactrice ne con- naissant que la langue-source procéderait à l’analyse « logique » et syntaxique des mots ; ensuite, la machine transformerait ces séquences en séquences équivalentes dans la langue-cible ; enfin, un second rédacteur ou une seconde rédactrice, ne connaissant que la langue cible, se chargerait de

« remodeler » ces séquences en séquences qui respecteraient la grammaire et le flux de sa langue.

Son brevet ne concernait que la deuxième étape de ce processus, mais Troyanskii était convaincu que l’analyse logique de la première et dernière étape pourrait aussi être mécanisée (Hutchins, 1995, pp. 96-97).

Loin de la Russie, Andrew D. Booth, un cristallographe anglais, travailla à la mécanisation d’un dictionnaire bilingue et collabora avec Richard H. Richens, de l’Université de Cambridge, qui créa des cartes perforées pour produire des traductions littérales d’articles scientifiques (Arnold et al.,

(14)

13

2001, p. 13). Booth fit part de ses recherches à Warren Weaver, un Américain, qui coucha sur papier dans une de ses notes en 1949 l’idée, pour traduire du russe, de procéder comme suit:

“I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.” (Arnold et al., 2001, p. 12).

Pour la première fois, on imagine un parallèle entre la traduction, un processus complexe, subtil et où il n’existe pas une seule solution toute faite à un problème, et le décryptage, une opération qui est aussi complexe mais qu’on peut réduire à l’idée qu’il existe, pour chaque élément, au moins une équivalence. Weaver imagina différentes méthodes basées sur les statistiques, les techniques de cryptographies utilisées pendant la guerre et les recherches sur la logique et les propriétés fon- damentales et communes à toutes les langues humaines. Cet écrit est à l’origine d’une véritable révolution dans le domaine dans les années 50 en Europe et aux Etats-Unis : on commença toutes sortes de recherches académiques, on créa des chaires spécialisées, on engagea des participant-e-s pour préparer les textes à traduire automatiquement et pour réviser les résultats obtenus, on chercha des fonds et on milita pour une recherche sur le long terme (Hutchins, 1995, p. 98).

Dans les années 50 et 60, le succès fut au rendez-vous, malgré le fait que les chercheurs et les chercheuses étaient divisé-e-s sur l’approche à utiliser pour leurs travaux : la première était empi- rique, c’est-à-dire basée sur le tâtonnement et l’analyse d’essais et d’erreurs (que l’on accusait d’être trop rudimentaire) ; la seconde était théorique, concentrée sur la linguistique et dont le but était de trouver des solutions sur le long terme (que l’on trouvait trop perfectionniste) (Hutchins, 1995, pp. 98-99).

Malgré cette scission, de nombreuses avancées ont été réalisées, dont nous ne citerons que quelques-unes. Le groupe de recherche d’Erwin Reifler de l’Université de Washington par exemple, ont créé d’énormes dictionnaires bilingues dont les entrées spécifiaient non seulement les équivalents lexicaux, mais aussi des règles pour corriger les traductions produites par la TA, des mots monosémiques pour traduire les mots polysémiques, et l’inclusion de cooccurrences et de collocations. Ce système, bien que rudimentaire et produisant des traductions littérales et souvent à peine compréhensibles, fut utilisé pendant des années par l’armée de l’air américaine, et ne fut remplacé par Systran qu’en 1970. A la Georgetown University, le groupe de recherche de Leon

(15)

14

Dostert créa la Georgetown Automatic Translation (GAT), un système basé sur trois niveaux d’ana- lyse : morphologique (y compris l’identification de locutions verbales), syntagmatique (colloca- tions, cooccurrences, etc.) et syntaxique (sujets et prédicats, propositions subordonnées, etc.). Le système fut installé dans des laboratoires de recherche en Italie et aux Etats-Unis en 1963. En Europe, Margaret Masterman et ses collègues de Cambridge se concentrèrent sur le développement d’un prototype de traduction mot-à-mot et d’outils visant à améliorer les traductions issues de la TA, en créant notamment des réseaux sémantiques à partir de dictionnaires de synonymes (Hut- chins, 1995, pp. 98-100).

Partout, de nouvelles découvertes furent publiées, les résultats semblaient à la hauteur des espé- rances, et les chercheurs et les chercheuses étaient optimistes. Cependant, plus l’on apprenait à connaître le domaine, et plus sa complexité et ses obstacles devinrent évidents. En 1960, le premier chercheur en TA engagé au Massachusetts Institute of Technology (MIT) critiqua dans un rapport l’obsession générale d’atteindre une traduction entièrement automatisée et dont la qualité des ré- sultats serait parfaitement identique à la TH. Selon lui, cette qualité serait impossible à atteindre au niveau des systèmes informatiques et des connaissances linguistiques, mais aussi sur le fond. Il prit comme exemple le mot pen, qui peut signifier un outil pour écrire, ou un enclos pour animaux ou pour enfants. Dans la phrase, The box was in the pen, un humain sait que la seule traduction possible est la seconde, de par sa connaissance du monde réel et, en l’occurrence, des tailles des objets.

Selon le chercheur, il serait impossible d’encoder ces informations du monde réel pour qu’elles puissent être traitées par un logiciel informatique ; la recherche devrait donc se diriger plutôt vers une collaboration moins ambitieuse entre l’humain et la machine (Hutchins, 1995, pp. 100-103).

En 1966, la commission ALPAC (Automatic Language Processing Advisory Committee) publia son rapport sur l’état de la recherche. Pour elle, la TA était moins rapide, moins bonne et deux fois plus chère que la TH et n’avait aucun avenir sur le court ou sur le long terme. Elle préconisa le développement d’outils d’aide à la traduction tels que des dictionnaires automatiques et la poursuite de la recherche en linguistique informatique. Le rapport fut qualifié de biaisé, incomplet et alar- miste, mais les travaux des chercheurs et des chercheuses aux Etats-Unis furent malgré tout stoppés pendant plus de 10 ans. Durant cette période, ce sont d’autres entités que les universités qui s’inté- ressèrent au sujet, comme l’Eglise mormone dans le but de traduire la Bible. Ailleurs, où les besoins de TA dépassaient le champ d’action des Etats-Unis (concentrés sur la traduction scientifique et

(16)

15

technique du russe vers l’anglais), on continua certains travaux. Ainsi, au Canada, le groupe TAUM de Montréal créa le système METEO spécifiquement pour la traduction de bulletins météorolo- giques ; en France, le groupe GETA de l’Université de Grenoble développa une langue intermé- diaire pour traduire des textes de mathématiques et de physique du russe vers le français. Mais il fallut attendre la fin des années 1970 pour observer un réel regain d’intérêt global pour la TA (Hutchins, 1995, pp. 103-105).

En 1970, l’Institut Textile de France présente TITUS, un système multilingue capable de traduire à partir d’un langage contrôlé3, et en 1972, l’Université Chinoise de Hong Kong annonce CULT, un système de traduction directe (voir la section 2.2.1.1 sur les systèmes directs) qui traduisait les textes mot-à-not et nécessitait une pré-édition et une PE extensives. Mais c’est surtout l’installation de Systran par l’Air Force américaine en 1970 et en 1976 par les Communautés européennes qui marquera l’avènement de la TA. Systran était à la base un système de traduction directe (voir sec- tion 2.2.1.1) développé par Petr Toma, utilisé pour la traduction du russe vers l’anglais. Il a rapi- dement été amélioré, notamment pour traduire d’autres langues européennes, et a été utilisé entre autres par l’OTAN, Aérospatiale, et General Motors of Canada. L’Organisation panaméricaine de la santé (PAHO) développa SPANAM pour la TA de l’espagnol et de l’anglais, et l’Air Force finança la recherche du système METAL de l’Université du Texas, le système de TA le plus so- phistiqué et le plus répandu à cette époque. Parallèlement, la TA a aussi connu un certain essor au Japon, où étaient implantées la plupart des entreprises informatiques qui développaient les logiciels pour la traduction assistée par ordinateur (TAO). Ces compagnies se concentraient évidemment sur la traduction de langues asiatiques, mais ne perdaient pas de vue l’attrait du marché occidental. La plupart de leurs systèmes de TA, qui nécessitaient une importante pré-édition et PE humaines, fonctionnaient par transfert (voir la section 2.2.1.2. pour les systèmes de traduction indirects par transfert) et se limitaient à une analyse morphologique et syntaxique, avec peu ou prou d’efforts fournis pour résoudre les ambigüités lexicales (Hutchins, 1995, p. 106).

Dès les années 1980, la recherche se concentra sur trois points : le développement de systèmes de transfert (voir la section 2.2.1.2.) avancés ; le développement de nouveaux modèles de système d’interlangue ; et les expériences sur l’intelligence artificielle. L’un des plus célèbres projets était

3 Un langage ou une langue contrôlée est un sous-ensemble d’une langue naturelle, dont on a simplifié la grammaire et le vocabulaire pour rendre les textes moins complexes et moins ambigus (Ryan, 2009, p. 57).

(17)

16

Eurotra, des Communautés européennes. Le but d’Eurotra était de stimuler la recherche dans le domaine (et cela fut le cas) et d’atteindre une TA avancée pour toutes les langues de ces Commu- nautés, mais le projet ne parvint pas à aboutir à un prototype fonctionnel (Hutchins, 1995, pp. 106- 107).

Jusqu’à la fin des années 1980, la recherche en TA se concentrait sur des règles linguistiques. Dès 1989, de nouvelles méthodes de TA émergèrent, basées sur les corpus, à savoir les systèmes statis- tiques (TAS, section 2.2.2.2). Deux évènements majeurs contribuèrent à l’essor de la TAS. Pre- mièrement, IBM publia en 1988 un rapport sur la TAS qui présentait de très bons résultats et qui inspira beaucoup d’autres groupes de recherche à continuer sur la voie de ces méthodes, dont la caractéristique principale est qu’elles ne font pas appel à des règles pour l’analyse de textes ou la sélection d’équivalents lexicaux. Deuxièmement, Makoto Nagao proposa en 1984 une approche basée sur l’exemple (section 2.2.2.1), en préconisant l’utilisation de corpus composés de véritables traductions réalisées par des professionnel-le-s, garantissant des résultats pertinents et surtout, très idiomatiques (Hutchins, 1995, pp. 107-110).

L’une des conséquences du développement de cette méthode basée sur l’exemple (section 2.2.2.1) est que dans les années 1990, on essaya davantage de générer des textes en langue cible de bonne qualité qu’auparavant, au lieu de se soucier uniquement de l’analyse, de la désambigüisation et de l’identification des référents pronominaux. On notera également que l’on commença à travailler sur la reconnaissance vocale, et que la recherche sur la TA se développa partout à travers le monde (notamment en Chine, à Taiwan, en Corée, en Inde, en Asie du Sud-Est, ainsi qu’en Europe de l’Est) (Hutchins, 1995, pp. 110-111).

A cette époque, l’utilisation de la TA s’était vraiment répandue, surtout dans les agences commerciales, les services d’Etat et les entreprises multinationales, qui produisaient toutes énormément de traductions issues du domaine technique. En outre, ce sont aussi les entreprises informatiques cherchant à conquérir les marchés internationaux qui ont donné une impulsion importante à la TA, car leurs logiciels et la documentation les accompagnant devaient absolument être traduits vite et bien si ces entreprises souhaitaient rester compétitives. De plus, les compagnies qui proposaient de localiser ces produits étaient également clientes de la TA. Dans ces contextes, les utilisateurs et les utilisatrices de TA n’étaient généralement pas des traducteurs ou des traductrices professionnel-le-s (sauf dans le cas de la localisation), et le but n’était pas de parvenir

(18)

17

à une traduction équivalente à la TH, mais plutôt de traduire en masse ces textes issus du domaine technique. Ce sont ces marchés qui intéressèrent principalement Systran, METAL, Logos et ATLAS, qui traduisirent en 1993 environ 300 millions de mots par année. Quant aux professionnel- le-s de la traduction, leur intérêt principal résultait de leur besoin d’outils pour les assister dans leur travail, comme les dictionnaires et banques terminologiques en ligne, que la TA aida à développer grâce à la recherche sur l’alignement de textes bilingues, qui permit aux professionnel-le-s de conserver et d’accéder à des textes déjà traduits pour les réutiliser, les réviser ou les utiliser comme exemples dans d’autres textes, un processus que l’on connaît aujourd’hui sous le nom de « mémoire de traduction ». En parallèle de cette utilisation répandue de la TA, des entreprises japonaises comme Toshiba ou Mitsubishi développèrent aussi des systèmes de TA utilisables sur des ordinateurs privés ; Systran et ATLAS leur emboîtèrent le pas en proposant des versions PC de leurs logiciels. On chercha aussi à élargir le champ de la TA à d’autres domaines que celui de l’informatique ou de la technique, parfois pour le compte d’une entité privée (comme TRADEX pour l’Armée française ou ARGO pour les domaines économique et financier) (Hutchins, 1995, pp. 112-113).

Plus récemment encore, c’est le développement de plateformes de TA disponibles gratuitement en ligne qui ont le plus fait parler d’elles, dont Google Translate et DeepL (section 2.2.2.4) sont les systèmes les plus connus et les plus avancés. Ces systèmes se basent aujourd’hui sur les recherches en reconnaissance vocale menées pendant les années 1990, et utilisent les techniques d’intelligence artificielle, d’apprentissage profond (deep learning) et de réseaux neuronaux pour produire des traductions jugées souvent comme bonnes voire très bonnes (Hutchins, 1995, p. 113, voir section 2.2.2.3).

En conclusion, l’évolution de la TA à travers les âges prouve qu’il existe un réel engouement à son sujet. En parallèle du développement des technologies, de l’informatique et, plus récemment, de l’intelligence artificielle, subsiste une envie de comprendre l’autre et de pouvoir échanger rapide- ment sur tous les sujets, qui se traduit entre autres par une envie d’automatiser le processus de traduction. Le développement des systèmes de TA successifs prouve que ce phénomène n’est pas qu’un effet de mode et qu’il ne doit pas être pris à la légère, surtout par les professionnel-le-s de la traduction. Cela ne veut toutefois pas dire qu’il faut se méfier des avancées technologiques de la TA ou abandonner une carrière dans la traduction, mais plutôt qu’accepter son succès, comprendre

(19)

18

ses rouages et essayer de conjuguer intelligemment traduction classique et outils informatiques sont sûrement les clés du traducteur des temps modernes (Hutchins, 1995, pp. 113-115).

Dans cette première section, nous sommes revenus sur l’histoire de la TA et sur son évolution (section 2.1). Nous avons évoqué les premiers systèmes directs, puis les systèmes statistiques plus élaborés, et enfin les systèmes les plus récents comme DeepL ou Google Translate, basés sur l’ap- prentissage machine et les réseaux neuronaux. Nous allons à présent revenir en détail sur ces dif- férents types des systèmes de TA (section 2.2), en commençant par décrire plus en détail les sys- tèmes basés sur les règles (section 2.2.1) et sur les corpus (section 2.2.2.), avant de nous concentrer sur le système neuronal à l’étude, DeepL (section 2.2.2.4).

2.2. Les différents systèmes de TA

Il existe plusieurs nomenclatures pour classer les systèmes de TA, selon qu’ils sont bilingues ou multilingues, selon qu’ils traduisent dans un seul sens (unidirectionnels) ou dans plusieurs (multi- directionnels), ou selon le type de données utilisées pour la traduction : soit le système se base sur des règles (morphologiques ou syntaxiques), soit il se base sur des informations non linguistiques, comme des corpus de textes (Bouillon et Clas, 1993). L’image du triangle de Vauquois (Figure 3) est la plus communément utilisée pour rendre compte des différentes manières dont il est possible aujourd’hui de passer d’un texte source à un texte cible, que nous décrirons dans les sections ci- après :

Figure 3: Le triangle de Vauquois (https://fr.wikipedia.org/wiki/Traduction_automatique, consulté le 22.12.18)

(20)

19

2.2.1. Les systèmes basés sur les règles

Les systèmes basés sur les règles englobent les systèmes directs et indirects, que nous allons décrire ci-après aux sections 2.2.1.1. et 2.2.1.2.

2.2.1.1.

Les systèmes directs

L’idée de l’architecture des premiers systèmes directs (Figure 4) est d’utiliser un dictionnaire pour remplacer chaque occurrence en langue source par un équivalent en langue cible, puis de modifier le résultat obtenu pour qu’il respecte les règles de la langue cible (Arnold et al., 1994, p. 25). Ce dictionnaire contient des informations monolingues (catégorie grammaticale, type de flexions pos- sibles pour le mot, rection, type sémantique, …) pour que le système comprenne la phrase source, et bilingues pour qu’il procède à sa traduction (les tests et les actions, et les traductions des expres- sions). On citera comme exemples de systèmes directs Systran et Reverso.

Figure 4: Architecture d’un système direct (Arnold et al., 1994, p.25)

La traduction se fait en plusieurs étapes. La première consiste à séquencer la phrase source pour distinguer chacun des mots qui la composent, puis de procéder à leur analyse morphologiques pour

(21)

20

leur attribuer à chacun une catégorie grammaticale grâce à un dictionnaire unilingue. Lors de la deuxième étape, le système choisit une traduction pour chacun des mots, en utilisant un dictionnaire bilingue (Jurafsky & Martin, 2000, pp. 815-818). Le but est de chercher des équivalents pour chaque mot dans le dictionnaire, dont les entrées peuvent ressembler à celles-ci (Figure 5):

Figure 5: Exemple de règles de grammaire d’un système direct (Arnold et al. 2001, p. 26)

Ici, si le système a déterminé lors de l’analyse que « Knopf » était un nom (cat=n), alors il le traduira par « button » en anglais (Arnold et al., 1994, p. 26). Enfin, la dernière étape consiste à réarranger les mots dans la langue cible pour correspondre à sa grammaire (Jurafsky & Martin, 2000, p. 818).

Dans la pratique, ces systèmes sont les moins sophistiqués du marché. Ils sont adaptés à des paires de langues proches (Quah, 2006, p. 69), proposent une traduction très littérale, mot-à-mot, n’ont généralement pas de grammaires très complètes pour la langue source, et se contentent d’une com- préhension minimale de la phrase : en effet, ils ne procèdent pas automatiquement à une analyse complète de la phrase source, se contentent d’une analyse lexicale en surface, et doivent être com- plétés avec beaucoup de règles spécifiques pour pouvoir faire face aux moindres structures de phrases complexes, ce qui les rend difficiles à compléter ou à modifier (Jurafsky & Martin, 2000, p. 160).

2.2.1.2.

Les systèmes indirects

Les systèmes indirects ou linguistiques reposent sur le principe selon lequel une traduction perti- nente implique des connaissances linguistiques sur la langue source et cible ainsi que sur leurs différences. Ils vont plus loin que l’analyse lexicale des systèmes directs, en effectuant une analyse syntaxique complète, qui leur permettra de créer une représentation de la phrase source. Ainsi, au moment de traduire, ils ne traduiront pas des mots, mais des représentations. Celles-ci prennent typiquement la forme d’arborescences (Hutchins & Somers, 1992, p. 109).

(22)

21

Pour ce faire, ces systèmes utilisent d’abord une grammaire importante de chaque langue à traduire.

Chacune de ses grammaires est composée d’un ensemble de règles spécifiques et indépendantes à chaque langue (pour une traduction de l’allemand vers l’anglais, on aura une grammaire allemande et une grammaire anglaise), qui leur sert à analyser et à représenter les phrases source et cible, et à produire une traduction à partir de cette représentation. Ils emploient également une seconde gram- maire comparative pour relier chaque représentation d’une phrase source à sa représentation cor- respondante en langue cible, qui serviront toutes deux de base pour la traduction finale. Pendant longtemps, c’étaient les seuls systèmes utilisables pour faire de la TEAHQ dans des domaines spé- cialisés (comme le système METEO pour la météorologie) (L’Homme, 2008, p. 3).

Il existe deux catégories principales de systèmes indirects : les systèmes par interlangue et les sys- tèmes par transfert. Les systèmes indirects par interlangue se basent sur la théorie de la grammaire transformationnelle de Chomsky selon laquelle toutes les langues ont des points communs dans leur structure profonde, malgré des différences dans leurs structures « de surface » (dans une même langue par exemple, les paraphrases diffèrent dans leurs structures de surface, mais pas dans leurs structures profondes, c’est-à-dire dans leur signification). Ces structures profondes peuvent donc être imaginées en tant que représentations sémantiques universelles. De fait, ces systèmes analysent la phrase source (la structure de surface) et en produisent une représentation contenant toutes les informations nécessaires (la structure profonde) pour générer directement une phrase cible (une structure de surface) (Hutchins, 1982, p. 25).

Pour les systèmes indirects par transfert, chaque langue possède sa propre représentation de struc- ture profonde, et la traduction se fait en trois étapes, décrites dans la Figure 6:

(23)

22

Figure 6: Architecture d’un système par transfert (Arnold et al., 1994, p. 68)

A partir d’un texte source, le système va procéder à son analyse (étape d’analysis) grâce à la grammaire de la langue source, et résoudre ses éventuelles ambigüités syntaxiques et lexicales.

Ensuite, le système va transférer sa représentation source en représentation en langue cible (étape de transfer), et enfin changer cette représentation en langue cible en phrase en langue cible, en utilisant la grammaire de la langue cible (étape de synthesis) (Arnold et al., 1994, p. 68).

2.2.2. Les systèmes basés sur les corpus

Au contraire des systèmes directs (section 2.2.1.1) et indirects (section 2.2.1.2) que nous venons d’aborder, les systèmes basés sur les corpus ne s’appuient pas sur des données linguistiques pour effectuer la traduction, mais plutôt sur des corpus bilingues. L’idée de ces systèmes est de se baser sur des traductions qui ont déjà été réalisées pour en produire de nouvelles par analogie. Ces sys- tèmes utilisent soit une approche basée sur l’exemple (section (section 2.2.2.1), soit une approche statistique (section 2.2.2.2) (Bouillon & Clas, 1993, p. 16). Il existe également depuis peu des sys- tèmes utilisant des réseaux neuronaux (section 2.2.2.3), comme DeepL (section 2.2.2.4).

(24)

23

2.2.2.1.

Les systèmes basés sur l’exemple

Les systèmes basés sur l’exemple utilisent des exemples préexistants pour produire une nouvelle traduction par analogie(Bouillon & Clas, 1993, p. 16) ; les exemples sont sélectionnés grâce à un algorithme et peuvent varier en taille, bien qu’il s’agisse généralement de phrases (Arnold et al., 1994, p. 182). Généralement, le système se basera sur plusieurs traductions préexistantes pour tra- duire une seule phrase source : par exemple, pour traduire la phrase She sells flowers in the farmers’

market everyday, le système se basera sur la traduction de The lady in the farmers’ market is my cousin et sur la traduction de She sells flowers everyday pour aboutir au résultat final (Quah, 2006, p. 82).

La traduction s’effectue en trois étapes principales : comparaison des segments du texte source avec des exemples du corpus bilingue, alignement des segments correspondants, et recombinaison de ceux-ci pour produire le texte-cible (cf. Figure 7) :

Figure 7: Fonctionnement des systèmes basés sur l’exemple (SL : langue source, TL : langue cible) (Quah, 2006, p. 81)

L’approche basée sur l’exemple ressemble beaucoup à la logique des mémoires de traduction, à la différence près que seuls les systèmes de TA sont capables d’extraire plusieurs exemples pour traduire une unique phrase source (Quah, 2006, p. 83).

Notons toutefois que si aucune correspondance étroite n’est trouvée dans le corpus bilingue ou si la phrase source est très imagée ou métaphorique, la traduction produite par ces systèmes basés sur l’exemple risque d’être inexacte. De plus, l’algorithme utilisé par ces systèmes compare des mots selon leur proximité de sens, mais les langues qui « collent » plusieurs morphèmes ensemble pour exprimer des réalités distinctes (comme le turc, le hongrois, le swahili ou le malais) rendent ce processus de comparaison plus complexe (Quah, 2006, pp. 83-84).

(25)

24

2.2.2.2.

Les systèmes statistiques

Les systèmes de TA statistique (TAS) utilisent un corpus bilingue pour trouver une phrase cible qui est la plus susceptible d’être une traduction correcte de la phrase source en termes de probabilité (Arnold et al., 1994, p. 169). Leur fonctionnement est le suivant : les segments qui composent le texte source sont comparés à un important corpus bilingue aligné composé de textes sources et de leurs traductions. On utilise ensuite une méthode statistique sur ce corpus bilingue aligné pour obtenir de nouveaux segments cibles, à partir desquels on produira le texte cible (Quah, 2006, p.

77). L’hypothèse sur laquelle repose le fonctionnement des systèmes de TAS est qu’une phrase source peut avoir bien plus qu’une seule traduction adéquate. L’algorithme utilisé va sélectionner la traduction qu’il considère comme étant la meilleure, en combinant deux composants : les infor- mations de son modèle de traduction et les informations de son modèle linguistique (Quah, 2006, p. 78).

La TAS offre des résultats de haute qualité, et a dominé le marché et la recherche de la TA en moins de deux décennies. Toutefois, l’importance des corpus utilisés est très grande car leur qua- lité, leur quantité et le domaine qu’ils recouvrent sont déterminants pour produire de bonnes tra- ductions (Lopez, 2008, p. 12).

Le premier avantage de ce type de systèmes est très vite apparu : il est en effet possible, si l’on dispose d’un corpus parallèle suffisamment large, de développer des systèmes de TAS pour de nouvelles paires de langues très variées en l’espace de quelques semaines, voire quelques jours seulement. En outre, la qualité des traductions du système de TAS s’améliorera à mesure que l’on complètera le corpus, sans que l’on ait besoin de retoucher au fonctionnement de base du système (Arnold et al., 1994, p. 170).

Plusieurs facteurs sont à retenir pour expliquer le succès du développement de ces systèmes de TAS :

1. L’essor d’internet et la dissémination d’informations multilingues font que les gouvernements, les agences de presse et les entreprises privées ont toutes dû se faire une place sur le marché mondial, et ont donc dû commencer à chercher des moyens de traduire leurs textes rapidement et à moindre coût. En parallèle, ce sont aussi les chercheurs et les chercheuses qui ont accès à pléthore de nouveaux textes, issus de la vie quotidienne de

(26)

25

milliers de personnes sur Internet, qui composent des corpus qui reflètent véritablement l’utilisation de la langue à travers le monde.

2. D’autres consommateurs et consommatrices de traduction dont la demande et l’intérêt pour la TA ont fortement augmenté sont les agences de renseignement, les chercheurs et les chercheuses et les internautes occasionnel-le-s, qui sont à la recherche d’informations dans d’autres langues que dans leur langue maternelle, devenues beaucoup plus accessibles à l’ère d’Internet. Le gouvernement américain par exemple, a financé des études de TA afin de promouvoir ses intérêts sur la scène internationale.

3. Internet n’aurait pas pu se développer sans matériel informatique, qui se vend aujourd’hui rapidement et bon marché. Vitesse du processeur, taille de la mémoire, stockage secondaire (sur le Cloud par exemple), mise en réseau d’informations et de partage (grid computing) sont autant d’éléments fonctionnant avec énormément de données et de statistiques et qui ont donc tous contribué à l’essor de la TAS.

4. Avec le développement de la TA, il a fallu aussi créer des méthodes pour évaluer la qualité des différents systèmes mis en place, ce qui a donné lieu à de nombreux nouveaux systèmes de TA et surtout à beaucoup de concurrence sur le marché et entre les groupes de recherche (Arnold et al., 1994, p. 172).

2.2.2.3.

Les systèmes neuronaux

Comme il s’agit d’un des types de TA les plus récents, la littérature est plus succincte au sujet des systèmes neuronaux.

La TAN est un type de TAS qui propose des résultats meilleurs que cette dernière. Elle se base sur les réseaux neuronaux artificiels (RNA) et l’apprentissage machine (deep learning). C’est un type de TA très récent, car il a fallu attendre des nouveaux composants informatiques, processeurs et architectures neuronales assez puissantes pour pouvoir développer des systèmes offrant des résul- tats intéressants. En effet, l’entraînement de ces systèmes et la traduction sont très coûteux et né- cessitent l’utilisation de processeurs graphiques (GPU) puissants (Nolla & Peris Abril, 2017, p.

68).

(27)

26

La caractéristique principale de la TAN est que les mots et les phrases sont représentés numérique- ment grâce à des vecteurs. Cette avancée a permis l’utilisation de puissantes techniques d’appren- tissage machine comme les réseaux neuronaux évoqués, que nous allons décrire plus avant (Nolla

& Peris Abril, 2017, p.69).

Un réseau neuronal est un ensemble de neurones artificiels interconnectés, dont la fonction est d’apprendre par l’expérience. Le modèle le plus connu de réseau neuronal est le modèle du percep- tron : il se compose de couches neuronales dont les sorties d’une couche sont également les entrées de la couche suivante. Il existe aussi ce que l’on appelle les réseaux neuronaux récurrents, dans lesquels les neurones se réalimentent grâce à leurs propres sorties. Les poids des connexions de ces réseaux sont estimés à partir d’un corpus d’entraînement qui utilise un algorithme très connu, l’al- gorithme de rétro-propagation d’erreur (Nolla & Peris Abril, 2017, pp. 69-70).

L’architecture la plus utilisée pour implémenter l’algorithme est basée sur un codificateur suivi d’un décodificateur. Le codificateur est un réseau neuronal qui analyse de gauche à droite et de droite à gauche la phrase source afin d’en produire une représentation vectorielle. Le décodificateur est aussi un réseau neuronal qui va générer un mot cible à partir de plusieurs éléments : le mot source et la représentation de la phrase source dans son ensemble obtenue lors du codage, comme l’illustre la Figure 8 (Nolla & Peris Abril, 2017, pp. 70) :

Figure 8: Illustration d’une architecture avec codificateur et décodificateur, pour traduire « a black horse » en « un caballo negro » (Nolla & Peris Abril, 2017, p. 70)

(28)

27

Généralement, les systèmes de TAN génèrent plusieurs mots cible pour un même mot source, ce qui donne lieu à une recherche de la meilleure traduction possible sous forme d’arbre, qu’il est possible de contrôler en éliminant les branches de l’arbre qui ne semblent pas donner de traductions pertinentes (Nolla & Peris Abril, 2017, p. 71).

L’une des avancées principales des systèmes de TAN est qu’ils sont capables de traduire des blocs de phrases en idées ou en concepts (la représentation vectorielle évoquée plus tôt) et non plus mot à mot ou segment par segment. Cela est très utile pour traduire les langues asiatiques ou des paires de langues éloignées, comme l’espagnol et l’allemand, et cela donne également des traductions plus fluides et qui « sonnent mieux ».4

C’est aussi la PE qui s’en retrouve changée, car désormais, les relecteurs doivent se concentrer non pas sur la correction de la grammaire ou sur les tournures de phrases, qui sont plus correctes qu’au- paravant, mais plutôt sur le sens des phrases : en effet, comme les systèmes de TAN fonctionnent de manière similaire à un cerveau humain, les erreurs qu’ils commettent se ressemblent, en cela qu’un système ne va pas « avouer » qu’il n’a jamais vu un mot dans son corpus d’entraînement mais va soit omettre le mot pour éviter de modifier toute la structure de sa traduction, soit deviner son sens en fonction du contexte.5

Il est aussi intéressant de s’attarder sur qui sont les prestataires de TAN à l’heure actuelle, et sur leurs objectifs et leurs promesses. Les plus connus du grand public sont Google Translate, Micro- soft Translator et DeepL. Leur but est de proposer une traduction pour n’importe qui, n’importe quand et sur n’importe quel sujet. Pour les professionnel-le-s qui doivent traduire des textes appar- tenant à des contextes bien précis, il n’est pas forcément pertinent de travailler avec ces outils, car ces systèmes se basent sur des corpus de données gigantesques qui englobent tout un tas de do- maines différents, ce qui a souvent pour conséquence de donner des traductions qui semblent cor- rectes du point de vue de la langue, mais bien moins du point de vue du contexte. Pour tenter de pallier à cela, certains prestataires de TAN se concentrent sur un seul type de domaine spécialisé

4 http://www.linguacustodia.finance/fr/lapprentissage-par-reseau-de-neurones-pour-les-outils-de-traduction- automatique/ (consulté le 8.11.2018)

5 et 5 https://omniscien.com/riding-machine-translation-hype-cycle/ (consulté le 08.11.2018)

(29)

28

et entraînent leurs systèmes sur des corpus réduits afin de proposer de meilleures traductions et de régler la plupart des problèmes d’ambigüité.6

Il est un peu prématuré d’affirmer que la TAN a remplacé tous les autres systèmes de TA voire même la TH, car elle a encore du chemin à faire pour que les systèmes commercialisés prennent véritablement la place des systèmes de TAS et de ceux basés sur des règles (rule based). L’un des problèmes principaux de la TAN est la taille réduite des corpus d’entraînement. A l’heure actuelle, au-delà de quelques 50'000 mots, les mots composés ou plus longs sont redécoupés en mots plus courts, ce qui pose problème si l’on a besoin d’entraîner le système avec un vocabulaire spécialisé de taille importante. De plus, concernant les systèmes de TAN cantonnés à un seul domaine de spécialité, quelques études pilotes ont été menées mais il reste encore beaucoup de travail à fournir pour arriver à développer des systèmes qui répondent parfaitement aux besoins des client-e-s. On ne sait pas encore exactement à quel moment un système de TAN travaille avec assez de données pour surpasser les autres types de systèmes de TA. Enfin, il semble qu’ils soient assez difficiles à déboguer : avec la TAS, il est possible de remonter le fil d’une traduction et de remédier à un éventuel problème, mais c’est plus hasardeux pour la TAN, dont les erreurs sont également plus capricieuses (un système peut proposer un mot qui semble correct dans la phrase mais qui n’a au final rien à voir avec le contexte).7

Cependant, il s’agit de problèmes qui devraient être réglés par les chercheurs dans les années à venir. Rien qu’à l’heure actuelle, il est impossible de nier que la TAN présente de gros avantages par rapport à d’autres types de TA, et qu’elle ne devrait que s’améliorer avec le temps et avec le développement de la recherche. En deux ans environ, la TAN a métamorphosé la recherche dans le domaine de la TA, qui croît à un rythme très rapide. Elle s’est imposée comme l’approche de TA la plus prometteuse ces dernières années, affichant un rendement supérieur lors des dernières évaluations (Koehn, 2017, p. 3 et 90).

6 https://omniscien.com/riding-machine-translation-hype-cycle/ (consulté le 08.11.2018)

7 https://omniscien.com/state-neural-machine-translation-nmt/ (consulté le 08.11.2018)

(30)

29

2.2.2.4.

Le système neuronal à l’étude : DeepL

Selon le site officiel de DeepL8, Gereon Frahling de Google Research et Leo Fink se lancent en 2007 dans le développement d’un moteur de recherche pour traductions, et travaillent sur des al- gorithmes pour en collecter sur Internet et sur des systèmes d’apprentissage machine pour en véri- fier la qualité. En 2008, ils lancent Linguee, le premier outil de recherche de traductions réalisées par des tiers, qui attire des milliers d’utilisateurs en l’espace d’une année. Quatre ans plus tard, Linguee développe des outils d’apprentissage machine entraînés grâce à des corpus très larges composés de milliards de traductions, qui donnera deux ans plus tard un système de réseaux neu- ronaux appelé DeepL (Figure 9). Ce système est aussi capable d’entraîner ses propres réseaux neu- ronaux, également à partir de milliards de traductions collectées en ligne par les algorithmes de Linguee. En 2017 est lancé DeepL Traducteur et en mars 2018 la version professionnelle de DeepL (DeepL Pro), un service qui propose un traducteur en ligne optimisé et une intégration de DeepL aux logiciels de TAO, comme SDL Trados Studio 2017 et memoQ.

Figure 9: Interface de DeepL (https://www.deepl.com/translator)

8 https://www.deepl.com/press.html (consulté le 08.11.2018)

(31)

30

L’architecture neuronale de DeepL fonctionne grâce à un superordinateur situé en Islande et dont la puissance de calcul est de 5,1 pétaFLOPS9, c’est-à-dire suffisamment puissant pour traduire un million de mots par seconde. Ce superordinateur entraîne des réseaux neuronaux de traduction avec des corpus multilingues pour produire des traductions qui respectent la grammaire de la langue source et la structure des textes à traduire. A l’heure actuelle, DeepL est disponible en 7 langues (allemand, français, anglais, espagnol, italien, polonais et néerlandais) pour un total de 42 combi- naisons linguistiques, et d’autres réseaux neuronaux s’entraînent actuellement avec le mandarin, le japonais et le russe. L’équipe de DeepL a également développé l’API (Application Programming Interface), une plateforme qui permet aux développeurs de créer des applications de traduction, des extensions pour navigateur, des clients de messagerie, des services de traduction en réalité aug- mentée, etc.10

Selon le site officiel de DeepL, ses résultats dépassent ceux d’autres systèmes comme Google Translate et Microsoft Translation Hub (MTH), et les résultats d’évaluations automatiques (score Bleu) et humaines montrent que les traducteurs humains préfèrent également ce système. Nous pouvons aussi nous appuyer sur notre utilisation de DeepL pour affirmer qu’il propose des traduc- tions étonnamment bonnes au niveau du sens et de la fluidité, surtout si on lui soumet un texte de spécialité (économique par exemple) : notre expérience personnelle corrèle avec les chiffres et les déclarations de qualité avancés sur le site officiel de DeepL.

Pour notre expérience du Mémoire, nous avons choisi de travailler avec ce logiciel en ligne car il ne fait aucun doute qu’il représente le futur de la traduction en général et de la TAN en particulier.

Il nous a semblé pertinent de nous pencher sur un logiciel jeune, qui n’a pas encore été approché de près par la communauté scientifique, pour garantir que notre expérience sera objective. DeepL est un outil fascinant qui offre des résultats plus que corrects si l’on traduit des textes de spécialité, et c’est notamment parce qu’il s’agit d’un outil au futur si prometteur que nous avons voulu lui soumettre la tâche ardue de traduire des phrases de jeu vidéo.

9 Le floating-point operations per second ou FLOPS est le nombre de calculs impliquant des nombres réels effectué par seconde. Il permet de mesurer la puissance de calcul, et donc la performance, d’un système informatique.

https://www.caminteresse.fr/economie-societe/quest-ce-quun-petaflops-1144429/ (au 28.11.2018).

10 https://www.deepl.com/press.html (consulté le 08.11.2018)

(32)

31

2.3. Conclusion

Ce bref aperçu théorique nous a permis de mieux cerner et de mieux comprendre le domaine dense et en perpétuelle évolution qu’est le domaine de la TA. Après avoir évoqué son histoire (section 2.1), les différents systèmes de TA existants (section 2.2) et DeepL (section 2.2.2.4), nous allons à présent passer à la seconde partie de notre synthèse théorique, qui concernera l’évaluation de la TA (section 3).

(33)

32

3. L’évaluation de systèmes de TA

Nous avons déjà évoqué les différents types de systèmes de TA qui existent à l’heure actuelle (section 2.2), des premiers systèmes directs (section 2.2.1.1) qui traduisent mot à mot aux systèmes les plus complexes utilisant l’apprentissage machine (section 2.2.2.3). Une question très importante reste cependant à éluder : comment décider si un système de TA fait bien son travail? C’est une tâche difficile que d’y répondre, car beaucoup de facteurs différents sont à prendre en compte, mais aussi parce que mesurer la qualité d’une traduction est assez subjective en soi (Arnold et al., 2001, p. 65).

Pour y répondre, il faut logiquement s’attarder sur les traductions produites et sur leur qualité, ce qui peut se faire de deux manières : il faut soit demander à des juges humains de donner leur avis sur ces traductions, soit trouver une manière automatique de le faire, avec des logiciels en ligne par exemple. Nous allons décrire dans les points suivants l’évaluation humaine (section 3.1), les no- tions de précision et de rappel (section 3.2.1), et enfin les évaluations automatiques Bleu (section 3.2.2) et le TER (3.2.3), que nous avons choisi de réaliser pour ce travail.

3.1. L’évaluation humaine

Pour Koehn (2009, p. 104), l’évaluation humaine doit être pertinente (la traduction est-elle effecti- vement mauvaise ou est-ce le juge qui l’a jugée trop rapidement ?), peu chère (en temps et en argent, pour pouvoir en mener plusieurs sur une courte période), consistante avec les autres éva- luations (on devrait parvenir aux mêmes conclusions entre plusieurs évaluations d’un même sys- tème), et bien sûr correcte (ses résultats doivent attester correctement de la qualité d’une traduc- tion).

Hamon et al. (2008, pp. 112-115) recensent trois types d’évaluation humaine. On peut demander aux juges:

1. D’accomplir une tâche avec le produit de la TA ;

2. De recenser et d’analyser les erreurs du produit de la TA : 3. De donner un jugement intuitif sur sa qualité.

(34)

33

Pour l’évaluation de la qualité à l’usage, les premières expériences menées par H. Wallace Sinaiko remontent à 1971, et consistaient à demander à un pilote d’utiliser un manuel d’aviation traduit automatiquement. Ce genre d’évaluation demande beaucoup de sujets, de préférence des profes- sionnels du domaine du document traduit, mais il est également impératif d’établir clairement l’uti- lité du texte source dans le domaine, et de quantifier la capacité du sujet à effectuer la tâche sans consignes. Il s’agit donc d’un processus long et coûteux, dont les textes à évaluer se cantonnent généralement à la catégorie « mode d’emploi ».

Le classement et l’analyse des erreurs d’un texte de TA a une visée plus générale, car elle cherche entre autres à évaluer la qualité de la traduction au niveau morphologique, lexical et syntaxique.

La difficulté principale est d’établir une typologie des erreurs objective, ainsi qu’une pondération des erreurs (c’est-à-dire de donner un poids différent selon si une erreur est grave ou non). On citera celle de Loffler-Laurian (1996), qui se base sur les corrections de plusieurs post-éditeurs sur des traductions brutes (vocabulaire et terminologie, sigles et noms propres, prépositions, déterminants, temps verbaux, ordre des mots, négations, etc.) ; le Multidimensional Quality Metrics (MQM)11, qui propose entre autre un vocabulaire pour catégoriser les erreurs (problème de mise en page du texte, de style, de terminologie, d’internationalisation, de fluidité, etc.) ainsi qu’un mécanisme de notation en fonction du nombre d’erreurs ; l’évaluation LISA QA12 qui permet de classer des er- reurs selon qu’elles sont mineures, majeures ou critiques, qu’elles soient de langue (terminologie, style, etc.) ou au niveau du format des documents ou des logiciels ; enfin, le SAE J2450 Translation Quality Metric13, développé par la Society of Automotive Engineers (SAE) décrit plusieurs caté- gories d’erreurs (mauvais terme, erreur de syntaxe, omission, faute d’orthographe, ponctuation, etc.), sérieuses ou mineures, et en donne des exemples pour chaque type.

Pour recueillir le jugement intuitif des juges, il faut en général leur demander de juger les traduc- tions selon deux caractéristiques, à savoir la fluidité (fluency) et la fidélité (fidelity) (Jurafsky &

Martin, 2000, p. 100).

11 http://www.qt21.eu/mqm-definition/definition-2015-12-30.html (consulté le 09.11.2018)

12http://producthelp.sdl.com/SDL_TMS_2011/en/Creating_and_Maintaining_Organizations/Managing_QA_Models/

LISA_QA_Model.htm (consulté le 09.11.18)

13http://producthelp.sdl.com/SDL_TMS_2011/en/Creating_and_Maintaining_Organizations/Managing_QA_Models/

SAE_J2450_QA_Model.htm (consulté le 09.11.18)

Références

Documents relatifs

La plupart des syst` emes actuels de traduction automatique se contente donc de niveaux d’analyse interm´ ediaires, c’est-` a-dire de r` egles de transfert entre des repr´

Si d’après Bannour la linguistique générale saurait représenter un modèle de référence pour une épistémologie de la traduction, la réponse présentée par Guidère

Une expérience sur le couple français- anglais montre que cette méthode permet d’obtenir 800 phrases traductions à partir de 100 000 phrases aspirées par langue, soit un rendement de

Dans l’approche directe de traduction automatique par l’exemple ( Nagao , 1984 ), étant donnée une phrase à traduire et un couple constitué d’une phrase exemple et de sa

Dans un second temps, nous comparerons, d’un point de vue quantitatif et qualitatif, la traduction humaine, la traduction automatique post-éditée et la traduction automatique brute

Ce travail vise deux objectifs principaux : recueillir l'avis des étudiant·e·s et des enseignant·e·s sur l'intégration de la post-édition à la formation en traduction, et évaluer

O’Brien, 2009), l’auteur analyse la qualité au niveau linguistique des résultats d’un test sur la productivité de la post-édition, effectué sur des textes issus du

1. Traduction mot à mot du texte source vers le texte cible 2. Modification de l'ordre des mots traduits dans le texte cible.. Trois approches..