• Aucun résultat trouvé

La traduction automatique des « gros mots » dans les jeux vidéo : Evaluation de trois systèmes en ligne

N/A
N/A
Protected

Academic year: 2022

Partager "La traduction automatique des « gros mots » dans les jeux vidéo : Evaluation de trois systèmes en ligne"

Copied!
124
0
0

Texte intégral

(1)

Master

Reference

La traduction automatique des « gros mots » dans les jeux vidéo : Evaluation de trois systèmes en ligne

VALLET, Romain

Abstract

Le domaine de la traduction automatique a considérablement progressé ces dernières années, notamment avec le développement des réseaux neuronaux. Si les systèmes dotés de cette technologie sont capables de générer des traductions de textes en langue standard très convaincante, même dans un cadre professionnel, l'objectif de ce mémoire est d'examiner s'ils sont aussi performants dans un domaine du langage plus particulier, les gros mots, spécifique à chaque langue. En prenant comme sujet d'étude un jeu vidéo, les traductions issues de trois traducteurs automatiques couramment utilisés sont tout d'abord comparées afin de déterminer le plus apte à traduire des phrases contenant des gros mots.

Les résultats du meilleur traducteur automatique sont ensuite confrontés à la traduction humaine officielle du jeu choisi, en vue de déterminer si la traduction automatique est en mesure de rivaliser d'un point de vue qualitatif avec la traduction humaine des gros mots.

VALLET, Romain. La traduction automatique des « gros mots » dans les jeux vidéo : Evaluation de trois systèmes en ligne. Master : Univ. Genève, 2019

Available at:

http://archive-ouverte.unige.ch/unige:127500

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Romain Vallet

La traduction automatique des « gros mots » dans les jeux vidéo

Evaluation de trois systèmes en ligne

Directrice de Mémoire : Mme Pierrette Bouillon Jurée : Mme Mathilde Fontanet

Mémoire présenté à la Faculté de Traduction et d’interprétation (Département TIM) pour l’obtention de la Maîtrise universitaire en traduction, mention

technologies de la traduction

Université de Genève

Session de septembre 2019

(3)

2

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la Faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant‐e‐s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide‐mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis conscient que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Nom et prénom : Romain Vallet

Lieu / date / signature :

Villars-sur-Glâne, le 8 août 2019

(4)

3

Remerciements

Ce travail touchant à sa fin, je voudrais remercier toutes les personnes qui m’ont apporté leur soutien au cours de ces longs mois de recherche et de travail.

Je tiens avant tout à remercier madame Pierrette Bouillon, directrice de ce mémoire, qui m’a conseillé et guidé tout au long de ce travail de longue haleine, ainsi que madame Mathilde Fontanet d’avoir accepté d’être jurée de ce mémoire.

Un grand merci également à tous ceux et celles qui ont participé à mes expériences, mes amis Alizée, Manon, Sevita, Jenna, Julien, Frédéric et Shaun qui n’ont pas hésité à consacrer du temps pour effectuer mes expériences et qui m’ont soutenu de près ou de loin durant ce travail.

Merci à Annick pour m’avoir encouragé et conseillé lorsque je ne savais pas comment avancer.

Un merci tout particulier à Jérôme, colocataire exceptionnel de mes années d’études, pour avoir passé deux après-midis à m’aider à élaborer mes fichiers Excel, ainsi qu’à Nicolas pour son soutien inconditionnel et précieux depuis tant d’années.

Enfin, merci du fond du cœur à ma famille, à mes parents qui me soutiennent à chaque instant depuis toujours, à ma sœur Lorraine pour ses relectures multiples de ce travail et qui m’a poussé à donner le meilleur de moi-même. Merci à Jade pour toute l’aide qu’elle m’a apportée, et bien plus encore.

(5)

4

Table des matières

1. Introduction ... 8

1.1 Méthodologie et questions de recherche ... 8

1.2 Plan ... 9

2. La traduction automatique ... 10

2.1 Histoire : des débuts de la traduction automatique à aujourd’hui ... 10

2.2 Les différents systèmes de traduction automatique ... 12

2.2.1 Les systèmes basés sur les règles ... 12

2.2.1.1 Les systèmes directs ... 13

2.2.1.2 Les systèmes indirects ... 14

2.2.2 Les systèmes basés sur les corpus ... 16

2.2.2.1 Les systèmes basés sur l’exemple ... 16

2.2.2.2 Les systèmes statistiques ... 17

2.2.2.3 Les systèmes hybrides ... 19

2.2.3 Les réseaux neuronaux ... 19

2.2.3.1 DeepL Traducteur... 23

2.2.3.2 Google Traduction ... 25

2.2.3.3 Bing Microsoft Translator ... 26

2.3 Conclusion ... 28

3. L’évaluation des systèmes de traduction ... 29

3.1 L’évaluation humaine ... 29

3.1.1 Le score Kappa ... 31

3.2 L’évaluation automatique ... 32

3.2.1 La précision et le rappel ... 32

3.2.2 Le score BLEU ... 34

3.2.3 METEOR ... 36

(6)

5

3.2.4 Le Word Error Rate et le Translation Edit Rate ... 37

3.3 Conclusion ... 39

4. Les jeux-vidéo ... 40

4.1 Introduction ... 40

4.2 Origine et évolution ... 40

4.3 L’industrie du jeu vidéo ... 42

4.4 Types de jeux ... 42

4.4.1 Action ... 43

4.4.2 Aventure ... 44

4.4.3 Action-aventure ... 44

4.4.4 Jeux de rôle ou RPG (Role-playing game) ... 44

4.4.5 Réflexion ... 45

4.4.6 Stratégie ... 45

4.4.7 Jeux de simulation ... 46

4.5 Nombre de joueurs ... 46

4.6 Limites d’âge ... 46

4.7 Conclusion ... 47

5. Les gros mots en anglais et en français ... 48

5.1 Les gros mots dans la langue française ... 48

5.1.1 Définition ... 48

5.1.2 Les niveaux de langue ... 49

5.1.3 Caractéristiques ... 51

5.1.3.1 Versatilité ... 51

5.1.3.2 Fonctions des gros mots ... 52

5.1.3.3 Euphémismes ... 53

5.2 Les gros mots en anglais, les « swear-words » ... 53

5.2.1 Notion de gros mot en anglais ... 53

(7)

6

5.2.2 Définition ... 54

5.2.3 Caractéristiques ... 54

5.2.3.1 Fonction des gros mots ... 55

5.2.3.2 Niveaux de langue ... 56

5.2.3.3 Versatilité ... 56

5.3 Synthèse ... 56

5.4 La traduction humaine des gros mots dans les jeux vidéo de l’anglais au français ... 57

5.5 La traduction automatique des gros mots ... 58

5.6 Conclusion ... 60

6. Expérience ... 61

6.1 Méthodologie ... 61

6.1.1 Choix du jeu et présentation ... 61

6.1.2 Collecte du corpus ... 63

6.1.3 Processus de traduction ... 65

6.1.4 Analyse des erreurs dans les traductions automatiques ... 65

6.1.4.1 Particularités graphiques ... 65

6.1.4.2 Mots écrits phonétiquement ... 66

6.1.4.3 Néologismes ... 66

6.1.4.4 Jeu de mot ... 67

6.1.4.5 Mots espagnols ... 67

6.1.4.6 Grammaire ... 68

6.1.4.7 Omissions ... 68

6.2 Evaluation quantitative ... 68

6.2.1 Evaluation automatique ... 68

6.2.2 Les évaluations humaines ... 70

6.2.2.1 Première évaluation ... 71

6.2.2.1.1 Mise en place ... 71

(8)

7

6.2.2.1.2 Participants ... 72

6.2.2.1.3 Résultats ... 73

6.2.2.1.4 Le score Kappa ... 74

6.2.2.1.5 Commentaires des évaluateurs ... 75

6.2.2.1.6 Conclusion de la première expérience ... 76

6.2.2.2 Seconde évaluation ... 76

6.2.2.2.1 Mise en place ... 76

6.2.2.2.2 Participants ... 78

6.2.2.2.3 Résultats ... 78

6.2.2.2.4 Le score Kappa ... 80

6.2.2.2.5 Commentaires des évaluateurs ... 80

6.2.2.2.6 Réponses au questionnaire soumis aux juges ... 81

6.2.2.2.7 Conclusion de la seconde expérience ... 84

7. Conclusion ... 85

Liste des figures et tableaux ... 87

Figures ... 87

Tableaux ... 88

Bibliographie ... 89

Webographie ... 92

Annexes ... 93

Annexe 1 : texte du courriel envoyé à Kathy Way... 93

Annexe 2 : texte du courriel envoyé aux évaluateurs ... 94

Annexe 3 : formulaire de consentement pour les évaluations humaines ... 95

Annexe 4 : formulaire de consentement pour le questionnaire ... 96

Annexe 5 : corpus ... 97

(9)

8

1. Introduction

Les évolutions technologiques donnent aujourd’hui à un large public la possibilité de bénéficier de produits culturels issus des quatre coins du monde, que ce soit dans le domaine littéraire, du cinéma ou des jeux-vidéo, non seulement en langue originale, mais aussi, dans de nombreux cas, traduits, ce qui permet leur diffusion à plus grande échelle. Il arrive également que les œuvres ne soient pas uniquement traduites mais aussi adaptées à une culture pour toucher un public particulier, comme ce fut le cas pour la série Harry Potter qui a eu une édition spéciale pour les Etats-Unis : un nouveau titre pour le premier tome et un texte retravaillé en anglais des Etats-Unis1.

Tant la traduction que l’adaptation nécessitent un investissement en temps et en argent important. Les nouvelles technologies de la traduction permettent toutefois déjà une réduction de ces derniers et le mouvement devrait à l’avenir s’accélérer. Au stade d’avancement actuel des technologies de la traduction, il est cependant encore nécessaire de s’assurer que les traducteurs automatiques fournissent une traduction d’une qualité comparable à la traduction humaine, ou sont à tout le moins exploitables pour de la post-édition.

1.1 Méthodologie et questions de recherche

L’objectif de ce travail de mémoire est de tester trois traducteurs automatiques en ligne d’usage courant, DeepL, Google Traduction et Bing Microsoft Translator, sur un domaine particulier de la langue : il sera centré sur la traduction automatique des gros mots de l’anglais au français dans un jeu vidéo, Borderlands 2. Nous avons choisi ce pan de la langue pour plusieurs raisons : sa traduction est complexe pour un traducteur humain, car elle implique de retranscrire des mots qui violent les règles de bienséance d’une langue source dans une langue cible dont les règles de bienséance ne sont pas forcément les mêmes. Les gros mots sont de plus des vecteurs d’émotions variées et ce travail permettra d’observer si les traducteurs automatiques sont en mesure de transcrire cette émotion, même sans être spécialement entrainés à le faire. Il s’agit finalement d’une partie de la langue française très riche mais encore peu étudiée car relativement taboue en français, contrairement à l’anglais. De plus, il existe peu de recherches concernant les gros mots dans la traduction automatique et ce toute langue confondue. Nous avons choisi d’utiliser un corpus tiré d’un jeu vidéo, domaine qui présente une grande diversité

1 https://www.hp-lexicon.org/differences-changes-text/ (consulté le 6 mai 2019)

(10)

9

et dans lequel la traduction joue un rôle essentiel pour sa diffusion, mais qui, malgré sa richesse, n’est pas souvent traité dans des travaux universitaires.

Nous chercherons ainsi à répondre successivement aux deux questions suivantes : 1) quel est le meilleur traducteur automatique entre DeepL, Google Traduction et Bing et 2) une traduction automatique peut-elle rivaliser avec une traduction humaine pour traduire des gros mots. Afin d’y répondre, nous avons décidé de soumettre les traductions d’un corpus constitué de phrases tirées du jeu vidéo Borderlands 2 à des experts afin d’avoir une évaluation humaine sur laquelle nous baser pour effectuer nos observations. Une première évaluation effectuée par des experts permettra de dégager le meilleur traducteur automatique parmi ceux étudiés, puis une deuxième évaluation entre le traducteur automatique le plus performant et la traduction officielle du jeu permettra de situer la marge de progression de la traduction automatique dans le cadre de la traduction des gros mots. Un questionnaire concernant les opinions des experts au sujet de la traduction des gros mots viendra compléter ces évaluations et nous donnera des indications sur la manière de traduire que désirerait le public.

1.2 Plan

Le présent mémoire débutera par une partie théorique relative à la traduction automatique et aux gros mots. Nous aborderons tout d’abord l’histoire de la traduction automatique, puis les différents types de systèmes existants et nous terminerons par la présentation des systèmes sujets de notre expérience : DeepL, Google Traduction et Bing Microsoft Translator (chapitre 2). Nous traiterons ensuite la problématique de l’évaluation des systèmes de traduction, humaine et automatique (chapitre 3) et poursuivrons par la présentation du domaine du jeu vidéo dans son ensemble (chapitre 4). Notre partie théorique s’achèvera sur les gros mots, où nous parlerons tout d’abord de l’usage français, puis nous étudierons l’usage anglais (« swear words ») (chapitre 5).

Dans la partie pratique de notre travail, nous détaillerons la méthodologie de notre expérience, puis les évaluations humaines. Nous procéderons ensuite à la présentation des entrées et finalement à l’analyse des résultats obtenus (chapitre 6).

(11)

10

2. La traduction automatique

Après une brève description de son histoire, nous décrirons les différents types de systèmes de traduction automatique avant de terminer par une description des trois traducteurs automatiques utilisés au cours de notre expérience.

2.1 Histoire : des débuts de la traduction automatique à aujourd’hui

Hutchins et Somers citent Descartes et Leibnitz comme les premiers à avoir eu l’idée de créer des dictionnaires fondés sur un code universel (Hutchins and Somers 1992, 5). Si l’idée surgit pour la première fois au XVIIème siècle, la première formalisation du concept d’utiliser les ordinateurs en traduction date de 1949, dans un mémorandum (Translation) de Warren Weaver, un scientifique de la Fondation Rockefeller (Hutchins and Somers 1992, 5). Les recherches en ce sens débutent dès 1948 en Grande Bretagne et en 1949 aux Etats-Unis sous l’impulsion de ce même Warren Weaver (Léon 2015, 14). Yehoshua Bar-Hillel devient le premier chercheur à plein temps en traduction automatique en 1951 (Léon 2015, 15). En janvier 1954, l’Université de Georgetown présente publiquement le premier système de traduction automatique, un événement sans grande valeur scientifique à en croire Hutchins & Somers, mais qui a été suffisamment impressionnant pour que les recherches en traduction automatique aux Etats-Unis bénéficient d’un soutien financier conséquent et que de nouveaux projets en traduction automatique se développent à travers le monde, notamment en Union soviétique (Hutchins and Somers 1992, 6).

Bien que les avancées de époque soient importantes pendant de longues années non seulement en traduction automatique, mais aussi en linguistique computationnelle et en intelligence artificielle, elles ne parviendront pas à répondre aux attentes de voir émerger un système capable de fournir des traductions de qualité. Les problèmes linguistiques devenaient toujours plus apparents à mesure que les recherches avançaient et la déception des investisseurs grandissait toujours plus (Hutchins and Somers 1992, 6).

En 1960, Yehoshua Bar-Hillel publie « The present status of automatic translation of languages », un rapport dans lequel il se montre très critique vis-à-vis de la traduction automatique telle qu’elle existe à cette époque. Il arrive à la conclusion que les recherches ont été extrêmement coûteuses en termes d’argent et de main-d’œuvre et que la « Fully automatic high quality translation » (traduction automatique de très bonne qualité entièrement automatisée) que visaient de nombreux groupes de recherches est un objectif inatteignable, quel que soit le type de texte traduit. En effet, très peu des problèmes linguistiques identifiés ont été

(12)

11

résolus et les plus difficiles attendent toujours une solution. Le seul objectif raisonnable est selon lui la traduction assistée par ordinateur, qui implique au moins une intervention humaine une fois la traduction automatique effectuée, ce qui amènera Léon à conclure que ce rapport

« rédigé par quelqu’un d’aussi respecté que Bar-Hillel […] jette le soupçon et le discrédit sur tous les groupes de TA » (Léon 2015, 15).

L’Académie nationale des sciences (USA) mandate le Automatic Language Processing Advisory Committee (ALPAC) of the National Council pour évaluer officiellement les recherches réalisées jusqu’alors et leur potentiel. Le rapport rendu par l’ALPAC en 1966 est très pessimiste, concluant qu’en l’état, il est impossible d’obtenir une traduction automatique de textes scientifiques généraux exploitable, que la TA avec post-édition est deux fois plus coûteuse que la traduction humaine et qu’il y a suffisamment de traducteurs humains pour supporter la charge de travail. Le rapport préconise en outre d’une part de cesser de financer les recherches en traduction automatique. Il conseille d’autre part de développer les aides aux traducteurs, comme des dictionnaires automatiques, et de poursuivre les recherches en linguistique computationnelle. La discipline subit alors de plein fouet ce verdict, car il signe la fin des financements, ce qui a pour effet de réduire drastiquement le nombre de groupes de recherche et de personnes impliquées dans ce domaine.

Autre conséquence de ce même rapport, les recherches se feront désormais majoritairement hors des Etats-Unis : au Canada (où le groupe TAUM développe le système METEO, qui traduit les bulletins météorologiques de l’anglais vers le français), en URSS, et en Europe, notamment le groupe GETA basé à Grenoble qui sera probablement le plus influent de cette période (Arnold 1994, 14).

Ce n’est qu’à la fin des années 1970 que la TA connaît une sorte de renaissance avec les premiers ordinateurs personnels et leur multiplication dans le monde du travail au cours des années 80 (Has 2015, 9). En 1976, la Commission européenne (CE) achète la version anglais- français du système SYSTRAN, développé initialement pour traduire le russe vers l’anglais pour l’US Air Force, et demande le développement d’une version français-anglais et italien- anglais (Hutchins and Somers 1992, 7). A partir de 1980, la traduction automatique se développe également rapidement au Japon.

Entre 1990 et 2003, sous l’impulsion d’avancées technologiques sans précédent et grâce à l’arrivée des micro-ordinateurs, les méthodes empiriques font leur retour, comme les mémoires de traductions et les corpus alignés, qui deviennent des outils incontournables de la traduction

(13)

12

assistée par ordinateur. Les premiers systèmes de traduction en ligne voient le jour au cours de cette période (Léon 2015, 16).

A partir de 2003, les systèmes utilisés oscillent entre les systèmes linguistiques, statistiques et hybrides. En 2016, Google implémente le premier système de réseau neuronal en ligne (Google Translate), une technologie qui permet d’obtenir des traductions plus fluides, qui paraissent plus humaines et qui semble être l’avenir de la traduction automatique.

2.2 Les différents systèmes de traduction automatique

Depuis les débuts de la traduction automatique, de nombreux systèmes ont été développés, qui peuvent être classés de différentes manières.

Il est possible de classifier ces systèmes selon leur combinaison linguistique, bilingue ou multilingue, selon leur capacité à traduire dans un seul sens ou dans plusieurs, unidirectionnels ou multidirectionnels, et selon les données sur lesquelles repose la traduction. Ce sont soit des systèmes à base de règles (RBMT, Rule Based Machine Translation), soit des systèmes basés sur des corpus (PBMT, Phrase Based Machine Translation), soit des systèmes mixtes (règles et corpus), soit des systèmes neuronaux (NMT, Neural Machine Translation) (Fernández Guerra 2000, 57).

Notre présentation abordera, dans une perspective chronologique, les différents systèmes développés.

2.2.1 Les systèmes basés sur les règles

Divers systèmes de traduction basés sur les règles se sont succédé au fil des avancées technologiques. Le triangle de Vauquois illustre ces diverses approches, que nous allons présenter dans les sections suivantes. Il permet de visualiser les implications des diverses méthodes.

(14)

13

Figure 1 : Triangle de Vauquois

(https://fr.wikipedia.org/wiki/Fichier:Triangle_de_vauquois.svg, consulté le 6 mars 2019)

2.2.1.1 Les systèmes directs

Première forme de traduction automatique, l’approche directe prend le chemin le plus rapide pour élaborer une traduction. Le programme effectue une analyse lexicale de la phrase source (morphological analysis) puis le système cherche les équivalents des mots de la phrase source dans un dictionnaire bilingue et les place dans la structure en langue cible, selon le processus illustré dans la Figure 2.

Figure 2 : Schéma du processus de traduction dans un système direct (An Introduction to Machine Translation W. John Hutchins, Harold L. Somers, 1992)

Cette approche simpliste selon certains auteurs s’explique en partie par la puissance limitée des ordinateurs au moment du développement de ces systèmes de traduction, à la fin des années 50 et au début des années 60. Leur défaut principal est l’absence d’analyse linguistique de la structure interne du texte source, plus précisément des relations grammaticales entre les

(15)

14

diverses parties des phrases (Hutchins and Somers 1992, 73), ce qui amène Hutchins et Somers à qualifier l’approche directe de traduction mot à mot avec quelques ajustements localisés de l’ordre des mots (Hutchins and Somers 1992, 72).

Pour Ana Fernandez Guerra, cette approche affiche ses meilleurs résultats lorsqu’elle traite des paires de langues proches l’une de l’autre, comme l’anglais et l’allemand ou l’espagnol et l’italien. En revanche, lorsque les langues sont très éloignées l’une de l’autre, comme peuvent l’être par exemple l’espagnol et le japonais, le résultat ressemble plus à une « salade de mots », qui est selon elle tout simplement inacceptable dans la langue cible (Fernández Guerra 2000, 59).

2.2.1.2 Les systèmes indirects

Les systèmes indirects partent du principe que la traduction est un processus qui consiste à analyser et à représenter la signification d’un texte en langue source pour permettre la génération de son équivalent en langue cible (Quah 2006, 71). Leur développement découle en grande partie de l’irrégularité des résultats et de la médiocrité générale des traductions des systèmes directs.

Il existe deux familles de systèmes indirects : les systèmes par interlangue et les systèmes par transfert.

Figure 3 : Schéma du processus de traduction d’un système par interlangue (Quah 2006, 72)

Les systèmes indirects par interlangue ont pour principe de base qu’il existe un niveau d’analyse si profond que les composants de grammaire comparative s’estompent jusqu’à disparaître complètement (Fernández Guerra 2000, 68). Il serait alors possible d’obtenir une représentation interlangue « universelle » qui pourrait servir d’intermédiaire entre toutes les langues naturelles (Hutchins and Somers 1992, 73). Dans les faits, les systèmes par interlangue analysent la phrase

(16)

15

source et en tirent une représentation dont les informations servent ensuite à générer la phrase cible. Ces systèmes fonctionnent assez bien lorsqu’il s’agit de travailler dans des domaines où la terminologie est très codifiée car l’organisation conceptuelle nécessaire est déjà suffisamment claire pour le système. Ils sont en revanche bien moins efficaces lorsqu’il s’agit de traduire des textes communs, étant donné les difficultés qui découlent de la création d’un interlangue.

Figure 4 : Composants d’un système par transfert (Arnold et al., p. 68)

Les systèmes indirects par transfert se basent quant à eux sur des ressources grammaticales étendues en langue source et en langue cible ainsi que sur des modules bilingues pour chaque combinaison de langue supportée par le système (Hutchins and Somers 1992, 75). Le système commence par analyser le texte source pour en tirer une représentation et résoudre les ambigüités syntaxiques et lexicales (Analysis). Il transfère ensuite la représentation du texte source en représentation en langue cible (Transfer) et finit par générer un texte cible à partir de cette dernière représentation et des connaissances grammaticales dont il dispose (Synthesis) (Arnold 1994, 68). Les systèmes indirects sont donc dotés de grammaires complètes des langues supportées, d’analyseurs syntaxiques, de générateurs et de grammaires comparatives pour

(17)

16

chaque paire de langues. Lorsqu’une phrase est soumise au traducteur automatique, les analyseurs syntaxiques se basent sur les grammaires du système pour l’analyser dans les deux langues et constituer une représentation de la phrase (Analysis). La grammaire comparative fait correspondre la représentation en langue source avec la représentation en langue cible (Synthesis), donnant la base sur laquelle les générateurs produisent une phrase à partir de ces représentations en se basant eux aussi sur les grammaires du système (Fernández Guerra 2000, 73).

Si un système par transfert bénéficiait d’une grammaire cible parfaite, il n’y aurait que des erreurs de traduction dans le texte final. Or, diverses règles de transfert peuvent être adaptées dans une représentation, ce qui produit des traductions alternatives qui ne sont pas nécessairement correctes grammaticalement (Fernández Guerra 2000, 61).

2.2.2 Les systèmes basés sur les corpus

Un corpus est « une collection de documents qui ont été rassemblés pour un usage en particulier » (Lacroix 2013). Les systèmes vus précédemment, directs et indirects, se basent sur des données linguistiques pour générer leurs traductions. Les systèmes basés sur les corpus partent du principe que, comme il est facile de se procurer des traductions déjà existantes, il est possible d’utiliser des corpus d’exemples de traduction connus pour produire une nouvelle traduction (Bouillon 1993, 16). La traduction automatique basée sur les corpus utilise ainsi principalement des corpus multilingues, dont on distingue deux types : les corpus parallèles (ou bilingues) et les corpus comparables (Prochasson 2009, 3). Les corpus parallèles sont des collections de textes source alignés au niveau de la phrase avec leurs traductions en langue cible (Afli, Barrault et al. 2012, 448). Les corpus comparables rassemblent des textes qui présentent des similitudes au niveau des informations qu’ils contiennent dans des langues différentes, mais qui ne sont pas des traductions (Prochasson 2009, 3).

Les systèmes basés sur les corpus se divisent en deux catégories : les systèmes basés sur l’exemple et les systèmes statistiques (Dajun and Yun 2015, 91), que nous allons décrire dans les parties suivantes.

2.2.2.1 Les systèmes basés sur l’exemple

Les systèmes basés sur l’exemple utilisent des exemples déjà existants pour générer une nouvelle traduction par analogie (Bouillon 1993, 16). Ils fonctionnent de la manière suivante : collecter un corpus parallèle puis utiliser un algorithme qui permette de trouver l’exemple le plus proche de la phrase source soumise (Arnold 1994, 188). Le processus se déroule en trois

(18)

17

étapes : le système commence par comparer les segments du texte source avec des segments du corpus bilingue. Il aligne ensuite les segments en langue cible des exemples sélectionnés dans le corpus bilingue pour construire des unités de traduction et finit par recombiner les parties en langue cible de ces unités de traduction pour générer une traduction de la phrase soumise.

(Gambier and Doorslaer 2010, 219)

Figure 5 : Schéma du processus de traduction d’un système basé sur l’exemple (Quah 2006, 81)

Ces systèmes n’effectuent aucune analyse grammaticale ou sémantique (Dajun and Yun 2015, 92). Ils ne reposent que sur la qualité et l’étendue des corpus utilisés. La qualité des traductions s’améliorera à mesure que la base de données du système sera complétée, ce dernier ayant accès à un éventail d’exemples de traductions plus vaste, sans qu’il y ait besoin de mettre à jour des règles grammaticales et lexicales (Arnold 1994, 190). La proximité entre les textes soumis au traducteur automatique et les textes du corpus bilingue joue un rôle prédominant dans la qualité des traductions. En effet, plus le thème du texte à traduire est proche de celui du corpus bilingue du système, plus la traduction sera de bonne qualité. A l’inverse, plus le thème abordé par la source sera éloigné des textes du corpus, plus les traductions seront mauvaises.

2.2.2.2 Les systèmes statistiques

Le processus de traduction des systèmes statistiques se résume à choisir le segment en langue source du corpus bilingue le plus proche du segment en langue source soumis au traducteur automatique en se basant sur les probabilités (Quah 2006, 80).

Le premier système statistique a été présenté par la société IBM autour de 1990. C’était le premier système capable de tirer des connaissances en traduction à partir d’un corpus sans

(19)

18

ajustement manuel de règles, ce qui était une révolution pour l’époque (Dajun and Yun 2015, 93). Les recherches se sont dès lors concentrées sur cette nouvelle technologie et ont bénéficié d’une période propice à son développement, jusqu’à l’arrivée des réseaux neuronaux aux alentours de 2016.

Figure 6 : Schéma du processus de traduction d’un système statistique (Quah 2006, 78)

Ces systèmes reposent sur l’apprentissage d’un modèle de langue à partir d’un corpus monolingue et d’un modèle de traduction à partir d’un corpus bilingue. L’apprentissage de ces modèles a pour but d’établir des correspondances entre des mots des langues source et cible (Afli 2010, 15). Le rôle du modèle de traduction est d’associer les segments en langue source avec leurs segments correspondants en langue cible (Quah 2006, 78). Il en existe deux types : les modèles basés sur les mots et les modèles basés sur les phrases (Koehn 2010). Les modèles basés sur les mots découpent la phrase en mots puis les traduisent selon la fréquence à laquelle ils sont traduits d’une telle manière dans le corpus parallèle. Les modèles basés sur les phrases commencent par diviser les textes en séquences de mots contigües appelées N-grammes, n étant le nombre de mots par séquence, avant de traduire séquence par séquence (Pestov 2018). Le rôle du modèle de langue est quant à lui de calculer la probabilité que le résultat obtenu suite à l’opération du modèle de traduction soit un segment correct en langue cible.

Les systèmes statistiques tirent leurs connaissances linguistiques exclusivement des corpus à leur disposition. Ces derniers sont donc d’une importance primordiale puisque leur qualité, leur quantité et le domaine qu’ils recouvrent vont influer directement sur la qualité des traductions (Dajun and Yun 2015, 93).

(20)

19

Un des avantages des systèmes statistiques est qu’ils peuvent être appliqués à de nouvelles paires de langue et à de nouveaux domaines sans qu’il y ait besoin de les adapter. Cependant, les corpus parallèles de bonne qualité ou les vastes données multilingues sont difficiles à trouver pour de nombreuses paires de langues, ce qui limite les possibilités effectives d’ajout (Arnold 1994, 193).

2.2.2.3 Les systèmes hybrides

Les systèmes basés sur l’exemple et statistiques ne s’étant pas avérés aussi supérieurs aux systèmes basés sur les règles qu’escompté, des chercheurs ont alors mis au point des systèmes hybrides en jouant sur les forces et les faiblesses des différentes architectures à leur disposition (Somers 2005). Les règles donnent en effet des directives de traductions et permettent de traduire des phrases encore inconnues du système. Elles permettent de produire plusieurs traductions possibles que la statistique pourra alors départager en vérifiant quelles versions ont été choisies par les traducteurs précédents (Goudet 2008). Certains systèmes ont ainsi inclus une approche basée sur l’exemple car elle résolvait particulièrement bien certains types de problèmes de traduction, que les systèmes basés sur les règles avaient de la peine à cerner.

D’autres systèmes hybrides ont rassemblé une analyse et une génération basées sur les règles avec un transfert basé sur l’exemple. Une troisième architecture hybride, particulièrement efficace pour traduire la langue parlée, basait son analyse sur une approche statistique tandis que le transfert et la génération se faisaient par une approche basée sur les règles (Somers 2005).

2.2.3 Les réseaux neuronaux

Les travaux sur les réseaux neuronaux ont commencé dès les années 80 et se sont poursuivis au cours des années 90. Les chercheurs qui travaillaient dans ce domaine avaient pour objectif d’améliorer la traduction automatique. Ils étaient cependant limités par les technologies existantes et par la quantité de données exploitables pour entraîner leurs modèles, cette conjonction d’éléments défavorables les forçant à abandonner les recherches en la matière pendant près de vingt ans face au manque de résultats. L’approche statistique avait donc pris de l’importance jusqu’à occuper une place dominante dans le domaine.

L’intérêt pour les réseaux neuronaux reprend toutefois aux alentours de 2007 lorsque des modèles de langue neuronaux commencent à être intégrés dans les méthodes statistiques même si la méthode mettra du temps à se généraliser, notamment à cause de problèmes dus à l’informatique. En effet les groupes de recherche, qui devaient utiliser des processeurs graphiques (GPU) pour entraîner les modèles, n’étaient souvent pas en mesure d’utiliser ce type

(21)

20

de matériel, soit parce qu’ils n’en avaient pas, soit parce qu’ils n’avaient pas l’expérience nécessaire pour exploiter leur potentiel (Koehn 2017, 5). L’usage des réseaux de neurones s’est par la suite étendu à d’autres composants de la traduction automatique statistique et a mené peu à peu au développement de systèmes purement neuronaux. Un tournant s’est produit lors de la Conférence sur la traduction automatique (WMT) de 2016, au cours de laquelle un système de traduction automatique neuronal a remporté les tests présentés dans presque toutes les paires de langues ; la recherche s’est depuis lors focalisée sur cette technologie et avance à grands pas.

La caractéristique principale de la traduction automatique neuronale est que les mots et les phrases sont représentés numériquement grâce à des vecteurs, là où la représentation est discrète dans les systèmes statistiques. Cette particularité a permis d’utiliser de puissantes techniques d’apprentissage automatique (l’apprentissage machine) comme les réseaux neuronaux (Casacuberta Nolla and Peris Abril 2017, 68).

Un réseau neuronal est composé d’un ensemble de neurones artificiels connectés les uns aux autres. Leur rôle est d’effectuer un produit scalaire entre leur vecteur d’entrées et un vecteur de poids associé à chacun d’entre eux puis d’utiliser une fonction d’activation pour déterminer leur sortie. Le réseau neuronal le plus connu est le perceptron multicouche. Il est formé de couches de neurones de telle manière que les sorties d’une couche sont les entrées de la couche suivante.

Outre le perceptron multicouche, il existe les réseaux neuronaux récurrents, dans lesquels les neurones se réalimentent avec leurs propres sorties directement ou indirectement, ce qui les rend aptes à apprendre et à générer des séquences temporelles (Casacuberta Nolla and Peris Abril 2017, 69). La méthode d’apprentissage de réseaux neuronaux la plus commune s’appelle

« rétropropagation », un nom qui tire son origine du fait que les poids sont d’abord mis à jour sur la couche de neurones de sortie avant de propager l’information d’erreurs aux couches précédentes. Chaque fois qu’un exemple d’entraînement est chargé, un terme d’erreur est associé à chaque nœud du réseau, ce qui forme la base sur laquelle les valeurs des poids entrants seront mises à jour (Koehn 2017, 12).

L’architecture la plus utilisée pour implémenter la rétropropagation est basée sur un encodeur suivi d’un décodeur. L’encodeur est un réseau neuronal récurrent qui analyse la phrase source de gauche à droite et de droite à gauche pour en générer une représentation vectorielle. Le décodeur, un autre réseau neuronal récurrent, produit une phrase cible à partir de la phrase source. Il génère les phrases mot après mot en se basant sur le mot généré précédemment, l’état du réseau neuronal au temps précédent et la représentation de la phrase source fournie par l’encodeur (Casacuberta Nolla and Peris Abril 2017, 69).

(22)

21

Figure 7 : Schéma d’architecture basée sur un encodeur et un décodeur (Koehn 2017, 47)

En général, les systèmes de traduction automatique neuronaux génèrent plusieurs possibilités de traduction pour traduire un mot source, ce qui engendre une recherche de la meilleure traduction sous forme d’arborescence. Il est néanmoins possible de contrôler la recherche en éliminant au fur et à mesure les branches les moins prometteuses (Casacuberta Nolla and Peris Abril 2017, 70).

La force des réseaux neuronaux réside essentiellement dans le fait qu’ils traduisent les phrases entières à partir du concept ou de l’idée qu’elles véhiculent, obtenu grâce à la représentation vectorielle, que nous avons décrite précédemment. Les textes obtenus sont ainsi plus cohérents dans leur ensemble et il peut parfois être difficile de les identifier comme étant traduits automatiquement. Le travail des relecteurs s’en trouve donc changé, car ils doivent désormais davantage se concentrer sur le sens des phrases que sur les tournures de phrases et la grammaire.

Traduire par phrases entières offre aussi l’avantage non négligeable de mieux traiter les langues dont l’ordre des mots diffère fortement de celui de l’anglais ou du français, comme l’allemand ou les langues asiatiques et celui de générer des traductions plus fluides et naturelles2.

Selon Koehn, il reste cependant une importante marge de progression car :

- les méthodes de personnalisation et d’adaptation n’ont pas encore été développées pour les systèmes neuronaux ;

- le vocabulaire reste limité à cause des restrictions qu’impose le matériel informatique.

Les modèles actuels sont entraînés avec un vocabulaire de 50'000 mots et dans le cas où ils dépasseraient ce nombre, les mots excédentaires sont fragmentés, ce qui représente

2 https://www.linguacustodia.finance/fr/lapprentissage-par-reseau-de-neurones-pour-les-outils-de-traduction- automatique/ (consulté le 6 mai 2019)

(23)

22

un réel problème pour étendre ces systèmes à des domaines qui comportent une vaste terminologie ;

- seules des études pilotes ont développé des techniques d’adaptation à des domaines, mais les recherches n’ont pas encore dépassé ce stade ;

- plusieurs indicateurs montrent que les systèmes neuronaux requièrent une grande quantité de données pour être efficaces ; or la quantité nécessaire pour surpasser les modèles basés sur les phrases n’a pas encore été établie ;

- il est difficile de débugger les systèmes neuronaux. En effet, contrairement aux systèmes statistiques basés sur les phrases où il est possible d’identifier la raison pour laquelle le système a traduit d’une telle manière et d’y remédier, les chercheurs ont pour l’heure peu d’espoir de trouver un moyen de le faire pour les systèmes neuronaux ;

- corriger les erreurs de traduction produites par les systèmes neuronaux est une tâche complexe, car ces derniers ont tendance à générer des phrases où certains mots semblent coller au contexte, mais n’ont en réalité pas grand-chose à voir avec la phrase source3 ; - en règle générale, les systèmes neuronaux rencontrent des problèmes à partir du moment où les textes à traduire diffèrent fortement des conditions d’entraînement. (Koehn 2017, 90) ;

Malgré les problèmes précités, il est important de garder à l’esprit que cette technologie est encore très récente et que la recherche se met en place afin de trouver à brève échéance des réponses à ces problèmes.

Afin de comprendre l’état actuel des systèmes neuronaux, il est intéressant de se placer du point de vue des fournisseurs de traduction automatique, car l’objectif des grands acteurs du milieu que sont Google, Microsoft Translator et les nouveaux arrivants tels que DeepL est de permettre à n’importe qui de traduire n’importe quoi n’importe quand. Pour remplir ce cahier des charges, les systèmes doivent être en mesure de couvrir autant de domaines que possible et sont donc entraînés avec des quantités de données gigantesques. Cette méthode a ses avantages, mais elle accentue surtout certaines faiblesses. En effet, au moment de traduire, le système génère la meilleure traduction possible à partir de l’énorme quantité de données dont il dispose. Il détermine ainsi statistiquement quelle traduction est la plus appropriée et va donc se focaliser sur la phrase à traduire plutôt que sur le texte complet pour identifier le contexte. Or, certaines phrases, prises individuellement, peuvent être comprises de différentes manières sans le

3 https://omniscien.com/state-neural-machine-translation-nmt/ (consulté le 7 mai 2019)

(24)

23

contexte élargi et il peut arriver que le système choisisse le mauvais domaine et traduise une phrase hors du contexte général du texte. Pour éviter ce problème, certains fournisseurs de traduction automatique ont donc mis au point des systèmes personnalisés conçus pour remplir une fonction précise qu’ils ont entraînés avec des contenus moins denses et spécialisés dans un domaine. Ils produisent ainsi des traductions directement ancrées dans le domaine topique, moins ambigües et globalement de meilleure qualité.4

En l’état, il serait néanmoins trompeur de dire que les systèmes neuronaux approcheront bientôt le niveau de qualité des traductions humaines et cela pourrait engendrer des attentes irréalistes ; mais il est toutefois indéniable qu’ils sont aujourd’hui la technologie de traduction automatique la plus prometteuse. Ils affichent en effet les meilleurs résultats lors des dernières évaluations et ont été adoptés rapidement par de nombreux acteurs du marché, tels que Google et Systran.

Cette technologie a cependant encore besoin de faire ses preuves, notamment lorsqu’elle doit traduire des textes issus de domaines qu’elle n’a pas encore abordés et dans des conditions où elle manque de ressources. Ces problèmes devraient être résolus au moins en partie au cours des années à venir.

Nous allons maintenant présenter les trois traducteurs automatiques neuronaux qui seront utilisés au cours de notre expérience.

2.2.3.1 DeepL Traducteur

La genèse de DeepL est racontée sur son site officiel www.deepl.com5. Elle débute en 2007, lorsque Gereon Frahling quitte son poste chez Google Research et commence à développer un moteur de recherche de traductions. Leo Fink et lui programment des « crawlers », des algorithmes qui seront utilisés par Linguee pour collecter des traductions sur internet, et des systèmes d’apprentissage machine. En 2009, Linguee, le premier moteur de recherche pour les traductions, est lancé. De nouvelles paires de langues deviennent disponibles au fil du temps et le moteur gagne rapidement en popularité auprès des utilisateurs. A partir de 2014, Linguee développe des outils d’apprentissage machine que les concepteurs entraînent avec les traductions récoltées pour le développement de leur moteur de recherche. Grâce à l’expérience accumulée dans le domaine de l’intelligence artificielle, la société lance le projet d’un système de réseaux neuronaux pour la traduction de tous types de textes en 2016, et DeepL Traducteur est officiellement lancé publiquement en août 2017. En mars 2018, DeepL (anciennement

4 https://omniscien.com/riding-machine-translation-hype-cycle/ (consulté le 7 mai 2019)

5 https://www.deepl.com/press.html (consulté le 9 mai 2019)

(25)

24

Linguee), lance DeepL Pro, un service de traduction en ligne optimisé qui permet d’intégrer un plug-in de logiciel pour donner la possibilité aux traducteurs d’intégrer le traducteur automatique à leur logiciel de traduction, tels que SDL Trados ou memoQ. Outre l’aspect pratique, cette version professionnelle assure une protection élargie des données des utilisateurs puisque les textes et leurs traductions ne sont pas conservés ou utilisés pour l’entraînement du réseau neuronal.

Figure 8 : Interface de DeepL (https://www.deepl.com/translator)

Derrière ce traducteur en ligne se cache un superordinateur basé en Islande dont la puissance de calcul est de 5,1 pétaFLOPS, soit 5 100 000 000 000 000 opérations par seconde, suffisant pour traduire un million de mots en moins d’une seconde. Les développeurs l’utilisent pour entraîner les réseaux neuronaux de traduction à partir des textes multilingues récoltés, qui apprennent sans assistance humaine à traduire en respectant la grammaire et la structure des textes. DeepL est aujourd’hui capable de traduire en 9 langues (français, anglais, allemand, espagnol, portugais, italien, néerlandais, polonais et russe), soit 72 combinaisons possibles et d’autres réseaux sont en cours d’entraînement pour intégrer à terme le mandarin et le japonais.

DeepL a également créé une interface de programmation applicative (API en anglais) qui

(26)

25

permet aux développeurs de créer des applications de traduction en direct pour vidéo et chat, des extensions de navigateur, des clients de messagerie, des services de traduction en réalité augmentée etc.

Selon les informations trouvées sur le site officiel de DeepL, ce traducteur aurait été préféré à ses concurrents comme Google Traduction ou Bing Microsoft Translator lors de blind-tests, les évaluateurs ayant apparemment choisi les versions de DeepL Traducteur trois fois plus souvent que les autres. De plus, les évaluations automatiques semblent aussi aller dans ce sens. Selon notre propre expérience au cours de notre formation, les traductions produites par ce traducteur sont étonnantes de par leur qualité, tant au niveau de la fluidité qu’au niveau grammatical.

Il nous paraît néanmoins important de souligner que nous avons surtout eu l’occasion de tester la qualité des traductions de textes techniques sur DeepL, moins de textes littéraires ou de langue parlée. Cependant, la réputation de ce traducteur automatique comme étant le plus performant et notre expérience personnelle lors de diverses utilisations l’ont fait apparaître comme tout indiqué dans le cadre de notre expérience, la traduction de gros mots, étant vraisemblablement un aspect de la langue moins développé et entraîné que d’autres.

2.2.3.2 Google Traduction

Google Traduction a été lancé en avril 2006 sur la base d’un système statistique qui traduisait d’abord le texte source en anglais puis le traduisait dans la langue demandée. Ses corpus étaient basés sur des documents des Nations Unies et du Parlement européen. Google a décliné son traducteur en application Android en janvier 2010 et a sorti une version iOS en février 20116. A partir de 2016, le système statistique a été remplacé par un réseau neuronal, fonctionnel pour traduire entre le mandarin et l’anglais, avant d’être étendu à d’autres langues. Ce changement a non seulement permis au système de traiter des phrases entières au lieu de parties comme le faisait auparavant le système statistique, mais aussi de ne plus avoir à passer par l’intermédiaire de l’anglais pour traduire d’une langue à l’autre. Google Traduction est aujourd’hui capable de traduire dans 103 langues différentes, soit davantage que n’importe quel autre traducteur automatique, et bénéficie du travail accompli dans le monde entier par des utilisateurs qui participent à son amélioration en traduisant des textes, ce qui lui fournit ainsi des traductions humaines pour s’entraîner. Ces changements de mode de fonctionnement ont ainsi globalement amélioré la qualité des traductions de 60%, même si la qualité n’est pas la même dans chaque

6 https://www.independent.co.uk/life-style/gadgets-and-tech/news/google-translate-how-work-foreign-languages- interpreter-app-search-engine-a8406131.html (consulté le 9 mai 2019)

(27)

26

paire de langues. Les traductions entre l’anglais et le français sont par exemple en l’état bien plus probantes que celles entre le mandarin et l’anglais7.

Figure 9 : Interface de Google Traduction (https://translate.google.com/?hl=fr)

Google Traduction a également la particularité de pouvoir traduire différents documents ou médias. Il propose la traduction de mots, de sites web, de documents (.doc, .docx, .odf, .pdf, .ppt, .pptx, .ps, .rtf, .txt, .xls, .xlsx), par saisie vocale, d’images, de texte dans d’autres applications ou encore d’écriture manuscrite8.

Nous avons choisi de réaliser notre expérience avec Google traduction, car c’est sans doute le traducteur automatique en ligne le plus connu et utilisé à travers le monde. Il représente ainsi un bon point de repère du fait que la plupart des personnes non professionnelles du domaine pensent à Google Traduction lorsque l’on évoque le sujet de la traduction automatique. De plus, Google s’est (et a) beaucoup investi dans ce traducteur et il nous a dès lors paru intéressant de le mettre à l’épreuve dans le cadre de notre expérience.

2.2.3.3 Bing Microsoft Translator

Bing Translator est la plateforme en ligne intermédiaire du traducteur automatique Microsoft Translator. Bing Translator a été lancé en 2007 (sous le nom de Windows Live translator). Ce traducteur a d’abord fonctionné sur la base d’un système statistique (encore en fonction

7 https://www.argotrans.com/blog/accurate-google-translate-2018/ (consulté le 9 mai 2019)

8 https://support.google.com/translate/answer/6142468?hl=fr&ref_topic=7011659 (consulté le 9 mai 2019)

(28)

27

aujourd’hui) puis d’un système neuronal, implémenté en mai 2018. D’après les informations trouvées sur le site officiel de Microsoft9, le système statistique utilise un corpus parallèle et les méthodes statistiques ainsi que des informations linguistiques pour améliorer la qualité de ses traductions. La traduction automatique neuronale de Microsoft Translator fonctionne pour toutes les langues supportées, soit plus de 60 langues naturelles. Le système prend en compte la phrase entière pour respecter autant que possible le contexte de la phrase source et générer des traductions plus fluides que celles produites par la méthode statistique.

Figure 10 : Interface de Bing Microsoft Translator (https://www.bing.com/translator)

Microsoft Translator Text API est une interface de programmation applicative utilisée depuis 2007 par Microsoft et disponible depuis 2011 pour les clients de la société. Ce service, qui permet de traduire du texte, des sites web et des applications est intégré aux produits de Microsoft tels que Bing, Cortana, Office ou Skype. Il est aussi utilisé dans la traduction de la parole depuis 2014 (dans Skype Translator) et a été ouvert aux clients sous forme d’API au

9 https://www.microsoft.com/en-us/translator/business/translator-api/ (consulté le 10 mai 2019)

(29)

28

début de l’année 2016. La technologie de traduction vocale est intégrée aux applications Microsoft Translator sous Android, iOS et Windows10.

L’objectif de notre mémoire étant d’évaluer l’efficacité des traducteurs automatiques pour gérer la traduction de gros mots en contexte, nous avons sélectionné un autre acteur important de la traduction automatique, qui plus est facilement accessible. Nous avons donc décidé d’utiliser le traducteur de Microsoft pour notre expérience. Il constitue ainsi un troisième point de comparaison, développé par un acteur majeur de la traduction dans le monde et qui développe des technologies linguistiques depuis de longues années déjà. De plus, il nous permettra d’observer les différences qui pourraient exister entre Microsoft Translator et Google Traduction.

2.3 Conclusion

Cet exposé théorique nous a permis de poser le contexte dans lequel nous avons choisi de rédiger ce travail avant de procéder à notre expérience. Nous avons évoqué l’histoire de la traduction automatique (section 2.1), les différents systèmes développés au fil du temps (section 2.2) et finalement présenté les trois traducteurs automatiques en ligne que nous utiliserons pour notre expérience (sections 2.2.3.1-2-3). Avant de procéder à cette dernière, nous allons aborder la deuxième partie théorique, qui s’intéressera à l’évaluation des systèmes de traduction.

10 https://www.microsoft.com/fr-fr/translator/business/machine-translation/#whatmachine (consulté le 10 mai 2019)

(30)

29

3. L’évaluation des systèmes de traduction

Estimer la qualité d’un système de traduction est une question complexe, non seulement parce qu’elle implique de prendre en compte de nombreux facteurs, mais aussi en raison du fait que mesurer la qualité d’une traduction est une tâche intrinsèquement difficile (Arnold 1994, 157).

En effet, évaluer la qualité d’un système de traduction automatique implique d’utiliser les traductions produites par le système, puis de les soumettre soit à des juges humains, soit à des outils d’évaluation automatiques. Pour Bouillon (Bouillon 1993, 266), il y a quatre étapes à respecter lors d’une évaluation. Il est tout d’abord nécessaire d’identifier les besoins que l’on cherche à satisfaire et ce que l’on attend du système. Dans cette optique, il faut établir une liste de critères que l’on ordonnera en fonction de leur importance. Ensuite, il faut trouver une technique qui permette d’obtenir des données en lien avec les critères établis précédemment.

Cela fait, il faut collecter les données, les analyser et, enfin, juger le ou les systèmes évalués en se basant sur l’analyse des données collectées.

Dans les sections suivantes, nous allons présenter l’évaluation humaine (3.1) et l’évaluation automatique (3.2), puis présenter divers outils d’évaluation automatique avant de conclure en exposant les systèmes d’évaluation choisis dans le cadre de ce travail (3.3).

3.1 L’évaluation humaine

La première méthode d’évaluation de systèmes de traduction automatique possible est l’évaluation humaine. Une première forme d’évaluation humaine peut simplement consister à lire la traduction produite par un système et à juger manuellement si celle-ci est correcte ou non. Pour procéder une telle appréciation, les évaluateurs bilingues capables de comprendre aussi bien le texte source que le texte cible sont les plus qualifiés. Il n’est cependant pas toujours aisé de trouver des personnes ayant un tel profil, raison pour laquelle il n’est pas rare de recourir à des évaluateurs monolingues qui ne comprennent que la langue cible, mais qui sont capables de juger de la qualité de la traduction du système s’ils ont accès à une traduction de référence (Koehn 2010, 218). Le principal risque que présente l’évaluation humaine est que, sans aspect précis à évaluer, elle peut rapidement devenir subjective. Pour pallier ce risque, il est généralement demandé aux évaluateurs de se focaliser sur deux critères : la fluidité et la fidélité.

La fluidité regroupe la justesse grammaticale et le choix idiomatique des mots, alors que la fidélité demande à vérifier si le sens du message source est conservé dans le texte cible, ou si une partie du sens a été perdu, ajouté ou transformé dans la traduction (Koehn 2010, 218). Si ces deux critères permettent de rendre les évaluations plus objectives, il reste difficile de cerner

(31)

30

précisément quels aspects de la langue relèvent précisément de l’un ou de l’autre. De fait, une phrase remplie de fautes est fatalement porteuse d’un message peu clair. Selon Koehn, le fait que les humains ont du mal à discerner ces deux critères peut également refléter la difficulté qu’ils éprouvent à accomplir cette tâche (Koehn 2010, 220).

Figure 11 : Exemple d’évaluation humaine basée sur la fluidité et la fidélité (Koehn 2010, 219)

Une autre forme d’évaluation humaine consiste à comparer les traductions issues de systèmes différents et à déterminer laquelle est la meilleure ; les juges attribuent un point à cette dernière, mais aucun point s’ils estiment que les traductions sont équivalentes. Dans le cadre de l’évaluation de deux systèmes, les résultats sont souvent plus similaires lorsque les évaluateurs doivent départager deux systèmes que lorsqu’ils doivent juger une traduction sur sa fluidité et sa fidélité (Koehn 2010, 220). Nous avons opté pour cette forme d’évaluation humaine pour notre travail, étant donné que nous devrons départager plusieurs systèmes de traduction automatique avant de confronter le système le plus performant à la traduction humaine.

Quelle que soit la méthode choisie, Koehn (Koehn 2010, 220-221) estime qu’une évaluation doit être peu coûteuse (en temps et en argent, afin de pouvoir en effectuer plusieurs sur une courte période), modifiable (utiliser les résultats de l’évaluation pour l’affiner si nécessaire), pertinente (la traduction est-elle effectivement mauvaise ou l’évaluateur a-t-il rendu une évaluation bâclée ?), constante (des évaluateurs utilisant les mêmes critères d’évaluation devraient arriver aux mêmes conclusions, ce qui s’appelle l’accord entre annotateurs). Si les résultats sont très différents, il est nécessaire d’effectuer plus de tests pour assurer la fiabilité de l’évaluation effectuée. Enfin, une évaluation humaine doit fournir des résultats corrects, dans le sens où elle doit refléter la qualité réelle de la traduction.

Adequacy

5 All meaning 4 most meaning 3 much meaning 2 little meaning 1 none

Fluency

5 flawless English 4 good English 3 non-native English 2 disfluent English 1 incomprehensible

(32)

31

3.1.1 Le score Kappa

Pour vérifier la constance des réponses des évaluateurs, il est possible de calculer la moyenne des scores de chaque phrase et de prendre en compte la variabilité entre les annotateurs en utilisant des méthodes statistiques, comme le score Kappa.

Le score Kappa est une mesure statistique qui permet de chiffrer l’accord entre deux ou plusieurs juges lors de jugements qualitatifs (Branger 2009, 1). Pour calculer ce score, il faut compter le nombre de fois où tous les évaluateurs ont fait le même choix, puis diviser le résultat par le nombre total de segments à évaluer.

Afin d’illustrer notre propos, prenons un exemple d’évaluation où deux juges doivent choisir la meilleure traduction de cinq segments, entre trois choix possibles :

Segment Juge 1 Juge 2 segment 1 2 2 ✓ segment 2 2 3

segment 3 2 2 segment 4 1 1 ✓ segment 5 2 3

Tableau 1 : Exemple de récapitulatif d’évaluation humaine (basé sur le cours de TA2 de madame P. Bouillon, 2019)

Sur les 5 segments évalués, les juges 1 et 2 ont choisi la même traduction dans trois cas (segments 1, 3 et 4). L’accord entre les juges est donc de 3/5, soit de 0,6.

Le calcul doit toutefois être affiné en prenant en compte le facteur chance, dans le cas où les juges ont effectué le même choix par hasard. La formule est la suivante :

=𝑃(𝑎)−𝑃(𝑒) 1 − 𝑃(𝑒)

Où P(a) désigne l’accord observé et P(e) la probabilité que l’accord soit dû au hasard, calculé de la manière suivante :

P(e) = P(1) + P(2) + P(3)

Où P(2) est la probabilité que les deux juges choisissent la version 2. Dans notre exemple, le juge 1 a choisi quatre fois la traduction numéro 2 sur cinq segments (4/5=0,8). Le juge 2 a choisi deux fois cette traduction (2/5=0,4). La probabilité que les deux juges choisissent la traduction

(33)

32

2 est donc 0,8 * 0,4 = 0,32. Si nous prenons les valeurs de notre exemple, en effectuant le même calcul pour P(1) et P(3), P(e) = 0,04 + 0,32 + 0 = 0,36 et =0.6−0.36

1−0.36 = 0.375 (Bouillon 2019).

Le score Kappa donne une valeur entre 0 et 1. Cette valeur donne une idée de l’accord qui existe entre les évaluateurs :

Valeur Accord

0 equivalent to chance 0.1 – 0.20 slight agreement 0.21 – 0.40 fair agreement 0.41 – 0.60 moderate agreement 0.61 – 0.80 substantial agreement 0.81 – 0.99 near perfect agreement

1 perfect agreement

Tableau 2 : Accord des juges selon le score Kappa

(https://www.statisticshowto.datasciencecentral.com/cohens-kappa-statistic/)

3.2 L’évaluation automatique

Si nous avons généralement davantage confiance dans les évaluations humaines et le jugement de nos congénères, cette méthode, bien qu’efficace, a deux défauts majeurs : elle coûte cher et prend du temps. Or, le temps et l’argent sont des ressources dont les chercheurs en systèmes de traduction automatique disposent peu, alors qu’ils ont grandement besoin d’évaluer l’efficacité des changements qu’ils apportent à leurs systèmes, plusieurs fois par jour dans certains cas.

C’est là le rôle de l’évaluation automatique (Koehn 2010, 222).

3.2.1 La précision et le rappel

Tous les programmes d’évaluation automatique fonctionnent de la même manière. Ils comparent une phrase traduite par un système de traduction automatique à une ou plusieurs traductions humaines (appelées traductions de référence) de la même phrase. Si Koehn estime qu’il serait excessif de demander à un traducteur automatique, et même à un traducteur humain, que sa traduction corresponde parfaitement à une traduction de référence, il est plus probable qu’une traduction très proche soit de bonne qualité ; le défi consiste alors à trouver la meilleure

(34)

33

manière de mesurer les similarités entre les traductions. En l’état actuel des connaissanes, les métriques les plus simples à utiliser sont la précision et le rappel (Koehn 2010, 222-223) Concrètement, ces deux métriques sont des calculs. Pour obtenir la précision, on divise le nombre de mots identiques dans la traduction automatique et dans la traduction de référence par le nombre de mots total de la traduction automatique :

𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑚𝑜𝑡𝑠 𝑖𝑑𝑒𝑛𝑡𝑖𝑞𝑢𝑒𝑠 𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑡𝑠 𝑇𝐴

Le rappel se calcule quant à lui en divisant le nombre de mots identiques dans la traduction automatique par le nombre de mots total de la traduction de référence.

𝑅𝑎𝑝𝑝𝑒𝑙 = 𝑚𝑜𝑡𝑠 𝑖𝑑𝑒𝑛𝑡𝑖𝑞𝑢𝑒𝑠

𝑛𝑜𝑚𝑏𝑟𝑒 𝑑𝑒 𝑚𝑜𝑡𝑠 𝑑𝑒 𝑙𝑎 𝑟é𝑓é𝑟𝑒𝑛𝑐𝑒

Le domaine de la traduction automatique s’intéresse aussi bien à la précision qu’au rappel, à la différence d’autres disciplines. Dans le cadre d’une recherche internet par exemple, il est possible de trouver beaucoup de pages mais peu d’informations pertinentes. Dans ces cas-là, il serait préférable de trouver peu de pages contenant des informations de qualité plutôt que de nombreuses pages de qualité médiocre. Dans ce domaine, la précision est donc plus importante que le rappel (Koehn 2010, 223-224).

Pour combiner la précision et le rappel et en tirer une moyenne, il faut utiliser la f-measure :

𝑓 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑎𝑝𝑝𝑒𝑙 (𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑎𝑝𝑝𝑒𝑙)/2

Une variante de la f-measure, le Position-independent error rate (ci-après : PER), est similaire au rappel dans le sens où il utilise la longueur de la traduction de référence comme dénominateur. Le PER ne calcule pas le nombre de mots identiques mais le nombre d’erreurs et prend en compte les mots superflus de la traduction automatique, infligeant une pénalité au système si sa traduction est plus longue que celle de référence :

(35)

34

𝑃𝐸𝑅 = 1 −𝑐𝑜𝑟𝑟𝑒𝑐𝑡 − 𝑚𝑎𝑥(0, 𝑙𝑜𝑛𝑔𝑢𝑒𝑢𝑟 𝑑𝑒 𝑙𝑎 𝑇𝐴 − 𝑙𝑜𝑛𝑔𝑢𝑒𝑢𝑟 𝑑𝑒 𝑙𝑎 𝑟é𝑓é𝑟𝑒𝑛𝑐𝑒) 𝑙𝑜𝑛𝑔𝑢𝑒𝑢𝑟 𝑑𝑒 𝑙𝑎 𝑟é𝑓é𝑟𝑒𝑛𝑐𝑒

3.2.2 Le score BLEU

La méthode d’évaluation BLEU compte le nombre de N-grammes équivalents entre la traduction automatique et la ou les traductions de référence indépendamment de leur position dans la phrase. Plus il y a d’équivalences, plus la traduction est de bonne qualité (Papineni, Roukos et al. 2002, 312).

Le score se calcule de la manière suivante : pour chaque n, où n est un chiffre de 1 à 4, la précision N-gramme est définie comme étant le nombre de N-grammes équivalents dans la traduction automatique divisé par le nombre total de N-grammes dans la traduction de référence. Une pénalité de brièveté est appliquée pour les phrases trop courtes, où des mots ont été omis ou éliminés. Le score est ainsi diminué proportionnellement si la traduction est trop courte. La formule d’un BLEU-4 est la suivante :

(Koehn 2010)

Le résultat final est une valeur qui se situe entre 0 et 1, 0 étant le pire résultat possible et 1 le meilleur. Une traduction qui obtiendrait un score de 1 signifierait qu’elle est identique à la traduction de référence. C’est donc un score que même les traducteurs humains n’atteindront pas forcément étant donné la multiplicité des traductions possibles d’une même phrase.

Un point important à mettre en évidence est que le nombre de traductions de référence a un effet direct sur le score. Plus il y en a, plus le score est élevé. Il faut donc être attentif au moment de comparer les évaluations de traductions n’ayant pas eu recours au même nombre de traductions de référence (Papineni, Roukos et al. 2002, 315).

Le score BLEU (Bilingual Evaluation Understudy) est la plus utilisée des méthodes d’évaluation automatique des systèmes de traduction, car elle résout efficacement le problème de l’ordre des mots (Koehn 2010, 226). Contrairement aux évaluations humaines, elle est rapide, peu chère, et fonctionne pour toutes les langues. Cette métrique ne fait pas qu’attribuer un score aux erreurs et estimer si un texte est identique à une traduction de référence : elle détermine aussi si la traduction est fluide et fidèle.

Références

Documents relatifs

1. Traduction mot à mot du texte source vers le texte cible 2. Modification de l'ordre des mots traduits dans le texte cible.. Trois approches..

Vous ferez attention au fait que le langage permet de d´efinir une variable globale et un param`etre de fonction de mˆeme nom : dans le corps de la fonction, le param`etre masque

Il nous semble, dès lors, opportun de répondre ou du moins d’essayer d’apporter des réponses à la question suivante : jusqu’à quel point peut-on dire que les jeux

mettant en oeuvre un modèle concret d’analyse à partir du niveau syntaxique pour le russe et l’ébauche d’un modèle analogue pour le japonais et enfin un

Dans notre activité de sous-titrage nous avons eu affaire à différents niveaux de langue, mais les plus gros problèmes rencontrés ont été dus à la traduction des gros mots, car

‚ Contrôle de la cohérence des traductions ñ Logiciels professionnels (SDL Trados)..

ñ Quelle efficacité, quels biais de traduction. § Mémoires

Ensuite, pour nous rapprocher du sujet de ce mémoire, nous présenterons brièvement le système de TA utilisé, Microsoft Translator (section 2.4), puis nous finirons ce chapitre avec