• Aucun résultat trouvé

Microsoft Translator et le jargon vidéoludique : Evaluation de l’impact de la traduction automatique sur une conversation entre joueurs de jeux vidéo

N/A
N/A
Protected

Academic year: 2022

Partager "Microsoft Translator et le jargon vidéoludique : Evaluation de l’impact de la traduction automatique sur une conversation entre joueurs de jeux vidéo"

Copied!
294
0
0

Texte intégral

(1)

Master

Reference

Microsoft Translator et le jargon vidéoludique : Evaluation de l'impact de la traduction automatique sur une conversation entre joueurs de

jeux vidéo

ALVES, Lea Michelle

Abstract

Ce mémoire de maîtrise présente l'impact de la traduction automatique sur la compréhensibilité lors d'une discussion entre participants faisant usage d'un langage vidéoludique. Afin d'observer cet impact, notre analyse se compose d'une évaluation automatique et d'une évaluation humaine pour permettre de mesurer, dans un premier temps, la qualité des traductions générées d'un langage spécifique et, dans un second temps, son impact sur la compréhensibilité générale au cours d'une conversation écrite. La première évaluation consiste à mesurer les scores de rappel, de précision et de la f-mesure d'une liste de mots tirés du jeu de rôle en ligne massivement multijoueur Final Fantasy XIV. La seconde évaluation mesure l'intelligibilité et l'exactitude des messages traduits lors des discussions entre deux joueurs et a permis de mettre en lumière différentes situations d'incompréhension causées par la traduction automatique.

ALVES, Lea Michelle. Microsoft Translator et le jargon vidéoludique : Evaluation de l'impact de la traduction automatique sur une conversation entre joueurs de jeux vidéo. Master : Univ. Genève, 2021

Available at:

http://archive-ouverte.unige.ch/unige:155488

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Lea Alves

Microsoft Translator et le jargon vidéoludique

Evaluation de l’impact de la traduction automatique sur une conversation entre joueurs de jeux vidéo

Directrice : Professeure Pierrette Bouillon Jurée : Johanna Gerlach

Mémoire présenté à la Faculté de traduction et d’interprétation pour l’obtention de la Maîtrise universitaire en traitement informatique

multilingue.

Université de Genève

Session de Printemps 2021

(3)

1 Déclaration attestant le caractère original du travail effectué

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la Faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant-e-s, le Règlement d’études des Maîtrises universitaires en traduction et du Certificat complémentaire en traduction de la Faculté de traduction et d’interprétation ainsi que l’Aide-mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis consciente que le fait de ne pas citer une source ou de ne pas la citer

correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Nom et prénom : Alves Lea

Lieu / date / signature : Lausanne, le 18.08.2021

(4)

Remerciements

Je tiens à remercier toutes les personnes qui ont contribué à la réalisation de ce projet et qui m’ont aidée lors de la rédaction de ce mémoire.

Je voudrais tout d’abord adresser toute ma reconnaissance à la directrice de ce mémoire, Mme Pierrette Bouillon, pour sa disponibilité, son enthousiasme dès l’ébauche de ce projet et surtout ses conseils avisés qui m’ont guidé tout au long de la rédaction de ce travail. Je tiens aussi à remercier Johanna Gerlach d’avoir accepté d’être ma jurée et pour ses précieux conseils qui m’ont aidé à finaliser mon mémoire.

Je remercie mes très chers parents, Ursula et Antonio, qui ont toujours été là pour moi et ont fait preuve d’un soutien sans faille, et tout particulièrement à ma mère, qui m’a épaulé et a su me motiver chaque jour, même dans les moments les plus difficiles. Je remercie mes grands-parents, Marianne et Fritz, qui, malgré la crise sanitaire, ont su rester à mes côtés et égayer mes journées.

Je tiens aussi à témoigner toute ma reconnaissance aux personnes suivantes, sans qui ce mémoire n’aurait pas pu aboutir :

Merci à Flo, pour son aide plus que précieuse et pour nos nombreuses discussions qui ont contribué à alimenter ma réflexion et qui ont su m’apporter du réconfort dans les moments de doute.

Un grand merci à Zabou, pour son soutien, ses recommandations concernant mon écriture et pour ses nombreuses heures passées à relire mon travail.

Je remercie également mes amis et collègues Kübra et Louis, pour leurs soigneuses relectures et leurs nombreux conseils.

Pour finir, un grand merci à tous mes amis et joueurs de Final Fantasy XIV qui ont accepté de faire partie de ce projet. Je remercie en particulier Kalle pour son soutien continu.

***

À Brigitte, pour avoir toujours cru en moi.

(5)

2

Table des matières

Table des matières ... 2

1 Introduction... 5

1.1 Motivation ... 5

1.2 Problématique, hypothèse et méthodologie ... 6

1.3 Plan du mémoire ... 7

2 La traduction automatique ... 9

2.1 Introduction ... 9

2.2 Histoire... 9

2.3 Les systèmes de traduction automatique ... 14

2.3.1 Systèmes basés sur les règles ... 14

2.3.2 Systèmes basés sur les corpus ... 19

2.4 Microsoft Translator ... 24

2.5 La traduction automatique dans les jeux vidéo ... 25

2.5.1 La traduction du jeu vidéo ... 25

2.5.2 La traduction automatique dans les messageries instantanées... 26

2.5.3 L’introduction des systèmes de traduction automatique dans les jeux vidéo ... 27

2.6 Conclusion ... 28

3 La communication en jeu ... 29

3.1 Introduction ... 29

3.2 La communication ... 29

3.3 L’importance de la communication entre joueurs ... 30

3.4 Le langage du gaming ... 30

3.4.1 Les différents types de jeux ... 31

3.4.2 Le MMORPG ... 33

3.5 Typologie du chat ... 36

3.5.1 Abréviations ... 36

3.5.2 Substitutions de graphèmes ... 37

3.5.3 Neutralisations en finale absolue ... 37

3.5.4 Procédés expressifs ... 37

3.6 Conclusion ... 37

4 Méthodologie ... 38

4.1 Introduction ... 38

4.2 Choix du jeu ... 38

4.3 Choix de l’évaluation ... 40

(6)

3

4.3.1 Choix de l’outil de traduction automatique ... 41

4.3.2 Evaluation automatique ... 41

4.3.3 Evaluation humaine ... 44

4.3.4 System Usability Scale - SUS ... 52

4.4 Conclusion ... 54

5 Discussion des résultats ... 56

5.1 Introduction ... 56

5.2 Évaluation automatique ... 56

5.2.1 Résultats : Rappel, Précision et F-mesure ... 56

5.2.2 Discussion des résultats de l’évaluation automatique ... 57

5.3 Évaluation humaine ... 59

5.3.1 Données récoltées ... 59

5.3.2 Résultats des taux d’intelligibilité et exactitude ... 60

5.3.3 Comparaison des résultats des deux discussions ... 65

5.3.4 Résultats de l’annotation ... 66

5.3.5 Problèmes rencontrés causant des incompréhensions ... 68

5.3.6 Autres problèmes de traduction ... 81

5.4 Résultats du questionnaire SUS ... 86

5.5 Conclusion ... 88

6 Conclusion de la recherche ... 91

6.1 Résumé ... 91

6.2 Limites de l’étude et pistes à explorer ... 92

7 Bibliographie ... 95

8 Annexes ... 102

8.1 Annexe I : Liste d’expressions spécifiques (évaluation automatique) ... 102

8.1.1 Annexe I.I : Expressions de la catégorie générale ... 102

8.1.2 Annexe I.II : Expressions de la catégorie spécifique ... 121

8.2 Annexe II : Déclaration de consentement en français ... 142

8.3 Annexe III : Déclaration de consentement en anglais ... 144

8.4 Annexe IV : Guide de discussion – participants francophones ... 148

8.5 Annexe V : Guide de discussion - participants anglophones ... 153

8.6 Annexe VI : Discussion J1 – J2 ... 159

8.7 Annexe VII : Discussion J3 – J4 ... 238

(7)

4 Table des figures

Figure 1 : Triangle de Vauquois (1968) (Raybaud, 2012, p. 3) ... 15

Figure 2 : Exemple tiré du jeu pour saluer un autre joueur ... 40

Figure 3 : Interface permettant de connaître les langues parlées par un autre joueur ... 40

Figure 4 : Illustration du calcul du rappel et de la précision (Koehn, 2009, p. 223). ... 42

Figure 5 : Visionneuse de messages avant le téléchargement du fichier .json ... 50

Figure 6 : Visionneuse de messages avec le parser Skype... 50

Figure 7 : Questionnaire SUS (Brooke, 1996) ... 53

Figure 8 : Directives générales du score SUS ... 54

Liste des tableaux Tableau 1: Listes de termes relatant du domaine du gaming, du MMORPG et du jeu Final Fantasy XIV ... 35

Tableau 2: Grille d’annotation ... 51

Tableau 3: Résultats des scores de rappel, précision et F-mesure - liste des expressions générales ... 57

Tableau 4: Résultats des scores de rappel, précision et F-mesure - liste de expressions spécifiques ... 57

Tableau 5: Intelligibilité et exactitude des messages instantanés traduits au total (0 = maximum ; 6 = minimum) ... 60

Tableau 6: Intelligibilité et exactitude des messages instantanés traduits anglais vers français . 61 Tableau 7: Intelligibilité et exactitude des messages instantanés traduits français vers anglais . 62 Tableau 8: Intelligibilité et exactitude des messages instantanés traduits au total ... 63

Tableau 9: Intelligibilité et exactitude des messages instantanés traduits anglais vers français . 64 Tableau 10: Intelligibilité et exactitude des messages instantanés traduits français vers anglais 65 Tableau 11: Résultats de l’annotation des discussions... 66

Tableau 12: Traductions des rires ... 84

Tableau 13: Résultats du questionnaire SUS ... 87

(8)

5

1 Introduction 1.1 Motivation

Depuis plusieurs années, l’industrie vidéoludique n’a cessé de connaître un succès grandissant à travers le monde et rivalise désormais avec l’industrie de la littérature et de la cinématographie (Buseyne, 2018). En effet, la comparaison des chiffres d’affaires des trois dernières années des différents secteurs de l’industrie du divertissement montre que le jeu vidéo remporte largement la main en termes de popularité avec un chiffre comptabilisant 174,9 milliards de dollars en 2020 (Gaudiaut, 2021).

Parmi les différents types de jeux vidéo actuellement sur le marché, le jeu de rôle en ligne massivement multijoueur, communément abrégé en MMORPG (Massively Multiplayer Online Role-Playing Game), est bien connu depuis l’arrivée de World of Warcraft en 2004. La particularité de ces jeux est le regroupement massif de joueurs dans un monde constamment en ligne, leur permettant de communiquer et d’interagir entre eux. La communication dans ce type de jeu est d’ailleurs un aspect

particulièrement important, car il relève de l’identité communautaire des joueurs et leur permet, entre autres, d’accomplir des quêtes qu’ils ne pourraient accomplir en jouant seuls. L’identité des joueurs se répercute aussi sur leur façon de parler et définit ce qu’Ensslin (2011) appelle le langage du gaming. Ce langage est riche en vocabulaire spécifique et, comme nous le verrons au fil de cette étude, devient de plus en plus spécialisé en fonction du jeu et du monde auquel il appartient.

Compte tenu de la richesse d’un tel vocabulaire, il nous semblait intéressant de pouvoir rendre compte des progrès qu’ont faits les systèmes de traduction automatique dans ce contexte. En effet, tout comme les technologies ont impacté l’industrie vidéoludique avec, par exemple, l’arrivée de nouvelles expériences de jeu par le biais de casques de réalité virtuelle, les systèmes de traduction automatique (TA) ont, eux aussi, connu des avancées sans précédent depuis l’apparition des systèmes neuronaux (« Ce que vous devez absolument savoir sur la traduction neuronale », 2020), issus directement des avancées en recherche d’intelligence artificielle. La mise en relation entre la TA et le jeu vidéo est un croisement encore peu reconnu (Bushouse, 2015), comme nous le verrons au cours de l’état de la recherche. C’est précisément ce domaine encore peu exploré et la facette du langage du gaming, qui permet d’identifier les joueurs selon le vocabulaire

(9)

6 qu’ils utilisent, qui nous a toujours fasciné et qui nous a guidé lors du choix du sujet de ce mémoire.

1.2 Problématique, hypothèse et méthodologie

L’objectif premier de ce mémoire est d’évaluer l’impact de la traduction automatique lors de conversations écrites entre joueurs. Notre travail de recherche se concentrera ainsi sur les questions suivantes :

1 : La traduction automatique aide-t-elle à la compréhension et à l’échange d’informations entre joueurs de langues maternelles différentes ?

2 : Quels problèmes de compréhension surviennent lorsque des joueurs

communiquent à l’aide d’un système de TA et comment ces incompréhensions sont-elles résolues ?

Notre hypothèse de base est que la communication entre joueurs de langues maternelles différentes sera possible, mais que des malentendus peuvent survenir, en particulier au niveau du lexique, au vu de la terminologie spécifique des jeux. Par exemple, les noms de donjons ou de compétences ne seront pas toujours traduits de manière compréhensible pour les participants. Nous formulons cette hypothèse en nous référant aux recherches de Koehn et Knowles (2017), qui comparent la performance entre un système de

traduction statistique et un système de traduction neuronal. Leur étude leur a permis de constater que les systèmes neuronaux étaient de pauvre qualité lorsqu’il s’agissait de générer des termes ou des phrases dans des domaines spécialisés tels que le domaine juridique ou médical. Pour un contexte aussi particulier que le langage du gaming (voir section 3.4), nous pensons que des erreurs de traduction auront lieu et qu’elles

provoqueront des problèmes de compréhension pour les joueurs.

Afin de répondre à ces questions de manière concrète, nous allons réaliser une étude qui mettra en situation des joueurs de langues maternelles différentes qui discutent autour du MMORPG Final Fantasy XIV via l’outil de communication Skype1, qui utilise le

traducteur automatique Microsoft Translator. Lors de cette expérience, nous

assignerons des tâches aux participants afin qu’ils aient un fil rouge de discussion et des thèmes spécifiques à aborder. Ces tâches impliqueront une utilisation plus ou moins

1 https://www.skype.com/fr/

(10)

7 forte de la terminologie liée au jeu, ce qui nous permettra d’observer si les différentes traductions générées par la TA posent des problèmes de compréhension ou si, au contraire, elle les aide à mieux communiquer.

Ensuite, notre analyse consistera à évaluer le système de TA Microsoft Translator en deux temps. Dans un premier temps, nous procéderons à une évaluation automatique en comparant une liste de traduction de référence contenant des termes spécifiques au jeu avec la traduction générée par Microsoft Translator. Cette évaluation nous permettra ainsi d’obtenir des données quant à la qualité du système neuronal pour la traduction de la terminologie spécifique. Dans un second temps, nous effectuerons une évaluation humaine, qui mesure l’intelligibilité et l’exactitude des messages traduits par la TA au fil de la discussion. Nous analyserons aussi qualitativement les situations

d’incompréhension rencontrées par les participants. L’évaluation du système de

traduction sur ces deux fronts nous permettra d’observer la performance de ce système avec une terminologie spécifique qui appartient au langage si particulier du jargon vidéoludique.

1.3 Plan du mémoire

Le présent travail de recherche est composé de six chapitres. Dans le chapitre 2, nous analyserons d’abord les différents aspects qui englobent la traduction automatique, c’est-à-dire son histoire (section 2.2), en observant rétrospectivement les grandes étapes depuis sa conception. Nous nous intéresserons aux différents systèmes de TA (section 2.3) qui existent à ce jour en définissant leur fonctionnement, tout en faisant la distinction entre les systèmes basés sur les règles (section 2.3.1) et ceux basés sur les corpus (section 2.3.2). Nous verrons aussi plus en détail le système de TA utilisé dans le cadre de notre étude, Microsoft Translator (section 2.4). Ce chapitre se poursuivra avec l’utilisation de la TA dans les jeux vidéo (section 2.5) et l’état actuel de la question quant à ce domaine de recherche. L’état de la question abordera les différentes études sur la traduction des jeux vidéo (2.5.1), les études ayant abordé la TA instantanée dans les chats (2.5.2) et finira avec l’introduction des systèmes de TA dans les jeux vidéo (2.5.3).

Le chapitre 3 examinera les différentes façons de communiquer en jeu : nous verrons brièvement ce qu’implique la communication (section 3.2) et l’importance de la

communication pour des joueurs de jeu vidéo (section 3.3). Nous nous attarderons sur le

(11)

8 langage du gaming (section 3.4) et examinerons les différents types de jeu vidéo en ligne afin de pouvoir mieux cerner le genre qui nous intéresse dans le cadre de ce travail, c’est-à-dire la série des Final Fantasy (section 3.4.2.1). Dans ce même chapitre, nous verrons la typologie du chat (section 3.5) afin d’acquérir une meilleure connaissance du langage utilisé lors des discussions entre nos participants. Le chapitre 4 détaillera la méthodologie de notre étude, notamment la façon dont nous avons procédé au choix du jeu (section 4.2) et aux choix de nos différentes évaluations (section 4.3). Le chapitre 5 présentera les résultats obtenus à la suite de ces évaluations. Finalement, le chapitre 6 conclura notre étude, où nous résumerons notre travail en répondant à notre

problématique (section 6.1) et présenterons les limites de notre étude et les pistes à explorer (section 6.2).

(12)

9

2 La traduction automatique 2.1 Introduction

Nous allons aborder ce présent mémoire avec, tout d’abord, une rétrospective sur la traduction automatique. Nous commencerons par porter un regard sur l’histoire de la traduction (section 2.2). Puis nous nous pencherons sur les différents systèmes existants à l’heure actuelle, en nous concentrant sur leur évolution et leur fonctionnement

(section 2.3). Ensuite, pour nous rapprocher du sujet de ce mémoire, nous présenterons brièvement le système de TA utilisé, Microsoft Translator (section 2.4), puis nous finirons ce chapitre avec la traduction automatique dans les jeux vidéo (2.5) pour nous concentrer sur l’état actuel de la recherche des domaines qui concernent notre étude, c’est-à-dire la traduction du jeu vidéo (2.5.1), la traduction automatique dans les messageries instantanées (2.5.2) et l’introduction des systèmes de traduction automatique dans les jeux vidéo (2.5.3).

2.2 Histoire

Le métier de traducteur est souvent décrit comme un pont permettant la transmission d’informations d’une culture à une autre (Gefen, 2011). Avec l’arrivée de la technologie des premiers ordinateurs, la traduction a été automatisée et les premiers systèmes de traduction automatique ont vu le jour au début des années 1950 (Léon, 2015, paragr. 1).

Comme avec toute invention technologique, le but premier de la traduction automatique était d’atteindre la qualité d’une traduction humaine pour faciliter le travail du

traducteur. Huchins (2006) explique que l’arrivée d’internet a créé des besoins supplémentaires : la demande de traductions en ligne immédiates.

On retrouve les premières pensées d’une mécanisation de la traduction au 17ème siècle, avec l’idée de mécaniser les dictionnaires (ibid). Les premiers brevets sont déposés par George Artsrouni et Petr Smirnov- Trojanskij en 1933 (Schwanke, 1991). Le premier brevet, enregistré par Artsrouni, est considéré comme le premier jalon de l’histoire de la traduction automatique (Daumas, 1965, p. 283). Sa machine était un outil à usage

général (production d’horaire et d’annuaire téléphonique, comptabilité, déchiffrage et encryptage de messages) qui fonctionnait comme un dictionnaire multilingue

mécanique et qu’il avait nommé « cerveau mécanique » (Hutchins, 1993, p. 14). D’après

(13)

10 Artsrouni, son invention pouvait traduire à partir d’une langue étrangère dans l’une des trois langues enregistrées (ibid) mais elle n’était pas limitée à ces langues ou à un

nombre de mots (ibid). Michael Corbé, un membre de l’UNESCO (Léon, 2002, paragr. 24), avait comparé le dispositif d'Artsrouni à la machine construite par Gilbert King pour IBM (ibid) et avait publié un article au sujet du dispositif en 1960 dans la revue

« Automatisme » (Daumas, 1965, p. 283). La machine à traduire d’Artsrouni (ibid) était basée sur un appareil nommé le photoscopic store. Ce dernier était un dictionnaire mécanique utilisé comme un système de TA par l’US Air Force de 1959 à 1964. Corbé s’était rendu compte de la grande ressemblance entre les deux inventions et avait décidé de déclarer Artsrouni comme un précurseur de la TA (Hutchins, 2003). Cependant, les dictionnaires automatiques et les systèmes de TA actuels sont très différents, ce qui remettrait en cause l’idée qu’Artsrouni pourrait être considéré comme un précurseur de la TA (ibid). En 1937, à l’occasion de l’Exposition Nationale de Paris (Daumas, 1965, p.

285), l’appareil d’Artsrouni avait été exposé et avait suscité un grand intérêt de la part de plusieurs organisations étatiques. Comme Artrsouni l’écrivait alors lui-même : « Leur principe a été couronné d’un Grand Prix de cette Exposition » (ibid). Cependant, les nombreux contrats signés avec l’inventeur n’ont pas pu aboutir à cause de la Seconde Guerre Mondiale et de l’occupation allemande en France (Hutchins, 1993).

En ce qui concerne le brevet déposé par Trojanskij, celui-ci a eu un impact significatif sur le paysage de la traduction automatique. L’idée de ce brevet était, tout comme chez Artsrouni, de créer un dictionnaire mécanique, mais Trojanskij proposait en plus un code basé sur des symboles universels (Hutchins, 2006, p. 1). Son projet de machine à traduire (Léon, 2015) se divisait alors en trois étapes distinctes, dont le brevet

concernait uniquement la deuxième étape. Pour la première étape, un éditeur ne connaissant que la langue de départ, procéderait à une analyse syntaxique des mots.

Dans la deuxième étape, la machine devrait transformer des codes sources en séquences équivalentes dans la langue d’arrivée. Pour la troisième et dernière étape, un second éditeur ne connaissant que la langue d’arrivée devrait convertir la séquence traduite en respectant les normes de sa langue maternelle (Hutchins, 2006, p. 4). Même si son brevet ne décrivait que le fonctionnement du dictionnaire mécanique, toutes les étapes de la traduction pouvaient être automatisées. Dans le cheminement de sa pensée, nous pouvons constater que Trojanskij avait déjà anticipé certains concepts centraux de la

(14)

11 traduction automatique en proposant un modèle en trois étapes qui nous est aujourd’hui bien connu : l’analyse, le transfert et la synthèse. Bien que certains aspects linguistiques n’aient pas été abordés, comme les problèmes liés aux idiomes propres à chaque langue ou encore l’ordre des mots qui diffère d’une langue à une autre, Hutchins (1993) déclare que si Trojanskij avait eu à sa portée la technologie que nous possédons aujourd’hui, il aurait été en mesure de réaliser ses idées et de les mettre en pratique et, ainsi, de devenir le véritable « père » de la traduction automatique.

Celui que l’on considère aujourd’hui comme le père incontestable de la traduction automatique et du traitement du langage naturel est Warren Weaver (Poibeau, 2017).

Avec sa formation de mathématicien et de spécialiste des probabilités (Léon, 2015), il collabore d’abord avec Claude Shannon, ingénieur et chercheur (Brunet, 2017), et rédige avec lui un rapport sur un modèle mathématique de communication, publié en 1949 (Poibeau, 2017). Weaver échange ses premières idées sur la traduction automatique avec le cybernéticien Norbert Wiener (ibid). Weaver explique son point de vue dans un texte qu’il rédige en 1949 (ibid), qui sera ensuite publié sous forme académique en 1955 et intitulé « Translation » (Weaver, 1955). Comme expliqué par Léon (2015), le

mémorandum de Weaver a encouragé la création de centres universitaires en traduction automatique. Ces nouveaux centres s’inscrivaient par ailleurs dans le contexte de la guerre froide où l’on cherchait à développer la traduction automatique comme

« technologie de guerre » à partir de 1948 (Bertrand, 2018). Cette technologie avait pour but de « produire des traductions en série de textes scientifiques du russe vers

l’anglais » (Léon, 2015, p. 15).

Après quelques années, de nombreuses recherches ont débuté dans différentes universités à travers les États-Unis et le 7 janvier 1954 a eu lieu la première

démonstration publique du 701, le premier ordinateur scientifique disponible dans le commerce et capable de traduire du russe vers l’anglais issu d’une collaboration entre IBM et l’Université de Georgetown (Gordin, 2016). Cette première mise en pratique a ensuite conduit à un investissement de fonds pour la TA aux États-Unis comme à travers le monde entier (Hutchins, 2005). Les dix années qui ont suivi la première

démonstration ont été particulièrement positives, John Hutchins (ibid) les appelle d’ailleurs la décennie de l’optimisme. Cet optimisme est lié à plusieurs facteurs : le

(15)

12 développement des ordinateurs et de la linguistique formelle, et en particulier en

syntaxe, promettait une grande amélioration en termes de qualité.

Cependant, en février 1959, Yehoshua Bar-Hillel, un philosophe, mathématicien et linguiste, souligne dans un rapport technique intitulé « Report on the State of Machine Translation in the United States and Great Britain » les difficultés posées par l’approche linguistique (Poibeau, 2017, p. 70). Il y décrivait de façon très négative l’avancée des recherches et critiquait sévèrement les résultats des différents groupes de recherche du domaine (ibid). Dans ce document, l’auteur explique que l’objectif de la TA, qui voulait atteindre la même qualité que la traduction humaine, était non seulement un but irréaliste, mais aussi impossible. En effet, compte tenu des connaissances linguistiques et des systèmes informatiques de l’époque, l’idéal d’une traduction humaine reproduite par une machine n’était pas une fin envisageable. À l’aide de plusieurs exemples, Bar- Hillel a démontré les problèmes récurrents que présentaient les systèmes de TA. Selon lui, aucun programme informatique ne pourrait encoder toutes les connaissances

linguistiques nécessaires pour la traduction. Bien que ses arguments aient été difficiles à contrer à cette époque, les développements en intelligence artificielle qui ont suivi sa publication ont démontré que sa vision pessimiste n’était pas tout à fait fondée (Hutchins, 2003).

Malgré le fait que les recherches en traduction automatique se poursuivaient et que de nouveaux groupes d’études en TA émergeaient en Europe, les recherches ne semblaient pas aboutir sur des traductions de bonne qualité (ibid). Au début des années 1964, les agences en charge du financement des programmes de traduction automatique aux États-Unis ont demandé la création du rapport de l’Automatic Language Processing Adivsory Committee (ALPAC) dans le but d’évaluer la traduction automatique (Poibeau, 2017). Le célèbre rapport de l’ALPAC publié en 1966 (ALPAC, 1966) concluait que la traduction automatique était plus lente, moins précise et deux fois plus chère qu’une traduction humaine et qu’il n’existait pas d’urgence dans l’acquisition immédiate ou future d’une traduction automatique2 (Hutchins, 2003).

2 that MT was slower, less accurate and twice as expensive as human translation and that “there is no immediate or predictable prospect of useful machine translation” (ALPAC 1966 in Hutchins, 2003)

(16)

13 Bien que le rapport ALPAC ait virtuellement entraîné la fin des recherches aux États- Unis pendant plus d’une dizaine d’années, les recherches ne se sont pas arrêtées du côté du Japon, du Canada, de la France et de l’Allemagne ; elles ont même continué avec quelques groupes aux États-Unis (comme à l’Université du Texas à la Wayne State University) qui étaient encore actifs et ciblaient avant tout les traductions du russe vers l’anglais (Hutchins, 2005). Au Canada, la politique biculturelle avait engendré la

demande de traductions de l’anglais vers le français. Cette demande avait entraîné la création du groupe TAUM (Traduction Automatique de l’Université de Montréal), qui a, entre autres, mis en place le système Météo qui traduisait les prévisions

météorologiques avec un vocabulaire restreint et une syntaxe limitée (ibid). Ce système était utilisé depuis 1977 pour la traduction du français vers l’anglais d’informations météorologiques (Loffler-Laurian, 1996). À l’Université de Grenoble en France, le groupe de Bernard Vauquois concevait un système de traduction de textes mathématiques et physiques, du russe au français (Boitet et Nedobejkine, 1980 cités dans Kübler, 2007).

En Europe, avec l’échange grandissant entre différents pays et différentes langues, les besoins en traduction se font ressentir et le système de traduction automatique SYSTRAN est adopté à la Commission Européenne en 1976 pour la combinaison français-anglais et italien-anglais (Arnold et al., 1994). La société existe encore aujourd’hui et utilise un système différent appelé SYSTRAN PNMT pour Pure Neural Machine Translation (SYSTRAN, s.d.).

Vers la fin des années 70, la traduction automatique a connu un essor lié à la hausse du commerce international. La demande se focalisait désormais sur des systèmes de traduction assistés par ordinateur qui pouvaient traiter des documents de type

commercial et technique (Hutchins, 2005). Hutchins (ibid) explique comment cette forte demande a ensuite entraîné l’apparition d’une grande variété de systèmes de TA dans les années 80. Le système SYSTRAN comptait désormais plusieurs paires de langues, et de nouveaux systèmes et paires de langues ont également vu le jour. Cette période entre 1976 et 1989 est considérée comme la renaissance de la recherche.

Parmi les projets les plus connus des années 80, on retrouve le projet Eurotra de la Communauté européenne. Celui-ci avait pour but principal de concevoir un système de transfert multilingue avancé afin de servir de traduction pour toutes les langues

(17)

14 communautaires européennes. Le problème de ce type de systèmes de l’époque était surtout lié aux lexiques. Les solutions à ces problèmes autant pratiques que théoriques ne pouvaient pas être trouvées. Malgré les nombreux groupes universitaires impliqués dans ce projet, il a dû être abandonné, bien qu’il eût réussi à atteindre son deuxième but : un engouement global en termes de recherches dans le domaine de la linguistique computationnelle (Hutchins, 2003).

Dans les années 1990, des corpus informatisés de très grandes dimensions étaient désormais disponibles grâce aux avancées technologiques et à l’arrivée des micro- ordinateurs (Léon, 2015). Avec ces corpus à grande échelle, les chercheurs pouvaient ainsi concrétiser les recherches sur les systèmes basés sur les corpus, qui ont donné lieu aux systèmes statistiques puis plus tard aux systèmes neuronaux. Dans la suite, nous allons voir plus en détail ces différents systèmes.

2.3 Les systèmes de traduction automatique

Depuis l’invention de l’ordinateur, la traduction automatique n’a cessé de se développer.

Et, comme nous l’avons vu au cours du chapitre précédent (section 2.2), cette évolution a entraîné la mise en service de plusieurs systèmes de TA. Dans les années 1940-1950, c’est la traduction à base de règles (TABR ou RBMT, Rule Based Machine Translation) qui se développe. Quelques dizaines d’années plus tard, la traduction automatique

statistique fait son apparition (TAS ou SMT, Statistical Machine Translation) avec les systèmes basés sur des corpus (PBMT, Phrase Based Machine Translation). Puis s’est développée la traduction automatique neuronale, aussi basée sur les corpus (TAN ou NMT, Neural Machine Translation).

Pour mieux saisir la différence entre ces systèmes et afin de mieux comprendre le

fonctionnement du système neuronal qui sera utilisé au cours de notre étude, ce présent chapitre abordera les systèmes de TA énumérés ci-dessus.

2.3.1 Systèmes basés sur les règles

La traduction basée sur les règles connaît trois variantes : les systèmes directs, les systèmes par interlangue et les systèmes par transfert. Les deux dernières variantes sont regroupées dans les systèmes indirects (section 2.3.1.2) et appartiennent à la deuxième génération des traducteurs automatiques (Hutchins, 2003). Bien que ces trois

(18)

15 systèmes se basent sur des règles, ils diffèrent en termes de profondeur d’analyse de la langue source et par la façon dont chaque système tente de représenter la langue (Okpor, 2014), ce qui est parfaitement représenté dans le triangle de Vauquois (Figure 1).

Figure 1 : Triangle de Vauquois (1968) (Raybaud, 2012, p. 3)

Dans les sections suivantes (2.3.1.1 et 2.3.1.2), nous explorons le fonctionnement de ces systèmes, ainsi que leurs avantages, leurs désavantages et l’impact qu’ils ont sur la traduction générée.

2.3.1.1 Systèmes directs

Pour tout type de progrès, il a tout d’abord fallu un point de départ. Pour la traduction automatique, ce sont les systèmes directs qui étaient les tout premiers systèmes mis en place et représentaient la première génération de systèmes de TA, des années 50 aux années 70 (Hutchins, 2003, p. 504). Ils étaient les moins sophistiqués et les plus simples possibles (Bouillon, 2020) mais étaient les systèmes dominants pendant des décennies et sont encore utilisés aujourd’hui (Poibeau, 2017). Leur simplicité vient du fait que ces systèmes cherchent une compréhension minimale et traduisent du mot à mot à l’aide de dictionnaires bilingues. Ces derniers sont d’ailleurs la ressource principale des systèmes.

La traduction se fait par le remplacement des unités sources par l’équivalent en langue cible grâce à un grand dictionnaire bilingue et chacune des entrées de ce dictionnaire est programmée pour traduire un mot (Jurafsky et Martin, 2014).

(19)

16 Du fait de la compréhension minimale, l’analyse est très limitée et ne permet pas de rendre explicite toutes les informations nécessaires pour la traduction. Par exemple, Hutchins et Somers (1992, cités dans ibid), donnent l’exemple de leg en anglais qui peut avoir plusieurs significations en français selon le contexte : étape (leg of journey en anglais), jambe (appartenant à l’humain), patte (appartenant à l’animal), pied

(appartenant à la chaise). Comme le système ne fait pas d’analyse sémantique, il ne peut pas prendre en compte ces différences et donnera en général toutes les traductions possibles.

L’avantage de cette compréhension minimaliste et traduction très littérale est qu’elle convient aux langues proches. Ces deux aspects limitent toutefois l’utilisation des sous- langages et demande une spécialisation obligatoire du dictionnaire en fonction du contexte dans lequel la traduction est utilisée (ibid).

Le désavantage des systèmes directs est qu’ils s’arrêtent à la traduction du mot à mot, ce qui impacte directement la qualité de la traduction générée, parfois considérée comme de mauvaise qualité (Okpor, 2014), les erreurs de traduction au niveau lexical et syntaxique étant fréquentes (ibid).

2.3.1.2 Systèmes indirects

La deuxième génération des systèmes de TA date des années 70 et 80 (Hutchins, 2003).

Contrairement aux systèmes directs, qui sont les plus minimalistes au niveau de la compréhension, les systèmes indirects se veulent maximalistes et vont accomplir une compréhension plus poussée (Bouillon, 2020). Avec ces systèmes, on s’appuie sur l’idée que pour une bonne traduction, un système de TA doit détenir des connaissances

approfondies sur la langue de départ et d’arrivée, ainsi que sur leurs différences (Arnold et al., 1994). Pour pallier ces différences interlinguistiques, que l’on appelle divergences liées à la traduction (ou translation divergences) (Dorr, 1994), des modèles ont été mis en place pour les traiter correctement lors de générations faites par les systèmes de TA (Jurafsky et Martin, 2014). Ces modèles sont des systèmes indirects qui se divisent en deux types : les systèmes par transfert et les systèmes par interlangue.

(20)

17 2.3.1.2.1 Les systèmes par transfert

Une des stratégies employées pour éviter les différences entre les langues consiste en une approche de connaissance contrastive3 (contrastive knowledge) (ibid). En ayant connaissance des différences entre les deux langues, le système transforme la structure de la phrase de départ pour qu’elle soit conforme aux règles de la langue d’arrivée (ibid).

Cette méthode est utilisée par les systèmes de transfert qui fonctionnent en trois étapes distinctes : l’analyse, le transfert et la génération (ou synthèse). Selon le type de système, ces trois étapes prennent des formes différentes (L’Homme, 2001, p. 314).

La première étape établit une analyse morphologique et syntaxique des mots dans la phrase source et fait usage de la grammaire et d’un dictionnaire de la langue source.

Dans l’analyse morphologique, le système segmente les phrases en mots et identifie les formes de base (ibid). L’analyse syntaxique « sert à lever les ambiguïtés catégorielles [et]

à obtenir une représentation des rapports entre les mots de la phrase source » (ibid, p.

307).

L’opération de transfert permet d’établir des correspondances entre les éléments trouvés dans le texte source et ceux du texte cible (ibid). Au cours de cette étape, les problèmes de différences lexicales entre les langues sont également résolus (Hutchins, 2003). Pour résoudre ces problèmes de correspondances interlinguistiques, plusieurs règles de transfert sont alors mises en place pour effectuer « […] des opérations de transfert particulières […] sur des mots isolés ou des parties de phrases » (L’Homme, 2001, p. 310). Selon la situation, le transfert tient compte de plusieurs éléments comme, par exemple, les différents fonctionnements syntaxiques des mots ou les structures syntaxiques divergentes d’une langue à l’autre (ibid).

La dernière étape est la génération, soit la production du texte cible à partir de la

représentation cible ; la génération fléchit les mots cibles et les ordonne selon les règles propres à la langue d’arrivée (ibid).

Bien que les traductions générées par les systèmes de transfert soient de meilleure qualité que celles des systèmes directs (Okpor, 2014), cette approche présente aussi des

3 Notre traduction

(21)

18 difficultés. L’un des problèmes de cette approche est que ces systèmes nécessitent des règles pour chaque étape de la traduction ; il y a donc des règles pour l’étape de l’analyse de la langue source, l’étape de transfert et l’étape de la génération dans la langue cible (ibid).

2.3.1.2.2 Les systèmes par interlangue

Dans le cas des systèmes par interlangue, les trois étapes distinctes qui font partie du fonctionnement du système de transfert, soit l’analyse, le transfert et la génération ou synthèse, n’en comprennent que deux. En effet, la TA fondée sur l’interlangue ne passe pas par la phase de transfert. Ici, le résultat de l’analyse « du texte source serait

directement l’entrée du composant de génération du texte cible » (Lavecchia, 2010, p.

17). Boualem explique le fonctionnement des deux modules de la manière suivante : « Le module d’analyse transforme le texte source en une description interlangue. Le module de génération transforme cette description en texte dans la langue cible » (2001, p. 6).

Pour aller plus loin, Jurafsky et Martin (2014) déclarent que les systèmes par

interlangue établissent une analyse du texte source, créant ainsi une représentation abstraite à partir de la langue de départ pour ensuite générer le texte en langue cible.

Cette représentation est indépendante des langues utilisées et peut être appliquée à n’importe quelle langue une fois qu’elle est bien mise en place, d’où le terme

d’interlangue (Hutchins et Somers, 1992).

Ainsi, l’approche par interlangue évite le problème que présente le système par transfert car ce système ne nécessite pas de règles définies pour chaque paire de langue et chaque étape de la traduction. Cependant, certains concepts doivent tout de même être définis lorsque l’on traduit d’une langue à l’autre (Jurafsky et Martin, 2014). Jurafsky et Martin (ibid) donnent l’exemple de la traduction du « elder-brother » et de « younger-brother » (p. 892), qui sont des concepts qui nécessitent une définition plus précise lors d’une traduction du japonais vers le chinois. Ce type de problème de concept entre les langues demande alors une analyse sémantique plus approfondie. Cette analyse est

généralement possible que pour des domaines simples, limitant ainsi l’utilisation des systèmes par interlangue (ibid).

(22)

19

2.3.2 Systèmes basés sur les corpus

L’approche basée sur les corpus était une solution aux problèmes liés à la limitation des dictionnaires bilingues des systèmes basés sur les règles (section 2.3.1). Ces systèmes se fondent sur l’utilisation de corpus parallèles. Ces derniers sont des textes alignés avec des exemples de traductions faites par des traducteurs humains. Nous allons

commencer par les deux systèmes pionniers qui sont les systèmes basés sur l’exemple (EBMT) à la section 2.3.2.1 et les systèmes statistiques (SMT) à la section 2.3.2.2, puis nous verrons les systèmes hybrides à la section 2.3.2.3 et, enfin, les plus récents, les systèmes neuronaux (NMT), à la section 2.3.2.4.

2.3.2.1.1 Systèmes basés sur l’exemple

Les systèmes basés sur l’exemple (ou example-based machine translation, EBMT) aussi appelés traduction par analogie, sont souvent comparés à la mémoire de traduction (translation memory, TM) (Somers, 1999). Bien que ces systèmes aient deux points communs en particulier, soit leur date de parution dans les années 80 et la réutilisation de traductions déjà existantes (ibid), ils sont pourtant bien différents. La TM est un outil d’aide pour le traducteur et l’EBMT est un outil de traduction essentiellement

automatique. Les systèmes basés sur l’exemple servent à enrichir les systèmes linguistiques et se basent sur des corpus parallèles (Bouillon et Clas, 1993).

Dans leur fonctionnement, les EBMT comportent trois phases distinctes : la

correspondance (matching) des fragments en se basant sur des données d'exemples réels, l’identification (alignment) des fragments correspondants et finalement la

recombinaison (recombination) des fragments qui donnera la phrase d’arrivée (Somers, 1999).

L’avantage des EBMT, et des approches basées sur les corpus en général, est qu’une fois que les techniques nécessaires ont été développées pour une paire de langue, les

systèmes de TA devraient pouvoir se développer facilement et rapidement pour de nouvelles paires de langues. De plus, ces systèmes n’ont pas besoin que l’on mette en place des règles manuellement, contrairement aux systèmes basés sur les règles (Okpor, 2014).

(23)

20 2.3.2.1.2 Systèmes statistiques

L’idée de concevoir des systèmes statistiques (SMT, Statistical Machine Translation) pour pallier les problèmes de traduction automatique remontent à un temps où les premiers ordinateurs n’existaient pas encore. Le manque de progrès technologique est à l’origine du manque de recherches à cette époque.

L’approche statistique des systèmes de TA nécessite deux étapes : l’entraînement et le décodage. Durant la phase d’entraînement, le système extrait un modèle de traduction à partir du corpus parallèle puis un modèle de la langue cible à partir d’un corpus

monolingue (Brown et al, 1990, 1993).

Pour trouver la phrase la plus probable dans la langue cible, la formule suivie par les SMT est celle du canal bruité (Hearne et Way, 2011) :

Dans cette formule, le modèle de la langue calcule les probabilités de la phrase d’arrivée P(T), le modèle de traduction calcule les probabilités pour chaque paire de phrases d’arrivée et de départ P(S|T) et le décodeur prend une phrase de départ S et en produit la meilleure phrase d’arrivée T selon le produit du modèle de traduction et de la langue (Jurafsky et Martin, 2014).

Le modèle de la langue va mesurer la probabilité qu’une séquence de mots puisse être prononcée par un locuteur anglophone (Koehn, 2009). Ce modèle va aussi être utile pour résoudre des problèmes difficiles quant à la traduction des mots et l’ordre dans lequel ils doivent apparaître dans la phrase. Un bon modèle de langue prendra la phase la plus probable selon un locuteur de langue maternelle. Pour illustrer son propos, Koehn (ibid) cite l’exemple suivant : « the house is small > small is the house » où le bon modèle de langue devrait assigner une probabilité plus haute à la première phrase.

Le modèle de traduction est plus complexe que le modèle de la langue (Van Gompel, 2009). La complexité réside dans le fait que, contrairement au modèle de la langue qui ne se concentre que sur une langue, le modèle de traduction doit concevoir les relations entre des mots ou phrases de deux langues différentes (ibid). Il existe deux types de

(24)

21 modèles différents : les modèles de traduction basés sur le mot et les modèles de

traduction basés sur la phrase, qui prennent en compte des segments.

Après la phase d’entraînement vient la phase de décodage où l’outil va procéder à la traduction. Pour ce faire, le décodeur choisit une traduction en sélectionnant la phrase dans la langue source où la probabilité est au maximum de produire la phrase cible (Brown et al., 1990). Dans la sélection de cette traduction, le décodeur a le choix entre un nombre exponentiel de possibilités. Cependant, il lui est impossible de choisir parmi toutes ces possibilités ; pour cela il devrait examiner chaque traduction possible, les évaluer puis choisir la meilleure traduction entre toutes celles disponibles, ce qui représente un coût computationnel bien trop élevé pour une phrase de longueur raisonnable (Koehn, 2009). Le décodeur a alors recours à plusieurs techniques différentes appelées « méthodes de recherche heuristique » pour effectuer ces recherches le plus efficacement possible (ibid).

Comme expliqué par Poibeau (2017), l’avantage des SMT est qu’ils sont capables de comprendre les équivalences entre les langues et, comme la signification des mots n’est pas un aspect formellement défini et correspond plutôt à la manière dont les mots sont utilisés, une approche purement statistique peut être très performante dans la

découverte de régularités dans la langue et dans des contextes spécifiques.

2.3.2.1.3 Systèmes hybrides

Les systèmes hybrides sont apparus en 1992, combinant les techniques basées sur les corpus et les techniques basées sur les règles (Somers, 1999). L’objectif est de tirer le meilleur des deux approches grâce à différentes façons de combiner les deux techniques.

Hutchins (2006, p. 16) explique qu’en 2002, Microsoft envisageait de combiner des méthodes des systèmes statistiques ou basés sur l’exemple avec des systèmes basés sur des règles, en particulier pour les analyses morphologique et syntaxique pour leur système hybride. D’autres types d’architectures sont également possibles, comme les différentes façons de coupler des systèmes de TA en parallèle ou en série pour améliorer la production de la traduction automatique (Thurmair, 2009).

2.3.2.1.4 Systèmes neuronaux

Toujours dans le but d’améliorer les performances et les résultats des systèmes de traduction automatique, les chercheurs ont commencé leurs études sur les réseaux

(25)

22 neuronaux au début des années 80. Cependant, comme pour les systèmes statistiques, la technologie de l’époque ne permettait pas d’approfondir les recherches et d’entraîner les systèmes avec des données exploitables, ce qui a causé une longue interruption dans l’évolution de cette stratégie. À la suite de cette interruption, ce sont tout d’abord les systèmes statistiques qui ont commencé par dominer le marché avant de plafonner au milieu des années 2010 (Traduction automatique, s. d.).

Aujourd’hui, les systèmes neuronaux (ou NMT, Neural Machine Translation) sont les systèmes de TA les plus récents. Ils présentent un avantage non négligeable pour la mise en pratique car, contrairement aux systèmes statistiques, les ressources en mémoire utilisée sont beaucoup moins exigeantes (Cho et al, 2014). Le point commun entre les SMT et les NMT est qu’ils sont entraînés par de grands corpus parallèles qui se

composent de plusieurs milliers voire millions de phrases traduites et alignées (Forcada, 2017).

La grande différence est que les systèmes NMT se basent uniquement sur des réseaux neuronaux. À l’origine, les réseaux neuronaux sont des outils computationnels

fondamentaux pour le traitement du langage. L’étymologie de cette technologie provient de la représentation simplifiée du modèle du neurone humain créé par McCulloch-Pitts (Jurafsky et Martin, 2014). Aujourd’hui, on définit un réseau neural lorsqu’il est composé de plusieurs petites unités computationnelles qui prennent chacune un vecteur d’entrée qui produisent un seul vecteur de sortie. L’utilisation d’un tel réseau est aussi appelée deep learning car ce sont des réseaux qui contiennent plusieurs couches différentes (ibid).

Les systèmes neuronaux en TA se basent sur le même principe que les réseaux neuronaux que nous venons de décrire et sont donc étroitement liés à l’intelligence artificielle. En ce qui concerne la TA, les NMT se caractérisent par le fait que le système ne reste plus au niveau des mots, mais représente le sens des mots ou de la phrase avec des plongements lexicaux. Ces plongements lexicaux sont une représentation numérique distribuée où chaque mot représenté prend en compte les mots à droite et à gauche de celui-ci dans le corpus (Forcada, 2017). Par ailleurs, cette représentation renvoie à l’hypothèse distributionnelle du linguiste John Rupert Firth (1957) : « You shall know a word by the company it keeps ».

(26)

23 Comme pour tous les systèmes de TA existants, les NMT ont besoin d’un entraînement qui peut durer plusieurs jours voire plusieurs mois (Forcada, 2017). Lors de cette phase, les processeurs graphiques qui sont chargés d’entraîner ces modèles vont modifier le poids des valeurs afin que les fonctions d’erreur et de perte, qui indiquent à quel point la TA est éloignée de la traduction de référence, soient aussi faibles que possible. Les systèmes neuronaux sont souvent entraînés dans le but de ressembler autant que possible à la traduction de référence (ibid).

En ce qui concerne l’impact des systèmes NMT sur le domaine de la traduction automatique, ces derniers ont très vite été reconnus dans le domaine pour leur supériorité en termes de performance face aux autres systèmes de TA déjà existants (Koehn et Knowles, 2017). À leurs débuts, les systèmes neuronaux avaient commencé avec l’intégration de modèles neuronaux du langage dans des systèmes statistiques (ibid, p. 5). La qualité générée par cette intégration était indéniable, en particulier en combinant le modèle de traduction et le modèle de la langue par Devlin et al. (2014). Par la suite, les recherches impliquant d’abord les systèmes statistiques ont été

complètement abandonnées et les nouveaux modèles se sont concentrés uniquement sur la traduction automatique neuronale (ibid). La méthode des plongements a également acquis la réputation d’avoir une qualité presque magique (ibid, p. 35).

Cependant, malgré les qualités indéniables de la TA neuronale en termes de

performance et de qualité de traduction automatique, les NMT ont aussi leurs limites, comme présentées dans l’étude de Koehn et Knowles (2017), qui visait à évaluer les systèmes neuronaux en les comparant aux systèmes statistiques traditionnels. Une de ces limitations est particulièrement intéressante pour le cadre de notre étude car elle concerne les problèmes de domain mismatch. Un défi connu dans le domaine de la traduction est que la signification des mots peut différer en fonction du domaine dans lequel ils sont utilisés (ibid) et les termes du langage naturel sont souvent trop ambigus pour les ordinateurs (Poibeau, 2017). Les résultats de l’étude de Koehn et Knowles (2017) démontrent que les systèmes statistiques présentaient de meilleurs résultats pour les termes provenant des domaines spécifiques, tels que le domaine juridique, le domaine médical ou le coran, et que les résultats des NMT sont parfois même

dramatiquement mauvais en termes de performance (ibid).

(27)

24 Pour en revenir à notre étude, les recherches réalisées par Koehn et Knowles publiées en 2017 concernaient des domaines fréquemment utilisés au quotidien. Nous ne pouvons donc pas être certaine que le domaine vidéoludique présentera autant de problèmes de traduction, mais nous pouvons déjà affirmer que le langage du jeu vidéo est un langage spécifique qui a souvent des significations différentes du langage courant, comme nous le verrons dans la section 3.4.

2.4 Microsoft Translator

Comme cette étude se base sur l’utilisation du système neuronal Microsoft Translator, nous tenions à présenter ce système et les différentes fonctions qu’il propose.

L’origine et le fonctionnement du traducteur sont racontés sur le site de Microsoft4. La TA de Microsoft était au départ un système statistique, qui a été remplacé par un système NMT au cours de l’année 2016 pour toutes les applications qui utilisaient ce traducteur. Parmi ces premières applications se trouvaient Skype et l’application Microsoft Translator, et il était possible d’utiliser le traducteur pour onze langues différentes.

Aujourd’hui, le traducteur de Microsoft est en mesure de traduire plus de 90 langues et dialectes différents. Toutes ces combinaisons sont disponibles dans les produits mis à disposition par Microsoft comme le moteur de recherche de Bing et les applications Microsoft Translator. Il est également possible d’entraîner la TA de Microsoft via la fonctionnalité Custom Translator qui permet d’ajouter une terminologie spécifique.

Dans le cadre de cette étude, nous parlerons avant tout de l’utilisation de Microsoft Translator, bien que les participants fassent usage de Skype pour pouvoir s’écrire, comme nous le verrons à la section 4.3.3.3.1. En effet, la TA utilisée par Skype est le système neuronal Microsoft Translator. Dès lors, nous considérons que nous évaluons la TA de Microsoft Translator et non le logiciel Skype pour nos analyses.

4https://www.microsoft.com/fr-fr/translator/business/machine-translation/ [consulté le 20.04.2021]

(28)

25

2.5 La traduction automatique dans les jeux vidéo

Afin de pouvoir nous rendre compte du développement de la TA dans le domaine

vidéoludique, il nous faut d’abord tenir compte de l’état de la question à l’heure actuelle.

Comme notre travail s’inscrit dans les recherches visant à évaluer la qualité de

traduction automatique dans un contexte demandant un jargon spécifique qui est le jeu vidéo, nous inclurons également les recherches faites sur la traduction de jeu vidéo et l’état actuel de l’intégration de la traduction automatique dans le jeu vidéo.

2.5.1 La traduction du jeu vidéo

Il y a peu de temps encore, la localisation de jeux vidéo était une pratique encore peu reconnue dans le domaine de la traduction. Entre 2006 et 2012, on trouve seulement dix articles qui s’attardent sur le sujet de la traduction de jeu vidéo et, bien qu’O’Hagan et Mangiron (2013) expliquent que ce chiffre n’est pas à prendre au pied de la lettre car certaines conférences et recherches ne sont pas toujours publiées ou référencées en ligne, ce chiffre reste néanmoins très bas. Ce n’est qu’avec les recherches et études faites par Minako O’Hagan, Carme Mangiron et Miguel Bernal-Marino que les jeux vidéo ont pu se créer une place parmi les études de la traduction (Bushouse, 2015, p. 2), avec leurs premières recherches publiées dans la fin des années 90 et début des années 2000 (Mangiron, 2018, p. 123).

Communément, on considère la traduction de jeux vidéo comme une traduction hybride.

Entre sous-titres, voix off, traduction de poèmes ou même terminologie technique, la traduction de contenu vidéoludique relève autant de la traduction audiovisuelle,

littéraire, technique et requiert en plus d’autres types de compétences. Cependant, bien que nous venions d’énumérer de nombreuses dimensions qu’offre la traduction de contenu vidéoludique et qu’il existe une quantité importante de littérature portant sur la localisation de jeu vidéo, peu de cas d’études ont été publiés (Mangiron, 2018). En effet, le nombre d’études dédiées à des recherches sur la terminologie, des études de corpus, des études de sociologie ou d’idéologie, ainsi que des études sur la censure dans le cadre de la localisation de jeux vidéo reste maigre (ibid).

Parmi les recherches existantes, on trouve souvent des auteurs qui pratiquent eux- mêmes la localisation de jeux vidéo. Ils ont l’avantage d’avoir de l’expérience dans ce

(29)

26 domaine, car l’industrie du jeu vidéo reste très privative quant au partage des

informations et des données (O’Hagan et Mangiron, 2013).

2.5.2 La traduction automatique dans les messageries instantanées

Les recherches faites sur la traduction automatique en général sont nombreuses et connaissent souvent des résultats fructueux. Cependant, tout comme les recherches concernant la traduction de jeu vidéo, il semble que celles concernant l’efficacité de la traduction automatique dans des conversations instantanées se font encore rares (Sahin et Duman, 2013). À notre connaissance, une des premières études a été conduite en 2002 par Aiken et al. (2002, cité dans Aiken et al., 2009). Le but était d’évaluer la

précision et l’intelligibilité du système SYSTRAN avec quatre locuteurs parlant l’anglais, le français et l’allemand. En 2009, Aiken et Ghosh ont publié une recherche sur

l’utilisation de Google Translate lors de conférences professionnelles, recherche qui visait à mesurer la précision du système. Une année plus tard, une recherche établissant une comparaison entre le système Google Translate et Apertium5 dans un contexte de messagerie instantanée est publiée par Calefato, Lanubile et Minervini (2010). Les chercheurs se demandaient si la traduction automatique permettait de lever les barrières de culture et langue en analysant des messages échangés lors de la

distribution de tâches liées à l’ingénierie. Leurs résultats penchaient en faveur de Google Translate, mais précisaient que les deux systèmes pouvaient être utilisés lors de la messagerie instantanée, car ceux-ci n’interrompaient pas l’interaction en temps réel. En 2011, Pennel et Liu publient leurs résultats positifs quant à l’élaboration d’un système de traduction automatique visant à normaliser des abréviations SMS qui peuvent avoir lieu lors d’échanges de messages informels comme les emails, les SMS ou les

conversations dans des chat rooms.

Une autre recherche qui utilisait Google Translate comme système de traduction était celle de Sahin et Duman, publiée en 2013. Celle-ci visait à mesurer l’intelligibilité et l’exactitude grammaticale des messages de chat traduits instantanément par Google Translate, en utilisant le système de messagerie instantanée Google Talk, un système qui n’est plus disponible aujourd’hui. Dans l’ensemble, les trois quarts des messages

5 https://www.apertium.org/index.deu.html#?dir=fra-epo&q=

(30)

27 échangés entre les participants russes et anglophones de leur étude se sont révélés intelligibles et exacts (Sahin et Duman, 2013).

L’étude publiée par les chercheurs Gao et al. en 2014 visait quant à elle à améliorer un système de traduction automatique en proposant une interface qui montrait à l’écran deux traductions générées par deux traducteurs différents, plutôt que d’avoir une seule traduction. En récoltant les avis des utilisateurs de cette nouvelle interface, les

chercheurs ont pu déterminer que cette dernière pouvait aider à l’amélioration des communications interlinguistiques, car cette disposition permettait de mettre en avant les erreurs freinant une bonne communication.

L’une des études les plus récentes concernant la TA de chats est celle de Farajian et al.

(2020) qui rapporte les résultats des scores BLEU et TER pour évaluer les traductions automatiques à la suite de discussions traduites entre un client germanophone et d’un intermédiaire anglophone.

2.5.3 L’introduction des systèmes de traduction automatique dans les jeux vidéo Malgré nos recherches étendues, nous n’avons pas trouvé d’études publiées en français ou en anglais concernant l’intégration de la traduction automatique dans les jeux vidéo.

Jusqu’à maintenant, l’intégration de la TA dans les médias vidéoludiques et son impact sur ceux-ci semble être un aspect encore peu recherché. Nous avons cependant trouvé un article publié en 2020 concernant l’introduction de la traduction automatique neuronale dans la localisation de jeux vidéo ainsi que les différents défis qui

accompagnent une telle association entre les deux supports (Anselmi et Rubio, 2020).

D’après Anselmi et Rubio (ibid), les trois défis principaux de la localisation sont de respecter la terminologie, les variables et tags ainsi que la créativité de la langue.

Il semblerait donc que les nombreux progrès liés à la TA et le succès de la qualité des systèmes de traductions neuronaux encouragent une possible association entre le monde prudent du jeu vidéo et la traduction automatique. Anselmi et Rubio (2020) expliquent que cette prudence à l’égard de l´introduction de la TA provient du fait que la localisation est une partie essentielle pour le joueur car elle permet plus que la simple compréhension des mécanismes du jeu et de ses règles ; la localisation leur permet d’apprécier le gameplay et de se sentir impliqué dans le jeu.

(31)

28 D’ailleurs, cette prudence provenant de l’industrie vidéoludique s’illustre parfaitement avec un exemple mentionné par Chandler et Derming (2011, p. 19), qui expliquent comment en 2002, le jeu de combat Kabuto Chojin qui était prédestiné à rentrer dans la série des jeux à bonne réputation de la console Xbox, s’est vu détrôné de sa place dû à l’ajout erroné d’une piste audio dans le jeu. Cette brève piste contenait des extraits du Coran. Cette erreur avait entraîné le bannissement total du jeu en Arabie Saoudite et dans d’autres pays musulmans, causant par la suite le rappel des jeux en magasin ainsi que l’interruption totale de sa vente. Le choc culturel est une matière très délicate à traiter et à ne pas prendre à la légère lors de la localisation de tels supports, et ce problème nous laisse comprendre l’hésitation de l’industrie du jeu vidéo à automatiser certains aspects du développement.

2.6 Conclusion

Ces brefs chapitres théoriques ont permis d’aborder et de comprendre plus en détail l’histoire et le fonctionnement des systèmes de TA. Ils ont permis de mieux cerner les recherches faites dans le domaine du jeu vidéo et de la TA et de présenter Microsoft Translator qui sera au centre de cette étude.

Références

Documents relatifs

/S /S affiche les fichiers du r affiche les fichiers du ré épertoire sp pertoire spé écifi cifié é et de tous les sous et de tous les sous ré r épertoires pertoires. /o

Il permet en fait de créer une succession de pages (les diapositives) dans lesquelles sont placés des objets, images, textes, vidéos, graphiques.. Les présentations peuvent

 Informations sur un objet, une personne ou Informations sur un objet, une personne ou un événement sous sa forme brute utile pour un événement sous sa forme brute utile pour..

 Thought of as a data manager upon which database systems, such as Access, are built... Advanced Features

Introduction The Tektronix Hexadecimal (T_hex) File Format is used to transfer 8-bit processor absolute information. The definition of T_hex format includes a data transfer protocol

Ce qui nous permettra de développer une approche psychanalytique du vidéoludique à partir de la théorie lacanienne, dans laquelle la machine est toujours une

This also includes semantic profiles supporting the semantically safe translation of other rule standards into RuleML, making RuleML an overarching “lingua franca” to interchange

In this way, the system shall be able to switch the power source from external power link to a battery able to supply the data processing unit of the system, when the external