La post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? : Etude expérimentale avec des étudiants en traduction

(1)

Master

Reference

La post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? : Etude

expérimentale avec des étudiants en traduction

ROUVINEZ, Caroline

Abstract

Dans ce travail de mémoire, nous avons étudié l'applicabilité de la traduction automatique à un texte littéraire. Des étudiants en traduction ont traduit de l'anglais vers l'italien dix extraits de Wuthering Heights. Ces mêmes extraits ont été traduits automatiquement par Google Translate (un système statistique passé récemment à la traduction neuronale), puis post-édités par les mêmes étudiants suivant un plan croisé. Ensuite, ces traductions ont été évaluées par des experts en linguistique et littérature. Nous avons montré que, même si la post-édition permet un gain de temps considérable, les évaluateurs ont préféré la traduction humaine à la traduction post-éditée dans le 55,3 % des cas. La traduction littéraire présente des obstacles que, pour le moment encore, la machine n'est pas en mesure de surmonter.

ROUVINEZ, Caroline. La post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? : Etude expérimentale avec des étudiants en traduction. Master : Univ. Genève, 2018

Available at:

http://archive-ouverte.unige.ch/unige:112144

Disclaimer: layout of this document may differ from the published version.

(2)

CAROLINE ROUVINEZ

La post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ?

Etude expérimentale avec des étudiants en traduction

Directrice de mémoire : Pierrette Bouillon Jurée : Annarita Felici

Mémoire présenté à la Faculté de traduction et d’interprétation (Département TIM) pour l’obtention de la Maîtrise universitaire en traduction, mention

technologies de la traduction Université de Genève

Août 2018

(3)

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la Faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant‐e‐s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide‐mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis conscient‐e que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Nom et prénom :

Rouvinez Caroline

Lieu / date / signature :

Genève, le 27 août 2018

(4)

Remerciements

Je souhaite remercier tout d’abord ma directrice de mémoire, Madame Pierrette Bouillon, pour m’avoir guidé tout au long de la rédaction de ce travail. Elle a su se montrer patiente suite à mes nombreuses questions et m’a rassuré quand j’en avais le plus besoin.

Je remercie également Madame Annarita Felici, pour avoir accepté d’être ma jurée et pour les précieux conseils sur la traduction vers l’italien.

Un grand merci à mes traducteurs et post-éditeurs, qui resteront anonymes jusqu’à la fin : sans vous je n’aurais jamais pu envisager cette étude.

Merci aux professeurs de l’Unité d’italien de la FTI, aux professeurs du Département de langues et littératures romanes de la Faculté des lettres et aux deux chercheurs non présents à Genève, qui ont généreusement participé à l’expérience en lui donnant une valeur en plus.

Enfin, merci aux membres de ma famille, qui ont relu ce texte je ne sais pas combien de fois, qui ont testé la plateforme TAUS avant les autres et qui sont restés à mes côtés durant cette longue année de rédaction.

(5)

Table des matières

Liste des abréviations ... 8

Liste des tableaux ... 8

Liste des figures ... 8

1 Introduction ... 10

2 La traduction automatique ... 12

2.1 Histoire de la traduction automatique ... 12

2.2 Architecture des systèmes de traduction automatique ... 15

2.2.1 Systèmes linguistiques ... 15

2.2.1.1 Systèmes minimalistes ... 18

2.2.1.2 Systèmes maximalistes ... 19

2.2.1.2.1 Systèmes maximalistes par transfert ... 19

2.2.1.2.2 Systèmes maximalistes par interlangue ... 20

2.2.2 Systèmes statistiques ... 22

2.2.2.1 Systèmes neuronaux ... 25

2.2.2.1.1 Google Translate ... 27

2.3 Evaluation des logiciels de traduction automatique ... 29

2.3.1 Evaluation humaine ... 29

2.3.2 Evaluation automatique ... 31

2.3.3 Conclusion ... 34

3 La post-édition ... 35

3.1 Définition ... 35

3.2 Types et degrés de post-édition ... 36

3.3 Différences avec la traduction ... 36

3.4 Différences avec la révision ... 37

3.5 Effort de post-édition ... 38

(6)

3.6 Compétences du post-éditeur ... 39

3.7 Standards de post-édition ... 39

3.8 Conclusion ... 40

4 La traduction automatique de la littérature ... 41

4.1 Etat de l’art ... 41

4.1.1 Genzel et al. ... 41

4.1.2 Voigt et Jurafsky ... 42

4.1.3 Besacier ... 42

4.1.4 Toral et Way ... 44

5 La méthodologie ... 48

5.1 Objectifs de la recherche ... 48

5.2 Corpus de textes ... 48

5.3 Traduction humaine ... 49

5.3.1 Participants ... 49

5.3.2 Instructions de traduction ... 50

5.3.3 Données récoltées ... 50

5.3.4 Questionnaire post-tâche ... 51

5.4 Traduction automatique ... 51

5.4.1 Système de TA ... 51

5.4.2 Paramétrage ... 51

5.5 Post-édition ... 52

5.5.1 Interface de post-édition ... 52

5.5.2 Création du projet ... 55

5.5.4 Instructions de post-édition ... 57

(7)

5.6 Evaluation humaine des traductions ... 59

5.6.1 Interface d’évaluation ... 59

5.6.3 Instructions d’évaluation ... 62

5.6.4 Difficultés rencontrées par les évaluateurs ... 63

6 L’analyse des résultats ... 64

6.1 Evaluation humaine comparative de la qualité ... 64

6.2 Temps de traduction et de post-édition ... 66

6.3 Difficultés rencontrées par les traducteurs et post-éditeurs ... 67

6.4 Evaluation automatique ... 68

6.4.1 Score BLEU ... 68

6.4.1.1 Conclusion ... 72

6.4.2 Score TER ... 73

6.4.2.1 Conclusion ... 74

6.5 Type de texte ... 75

7 Conclusion ... 79

8 Bibliographie ... 82

9 Annexes ... 86

Annexe 1 – Instructions de post-édition ... 86

Annexe 2 – Questionnaire pour les traducteurs et post-éditeurs ... 88

Annexe 3 – Questionnaire pour les évaluateurs ... 90

Annexe 4 – Formulaire de consentement – traduction humaine ... 92

Annexe 5 – Formulaire de consentement – post-édition ... 94

Annexe 6 – Formulaire de consentement – évaluation humaine ... 95

(8)

Annexe 7 – Texte source, traductions automatiques brutes, automatiques post-éditées et humaines évaluées – tableau de comparaison ... 97

(9)

Liste des abréviations

GT : Google Translate MT : Machine Translation PE : Post-édition

TA : Traduction automatique

TAS : Traduction automatique statistique TH : Traduction humaine

TM : Translation memory (Mémoire de traduction)

Liste des tableaux

Tableau 1 : Nombre de mots, de segments et type d’extrait Tableau 2 : Nombre de mots et temps de traduction par extrait Tableau 3 : Nombre de mots TA brute par extrait

Tableau 4 : Résumé du plan croisé

Tableau 5 : Nombre de mots, temps de PE et moyenne effort de PE (cible) Tableau 6 : Moyenne des choix (et pourcentage) par système choisi et par extrait Tableau 7 : Jugement à la majorité par extrait

Tableau 8 : Temps de traduction et de post-édition par extrait Tableau 9 : Scores BLEU (Réf. vs. TH et TA brute) par extrait Tableau 10 : Scores TER et éditions effectuées par extrait

Tableau 11 : Score TER et moyennes des choix humains par extrait Tableau 12 : Scores BLEU et type de texte

Tableau 13 : Résumé des résultats par extrait

Liste des figures

Figure 1 : Triangle de Vauquois, Jurafsky & Martin, 2009, p. 903

Figure 2 : Exemple de représentations syntaxiques en anglais et en français Figure 3 : Exemple de représentation syntaxique en anglais

Figure 4 : Exemple de représentation syntaxique en français

Figure 5 : Exemple de séquences en anglais associées avec des probabilités de séquences en français

Figure 6 : Exemple de fonctionnement du modèle de traduction

(10)

Figure 7 : La représentation des mots dans un espace continu Figure 8 : Le fonctionnement du GNMT

Figure 9 : La page d’accueil de MateCat

Figure 10 : Les paramétrages possibles offerts par MateCat

Figure 11 : Exemple de segments source et cible lors de la traduction Figure 12 : Exemple d’Editing Log

Figure 13 : Paramètres de la mémoire de traduction et de la TA Figure 14 : Exemple de segments à évaluer sur la plateforme TAUS

Figure 15 : Partie de l’écran contenant la langue source sur la plateforme TAUS Figure 16 : Résultats globaux (en %) de l’évaluation selon le flux de travail Figure 17 : Temps de traduction et de post-édition par extrait

Figure 18 : Le paramétrage de Tilde MT pour le calcul du BLEU Figure 19 : Exemple du manque de fiabilité de BLEU

Figure 20 : Exemple du manque de fiabilité de BLEU Figure 21 : Exemple du manque de fiabilité de BLEU Figure 22 : Exemple du manque de fiabilité de BLEU Figure 23 : Exemple de fiabilité de BLEU

Figure 24 : Exemple de fiabilité de BLEU

Figure 25 : Exemple du manque de fiabilité de BLEU

(11)

1 Introduction

Le but de ce mémoire de Maîtrise est d’évaluer la qualité de la traduction automatique (TA) appliquée à des textes littéraires, et en particulier la qualité de Google Translate, un système qui, depuis environ un an et demi, est passé à la traduction statistique neuronale. Celle-ci exploite le deep learning (apprentissage profond) et permet au système d’apprendre comme un être humain.

Cette étude naît d’un intérêt personnel. Nous voulons nous pencher, entre autres, sur les dernières améliorations dans le domaine de la traduction automatique, et en particulier sur le système utilisé chaque jour par des millions de personnes dans le monde. Ce qui nous a aussi poussée à étudier l’applicabilité de la traduction automatique aux textes littéraires est le nombre réduit d’études dans ce champs (voir Chapitre 4). Nous voulons donc, avec ce mémoire de Maîtrise, alimenter la recherche dans le domaine, en proposant une méthodologie différente et en étudiant un nouveau type de système de traduction automatique, le système neuronal, tout en nous concentrant sur une langue qui n’est pas beaucoup étudiée, l’italien en tant que langue cible.

Aux fins de l’étude, des traducteurs (non professionnels) ont été recrutés pour traduire dix extraits tirés de Wuthering Heights d’Emily Brontë. Ces mêmes personnes ont également post-édité le résultat de la traduction automatique brute. Par la suite, ces traductions ont été évaluées par des évaluateurs humains et par des scores automatiques, dans le but de répondre à notre question de recherche « la post-édition de Google Translate peut-elle rivaliser avec une traduction humaine pour la traduction littéraire ? ».

Avec cette étude, nous voulons aussi répondre à deux questions de recherche subsidiaires. En premier, nous voulons voir s’il y a une corrélation entre les évaluations humaines et les métriques automatiques, comme BLEU. Plusieurs auteurs notent en effet que BLEU n’est pas une métrique appropriée pour la littérature. Deuxièmement, nous voulons étudier si les résultats dépendent du type de texte (description ou dialogue), en partant du principe que les dialogues sont moins linéaires, dans un style plus informel, et donc plus compliqués pour la traduction automatique.

Selon nous, avoir recours à la traduction automatique et post-éditer le texte traduit automatiquement pourrait permettre aux traducteurs littéraires de travailler plus vite et de gagner davantage. Comme nous le verrons par la suite (voir Chapitre 4), ces derniers sont en

(12)

effet très peu payés pour le travail qu’ils exercent. Toutefois, le gain de temps n’est pas le plus important, il faut également évaluer si la post-édition du résultat brut de la traduction automatique est comparable à la traduction humaine en termes de qualité. En effet, même si le temps de travail va certainement diminuer avec la traduction automatique, la qualité de la post-édition pourrait ne pas être à la hauteur de ce qu’un lecteur humain recherche. C’est pour cette raison que nous avons choisi d’appliquer au résultat brut de la TA une post-édition dite

‘complète’, afin d’obtenir des traductions comparables à une traduction humaine.

Ce travail reste bien sûr une étude expérimentale, vu que nous avons choisi de demander à des étudiants en traduction de traduire et post-éditer les extraits, plutôt qu’à des professionnels.

Selon nous, la traduction automatique ne peut pas (pour l’instant) être appliquée à la traduction littéraire, mais nous avons voulu le montrer objectivement.

Ce mémoire est structuré comme suit : la partie théorique regroupe respectivement trois chapitres dédiés à la traduction automatique (Chapitre 2), la post-édition (Chapitre 3) et la traduction automatique de la littérature (Chapitre 4). Ensuite, le chapitre 5 explique la méthodologie adoptée lors de la mise en place de l’étude et le chapitre 6 propose une analyse des résultats obtenus. Le chapitre 7 offre une conclusion à ce travail de mémoire.

(13)

2 La traduction automatique

Dans ce chapitre, nous allons tout d’abord présenter la traduction automatique, en passant par un bref historique (Section 2.1) et en décrivant ensuite les différents types de systèmes (Section 2.2). Nous terminerons en passant en revue les méthodes disponibles pour évaluer la qualité d’un système de traduction automatique (Section 2.3).

2.1 Histoire de la traduction automatique

Les débuts de la traduction automatique, même s’il n’est pas clair qui, en premier, a eu l’idée de traduire automatiquement, remontent à 1949 et à Warren Weaver, mathématicien et chercheur de la Fondation Rockefeller. En effet, Weaver écrit cette année-là, dans son célèbre mémorandum (Weaver, 1949, in Arnold et al., 1994, p. 13) :

I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.

Ce mémorandum suscita directement l’intérêt des politiciens des agences gouvernementales aux Etats-Unis et fut le point de départ de recherches d’abord aux Etats-Unis et ensuite dans le reste du monde (Arnold, 1994, p. 13).

C’est en 1954 qu’eut lieu la première démonstration de la faisabilité de la traduction automatique, née d’une collaboration entre la société IBM et l’Université de Georgetown.

Cette démonstration, qui n’utilisait pourtant qu’un vocabulaire et une grammaire restreints, impressionna à tel point que le financement dédié à la recherche sur la traduction automatique fut stimulé, et de nombreux projets virent le jour à travers le monde (Hutchins, 2005).

Les premiers systèmes consistaient principalement en de grands dictionnaires bilingues, avec les mots en langue source et un ou plusieurs équivalents en langue cible. Ils contenaient aussi quelques règles pour faire en sorte que l’ordre des mots de la langue cible soit respecté.

Malgré l’optimisme pendant cette première décennie, les chercheurs furent vite confrontés à l’un des gros problèmes du traitement des langues : l’ambiguïté sémantique (semantic barriers, Hutchins, 2005) ; les mots peuvent avoir plus qu’un sens et le seul moyen de les désambiguïser est d’avoir recours au contexte.

(14)

Un exemple de ce type de problème a été mentionné en 1959 par le philosophe Bar-Hillel, pour prouver que la traduction automatique de haute qualité était impossible :

Little John was looking for his toy box. Finally he found it. The box was in the pen.

John was very happy.

En effet, le mot pen en anglais est ambigu, car il a plusieurs sens : il peut signifier (i) « [a]n instrument for writing or drawing with ink, typically consisting of a metal nib or ball, or a nylon tip, fitted into a metal or plastic holder. » ou bien (ii) « [a]ny small enclosure in which someone or something can be confined. »¹. Les deux traductions de ce mot pourraient être donc ‘stylo’ ou, dans ce contexte, ‘parc’ (dans le sens de ‘parc pour enfants’). Selon Bar- Hillel, pour trouver la traduction correcte de pen, il est nécessaire d’avoir des connaissances du monde extérieur. Or, il n’y a pas moyen de donner ces connaissances à un ordinateur (Arnold, 1994, p. 14).

Au début des années 1960, quelques systèmes étaient opérationnels, mais la qualité des traductions n’était pas assez satisfaisante et il y avait peu de progrès. C’est pour ces raisons que, en 1964, la US National Academy of Science fonda le Automatic Language Processing Advisory Commitee (ALPAC) : son objectif était de rédiger un rapport sur l’état actuel de la qualité, des coûts et des perspectives de la traduction automatique, et de les comparer aux coûts et besoins effectifs de la traduction humaine. Le rapport final, publié en 1966 et connu sous le nom de ALPAC report, conclut que la traduction automatique était plus lente, moins précise et deux fois plus chère que la traduction humaine. Il mentionna aussi qu’il n’y avait pas de pénurie de traducteurs et que, pour le moment et dans un futur proche, la traduction automatique ne pourrait pas fournir de traductions utiles de textes scientifiques généraux. Le rapport conseilla plutôt de développer des outils informatiques pour les traducteurs, tels que les dictionnaires automatiques, et proposa un soutien continu dans les recherches en linguistique informatique (Arnold, 1994, p. 14 ; Hutchins, 2005).

Le ALPAC report mit un terme au financement de la recherche en TA aux Etats-Unis, ce qui interrompit la recherche dans le domaine, et causa une démoralisation générale des personnes qui travaillaient dans ce secteur. Les effets du rapport se firent aussi sentir en Europe et en Union soviétique (Arnold, 1994, p. 14 ; Hutchins, 2005).

1 Définitions trouvées sur : https://en.oxforddictionaries.com/definition/pen, consulté le 06.07.2017.

(15)

La recherche, toutefois, continua au Canada, en France et en Allemagne. Dès 1970, la US Air Force commença à utiliser Systran, un système russe ↔ anglais développé à l’Université de Georgetown, et peu de temps après, en 1976, la Commission des Communautés Européennes acquit la version anglais ↔ français du même système, tout en finalisant les versions français

↔ anglais et italien ↔ anglais. La même année, un nouveau système (METEO, développé par le groupe TAUM à l’Université de Montréal) fut lancé pour la traduction des bulletins météo (Arnold, 1994, p. 15 ; Hutchins, 2005).

A partir des années 1970, la demande pour la traduction automatique vint d’un autre type de secteur avec des langues et besoins différents : le commerce multinational. Ce dernier accrut la demande de traduction en Europe, au Canada et au Japon, bien au-delà des capacités des services de traduction traditionnels. On demandait désormais des systèmes qui puissent traduire des textes commerciaux et techniques dans les principales langues du commerce international (Hutchins, 2005).

Dans les années 1980, de nombreux systèmes virent le jour, qui permettaient de traiter aussi plus de langues (comme l’allemand, l’espagnol ou encore le japonais). Les microordinateurs et logiciels de traitement de texte, largement disponibles, permirent de créer un marché pour des systèmes de traduction automatique à bas prix un peu partout dans le monde. Pendant cette décennie, la stratégie principalement adoptée était celle de la traduction indirecte, par le biais de représentations intermédiaires, qui exploitaient parfois l’idée d’interlangue (Hutchins, 2005) (Section 2.2.1.2.2).

Les années 1990 furent une bonne période pour la traduction automatique : il y eut la naissance des systèmes dit ‘statistiques’, qui exploitent les corpus bilingues plutôt que les règles linguistiques. L’apparition sur le marché des mémoires de traduction et outils CAT (tels que Trados) a été une autre étape importante. De plus, il y eut plus d’activité autour de la traduction automatique et l’on commença à travailler sur le langage contrôlé (Hutchins, 2005).

A la fin de la décennie, la vente de systèmes de traduction automatique pour des ordinateurs (et pour une utilisation par des non-traducteurs) s’est intensifiée, tout comme la diffusion de la traduction automatique pour des applications Internet (telles que le courrier électronique ou les pages Web). Dans ces cas, le besoin était lié à la vitesse de traduction plutôt qu’à la qualité. En cette même période furent introduit des services de traduction automatique en ligne (Babelfish en premier et Google Translate plus tard) (Hutchins, 2005).

(16)

Dans les années 2000, la traduction automatique statistique occupa une place majeure dans la recherche sur la traduction automatique, en raison des nombreux corpus disponibles. Une autre raison est que les chercheurs ne doivent pas connaître dans les détails les langues impliquées dans le système lors de son développement (Hutchins, 2005).

Le volume de textes traduits à l’aide de la traduction automatique n’a fait qu’augmenter et s’est étendu à de nouveaux domaines (comme les sous-titres de télévision, les menus de restaurants, la localisation de sites web, etc.). Les traducteurs utilisent soit la traduction automatique soit les mémoires de traduction lors de la production de brouillons de traductions ; le grand public, lui, a à disposition des services gratuits en ligne (tels que Google Translate) (Hutchins, 2005).

Plus récemment, sont apparus les systèmes de traduction automatique statistique neuronaux, qui exploitent les réseaux de neurones et l’intelligence artificielle. Nous verrons plus dans les détails leur fonctionnement à la section 2.2.2.1.

Dans la suite, nous allons passer en revue l’architecture des systèmes de traduction automatique, en commençant par les systèmes linguistiques (Section 2.2.1), et ensuite nous décrirons les systèmes statistiques (Section 2.2.2).

2.2 Architecture des systèmes de traduction automatique

Dans cette section, nous allons explorer et présenter les différents types de système de traduction automatique. Ceux-ci se divisent principalement en deux catégories, les systèmes linguistiques et les systèmes statistiques, qui sont à leur tour divisés en sous-catégories, dont nous verrons les spécificités ci-dessous.

2.2.1 Systèmes linguistiques

Les systèmes linguistiques (Rule-based Machine Translation, RBMT), comme leur nom l’indique, se basent sur une compréhension de la langue pour lever les ambiguïtés possibles.

On donne au système des connaissances linguistiques lexicales (sur les mots) et structurales (sur les structures), qui lui permettront de traiter les ambiguïtés grâce à des analyses lexicales, syntaxiques et sémantiques.

(17)

Lors de la première étape, celle de l’analyse lexicale, le système associe aux mots d’une phrase les informations lexicales qui se trouvent dans le dictionnaire. Déjà à cette étape, un problème se présente : une forme peut être associée à plusieurs catégories grammaticales et à plusieurs sens, comme l’illustrent les trois phrases suivantes (L’Homme, 2008, p. 32) :

Julien ferme la porte derrière lui. verbe

Denis a la ferme intention d’assister à la réunion. adjectif La ferme de mon oncle se trouve dans le comté de Charlevoix. nom

Ce problème, que l’on appelle l’homographie (catégorielle ou sémantique), représente l’un des principaux problèmes du traitement automatique des langues (L’Homme, 2008, p. 32).

L’analyse syntaxique consiste ensuite à structurer les phrases à l’aide d’une grammaire dans le but d’établir les liens syntaxiques entre les mots qui les forment (sujet, verbe et objet). S’il y a plusieurs possibilités, le problème est celui de l’ambiguïté de structure : une phrase peut s’interpréter de plusieurs manières. Voici un exemple (L’Homme, 2008, p. 42) :

Le combattant brave la garde.

Dans cet exemple, trois mots sont des homographes catégoriels : brave, qui peut être soit un adjectif, un nom ou un verbe, la, qui peut être soit un déterminant ou un pronom, et garde, qui peut être soit un nom ou un verbe. La phrase peut ainsi être interprétée de deux façons différentes : « Un combattant garde quelqu’un ou quelque chose », mais aussi « Un combattant affronte la garde » (L’Homme, 2008, p. 42). Même un humain ne saurait désambiguïser cette phrase sans avoir accès à un contexte plus vaste.

Grâce aux analyses lexicales et syntaxiques, le système sait reconnaître les mots et est en mesure d’interpréter la structure des phrases, mais il ne sait rien à propos du sens des mots ni de leurs combinaisons possibles. C’est à ce moment qu’intervient l’analyse sémantique. Lors de cette étape, le système tient compte du sens des mots et ajoute des restrictions sur leur combinaison (avec des restrictions de sélection). Une restriction de sélection est une contrainte sémantique sur un prédicat donné. Par exemple, il est possible d’indiquer que le verbe manger n’accepte comme argument que des mots de catégorie nourriture (Jurafsky et Martin, 2009, pp. 661-663).

(18)

Cependant, il reste des phrases ambiguës, comme c’est le cas de :

They passed the port at midnight. (Lyons, 1990, in L’Homme, 2008, p. 85)

Comme pass et port sont tous les deux ambigus, la désambiguïsation du premier ne peut pas aider la désambiguïsation du deuxième ou vice-versa. Il faudra donc faire appel au contexte : par exemple, dans la phrase précédente, une deuxième phrase It was full of boats permet de désambiguïser la première (L’Homme, 2008, p. 85 ; Bouillon, 2016, cours TA 1).

Un système linguistique, étant donné les niveaux d’analyse qu’il applique lors de la traduction d’une phrase (recherche des informations grammaticales ou des liens syntaxiques entre les mots, etc.), cherche à imiter le processus humain et reprend la théorie stratificationnelle de la traduction : en effet, selon Nagao (1984, p. 179, in Carl et Schaeffer, 2017, p. 53), le traducteur traduit

by properly decomposing an input sentence into certain fragmental phrases (very often, into case frame units), then, by translating these fragmental phrases into other language phrases, and finally by properly composing these fragmental translations into one long sentence.

Un moyen fréquent de représenter les systèmes linguistiques est le Triangle de Vauquois (Figure 1 ci-dessous) :

Figure 1 : Triangle de Vauquois, Jurafsky & Martin, 2009, p. 903

(19)

Le Triangle montre les différents types de systèmes linguistiques. L’axe vertical indique le niveau d’analyse requis quand l’on passe par les systèmes minimalistes et les systèmes par transfert à ceux par interlangue, à travers les étapes des différentes analyses illustrées ci- dessus : lexicale, syntaxique et sémantique. Le Triangle montre également que la quantité de connaissances nécessaires (sur l’axe horizontal) pour passer d’une langue à l’autre diminue dès que l’on change de niveau dans le Triangle.

Dans les prochaines sous-sections, nous allons explorer les particularités des systèmes linguistiques minimalistes et maximalistes, qui à leur tour se divisent en systèmes par transfert (Section 2.2.1.2.1) et en systèmes par interlangue (Section 2.2.1.2.2).

2.2.1.1 Systèmes minimalistes

Les systèmes minimalistes, aussi appelés systèmes directs, n’effectuent pas de compréhension complète mais se limitent à une désambiguïsation des homographes catégoriels avec une analyse locale, c’est-à-dire qu’ils attribuent une catégorie grammaticale aux mots de la phrase (Arnold, 1994, pp. 63-64). Cette première étape est suivie par celle de la traduction mot à mot avec un dictionnaire bilingue : chaque mot de la phrase source est lié à un mot dans la langue cible, ce qui fait du dictionnaire bilingue la composante la plus importante des systèmes minimalistes (Jurafsky et Martin, 2009, p. 904). La dernière étape, la génération, permet de gérer les flexions, ordonner les mots selon les règles de la langue cible et traiter des phénomènes comme les élisions.

Toutefois, en s’arrêtant au niveau lexical, le système n’a aucune idée des liens syntaxiques qui existent entre les mots ou le sens de ces derniers, et les limites sont vite atteintes. Il n’arrivera pas à traiter des phrases plus compliquées, où l’ordre des mots de la langue source (par exemple sujet-verbe-objet) ne correspond pas à celui de la langue cible (par exemple sujet- objet-verbe), car il n’a pas les informations pour transformer la phrase. Les systèmes directs se concentrent trop sur les mots en eux-mêmes plutôt que sur des connaissances syntaxiques et sémantiques (Jurafsky et Martin, 2009, pp. 905-906).

Dans les prochaines sections, nous passerons en revue les systèmes maximalistes, qui se divisent en systèmes par transfert et systèmes par interlangue.

(20)

2.2.1.2 Systèmes maximalistes

Les systèmes maximalistes, appelés également systèmes indirects, tentent d’aller plus loin dans la compréhension de la phrase, c’est-à-dire qu’ils ne s’arrêtent pas au niveau lexical, mais font une analyse syntaxique complète avec une grammaire et représentent la phrase, par exemple à l’aide d’un arbre syntagmatique. La traduction ne se fait plus mot à mot, car le système extrait la représentation syntaxique de la phrase et met en correspondance cette représentation, comme dans l’exemple ci-dessous :

Figure 2 : Exemple de représentations syntaxiques en anglais et en français

Les représentations syntaxiques, plus abstraites, facilitent le passage entre les langues et les informations rendent explicites plus d’informations pour le transfert. Par exemple, dans une phrase telle que I miss London, il devient possible d’inverser le sujet et l’objet de la phrase, ce qui donnerait Londres me manque, et non Je manque Londres.

Il y a principalement deux types de systèmes maximalistes, qui diffèrent par le niveau d’abstraction de la représentation syntaxique : ceux par transfert et ceux par interlangue.

2.2.1.2.1 Systèmes maximalistes par transfert

Les systèmes par transfert se fondent sur les connaissances des différences qui existent entre deux langues, et lient les mots et structures de la langue source à ceux de la langue cible (Arnold, 1994, p. 64), avec des représentations spécifiques à chaque langue. Ces systèmes fonctionnent en trois étapes distinctes : l’analyse, le transfert et la génération (Jurafsky et Martin, 2009, p. 906).

La première étape, l’analyse, se fait avec une grammaire et un lexique de la langue source pour extraire la représentation syntaxique complète de la phrase, qui est spécifique à chaque langue donnée. Nous pouvons illustrer le fonctionnement avec la phrase précédente John takes the apple, dont la représentation syntaxique est comme suit :

(21)

Figure 3 : Exemple de représentation syntaxique en anglais

L’étape de transfert est la transformation de la représentation syntaxique de la langue source en représentation syntaxique de la langue cible (Jurafsky et Martin, 2009, p. 906). Cette opération se réalise avec des règles de transfert (et avec un dictionnaire bilingue).

Figure 4 : Exemple de représentation syntaxique en français

Finalement, la dernière étape, celle de la génération, prend la représentation syntaxique de la langue cible créée lors du transfert et génère une phrase cible. Cette étape est faite elle aussi avec une grammaire et un lexique de la langue cible.

La séparation des connaissances monolingues (analyse) et bilingues (transfert) permet aux systèmes par transfert d’être plus modulables et plus simples à maintenir car, par exemple, tous les systèmes qui partent du français auront à disposition le même lexique source et il est possible de réutiliser plus d’informations. Toutefois, ce type de système n’est pas sans inconvénient, à savoir qu’il est nécessaire de définir pour chaque paire de langue des règles de transfert (Jurafsky et Martin, 2009, p. 909).

2.2.1.2.2 Systèmes maximalistes par interlangue

Les systèmes maximalistes par interlangue, contrairement à ceux par transfert, ne se basent pas sur les représentations syntaxiques des phrases mais sur une interlangue, indépendante des

(22)

langues, qui regroupe tous les concepts d’une langue. L’interlangue représente donc toutes les phrases qui ont le même sens de la même façon, quelle que soit la langue dans laquelle elles ont été écrites à l’origine. La traduction se fait en deux étapes : extraction de l’interlangue et génération à partir de l’interlangue de la phrase en langue cible (Jurafsky et Martin, 2009, p.

909). La traduction avec des systèmes par interlangue requiert une ontologie, c’est-à-dire une base de connaissances qui contient tous les concepts communs à toutes les langues, ou comme la définissent Jurafsky et Martin « the appropriate inventory of concepts and relations for an interlingua » (2000, p. 813).

Dans les systèmes par interlangue, il n’y a plus d’étape de transfert. L’analyse est plus poussée, et la génération peut se faire en se passant des transformations syntaxiques (Jurafsky et Martin, 2009, p. 910). S’il n’y a pas l’étape de transfert, il n’y a pas non plus d’informations bilingues, et l’on évite les descriptions explicites des relations entre les mots en langue source et les mots en langue cible, car la traduction se fait en mettant en correspondance les concepts répertoriés dans l’ontologie, qui est indépendante des langues (Jurafsky et Martin, 2000, p. 813).

Les systèmes par interlangue requièrent un niveau extrêmement élevé d’analyse sur la sémantique d’un domaine et la formalisation dans une ontologie. Ils sont généralement utilisés dans des sous-domaines ou des domaines très simples, tels que l’aviation ou les réservations de restaurants, où la définition de la base de données détermine les entités possibles et leurs relations (Jurafsky et Martin, 2009, p. 910).

L’un des principaux problèmes de l’interlangue est d’inventorier tous les concepts et de les distinguer lors de l’analyse. Par exemple, en japonais, on fait une distinction entre le grand frère et le petit frère : on est donc obligé de définir deux concepts et de choisir entre les deux, même si cette distinction ne se fait peut-être pas selon la langue cible : en français, par exemple, la traduction sera toujours la même : frère. En effet, ce mot est désambiguïsé par la suite en ajoutant l’un ou l’autre adjectif (grand ou petit) (Jurafsky et Martin, 2009, p. 910).

(23)

Un autre problème est la granularité de l’interlangue : en traduisant les concepts et non plus les mots, il est très probable que la même représentation conduise à la même traduction.

Prenons par exemple ces trois phrases (Arnold, 1994, p. 82) : It was the printer that was serviced yesterday.

It was yesterday that the printer was serviced.

The printer was serviced yesterday.

L’interlangue contient trois concepts : un pour le prédicat (to be serviced), un pour le thème (the printer) et un pour le temps (yesterday). Toutefois, comment peut-elle indiquer que la traduction de ces trois phrases devra être différente, vu que l’emphase est placée sur les différents mots qui les composent, si la seule connaissance qu’elle possède sont les concepts qui forment la phrase et les relations sémantiques ? Quel type de connaissances faudrait-il intégrer dans l’interlangue, pour qu’elle traduise de trois manières différentes ces trois phrases ?

Dans la prochaine section, nous expliquerons le fonctionnement des systèmes statistiques et les différents modèles, et ensuite les systèmes statistiques neuronaux (Section 2.2.2.1).

2.2.2 Systèmes statistiques

La deuxième grande catégorie de systèmes de traduction automatique regroupe les systèmes statistiques. Ces derniers, contrairement aux systèmes linguistiques, ne se basent plus sur des ressources linguistiques telles que les grammaires et les dictionnaires, mais sur des probabilités extraites de corpus (monolingues ou bilingues) (Hearne et Way, 2011, p. 205).

Ce type de système fonctionne en deux phases, d’entraînement et de décodage. La première phase implique l’extraction d’un modèle de traduction statistique à partir d’un corpus parallèle bilingue et l’extraction d’un modèle de langue cible à partir d’un corpus monolingue (Brown et al., 1990, 1993 in Hearne et Way, 2011, p. 205). Le modèle de traduction consiste en une table de traductions qui contient la liste de toutes les traductions possibles pour un certain mot ou séquence, auxquelles sont associées des probabilités. Le modèle de langue intègre les séquences de mots en langue cible, elles aussi associées à une probabilité (Hearne et Way, 2011, p. 205). La deuxième phase, de décodage, cherche toutes les possibilités de traduction données par le modèle de traduction, puis propose celle qui a obtenu la probabilité la plus élevée selon les deux modèles (Hearne et Way, 2011, pp. 205-206).

(24)

Pour mieux illustrer le fonctionnement des systèmes statistiques et des probabilités, nous allons expliquer un peu plus ce que font les modèles du langage et de traduction.

Le modèle du langage exploite la notion des N-grammes, qui sont très simplement des séquences de mots : nous avons les unigrammes (mots individuels), les bigrammes (séquences de deux mots), les trigrammes (séquences de trois mots), les quadrigrammes et ainsi de suite (Koehn, 2010, p. 95).

A chaque N-gramme est associée une probabilité, qui est calculée en divisant le nombre d’occurrences de ce bigramme dans le corpus par le nombre total d’occurrences du premier mot de ce bigramme. Par exemple (tiré de Hearne et Way, 2011, p. 210) :

Corpus : I need to fly to London tomorrow

Le modèle de traduction, lui, donne la probabilité qu’une phrase source et sa possible traduction soient équivalentes, c’est-à-dire que le sens de la phrase source est reproduit dans la phrase cible. Le modèle comprend des séquences en langue source, associées à une liste de traductions en langue cible et les probabilités correspondantes (Hearne et Way, 2011, pp. 211- 212). Par exemple :

Figure 5 : Exemple de séquences en anglais associées avec des probabilités de séquences en français

(25)

Une probabilité est ensuite assignée à n’importe quelle hypothèse en multipliant les probabilités des paires de séquences qui apparaissent dans cette paire, selon le modèle :

Figure 6 : Exemple de fonctionnement du modèle de traduction

Dans la Figure 6, les probabilités pour les trois séquences (je dois, retourner et demain) ont été multipliées ensemble pour arriver à un score pour l’hypothèse : 0,1 · 0,3 · 0,4 = 0,012 (Hearne et Way, 2011, p. 212).

Le corpus que le modèle de traduction exploite est bilingue, et il doit être aligné aussi bien par phrase que par mot. Toutefois, comme l’alignement est fait automatiquement et pas par un être humain, il y a la possibilité qu’il comporte des fautes vues les différences de structure entre les langues : pour faire en sorte que le modèle de traduction fonctionne correctement, il est nécessaire d’avoir une grande quantité de corpus, qui compense la qualité de l’alignement automatique par la quantité de textes alignés.

Un moyen plus simple de décrire le processus adopté par les systèmes statistiques pourrait être d’expliquer que le modèle de traduction s’occupe de proposer toutes les traductions possibles pour une suite de mots et qu’ensuite le modèle du langage choisit la phrase qui se lit le mieux, c’est-à-dire la plus fluide parmi toutes les propositions.

Il y a deux types de systèmes statistiques, un basé sur le mot (word-based model) et l’autre sur les segments (phrase-based model).

Le système basé sur le mot s’appuie sur une traduction des mots et nécessite un dictionnaire qui traduise les mots d’une langue à l’autre. L’objectif est de trouver une traduction (parmi toutes les traductions possibles) et le nombre d’occurrences de cette traduction. Par exemple, pour trouver la probabilité de traduction du mot allemand Haus, il y a hypothétiquement cinq traductions en anglais : house, building, home, household et shell. Chacune de ces traductions a un nombre plus ou moins élevé d’occurrences (par exemple 8'000, 1'600, 200, 150 et 50).

(26)

Ce que le système fait maintenant est calculer laquelle parmi ces traductions possibles est la plus probable. Il utilise une fonction

pf : e → pf(e)

qui, pour un nom f dans une langue x (par exemple Haus), calcule la probabilité pour chaque traduction possible e en langue y (en ce cas l’anglais), et indique ainsi la plausibilité de chaque traduction. La fonction devrait donner une valeur élevée si un candidat est une traduction fréquente, une valeur basse si un candidat est une traduction rare et une valeur 0 si le candidat est une traduction impossible (Koehn, 2010, pp. 81-83).

Les modèles basés sur le mot ne sont pas idéaux si l’on traduit une unité lexicale qui dans une langue est composée d’un mot et dans une autre langue de deux mots. C’est pour cela que les systèmes statistiques les plus performants sont basés sur les segments, et traduisent de courtes séquences de mots l’une après l’autre (Koehn, 2010, p. 127).

Les modèles basés sur les segments sont plus intéressants pour deux autres raisons : selon Koehn (2010, p. 128), traduire des segments plutôt que des mots résout les ambiguïtés de traduction (grâce au contexte) et si l’on a à disposition de grands corpus, l’on peut apprendre des phrases plus longues, et même les mémoriser.

2.2.2.1 Systèmes neuronaux

Un sous-ensemble des systèmes statistiques, qui comprend les systèmes neuronaux, est apparu récemment : nous pouvons citer Systran, qui a annoncé le lancement de son moteur Pure Neural Machine Translation au mois d’août 2016 dans un communiqué de presse² (« SYSTRAN lance son moteur “Purely Neural MT”, une révolution pour le marché de la traduction automatique », Systran, 2016), et Google, qui a fait de même en septembre 2016³ (« A Neural Network for Machine Translation, at Production Scale »). Nous verrons le fonctionnement du système neuronal de Google plus dans les détails à la section 2.2.2.1.1.

Les systèmes neuronaux utilisent le deep learning, ou apprentissage profond, qui leur permet d’apprendre de la même manière qu’un être humain et d’améliorer leurs performances avec de l’entrainement (Singh et al., 2017, p. 162).

2 http://www.systran.fr/download/press-releases/fr/systran-pr-purely-neural-mt-engine-a-revolution-for-the- machine-translation-market-2016-08-30.pdf, consulté le 18.12.2017.

3 https://research.googleblog.com/2016/09/a-neural-network-for-machine.html, consulté le 13.12.2017.

(27)

Ils fonctionnent en deux étapes, une première d’encodage et une deuxième de décodage. Ces deux étapes peuvent être comparées à celles des systèmes linguistiques par interlangue.

L’encodage conduit à une représentation numérique sous forme de vecteurs, qui caractérisent les propriétés des mots. Le décodage, de son côté, génère directement les mots cibles un par un avec le modèle d’attention qui permet de savoir sur quel mot source porter l’attention (Systran, 2017).

Une composante importante des systèmes neuronaux sont les réseaux de neurones (neural networks). Les réseaux de neurones composés de plusieurs niveaux sont appelés deep neural networks : ces sous-réseaux, tout comme dans le cerveau humain, entrent en jeu lors de la traduction. Par exemple, un premier sous-réseau traite la phrase pour en extraire le sens, un deuxième se concentre sur la syntaxe, un autre sur le contenu et un autre encore sur les mots clés : tous ces réseaux ensemble permettent au système neuronal de choisir la meilleure traduction (Systran, 2016).

Les réseaux de neurones employés pour le traitement des langues naturelles ont de huit à vingt sous-réseaux. Une particularité des réseaux de neurones est leur capacité de corriger automatiquement leurs paramètres lors de la phase d’entrainement : le résultat est comparé à une référence fournie au début et des commentaires de correction sont transmis au système pour corriger le tout (Systran, 2017).

L’autre composante des systèmes neuronaux est le word embedding, la représentation de vecteurs dans l’espace qui a la capacité de saisir les composantes sémantiques et syntaxiques de mots correspondants (Singh et al., 2017, p. 163 ; Systran, 2017). Pour expliquer un peu plus le fonctionnement de ces vecteurs, nous pouvons les représenter de la manière suivante (tiré de Singh et al., 2017, p. 163) :

Figure 7 : La représentation des mots dans un espace continu

(28)

Ainsi, si le vecteur d’un mot est connu, il est possible de retrouver tous les vecteurs de tous les mots qui sont situés dans la même dimension : par exemple, come est relié à coming, tout comme play est relié à playing.

Dans la section suivante, nous allons expliquer plus dans les détails le fonctionnement du système de traduction neuronale de Google Translate, le système de TAS que nous avons voulu tester dans le cadre de cette étude.

2.2.2.1.1 Google Translate

Google Translate était à ses débuts un système statistique basé sur les segments (section 2.2.2). En septembre 2016, Google a annoncé⁴ le passage vers la traduction automatique neuronale, et son propre système, le Google Neural Machine Translation (GNMT). Par rapport à la TA statistique basée sur les segments, qui divise la phrase source en mots et séquences pour être traduits séparément, la traduction automatique neuronale considère comme unité de traduction la phrase source en entier (Le et Schuster, 2016). Comme nous l’explique Google, l’utilisation d’un système d’apprentissage construit entièrement avec des techniques neuronales permet à ce même système d’apprendre avec le temps, ce qui signifie qu’il est en mesure de créer de meilleures traductions, plus naturelles (Turovsky, 2016a).

L’architecture du GNMT consiste en deux réseaux de neurones récurrents, un qui analyse la phrase source et l’autre qui génère la traduction. Ces deux réseaux de neurones sont souvent accompagnés d’un mécanisme d’attention (attention model), qui aide lors du traitement de phrases plus longues et spécifie où porter l’attention lors de la traduction (Wu et al., 2016, p.

1).

Le schéma de la Figure 8 (tiré de Le et Schuster, 2016) montre l’architecture du modèle du GNMT. Il se compose d’un réseau encodeur (encoder network), d’un réseau décodeur (decoder network) et d’un réseau d’attention (attention network). Dans ce schéma, le GNMT traduit une phrase du chinois vers l’anglais : les mots en langue source sont encodés dans des vecteurs (e0, e1, e2, etc.), qui représentent le sens de tous les mots lus. Une fois cette liste de vecteurs établie, le décodeur intervient et génère la traduction un mot à la fois (d0, d1, d2, d3).

4 https://research.googleblog.com/2016/09/a-neural-network-for-machine.html, consulté le 13.12.2017.

(29)

Encodeur et décodeur sont reliés entre eux par le réseau d’attention (au milieu), qui permet au décodeur de se concentrer sur les différentes parties de la phrase source pendant le décodage (Wu et al., 2016, p. 3 ; Le et Schuster, 2016).

Figure 8 : Le fonctionnement du GNMT

Les équipes de Google Brain et Google Translate indiquent, dans leur étude initiale sur le système neuronal de Google Translate, que les erreurs sont réduites de plus de 60 % par rapport aux systèmes basés sur les syntagmes (au moins pour les paires de langues testées : anglais ↔ espagnol, anglais ↔ français, anglais ↔ chinois) (Wu et al., 2016, p. 19).

Toutefois, ce système peut encore commettre des erreurs qu’un humain ne commettrait jamais, comme par exemple ne pas traduire des mots, traduire de manière incorrecte des noms propres ou rares, ou bien encore traduire des phrases sans considérer le contexte (Le et Schuster, 2016).

En ce qui concerne le déploiement de ce système, Google a annoncé en novembre 2016 le passage à la TA neuronale pour huit paires de langues, vers et à partir de l’anglais, pour le français, l’allemand, l’espagnol, le portugais, le japonais, le coréen et le turc, ce qui représente les langues maternelles de plus ou moins un tiers de la population mondiale et plus du 35 % des requêtes sur Google Translate⁵. Depuis avril 2017, la traduction neuronale s’effectue aussi

5 https://blog.google/products/translate/found-translation-more-accurate-fluent-sentences-google-translate/, consulté le 13.12.2017.

(30)

vers et à partir de l’anglais, pour l’hindi, le russe, le vietnamien, le polonais, l’arabe, l’hébreu et le thaïlandais⁶.

L’italien a également été ajouté dans le courant d’avril 2017, comme en témoigne une série d’articles, un provenant du quotidien Il Sole 24 Ore⁷ du 20 avril 2017 (« Google Translate: le reti neurali possono migliorare le traduzioni? ») et l’autre de l’agence de presse italienne ANSA⁸ (Agenzia Nazionale Stampa Associata) du 27 avril 2017 (« Google, sbarcano in Italia traduzioni con reti neurali »).

Dans les prochaines pages nous allons décrire les possibilités d’évaluation d’un système de traduction automatique, évaluation qui peut être soit humaine soit automatique.

2.3 Evaluation des logiciels de traduction automatique

Dans cette section, nous allons présenter les deux méthodes principales d’évaluation des logiciels de traduction automatique. Il s’agit d’une étape très importante, avec beaucoup d’impact. Cependant, l’évaluation est problématique car, pour une même phrase source, il existe plusieurs traductions correctes possibles.

Il y a deux types d’évaluation : humaine (Section 2.3.1) et automatique (Section 2.3.2).

L’objectif est de trouver la méthode la moins subjective, la plus rapide et la moins chère possible.

2.3.1 Evaluation humaine

L’évaluation humaine est effectuée, bien évidemment, par des juges humains. Il y a trois méthodes principales d’évaluation humaine : le jugement intuitif, l’évaluation comparative (Koehn, 2010, pp. 218-220), et l’analyse d’erreurs.

En ce qui concerne le jugement intuitif, l’on se focalise en général sur une évaluation de la fidélité (le sens de la phrase est-il correct ?, généralement avec la langue source), et de la fluidité (la phrase se lit-elle bien ? Est-elle compréhensible ?, généralement sur la base de la

6 https://cloudplatform.googleblog.com/2017/04/Cloud-Translation-API-adds-more-languages-and-Neural- Machine-Translation-enters-GA.html, consulté le 13.12.2017.

7 http://www.ilsole24ore.com/art/tecnologie/2017-04-19/google-translate-reti-neurali-possono-migliorare- traduzioni--163520.shtml?uuid=AEyd5t7&refresh_ce=1, consulté le 14.12.2017.

8 http://www.ansa.it/sito/notizie/tecnologia/software_app/2017/04/19/google-in-italia-traduzioni-con- ai_e18d6de6-f8cb-4198-8498-5f8f3ab08013.html, consulté le 14.12.2017.

(31)

langue cible uniquement). L’évaluation intuitive d’une traduction se fonde donc sur ces deux critères, qui peuvent être combinés ou pas.

Il est nécessaire de se poser quelques questions si l’on veut utiliser ce type d’évaluation.

Quelle échelle faudra-t-il établir ? Une petite échelle est trop stricte, car le juge va devoir choisir parmi des valeurs qui, peut-être, ne sont pas représentatives de ses choix. Une échelle trop grande, par contre, propose trop de choix et mène à un jugement qui est trop subjectif, car les juges ne seront probablement pas d’accord entre eux.

La deuxième chose à laquelle il faut réfléchir est le nombre de juges. Le jugement intuitif induit par sa nature beaucoup de subjectivité, et le seul moyen d’obtenir des résultats qui soient fiables, c’est-à-dire le plus objectifs possibles, est d’avoir un nombre élevé de juges. Il est possible, lors du jugement intuitif, de calculer le score Kappa, qui mesure l’accord entre les juges (inter-annotator agreement) (Koehn, 2010, p. 221), comme nous le ferons par la suite (Section 6.1).

Le troisième point important à considérer est le profil des juges qui s’occuperont de l’évaluation. Faut-il choisir des traducteurs ou encore des utilisateurs (les destinataires de la traduction) ? Est-ce qu’ils seront monolingues ou bilingues ? Cela dépend du critère évalué, fidélité ou fluidité.

La deuxième méthode comporte, comme son nom l’indique, une comparaison de deux traductions : on demande à des juges de déterminer quelle est la meilleure parmi les deux.

Comme cette méthode est plus simple à exécuter, elle donne aussi des résultats plus cohérents : l’accord entre les juges est en général plus élevé que pour le jugement intuitif (Koehn, 2010, p. 210).

Toutefois, l’évaluation comparative présente une limite : comme la question est uniquement d’identifier lequel des systèmes évalués est le meilleur, nous n’évaluons pas la qualité de la traduction en elle-même : cette dernière peut être meilleure que les autres, mais quand même de mauvaise qualité.

La troisième méthode, l’analyse d’erreurs, comporte également la participation de juges humains, auxquels on demande de compter la quantité d’erreurs à corriger pour obtenir une

(32)

traduction parfaite et de les classifier selon leur type. Il existe plusieurs standards pour la classification des erreurs, par exemple le SAE J2450⁹, utilisé dans le secteur de l’industrie automobile, ou le LISA QA Model¹⁰, dans le secteur de la localisation. Le point commun de ces standards est la classification des erreurs et l’attribution d’un poids différent selon le type d’erreur (ou encore selon le type de correction à effectuer).

Mais, comme toute expérience qui inclut des participants humains, il est impossible d’éviter une part de subjectivité, même si ce type d’évaluation est très précis. Il est extrêmement difficile de classer les erreurs, et il est probable que différents juges ne classeront pas la même faute dans la même catégorie. De plus, il est important de souligner que ce type de standards a été créé pour des domaines et des textes bien précis, et leur portée est donc limitée. Cette méthode implique des investissements importants en termes de temps et d’argent.

L’évaluation humaine comporte, comme nous venons de l’exposer, un grand degré de subjectivité, prend du temps et requiert de l’argent. Etant donné la subjectivité des évaluations humaines, il devient intéressant de faire appel à un autre moyen d’évaluation : l’évaluation automatique.

2.3.2 Evaluation automatique

Le but de l’évaluation automatique est de comparer automatiquement des traductions fournies par des systèmes de traduction automatique avec une ou plusieurs traductions de référence, qui ont été produites par des traducteurs humains.

La précision (precision) et le rappel (recall) sont des métriques traditionnelles basées sur le mot : la précision calcule le nombre de mots corrects générés par rapport au nombre total de mots générés par le système de traduction automatique ; le rappel, quant à lui, calcule le nombre de mots corrects générés par rapport au nombre total de mots dans la référence (Koehn, 2010, p. 223). La précision calcule le bruit (tous les mots incorrects qui ont été générés) et le rappel le silence (tous les mots présents dans la référence mais qui n’ont pas été générés par le système de traduction automatique).

9 http://www.apex-translations.com/documents/sae_j2450.pdf, consulté le 04.09.2017.

10

http://producthelp.sdl.com/SDL_TMS_2011/en/Creating_and_Maintaining_Organizations/Managing_QA_Mode ls/LISA_QA_Model.htm, consulté le 04.09.2017.

(33)

Le grand inconvénient de ces deux métriques est qu’elles ne tiennent pas compte de l’ordre des mots. Si par exemple la traduction de référence est Le chat dort sur la chaise et le système génère Chaise le dort la sur chat, la précision et le rappel vont être 100 %, valeur qui indique une phrase parfaite, mais la traduction n’a aucun sens.

Une autre métrique traditionnelle issue de la reconnaissance vocale est le WER (Word Error Rate), également basée sur le mot mais qui tient compte de l’ordre des mots. Le WER calcule le nombre minimal de corrections (insertions, suppressions ou substitutions) à effectuer pour que la traduction automatique soit identique à la référence. On divise ensuite ce nombre par le total de mots de la référence. Le résultat est un pourcentage : plus ce chiffre est bas, plus le système est bon, car cela veut dire qu’il y a moins de correction à effectuer. Par contre, il s’agit d’une métrique trop stricte, car le WER exige que l’ordre des mots soit identique. Par exemple, une phrase X et une phrase Y auront des scores différents, même si les deux phrases ont le même sens.

Mises à part les métriques traditionnelles, il y a aussi la référence en évaluation automatique, le score BLEU (Bilingual Evaluation Understudy). BLEU est une métrique qui compare de manière automatique les traductions produites par les systèmes de traduction avec une ou plusieurs références, en tenant compte du nombre de N-grammes (et non pas tout simplement des mots) en commun entre les deux.

Pour mieux expliquer le fonctionnement de BLEU, nous reportons ici l’exemple de Koehn (2010, p. 226) :

Système A : Israeli officials responsibility of airport safety Référence : Israeli officials are responsible for airport security

Système B : airport security Israeli officials are responsible

BLEU divisera le nombre de N-grammes de chaque type dans la traduction présents dans la référence par le nombre total de N-grammes de chaque type dans la traduction. Plus le score est haut, plus le système est bon. Le score fonctionne aussi avec plusieurs références (Papineni et al., 2002, pp. 311-318).

Pour le système A, le calcul BLEU simplifié est le suivant : 3/6 pour les unigrammes (3 unigrammes générés sont présents dans la référence), 1/5 pour les bigrammes (1 bigramme

(34)

généré est présent dans la référence), 0/4 pour les trigrammes (aucun trigramme n’a été généré) et 0/3 pour les quadrigrammes (aucun quadrigramme n’a été généré), ce qui donne un total de 4/18 N-grammes générés présents dans la référence. Pour le système B, il s’agit d’appliquer le même principe : 6/6 pour les unigrammes, 4/5 pour les bigrammes, 2/4 pour les trigrammes et 1/3 pour les quadrigrammes, ce qui donne un total de 13/18 N-grammes générés présents dans la référence.

Le score inclut aussi une pénalité (brevity penalty), c’est-à-dire qu’il est réduit si la traduction est plus courte que la référence (Koehn, 2010, p. 226).

Les principaux avantages de BLEU sont qu’il est, bien évidemment, automatique, qu’il permet de mesurer la fidélité (grâce aux unigrammes) et la fluidité (grâce aux multigrammes) (Papineni et al., 2002, pp. 311-318) et qu’il semble donner des corrélations élevées avec les jugements humains (Koehn, 2010, p. 229). Toutefois, BLEU présente aussi des limites.

Tout d’abord, ce n’est pas clair que BLEU reflète vraiment des différences de qualité entre les traductions. BLEU ne fait que comparer une traduction à une ou plusieurs références limitées, même s’il y a un nombre élevé de bonnes traductions. Deuxièmement, on ne sait pas vraiment ce que signifie le score BLEU, c’est-à-dire, à partir de quel score pourrait-on utiliser une phrase ? Toral et Way, dans leur étude de 2015 « Machine-assisted translation of literary texts: a case study », indiquent que « [t]o system developers, a BLEU score of less than 20 would be indicative of unusable quality in a post-editing workflow » (2015b, p. 249). Ce score dépend de beaucoup de facteurs, par exemple du nombre de traductions de référence, de la paire de langues, du domaine et de la manière selon laquelle les phrases (traductions et références) sont segmentées (Koehn, 2010, p. 229).

Les chercheurs ont essayé d’améliorer le score BLEU de différentes manières : avec les métriques METEOR et NIST. METEOR part du principe que BLEU ne tient pas compte des correspondances partielles entre les traductions et la ou les références. Il intègre donc l’utilisation des synonymes et des lemmes pour ne pas pénaliser des phrases qui sont correctes, comme security et safety dans l’exemple précédent. NIST, quant à lui, donne plus de poids selon la fréquence d’apparition d’un N-gramme (plus ce dernier est rare, plus il aura de poids) (Koehn, 2010, pp. 228-229).

Une autre métrique automatique utilisée est le TER (Translation Edit Rate). Cette méthode compare le résultat de la traduction automatique avec une traduction de référence, ou, en cas

(35)

de plusieurs références, au nombre de mots de la référence la plus proche. Le TER calcule le nombre minimum de corrections (ajouts, suppressions, substitutions) nécessaires pour arriver à la référence. Il est donc similaire au WER (décrit plus haut), mais prend en considération les déplacements de séquences (Snover et al., 2006, pp. 223-231). Pour illustrer, nous reprenons l’exemple tiré de Snover et al :

Référence : SAUDI ARABIA denied THIS week information published in the AMERICAN new york times

Hypothèse : THIS WEEK THE SAUDIS denied information published in the new york times

Pour arriver à la référence, nous devons faire quatre corrections : un déplacement (this week), deux substitutions (the Saudis) et une insertion (American). Ce qui donne un score TER de 4/13, ou de 31 %. Le score TER se lit de la façon suivante : plus il est haut, plus il y a eu de changements.

2.3.3 Conclusion

Toutes ces métriques automatiques sont intéressantes ; toutefois, tant l’évaluation automatique sert à vérifier l’évaluation humaine, tant l’évaluation humaine sert à vérifier l’évaluation automatique. C’est pour cette raison que nous avons décidé de faire les deux types d’évaluations.

Nous allons détailler à la section 5.6 l’évaluation humaine des traductions, en évaluant principalement la fluidité de la traduction, et à la section 6.4 l’évaluation automatique, pour laquelle nous allons calculer les scores automatiques BLEU et TER, dans l’optique de voir s’il y a une corrélation entre ces deux métriques et les évaluations humaines.

Dans le prochain chapitre (Chapitre 3), nous allons présenter la post-édition, qui occupe une place très importante dans notre étude et dans la méthodologie que nous avons choisi d’adopter.

(36)

3 La post-édition

Le but de ce mémoire est d’essayer de vérifier si la post-édition d’une traduction automatique peut rivaliser avec une traduction humaine. Il est donc nécessaire d’exposer brièvement en quoi consiste la post-édition. Dans la section 3.1, nous expliquons ce qu’est la post-édition, en passant en revue les différentes définitions. Nous verrons ensuite les types et degrés de post- édition (Section 3.2). Les différences avec la traduction (Section 3.3) et la révision (Section 3.4), et en quoi consiste l’effort de post-édition (Section 3.5). Nous parlerons finalement des compétences du post-éditeur (Section 3.6) et des standards de post-édition (Section 3.7), avant de présenter une courte conclusion (Section 3.8).

3.1 Définition

Le terme post-éditeur fut introduit en 1950 par Erwin Reifler, qui décrivit la tâche de la manière suivante : « to select the correct translation from the possibilities found by the computer dictionary and to rearrange the word order to suit the target language » (Krings et Koby, 2001, p. 44).

Au fil du temps, plusieurs auteurs ont proposé différentes définitions, qui nous aident à comprendre ce qu’est la post-édition : en 1985, Wagner définit la post-édition comme la correction d’un texte qui a été traduit précédemment, et non pas une traduction de zéro (Wagner, 1985, pp. 1-7).

Allen (2003) énumère les tâches du post-éditeur de la manière suivante : « to edit, modify and/or correct pre-translated text that has been processed by an MT system » (p. 297), en y ajoutant ainsi la notion de correction du résultat d’un système de traduction automatique.

O’Brien, dans son article « Towards predicting post-editing productivity » précise que, en plus de la correction d’une traduction automatique par un humain, la post-édition implique que cette correction soit effectuée selon des règles spécifiques et des critères de qualité (O’Brien, 2011, p. 197).

La raison principale qui pousse à l’utilisation de la traduction automatique et ensuite de la post-édition est liée « à l’augmentation du volume de traduction » (Robert, 2010, p. 138), à la suite de la mondialisation et du besoin des entreprises d’être présentes à l’échelle mondiale