Traduction automatique et littérature : un couple impossible ? : Étude sur l'utilité de la spécialisation d'un traducteur automatique pour traduire une nouvelle de Sherlock Holmes

(1)

Master

Reference

Traduction automatique et littérature : un couple impossible ? : Étude sur l'utilité de la spécialisation d'un traducteur automatique pour

traduire une nouvelle de Sherlock Holmes

NDIAYE, Soukeyna

Abstract

Souvent, littérature et traduction automatique sont jugées incompatibles, notamment par qui considère la littérature comme le dernier bastion de la traduction humaine. Malgré cela, la recherche commence à s'intéresser à ce sujet et quelques études ont été réalisées sur ce couple à première vue impossible. Cette étude s'intéresse en particulier à l'utilité de la spécialisation d'un système de traduction automatique statistique pour traduire une nouvelle de Sherlock Holmes de l'anglais vers le français. À l'aide de la plateforme Microsoft Translator Hub, nous créons plusieurs systèmes de TA spécialisés, puis évaluons leurs performances en les comparant entre eux et à Google Translate, au moyen d'une évaluation humaine et d'une évaluation automatique.

NDIAYE, Soukeyna. Traduction automatique et littérature : un couple impossible ? : Étude sur l'utilité de la spécialisation d'un traducteur automatique pour traduire une nouvelle de Sherlock Holmes. Master : Univ. Genève, 2016

Available at:

http://archive-ouverte.unige.ch/unige:92497

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Traduction automatique et littérature : un couple impossible ? Étude sur l'utilité de la spécialisation d'un traducteur automatique

pour traduire une nouvelle de Sherlock Holmes

Mémoire présenté à la Faculté de traduction et d’interprétation (Département de traitement informatique multilingue, Unité de français)

pour l’obtention de la Maîtrise universitaire en traduction, mention Technologies de la traduction

Directrice : Prof. Pierrette Bouillon Jurée : Mme Mathilde Fontanet

Université de Genève

Août 2016

(3)

J’affirme avoir pris connaissance des documents d’information et de prévention du plagiat émis par l’Université de Genève et la Faculté de traduction et d’interprétation (notamment la Directive en matière de plagiat des étudiant-e-s, le Règlement d’études de la Faculté de traduction et d’interprétation ainsi que l’Aide-mémoire à l’intention des étudiants préparant un mémoire de Ma en traduction).

J’atteste que ce travail est le fruit d’un travail personnel et a été rédigé de manière autonome.

Je déclare que toutes les sources d’information utilisées sont citées de manière complète et précise, y compris les sources sur Internet.

Je suis conscient-e que le fait de ne pas citer une source ou de ne pas la citer correctement est constitutif de plagiat et que le plagiat est considéré comme une faute grave au sein de l’Université, passible de sanctions.

Au vu de ce qui précède, je déclare sur l’honneur que le présent travail est original.

Nom et prénom :

Lieu / date / signature :

(4)

Table des matières

Remerciements ... 5

1) Introduction ... 6

2) La traduction automatique ... 9

2.1 Introduction ... 9

2.2 Historique ... 9

2.3 Systèmes de traduction automatique ... 12

2.3.1 Systèmes linguistiques ... 12

2.3.1.1 Systèmes minimalistes... 13

2.3.1.2 Systèmes maximalistes ... 14

2.3.1.2.1 Systèmes maximalistes par transfert ... 15

2.3.1.2.2 Systèmes maximalistes par interlangue ... 17

2.3.2 Systèmes statistiques ... 19

2.3.2.1 Microsoft Translator Hub ... 22

2.4 Évaluation des systèmes de traduction automatique ... 29

2.4.1 Évaluation humaine ... 30

2.4.2 Évaluation automatique ... 32

2.5 Conclusion ... 36

3) Traduction automatique de la littérature ... 37

3.2 État de l’art ... 37

(5)

4) Corpus et systèmes MTH ... 44

4.2 Premier corpus ... 44

4.2.1 Préparation du corpus ... 45

4.3 Premiers systèmes et résultats ... 47

4.4 Agrandissement du corpus et systèmes successifs ... 51

4.5 Systèmes retenus ... 54

5) Résultats de la traduction automatique ... 60

5.2 Évaluation automatique : méthodologie et résultats ... 61

5.3 Évaluation humaine : méthodologie et résultats ... 62

5.4 Discussion des résultats ... 66

6) Conclusions ... 74

7) Bibliographie ... 76

Annexe 1 - Fiche pour l’évaluation 1 (section 5.3) ... 80

Annexe 2 - Fiche pour l’évaluation 2 (section 5.3) ... 98

Annexe 3 - Tableaux 13 à 16 détaillant les segments sans score (section 5.4) ...115

(6)

Remerciements

Ce mémoire n’aurait jamais pu voir le jour sans l’aide précieuse de plusieurs personnes, que je souhaite remercier par ces quelques lignes.

Mes remerciements vont tout d’abord à ma directrice, Prof. Pierrette Bouillon, pour m’avoir guidée et conseillée tout au long de la préparation et de la rédaction de ce travail.

Merci également à Madame Mathilde Fontanet pour son ouverture d’esprit en acceptant d’être ma jurée. De manière générale, merci aux enseignants de la FTI, pour avoir nourri ma passion pour les langues et pour l’informatique.

Mille mercis également à Jade, Johanna, Christopher, Florian, Valérie et Geoffray, les meilleurs juges dont on puisse rêver. Sans vous, rien n’aurait été possible. Merci de m’avoir accordé votre temps, parfois dans des délais très courts, et de m’avoir encouragée par e-mails interposés.

Je remercie aussi la famille Caillaba, qui a tout fait pour que je puisse rédiger ce travail dans le calme chez elle, et qui a su me distraire à la fin des longues sessions de rédaction.

Milesker !

Merci à ma maman, qui a supporté mes crises de doute et d’angoisse avec patience, et qui a toujours su me remonter le moral. Et, bien sûr, merci à Cyril, qui a dû me supporter au quotidien pendant cette période parfois difficile, mais dont l’amour et le soutien n’ont jamais vacillé. Merci du fond du cœur !

(7)

1) Introduction

La traduction automatique a toujours suscité de vives réactions dans le milieu de la traduction, que ce soit un enthousiasme et un optimisme sans bornes, à ses débuts, ou un scepticisme, voire un rejet total par un certain nombre de personnes, du domaine de la traduction ou non. En effet, la traduction automatique s’est démocratisée, notamment grâce à Google Translate¹, et, cette technologie n’étant plus réservée aux professionnels, beaucoup de monde a son avis, souvent bien tranché, sur le sujet.

Que dire alors de la traduction automatique de textes littéraires ? Lorsque nous avons annoncé le sujet de notre mémoire aux personnes qui souhaitaient le connaître, la réaction la plus fréquente était, d’abord, de l’incrédulité (« Tu es sérieuse ?? »), puis, une conviction que les résultats seraient mauvais (« Eh bien, ça ne va pas être beau à voir ! »).

L’idée que la littérature ne peut pas être traduite autrement que par un traducteur professionnel humain de A à Z est très ancrée dans l’esprit collectif, si bien que de nombreux détracteurs de la traduction automatique se servent de textes littéraires (mal) traduits par un système de traduction automatique pour montrer à quel point la traduction automatique est inutile.

Malgré cet environnement apparemment hostile, nous avons décidé de consacrer ce mémoire à la traduction automatique de textes littéraires. En effet, l’idée selon laquelle la traduction automatique n’a rien à faire dans le monde littéraire étant si répandue, nous avons voulu vérifier si cette opinion était fondée. De plus, s’agissant d’un sujet très récent et encore peu étudié, il existe beaucoup de pistes encore non explorées et potentiellement intéressantes, ce qui a piqué notre curiosité.

Puisque, de nos jours, il est possible de construire son propre système de traduction automatique en lui fournissant des textes ressemblant aux résultats espérés, le but de ce mémoire est de vérifier si la spécialisation d’un système de traduction automatique permet d’obtenir des résultats exploitables pour la traduction littéraire. L’idée générale est donc la suivante : spécialiser un logiciel de traduction automatique avec des œuvres littéraires similaires à celle qui serait ensuite traduite, comparer la traduction ainsi

1 https://translate.google.ch/, consulté le 28 juillet 2016

(8)

obtenue avec une traduction de la même œuvre issue d’un système non spécialisé et évaluer ces traductions avec des scores automatiques et des jugements humains.

Notre directrice de mémoire, Mme Bouillon, nous ayant informée de l’existence de Microsoft Translator Hub, un système de traduction automatique statistique gratuit qu’il est possible de spécialiser avec des textes monolingues ou bilingues, c’est ce logiciel que nous avons décidé d’utiliser.

Une fois le sujet de nos recherches défini et notre problématique de base posée, il nous a aussi fallu choisir quelle œuvre nous allions faire traduire à Microsoft Translator Hub.

Notre choix s’est rapidement porté sur une nouvelle de Sherlock Holmes, et ce pour plusieurs raisons. Tout d’abord, les œuvres de Sir Arthur Conan Doyle sont désormais libres de droit, et tous les textes dont on alimente Microsoft Translator Hub doivent l’être. Ensuite, étant libres de droit, elles sont facilement trouvables en ligne en format électronique, ce qui est tout de même plus pratique s’il faut les « rentrer » dans un logiciel. Un recueil de nouvelles est également une aubaine pour une recherche telle que la nôtre : en effet, il suffit de choisir une nouvelle à traduire parmi celles du recueil et d’utiliser les autres pour spécialiser le système. Le style de Conan Doyle étant assez typé, toutes les nouvelles se ressemblent de ce point de vue-ci. De plus, une nouvelle n’est généralement pas bien longue et il est plus facile et rapide d’évaluer une traduction courte. Enfin, nos préférences personnelles ont achevé de nous persuader, car nous avons toujours été friande de romans policiers.

Notre question de recherche générale est donc la suivante : la traduction automatique est-elle utile pour la traduction littéraire ? Nous tenterons d’y répondre en l’articulant en deux sous-questions : la spécialisation de Microsoft Translator Hub avec des textes de Sherlock Holmes permet-elle d’obtenir des résultats exploitables pour la traduction d’une nouvelle de l’anglais vers le français ? Ces derniers sont-ils meilleurs que les résultats obtenus avec Google Translate ?

Ce travail sera organisé en cinq chapitres. Le chapitre 2 exposera les principes de la traduction automatique et les différents types de systèmes existants, avec une insistance particulière sur Microsoft Translator Hub, ainsi que les diverses méthodes d’évaluation pratiquées de nos jours. Le chapitre 3 présentera le contexte dans lequel s’inscrit notre recherche, à savoir les études déjà effectuées au sujet de la traduction automatique de la

(9)

littérature, sujet qui, bien qu’encore récent, est bien vivant. Nous exposerons ensuite les différentes étapes de notre expérience dans le chapitre 4 avant de présenter et de discuter les résultats obtenus dans le chapitre 5. Enfin, le chapitre 6 résumera nos conclusions et nous y explorerons d’éventuelles pistes de recherches ultérieures.

(10)

2) La traduction automatique

2.1 Introduction

Notre travail a pour objectif de vérifier s’il est possible d’obtenir des résultats exploitables pour la traduction littéraire en spécialisant un système de traduction automatique, puis en lui faisant traduire une nouvelle de l’anglais vers le français. Afin de poser les bases nécessaires à la compréhension de notre expérience, ce chapitre vise à présenter la traduction automatique, tout d’abord à travers un bref historique (section 2.2), puis en exposant les différents types de systèmes de traduction automatique existants (section 2.3) et, enfin, en expliquant les méthodes d’évaluation disponibles pour juger de la qualité d’un système de traduction automatique (section 2.4).

2.2 Historique

²

S’il n’y a pas de consensus sur l’identité de la personne qui a eu l’idée d’automatiser le processus de traduction en premier, celle-ci n’est pas nouvelle. En effet, elle remonte au moins au mémorandum rédigé en 1949 par Warren Weaver, un éminent scientifique américain actif à la Fondation Rockefeller.

Mathématicien accompli, ce chercheur est tout à fait conscient de l’utilité des mathématiques appliquées et des techniques statistiques pour déchiffrer les messages codés des ennemis pendant la seconde guerre mondiale. Dans son mémorandum, il se fonde sur ces récents succès en déchiffrage de messages codés pour proposer plusieurs façons d’automatiser le passage d’une langue naturelle vers une autre, avant même que la plupart des gens aient une bonne idée du potentiel des ordinateurs (Hutchins, 1999, pp. 5-6).

Il y écrit entre autres : « J’ai devant moi un texte écrit en russe, mais je vais imaginer qu’il est en réalité écrit en anglais et qu’il a été codé avec d’étranges symboles. Tout ce qu’il

2 Les sources principales de cette section sont Hutchins, 1999 ; Hutchins, 2005 et Arnold et al., 1994.

(11)

me reste à faire est de déchiffrer ce code afin de récupérer l’information contenue dans le texte. »³

Cette publication est considérée comme la plus influente des débuts de la traduction automatique, ayant grandement contribué au lancement de la recherche dans ce domaine aux Etats-Unis, puis dans le monde (Hutchins, 1999, pp. 5-6). En 1954 a eu lieu la première démonstration publique d’un système de traduction automatique, œuvre d’une collaboration entre l’entreprise IBM et l’Université de Georgetown. Malgré un vocabulaire et une grammaire basiques, les résultats furent assez impressionnants pour stimuler le financement de la recherche dans le monde (Hutchins, 2005).

Les premiers systèmes se fondaient principalement sur de gros dictionnaires bilingues qui fournissaient des équivalents en langue cible pour les mots en langue source. L’ordre des mots en langue cible était ensuite géré par des règles rudimentaires de réordonnancement. Si ce genre de systèmes atteignit rapidement ses limites, les chercheurs restèrent très optimistes quant à la réussite de leurs divers projets pendant une dizaine d’années (Hutchins, 2005).

Cependant, ils se heurtèrent au problème principal du traitement des langues : l’ambiguïté sémantique, autrement dit, les mots qui peuvent avoir plusieurs sens et qui peuvent uniquement être désambiguïsés grâce au contexte. Un exemple célèbre de ce problème fut donné par Yehoshua Bar-Hillel en 1959 dans un rapport où il prétend que la traduction entièrement automatique de haute qualité (TEAHQ) était en soi impossible :

Little John was looking for his toy box. Finally he found it. The box was in the pen.

Le mot qui pose problème ici est “pen”, qui peut aussi bien désigner un instrument avec lequel on écrit qu’une sorte de conteneur. Selon Bar-Hillel, la seule façon de savoir quelle signification ce mot a dans la phrase ci-dessus est d’avoir des connaissances du monde et il est impossible de donner de telles connaissances à un ordinateur (Hutchins, 2005 ; Arnold et al., 1994).

3 “I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text.” Cité dans Arnold et al., 1994. Traduction libre.

(12)

Au début des années soixante, plusieurs systèmes étaient opérationnels, mais les résultats étaient décevants. Ainsi, en 1964, aux États-Unis, la National Academy of Sciences créa l’Automatic Language Processing Advisory Comittee (ALPAC), auquel elle demanda un rapport sur la qualité, le coût et les perspectives d’avenir actuels de la traduction automatique, et de les comparer aux besoins réels en traduction et aux coûts de la traduction humaine (Hutchins, 2005 ; Arnold et al., 1994).

En 1966, le rapport, communément appelé ALPAC report, conclut que la traduction automatique était plus lente, moins précise et deux fois plus coûteuse que la traduction humaine. De plus, ajoutèrent les auteurs, il y avait suffisamment de traducteurs humains pour la quantité de travail et il était très peu probable que la traduction automatique puisse fournir des traductions utiles de textes scientifiques généraux dans un futur proche (Hutchins, 2005 ; Arnold et al., 1994).

Ces conclusions conduisirent rapidement le gouvernement américain à cesser de financer la recherche dans le domaine et, pendant plus d’une décennie, il n’y eut plus de recherche aux États-Unis dans le domaine. L’impact du rapport se fit également sentir en Europe et en Union soviétique. L’optimisme des années cinquante céda le pas à une démoralisation générale dans le domaine de la traduction automatique (Hutchins, 2005 ; Arnold et al., 1994).

Malgré tout, la recherche continua dans certains pays, tels que le Canada, la France et l’Allemagne. En 1970, la US Air Force commença d’ailleurs à utiliser Systran, et la Commission des Communautés européennes (actuelle Commission européenne) en acheta la version anglais-français en 1976, avant de demander le développement des versions français-anglais et italien-anglais. À la même période, le système TAUM-METEO fut développé par l’Université de Montréal afin de traduire automatiquement des bulletins météorologiques.

Dans les années quatre-vingt, les besoins en traduction changèrent et la demande ne porta plus sur des traductions anglais <-> russe à des fins d’espionnage, mais plutôt sur des traductions dans les domaines commercial et administratif. Ainsi, les systèmes qui furent développés à cette période visaient davantage à répondre à un besoin d’aide à la traduction rentable qui puisse traiter des textes commerciaux et techniques dans les principales langues du commerce international (Hutchins, 2005 ; Arnold et al., 1994).

(13)

Au fil du temps, de plus en plus de systèmes virent le jour, avec plus ou moins de succès économique, et l’essor des microordinateurs contribua à créer une demande de systèmes bon marché. Les années nonante virent l’apparition des systèmes statistiques (cf. section 2.3.2), lesquels ne se fondent plus sur une analyse linguistique des textes à traduire, mais sur des corpus dont ils extraient des probabilités de traduction.

La traduction automatique est aujourd’hui très répandue, que ce soit dans les entreprises ou chez les particuliers, chez les professionnels ou chez les non-traducteurs.

Aujourd’hui, il existe aussi bien des logiciels complexes qui permettent d’obtenir une traduction de relative bonne qualité que des logiciels plus simples qui fournissent en temps réel une traduction approximative pour des applications Internet (Hutchins, 2005).

2.3 Systèmes de traduction automatique

⁴

Il existe plusieurs types de systèmes de traduction automatique, qui peuvent être classés en systèmes linguistiques et systèmes statistiques. Ces deux grands groupes peuvent eux-mêmes faire l’objet de subdivisions plus fines. Nous commencerons par présenter les systèmes linguistiques et leurs sous-groupes, puis ferons de même pour les systèmes statistiques.

2.3.1 Systèmes linguistiques

Le fonctionnement des systèmes de traduction automatique linguistiques se fonde, comme leur nom l’indique, sur une compréhension de la langue. Pour pouvoir traduire, un système linguistique doit d’abord comprendre le texte qui lui est soumis, ce qui signifie qu’il doit lever les ambiguïtés lexicales et structurales à l’aide de connaissances linguistiques. Ces connaissances sont d’ordre lexical et syntaxique et permettent au système de procéder à des analyses lexicale, syntaxique, voire sémantique, selon les cas.

L’analyse lexicale consiste à récupérer dans un dictionnaire les informations qui y sont contenues pour chaque mot, à savoir les informations morphologiques (catégorie grammaticale, genre, nombre, flexion, mode, temps, type d’auxiliaire, etc.), les

4 La source principale de cette section est le cours de Traduction Automatique 1 de la Prof. Pierrette Bouillon (semestre d’automne 2014).

(14)

informations syntaxiques (transitivité, compléments) et les informations sémantiques (type sémantique, restrictions de sélection, etc.) (L’Homme, 2008, pp. 52-53 et 304-308).

Un problème peut survenir à cette étape déjà : certains mots peuvent avoir plusieurs catégories grammaticales, par exemple le mot anglais clean peut aussi bien être un verbe qu’un adjectif. On parle alors d’ambiguïté lexicale (L’Homme, 2008, p. 37).

L’analyse syntaxique se fait à l’aide d’une grammaire afin de retrouver les liens syntaxiques entre les divers éléments d’une phrase (sujet, verbe, objet). Si les ambiguïtés lexicales ne peuvent pas être résolues, il peut arriver qu’elles donnent lieu à des ambiguïtés de structure que l’analyse syntaxique aura du mal à résoudre. En voici un exemple (L’Homme, 2008, p. 50) :

Le combattant brave la garde.

Les mots « brave », « la » et « garde » sont tous trois ambigus, ce qui donne lieu à deux interprétations possibles : soit il s’agit d’un combattant qui brave une garde, soit il s’agit d’un brave combattant qui garde quelque chose ou quelqu’un. Sans plus de contexte, même un humain ne peut pas désambiguïser cette phrase.

Il est parfois possible de résoudre ce genre de problèmes grâce à une analyse sémantique. Celle-ci permet de prendre en compte le sens des mots grâce à un dictionnaire étendu qui indiquera, par exemple, que le mot anglais flat peut désigner un lieu. Ce dictionnaire contient également des restrictions de sélection qui empêchent de combiner des prédicats et des arguments dont les sens sont incompatibles. Cependant, si trop d’éléments sont ambigus dans la phrase, même l’analyse sémantique ne pourra pas la désambiguïser car il faut faire appel au contexte.

Ces trois niveaux d’analyse ne sont pas effectués par tous les systèmes linguistiques. En effet, il est plus probable de trouver ces fonctionnalités dans un système maximaliste que dans un système minimaliste.

2.3.1.1 Systèmes minimalistes

Les systèmes minimalistes, aussi appelés systèmes directs, fonctionnent en deux étapes principales : d’abord la compréhension lexicale, grâce à une analyse de surface, puis la traduction mot-à-mot à l’aide d’un dictionnaire bilingue. Une troisième étape, la génération, fait intervenir plusieurs programmes après la traduction afin d’introduire les

(15)

flexions, de corriger l’ordre des mots, de faire les élisions, etc. L’analyse de la phrase s’arrête au niveau lexical ; les systèmes minimalistes n’ont en général aucune idée du sens des mots ou des relations syntaxiques qui existent entre les syntagmes composant une phrase. Ces systèmes se contentent ainsi d’« étiqueter » chaque mot avec sa catégorie grammaticale (nom, verbe, adjectif, préposition, etc.) avant de chercher la traduction correspondante dans le dictionnaire bilingue (Arnold et al., 1994, pp. 59-60).

Le contrôle qu’a l’utilisateur sur l’opération de traduction est très limité, contrairement à ce que l’on observe dans les systèmes maximalistes. Pour reprendre l’exemple précédent, on ne peut pas indiquer à un tel système que flat dans la phrase I hammer the metal flat ne peut pas désigner un lieu, à savoir un appartement, à moins de rentrer la phrase entière dans le dictionnaire bilingue, phrase qui restera alors complètement figée. Une variante telle que I hammer the lead flat ne sera alors pas reconnue et flat sera probablement à nouveau traduit par « appartement ».

Le dictionnaire bilingue rassemble toutes les connaissances des systèmes minimalistes.

Il y a un dictionnaire par paire de langues et aucune information n’est réutilisable pour d’autres paires de langues (Arnold et al., 1994, p. 64). Comme nous le disions, il faudra y entrer beaucoup d’expressions figées pour remédier aux limitations des systèmes.

Ces systèmes, bien que peu sophistiqués, ont des avantages : leur coût, bien moins élevé que celui des systèmes maximalistes, les rend plus facilement accessibles, ils ne nécessitent pas de corpus bilingue aligné (contrairement aux systèmes statistiques) et ils sont souvent de qualité suffisante pour traduire facilement des contenus qui ne doivent pas nécessairement être bien rédigés, mais simplement compréhensibles. Ils peuvent également se révéler utiles si les textes qu’on leur soumet sont simples ou simplifiés et que leurs dictionnaires sont spécialisés pour certains domaines restreints.

Les systèmes minimalistes les plus connus aujourd’hui sont Reverso et Systran.

2.3.1.2 Systèmes maximalistes

Les systèmes maximalistes, aussi appelés systèmes indirects, sont, comme leur nom l’indique, plus poussés que leurs homologues minimalistes. En effet, ils ne se contentent pas d’une désambiguïsation syntaxique (« tagging »), mais font au moins une véritable analyse syntaxique des phrases à l’aide d’une grammaire, générant ainsi des représentations syntaxiques, comme illustré par la figure 1.

(16)

Figure 1 : Un exemple de représentation syntaxique sous forme d’arbre⁵

Ce sont ensuite ces représentations qu’ils mettent en relation pour comprendre le sens des phrases à traduire. Ainsi, grâce à leur grammaire et aux représentations syntaxiques, ces systèmes sont capables de traduire correctement une phrase telle que Clean reservoir system car ils savent qu’une phrase qui n’est pas un titre contient généralement un verbe et donc que clean ne peut pas ici être un adjectif.

C’est également grâce aux représentations syntaxiques que les tests et actions sont plus sophistiqués dans un système maximaliste que dans un système minimaliste, car ils peuvent opérer sur les relations syntaxiques. Par exemple, les actions permettront d’inverser le sujet et l’objet d’une phrase lors de la traduction ; ainsi, I miss you deviendra « Tu me manques » et non « Je te manque ».

Il existe deux grands groupes de systèmes maximalistes, qui diffèrent par le niveau d’abstraction de leurs représentations syntaxiques : les systèmes par transfert et les systèmes par interlangue.

2.3.1.2.1 Systèmes maximalistes par transfert

Les systèmes par transfert possèdent, tout comme les systèmes minimalistes, des dictionnaires au cœur de leur fonctionnement. Ils sont au nombre de trois par paire de langues : deux dictionnaires monolingues (un pour chaque langue) et un dictionnaire bilingue, aussi appelé « de transfert ». Les informations monolingues sont donc partagées par toutes les paires de langues, contrairement à ce que l’on observe dans les systèmes minimalistes.

5 Image du domaine public, disponible en ligne https://commons.wikimedia.org/wiki/File:ParseTree.svg, consulté le 23 juin 2016.

(17)

Les systèmes maximalistes par transfert reposent sur les représentations syntaxiques des phrases à traduire. Le processus de traduction comporte trois étapes : l’analyse, le transfert et la génération (Jurafsky et Martin, 2007, p. 1002).

Comme dit plus haut, l’analyse sert à extraire la représentation syntaxique de la phrase source. Cette représentation peut être un arbre syntaxique annoté avec les fonctions grammaticales de chaque mot. L’analyse sert à identifier le prédicat, le sujet et les compléments de la phrase. En effet, ce sont ces représentations des relations entre les mots d’une phrase que les systèmes par transfert traduisent, et non pas les mots. Cela permet d’obtenir une traduction grammaticale et affranchie du mot-à-mot.

La deuxième étape, le transfert, est la transformation de la représentation source en une représentation cible, autrement dit, la « traduction » des représentations syntaxiques sources en représentations syntaxiques cibles (Arnold, 1993, p. 65). Le transfert s’effectue au moyen de règles de transfert, qui peuvent être de diverses sortes : règles lexicales, règles structurales et règles semi-lexicales. C’est dans cette dernière catégorie de règles que l’on retrouve les tests et actions, bien plus poussés que dans un système direct.

La tâche des règles lexicales est tout simplement de traduire les mots lexicaux. Une telle règle pourrait par exemple indiquer que le mot anglais computer se traduit en français par « ordinateur ».

Les règles structurales, elles, sont chargées de traduire les éléments de structure, en indiquant au système que, par exemple, subject en anglais correspond à « sujet » dans la représentation française.

Enfin, les règles semi-lexicales traduisent également des mots lexicaux, mais sous certaines conditions précisées dans les tests et les actions. Par exemple, une règle semi- lexicale pourrait indiquer que le verbe anglais miss se traduit par « manquer » si l’objet direct de miss est un être animé ou un lieu (test), et que, dès lors, il faut transformer le sujet anglais en objet indirect en français, et transformer l’objet direct anglais en sujet français (action). Grâce à ces indications, le système serait capable de traduire I miss my mother (sujet-verbe-objet direct) par « Ma mère me manque » (sujet-verbe-objet indirect).

(18)

La figure 2 montre un exemple de transfert simple, inspiré de Jurafsky et Martin, 2007, p.

1002.

Figure 2 : Exemple de transfert dans un système linguistique

Après avoir obtenu une représentation cible, la dernière étape, la génération, permet d’extraire un texte cible de cette représentation, à l’aide d’une grammaire et d’un lexique monolingues. Ces derniers sont souvent utilisables à la fois à cette étape et à celle de l’analyse.

Ces systèmes sont fiables et donnent de bons résultats, mais puisqu’il est très difficile d’écrire une grammaire complète pour la langue générale, ils restent, comme beaucoup de systèmes de traduction automatique, plus performants dans un domaine spécialisé avec un vocabulaire bien délimité. Il est également impossible de traiter tous les problèmes de traduction avec des tests et des actions, car ces derniers deviendraient vite extrêmement complexes.

D’aucuns estiment que les traducteurs humains ne fonctionnent pas comme les systèmes par transfert, qu’ils n’extraient pas des représentations spécifiques à chaque langue mais qu’ils dégagent un sens indépendant de la langue. Cette idée a donné naissance à l’approche interlingue.

2.3.1.2.2 Systèmes maximalistes par interlangue

Les systèmes maximalistes par interlangue ne se fondent pas sur un transfert de représentations syntaxiques, mais sur une interlangue, indépendante des langues, qui contient les concepts de toutes les langues. Celle-ci devrait pouvoir représenter toutes les phrases qui signifient la même chose de la même façon, quelles que soient les langues dans lesquelles elles sont formulées (Jurafsky et Martin, 2007, p. 1005). Ainsi, l’étape de transfert disparaît car on analyse vers l’interlangue, et on génère à partir de cette même interlangue (Jurafsky et Martin, 2007, p. 998). Par conséquent, l’analyse devient bien plus compliquée, mais la génération peut s’effectuer directement depuis l’interlangue

(19)

sans devoir passer par des transformations syntaxiques (Jurafsky et Martin, 2007, p.

1006).

Si l’on reprend l’exemple cité précédemment, I miss my mother, un système par interlangue n’en extrait pas des fonctions grammaticales et ne possède pas d’instructions « inverser le sujet et l’objet » ; il sait que dans toutes les langues, pour le concept du manque, il y a quelqu’un qui ressent le manque (l’expérient) et quelque chose qui manque (l’objet du manque, le thème). Il se fonde donc sur des concepts indépendants des langues et non plus sur des mots, ce qui lui permet de dégager les rôles sémantiques des éléments de la phrase.

Les systèmes par interlangue sont le plus utiles dans des sous-domaines bien limités (Jurafsky et Martin, 2007, p. 1006) et dans des cas où l’on doit traduire entre des langues très différentes. Ces systèmes vont jusqu’à analyser le sens des phrases à traduire et l’un de leurs avantages est donc de produire des traductions fidèles au sens de l’original. Au niveau du développement, un autre avantage est que les équipes de travail n’ont plus besoin de comporter un expert par paire de langue : puisque chacun travaille de sa langue vers l’interlangue, il n’y a plus besoin de règles de transfert et le problème des paires de langues rares ne se pose plus.

Puisque ces systèmes ne font plus de représentations syntaxiques, ils traduisent par paraphrase, contrairement aux systèmes par transfert, et, si l’on peut dire qu’un traducteur humain paraphrase de toute façon lorsqu’il traduit, on peut également penser qu’un système qui paraphrase tout ce qu’il traduit perd des informations potentiellement importantes sur la structure de la phrase source. Par exemple, un système qui ne garde aucune information sur la structure source ne pourrait pas comprendre qu’il faudrait une traduction différente pour chacune de ces phrases, dans lesquelles l’emphase change :

I ate an apple an hour ago.

It was an apple that I ate an hour ago.

It was an hour ago that I ate an apple.

On peut citer d’autres problèmes liés à ce genre de systèmes, notamment le fait qu’ils nécessitent un répertoire des concepts pour fonctionner, ce qui n’est peut-être pas

(20)

faisable pour la langue générale. Il y a aussi le problème des phrases ambiguës, qui exigent du système qu’il puisse choisir le bon concept dans son répertoire selon le contexte, et ce, quelle que soit la paire de langues en jeu. De plus, toutes les langues ne découpent pas les concepts de la même façon, ce qui oblige un système par interlangue à parfois faire des distinctions qui n’ont pas lieu d’être dans une langue. Par exemple, le japonais n’a pas de mot pour désigner le concept « frère », il fait toujours la distinction entre le grand frère et le petit frère, ce qui n’est pas le cas du français ou de l’anglais (Jurafsky et Martin, 2007, p. 1006).

2.3.2 Systèmes statistiques

Les systèmes statistiques, contrairement à leurs pendants linguistiques, ne possèdent pas de connaissances des langues qu’ils traitent. En effet, plutôt que de se fonder sur des grammaires et des dictionnaires, ces systèmes utilisent des probabilités extraites de corpus, afin de trouver pour une phrase source la phrase cible qui a la plus grande probabilité d’être la traduction de la phrase source.

Les probabilités extraites sont ensuite encodées dans deux modèles : le modèle du langage et le modèle de traduction. Le premier, construit à partir de corpus monolingues, a une fonction analogue à celle des grammaires des systèmes linguistiques en ce sens que son but est d’évaluer la fluidité de la phrase cible. Il attribue pour cela un score de fluidité à chaque alternative. Le modèle de traduction, quant à lui, évalue la fidélité de la phrase cible par rapport à la phrase source grâce à des corpus bilingues et attribue également un score de fidélité à chaque alternative. La traduction choisie sera ainsi celle qui aura obtenu le meilleur score, qui est le produit mathématique du score de fluidité et de celui de fidélité (Jurafsky et Martin, 2007, p. 1007).

Une façon simplifiée d’expliquer le fonctionnement des systèmes statistiques serait de dire que, pour une phrase donnée, le modèle de traduction sélectionne les traductions les plus probables pour chaque mot ou séquence de mots et les classe en ordre décroissant, puis le modèle du langage choisit la séquence qui se lit le mieux, qui est la plus fluide dans la langue cible parmi les traductions proposées.

Comme nous l’avons dit, le modèle de traduction se fonde sur des corpus bilingues pour déterminer quelle est la traduction la plus probable d’un mot source en langue cible. Ces

(21)

corpus doivent bien sûr être alignés pour pouvoir être utiles, à la fois par phrase et par mot. Cependant, puisque cet alignement n’est pas fait par des humains, mais effectué automatiquement, il peut contenir des erreurs, car il est difficile pour une machine d’aligner correctement, surtout par mot, étant donné que les structures des phrases peuvent varier énormément d’une langue à l’autre. Ainsi, pour que le modèle de traduction fonctionne bien malgré les erreurs d’alignement, il est nécessaire d’avoir une très grande quantité de données et donc de très grands corpus, afin de compenser la qualité par de la quantité.

Les probabilités extraites par le modèle de traduction, dans un système basé sur le mot, sont au nombre de trois :

- la probabilité de fertilité, qui calcule le nombre de mots source produits par un mot cible ;

- la probabilité de distorsion, qui calcule les changements de position des mots entre langue source et langue cible ;

- la probabilité de traduction, qui, comme son nom l’indique, calcule la probabilité qu’un mot soit la traduction d’un autre grâce à un lexique de transfert.

Dans un système basé sur les séquences de mots (phrase-based), la première probabilité n’a plus lieu d’être et il ne reste que les probabilités de distorsion et de traduction (Jurafsky et Martin, 2007, p. 1009).

Revenons à un système basé sur le mot et illustrons les trois probabilités en prenant un exemple. Dans le corpus aligné, on trouve cette paire de phrases :

Luma est aimée par Bénédicte -> Bénédicte does love Luma

La probabilité de fertilité calcule que, dans la phrase cible anglaise, « Bénédicte » produit un mot, « does » n’en produit aucun, « love » en produit deux et « Luma » en produit un également.

La probabilité de distorsion calcule pour chacun des mots cible la probabilité qu’il se retrouve en position 1, 2, 3, 4 ou 5 dans la phrase source.

(22)

La probabilité de traduction, quant à elle, calcule la probabilité que chaque mot cible soit la traduction d’un mot source, par exemple que « love » soit la traduction de « est aimée ».

Ensuite, le modèle de traduction choisit la traduction qui obtient le meilleur score de fidélité, lequel est le produit des trois probabilités calculées précédemment.

Le modèle du langage, lui, cherche dans un corpus monolingue de la langue cible la fréquence d’apparition de chaque traduction possible afin de déterminer laquelle est la plus courante et, par conséquent, la plus fluide. Étant donné qu’il est peu probable de trouver la phrase concernée en entier dans le corpus, le modèle du langage calcule la probabilité d’apparition de séquences de mots dans le corpus. La longueur des séquences dépend des logiciels. Il existe divers modèles possibles, appelés « N- grammes », où « N » indique le nombre de mots : unigrammes (probabilité d’apparition de mots individuels), bigrammes (apparition de deux mots à la suite), trigrammes, quadrigrammes, etc. (Koehn, 2010, p. 95). On ne va généralement pas plus haut que des quadrigrammes car, si la qualité est meilleure avec de longues séquences, le système est également plus lourd à maintenir.

Une fois ces probabilités calculées, le modèle choisit la phrase qui obtient le score de fluidité le plus élevé, qui est la phrase dont les N-grammes ont obtenu la plus grande probabilité d’apparition dans le corpus. Si par exemple le modèle de traduction a sélectionné « Ils sont appelés cyclones » et « Elles sont appelés cyclones » pour la phrase They are called cyclones, un modèle trigramme calcule la probabilité d’apparition de chaque séquence de trois mots de chacune des traductions possibles et trouvera en principe que la première solution est plus probable que la seconde.

Pour qu’un modèle N-grammes fonctionne bien, il doit avoir accès à de grands corpus représentatifs afin d’avoir, si possible, toutes les séquences de mots possibles, au risque d’obtenir des probabilités égales à zéro pour certains éléments. De plus, un modèle N- grammes commet souvent des fautes grammaticales non-locales dues à l’éloignement des mots dans une phrase. Ainsi, un modèle trigramme ne pourrait pas faire l’accord correctement dans une phrase telle que celle-ci : « Elles ont très souvent été choisis. » Les systèmes statistiques sont de plus en plus intégrés dans l’environnement de travail du traducteur, notamment parce qu’ils sont bien moins coûteux que les systèmes

(23)

linguistiques, parce qu’ils n’ont pas besoin de ressources linguistiques particulières excepté des corpus, ce qui est très utiles pour les langues minoritaires pour lesquelles on n’a pas développé de lexiques ni de grammaires, ou encore parce qu’ils s’intègrent bien dans une mémoire de traduction. En effet, une mémoire de traduction est en fait un corpus aligné par phrases et elle peut donc être exploitée directement par un système statistique.

Du côté des inconvénients, on peut citer 1) le fait qu’ils ne peuvent bien fonctionner que s’ils ont accès à de grands corpus représentatifs, 2) le fait qu’ils privilégient souvent la fluidité par rapport à la fidélité, ce qui produit des phrases naturelles mais avec un risque relativement élevé de contresens, et 3) le fait que leurs erreurs ne sont pas forcément systématiques car les calculs changent du tout au tout avec le simple ajout d’un mot, par exemple.

Les systèmes statistiques les plus connus de nos jours sont Google Translate (premier système statistique pour la langue générale grâce à ses immenses corpus internet), Bing, Moses⁶ et Microsoft Translator Hub. Si les deux premiers sont des systèmes en ligne qu’il n’est pas possible de modifier, les deux autres sont des plateformes dont l’utilisateur se sert afin de développer son propre système statistique. Dans le cadre de ce mémoire, nous utiliserons Microsoft Translator Hub.

2.3.2.1 Microsoft Translator Hub

⁷

Microsoft Translator Hub (MTH) est un outil gratuit développé par Microsoft qui permet de construire un système de traduction automatique statistique à partir de mémoires de traduction et de textes monolingues.

Lancée en 2012, cette extension de la plateforme Microsoft Translator a pour but d’aider les entreprises et les fournisseurs de services linguistiques à construire des systèmes de traduction automatique qui puissent comprendre la terminologie utilisée dans l’industrie concernée. Les utilisateurs « nourrissent » le logiciel avec des textes déjà traduits afin d’obtenir un système qui reflète la terminologie et le style propres au

6 Koehn et al., 2007

7 Les sources principales de cette section sont MTH Translator ; MTH Blog, 2016 ; MTH Research ; MTH Overview et MTH User Guide, 2015

(24)

domaine de l’utilisateur mieux qu’un système générique. Ces textes constituent ce que nous appellerons « corpus d’entraînement ».

MTH combine le gigantesque corpus de traduction de Microsoft, qui est le même que celui qu’utilise Bing Translator, avec le corpus d’entraînement fourni par l’utilisateur et spécifique à un domaine précis. La logique de traduction que MTH apprend grâce à ces textes déjà traduits est stockée dans les modèles statistiques (cf. section 2.3.2).

Lorsqu’on entraîne un système, MTH combine donc ses propres modèles Microsoft avec les nouveaux modèles construits à partir des textes fournis par l’utilisateur afin d’obtenir une bien meilleure spécialisation pour le domaine concerné que ce qui serait possible sans les documents de l’utilisateur, tout en conservant les connaissances étendues des modèles Microsoft. Selon Microsoft, avoir recours à MTH permettrait même de gagner 5, 10, voire 15 points avec la métrique d’évaluation BLEU (cf. section 2.4.2) sur la qualité des traductions obtenues. Notons qu’il est tout de même possible de ne pas utiliser les modèles Microsoft si on le souhaite. Dans MTH User Guide (2015, p.

28), on trouve ceci au sujet des modèles Microsoft :

By default, the option to Use Microsoft models is checked in the Training tab, if a Microsoft model exists for this pair (approximately 100 pairs, for most languages from and to English). The effect of using this option depends on whether the source language and target language for the training are currently supported by Microsoft Translator. If there is no Microsoft model for your language pair, the option does not exist.

Using Microsoft models in training the system may make your translations more accurate and more fluent. Microsoft models might not be available for some language pairs and domain combination. You can do sequential trainings with and without using Microsoft models. You will be able to get a higher score without using Microsoft models, if your training and test data are within a very narrow domain (area and of terminology and style) and will show worse results when you break out of that narrow domain. Always make sure that both your test and tuning set are representative of what you are going to translate, which is possibly less representative [than] what you already have. In that case you will almost always get better results with Microsoft models.

(25)

Plusieurs niveaux de personnalisation de MTH sont disponibles : choisir une catégorie, un domaine propre au système que l’on souhaite entraîner (Technology, Speech, Literature, Science, etc.) ; fournir un dictionnaire bilingue à MTH afin qu’il sache comment traduire (ou ne pas traduire) certains termes ; lui fournir entre 1000 et 5000 phrases parallèles ; lui fournir plus de 5000 phrases parallèles. Bien sûr, la qualité des traductions obtenues augmente selon le niveau de personnalisation choisi. Selon Microsoft, avec plus de 50 000 phrases parallèles, on peut construire un système qui donne des résultats totalement personnalisés, la terminologie spécifique au domaine ayant été apprise en contexte (MTH Blog, 2016).

Il est aussi possible de choisir soi-même les phrases qui feront partie du tuning set et du testing set, respectivement. Le premier sert à obtenir des résultats optimaux en ajustant tous les paramètres du système de traduction automatique. Les phrases qui y sont incluses doivent donc être le plus représentatives possible des résultats souhaités. Le second sert à évaluer les performances du système en choisissant quels documents il va devoir traduire une fois les modèles prêts. Il est possible de construire ces sets soi- même, ce qui est recommandé, ou de laisser MTH choisir automatiquement les phrases qui en feront partie. Dans ce cas, MTH va tenter d’extraire jusqu’à 2500 phrases pour chacun des sets. Dans les deux cas, les phrases qui constituent le tuning set et le testing set viennent du corpus d’entraînement et sont par conséquent exclues du training set.

En ce qui concerne le choix d’une catégorie, en février 2016, seules deux catégories semblaient avoir réellement un impact sur l’entraînement d’un système si elles étaient choisies : Technology et Speech (cf. figure 3).

(26)

Figure 3 : Capture d’écran expliquant l’impact du choix d’une catégorie dans MTH⁸ Le MTH User Guide (2015, p. 7) explique également que le choix de la catégorie Technology a pour conséquence que MTH utilise un set de modèles différent de toutes les autres catégories, et le choix de la catégorie Speech entraîne l’utilisation par MTH de modèles optimisés pour traiter le texte généré par des outils de reconnaissance vocale (cf. figure 4).

Figure 4 : Explications dans le manuel d’utilisation de MTH concernant le choix d’une catégorie

MTH met également l’accent sur les contributions des communautés, déclarant qu’il est possible de construire des systèmes de traduction automatique pour toute paire de langues, même des langues qui ne sont pas encore supportées par Microsoft Translator, si une communauté contribue à enrichir un système afin de l’améliorer constamment.

Ainsi, même des langues peu répandues ou en voie de disparition peuvent profiter de la technologie offerte par MTH.

Les systèmes entraînés puis déployés sont accessibles par divers moyens, notamment dans les principaux logiciels de mémoires de traduction. Cela est possible grâce à la Microsoft Translator API (Application Programming Interface). Une API, ou « interface de programmation applicative », est, par exemple, un ensemble de fonctions qui servent de façade par laquelle un logiciel offre ses services à un autre logiciel.⁹

Avant d’entraîner un système, l’utilisateur, qui s’est identifié avec son compte Microsoft, doit créer un projet qui contiendra un ou plusieurs systèmes. Il peut être nécessaire de

8 MTH Blog, 2016.

9 Wikipédia, API, 2016.

(27)

créer plusieurs projets, comme cela a été le cas pour nous, car un projet ne peut contenir qu’un seul système déployé à la fois.

Pour entraîner un système, il est donc nécessaire de fournir des documents représentatifs des résultats souhaités à MTH. La figure 5 présente l’interface d’entraînement.

Figure 5 : Interface d’entraînement des systèmes dans MTH

La liste de documents contient tous les documents qui ont été fournis à MTH par l’utilisateur. Il n’est donc pas nécessaire de les téléverser pour chaque nouveau système.

MTH indique si les documents sont bilingues ou monolingues et le nombre de phrases contenues dans chaque document. Une fois le système entraîné, comme c’est le cas sur l’image ci-dessus, MTH indique également le nombre de phrases alignées contenues dans le document (Aligned Sentence Count) et le nombre de phrases effectivement utilisées par MTH pour entraîner le système (Used Sentence Count).

Lorsqu’un système a été entraîné, MTH offre la possibilité d’étudier les résultats de l’entraînement afin de décider s’il y a lieu de déployer le système. Comme illustré à la figure 6, cela se présente sous la forme d’un tableau dont les deux colonnes représentent, respectivement, la langue source (à gauche) et la langue cible (à droite).

Dans la colonne de la langue cible, deux traductions sont visibles : la traduction de référence (« Ref »), fournie dans les documents bilingues de l’utilisateur, et la traduction

(28)

faite par le système entraîné (« MT »). Comme dit précédemment, ces phrases font partie du testing set.

Figure 6 : Evaluation d’un système dans MTH

Si les résultats sont jugés satisfaisants, on peut demander à ce que le système soit déployé. L’opération peut prendre jusqu’à deux jours ouvrés et permet par la suite d’utiliser le système à sa guise.

Figure 7 : Interface de déploiement d’un système dans MTH

Une fois le système déployé, trois options s’offrent à l’utilisateur : tester le système, traduire des documents ou étudier des corrections apportées par d’autres utilisateurs.

L’interface de test est représentée à la figure 8. Ressemblant fortement à un traducteur en ligne, elle permet de traduire des phrases afin d’avoir une idée de la qualité du système. Cette étape n’est pas obligatoire : il est tout à fait possible de passer directement à la traduction de documents.

(29)

Figure 8 : Interface de test d’un système déployé dans MTH

Afin de traduire un document directement dans le Hub, il est nécessaire de téléverser ledit document. La traduction sera ensuite accessible en cliquant sur le nom du document dans la liste (cf. figure 9). La traduction se présente dans la même interface que celle illustrée à la figure 6, avec une colonne à gauche pour le texte source et une colonne à droite pour le texte cible. Le texte est segmenté automatiquement selon la ponctuation.

Figure 9 : Liste de documents téléversés pour la traduction

Il est ensuite possible de post-éditer soi-même la traduction en cliquant simplement sur le segment que l’on souhaite modifier. Si on le souhaite, il est également possible de partager la traduction avec d’autres utilisateurs de son choix afin de tirer profit de leurs corrections et suggestions. Cette phase de post-édition sert non seulement à court terme

(30)

pour améliorer la traduction en question, mais aussi à améliorer le système de manière générale, car à l’avenir, celui-ci utilisera si possible des traductions approuvés par la communauté. Cela s’apparente au fonctionnement d’une mémoire de traduction.¹⁰

Les corrections apportées par la communauté sont visibles dans une partie à part, intitulée « Review corrections ». Il est possible d’y approuver, rejeter ou éditer les suggestions faites par la communauté. Une fois que l’on a reçu suffisamment de feed- back communautaire, on peut entraîner le système une nouvelle fois sur la base de ce feed-back.

Maintenant que notre tour d’horizon des systèmes de traduction automatique est terminé, nous allons nous pencher sur les différentes méthodes disponibles pour évaluer la qualité de ces systèmes.

2.4 Évaluation des systèmes de traduction automatique

¹¹

Disposer d’un système de traduction automatique est une chose, mais il faut encore que ce système soit de qualité. Or, comment juger de la qualité d’un système de traduction automatique ? Dans cette section, nous allons présenter les diverses méthodes d’évaluation qui existent.

Evaluer la qualité d’un système de traduction automatique, ou d’une traduction en général, est une tâche très ardue. En effet, en traduction, il n’y a pas de solution unique, plusieurs traducteurs produiront plusieurs traductions différentes pour une même phrase, et plusieurs traductions d’une même phrase très différentes les unes des autres peuvent être jugées bonnes selon les juges ou le contexte.

Quiconque souhaite évaluer la qualité d’un système de traduction automatique voudra probablement trouver la méthode qui lui permettra d’obtenir les résultats les plus objectifs possible tout en étant rapide et peu coûteuse. Plusieurs options existent, qui peuvent être réparties en deux groupes : les méthodes d’évaluation humaine et les

10 MTH User Guide, 2015, pp. 46 et 49

11 La source principale de cette section est le cours de Traduction Automatique 2 de la Prof. Pierrette Bouillon (semestre de printemps 2015).

(31)

méthodes d’évaluation automatique. Nous verrons plus loin qu’il est judicieux de combiner ces deux types de méthode dans une seule et même évaluation afin d’obtenir les résultats les plus fiables possibles.

2.4.1 Évaluation humaine

L’évaluation humaine, comme son nom l’indique, est effectuée par des juges humains. Il existe trois méthodes principales d’évaluation humaine : le jugement intuitif, l’évaluation comparative (Koehn, 2010, p. 217) et la classification des erreurs.

Intuitivement, on cherchera à évaluer la fidélité d’une traduction (le sens est-il correctement restitué ?), ainsi que sa fluidité (se lit-elle bien ? Est-elle compréhensible ?). Ainsi, un jugement intuitif se fondera souvent sur ces deux critères, combinés ou non, pour évaluer une traduction.

Si l’on souhaite utiliser cette méthode, plusieurs questions se posent. Tout d’abord, à qui demandera-t-on d’effectuer l’évaluation ? Autrement dit, quel sera le profil des juges ? Seront-ils bilingues, pouvant par conséquent évaluer la fidélité et la fluidité, ou seront-ils monolingues ? Fera-t-on appel à des traducteurs ou plutôt à des destinataires potentiels de la traduction ?

Ensuite, de combien de juges aura-t-on besoin ? Si l’on retient plusieurs profils de juges, combien de chaque ? Puisqu’un jugement intuitif laisse une place non négligeable à la subjectivité de chacun, les résultats ne peuvent être fiables qu’avec un nombre élevé de juges, qui permettra au calcul de l’accord entre juges de donner des résultats significatifs (Koehn, 2010, p. 221).

Enfin se pose la question de l’échelle à utiliser. Le nombre d’échelons a son importance, tout comme le libellé de ces derniers. Des expériences passées ont montré que trois est un nombre d’échelons trop petit et que dix est un nombre trop élevé. Si l’on utilise une échelle trop petite, on risque de forcer les juges à choisir un échelon qui ne leur convient pas tout à fait. À l’inverse, une échelle trop grande laisse trop de latitude aux juges, ce qui empêche d’avoir un vrai accord entre juges. Il peut être judicieux d’utiliser un nombre d’échelons pair afin d’éviter que les juges ne soient trop neutres et ne choisissent l’échelon du milieu « par défaut ».

(32)

Le problème principal de la méthode du jugement intuitif, selon Koehn, est que les définitions de « fidélité » et « fluidité » sont souvent bien vagues et, par conséquent, ces critères ne sont pas cohérents lors de leur application par les juges (Koehn, 2010, p.

219). Ainsi, si cette méthode permet de se faire une idée de la qualité d’un système de traduction automatique, on y observe beaucoup de variation entre les juges.

L’évaluation comparative, quant à elle, consiste à mettre côte à côte plusieurs traductions et à demander aux juges laquelle est la meilleure. Cette méthode permet donc elle aussi d’évaluer la fidélité (en comparant les traductions avec la phrase originale) et la fluidité, mais de manière plus indirecte et plus simple que la méthode précédente.

Si on le souhaite, on peut fournir une échelle aux juges. Dans le cas d’une comparaison entre deux traductions, les échelons pourraient ressembler à ceci : « première traduction nettement meilleure », « première traduction légèrement meilleure », « pas de préférence », « seconde traduction légèrement meilleure » et « seconde traduction nettement meilleure » (inspiré de Seretan et al., 2014, p. 1796).

Cette méthode, tout en étant bien plus simple à appliquer pour les juges que celle du jugement intuitif, car il ne faut plus ici que choisir la meilleure traduction et non plus donner un score de fidélité ou de fluidité, fournit également des résultats plus cohérents.

En effet, on note qu’il y a plus d’accord entre juges lorsqu’ils effectuent une évaluation comparative que lorsqu’ils jugent intuitivement (Koehn, 2010, p. 220).

Cependant, cette méthode comporte un désavantage non négligeable : elle permet uniquement de déterminer quel système produit les meilleures traductions, mais elle ne dit rien sur la qualité absolue de ce système. Celui-ci peut très bien être de piètre qualité, mais tout de même légèrement meilleur que les autres.

La dernière méthode, la classification des erreurs, demande aux juges de compter le nombre d’erreurs à corriger pour obtenir une bonne traduction et de classifier ces erreurs. Tout de suite, une question se pose : sur quoi se fonde-t-on pour compter et classifier les erreurs ? Plusieurs standards pour la classification des erreurs ont été élaborés, notamment le SAE J2450¹², utilisé dans l’industrie automobile, ou encore le

12 http://www.apex-translations.com/documents/sae_j2450.pdf, consulté le 27 juillet 2016

(33)

modèle LISA QA¹³ pour la localisation. Tous ont en commun une classification des types d’erreur et, parfois, une pondération différente selon la gravité de l’erreur.

Cette méthode se veut objective, mais des expériences ont montré que la subjectivité reste bien présente dans ce type d’évaluation, et ce, malgré un cadre strict. En effet, il peut être difficile de décider du type d’une erreur donnée, et cela implique que deux personnes ne classeront peut-être pas une même erreur dans la même catégorie. Une part de subjectivité est visible aussi dans les classifications elles-mêmes : le poids donné à chaque type d’erreur est subjectif et une classification comme le SAE J2450 est subjective lorsqu’elle indique qu’en cas d’hésitation, il faut toujours choisir le premier type d’erreur dans la liste ou le poids le plus élevé¹⁴.

Il ne faut pas oublier que ces standards ne sont souvent pas applicables tels quels à la langue générale. Ils ont été pensés pour des textes spécialisés d’un domaine bien précis et leur utilité est donc limitée dès que l’on sort de ce champ d’application.

Cette méthode est de plus très longue et fastidieuse à appliquer. Elle implique donc d’avoir beaucoup de temps et d’argent (pour payer les juges) à disposition, ce qui est un luxe pour beaucoup.

L’évaluation humaine, quelle que soit la méthode choisie, a donc ses avantages et ses inconvénients. Ces derniers (subjectivité, temps, etc.) ne lui permettent pas de fournir des résultats suffisamment fiables pour être pris pour argent comptant. Dès lors, il est intéressant et utile de comparer les résultats de l’évaluation humaine avec ceux d’un autre type d’évaluation : l’évaluation automatique.

2.4.2 Évaluation automatique

Le principe de l’évaluation automatique est de comparer automatiquement des traductions issues d’un système de traduction automatique avec une ou plusieurs traductions de référence. On utilise pour cela des algorithmes qui effectuent des calculs différents les uns des autres. Nous allons ici parler du rappel et de la précision, du WER, du TER et du BLEU.

13

http://producthelp.sdl.com/SDL_TMS_2011/en/Creating_and_Maintaining_Organizations/Managing_QA_

Models/LISA_QA_Model.htm, consulté le 27 juillet 2016

14 http://www.apex-translations.com/documents/sae_j2450.pdf, p. 3, consulté le 27 juillet 2016

(34)

Le rappel et la précision sont des métriques traditionnelles basées sur le mot, qui calculent le nombre de mots corrects générés (sur la base d’une seule référence) par rapport au nombre total de mots générés par le système de traduction automatique (précision) ainsi que le nombre de mots corrects générés par rapport au nombre total de mots dans la référence (rappel) (Koehn, 2010, pp. 222-224). Autrement dit, elles calculent le bruit (mots incorrects générés) et le silence (mots dans la référence qui n’ont pas été générés par le système de traduction automatique).

Le problème principal de ces métriques, outre le fait qu’elles ne peuvent se fonder que sur une seule référence, est qu’elles ne tiennent absolument pas compte de l’ordre des mots. Ainsi, si le système de traduction automatique a généré une phrase comme « chipie Monella une est » et que la référence est « Monella est une chipie », ces métriques jugeront la phrase générée parfaite alors qu’elle n’a aucun sens. Elles ne sont donc pas adaptées à l’évaluation de la traduction automatique.

Le WER, ou Word Error Rate, est lui aussi basé sur le mot mais tient compte également de l’ordre. Il calcule le nombre de modifications nécessaires pour que la phrase générée devienne identique à la référence, et divise ensuite ce nombre par le nombre de mots présents dans la référence. Cela donne un pourcentage, le WER, qui est d’autant plus mauvais qu’il est élevé (Koehn, 2010, pp. 224-225). Son principal désavantage est qu’il est extrêmement strict, car il exige que la traduction soit identique en tous points à la référence. Or, comme nous l’avons déjà fait remarquer, il n’existe pas de solution unique en traduction. Le WER pénalise ainsi des traductions correctes et tout à fait acceptables parce qu’elles ne ressemblent pas assez à l’unique référence sur laquelle il fonde ses calculs.

Le TER, ou Translation Edit Rate, est une métrique qui calcule la quantité de post-édition qu’un humain devrait effectuer afin que la traduction produite par un système de TA soit identique à une référence donnée. Les changements possibles sont les insertions, les suppressions, les substitutions de mots seuls ainsi que les déplacements de séquences de mots. Tous ces changements ont le même poids (Asiya Technical Manual, 2013, p. 15).

Contrairement au WER, le TER peut prendre en compte plusieurs références (Snover et al., 2006, p. 3).

Traduction automatique et littérature : un couple impossible ? : Étude sur l&#039;utilité de la spécialisation d&#039;un traducteur automatique pour traduire une nouvelle de Sherlock Holmes