Traduction automatique neuronale et littérature : Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée

(1)

Master

Reference

Traduction automatique neuronale et littérature : Adaptation d'un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée

BERMUDEZ ROMERO, Jésus

Abstract

La finalité de ce projet de mémoire est de déterminer si la traduction automatique pour la paire de langues anglais-espagnol peut fournir des résultats satisfaisants lors de la traduction de textes littéraires. Il s'articule autour de deux questions. Dans un premier temps, nous essayons de déterminer si l'adaptation d'un système de TA aux textes littéraires peut fournir de meilleurs résultats pour la traduction de la prose littéraire qu'un système généraliste de TA en ligne. Dans un second temps, nous mesurons l'effort temporel et technique de la traduction humaine et de la traduction automatique post-éditée ainsi que leur qualité au moyen d'une évaluation automatique et d'une évaluation humaine, afin de déterminer si la TA post-éditée implique une perte de qualité par rapport à la traduction humaine et, si tel est le cas, dans quelle mesure cette perte est compensée par la réduction d'effort temporel et technique.

BERMUDEZ ROMERO, Jésus. Traduction automatique neuronale et littérature : Adaptation d'un système de traduction neuronal et analyse comparative de la traduction humaine et de la traduction automatique post-éditée. Master : Univ.

Genève, 2021

Available at:

http://archive-ouverte.unige.ch/unige:155797

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

T RADUCTION AUTOMATIQUE NEURONALE ET LITTÉRATURE

Adaptation d’un système de traduction neuronal et analyse comparative de la traduction humaine et de la

traduction automatique post-éditée

Directrice : Pierrette Bouillon Jurée : Marianne Starlander

Mémoire présenté à laFaculté de traduction et d’interprétation(Département de traitement informatique multilingue) pour l’obtention de laMaîtrise universitaire en

traitement informatique multilingue

Université de Genève Septembre 2021

(3)

Apizaco, le 11 septembre 2021

(4)

Remerciements

Ce travail de mémoire n’aurait pas pu aboutir sans l’aide si précieuse de plusieurs personnes, que je tiens à remercier par ces quelques lignes.

Je souhaite avant tout remercier ma directrice de mémoire, Pierrette Bouillon, qui a su me guider tout au long de la préparation et de la rédaction de ce travail. Merci à elle pour sa patience, sa disponibilité et ses précieux conseils.

Je remercie également Marianne Starlander d’avoir gentiment accepté d’être juré de mon travail de mémoire et d’avoir consacré de son temps à sa lecture, ainsi que pour ses commentaires et suggestions.

Merci aux professeurs de la Faculté des lettres, Aleida Auld et Margherita Pallottino, pour leur apport lors de la sélection de textes littéraires utilisés dans ce travail de mémoire.

Je tiens également à remercier Jonathan David Mutal pour son aide et ses clarifica- tions lors de la constitution de l’ensemble de données d’entraînement et de l’utilisation de la plateforme COPECO.

Un grand merci, bien entendu, aux étudiants de la maîtrise en traduction pour avoir consacré leur temps et énergie à la traduction et à la post-édition de textes littéraires, ainsi qu’à ceux qui ont mené l’évaluation humaine.

Enfin, je sais gré à María Hermelinda Deifilia Guerrero de son amour et de son soutien sans équivoque au fil des ans. Sans elle, rien de tout cela n’aurait été possible.

À toutes ces personnes, je présente mes remerciements et ma gratitude.

(5)

Table des matières

Déclaration attestant le caractère original du travail effectué i

Remerciements ii

1 Introduction 1

2 Traduction automatique 3

2.1 Histoire . . . 3

2.2 Architectures des systèmes de TA . . . 11

2.3 État actuel de la traduction automatique . . . 20

3 Évaluation des systèmes de traduction automatique 28 3.1 Évaluation humaine . . . 29

3.2 Évaluation automatique . . . 36

3.3 Corrélation entre les métriques d’évaluation automatiques et humaines 45 3.4 Conclusion . . . 46

4 Post-édition 47 4.1 Bref historique . . . 47

4.2 Degrés d’intervention humaine dans la traduction automatique . . . 48

4.3 Degrés et standards de post-édition . . . 51

4.4 Effort de post-édition . . . 53

4.5 Compétences nécessaires pour la post-édition . . . 56

4.6 Conclusion . . . 57

5 Traduction automatique de textes littéraires 58 5.1 État de l’art . . . 59

(6)

6 Méthodologie 75

6.1 Corpus . . . 76

6.2 Traduction humaine . . . 77

6.3 Traduction automatique . . . 78

6.4 Post-édition . . . 82

6.5 Évaluation . . . 83

7 Résultats 86 7.1 Choix du système de TA . . . 86

7.2 Effort temporel et technique . . . 88

7.3 Évaluation automatique . . . 90

7.4 Évaluation comparative . . . 91

7.5 Classification d’erreurs . . . 92

7.6 Difficultés rencontrées par les participants . . . 96

8 Conclusion 100

Bibliographie 104

(7)

Table des figures

2.1 Triangle de Vauquois . . . 12

2.2 Arbre syntaxique . . . 14

2.3 Plongements lexicaux . . . 23

2.4 Architecture encodeur-décodeur . . . 24

2.5 Fonctionnement d’un réseau encodeur-décodeur. . . 25

3.1 Échelles de fidélité et fluidité . . . 30

4.1 Classification des types de traduction . . . 49

5.1 Exemple de la perte de cohésion dans l’output de la TA . . . 60

6.1 Taxonomie d’erreurs MQM adaptée aux textes littéraires . . . 85

7.1 Résultats de l’évaluation comparative . . . 93

7.2 Erreurs principales de traduction selon la taxonomie MQM . . . 94

7.3 Compte d’erreurs dans la première moitié du corpus . . . 95

7.4 Compte d’erreurs dans la seconde moitié du corpus . . . 95

7.5 Difficulté de la tâche de traduction . . . 96

7.6 Difficultés rencontrées dans la tâche de traduction . . . 97

7.7 Difficulté de la tâche de post-édition . . . 97

7.8 Difficultés rencontrées dans la tâche de post-édition . . . 98

7.9 Perception de l’utilité de la traduction automatique . . . 99

(8)

Liste des tableaux

6.1 Variables dépendantes et indépendantes . . . 75

6.2 Sélection d’extraits pour notre étude . . . 76

6.3 Corpus d’entraînement du système de TA adapté aux textes littéraires 81 6.4 Répartition des extraits entre les participants . . . 82

7.1 Scores du premier ensemble de données de test . . . 87

7.2 Scores du second ensemble de données de test . . . 87

7.3 Effort temporel . . . 88

7.4 Effort technique mesuré par le nombre de frappes de clavier . . . 88

7.5 Effort technique mesuré au moyen du score HTER . . . 89

7.6 Score BLEU des trois modalités de traduction . . . 90

7.7 Score TER des trois modalités de traduction . . . 91

7.8 Résultats de l’évaluation comparative par extrait . . . 92

7.9 Compte d’erreurs de traduction selon la taxonomie MQM . . . 94

(9)

Liste des abréviations

ALPAC AutomaticLanguageProcessingAdvisoryCommittee BLEU BilingualEvaluationUnderstudy

CCE Commission desCommunautéseuropéennes CNGL Centre forNextGenerationLocalization

COPECO CollaborativePost-EditingCorpus in Pedagogical Context ENIAC ElectronicNumericalIntegratorandComputer

HTER Human-targetedTranslationEditRate

METEOR Metric forEvaluation ofTranslation withExplicitORdering MQM MultidimensionalQualityMetrics

PE Post-édition

PER Position-independentErrorRate QE QualityEstimation

RNN Recurrentneuralnetwork

SCATE SmartComputer-aidedTranslationEnvironment TA Traductionautomatique

TAAH Traductionautomatiqueassistée par unhumain TAO Traductionassistée parordinateur

TAN Traductionautomatiqueneuronale TAS Traductionautomatiquestatistique TAUS TranslationAutomationUserSociety

TEAHQ Traductionentièrementautomatique dehautequalité TER TranslationEditRate

TH Traductionhumaine

THAO Traductionhumaineassistée parordinateur WER WordErrorRate

(10)

1 Introduction

Le rêve de voir naître un système de traduction entièrement automatique qui maî- triserait la traduction littéraire est très ancien. Déjà dans les premiers écrits de recherche sur la TA, on décèle des échos de cette aspiration, même s’il n’y a jamais eu de véritable consensus parmi les premiers chercheurs sur le fait que le recours à la traduction automatique pour les textes littéraires était possible ou même souhai- table (Weaver, 1955). Dans la préface de l’anthologie fondatriceMachine Translation of Languages, les éditeurs écrivent :

«It is perhaps not going too far to state that the main lines of the prin- ciples on which a mechanical translation depends are now well unders- tood. Still, the question of turning a masterpiece of literature written in a foreign language into a respectable translation is one of great difficulty.

The extreme position has been argued that such an operation is not ge- nerally possible even for a human expert, and thus even less so for a machine. This view seems to us overpessimistic.» (Locke et Booth, 1955, p. 14)

La principale difficulté de la traduction littéraire est que, contrairement à tout autre type de traduction, le but n’est pas seulement d’offrir une traduction qui préserve le sens du texte original, mais aussi d’offrir au lecteur une expérience de lecture équivalente (Toral et Way, 2015b). Ce qui rend cette tâche particulièrement difficile est la présence de références culturelles (Besacier et Schwartz, 2015), le fait que les textes littéraires sont plus riches sur le plan lexical par rapport aux autres textes (de Camargo, 2004) et l’utilisation fréquente d’expressions idiomatiques. Bien que, intuitivement, ces éléments fassent des textes littéraires de piètres candidats pour la traduction automatique, des chercheurs ont étudié le recours à la TA statistique et, plus récemment, à la TA neuronale pour la traduction littéraire et ont constaté leur potentiel d’utilisation.

(11)

La présente étude est née de la rencontre d’un vieil intérêt personnel et de la décou- verte d’un nouveau, la littérature et le traitement automatique du langage naturel.

La question de savoir si la traduction automatique pour la paire de langues anglais- espagnol peut fournir des résultats satisfaisants lors de la traduction de textes litté- raires est au cœur de ce projet de mémoire. Il s’articulera autour de deux axes. Dans un premier temps, nous essaierons de déterminer si l’adaptation d’un système de TA aux textes littéraires peut fournir de meilleurs résultats pour la traduction de la prose littéraire qu’un système généraliste de TA en ligne. Dans un second temps, nous comparerons, d’un point de vue quantitatif et qualitatif, la traduction humaine, la traduction automatique post-éditée et la traduction automatique brute de textes littéraires, afin de déterminer le rapport entre la qualité et l’effort nécessaire pour produire ces trois modalités de traduction. Autrement dit, nous essaierons de déter- miner si la TA post-éditée implique une perte de qualité de la traduction par rapport à la traduction humaine et, si tel est le cas, dans quelle mesure cette perte est com- pensée par la réduction de l’effort.

Afin de mieux comprendre les bases de notre sujet de recherche, lechapitre 2pré- sente dans les grandes lignes la traduction automatique ; lechapitre 3, les méthodes d’évaluation de la traduction automatique ; lechapitre 4, la post-édition. Lechapitre 5offre un aperçu de l’état de l’art de la traduction automatique et la littérature. Le chapitre 6 présente la méthodologie adoptée pour notre étude et le chapitre 7, les résultats obtenus. Enfin, lechapitre 8offre une conclusion à ce projet de mémoire.

(12)

2 Traduction automatique

La traduction automatique, un sous-domaine du traitement automatique du langage naturel, peut être définie comme la tâche de traduire un texte d’une langue naturelle à une autre.

La traduction automatique, également désignée par l’acronyme TA, ne doit pas être confondue avec la traduction assistée par ordinateur ou TAO. Bien que la TAO inclut la traduction automatique, son rôle est d’être un support pour le traducteur humain.

Par contre, la traduction automatique est le seul produit de l’ordinateur, bien que les humains puissent être impliqués dans certaines tâches telles que la pré-édition de l’input ou la post-édition de l’output (Hutchins et Somers, 1992).

Ce chapitre vise à présenter dans les grandes lignes la traduction automatique. Dans un premier temps, nous évoquons un aperçu de l’histoire de la traduction automatique (Section 2.1), puis nous présentons les différentes approches et architectures (Section 2.2) et, enfin, l’état actuel de la traduction automatique (Section 2.3).

2.1 Histoire

Les premières réflexions sur la TA ont été formulées au XVII^esiècle et portaient sur la nature du langage. Elles sont nées de l’idéal d’une langue universelle qui per- mettrait une communication sans frontières. Elle peut être considérée comme une base pour la traduction automatique puisqu’elle implique la création d’une langue abstraite à partir de laquelle les langues naturelles peuvent être codées et décodées.

Une proposition de telles langues a été formulée en 1696 par Leibnitz. Avec sa théo- rie des monades, il tente de développer un ensemble de plus petites unités de sens termini primipour composer toutes les pensées pensables. Une autre proposition a été faite par Descartes. Il a décrit une proposition de langue universelle sous la forme

(13)

d’un chiffre où les équivalents lexicaux de toutes les langues connues recevraient le même numéro de code :

«Mettant en son dictionnaire un seul chiffre qui se rapporte à aymer, amare,philein, et tous les synonymes le livre qui sera écrit avec ces carac- tères pourra être interprété par tous ceux qui auront ce dictionnaire.¹»

Un exemple concret de cette approche a été tenté par le médecin allemand Johann Joachim Becher, qui a imaginé en 1661 un système basé sur des dictionnaires re- liés entre eux par des codes numériques. Tous ces précurseurs de la TA doivent être considérés plus précisément comme des contributions à l’idéal d’un langage univer- sel, car aucune de ces propositions n’implique la construction de machines. En fait, les premières propositions explicites de machines à traduire ne sont apparues qu’en 1933, lorsque deux brevets ont été délivrés indépendamment en France par Georges Artsrouni et en Russie par Petr Petrovitch Smirnov-Troyanskii. Dans les deux cas, les brevets concernaient des dictionnaires mécaniques (Hutchins, 2006).

Les précurseurs

Il faudra attendre l’invention des premiers ordinateurs électroniques pendant la Se- conde Guerre mondiale pour que la faisabilité de la traduction automatique soit formulée. L’ENIAC, aux États-Unis, a été construit pour calculer les tables de tir ba- listique ; Colossus, en Angleterre, a été construit pour déchiffrer les communications militaires allemandes. Après la guerre, la communauté scientifique a vu l’énorme potentiel de ces machines à calculer et de nouveaux projets ont commencé à fleurir, d’abord dans le domaine des mathématiques et de la physique, mais bientôt aussi dans des applications non numériques (Hutchins, 1986).

Warren Weaver, qui a travaillé sur le déchiffrage de codes secrets à l’aide de mé- thodes statistiques pendant la Seconde Guerre mondiale, sera le premier à formuler la possibilité de la traduction automatique en 1947. Pour lui, une langue étrangère n’était qu’un code secret de plus à décoder :

«[...] one naturally wonders if the problem of translation could conceiva- bly be treated as a problem in cryptography. When I look at an article in

1. Lettre à Pierre Mersenne. Amsterdam, 20 novembre 1629. Texte de Clerselier, tome I, lettre 111, p. 498-502.

(14)

Russian, I say "This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode".» (Weaver, 1947)

En 1949, il rédige un mémorandum intituléTranslation, dans lequel il développe ses idées. Outre l’analogie de la traduction automatique avec la cryptographie, il propose plusieurs idées fondatrices, telles que l’approche de la théorie de l’information, les caractéristiques logiques et universelles sous-jacentes du langage, et le problème de la signification multiple. Weaver reconnaît son importance et propose de l’aborder par l’examen du contexte immédiat :

«If one examines the words in a book, one at a time through an opaque mask with a hole in it one word wide, then it is obviously impossible to determine, one at a time, the meaning of words. “Fast” may mean

“rapid” ; or it may mean “motionless” ; and there is no way of telling which. But, if one lengthens the slit in the opaque mask, until one can see not only the central word in question but also say N words on either side, then, if N is large enough one can unambiguously decide the meaning.»

(Weaver, 1949)

Pour Weaver, cependant, l’approche la plus prometteuse parmi celles mentionnées dans le mémorandum est celle des langages universels. Pour le clarifier, il a sug- géré l’analogie des individus vivant dans une série de hautes tours fermées, qui partageaient un sous-sol commun. Lorsqu’ils essaient de communiquer, ils se crient dessus depuis leur propre tour fermée. Mais lorsqu’un individu descend dans ce sous-sol commun, il peut communiquer sans effort avec les autres.

Le mémorandum, aujourd’hui considéré comme la pierre fondatrice de la TA, a sus- cité un grand intérêt, qui a conduit à la création d’un grand nombre de groupes de recherche en Europe et aux États-Unis dans les années 1950. Son impact historique est incontestable : le mémorandum allait lancer la traduction automatique en tant qu’entreprise scientifique (Hutchins, 2006).

Les pionniers

La première démonstration publique d’un système de traduction automatique a été le système russo-anglais de l’université de Georgetown, une collaboration entre IBM et l’université de Georgetown, réalisée en 1954 (Hutchins, 1995). Un échantillon soi- gneusement sélectionné de 49 phrases russes a été traduit en anglais, en utilisant

(15)

un vocabulaire très restreint de 250 mots et seulement 6 règles de grammaire. Les premiers systèmes de traduction automatique, tels que celui de l’université de Geor- getown, souvent appelé de première génération, utilisaient des méthodes de traduction mot à mot sans aucune composante linguistique claire. Bien que le système n’ait été considéré que comme untoy system, ses résultats ont été suffisamment impres- sionnants pour stimuler le financement à grande échelle de la recherche en TA aux États-Unis et pour inspirer le lancement de projets de TA ailleurs dans le monde, notamment en URSS. Les commanditaires et le grand public avaient l’impression op- timiste qu’une traduction automatique de haute qualité était possible (Quah, 2006).

La menace constante de la guerre froide a provoqué l’euphorie des cercles gouver- nementaux et militaires quant aux possibilités de la TA. Au cours de la décennie suivante, de nombreux groupes ont été actifs : certains ont adopté des approches empiriques par tâtonnement ayant pour objectif des systèmes opérationnels immé- diats ; d’autres ont adopté des approches théoriques, comprenant des recherches linguistiques de fond, qui visaient des solutions à long terme. Une grande partie des recherches de cette période a été d’une importance fondamentale pour la recherche postérieure. Cependant, l’objectif fondamental de construire des systèmes capables de produire de bonnes traductions n’a pas été atteint. L’optimisme était grand, de nombreuses prévisions annonçaient des découvertes imminentes, mais la désillu- sion grandissait à mesure que la complexité des problèmes linguistiques devenait de plus en plus évidente (Hutchins, 1986).

Les premières incertitudes

Les doutes théoriques ont été exprimés le plus clairement par le philosophe Bar- Hillel en 1959. Il soutenait avec conviction que la traduction entièrement automatique de haute qualité, ou TEAHQ, ne devait pas être l’objectif de la recherche en traduction automatique. Il était très critique à l’égard des projets de traduction automatique alors en cours, qui étaient pour la plupart fondés sur des approches théo- riques. Le problème qu’il a soulevé était celui de trouver la bonne traduction pour le mot anglaispendans le contexte suivant :

«Little John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy.»

L’argument était qu’ici le mot anglaispenne pouvait avoir que la signification d’en- clos, et non celle d’instrument d’écriture, ce qui pouvait être crucial pour décider la

(16)

traduction correcte depen, découvrant que cela dépend de la connaissance générale du monde, et qu’il ne pouvait y avoir aucun moyen d’intégrer cette connaissance dans un ordinateur (Hutchins, 2006).

Les doutes des responsables du financement ont été exprimés par leAutomatic Lan- guage Processing Advisory Committeeou ALPAC, qui a été créé pour étudier la via- bilité de la traduction entièrement automatique de haute qualité. En 1966, ils ont publié le rapport ALPAC, dans lequel ils concluaient que les systèmes de traduction automatique évalués étaient lents, moins précis que les traductions humaines et coûteux. Les systèmes de traduction automatique ont donc été considérés comme incapables d’atteindre leurs objectifs et l’ALPAC ne prévoyait aucune possibilité d’obtenir des résultats utiles dans un avenir proche. Le rapport a plutôt recom- mandé le développement des outils de support pour les traducteurs – des outils de traduction assistée par ordinateur – et a orienté son soutien vers la recherche en linguistique computationnelle. Le Comité a également arrivé à la conclusion que la langue est trop complexe et que la tâche de traduction nécessite donc des capacités humaines, qui ne peuvent pas être facilement simulées au moyen d’un programme informatique (Hutchins, 1995). Ce rapport a conduit à la fin du financement public aux États-Unis et à une désillusion générale dans le milieu de la recherche en TA.

La période post-ALPAC

La recherche ne s’est pas complètement arrêtée. Cependant, il y a eu un changement de tion. Alors que la recherche de première génération de la période pré-ALPAC avait été dominée par des approches detraduction directe, la deuxième génération post-ALPAC allait être dominée par les modèles indirects, c’est-à-dire l’approche par interlangue et l’approche par transfert. Alors qu’aux États-Unis, la recherche en TA n’a pas été relancée avant de nombreuses années, au Canada et en Europe son importance n’a pas cessé d’être reconnue et le développement s’est poursuivi (Hutchins, 1986).

Les principales innovations de la décennie se sont concentrées essentiellement sur l’approche par interlangue, qui est en principe très proche de l’idée illustrée par l’analogie du sous-sol commun de Weaver, celle d’une langue intermédiaire universelle. Par exemple, entre 1960 et 1971, le groupe créé par Bernard Vauquois à l’Uni- versité de Grenoble a mis au point un système de traduction russe vers le français

(17)

pour textes scientifiques.

Cependant, au milieu des années 1970, l’avenir de l’approche par interlangue sem- blait être remis en question. Les problèmes identifiés étaient la rigidité des niveaux d’analyse et l’inefficacité des parseurs. En conséquence, on a considéré à l’époque que l’approche par transfert, moins ambitieuse, offrait de meilleures perspectives (Hutchins, 2006).

À l’Université de Montréal, les recherches ont commencé en 1970 sur un système par transfert pour la traduction anglais-français qui allait conduire à la création en 1976 du système TAUM-Météo pour la traduction des prévisions météorologiques.

Un autre système basé sur l’approche par transfert est SUSY, un système de TA développé en Allemagne par l’Université de Sarrebruck (Quah, 2006).

La relance de la recherche

Ce n’est qu’à la fin des années 1970 que la recherche en TA a connu une sorte de renaissance. En Europe, la Commission des Communautés européennes ou CCE a acheté la version anglaise-française du système SYSTRAN, un descendant grande- ment amélioré du premier système développé à l’université de Georgetown, dont le développement s’était poursuivi pendant les années de vaches maigres après l’AL- PAC, et qui avait été utilisé par la NASA et par la Force aérienne des États-Unis.

La CCE a également commencé à mettre en place ce qui allait devenir le projet EU- ROTRA, en s’appuyant sur les travaux des groupes de recherche de l’Université de Grenoble et de l’Université de Sarrebruck. Ce projet était peut-être le plus important, et certainement l’un des plus ambitieux projets de recherche et de développement dans le domaine du traitement automatique du langage naturel. Ce projet couvrait toutes les langues parlées dans la Communauté européenne à l’époque. Celui-ci adopte l’approche par transfert, bien que les exigences du multilinguisme à grande échelle aient finalement conduit à l’incorporation de nombreuses fonctionnalités de l’approche par interlangue. Bien que la CCE n’ait pas réussi à mettre en place un système de traduction automatique opérationnel, le projet a influencé le développe- ment d’autres systèmes de TA (Hutchins, 2006).

Aux États-Unis, on a également assisté à une relance de la recherche en TA avec

(18)

le développement de SPANAM, un système de traduction automatique espagnol- anglais, et ENGSPAN, un système anglais-espagnol par l’Organisation panaméri- caine de la santé, ainsi que METAL, un système de TA allemand-anglais construit par la Force aérienne des États-Unis à l’Université du Texas à Austin (Quah, 2006).

Dans les années 1980, on a assisté à un regain d’intérêt général pour les systèmes par interlangue, motivé en partie par les recherches contemporaines sur l’intelligence artificielle et la linguistique cognitive. Un exemple est le projet CATALYST de l’Université Carnegie Mellon, qui a été développé pour la traduction multilingue de manuels techniques (Koehn, 2020).

L’émergence d’une nouvelle approche

Le cadre dominant de la recherche en TA jusqu’à la fin des années 1980 était basé essentiellement sur des règles linguistiques de différentes sortes. Cependant, la prédo- minance de l’approche basée sur les règles a été brisée par l’émergence de nouvelles méthodes basées sur le corpus.

Les premiers efforts fondés sur cette idée ont été réalises dans le cadre de l’approche basée sur l’exemple, proposée en 1984 par Makoto Nagao de l’Université de Kyoto.

Cette approche repose sur l’hypothèse que la traduction implique souvent la recherche ou le rappel d’exemples analogues, c’est-à-dire que ces systèmes tentent de trouver une phrase similaire à la phrase à traduire dans un corpus parallèle et d’effectuer les modifications appropriées à sa traduction stockée (Koehn, 2020).

Plus tard, à la fin des années 1980, l’idée de latraduction automatique statistique, ou TAS, est née dans les laboratoires d’IBM. Ils ont développé un système de traduction automatique appelé Candide fondé sur des méthodes statistiques. La parti- cularité de leur système était que les méthodes statistiques étaient utilisées comme pratiquement les seuls moyens d’analyse et de génération, s’appuyant sur de grands corpus électroniques de texte pour établir des patrons d’équivalence ; aucune règle linguistique n’était appliquée. Ce qui a surpris la plupart des chercheurs adeptes des méthodes linguistiques, c’est que les résultats étaient très satisfaisants : près de la moitié des phrases traduites soit correspondaient exactement aux traductions du corpus, soit exprimaient le même sens avec des mots légèrement différents, soit proposaient d’autres traductions tout aussi légitimes (Hutchins, 2006).

(19)

Bien que la recherche sur les méthodes statistiques pour la TA se soient poursuivies tout au long des années 1990, la plupart des chercheurs se sont encore concentrés sur les systèmes par transfert et par interlangue. Les systèmes statistiques ne prendront leur plein essor que vers l’an 2000, grâce à l’augmentation de la puissance de calcul et du stockage des données, ainsi qu’à la disponibilité croissante des ressources textuelles numériques, conséquence de la croissance de l’internet (Koehn, 2020).

De nombreux facteurs ont contribué au fait que la TAS s’est imposé pendant presque deux décennies. Des corpus parallèles ont été partagés par des groupes de recherche qui les ont recueillis sur Internet, comme le corpus de transcriptions parlementaires du Canada et le corpus des actes du Parlement européen (Koehn, 2020). Des outils open source ont été mis à disposition du public : le système open source Moses (Koehn et al., 2007), développé à l’université d’Édimbourg, est devenu le toolkit le plus largement utilisé. Les ordinateurs sont devenus assez rapides, de sorte qu’au milieu des années 2000, toute personne ayant des compétences techniques pouvait télécharger gratuitement des outils et des données pour créer un système de traduction automatique sur un ordinateur personnel ordinaire.

Des centaines d’articles de recherche ont été publiés chaque année sur la traduction automatique statistique. Des systèmes de traduction automatique statistique ont commencé à être développés dans un grand nombre de laboratoires de recherche universitaires et commerciaux. De grands développeurs de logiciels tels qu’IBM, Mi- crosoft et Google ont également commencé à développer des systèmes de traduction automatique statistique commerciaux, remplaçant les efforts existants basés sur des règles, et les sociétés de traduction automatique traditionnelles, telles que Systran, ont intégré des méthodes statistiques dans leurs systèmes.

Au milieu des années 2010, la recherche en TAS et son acceptation de plus en plus ré- pandue ont bénéficié d’un financement important. Néanmoins, des voix davantage sceptiques se sont fait entendre, qui affirment qu’un plateau en matière d’améliora- tion de la qualité a été atteint (Koehn, 2020).

Un nouvel état de l’art

Divers domaines du traitement automatique du langage naturel ont été stimulés par la redécouverte des réseaux de neurones. Cependant, pendant longtemps, l’in- tégration des réseaux de neurones dans les systèmes de traduction automatique a

(20)

été plutôt superficielle.

Les méthodes neuronales en traduction automatique ont fait leurs débuts au milieu des années 2000 avec l’intégration de modèles neuronaux de langage dans les sys- tèmes traditionnels de traduction automatique statistique. En plus de leur utilisation dans les modèles de langue, les méthodes de réseaux de neurones ont été introduites dans d’autres composantes de la traduction automatique statistique traditionnelle.

Ce n’est qu’en 2014 qu’un effort plus ambitieux qui visait à développer un sys- tème de traduction automatique purement neuronale a été entrepris, ayant comme conséquence l’abandon progressif des approches statistiques existantes. Cette nouvelle approche a permis de produire des traductions raisonnables pour des phrases courtes, mais la qualité s’est détériorée avec l’augmentation de la longueur des phrases. Cependant, avec l’ajout de quelques raffinements supplémentaires – mé- canisme d’attention,byte pair encoding, back-translation – la traduction automatique neurale deviendrait, en 2017, le nouvel état de l’art (Koehn, 2020).

L’avènement de la traduction automatique neuronaleou TAN, une approche par apprentissage automatique, a conduit à un changement radical et soudain de la recherche traditionnelle par rapport à de nombreux axes de recherche antérieurs. L’ex- plosion des publications scientifiques liées à la TAN au cours des dernières années et le grand nombre de toolkits de TAN accessibles au public en sont peut-être la meilleure preuve. La TAN a déjà été largement adoptée par l’industrie et elle a été déployée par Google, DeepL, Microsoft, Facebook, Amazon, SDL et Yandex, parmi beaucoup d’autres (Stahlberg, 2020). L’avènement de la TAN marque certainement l’une des jalons majeurs de l’histoire de la TA et, au moment d’écrire ces lignes, la recherche progresse à un rythme accéléré.

La section suivante présente plus en profondeur les différentes approches de la traduction automatique mentionnées dans cette section.

2.2 Architectures des systèmes de TA

Comme mentionné dans la section précédent, au cours de son histoire, plusieurs approches pour aborder le problème de la TA ont vu le jour. Dans les grandes lignes, ils peuvent être regroupés en deux grandes familles : lessystèmes à base de règles et lessystèmes basés sur les corpus.

(21)

2.2.1 Systèmes à base de règles

Les systèmes à base de règles, également connus comme l’approche classique, utilisent des informations linguistiques encodées dans des dictionnaires et des gram- maires – un ensemble de règles déterminées manuellement par des experts en linguistique – afin d’analyser la langue source et de transférer les informations pour générer un output dans la langue cible. En partant d’une distinction entre les niveaux de complexité de l’analyse, communément représentés à l’aide du triangle de Vauquois (Figure 2.1), les systèmes à base de règles sont divisés ensystèmes directs etsystèmes indirects.

FIGURE2.1 – Triangle de Vauquois²

Traduction automatique directe

Historiquement, ce sont les premiers systèmes à avoir été conçus. Un système direct est essentiellement un système basé sur un dictionnaire qui fait correspondre chaque mot de la langue source à son équivalent dans la langue cible.

Le système effectue d’abord une analyse morphologique à l’aide d’un dictionnaire monolingue afin d’attribuer une catégorie grammaticale à chaque mot. Il utilise

2. Source : wikipedia.org/wiki/File :Direct_translation_and_transfer_translation_pyramind.svg

(22)

ensuite un dictionnaire bilingue pour trouver les mots équivalents dans la langue cible. Les phrases dans la langue cible sont construites en remplaçant directement les chaînes de caractères de la langue source. Parfois, des changements de position sont également effectués afin de respecter l’ordre des mots dans la langue cible (Ju- rafsky et Martin, 2009). Autrement dit, les systèmes directs produisent une traduction mot à mot, avec simplement une réorganisation de l’ordre des mots (Hutchins and Somers, 1992).

En pratique, ces systèmes sont conçus pour une seule paire de langues, et le seul traitement effectué est celui nécessaire pour passer d’une langue source spécifique à une langue cible spécifique. Aucune analyse syntaxique ou sémantique n’est ef- fectuée sur le texte de la langue source avant que sa traduction ne soit produite.

De plus, cette approche ne permet pas de résoudre les ambiguïtés ni de traiter les expressions métaphoriques. Ce type de système de traduction automatique est gé- néralement conçu pour traduire entre deux langues proches (Quah, 2006).

Cette approche est simple et peu coûteuse, mais les résultats obtenus sont médiocres et imitent les structures syntaxiques de la langue source. En conséquence, l’approche directs s’est révélée peu fiable et insuffisamment puissante (Jurafsky et Martin, 2009).

Systèmes indirects

Au lieu de traduire directement de la langue source à la langue cible, les systèmes indirects créent une représentation intermédiaire. Il existe deux types de systèmes indirects, lessystèmes par transfert et lessystèmes par interlangue. La différence entre eux repose sur le type de représentation intermédiaire qu’ils utilisent.

Traduction automatique par transfert

Les systèmes par transfert reposent sur le principe de la connaissance contrastive, c’est-à-dire sur les différences entre deux langues. Cette approche comporte trois phases : l’analyse, le transfert et la génération. La phase d’analyse vise à convertir le texte en langue source en une représentation abstraite en langue source. Cette repré- sentation est réalisée au moyen d’un arbre syntaxique qui représente la syntaxe de la langue source (Figure 2.2). Ensuite, la phase de transfert de la représentation en langue source vers sa représentation équivalente en langue cible a lieu. Elle trans- forme donc un arbre syntaxique, qui correspond à la description d’une phrase en

(23)

FIGURE2.2 – Exemple d’un arbre syntaxique

langue source, en un autre arbre syntaxique, qui correspond à la description syntaxique d’une phrase en langue cible. Dans la dernière étape, un texte en langue cible est généré à partir de la représentation en langue cible.

Des dictionnaires spécifiques sont utilisés à chaque phase : un dictionnaire de la langue source au stade de l’analyse, un dictionnaire bilingue au stade du transfert et un dictionnaire de la langue cible au stade de la génération (Jurafsky et Martin, 2009).

L’approche par transfert n’est pas exempte de problèmes. Elle s’appuie sur des dictionnaires qui ne contiennent pas nécessairement toutes les connaissances néces- saires pour résoudre les ambiguïtés lexicales du transfert. Les systèmes par transfert reposent sur un ensemble de règles morphologiques, syntaxiques, sémantiques et contextuelles. En ce qui concerne la complexité de ces règles, il n’y a pas de limites et une myriade de règles, combinaisons et exceptions peuvent être codées. Dans la pratique, il semble toutefois qu’il existe un point où une plus grande complexité n’indique plus de meilleurs résultats. Au lieu de cela, des conflits internes et des règles contradictoires peuvent produire de nouvelles erreurs (Stein, 2003).

Traduction automatique par interlangue

Au lieu de transformer la structure et les mots d’une phrase source pour arriver à une phrase valide dans la langue cible, l’approche par interlangue traite la traduction comme un processus d’extraction de la signification de la phrase source et d’ex- pression de cette signification dans la langue cible au moyen d’une langue intermé- diaire universelle comme celle imaginée par Weaver. Le système par transfert peut

(24)

se passer de la connaissance contrastive et aller vers une représentation indépen- dante des langues par une compréhension plus profonde. Ce schéma présuppose donc l’existence d’une représentation du sens, une langue neutre ou interlangue, qui serait capable de représenter toutes les informations significatives de tous les énoncés dans toutes les langues (Jurafsky et Martin, 2009).

Une interlangue est destiné à servir d’intermédiaire entre les langues naturelles.

Lors de la phase d’analyse, un texte en langue source est analysé et transformé en une interlangue. Les phrases en langue cible sont produites à partir de cette interlangue à l’aide de dictionnaires en langue cible et de règles de grammaire lors de l’étape de génération (Quah, 2006). Il faut cependant procéder à une analyse exhaus- tive de la sémantique du domaine et formaliser celle-ci dans une ontologie, c’est-à- dire l’inventaire approprié des concepts et des relations pour une interlangue.

Le principal problème à surmonter pour un système par interlangue est de définir une représentation universelle qui puisse englober toutes les langues. Diverses pos- sibilités peuvent être explorées pour l’interlangue, y compris une langue artificielle ou formelle ; il pourrait également être basé sur des informations sémantiques ou syntaxiques de type dictionnaire (Lewis, 1992). Cette approche a fait couler l’encre, mais il n’y a jamais eu de méthodologie définitive pour parvenir à la création d’une véritable représentation neutre du langage. Toutefois, cela a changé avec la venue d’une nouvelle approche en TA, qui se sert de séquences de nombres en guise de langue intermédiaire pour représenter le langage, dont on parlera à la fin de ce chapitre.

2.2.2 Systèmes basés sur les corpus

Étant qu’il est difficile d’encoder toutes les règles manuellement, il vaut peut-être mieux apprendre à traduire à partir d’exemples de traductions passées. Au lieu de formuler des règles linguistiques et des exceptions, il est possible d’alimenter la machine avec les traductions déjà existantes (Koehn, 2020).

Les systèmes de TA basés sur les corpus reposent sur l’utilisation de corpus pa- rallèles. C’est-à-dire que les textes sont automatiquement traduits à l’aide d’informations obtenues à partir d’exemples de traductions antérieures réalisées par des humains. Les approches de TA qui appartiennent à ce paradigme sont laTA basée sur l’exemple, laTA statistiqueet, depuis peu, laTA neuronale.

(25)

Traduction automatique basée sur l’exemple

Les systèmes basés sur l’exemple reposent sur le principe de traduire une phrase source en imitant la traduction d’une phrase similaire déjà présente dans une base de données (Sato et Nagao, 1990). Cette idée est également à l’origine des systèmes de mémoire de traduction qui stockent et retrouvent les traductions similaires pour un segment en langue source à traduire.

Un système de TA basé sur l’exemple nécessite un corpus bilingue de segments ali- gnés et utilise un algorithme pour faire correspondre l’exemple le plus proche d’un segment de langue source à son segment de langue cible comme base de traduction du nouveau texte source. Une paire de segments appariés est appelée un exemple (Quah, 2006).

Trois étapes constituent le processus de traduction d’un système basé sur l’exemple : la mise en correspondance des segments du texte source avec les paires d’exemples existantes extraites du corpus bilingue aligné, puis l’alignement des segments de traduction correspondants et leur recombinaison pour générer le texte en langue cible (Kit et al., 2002).

Un inconvénient de l’approche basée sur l’exemple est que celle-ci dépend forte- ment des exemples disponibles et que si les phrases en langue source sont très com- plexes, des règles doivent être ajoutées pour générer des phrases syntaxiquement et sémantiquement correctes. En d’autres termes, les systèmes basés sur l’exemple sont souvent étendus avec des règles qui visent principalement à réarranger la phrase en langue cible. On pourrait dire qu’un exemple n’est qu’un type particulier de règle de traduction, ce qui signifierait qu’il n’y a pas une différence essentielle entre les systèmes basés sur les règles et les systèmes basés sur l’exemple (Watanabe, 1992).

Plus on ajoute de règles aux systèmes basés sur l’exemple, plus ils ressemblent aux systèmes basés sur les règles. Pour cette raison, certains considèrent que les sys- tèmes basés sur l’exemple se situent à mi-chemin entre les approches basées sur les règles et les approches statistiques (Carl et Way, 2003).

Traduction automatique statistique

Une traduction parfaite, à la fois fidèle à la langue source et fluide dans la langue cible, est parfois impossible. Si l’on veut quand même produire une traduction, il

(26)

faut trouver un compromis. C’est exactement ce que font les traducteurs dans la pratique : ils produisent des traductions qui répondent moyennement aux deux critères.

Dans cette optique, l’objectif de la traduction peut être modélisé comme la production d’un résultat qui maximise une certaine fonction de valeur représentative de l’importance de la fidélité et de la fluidité. Donc, le problème de la traduction peut être formalisé comme le produit de la fluidité et de la fidélité (Jurafsky et Martin, 1999). Pour ce faire, il faut quantifier la fidélité et la fluidité, et créer un algorithme permettant de trouver la phrase qui maximise le produit de ces deux éléments. Or, c’est exactement ce que fait l’approche statistique de la traduction automatique.

La TA statistique est composée de deux processus séparés : entraînement et dé- codage. Dans la phase d’entraînement, la fidélité et la fluidité sont formalisées au moyen du modèle de traduction et du modèle de langue, respectivement. L’algorithme qui permet de trouver une traduction à la fois fidèle et fluide est mis en œuvre lors de la phase de décodage.

La phase d’entraînement consiste à extraire le modèle de traduction d’un corpus pa- rallèle, et le modèle de la langue cible d’un corpus monolingue (Brown et al., 1993).

Le modèle de traduction ressemble un dictionnaire bilingue où chaque traduction possible pour un mot ou une phrase source donnée a une probabilité qui lui est asso- ciée. Le modèle de langue comprend une base de données de n-grammes en langue cible, chacune d’entre elles étant également associée à une probabilité. Ces modèles induits sont ensuite utilisés lors du décodage, le processus qui produira la traduction à laquelle la probabilité globale la plus élevée a été attribuée selon les modèles de traduction et de langue (Hearne et Way, 2011). Le modèlenoisy-channelest utilisé à cet effet :

Traduction =argmax_T P(S|^T)·^P(T) (2.1) Le modèlenoisy-channelcomporte deux composants, P(S|T) et P(T) qui doivent être multipliés entre eux. Le premier composant, P(S|T), représente le modèle de traduction et détermine la probabilité que la phrase source S et la traduction candidate T soient équivalentes sur le plan sémantique, à savoir que le sens exprimé dans S soit également capturé dans T. Le second composant, P(T), représente le modèle de langue et détermine la probabilité que la traduction candidate T soit une phrase

(27)

correcte - ou fluide - dans la langue cible. Cette approche pour la traduction automatique a été premièrement proposée par des chercheurs issus du domaine de la reconnaissance vocale (Brown et al., 1993).

Bien que le modèle noisy-channelsoit la méthode classique, il existe une autre for- mule disponible. Le modèlelog-linearpermet de réaliser exactement le même calcul que le modèlenoisy-channel:

Traduction=argmax_T

Â

^M

m=1

l_m· ^fm(T,S) (2.2) Un avantage notable de cette alternative est la possibilité d’ajuster ou de paramétrer l’importance de chaque composant utilisé. Par exemple, on peut décider que le mo- dèle de traduction est deux fois plus important que le modèle de langue et doit donc avoir deux fois plus de poids. Ce changement peut être effectué simplement en dou- blant la valeurldu modèle de traduction par rapport à celle du modèle de langue.

Le modèlelog-linears’est imposé comme le standard de facto, car il permet d’ajou- ter des composants supplémentaires en plus du modèle de langue et du modèle de traduction (Och et Ney, 2002).

La phase de décodage consiste à trouver la meilleure traduction en fonction de ces formules. En bref, une phrase source est décodée à partir du meilleur output du modèle de traduction, en le réordonnant à l’aide d’un modèle de réordonnance- ment, puis en le passant au modèle de langue pour former une phrase lisible. Ainsi, de nombreuses phrases possibles sont générées. Cependant, puisque le nombre de traductions possibles est immense, il s’avère nécessaire de trouver le meilleur output sans pour autant générer l’ensemble infini de toutes les traductions possibles.

La meilleure est choisie par le biais d’un algorithme de recherche, notamment au moyen de la méthode ditebeam-search, qui est devenue la norme de décodage pour la traduction automatique statistique. Le principe consiste à maintenir un nombre arbitraire de traductions possibles - unbeam- à tout moment du processus de traduction. Cette restriction garantit que le temps d’exécution du système est raisonnable dans la pratique (Hearne et Way, 2011).

Il convient de préciser que l’approche que nous venons de décrire, bien qu’elle soit

(28)

souvent dénommée TAS, est en fait l’approche de traduction automatique statistique basée sur les phrases. La TA basée sur les mots, la première approche statistique, analyse les données sur le plan des unités lexicales plutôt que sur celui des n-grammes. Cela veut dire qu’un mot dans la langue source doit correspondre à un mot dans la langue cible. Pour cette raison, cette approche ne permet pas de traiter les unités phraséologiques. (Stein, 2003). En raison de ce défaut parmi d’autres, cette approche a été remplacée par l’approche basée sur les phrases, laquelle est devenue si répandue que lorsqu’on entend le terme de traduction automatique statistique, il désigne en fait cette approche.

Une autre approche, la TA basée sur la syntaxe, repose sur l’idée de traduire des unités syntaxiques, plutôt que des mots isolés ou des n-grammes. Elle requiert une analyse syntaxique assez précise de la phrase, puis la construction d’un arbre syntaxique. Ainsi, le système apprend à transformer les unités syntaxiques entre les langues et traduit le reste par mots ou phrases (Yamada et Knight, 2001). Bien avant l’émergence de la TA neuronale, la traduction basée sur la syntaxe était considérée comme l’avenir de la traduction automatique, mais elle n’a pas connu de succès.

Enfin, la TA hiérarchique basée sur les phrases combine les idées de la TA basée sur les phrases et de la TA basée sur la syntaxe (Koehn, 2010).

Traduction automatique neuronale

Le domaine de la traduction automatique a connu un bouleversement majeur au cours des dernières années. La TA statistique, qui a dominé la recherche pendant des décennies, a été largement remplacée par la traduction automatique neuronale en quelques années seulement. La traduction automatique neuronale ou TAN est une approche par apprentissage automatique qui utilise des réseaux de neurones artificiels pour transformer directement la phrase source en phrase cible.

Le processus comporte deux phases, l’encodage et le décodage. Lors de la phase de encodage, la phrase en langue source est analysée et encodée sous forme de une ma- trice composée d’une séquence de vecteurs, qui est une représentation numérique de la structure et du sens de la phrase. Ensuite, dans la phase de décodage, cette re- présentation est utilisée comme donnée d’entrée pour générer directement la phrase en langue cible (Stahlberg, 2020).

(29)

2.3 État actuel de la traduction automatique

La traduction automatique neuronale, la plus récente forme de traduction automatique basée sur des corpus, utilise pour son entraînement des corpus gigantesques contenant des centaines de milliers, voire des millions, de paires de segments de la langue source et de leurs traductions. En ce sens, elle est similaire à la traduction automatique statistique mais utilise une approche informatique entièrement diffé- rente : l’apprentissage automatique et, plus précisément, les réseaux de neurones artificiels.

L’apprentissage automatique est un domaine de l’intelligence artificielle qui permet à un système d’apprendre à partir de données plutôt que par programmation expli- cite. L’apprentissage automatique utilise un ensemble d’algorithmes qui apprennent de manière itérative à partir de données pour améliorer le rendement d’un système, classer des données et faire des prédictions. La plupart des techniques d’apprentissage automatique sont issues de la statistique, mais il en existe une qui est indépen- dante de cette discipline.

Le concept de réseau de neurones artificiels, inspiré des neurones du cerveau, est une architecture composée d’unités artificielles qui ressemblent aux neurones en ce sens que leur output et leur activation - le degré d’excitation ou d’inhibition - dépendent des stimuli provenant d’autres neurones et de la force des connexions à travers lesquelles ces stimuli sont transmis (Forcada, 2017).

Un réseau de neurones peut se composer de milliers, voire de millions d’unités de traitement ou neurones, densément interconnectées. Les réseaux de neurones sont organisés en couches de neurones. Un réseau de neurones se compose de trois couches ou plus : une couche d’entrée, une ou plusieurs couches cachées et une couche de sortie. Les données sont reçues par la couche d’entrée. Ensuite, les don- nées sont modifiées dans la couche cachée et dans la couche de sortie en fonction des poids - les stimuli - appliqués aux neurones.

Les réseaux de neurones classiques ne comportaient pas plus de trois couches ca- chées. Ce n’est qu’avec l’arrivée des processeurs graphiques que l’on a pu envisager de multiples couches cachées dans un réseau de neurones.

L’apprentissage profond est une méthode spécifique d’apprentissage automatique qui fait appel à des réseaux de neurones composés de nombreuses couches cachées

(30)

afin d’apprendre à partir des données. Le terme d’apprentissage profond fait donc référence à la profondeur des couches du réseau. Chaque couche traite une dimension différente de l’information qu’elle a reçue afin de la représenter. Par exemple, dans le cas de la reconnaissance d’images, l’image est déconstruite par les différentes couches de neurones, qui traitent chacune un trait distinct de l’image : contours, lignes, couleurs, entre autres. Les informations extraites sont ensuite rassemblées dans la dernière couche, dans laquelle la solution au problème est obtenue (Good- fellow et al., 2016). Plus le problème est complexe, plus il y aura de couches cachées dans le réseau.

En ce qui concerne la traduction automatique, le réseau de neurones est censé trans- férer les traits d’un texte écrit dans une langue donnée vers une autre. Admettons que le texte source soit un ensemble de traits spécifiques. En principe, un réseau de neurones va encoder ces traits et ensuite un autre réseau de neurones va les décoder pour les restituer dans un texte, mais dans une autre langue. Le premier réseau de neurones peut uniquement encoder la phrase vers l’ensemble spécifique de traits, et le second peut uniquement les décoder vers le texte. Les deux réseaux n’ont aucune idée l’un de l’autre, et chacun d’eux ne connaît que sa propre langue. Ce processus ressemble remarquablement à l’approche par interlangue. Maintenant, la question se pose de savoir comment ces traits sont représentés.

Les réseaux de neurones sont des ensembles de neurones connectés, qui sont dé- finis par leur comportement. Les unités neuronales utilisées en TAN fonctionnent en deux phases pour déterminer leur état d’activation. Dans la première phase, les états d’activation des neurones connectés à cette unité sont additionnés, mais chacun d’eux est d’abord multiplié par un poids qui représente la force et la nature de leur connexion. Ces poids peuvent être positifs ou négatifs : si le stimulus est reçu par une connexion ayant un poids positif, le neurone stimulé a tendance à ex- citer le neurone auquel il est connecté ; si le stimulus est reçu par une connexion ayant un poids négatif, le neurone stimulé a tendance à inhiber le neurone auquel il est connecté. Le résultat est un nombre qui peut prendre n’importe quelle valeur négative ou positive possible, mais qui n’est pas encore la valeur d’activation du neurone. Dans la seconde phase, une fonction d’activation met en correspondance les valeurs obtenues avec le neurone. Les valeurs d’activation sont généralement dé- limitées d’une certaine manière, par exemple entre 0 et 1 ou entre -1 et +1 (Forcada, 2017).

(31)

L’état d’activation de chaque neurone dans les réseaux de neurones est entraîné pour construire des représentations distributionnelles, soit les représentations de chacun des mots et de leurs contextes, à la fois dans la langue source en cours de traitement et dans la langue cible en cours de production. Une représentation est une sorte d’instantané des états d’activation de chaque neurone dans toutes les couches : il s’agit d’une liste de taille fixe - un vecteur - composée de valeurs comme suit :

[+0.3, 0, -0.23, +0.01, -0.99]

C’est ainsi que les traits sont représentés et l’output du système de traduction automatique est obtenu à partir de ces représentations. Le principe d’un vecteur est de représenter des informations comme un point dans un espace multidimensionnel ; chaque valeur de la liste représente une dimension. Ici, un vecteur qui représente des mots est appelé plongement lexical (Jurafsky et Martin, 2020).

Afin de mieux comprendre comment les vecteurs permettent de représenter les informations, on peut imaginer une pièce rectangulaire parfaitement alignée avec les points cardinaux. Il est possible de localiser tout point à l’intérieur de la pièce à partir de l’angle sud-ouest de la pièce - l’origine - au moyen de trois valeurs : combien de centimètres au nord, combien de centimètres à l’est et combien de centimètres au-dessus du sol. Ainsi, la position de l’ampoule de la lampe sur la table de nuit peut être représentée par un vecteur tridimensionnel, par exemple [70, 150, 87]. Les valeurs négatives correspondraient à l’extérieur de la pièce, au sud ou à l’ouest de celle-ci, ou encore au-dessous. Or, tout comme l’ampoule, les concepts - les mots, les phrases - peuvent être placés dans l’espace à l’intérieur de cette pièce : deux concepts similaires seraient idéalement proches l’un de l’autre et auraient donc des coordonnées similaires ; des concepts très différents seraient éloignés l’un de l’autre et auraient donc des coordonnées différentes.

L’idée du rapport entre la similarité de la distribution des mots et la similarité de leur signification est issue de l’hypothèse distributionnelle, selon laquelle les mots qui se trouvent dans des contextes similaires ont tendance à avoir des significa- tions similaires. L’approche vectorielle concrétise cette hypothèse linguistique par le fait d’apprendre les représentations du sens des mots, les plongements lexicaux, directement de leurs distributions dans les textes (Jurafsky et Martin, 2020). Ce qui explique l’appellation représentation distributionnelle.

(32)

FIGURE2.3 – Projection en trois dimensions des plongements lexicaux³

Trois dimensions ne suffisent pas pour assurer la richesse du langage : afin de re- présenter correctement les mots et les phrases, ainsi que les relations entre eux, de nombreuses autres dimensions sont nécessaires. Il est impossible pour les humains d’imaginer un espace comportant plus de trois dimensions, mais les mathématiques permettent d’aller bien au-delà, de sorte que le calcul et le stockage de ces représen- tations est une simple question de puissance informatique (Forcada, 2017).

Le réseau de neurones lit chaque phrase source pendant l’entraînement pour former des représentations distributionnelles, de sorte que l’output obtenu à partir de celles-ci soit le plus proche possible des traductions de référence contenues dans les données d’entraînement. La phase d’entraînement du réseau de neurones vise donc à déterminer le poids ou la force de chacune des connexions entre les neurones afin d’obtenir les résultats souhaités (Koehn, 2020).

Lorsqu’un réseau de neurones est entraîné, tous ses poids et valeurs d’activation prennent initialement des valeurs aléatoires. Tout au long du processus d’entraîne- ment, les poids et les valeurs d’activation sont constamment ajustés jusqu’à ce que

3. Générée parEmbedding Projector: projector.tensorflow.org

(33)

les données d’entraînement produisent systématiquement des outputs similaires.

L’entraînement vise donc à trouver la valeur optimale pour chacun des poids du réseau. Les poids sont modifiés de telle sorte que la valeur d’une fonction d’erreur spécifique qui indique la distance entre les résultats de la traduction automatique et les traductions de référence soit aussi faible que possible (Forcada, 2017).

Le principe de base de la traduction automatique neuronale est donc l’utilisation d’un réseau encodeur qui prend une séquence d’entrée et en crée une représentation distributionnelle - un plongement lexical. Cette représentation est ensuite transmise à un décodeur qui génère une séquence de sortie (Jurafsky et Martin, 2020). Un sys- tème de TAN fonctionne dans une certaine mesure comme un système de complé- tion de texte, qui est alimenté par une représentation de la phrase source, ou, plus précisément, par des représentations de chacun des mots de la phrase source dans leur contexte, fournies par l’encodeur du système. Pour sa part, le décodeur fournit, à chaque position de la phrase cible en cours de constitution et pour chaque mot possible dans le vocabulaire de la langue cible, la probabilité que ce mot soit la suite de ce qui a déjà été généré. La meilleure traduction est donc produite par le choix du mot le plus probable à chaque position (Forcada, 2017).

FIGURE2.4 – Architecture encodeur-décodeur simplifiée⁴

4. Source : laptrinhx.com/introduction-to-neural-machine-translation-nmt-3705749572

(34)

FIGURE 2.5 – Illustration du fonctionnement d’un réseau encodeur- décodeur⁵

À ce stade, la difficulté de générer la traduction optimale constitue un problème important. Dans l’idéal, nous aimerions trouver la phrase cible qui maximise la pré- diction du modèle en tant que traduction. Cependant, en raison de la taille insur- montable de l’espace de recherche, trouver la traduction avec la probabilité la plus élevée est peu réaliste. Comme indiqué précédemment, le même problème de recherche se pose dans la traduction automatique statistique. Dans la mesure où la méthode beam-search a été utilisée avec des résultats probants dans la TAS, elle a été adoptée pour la traduction automatique neuronale comme algorithme de recherche pour trouver la meilleure traduction (Tan et al., 2020).

L’architecture standard utilisée pour la TAN, le réseau encodeur-décodeur, peut être mis en œuvre avec RNNs ou avec Transformers. Un réseau neuronal récurrent ou RNN (recurrent neural network) est un réseau qui contient un cycle au sein de ses connexions. Plus précisément, un réseau où la valeur d’une unité neuronale dépend directement ou indirectement des outputs précédents au sein du réseau en guise de donnée d’entrée. Cependant, il est constaté que les performances de cette architecture se dégradent en fonction de la longueur de la phrase d’entrée (Cho et al., 2014).

L’architecture encodeur-décodeur avec RNNs a été presque immédiatement renfor- cée par un mécanisme appelé attention : le décodeur prête attention ou réagit non seulement à la dernière représentation fournie par l’encodeur mais aussi à toute la séquence de représentations créées lors de l’encodage (Bahdanau et al., 2015).

Les Transformers comportent des empilements de couches de réseaux constitués, pour leur part, de couches linéaires simples et de couches d’auto-attention (Juraf- sky et Martin, 2020). Le mécanisme d’attention prend en compte les associations entre chaque mot d’entrée et chaque mot de sortie, et les utilise pour produire une

5. Source : dataversity.net/neural-machine-translation-with-sequence-to-sequence-rnn/#

(35)

représentation vectorielle de l’ensemble de la séquence d’entrée. Cela dit, l’idée der- rière l’auto-attention consiste à appliquer cette approche à l’encodeur aussi. Au lieu de prendre en compte les associations entre les mots d’entrée et les mots de sortie, l’auto-attention considère les associations entre chaque mot d’entrée et tous les autres mots d’entrée. On peut dire que ce mécanisme raffine la représentation de chaque mot d’entrée en l’enrichissant avec les mots du contexte, ce qui facilite sa désambiguïsation (Koehn, 2020). L’architecture Transformer est actuellement consi- dérée comme l’état de l’art.

Outre les mécanismes d’attention et d’auto-attention, il reste quelques raffinements qui méritent d’être mentionnés.

Le consensus en traduction automatique veut que pour obtenir les meilleurs résul- tats, il faut que le système soit adapté à la tâche à accomplir. Il se peut que certaines des données d’entraînement soient plus pertinentes pour la tâche en question, et il faut donc une méthode pour privilégier ces données. Dans le contexte de la traduction automatique, cette adaptation est appelée adaptation de domaine, et vise à créer un système de TA adapté à un domaine spécifique. Un domaine peut se définir de manière générale comme un ensemble de textes qui possèdent des caractéristiques similaires. Les catégories couramment utilisées pour classer les corpus sont le sujet, la modalité, le registre, l’intention et le style. En termes pratiques, cependant, un corpus donné est généralement issu d’une source spécifique (Koehn, 2020).

Comme mentionné précédemment, la TAN nécessite un corpus parallèle d’entraîne- ment très volumineux, généralement aussi volumineux que ceux qui sont utilisés en TAS. Cependant, la TAN n’a pas besoin de données d’entraînement monolingues, du fait qu’il n’y a plus un modèle de langue séparé, mais plutôt un modèle séquen- tiel intégré. Cependant, des données monolingues supplémentaires pourraient être utilisées pour créer des données parallèles si l’on crée artificiellement la moitié man- quante des données, à savoir au moyen de la traduction automatique. Le fait de coupler les données d’entraînement monolingues avec sa traduction automatique respective - également appeléeback-translationpermet de créer un corpus parallèle synthétique qui peut être utilisé comme des données parallèles d’entraînement sup- plémentaires. Il a été démontré que ce procédé permet d’obtenir des améliorations considérables de la qualité de la traduction automatique (Sennrich et al., 2016a). Par ailleurs, la technique de back-translation peut également répondre au problème de

(36)

l’adaptation à un domaine spécifique dans le cas où l’on ne disposerait que de don- nées monolingues dans la langue cible. La technique deback-translationpermet donc de créer un corpus synthétique dans le domaine en question, ce qui contribuera à obtenir des traductions adaptées au domaine visé (Koehn, 2020).

Enfin, la principale approche pour résoudre le problème des mots hors vocabulaire consiste à les décomposer en sous-mots. La méthode la plus répandue pour créer un répertoire de sous-mots et de mots est le byte pair encoding, une technique de segmentation qui regroupe les séquences de caractères fréquentes dans un corpus donné. Les formes primaires des mots sont ainsi divisées en racine et affixe, ce qui permet au système de TAN de ne retenir que les morphèmes dans son vocabulaire.

Cela permet de prévoir une marge de manœuvre pour les mots rares qui ne font pas partie du vocabulaire (Sennrich et al., 2016b). Par ailleurs, il est une pratique courante de recourir aubyte pair encodingpour la concaténation de la partie source et de la partie cible du corpus. Cela facilite la translittération des noms (Koehn, 2020).

(37)

3 Évaluation des systèmes de traduction automatique

Après avoir survolé les différentes approches de la TA à travers l’histoire, la question de savoir comment nous pouvons vérifier si nous progressons se pose. Pour ce faire, nous devons être capables de mesurer la qualité.

L’évaluation des systèmes de traduction automatique est un domaine de recherche essentiel, tant pour déterminer l’efficacité des systèmes de TA existants que pour optimiser les performances des systèmes de TA. Afin de progresser dans le domaine de la traduction automatique, il est nécessaire de mesurer la qualité de tout nouveau système par une évaluation systématique, de sorte que l’on puisse démontrer que le nouveau système est plus performant que les systèmes préexistants. La difficulté réside dans la définition d’un meilleur système. Lors de l’évaluation de la qualité d’une traduction, il n’y a pas une seule réponse correcte ; il peut y avoir un nombre quelconque de traductions correctes possibles.

Traditionnellement, il existe deux paradigmes d’évaluation de la traduction automatique : l’évaluation en boîte de verre et l’évaluation en boîte noire. L’évaluation en boîte de verre mesure la qualité d’un système en fonction des propriétés internes du système. L’évaluation en boîte noire examine uniquement l’output du système, sans le relier aux mécanismes internes du système de traduction (Dorr, 2009). Dans cette chapitre, l’accent sera mis sur l’évaluation en boîte noire.

Dans le cadre de l’évaluation en boîte noire, des métriques intrinsèques et extrin- sèques sont utilisées pour évaluer la qualité de l’output de la TA. Les métriques intrinsèques humaines déterminent la qualité par des jugements subjectifs humains de certaines caractéristiques de l’output. Les métriques intrinsèques automatiques calculent la similarité de l’output avec un ensemble fixe de traductions humaines de référence. Les métriques extrinsèques, également appelées métriques fondées sur