Conclusion

Chapitre 2

Traduction automatique neuronale

1. https://translate.google.com

2. https://www.deepl.com/translator

3. https://www.tradonline.fr/localisation-de-contenus-volumine

Comme nous l’avons vu, la désambiguïsation lexicale est une tâche centrale

du TAL qui questionne en permanence l’existence et la nature d’un aspect

fonda-mental des langues : le sens. L’histoire de cette tâche est riche et complexe. En

effet, notamment à cause du fait que les ressources disponibles sont très rares, les

approches employées, même les plus récentes, mêlent toujours plus ou moins des

connaissances structurées discrètes à des données manuellement annotées.

Bien qu’elle semble essentielle afin de créer des systèmes ayant une meilleure

compréhension de la langue et faisant moins d’erreurs de sémantique, les systèmes

de DL sont en pratique rarement utilisés dans d’autres tâches. Cette faible

utilisa-tion peut être due à une faiblesse des performances des systèmes actuels ou à un

manque d’uniformisation des ressources. Cela peut être pourtant en passe de

chan-ger, grâce aux progrès notables accomplis ces dernières années.

Dans nos contributions spécifiques à la DL, nous montrons ainsi comment nous

avons amélioré les performances d’un système de DL à base de connaissances (voir

chapitre 3), uniformisé les données d’entraînement et d’évaluation (voirchapitre 4)

puis proposé une nouvelle architecture neuronale pour la DL supervisée (voir

cha-pitre 5) et enfin présenté une méthode pour l’amélioration de la couverture et des

Chapitre 2

Traduction automatique neuronale

2.1 Introduction

La traduction automatique (TA), en anglaisMachine Translation(MT), est une

tâche importante du traitement automatique des langues qui vise à traduire un texte

d’une langue source vers une langue cible. Elle représente un défi majeur et

particu-lièrement complexe, car le passage d’une langue à une autre nécessite de résoudre

de nombreuses autres problématiques du TAL, comme la compréhension du

lan-gage naturel, l’adaptation au style et au domaine, la résolution de coréférences, la

désambiguïsation lexicale, etc.

La TA est une tâche avec des enjeux importants. En effet, elle est directement

utilisée au quotidien au travers de systèmes comme Google Translate

ou DeepL

,

permettant de traduire des courtes phrases ou des documents entiers. Elle est aussi

utilisée par des agences de traduction afin de faciliter le travail des traducteurs qui

peuvent post-éditer la sortie d’un système de TA

(Lemaire,2017).

De plus, la TA est aussi un moteur pour le TAL. Elle a en effet contribué

à de grandes avancées qui ont aussi impacté d’autres tâches. On peut citer par

exemple les modèles neuronaux « séquence à séquence » (Sutskever et al., 2014),

les modèles d’attention (Bahdanau et al.,2015) ou encore l’architecture

Transfor-mer (Vaswani et al.,2017).

De multiples approches pour la TA existent. On peut les regrouper en trois

grandes catégories qui sont (1) les approches à base de règles, qui s’appuient sur

des dictionnaires et des données syntaxiques, morphologiques et sémantiques dans

les langues source et cible, (2) les approches statistiques, qui s’appuient sur des

modèles statistiques entraînés sur des corpus parallèles et monolingues, et enfin (3)

les approches neuronales, qui remplacent les modèles statistiques par des réseaux

de neurones.

À l’instar de la désambiguïsation lexicale, les approches neuronales sont

au-jourd’hui prédominantes dans les travaux de recherche sur la TA et dans les

cam-pagnes d’évaluation. Dans ce chapitre, nous allons ainsi nous focaliser sur les

sys-tèmes de TA neuronaux et les avancées qu’ils ont permises dans les architectures

neuronales. Nous parlerons des ressources nécessaires à leur mise en œuvre, et de

leur évaluation.

2.1.1 Historique et enjeux

On peut retracer les origines des premières études sur la TA au début des années

1950, avec notamment l’organisation de la première conférence dédiée à cette tâche

en 1952, et l’expérience de Georgetown-IBM en 1954, une démonstration publique

d’un système de traduction russe-anglais pouvant gérer un vocabulaire de 250 mots

et six règles grammaticales (Hutchins,1986,2004).

De ces débuts jusqu’aux années 1980, les premiers systèmes de TA reposaient

sur des dictionnaires et un ensemble de règles pour une paire de langues en

particu-lier. Ce n’est qu’au début des années 1990 qu’émergent les approches statistiques,

s’appuyant elles sur des corpus parallèles, avec notamment les travaux deBrown

et al.(1990), un groupe de chercheurs chez IBM.

Par la suite, les travaux de Brown et al. (1991) décrivent une méthode pour

l’alignement automatique de phrases dans un corpus, et l’article de Brown et al.

(1993) propose un ensemble de cinq modèles statistiques de traduction qu’on

ap-pellera « modèles IBM », et dont on expliquera brièvement le fonctionnement dans

lasection 2.1.2.

Enfin, les modèles neuronaux, que nous allons détailler dans lasection 2.2ont

remplacé progressivement les modèles statistiques depuis notamment les travaux

deSutskever et al.(2014). Ces modèles se distinguent par l’utilisation d’un unique

réseau « bout en bout » remplaçant les multiples modèles statistiques nécessaires

aux systèmes statistiques classiques.

Les enjeux autour de la TA sont nombreux : comme l’écrit Hutchins (1986),

et l’aboutissement du premier système de TA russe-anglais dans les années 1950.

Dans les années 1970, ce sont toutes les problématiques de normalisation des

docu-ments administratifs, commerciaux et techniques de la Communauté économique

européenne qui ont grandement encouragé la recherche. Durant cette période, la

La traduction automatique (TA), en anglaisMachine Translation_{(MT), est une}

x _{depuis une langue source, on cherche la phrase} yˆ_{dans la langue cible, qui va}

maximiser la probabilité conditionnelle p(y|x)_{, c’est-à-dire la probabilité que} y

soit une traduction dex_{. On a donc la formule suivante :}

p(y|x) = ^p⁽^x|y)·p(y)

Avecp(x)_etp(y)_{respectivement la probabilité des phrases}x_ety_{indépendamment}

Comme nous recherchons une phrasey _{qui maximise cette formule pour une}

y_{étant ainsi la phrase qui maximise le produit des probabilités}p(y)_etp(x|y)_.

D’un coté, la résolution dep(x|y)_{se fait à l’aide d’un}modèle de traduction_{, dont}

le rôle est d’attribuer une probabilité que la phrasex_{soit une traduction possible}

de la phrasey_{. De l’autre coté,}p(y)_{se résoud à l’aide d’un}modèle de langue_{, qui}

donne une probabilité quey_{soit une phrase correcte à part entière.}

de cinq modèles de traduction permettant d’estimerp(x|y)_{, en calculant les}

n_{composants vont chacun assigner une probabilité}p_{à une potentielle traduction.}

Chaque composant a un poidsλ_{et ces probabilités sont combinées selon la formule}

dansy_{afin de décourager les phrases trop longues ;}