2.4 Ressources et leur exploitation
2.4.2 Méthodes pour contourner le manque de corpus parallèles 96
Pour les langues peu dotées, qui constituent pourtant la majorité des langues
existantes, diverses techniques doivent être mises en œuvre si l’on veut créer un
système de TA neuronal, afin de contourner ce problème de manque de données
parallèles. Nous allons ici en décrire quelques-unes.
2.4.2.1 Apprentissage à partir de corpus comparables
Les corpus comparables sont, comme les corpus parallèles, des ensembles de
textes multilingues traitant d’un sujet commun, mais à l’inverse de ces derniers,
les corpus comparables ne sont pas forcément alignés au niveau de la phrase. Par
exemple, beaucoup d’articles Wikipédia sont écrits en plusieurs langues, et ils sont
des sources de données riches et peuvent être facilement exploités dans les travaux
de recherche sur les langues peu dotées.
Ramesh et Sankaranarayanan (2018) constatent ainsi que pour la paire de
langues anglais-ourdou par exemple, à la date d’écriture de leur article, l’ensemble
des corpus parallèles disponibles est composé de seulement 35 916 phrases, alors
que 124 078 articles Wikipédia bilingues existent.
Comme dans d’autres travaux (par exempleIrvine et Callison-Burch (2013)),
ils proposent ainsi une méthode pour extraire des phrases parallèles de ces articles
bilingues, afin d’ajouter ces phrases au petit ensemble de données d’apprentissage
d’origine pour un système de TA neuronal.
Leur méthode consiste dans un premier temps à entraîner un réseau de neurones
à reconnaître si deux phrases sont des traductions l’une de l’autre, à partir des
données parallèles disponibles, et dans un deuxième temps, à appliquer ce réseau
de neurones sur toutes les phrases d’articles Wikipédia bilingues, afin d’extraire
toutes les phrases que le réseau considère comme être des traductions. Ces phrases
sont ensuite ajoutées aux données d’entraînement d’un système de TA classique.
2.4.2.2 Apprentissage par transfert
L’apprentissage par transfert est une méthode qui consiste à entraîner un
sys-tème sur une tâche, puis transférer ses connaissances pour faciliter l’apprentissage
sur une autre tâche.
Zoph et al. (2016) proposent ainsi une méthode d’apprentissage par transfert
qui consiste à d’abord entraîner un système de TA neuronal sur une paire de langues
bien dotées : le français-anglais, puis à poursuivre l’entraînement sur une paire de
langues dont l’une des deux est peu dotée : l’ouzbek-anglais.
D’une manière plus générale, l’apprentissage par transfert est une méthode
qui gagne de plus en plus en popularité, en attestent les récentes avancées sur les
modèles de langue pré-entraînés (voirsection 1.3.3.2). En effet, on peut voir ces
modèles de langue comme des réseaux de neurones génériques, entraînés sur des
tâches générales (prédire un mot), dont les connaissances peuvent être transférées
à des tâches plus spécifiques.
Dans nos contributions sur la TA (voirchapitre 7etchapitre 8) nous tirons ainsi
parti indirectement d’une méthode d’apprentissage par transfert en nous appuyant
sur le modèle de langue pré-entraîné BERT (Devlin et al.,2019).
2.4.2.3 Apprentissagezero-shot
L’apprentissagezero-shotest une méthode proche de l’apprentissage par
trans-fert, dont l’idée générale consiste à faire en sorte qu’un modèle puisse être capable
d’apprendre à prédire des données qu’il n’a jamais vues pendant l’entraînement.
En traduction automatique, on parle ainsi de traduction zero-shot lorque le
sys-tème est capable de traduire du texte d’une langue à une autre, sans avoir observé
de données parallèles de ces deux langues.
Dans les travaux deJohnson et al.(2017) portant sur le système de TA neuronal
de Google, les auteurs présentent un modèle multilingue unique permettant de
traduire depuis une phrase dans plusieurs langues sources, vers une phrase dans
plusieurs langues cibles. Concrètement, leur système a la même architecture que
leur précédent modèle bilingue (Wu et al.,2016), sauf que pour l’apprentissage, un
symbole spécial est donné en entrée du décodeur afin de lui indiquer dans quelle
langue traduire un texte. L’encodeur, lui, est inchangé, et il est capable de lire du
texte source dans n’importe quelle langue.
Les auteurs font ainsi une expérience d’apprentissagezero-shotqui consiste à
un deuxième système sur du texte anglais-espagnol, anglais-portugais,
portugais-anglais et espagnol-portugais-anglais. Ils évaluent ensuite leurs systèmes sur une tâche de
traduction portugais-espagnol, paire de langues jamais directement vue pendant
l’entraînement. Ils constatent des résultats qui sont inférieurs à un système entraîné
sur des données portugais-espagnol directement, mais qui sont tout de même
in-téressants : jusqu’à 24,75 points de BLEU contre 31,50 pour le système entraîné
directement sur les données parallèles.
2.4.2.4 Un retour aux systèmes statistiques classiques ?
(a) Figure deKoehn et Knowles(2017) (b) Figure deSennrich et Zhang(2019)
Figure 2.9 – Comparaison des performances entre systèmes de TA statistiques
classiques (phrase-based SMT) et systèmes de TA neuronaux (neural MT), en
fonction de la quantité de données d’apprentissage utilisée (nombre de mots).
Pour finir cette section sur les méthodes permettant de contourner le manque de
données parallèles, nous souhaitions mentionner que l’on considère souvent
qu’en-dessous d’un certain seuil de données disponibles, les systèmes de TA neuronaux
sont moins performants que les systèmes de TA statistiques classiques. Cette idée
est en effet démontrée dans l’article deKoehn et Knowles(2017) (voirfigure 2.9a),
puis elle est reprise dans d’autres travaux, comme par exemple ceux de Lample
et al.(2018).
Toutefois, l’article plus récent de Sennrich et Zhang(2019) offre une critique
de ces travaux, et les auteurs montrent que le choix des hyperparamètres
utili-sés par Koehn et Knowles (2017) pour le système neuronal n’est pas pertinent
sont systématiquement supérieurs aux systèmes statistiques, même avec très peu
de données. Plus précisément, comme on peut le voir dans la figure 2.9b, même
avec seulement 5 000 phrases parallèles (100 000 mots dans la langue source) le
réseau neuronal est déjà capable de produire une traduction d’aussi bonne, voire
de meilleure qualité que le système statistique.
Cependant, si l’on met de côté les performances de ces systèmes selon une
me-sure automatique, il est important de garder à l’esprit que les systèmes de TA
sta-tistiques classiques offrent toujours dans certains cas une certaine robustesse plus
importante que les systèmes de TA neuronaux. En effet, certaines études comme
celle deBelinkov et Bisk (2018) ont montré que ces derniers peuvent être
extrê-mement sensibles au bruit, et produire du texte qui ne reflète absolument pas une
phrase donnée en entrée si elle s’éloigne trop des données d’entraînement. Les
sys-tèmes de TA statistiques, eux, comme ils s’appuient sur des tables de traductions
interprétables plus facilement, ont un comportement beaucoup plus prédictible.
2.4.3 Corpus monolingues
Les corpus monolingues sont un autre type de ressource souvent utilisé en
TA. En effet, dès les premiers travaux sur la TA statistique et les modèles IBM
(Brown et al.,1990), l’approche proposée consiste à calculer d’un côté la
probabi-litép(x|y), qui se calcule grâce à un modèle de traduction entraîné sur des corpus
parallèles, et de l’autre côté la probabilitép(y)qui se calcule grâce à un modèle de
langue pouvant être entraîné séparément, soit sur la partie monolingue des corpus
parallèles, soit sur des corpus monolingues externes.
En TA neuronale, un unique réseau neuronal modélise conjointement les deux
modèles (de traduction et de langue). Les données monolingues ne sont donc pas
nécessaires, mais plusieurs travaux tels que ceux deGulcehre et al.(2015),
Senn-rich et al.(2016a) etEdunov et al.(2018a) montrent différentes façons de les
ex-ploiter afin d’améliorer les performances d’un système de TA neuronal.
2.4.3.1 Intégration d’un modèle de langue externe
Gulcehre et al.(2015) proposent ainsi d’utiliser des corpus monolingues pour
entraîner un modèle de langue neuronal qui prédit un mot en fonction des mots
vus précédemment. Ce modèle est ensuite intégré au décodeur d’un système de
TA avec attention comme celui deBahdanau et al.(2015). Deux possibilités sont
proposées pour l’intégration :
— Soit « en surface », en moyennant les prédictions du décodeur du modèle
de TA et celles du modèle de langue, pour chaque nouveau mot à prédire.
Pendant l’entraînement, seul le modèle de TA est entraîné et le modèle de
langue est figé.
— Soit « en profondeur », en concaténant les états cachés des deux réseaux. Le
modèle résultant est ensuite entraîné entièrement avec le reste du modèle de
TA.
Les auteurs expérimentent leur méthode sur quatre paires de langues avec des
tailles de données d’apprentissage variables : le chinois-anglais (environ 436 000
phrases parallèles), le turc-anglais (environ 160 000), le tchèque-anglais (12,1
mil-lions) et l’allemand-anglais (4,1 milmil-lions). Le modèle de langue anglais, qui est
utilisé dans tous les cas, est entraîné sur le corpus English Gigaword (Graff et al.,
2003) contenant plus de quatre millions de documents.
Dans quasiment tous les cas, l’ajout de ce modèle de langue entraîné sur des
corpus monolingues améliore la qualité de traduction des systèmes de TA. De plus,
c’est l’intégration qu’ils appellent « en profondeur » qui fonctionne le mieux.
2.4.3.2 Rétrotraduction
Une autre méthode plus récente d’utilisation des corpus monolingues en TA
neuronale consiste à simplement considérer ces données monolingues dans la
langue cible comme des données d’entraînement auxquelles il manquerait la
source. Cette idée s’inscrit essentiellement dans la continuité de celle deGulcehre
et al.(2015) qu’on a vue précédemment, sauf qu’au lieu de chercher à améliorer
seulement la partie décodeur du modèle neuronal, on cherche à améliorer
l’en-semble du réseau.
Sennrich et al. (2016a) proposent ainsi une méthode appelée rétrotraduction
(back-translation), dans laquelle on va utiliser un système de TA pour traduire ces
données monolingues vers la langue source, et ainsi utiliser ces nouvelles données
parallèles « synthétiques » exactement comme les données parallèles originales.
Les auteurs évaluent sur les paires de langues allemand<->anglais et turc->anglais,
et constatent une amélioration par rapport à la méthode deGulcehre et al.(2015).
La rétrotraduction est aujourd’hui une méthode utilisée dans toutes les
cam-pagnes d’évaluation pour obtenir le meilleur système possible. On peut s’en rendre
compte notamment en consultant ce site
10qui recense les scores des meilleurs
sys-tèmes de TA, pour les tâches anglais-français et anglais-allemand de la campagne
d’évaluation WMT 2014, deux tâches utilisées pour évaluer la plupart des modèles
les plus importants qu’on a vus (Wu et al.,2016;Vaswani et al.,2017;Chan et al.,
2019;Chen et al.,2018;Gehring et al.,2017), ce sont les systèmes deEdunov et al.
(2018a) qui arrivent en tête, en ajoutant plus de 30 millions de phrases synthétiques
à leur corpus d’entraînement composé de 35 millions de phrases.
Il est à noter cependant avec ce dernier exemple que, pour entraîner un système
sur autant de données, les auteurs ont utilisé 128 GPU NVidia V100 pendant plus
de 27 heures. À titre de comparaison, un GPU Nvidia V100 est environ 1,7 à 2
fois plus performant qu’un GPU NVidia 1080 Ti
11, et notre équipe de recherche
se partage, à l’heure d’écriture de cette thèse, une quinzaine de ces derniers. Si
nous voulions reproduire ces expériences, il nous faudrait, dans le meilleur des
cas, monopoliser tous les 15 GPU pendant 392 jours.
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 97-102)