• Aucun résultat trouvé

Méthodes pour contourner le manque de corpus parallèles 96

2.4 Ressources et leur exploitation

2.4.2 Méthodes pour contourner le manque de corpus parallèles 96

Pour les langues peu dotées, qui constituent pourtant la majorité des langues

existantes, diverses techniques doivent être mises en œuvre si l’on veut créer un

système de TA neuronal, afin de contourner ce problème de manque de données

parallèles. Nous allons ici en décrire quelques-unes.

2.4.2.1 Apprentissage à partir de corpus comparables

Les corpus comparables sont, comme les corpus parallèles, des ensembles de

textes multilingues traitant d’un sujet commun, mais à l’inverse de ces derniers,

les corpus comparables ne sont pas forcément alignés au niveau de la phrase. Par

exemple, beaucoup d’articles Wikipédia sont écrits en plusieurs langues, et ils sont

des sources de données riches et peuvent être facilement exploités dans les travaux

de recherche sur les langues peu dotées.

Ramesh et Sankaranarayanan (2018) constatent ainsi que pour la paire de

langues anglais-ourdou par exemple, à la date d’écriture de leur article, l’ensemble

des corpus parallèles disponibles est composé de seulement 35 916 phrases, alors

que 124 078 articles Wikipédia bilingues existent.

Comme dans d’autres travaux (par exempleIrvine et Callison-Burch (2013)),

ils proposent ainsi une méthode pour extraire des phrases parallèles de ces articles

bilingues, afin d’ajouter ces phrases au petit ensemble de données d’apprentissage

d’origine pour un système de TA neuronal.

Leur méthode consiste dans un premier temps à entraîner un réseau de neurones

à reconnaître si deux phrases sont des traductions l’une de l’autre, à partir des

données parallèles disponibles, et dans un deuxième temps, à appliquer ce réseau

de neurones sur toutes les phrases d’articles Wikipédia bilingues, afin d’extraire

toutes les phrases que le réseau considère comme être des traductions. Ces phrases

sont ensuite ajoutées aux données d’entraînement d’un système de TA classique.

2.4.2.2 Apprentissage par transfert

L’apprentissage par transfert est une méthode qui consiste à entraîner un

sys-tème sur une tâche, puis transférer ses connaissances pour faciliter l’apprentissage

sur une autre tâche.

Zoph et al. (2016) proposent ainsi une méthode d’apprentissage par transfert

qui consiste à d’abord entraîner un système de TA neuronal sur une paire de langues

bien dotées : le français-anglais, puis à poursuivre l’entraînement sur une paire de

langues dont l’une des deux est peu dotée : l’ouzbek-anglais.

D’une manière plus générale, l’apprentissage par transfert est une méthode

qui gagne de plus en plus en popularité, en attestent les récentes avancées sur les

modèles de langue pré-entraînés (voirsection 1.3.3.2). En effet, on peut voir ces

modèles de langue comme des réseaux de neurones génériques, entraînés sur des

tâches générales (prédire un mot), dont les connaissances peuvent être transférées

à des tâches plus spécifiques.

Dans nos contributions sur la TA (voirchapitre 7etchapitre 8) nous tirons ainsi

parti indirectement d’une méthode d’apprentissage par transfert en nous appuyant

sur le modèle de langue pré-entraîné BERT (Devlin et al.,2019).

2.4.2.3 Apprentissagezero-shot

L’apprentissagezero-shotest une méthode proche de l’apprentissage par

trans-fert, dont l’idée générale consiste à faire en sorte qu’un modèle puisse être capable

d’apprendre à prédire des données qu’il n’a jamais vues pendant l’entraînement.

En traduction automatique, on parle ainsi de traduction zero-shot lorque le

sys-tème est capable de traduire du texte d’une langue à une autre, sans avoir observé

de données parallèles de ces deux langues.

Dans les travaux deJohnson et al.(2017) portant sur le système de TA neuronal

de Google, les auteurs présentent un modèle multilingue unique permettant de

traduire depuis une phrase dans plusieurs langues sources, vers une phrase dans

plusieurs langues cibles. Concrètement, leur système a la même architecture que

leur précédent modèle bilingue (Wu et al.,2016), sauf que pour l’apprentissage, un

symbole spécial est donné en entrée du décodeur afin de lui indiquer dans quelle

langue traduire un texte. L’encodeur, lui, est inchangé, et il est capable de lire du

texte source dans n’importe quelle langue.

Les auteurs font ainsi une expérience d’apprentissagezero-shotqui consiste à

un deuxième système sur du texte anglais-espagnol, anglais-portugais,

portugais-anglais et espagnol-portugais-anglais. Ils évaluent ensuite leurs systèmes sur une tâche de

traduction portugais-espagnol, paire de langues jamais directement vue pendant

l’entraînement. Ils constatent des résultats qui sont inférieurs à un système entraîné

sur des données portugais-espagnol directement, mais qui sont tout de même

in-téressants : jusqu’à 24,75 points de BLEU contre 31,50 pour le système entraîné

directement sur les données parallèles.

2.4.2.4 Un retour aux systèmes statistiques classiques ?

(a) Figure deKoehn et Knowles(2017) (b) Figure deSennrich et Zhang(2019)

Figure 2.9 – Comparaison des performances entre systèmes de TA statistiques

classiques (phrase-based SMT) et systèmes de TA neuronaux (neural MT), en

fonction de la quantité de données d’apprentissage utilisée (nombre de mots).

Pour finir cette section sur les méthodes permettant de contourner le manque de

données parallèles, nous souhaitions mentionner que l’on considère souvent

qu’en-dessous d’un certain seuil de données disponibles, les systèmes de TA neuronaux

sont moins performants que les systèmes de TA statistiques classiques. Cette idée

est en effet démontrée dans l’article deKoehn et Knowles(2017) (voirfigure 2.9a),

puis elle est reprise dans d’autres travaux, comme par exemple ceux de Lample

et al.(2018).

Toutefois, l’article plus récent de Sennrich et Zhang(2019) offre une critique

de ces travaux, et les auteurs montrent que le choix des hyperparamètres

utili-sés par Koehn et Knowles (2017) pour le système neuronal n’est pas pertinent

sont systématiquement supérieurs aux systèmes statistiques, même avec très peu

de données. Plus précisément, comme on peut le voir dans la figure 2.9b, même

avec seulement 5 000 phrases parallèles (100 000 mots dans la langue source) le

réseau neuronal est déjà capable de produire une traduction d’aussi bonne, voire

de meilleure qualité que le système statistique.

Cependant, si l’on met de côté les performances de ces systèmes selon une

me-sure automatique, il est important de garder à l’esprit que les systèmes de TA

sta-tistiques classiques offrent toujours dans certains cas une certaine robustesse plus

importante que les systèmes de TA neuronaux. En effet, certaines études comme

celle deBelinkov et Bisk (2018) ont montré que ces derniers peuvent être

extrê-mement sensibles au bruit, et produire du texte qui ne reflète absolument pas une

phrase donnée en entrée si elle s’éloigne trop des données d’entraînement. Les

sys-tèmes de TA statistiques, eux, comme ils s’appuient sur des tables de traductions

interprétables plus facilement, ont un comportement beaucoup plus prédictible.

2.4.3 Corpus monolingues

Les corpus monolingues sont un autre type de ressource souvent utilisé en

TA. En effet, dès les premiers travaux sur la TA statistique et les modèles IBM

(Brown et al.,1990), l’approche proposée consiste à calculer d’un côté la

probabi-litép(x|y), qui se calcule grâce à un modèle de traduction entraîné sur des corpus

parallèles, et de l’autre côté la probabilitép(y)qui se calcule grâce à un modèle de

langue pouvant être entraîné séparément, soit sur la partie monolingue des corpus

parallèles, soit sur des corpus monolingues externes.

En TA neuronale, un unique réseau neuronal modélise conjointement les deux

modèles (de traduction et de langue). Les données monolingues ne sont donc pas

nécessaires, mais plusieurs travaux tels que ceux deGulcehre et al.(2015),

Senn-rich et al.(2016a) etEdunov et al.(2018a) montrent différentes façons de les

ex-ploiter afin d’améliorer les performances d’un système de TA neuronal.

2.4.3.1 Intégration d’un modèle de langue externe

Gulcehre et al.(2015) proposent ainsi d’utiliser des corpus monolingues pour

entraîner un modèle de langue neuronal qui prédit un mot en fonction des mots

vus précédemment. Ce modèle est ensuite intégré au décodeur d’un système de

TA avec attention comme celui deBahdanau et al.(2015). Deux possibilités sont

proposées pour l’intégration :

— Soit « en surface », en moyennant les prédictions du décodeur du modèle

de TA et celles du modèle de langue, pour chaque nouveau mot à prédire.

Pendant l’entraînement, seul le modèle de TA est entraîné et le modèle de

langue est figé.

— Soit « en profondeur », en concaténant les états cachés des deux réseaux. Le

modèle résultant est ensuite entraîné entièrement avec le reste du modèle de

TA.

Les auteurs expérimentent leur méthode sur quatre paires de langues avec des

tailles de données d’apprentissage variables : le chinois-anglais (environ 436 000

phrases parallèles), le turc-anglais (environ 160 000), le tchèque-anglais (12,1

mil-lions) et l’allemand-anglais (4,1 milmil-lions). Le modèle de langue anglais, qui est

utilisé dans tous les cas, est entraîné sur le corpus English Gigaword (Graff et al.,

2003) contenant plus de quatre millions de documents.

Dans quasiment tous les cas, l’ajout de ce modèle de langue entraîné sur des

corpus monolingues améliore la qualité de traduction des systèmes de TA. De plus,

c’est l’intégration qu’ils appellent « en profondeur » qui fonctionne le mieux.

2.4.3.2 Rétrotraduction

Une autre méthode plus récente d’utilisation des corpus monolingues en TA

neuronale consiste à simplement considérer ces données monolingues dans la

langue cible comme des données d’entraînement auxquelles il manquerait la

source. Cette idée s’inscrit essentiellement dans la continuité de celle deGulcehre

et al.(2015) qu’on a vue précédemment, sauf qu’au lieu de chercher à améliorer

seulement la partie décodeur du modèle neuronal, on cherche à améliorer

l’en-semble du réseau.

Sennrich et al. (2016a) proposent ainsi une méthode appelée rétrotraduction

(back-translation), dans laquelle on va utiliser un système de TA pour traduire ces

données monolingues vers la langue source, et ainsi utiliser ces nouvelles données

parallèles « synthétiques » exactement comme les données parallèles originales.

Les auteurs évaluent sur les paires de langues allemand<->anglais et turc->anglais,

et constatent une amélioration par rapport à la méthode deGulcehre et al.(2015).

La rétrotraduction est aujourd’hui une méthode utilisée dans toutes les

cam-pagnes d’évaluation pour obtenir le meilleur système possible. On peut s’en rendre

compte notamment en consultant ce site

10

qui recense les scores des meilleurs

sys-tèmes de TA, pour les tâches anglais-français et anglais-allemand de la campagne

d’évaluation WMT 2014, deux tâches utilisées pour évaluer la plupart des modèles

les plus importants qu’on a vus (Wu et al.,2016;Vaswani et al.,2017;Chan et al.,

2019;Chen et al.,2018;Gehring et al.,2017), ce sont les systèmes deEdunov et al.

(2018a) qui arrivent en tête, en ajoutant plus de 30 millions de phrases synthétiques

à leur corpus d’entraînement composé de 35 millions de phrases.

Il est à noter cependant avec ce dernier exemple que, pour entraîner un système

sur autant de données, les auteurs ont utilisé 128 GPU NVidia V100 pendant plus

de 27 heures. À titre de comparaison, un GPU Nvidia V100 est environ 1,7 à 2

fois plus performant qu’un GPU NVidia 1080 Ti

11

, et notre équipe de recherche

se partage, à l’heure d’écriture de cette thèse, une quinzaine de ces derniers. Si

nous voulions reproduire ces expériences, il nous faudrait, dans le meilleur des

cas, monopoliser tous les 15 GPU pendant 392 jours.