Processus d’apprentissage

7.2 Méthode

anglais → allemand

allemand → anglais

7.2 Méthode

7.3.5 Processus d’apprentissage

Notre architecture neuronale pour la TA, présentée précédemment, étant très

similaire à notre architecture neuronale pour la DL, présentée aux chapitres

précé-dents, le processus d’apprentissage est lui aussi très semblable. Nous avons ainsi

utilisé les paramètres suivants pour l’apprentissage :

1. La fonction de coût à optimiser est l’entropie croisée entre les mots

pro-duits par le décodeur et la référence. Comme pourVaswani et al.(2017) ou

Elbayad et al. (2018), nous utilisons l’entropie croisée « lissée sur les

éti-quettes » (label smoothed) (Szegedy et al.,2016) avec= 0,1.

2. Nous utilisons Adam (Kingma et Ba,2015) comme méthode d’optimisation,

avec les mêmes paramètres par défaut tels que décrits dans leur article.

Nous avons entraîné nos modèles pendant 80 passes (epoch) sur nos données

d’entraînement, avec une taille de lot (batch) de 100, et des phrases tronquées à

80 mots comme pour nos modèles de DL (voirsection 5.4.3). À chaque fin d’une

modèle sur le corpus de développement, en termes de score BLEU. Au final, nous

avons conservé le modèle qui a obtenu le meilleur score BLEU sur ces données.

7.4 Résultats

Nous avons évalué nos systèmes sur les données d’évaluation de la tâche de

traduction anglais-allemand d’IWSLT 2014. Pour le décodage, nous réalisons une

recherche en faisceau (beam search) avec un faisceau de taille 5, et une pénalité

sur la longueur des phrases similaire à celle utilisée dans le système deWu et al.

(2016).

Nos résultats ainsi que ceux des systèmes de référence sont présents dans le

ta-bleau 7.1. Nous donnons les scores en termes de BLEU, TER et Meteor insensibles

à la casse et avec les ponctuations segmentées.

Système BLEU (%)↑ TER (%)↓ Meteor (%)↑

?Bahdanau et al.(2015) 25,0 -

-?Gehring et al.(2017) 26,7 -

-?Vaswani et al.(2017) 28,1 -

-Elbayad et al.(2018) 27,2 -

-Mot→mot (référence) 26,8 53,43 47,10

Mot + sens (somme)→mot 27,1 53,04 47,40

Mot + sens (concat.)→mot 27,4 52,40 47,58

BERT→mot 29,5 49,64 49,04

?Bahdanau et al.(2015) 29,9 -

-?Gehring et al.(2017) 32,3 -

-?Vaswani et al.(2017) 34,4 -

-Elbayad et al.(2018) 33,9 -

-Mot→mot (référence) 30,3 47,25 34,27

Mot→mot + sens 30,1 47,58 34,18

Table 7.1 – Résultats de nos méthodes d’intégration de la DL dans un système

de TA sur la tâche de traduction allemand - anglais de IWSLT 2014. Les systèmes

préfixés par une étoile (?) sont des réimplémentations issues de l’article d’Elbayad

et al.(2018) des articles cités. Les meilleurs résultats par tâche sont en gras pour

les systèmes de référence ainsi que pour nos systèmes. Les flèches (↑↓) indiquent

le sens d’amélioration des scores. Les tirets (-) remplacent les scores non fournis

par les auteurs.

Comme nous pouvons le voir, nos méthodes d’intégration des sens en entrée

du système de TA améliorent systématiquement les résultats sur les trois mesures

utilisées, mais la méthode qui consiste à produire des étiquettes de sens en plus des

mots dans la traduction semble, elle, dégrader les résultats.

Parmi les méthodes qui améliorent les résultats, celle qui se démarque

particu-lièrement est celle qui consiste à utiliser le modèle de langue pré-entraîné BERT

en entrée du système, car elle améliore le score BLEU de 2,7 points. L’utilisation

des étiquettes de sens WordNet en sommant les vecteurs de mot et les vecteurs de

sens, ainsi qu’en les concaténant, améliore respectivement les scores BLEU de 0,3

et 0,6 points.

Notre méthode qui consiste à produire les sens en sortie du système de TA

dégrade légèrement les résultats (de 0,2 point de score BLEU), ce qui va dans

le sens des travaux deHadj Salah (2018). Cela semble montrer que le décodeur,

lors du choix des mots à produire, n’est pas guidé par le sens de ces mots. Au

contraire, le décodeur a plus de difficultés à produire les mots et les sens pour un

même nombre de paramètres. On peut en déduire que ces deux informations sont

suffisament disjointes pour qu’un même décodeur ait plus de difficultés à produire

les deux informations en même temps, plutôt que le mot seul.

De plus, on remarque que, dans cette configuration, au contraire de celles qui

consistent à donner les sens en entrée, le réseau ne peut pas ici apprendre à ignorer

certains sens. Lorsqu’un mot est annoté dans le corpus d’entraînement, le réseau

est forcé à produire une étiquette de sens. Comme ces étiquettes sont issues d’un

système de DL qui a une précision d’environ 80%, cette configuration est donc

potentiellement plus sensible au bruit.

Concernant les autres systèmes neuronaux de l’état de l’art, celui de

Bahda-nau et al. (2015) est un système de TA neuronal à base de cellules récurrentes

(LSTM) avec un mécanisme d’attention classique, celui deGehring et al.(2017)

et d’Elbayad et al.(2018) remplacent la récurrence par des convolutions, et enfin

le système de Vaswani et al.(2017) est fondé, comme le nôtre, sur l’architecture

Transformer.

Sur les métriques utilisées, seuls les scores BLEU sont donnés dans ces autres

éti-quettes » (label smoothed_{) (Szegedy et al.,}_{2016) avec}= 0,1_.

Nous avons entraîné nos modèles pendant 80 passes (epoch_{) sur nos données}

d’entraînement, avec une taille de lot (batch_{) de 100, et des phrases tronquées à}

recherche en faisceau (beam search_{) avec un faisceau de taille 5, et une pénalité}

Système BLEU (%)↑ _{TER (%)}↓ _{Meteor (%)}↑

?_{Bahdanau et al.}₍₂₀₁₅₎ _25,0 -

-?_{Gehring et al.}₍₂₀₁₇₎ _26,7 -

-?_{Vaswani et al.}₍₂₀₁₇₎ 28,1 -

-Mot→_{mot (référence)} _26,8 _53,43 _47,10

Mot + sens (somme)→_mot _27,1 _53,04 _47,40

Mot + sens (concat.)→_mot _27,4 _52,40 _47,58

BERT→_mot 29,5 49,64 49,04

?_{Bahdanau et al.}₍₂₀₁₅₎ _29,9 -

-?_{Gehring et al.}₍₂₀₁₇₎ _32,3 -

-?_{Vaswani et al.}₍₂₀₁₇₎ 34,4 -

-Elbayad et al.(2018) 33,9 ^-

-Mot→_{mot (référence)} 30,3 47,25 34,27

Mot→_{mot + sens} _30,1 _47,58 _34,18

préfixés par une étoile (?_{) sont des réimplémentations issues de l’article d’Elbayad}

les systèmes de référence ainsi que pour nos systèmes. Les flèches (↑↓_{) indiquent}

des batchs_{, ni leur taille. Nous utilisons de plus certains hyper-paramètres}