7.2 Méthode
7.3.5 Processus d’apprentissage
Notre architecture neuronale pour la TA, présentée précédemment, étant très
similaire à notre architecture neuronale pour la DL, présentée aux chapitres
précé-dents, le processus d’apprentissage est lui aussi très semblable. Nous avons ainsi
utilisé les paramètres suivants pour l’apprentissage :
1. La fonction de coût à optimiser est l’entropie croisée entre les mots
pro-duits par le décodeur et la référence. Comme pourVaswani et al.(2017) ou
Elbayad et al. (2018), nous utilisons l’entropie croisée « lissée sur les
éti-quettes » (label smoothed) (Szegedy et al.,2016) avec= 0,1.
2. Nous utilisons Adam (Kingma et Ba,2015) comme méthode d’optimisation,
avec les mêmes paramètres par défaut tels que décrits dans leur article.
Nous avons entraîné nos modèles pendant 80 passes (epoch) sur nos données
d’entraînement, avec une taille de lot (batch) de 100, et des phrases tronquées à
80 mots comme pour nos modèles de DL (voirsection 5.4.3). À chaque fin d’une
modèle sur le corpus de développement, en termes de score BLEU. Au final, nous
avons conservé le modèle qui a obtenu le meilleur score BLEU sur ces données.
7.4 Résultats
Nous avons évalué nos systèmes sur les données d’évaluation de la tâche de
traduction anglais-allemand d’IWSLT 2014. Pour le décodage, nous réalisons une
recherche en faisceau (beam search) avec un faisceau de taille 5, et une pénalité
sur la longueur des phrases similaire à celle utilisée dans le système deWu et al.
(2016).
Nos résultats ainsi que ceux des systèmes de référence sont présents dans le
ta-bleau 7.1. Nous donnons les scores en termes de BLEU, TER et Meteor insensibles
à la casse et avec les ponctuations segmentées.
Système BLEU (%)↑ TER (%)↓ Meteor (%)↑
anglais → allemand
?Bahdanau et al.(2015) 25,0 -
-?Gehring et al.(2017) 26,7 -
-?Vaswani et al.(2017) 28,1 -
-Elbayad et al.(2018) 27,2 -
-Mot→mot (référence) 26,8 53,43 47,10
Mot + sens (somme)→mot 27,1 53,04 47,40
Mot + sens (concat.)→mot 27,4 52,40 47,58
BERT→mot 29,5 49,64 49,04
allemand → anglais?Bahdanau et al.(2015) 29,9 -
-?Gehring et al.(2017) 32,3 -
-?Vaswani et al.(2017) 34,4 -
-Elbayad et al.(2018) 33,9 -
-Mot→mot (référence) 30,3 47,25 34,27
Mot→mot + sens 30,1 47,58 34,18
Table 7.1 – Résultats de nos méthodes d’intégration de la DL dans un système
de TA sur la tâche de traduction allemand - anglais de IWSLT 2014. Les systèmes
préfixés par une étoile (?) sont des réimplémentations issues de l’article d’Elbayad
et al.(2018) des articles cités. Les meilleurs résultats par tâche sont en gras pour
les systèmes de référence ainsi que pour nos systèmes. Les flèches (↑↓) indiquent
le sens d’amélioration des scores. Les tirets (-) remplacent les scores non fournis
par les auteurs.
Comme nous pouvons le voir, nos méthodes d’intégration des sens en entrée
du système de TA améliorent systématiquement les résultats sur les trois mesures
utilisées, mais la méthode qui consiste à produire des étiquettes de sens en plus des
mots dans la traduction semble, elle, dégrader les résultats.
Parmi les méthodes qui améliorent les résultats, celle qui se démarque
particu-lièrement est celle qui consiste à utiliser le modèle de langue pré-entraîné BERT
en entrée du système, car elle améliore le score BLEU de 2,7 points. L’utilisation
des étiquettes de sens WordNet en sommant les vecteurs de mot et les vecteurs de
sens, ainsi qu’en les concaténant, améliore respectivement les scores BLEU de 0,3
et 0,6 points.
Notre méthode qui consiste à produire les sens en sortie du système de TA
dégrade légèrement les résultats (de 0,2 point de score BLEU), ce qui va dans
le sens des travaux deHadj Salah (2018). Cela semble montrer que le décodeur,
lors du choix des mots à produire, n’est pas guidé par le sens de ces mots. Au
contraire, le décodeur a plus de difficultés à produire les mots et les sens pour un
même nombre de paramètres. On peut en déduire que ces deux informations sont
suffisament disjointes pour qu’un même décodeur ait plus de difficultés à produire
les deux informations en même temps, plutôt que le mot seul.
De plus, on remarque que, dans cette configuration, au contraire de celles qui
consistent à donner les sens en entrée, le réseau ne peut pas ici apprendre à ignorer
certains sens. Lorsqu’un mot est annoté dans le corpus d’entraînement, le réseau
est forcé à produire une étiquette de sens. Comme ces étiquettes sont issues d’un
système de DL qui a une précision d’environ 80%, cette configuration est donc
potentiellement plus sensible au bruit.
Concernant les autres systèmes neuronaux de l’état de l’art, celui de
Bahda-nau et al. (2015) est un système de TA neuronal à base de cellules récurrentes
(LSTM) avec un mécanisme d’attention classique, celui deGehring et al.(2017)
et d’Elbayad et al.(2018) remplacent la récurrence par des convolutions, et enfin
le système de Vaswani et al.(2017) est fondé, comme le nôtre, sur l’architecture
Transformer.
Sur les métriques utilisées, seuls les scores BLEU sont donnés dans ces autres
systèmes, mais on peut voir sur les nôtres qu’une amélioration de score BLEU
entraîne systématiquement une amélioration des scores TER et Meteor, donc nous
utiliserons principalement cette mesure seule pour comparer les performances.
On remarque, dans un premier temps, que notre système référence n’atteint pas
les performances du système Transformer de l’article deElbayad et al.(2018), mais
il obtient un score BLEU proche pour la traduction de l’anglais vers l’allemand
(-1,3 points de BLEU). En revanche pour la traduction de l’allemand vers l’anglais,
notre système de référence obtient un score BLEU 4,1 points inférieur.
Nous pensons que ces différences peuvent être dues notamment à l’outil utilisé
et à certains choix d’implémentation de ces outils.Elbayad et al.(2018) utilisent
en effet l’outil Fairseq
4, et ne précisent pas la méthode utilisée pour la création
des batchs, ni leur taille. Nous utilisons de plus certains hyper-paramètres
diffé-rents (taille de vecteurs, taille des couches cachées du Transformer...) pour garder
une taille de vecteurs identique à celle de BERT, et des paramètres pour les
enco-deurs et décoenco-deurs Transformer identiques à ceux utilisés dans notre système de
DL présenté aux chapitres précédents.
Finalement, pour en revenir aux résultats de nos systèmes exploitant les sens
en entrée, on peut voir que nous obtenons des résultats qui surpassent l’état de
l’art grâce à BERT, et que l’utilisation de ce dernier, à la place d’étiquettes de
sens discrètes, est largement plus efficace. Dans la section suivante, nous allons
voir si la combinaison de BERT et des sens en entrée apporte des performances
supplémentaires.
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 188-191)