• Aucun résultat trouvé

7.2 Méthode

7.3.5 Processus d’apprentissage

Notre architecture neuronale pour la TA, présentée précédemment, étant très

similaire à notre architecture neuronale pour la DL, présentée aux chapitres

précé-dents, le processus d’apprentissage est lui aussi très semblable. Nous avons ainsi

utilisé les paramètres suivants pour l’apprentissage :

1. La fonction de coût à optimiser est l’entropie croisée entre les mots

pro-duits par le décodeur et la référence. Comme pourVaswani et al.(2017) ou

Elbayad et al. (2018), nous utilisons l’entropie croisée « lissée sur les

éti-quettes » (label smoothed) (Szegedy et al.,2016) avec= 0,1.

2. Nous utilisons Adam (Kingma et Ba,2015) comme méthode d’optimisation,

avec les mêmes paramètres par défaut tels que décrits dans leur article.

Nous avons entraîné nos modèles pendant 80 passes (epoch) sur nos données

d’entraînement, avec une taille de lot (batch) de 100, et des phrases tronquées à

80 mots comme pour nos modèles de DL (voirsection 5.4.3). À chaque fin d’une

modèle sur le corpus de développement, en termes de score BLEU. Au final, nous

avons conservé le modèle qui a obtenu le meilleur score BLEU sur ces données.

7.4 Résultats

Nous avons évalué nos systèmes sur les données d’évaluation de la tâche de

traduction anglais-allemand d’IWSLT 2014. Pour le décodage, nous réalisons une

recherche en faisceau (beam search) avec un faisceau de taille 5, et une pénalité

sur la longueur des phrases similaire à celle utilisée dans le système deWu et al.

(2016).

Nos résultats ainsi que ceux des systèmes de référence sont présents dans le

ta-bleau 7.1. Nous donnons les scores en termes de BLEU, TER et Meteor insensibles

à la casse et avec les ponctuations segmentées.

Système BLEU (%)↑ TER (%)Meteor (%)

anglais → allemand

?Bahdanau et al.(2015) 25,0 -

-?Gehring et al.(2017) 26,7 -

-?Vaswani et al.(2017) 28,1 -

-Elbayad et al.(2018) 27,2 -

-Mot→mot (référence) 26,8 53,43 47,10

Mot + sens (somme)→mot 27,1 53,04 47,40

Mot + sens (concat.)→mot 27,4 52,40 47,58

BERT→mot 29,5 49,64 49,04

allemand → anglais

?Bahdanau et al.(2015) 29,9 -

-?Gehring et al.(2017) 32,3 -

-?Vaswani et al.(2017) 34,4 -

-Elbayad et al.(2018) 33,9 -

-Mot→mot (référence) 30,3 47,25 34,27

Mot→mot + sens 30,1 47,58 34,18

Table 7.1 – Résultats de nos méthodes d’intégration de la DL dans un système

de TA sur la tâche de traduction allemand - anglais de IWSLT 2014. Les systèmes

préfixés par une étoile (?) sont des réimplémentations issues de l’article d’Elbayad

et al.(2018) des articles cités. Les meilleurs résultats par tâche sont en gras pour

les systèmes de référence ainsi que pour nos systèmes. Les flèches (↑↓) indiquent

le sens d’amélioration des scores. Les tirets (-) remplacent les scores non fournis

par les auteurs.

Comme nous pouvons le voir, nos méthodes d’intégration des sens en entrée

du système de TA améliorent systématiquement les résultats sur les trois mesures

utilisées, mais la méthode qui consiste à produire des étiquettes de sens en plus des

mots dans la traduction semble, elle, dégrader les résultats.

Parmi les méthodes qui améliorent les résultats, celle qui se démarque

particu-lièrement est celle qui consiste à utiliser le modèle de langue pré-entraîné BERT

en entrée du système, car elle améliore le score BLEU de 2,7 points. L’utilisation

des étiquettes de sens WordNet en sommant les vecteurs de mot et les vecteurs de

sens, ainsi qu’en les concaténant, améliore respectivement les scores BLEU de 0,3

et 0,6 points.

Notre méthode qui consiste à produire les sens en sortie du système de TA

dégrade légèrement les résultats (de 0,2 point de score BLEU), ce qui va dans

le sens des travaux deHadj Salah (2018). Cela semble montrer que le décodeur,

lors du choix des mots à produire, n’est pas guidé par le sens de ces mots. Au

contraire, le décodeur a plus de difficultés à produire les mots et les sens pour un

même nombre de paramètres. On peut en déduire que ces deux informations sont

suffisament disjointes pour qu’un même décodeur ait plus de difficultés à produire

les deux informations en même temps, plutôt que le mot seul.

De plus, on remarque que, dans cette configuration, au contraire de celles qui

consistent à donner les sens en entrée, le réseau ne peut pas ici apprendre à ignorer

certains sens. Lorsqu’un mot est annoté dans le corpus d’entraînement, le réseau

est forcé à produire une étiquette de sens. Comme ces étiquettes sont issues d’un

système de DL qui a une précision d’environ 80%, cette configuration est donc

potentiellement plus sensible au bruit.

Concernant les autres systèmes neuronaux de l’état de l’art, celui de

Bahda-nau et al. (2015) est un système de TA neuronal à base de cellules récurrentes

(LSTM) avec un mécanisme d’attention classique, celui deGehring et al.(2017)

et d’Elbayad et al.(2018) remplacent la récurrence par des convolutions, et enfin

le système de Vaswani et al.(2017) est fondé, comme le nôtre, sur l’architecture

Transformer.

Sur les métriques utilisées, seuls les scores BLEU sont donnés dans ces autres

systèmes, mais on peut voir sur les nôtres qu’une amélioration de score BLEU

entraîne systématiquement une amélioration des scores TER et Meteor, donc nous

utiliserons principalement cette mesure seule pour comparer les performances.

On remarque, dans un premier temps, que notre système référence n’atteint pas

les performances du système Transformer de l’article deElbayad et al.(2018), mais

il obtient un score BLEU proche pour la traduction de l’anglais vers l’allemand

(-1,3 points de BLEU). En revanche pour la traduction de l’allemand vers l’anglais,

notre système de référence obtient un score BLEU 4,1 points inférieur.

Nous pensons que ces différences peuvent être dues notamment à l’outil utilisé

et à certains choix d’implémentation de ces outils.Elbayad et al.(2018) utilisent

en effet l’outil Fairseq

4

, et ne précisent pas la méthode utilisée pour la création

des batchs, ni leur taille. Nous utilisons de plus certains hyper-paramètres

diffé-rents (taille de vecteurs, taille des couches cachées du Transformer...) pour garder

une taille de vecteurs identique à celle de BERT, et des paramètres pour les

enco-deurs et décoenco-deurs Transformer identiques à ceux utilisés dans notre système de

DL présenté aux chapitres précédents.

Finalement, pour en revenir aux résultats de nos systèmes exploitant les sens

en entrée, on peut voir que nous obtenons des résultats qui surpassent l’état de

l’art grâce à BERT, et que l’utilisation de ce dernier, à la place d’étiquettes de

sens discrètes, est largement plus efficace. Dans la section suivante, nous allons

voir si la combinaison de BERT et des sens en entrée apporte des performances

supplémentaires.