• Aucun résultat trouvé

Interactions entre BERT et les sens WordNet

7.2 Méthode

7.4.1 Interactions entre BERT et les sens WordNet

Comme on l’a vu dans nos résultats principaux, l’utilisation de BERT en entrée

du réseau permet d’apporter des informations supplémentaires grandement utiles

à notre système de TA, bien plus utiles que les étiquettes de sens WordNet. On

pouvait cependant s’attendre à un tel résultat, car BERT encode de nombreuses

informations lexicales et sémantiques qui vont au delà des simples sens WordNet.

D’un autre côté, concernant les méthodes d’intégration des sens WordNet en

entrée du réseau, on a vu que la méthode de concaténation des vecteurs de sens

aux vecteurs de mot fonctionne mieux que leur somme. Cependant, la méthode de

concaténation ajoute un nouveau paramètre : la taille des vecteurs de sens.

Dans nos résultats principaux, nous avons utilisé une taille de vecteurs de sens

de 128. Dans cette section, nous allons étudier l’impact de la variation de cette

taille sur les résultats, ainsi que la combinaison de BERT et des sens WordNet,

pour voir si ces derniers apportent une informations complémentaire, qui n’est pas

directement encodée dans le modèle de langue.

Les résultats, en faisant varier la taille des vecteurs de sens, et en combinant les

vecteurs de sens et BERT, se trouvent ainsi dans letableau 7.2. Comme on peut le

voir, l’utilisation combinée de BERT et des étiquettes de sens WordNet améliore

nos résultats, allant de 0,2 à 0,4 point de score BLEU supplémentaire, ce qui est

comparable à l’amélioration constatée sans BERT, qui va de 0,3 à 0,6 point.

Vecteurs de mot Vecteurs de sens BLEU (%)↑ TER (%)Meteor (%)

TdC - 26,8 53,43 47,10

TdC 128 27,4 52,40 47,58

TdC 256 27,3 53,28 47,53

TdC 512 27,3 52,90 47,59

TdC 1024 27,1 53,37 47,35

BERT - 29,5 49,64 49,04

BERT 128 29,8 49,60 49,38

BERT 256 29,7 49,46 49,33

BERT 512 29,9 49,40 49,49

BERT 1024 29,7 49,44 49,17

Table 7.2 – Résultats de nos méthodes combinées sur la tâche de traduction de

l’anglais vers l’allemand, en fonction de la taille des vecteurs de mot et des

vec-teurs de sens. TdC est l’acronyme de « Table de Correspondance ». Les meilleurs

résultats sont en gras, dans le cas avec BERT, et dans le cas sans BERT. Les flèches

(↑↓) indiquent le sens d’amélioration des scores. Les tirets (-) indiquent l’absence

de vecteurs de sens.

Cette expérience nous permet de montrer qu’à priori, les sens WordNet

don-nés par un système de DL externe permettent toujours, malgré le fort potentiel de

BERT, de donner des informations supplémentaires utiles qui ne sont pas

directe-ment encodées dans le modèle de langue.

Concernant la taille des vecteurs de sens, il semble qu’une amélioration des

performances soit notable quelle qu’elle soit, mais 128 et 512 sont les tailles qui

donnent les meilleures performances dans les deux cas (avec et sans BERT).

Avec BERT combiné aux vecteurs de sens concaténés en entrée, nous

amélio-rons les résultats de notre système de référence de 3,1 points de BLEU.

7.5 Conclusion

Dans ce chapitre, nous avons experimenté plusieurs méthodes d’intégration de

sens au sein d’un système de traduction automatique neuronal, dans le but

d’amé-liorer ce dernier.

Nous avons proposé pour cela trois méthodes : la première consiste à ajouter

des sens WordNet issus de notre propre système de désambiguïsation lexicale état

de l’art (voir chapitre 6), la deuxième consiste à forcer le modèle à produire des

troisième méthode consiste à remplacer les vecteurs de mot utilisés en entrée par le

modèle de langue pré-entraîné BERT, dont nous faisons l’hypothèse qu’il encode

indirectement les informations de sens dans ses représentations.

Afin d’évaluer nos méthodes, nous avons implémenté un système de TA fondé

sur l’architecture état de l’art Transformer, et nous avons comparé l’impact des

méthodes sur la tâche de traduction anglais-allemand de IWSLT 2014, déjà utilisée

dans plusieurs travaux récents de l’état de l’art, sur trois mesures d’évaluation :

BLEU, TER et Meteor.

On observe que, de nos trois méthodes, la première et la troisième améliorent

les résultats de notre système de référence, en particulier pour la troisième. La

deuxième méthode cependant les dégrade légèrement. Nous en déduisons que,

d’une part, la prédiction des sens des mots en plus des mots eux-mêmes ne guide

pas l’apprentissage mais au contraire le complexifie, d’autre part, ces mêmes sens

WordNet peuvent être utiles s’ils sont utilisés comme des traits supplémentaires,

ajoutés aux mots sources en entrée, et enfin, les modèles de langue pré-entraînés

tels que BERT en remplacement des vecteurs de mot apportent des informations

lexicales et sémantiques bien plus bénéfiques à la TA.

En allant plus loin, et afin de mesurer si l’information des sens WordNet est

contenue dans BERT, ou bien si elle est complémentaire, nous avons évalué un

système de TA avec BERT en entrée, et les sens WordNet comme trait

addition-nel. Les résultats ont montré une amélioration supplémentaire grâce à ces deux

méthodes combinées, démontrant que BERT n’encode pas directement toutes les

informations apportées par les sens d’un système de désambiguïsation externe.

Finalement, nous pouvons conclure de l’utilité certaine des informations

sé-mantiques (désambiguïsation lexicale explicite et modèles de langue) pour la

tra-duction automatique dans le contexte de nos expériences, c’est-à-dire avec un

en-semble de données parallèles limitées. Bien qu’il serait intéressant de mener ces

expériences sur des systèmes de TA entraînés sur une plus grande quantité de

don-nées, nos méthodes peuvent déjà être particulièrement utiles pour des langues peu

dotées, pour lesquelles il existe peu de données parallèles, mais pour lesquelles

des méthodes de création de modèles de langue et de systèmes de

désambiguïsa-tion lexicale sont toujours possibles (voir par exemple les travaux de Hadj Salah

Chapitre 8

Apprentissage joint de traduction

automatique et de désambiguïsation

lexicale

8.1 Introduction

Comme nous avons pu le voir tout au long de cette thèse, la

désambiguïsa-tion lexicale et la traducdésambiguïsa-tion automatique sont deux tâches dont l’histoire est riche

et complexe, et qui ont évolué largement indépendamment l’une de l’autre. Dans

le chapitre 2, nous avons passé en revue plusieurs travaux qui mêlent ces deux

tâches, que ce soit via l’étude des capacités des systèmes de TA à

désambiguï-ser un texte en traduisant correctement un mot ambigü (voirsection 2.6.2), ou en

mesurant l’apport de la DL pour améliorer globalement les systèmes de TA (voir

section 2.6.1).

Dans lechapitre 7, nous avons nous-mêmes mené des expériences afin

d’étu-dier l’apport de la DL pour la TA, à travers l’ajout d’étiquettes de sens WordNet

(Miller et al., 1990) aux mots, ou en remplaçant ces mots directement par des

vecteurs contextualisés comme BERT (Devlin et al., 2019). Nous avons ainsi pu

comparer plusieurs méthodes pour ajouter ces informations et les appliquer sur un

système fondé sur l’architecture neuronale Transformer (Vaswani et al.,2017).

Il ressort de ces études que les sens apportés par une ressource externe peuvent

clairement améliorer les performances d’un système de TA entraîné sur une

quan-tité de données restreinte, et que les étiquettes de sens WordNet semblent apporter

des informations complémentaires à un modèle de langue entraîné de façon

non-supervisée.

Dans ce chapitre, nous allons plus loin en proposant une nouvelle méthode

d’apprentissage joint mêlant les modèles neuronaux utilisés pour la TA et ceux

utilisés pour la DL. En effet, nous partons du constat que nos meilleurs systèmes

de DL et de TA s’appuient à la fois sur la même architecture Transformer

(Vas-wani et al., 2017), et sur le même modèle de langue pré-entraîné BERT (Devlin

et al., 2019). Nous pouvons finalement aujourd’hui constuire un modèle unique,

qui repose sur une même architecture, qui puisse résoudre les deux tâches à la fois.

L’intérêt d’un tel modèle est multiple. En plus d’offrir une nouvelle méthode

qui peut améliorer à la fois les performances des systèmes de TA et celles des

systèmes de DL, cette nouvelle configuration nous permet d’évaluer la capacité

d’un même modèle neuronal à résoudre deux tâches simultanément, et ainsi de

mesurer, indirectement, la similitude entre ces deux tâches.

Pour cela, nous nous appuierons sur un ensemble de données d’entraînement

à la fois bilingues et annotées en sens WordNet. À notre connaissance, il n’existe

pas de tels corpus créés manuellement, c’est pourquoi nous nous servirons de nos

meilleurs systèmes de DL, présentés aux chapitres précédents, afin de

désambiguï-ser automatiquement les ressources parallèles, et, à l’opposé, nous nous désambiguï-servirons

des meilleurs systèmes de TA de l’état de l’art afin de traduire automatiquement

les corpus manuellement annotés en sens que nous utiliserons.

Nous allons décrire notre nouvelle architecture dans la section suivante, puis

le protocole expérimental que nous avons suivi afin de l’évaluer sur les tâches de

TA et de DL, enfin nous détaillerons les résultats et nous conclurons.