7.2 Méthode
7.4.1 Interactions entre BERT et les sens WordNet
Comme on l’a vu dans nos résultats principaux, l’utilisation de BERT en entrée
du réseau permet d’apporter des informations supplémentaires grandement utiles
à notre système de TA, bien plus utiles que les étiquettes de sens WordNet. On
pouvait cependant s’attendre à un tel résultat, car BERT encode de nombreuses
informations lexicales et sémantiques qui vont au delà des simples sens WordNet.
D’un autre côté, concernant les méthodes d’intégration des sens WordNet en
entrée du réseau, on a vu que la méthode de concaténation des vecteurs de sens
aux vecteurs de mot fonctionne mieux que leur somme. Cependant, la méthode de
concaténation ajoute un nouveau paramètre : la taille des vecteurs de sens.
Dans nos résultats principaux, nous avons utilisé une taille de vecteurs de sens
de 128. Dans cette section, nous allons étudier l’impact de la variation de cette
taille sur les résultats, ainsi que la combinaison de BERT et des sens WordNet,
pour voir si ces derniers apportent une informations complémentaire, qui n’est pas
directement encodée dans le modèle de langue.
Les résultats, en faisant varier la taille des vecteurs de sens, et en combinant les
vecteurs de sens et BERT, se trouvent ainsi dans letableau 7.2. Comme on peut le
voir, l’utilisation combinée de BERT et des étiquettes de sens WordNet améliore
nos résultats, allant de 0,2 à 0,4 point de score BLEU supplémentaire, ce qui est
comparable à l’amélioration constatée sans BERT, qui va de 0,3 à 0,6 point.
Vecteurs de mot Vecteurs de sens BLEU (%)↑ TER (%)↓ Meteor (%)↑
TdC - 26,8 53,43 47,10
TdC 128 27,4 52,40 47,58
TdC 256 27,3 53,28 47,53
TdC 512 27,3 52,90 47,59
TdC 1024 27,1 53,37 47,35
BERT - 29,5 49,64 49,04
BERT 128 29,8 49,60 49,38
BERT 256 29,7 49,46 49,33
BERT 512 29,9 49,40 49,49
BERT 1024 29,7 49,44 49,17
Table 7.2 – Résultats de nos méthodes combinées sur la tâche de traduction de
l’anglais vers l’allemand, en fonction de la taille des vecteurs de mot et des
vec-teurs de sens. TdC est l’acronyme de « Table de Correspondance ». Les meilleurs
résultats sont en gras, dans le cas avec BERT, et dans le cas sans BERT. Les flèches
(↑↓) indiquent le sens d’amélioration des scores. Les tirets (-) indiquent l’absence
de vecteurs de sens.
Cette expérience nous permet de montrer qu’à priori, les sens WordNet
don-nés par un système de DL externe permettent toujours, malgré le fort potentiel de
BERT, de donner des informations supplémentaires utiles qui ne sont pas
directe-ment encodées dans le modèle de langue.
Concernant la taille des vecteurs de sens, il semble qu’une amélioration des
performances soit notable quelle qu’elle soit, mais 128 et 512 sont les tailles qui
donnent les meilleures performances dans les deux cas (avec et sans BERT).
Avec BERT combiné aux vecteurs de sens concaténés en entrée, nous
amélio-rons les résultats de notre système de référence de 3,1 points de BLEU.
7.5 Conclusion
Dans ce chapitre, nous avons experimenté plusieurs méthodes d’intégration de
sens au sein d’un système de traduction automatique neuronal, dans le but
d’amé-liorer ce dernier.
Nous avons proposé pour cela trois méthodes : la première consiste à ajouter
des sens WordNet issus de notre propre système de désambiguïsation lexicale état
de l’art (voir chapitre 6), la deuxième consiste à forcer le modèle à produire des
troisième méthode consiste à remplacer les vecteurs de mot utilisés en entrée par le
modèle de langue pré-entraîné BERT, dont nous faisons l’hypothèse qu’il encode
indirectement les informations de sens dans ses représentations.
Afin d’évaluer nos méthodes, nous avons implémenté un système de TA fondé
sur l’architecture état de l’art Transformer, et nous avons comparé l’impact des
méthodes sur la tâche de traduction anglais-allemand de IWSLT 2014, déjà utilisée
dans plusieurs travaux récents de l’état de l’art, sur trois mesures d’évaluation :
BLEU, TER et Meteor.
On observe que, de nos trois méthodes, la première et la troisième améliorent
les résultats de notre système de référence, en particulier pour la troisième. La
deuxième méthode cependant les dégrade légèrement. Nous en déduisons que,
d’une part, la prédiction des sens des mots en plus des mots eux-mêmes ne guide
pas l’apprentissage mais au contraire le complexifie, d’autre part, ces mêmes sens
WordNet peuvent être utiles s’ils sont utilisés comme des traits supplémentaires,
ajoutés aux mots sources en entrée, et enfin, les modèles de langue pré-entraînés
tels que BERT en remplacement des vecteurs de mot apportent des informations
lexicales et sémantiques bien plus bénéfiques à la TA.
En allant plus loin, et afin de mesurer si l’information des sens WordNet est
contenue dans BERT, ou bien si elle est complémentaire, nous avons évalué un
système de TA avec BERT en entrée, et les sens WordNet comme trait
addition-nel. Les résultats ont montré une amélioration supplémentaire grâce à ces deux
méthodes combinées, démontrant que BERT n’encode pas directement toutes les
informations apportées par les sens d’un système de désambiguïsation externe.
Finalement, nous pouvons conclure de l’utilité certaine des informations
sé-mantiques (désambiguïsation lexicale explicite et modèles de langue) pour la
tra-duction automatique dans le contexte de nos expériences, c’est-à-dire avec un
en-semble de données parallèles limitées. Bien qu’il serait intéressant de mener ces
expériences sur des systèmes de TA entraînés sur une plus grande quantité de
don-nées, nos méthodes peuvent déjà être particulièrement utiles pour des langues peu
dotées, pour lesquelles il existe peu de données parallèles, mais pour lesquelles
des méthodes de création de modèles de langue et de systèmes de
désambiguïsa-tion lexicale sont toujours possibles (voir par exemple les travaux de Hadj Salah
Chapitre 8
Apprentissage joint de traduction
automatique et de désambiguïsation
lexicale
8.1 Introduction
Comme nous avons pu le voir tout au long de cette thèse, la
désambiguïsa-tion lexicale et la traducdésambiguïsa-tion automatique sont deux tâches dont l’histoire est riche
et complexe, et qui ont évolué largement indépendamment l’une de l’autre. Dans
le chapitre 2, nous avons passé en revue plusieurs travaux qui mêlent ces deux
tâches, que ce soit via l’étude des capacités des systèmes de TA à
désambiguï-ser un texte en traduisant correctement un mot ambigü (voirsection 2.6.2), ou en
mesurant l’apport de la DL pour améliorer globalement les systèmes de TA (voir
section 2.6.1).
Dans lechapitre 7, nous avons nous-mêmes mené des expériences afin
d’étu-dier l’apport de la DL pour la TA, à travers l’ajout d’étiquettes de sens WordNet
(Miller et al., 1990) aux mots, ou en remplaçant ces mots directement par des
vecteurs contextualisés comme BERT (Devlin et al., 2019). Nous avons ainsi pu
comparer plusieurs méthodes pour ajouter ces informations et les appliquer sur un
système fondé sur l’architecture neuronale Transformer (Vaswani et al.,2017).
Il ressort de ces études que les sens apportés par une ressource externe peuvent
clairement améliorer les performances d’un système de TA entraîné sur une
quan-tité de données restreinte, et que les étiquettes de sens WordNet semblent apporter
des informations complémentaires à un modèle de langue entraîné de façon
non-supervisée.
Dans ce chapitre, nous allons plus loin en proposant une nouvelle méthode
d’apprentissage joint mêlant les modèles neuronaux utilisés pour la TA et ceux
utilisés pour la DL. En effet, nous partons du constat que nos meilleurs systèmes
de DL et de TA s’appuient à la fois sur la même architecture Transformer
(Vas-wani et al., 2017), et sur le même modèle de langue pré-entraîné BERT (Devlin
et al., 2019). Nous pouvons finalement aujourd’hui constuire un modèle unique,
qui repose sur une même architecture, qui puisse résoudre les deux tâches à la fois.
L’intérêt d’un tel modèle est multiple. En plus d’offrir une nouvelle méthode
qui peut améliorer à la fois les performances des systèmes de TA et celles des
systèmes de DL, cette nouvelle configuration nous permet d’évaluer la capacité
d’un même modèle neuronal à résoudre deux tâches simultanément, et ainsi de
mesurer, indirectement, la similitude entre ces deux tâches.
Pour cela, nous nous appuierons sur un ensemble de données d’entraînement
à la fois bilingues et annotées en sens WordNet. À notre connaissance, il n’existe
pas de tels corpus créés manuellement, c’est pourquoi nous nous servirons de nos
meilleurs systèmes de DL, présentés aux chapitres précédents, afin de
désambiguï-ser automatiquement les ressources parallèles, et, à l’opposé, nous nous désambiguï-servirons
des meilleurs systèmes de TA de l’état de l’art afin de traduire automatiquement
les corpus manuellement annotés en sens que nous utiliserons.
Nous allons décrire notre nouvelle architecture dans la section suivante, puis
le protocole expérimental que nous avons suivi afin de l’évaluer sur les tâches de
TA et de DL, enfin nous détaillerons les résultats et nous conclurons.
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 191-195)