6.3 Compression de vocabulaire de sens
6.4.4 Étude des hyperparamètres
Afin de mieux comprendre l’impact de nos principaux choix
d’hyperparamèt-res sur les résultats, et de voir si nos méthodes de compd’hyperparamèt-ression de vocabulaire
sont efficaces dans d’autres configurations, nous proposons ici de faire varier, en
plus du corpus d’entraînement et de la méthode de compression du vocabulaire,
deux autres paramètres : le modèle de vecteurs de mot pré-entraînés, et la méthode
d’ensemble.
Corpus
d’entraînement
vecteurs de mot
pré-entraînés Ensemble
Scores F1 sur la tâche “ALL” (%)
Référence Hyperon. Toutes rel.
¯
x σ x¯ σ x¯ σ
SemCor+WNGC BERT Oui 78,27 - 79,00 - 78,48
-SemCor+WNGC BERT Non 76,97 ±0,38 77,08 ±0,17 76,52 ±0,36
SemCor+WNGC ELMo Oui 75,16 - 74,65 - 70,58
-SemCor+WNGC ELMo Non 74,56 ±0,27 74.36 ±0,27 68,77 ±0.30
SemCor+WNGC GloVe Oui 72,23 - 72,74 - 71,42
-SemCor+WNGC GloVe Non 71,93 ±0,35 71,79 ±0,29 69,60 ±0,32
SemCor BERT Oui 76,02 - 76,73 - 75,40
-SemCor BERT Non 75,06 ±0,26 75,59 ±0,16 73,91 ±0,33
SemCor ELMo Oui 72,55 - 73,09 - 69,43
-SemCor ELMo Non 72,21 ±0,13 72,83 ±0,24 68,74 ±0,29
SemCor GloVe Oui 70,77 - 71,18 - 68,44
-SemCor GloVe Non 70,51 ±0,16 70,77 ±0,21 67,48 ±0,55
HCAN (Luo et al.,2018b)
SemCor+WN déf. GloVe - 71,1
LMMS (Loureiro et Jorge,2019)
SemCor BERT - 75,4
SemCor ELMo - 66,2
GlossBERT (Huang et al.,2019)
SemCor+WN déf. BERT - 77,0
Table 6.5 – Étude des hyperparamètres sur la tâche « ALL ». Pour les systèmes
qui n’utilisent pas l’ensemble, nous montrons la moyenne des scores (x¯) de huit
modèles entraînés séparément, avec l’écart type (σ).
Pour le modèle de vecteurs de mot, nous avons expérimenté avec BERT (Devlin
et al.,2019) comme pour nos résultats principaux, mais aussi avec ELMo (Peters
et al.,2018) et GloVe (Pennington et al.,2014). Pour ELMo, nous avons utilisé le
modèle entraîné sur Wikipedia et les données monolingues de WMT 2008-2012.
5
Pour GloVe, nous avons utilisé le même modèle queLuo et al.(2018b) etVial et al.
(2019b) entraîné sur Wikipedia 2014 et Gigaword 5.
6
5. https://allennlp.org/elmo
Comme les représentations vectorielles de GloVe n’encodent pas la position
des mots, c’est-à-dire qu’un mot a la même représentation quelle que soit sa
po-sition ou son contexte, et que nous avions montré au chapitre précédent (voir
sec-tion 5.5.1) que Transformer n’était pas bien adapté à ces vecteurs, nous avons
réuti-lisé dans ce cas une couche de cellulesLSTM bidirectionnelles de taille 1 000 par
direction pour les couches cachées (commeVial et al.(2019b)).
Pour la méthode d’ensemble, nous avons expérimenté soit en l’utilisant,
comme dans nos résultats principaux, c’est-à-dire en moyennant les prédictions
de huit modèles entraînés séparément, soit en donnant la moyenne et l’écart-type
des scores des huit modèles évalués individuellement.
Comme nous pouvons le voir dans le tableau 6.5, le corpus d’entraînement
supplémentaire (WNGC) et encore plus l’utilisation de BERT en tant que vecteurs
de mot ont tous les deux un impact majeur sur nos résultats et conduisent à des
scores supérieurs à l’état de l’art. L’utilisation de BERT au lieu de ELMo ou GloVe
améliore respectivement le score d’environ 3 et 5 points dans chaque expérience,
et l’ajout du WNGC aux données d’entraînement l’améliore encore d’environ 2
points. Enfin, l’utilisation d’ensembles ajoute environ 1 point au score F1 final.
Enfin, à travers les scores obtenus par les modèles individuels (sans ensemble),
nous pouvons observer sur les écarts-types que la méthode de compression du
vo-cabulaire par les hyperonymes n’a jamais d’impact significatif sur le score final.
Cependant, la méthode de compression via toutes les relations semble avoir un
impact négatif sur les résultats dans certains cas (en utilisant GloVe et ELMo
par-ticulièrement, et en utilisant le SemCor seul comme corpus d’entraînement).
6.5 Conclusion
Dans ce chapitre, nous avons présenté deux nouvelles méthodes qui améliorent
la couverture et la capacité de généralisation des systèmes de DL supervisés, en
ré-duisant le nombre d’étiquettes de sens différentes dans WordNet afin de ne
conser-ver que celles qui sont essentielles pour différencier les sens de tous les mots
pré-sents dans la base lexicale. À l’échelle de l’ensemble de la base de données lexicale,
nous avons montré que ces méthodes permettaient de réduire le nombre total
d’éti-quettes de sens différentes dans WordNet à seulement 6% de sa taille originale, et
que la couverture d’un même corpus d’entraînement est ensuite plus que doublée.
Nous avons entraîné un système de DL neuronal état de l’art et nous avons
mon-tré que nos méthodes permettaient de réduire la taille des modèles par un facteur
de 1,2 à 2 et d’augmenter largement leur couverture, sans dégrader leurs
perfor-mances. Au final, nous obtenons une couverture de 99,99% sur l’ensemble des
tâches d’évaluation (soit un seul mot manquant sur les 7 253) lorsque l’on entraîne
notre système sur le SemCor uniquement, et 100% lorsque l’on ajoute le WordNet
Gloss Corpus aux données d’entraînement. On élimine ainsi quasiment le besoin
d’une méthode de repli pour désambiguïser n’importe quel mot du vocabulaire de
WordNet.
Notre méthode combinée avec notre architecture neuronale présentée au
cha-pitre 5permet à notre système à la fois de surpasser nettement l’état de l’art dans
toutes les tâches d’évaluation de la DL de l’anglais, mais en plus avec un modèle
très réduit et avec une bien meilleure couverture.
Pour finir, bien que nous ayons appliqué nos méthodes uniquement sur
l’an-glais dans ce chapitre, elles peuvent facilement s’appliquer à d’autres langues en
utilisant toujours WordNet comme inventaire de sens. Par exemple, elles peuvent
s’appliquer à la désambiguïsation d’une langue moins bien dotée en utilisant la
méthode deHadj Salah et al.(2018). Cependant, du fait que les autres langues ont
très peu de ressources annotées manuellement en sens (que ce soit avec
l’inven-taire de sens WordNet ou un autre), l’évaluationin vivodes systèmes de DL pour
Chapitre 7
Amélioration de la traduction
automatique grâce à la
désambiguïsation lexicale
7.1 Introduction
Comme nous l’avons vu auchapitre 2, aujourd’hui les systèmes état de l’art en
traduction automatique sont, à l’instar de la désambiguïsation lexicale, tous fondés
sur des réseaux de neurones. Plus précisément, depuis les travaux deVaswani et al.
(2017), les meilleurs systèmes s’appuient tous sur l’architecture Transformer ou sur
l’une de ses améliorations comme le Transformer-XL (Dai et al.,2019). De même,
au niveau des vocabulaires d’entrée et de sortie utilisés, la plupart des systèmes
depuisSennrich et al.(2016b) s’appuient sur des méthodes de découpage des mots
en sous-unités qu’on a décrites dans lasection 2.3.2.
Dans lasection 2.6.1, nous avons vu que plusieurs travaux ont visé
l’améliora-tion de systèmes de TA neuronaux grâce à des informal’améliora-tions supplémentaires, ou
traits, donnés en entrée. Parmi ces travaux, on trouve notammentSennrich et
Had-dow (2016), qui présentent une méthode générale qui consiste à concaténer des
vecteurs de traits aux vecteurs de mot utilisés en entrée du modèle neuronal, puis
Hadj Salah(2018), qui a appliqué cette méthode avec des traits de sens WordNet
(Miller et al.,1990) issus d’un système de désambiguïsation lexicale.
D’autres travaux, commePu et al.(2018) intègrent des vecteurs de sens appris
de manière non supervisée, à partir des définitions de WordNet. Enfin les travaux
deLiu et al.(2018) intègrent indirectement des sens à partir de vecteurs
contex-tualisés appris sur des corpus monolingues, à la manière de ELMo (Peters et al.,
2018) ou BERT (Devlin et al.,2019).
Dans tous ces travaux précédents, que les sens soient directement reliés à
l’in-ventaire de WordNet, ou qu’ils soient issus d’un modèle de vecteurs contextualisés,
leur ajout à un système de TA neuronal améliore significativement ses résultats.
Cependant, on remarque que, d’une part, ces différentes méthodes ne sont jamais
comparées entre elles, et d’autre part, elles ne s’appuient pas sur les derniers
tra-vaux et les derniers modèles de l’état de l’art, tant au niveau des systèmes de TA
que des systèmes de DL.
Plus particulièrement, aucun de ces travaux ne s’appuie sur l’architecture
Transformer (Vaswani et al.,2017), qui est aujourd’hui omniprésente dans la
plu-part des modèles neuronaux traitant du texte. Ils utilisent de plus des vocabulaires
fixes limités aux mots les plus fréquents du vocabulaire, à la place des méthodes à
base de sous-unités de mots qui sont aujourd’hui aussi dominantes. Enfin, les
sys-tèmes de DL utilisés dans les expériences ont des scores qui sont bien en dessous
des systèmes état de l’art actuels (notamment grâce aux modèles qui s’appuient
sur BERT, voirsection 1.5.1.3).
Dans ce chapitre, nous allons ainsi proposer plusieurs méthodes pour intégrer
de la désambiguïsation lexicale à un système de TA état de l’art, en nous appuyant
sur nos derniers systèmes de DL (voirchapitre 5etchapitre 6), ainsi que le modèle
de langue pré-entraîné BERT (Devlin et al.,2019), en considérant que les vecteurs
contextualisés de BERT représentent déjà indirectement des vecteurs de sens.
Nous mènerons d’une part des expériences qui consistent à ajouter des sens
WordNet en entrée d’un système de TA état de l’art, comme un trait
supplémen-taire aux mots pouvant apporter de l’information, mais nous évaluerons aussi les
vecteurs de BERT utilisés directement en entrée du système, et nous
compare-rons leur apport respectif. Ensuite, nous expérimentecompare-rons une forme de traduction
multi-tâches, qui consiste à traduire du texte en mots et en sens à la fois, afin que
l’apprentissage se retrouve guidé par les deux objectifs. Finalement, nous
évalue-rons la combinaison de nos deux premières méthodes : celle qui exploite les
vec-teurs de BERT, et celle qui exploite les sens de WordNet en entrée du système.
Dans un premier temps, nous allons décrire les différentes méthodes que nous
proposons, ainsi que le système de TA sur lequel nous allons les appliquer, et le
système de DL qui sera utilisé. Nous discuterons ensuite des résultats des
expé-riences avant de conclure.
À noter que les travaux présentés dans ce chapitre ont fait l’objet de notre
par-ticipation à la campagne d’évaluation IWSLT 2019 (Niehues et al., 2019) sur la