• Aucun résultat trouvé

6.3 Compression de vocabulaire de sens

6.4.4 Étude des hyperparamètres

Afin de mieux comprendre l’impact de nos principaux choix

d’hyperparamèt-res sur les résultats, et de voir si nos méthodes de compd’hyperparamèt-ression de vocabulaire

sont efficaces dans d’autres configurations, nous proposons ici de faire varier, en

plus du corpus d’entraînement et de la méthode de compression du vocabulaire,

deux autres paramètres : le modèle de vecteurs de mot pré-entraînés, et la méthode

d’ensemble.

Corpus d’entraînement

vecteurs de mot

pré-entraînés Ensemble

Scores F1 sur la tâche “ALL” (%) Référence Hyperon. Toutes rel.

¯

x σ x¯ σ x¯ σ

SemCor+WNGC BERT Oui 78,27 - 79,00 - 78,48 -SemCor+WNGC BERT Non 76,97 ±0,38 77,08 ±0,17 76,52 ±0,36

SemCor+WNGC ELMo Oui 75,16 - 74,65 - 70,58 -SemCor+WNGC ELMo Non 74,56 ±0,27 74.36 ±0,27 68,77 ±0.30

SemCor+WNGC GloVe Oui 72,23 - 72,74 - 71,42 -SemCor+WNGC GloVe Non 71,93 ±0,35 71,79 ±0,29 69,60 ±0,32

SemCor BERT Oui 76,02 - 76,73 - 75,40

-SemCor BERT Non 75,06 ±0,26 75,59 ±0,16 73,91 ±0,33

SemCor ELMo Oui 72,55 - 73,09 - 69,43

-SemCor ELMo Non 72,21 ±0,13 72,83 ±0,24 68,74 ±0,29

SemCor GloVe Oui 70,77 - 71,18 - 68,44

-SemCor GloVe Non 70,51 ±0,16 70,77 ±0,21 67,48 ±0,55

HCAN (Luo et al.,2018b)

SemCor+WN déf. GloVe - 71,1 LMMS (Loureiro et Jorge,2019)

SemCor BERT - 75,4

SemCor ELMo - 66,2

GlossBERT (Huang et al.,2019)

SemCor+WN déf. BERT - 77,0

Table 6.5 – Étude des hyperparamètres sur la tâche « ALL ». Pour les systèmes

qui n’utilisent pas l’ensemble, nous montrons la moyenne des scores (x¯) de huit

modèles entraînés séparément, avec l’écart type (σ).

Pour le modèle de vecteurs de mot, nous avons expérimenté avec BERT (Devlin

et al.,2019) comme pour nos résultats principaux, mais aussi avec ELMo (Peters

et al.,2018) et GloVe (Pennington et al.,2014). Pour ELMo, nous avons utilisé le

modèle entraîné sur Wikipedia et les données monolingues de WMT 2008-2012.

5

Pour GloVe, nous avons utilisé le même modèle queLuo et al.(2018b) etVial et al.

(2019b) entraîné sur Wikipedia 2014 et Gigaword 5.

6

5. https://allennlp.org/elmo

Comme les représentations vectorielles de GloVe n’encodent pas la position

des mots, c’est-à-dire qu’un mot a la même représentation quelle que soit sa

po-sition ou son contexte, et que nous avions montré au chapitre précédent (voir

sec-tion 5.5.1) que Transformer n’était pas bien adapté à ces vecteurs, nous avons

réuti-lisé dans ce cas une couche de cellulesLSTM bidirectionnelles de taille 1 000 par

direction pour les couches cachées (commeVial et al.(2019b)).

Pour la méthode d’ensemble, nous avons expérimenté soit en l’utilisant,

comme dans nos résultats principaux, c’est-à-dire en moyennant les prédictions

de huit modèles entraînés séparément, soit en donnant la moyenne et l’écart-type

des scores des huit modèles évalués individuellement.

Comme nous pouvons le voir dans le tableau 6.5, le corpus d’entraînement

supplémentaire (WNGC) et encore plus l’utilisation de BERT en tant que vecteurs

de mot ont tous les deux un impact majeur sur nos résultats et conduisent à des

scores supérieurs à l’état de l’art. L’utilisation de BERT au lieu de ELMo ou GloVe

améliore respectivement le score d’environ 3 et 5 points dans chaque expérience,

et l’ajout du WNGC aux données d’entraînement l’améliore encore d’environ 2

points. Enfin, l’utilisation d’ensembles ajoute environ 1 point au score F1 final.

Enfin, à travers les scores obtenus par les modèles individuels (sans ensemble),

nous pouvons observer sur les écarts-types que la méthode de compression du

vo-cabulaire par les hyperonymes n’a jamais d’impact significatif sur le score final.

Cependant, la méthode de compression via toutes les relations semble avoir un

impact négatif sur les résultats dans certains cas (en utilisant GloVe et ELMo

par-ticulièrement, et en utilisant le SemCor seul comme corpus d’entraînement).

6.5 Conclusion

Dans ce chapitre, nous avons présenté deux nouvelles méthodes qui améliorent

la couverture et la capacité de généralisation des systèmes de DL supervisés, en

ré-duisant le nombre d’étiquettes de sens différentes dans WordNet afin de ne

conser-ver que celles qui sont essentielles pour différencier les sens de tous les mots

pré-sents dans la base lexicale. À l’échelle de l’ensemble de la base de données lexicale,

nous avons montré que ces méthodes permettaient de réduire le nombre total

d’éti-quettes de sens différentes dans WordNet à seulement 6% de sa taille originale, et

que la couverture d’un même corpus d’entraînement est ensuite plus que doublée.

Nous avons entraîné un système de DL neuronal état de l’art et nous avons

mon-tré que nos méthodes permettaient de réduire la taille des modèles par un facteur

de 1,2 à 2 et d’augmenter largement leur couverture, sans dégrader leurs

perfor-mances. Au final, nous obtenons une couverture de 99,99% sur l’ensemble des

tâches d’évaluation (soit un seul mot manquant sur les 7 253) lorsque l’on entraîne

notre système sur le SemCor uniquement, et 100% lorsque l’on ajoute le WordNet

Gloss Corpus aux données d’entraînement. On élimine ainsi quasiment le besoin

d’une méthode de repli pour désambiguïser n’importe quel mot du vocabulaire de

WordNet.

Notre méthode combinée avec notre architecture neuronale présentée au

cha-pitre 5permet à notre système à la fois de surpasser nettement l’état de l’art dans

toutes les tâches d’évaluation de la DL de l’anglais, mais en plus avec un modèle

très réduit et avec une bien meilleure couverture.

Pour finir, bien que nous ayons appliqué nos méthodes uniquement sur

l’an-glais dans ce chapitre, elles peuvent facilement s’appliquer à d’autres langues en

utilisant toujours WordNet comme inventaire de sens. Par exemple, elles peuvent

s’appliquer à la désambiguïsation d’une langue moins bien dotée en utilisant la

méthode deHadj Salah et al.(2018). Cependant, du fait que les autres langues ont

très peu de ressources annotées manuellement en sens (que ce soit avec

l’inven-taire de sens WordNet ou un autre), l’évaluationin vivodes systèmes de DL pour

Chapitre 7

Amélioration de la traduction

automatique grâce à la

désambiguïsation lexicale

7.1 Introduction

Comme nous l’avons vu auchapitre 2, aujourd’hui les systèmes état de l’art en

traduction automatique sont, à l’instar de la désambiguïsation lexicale, tous fondés

sur des réseaux de neurones. Plus précisément, depuis les travaux deVaswani et al.

(2017), les meilleurs systèmes s’appuient tous sur l’architecture Transformer ou sur

l’une de ses améliorations comme le Transformer-XL (Dai et al.,2019). De même,

au niveau des vocabulaires d’entrée et de sortie utilisés, la plupart des systèmes

depuisSennrich et al.(2016b) s’appuient sur des méthodes de découpage des mots

en sous-unités qu’on a décrites dans lasection 2.3.2.

Dans lasection 2.6.1, nous avons vu que plusieurs travaux ont visé

l’améliora-tion de systèmes de TA neuronaux grâce à des informal’améliora-tions supplémentaires, ou

traits, donnés en entrée. Parmi ces travaux, on trouve notammentSennrich et

Had-dow (2016), qui présentent une méthode générale qui consiste à concaténer des

vecteurs de traits aux vecteurs de mot utilisés en entrée du modèle neuronal, puis

Hadj Salah(2018), qui a appliqué cette méthode avec des traits de sens WordNet

(Miller et al.,1990) issus d’un système de désambiguïsation lexicale.

D’autres travaux, commePu et al.(2018) intègrent des vecteurs de sens appris

de manière non supervisée, à partir des définitions de WordNet. Enfin les travaux

deLiu et al.(2018) intègrent indirectement des sens à partir de vecteurs

contex-tualisés appris sur des corpus monolingues, à la manière de ELMo (Peters et al.,

2018) ou BERT (Devlin et al.,2019).

Dans tous ces travaux précédents, que les sens soient directement reliés à

l’in-ventaire de WordNet, ou qu’ils soient issus d’un modèle de vecteurs contextualisés,

leur ajout à un système de TA neuronal améliore significativement ses résultats.

Cependant, on remarque que, d’une part, ces différentes méthodes ne sont jamais

comparées entre elles, et d’autre part, elles ne s’appuient pas sur les derniers

tra-vaux et les derniers modèles de l’état de l’art, tant au niveau des systèmes de TA

que des systèmes de DL.

Plus particulièrement, aucun de ces travaux ne s’appuie sur l’architecture

Transformer (Vaswani et al.,2017), qui est aujourd’hui omniprésente dans la

plu-part des modèles neuronaux traitant du texte. Ils utilisent de plus des vocabulaires

fixes limités aux mots les plus fréquents du vocabulaire, à la place des méthodes à

base de sous-unités de mots qui sont aujourd’hui aussi dominantes. Enfin, les

sys-tèmes de DL utilisés dans les expériences ont des scores qui sont bien en dessous

des systèmes état de l’art actuels (notamment grâce aux modèles qui s’appuient

sur BERT, voirsection 1.5.1.3).

Dans ce chapitre, nous allons ainsi proposer plusieurs méthodes pour intégrer

de la désambiguïsation lexicale à un système de TA état de l’art, en nous appuyant

sur nos derniers systèmes de DL (voirchapitre 5etchapitre 6), ainsi que le modèle

de langue pré-entraîné BERT (Devlin et al.,2019), en considérant que les vecteurs

contextualisés de BERT représentent déjà indirectement des vecteurs de sens.

Nous mènerons d’une part des expériences qui consistent à ajouter des sens

WordNet en entrée d’un système de TA état de l’art, comme un trait

supplémen-taire aux mots pouvant apporter de l’information, mais nous évaluerons aussi les

vecteurs de BERT utilisés directement en entrée du système, et nous

compare-rons leur apport respectif. Ensuite, nous expérimentecompare-rons une forme de traduction

multi-tâches, qui consiste à traduire du texte en mots et en sens à la fois, afin que

l’apprentissage se retrouve guidé par les deux objectifs. Finalement, nous

évalue-rons la combinaison de nos deux premières méthodes : celle qui exploite les

vec-teurs de BERT, et celle qui exploite les sens de WordNet en entrée du système.

Dans un premier temps, nous allons décrire les différentes méthodes que nous

proposons, ainsi que le système de TA sur lequel nous allons les appliquer, et le

système de DL qui sera utilisé. Nous discuterons ensuite des résultats des

expé-riences avant de conclure.

À noter que les travaux présentés dans ce chapitre ont fait l’objet de notre

par-ticipation à la campagne d’évaluation IWSLT 2019 (Niehues et al., 2019) sur la