Architecture

0,6 0,7 0,8 0,9 1 2 4 6 8 10 2 500 000 5 000 000 7 500 000 _{10 000 000} _{12 500 000} Classifieur Décodeur

0,06 0,07 0,08 0,09 0,1 2 4 6 8 10 2 500 000 5 000 000 7 500 000 _{10 000 000} _{12 500 000} Classifieur Décodeur

Nous allons ici décrire notre nouvelle architecture pour l’apprentissage d’un

modèle joint de TA et de DL, ainsi que les fonctions objectif associées. La

princi-pale difficulté dans la conception d’une telle architecture est d’identifier une base

commune qui soit la plus proche possible des modèles état de l’art dans les deux

tâches, afin d’obtenir les meilleurs résultats possibles.

En TA, c’est l’architecture Transformer (Vaswani et al., 2017) qui est

aujour-d’hui prédominante dans tous les systèmes état de l’art1 et qui s’est exportée à

d’autres tâches du TAL, comme pour les modèles de langue type BERT (Devlin

1. Voir par exemple les résultats de la dernière campagne d’évaluation WMT (Barrault et al.,

2019)

et al.,2019). En DL, les architectures état de l’art s’appuient aussi sur Transformer,

mais seulement depuis nos travaux présentés auchapitre 5.

En plus de Transformer, nos modèles de DL reposent fortement sur le modèle

de langue BERT. De la même manière, grâce à nos travaux présentés auchapitre 7,

nous disposons aussi d’un système de TA état de l’art qui exploite BERT.

BERT

Encodeurs Transformer

What is love

Décodeurs Transformer

Couche linéaire + softmax

<bos>

?

Couche linéaire + softmax

<nul> be#1 love#1 <nul>

Qu' est ce que l' amour ?

Qu' est ce que l' amour ? <eos>

Figure 8.1 – Architecture neuronale pour un modèle joint de désambiguïsation

lexicale et de traduction automatique.

Notre architecture pour un modèle joint de TA et de DL, illustré dans la

fi-gure 8.1, repose ainsi principalement sur ces deux composants : BERT et

Trans-former. Comme on peut le voir, l’architecture est découpée en trois parties

dis-tinctes qu’on appelle l’encodeur, le décodeur et le classifieur. L’encodeur (en bas

à gauche) contient les paramètres qui sont communs aux deux tâches, le décodeur

(en haut à droite) permet la traduction, et le classifieur (en haut à gauche) permet

la désambiguïsation de la source.

Il est à noter que cette architecture est fondamentalement différente de celle

pré-sentée auchapitre 7(section 7.2.2). En effet, plutôt qu’une architecture «

encodeur-décodeur » classique, avec un encodeur-décodeur qui produit plusieurs traits, la nouvelle

ar-chitecture « encodeur-décodeur-classifieur » que nous proposons ici n’a jamais été

évaluée à notre connaissance.

Une des principales différences entre cette méthode et celle présentée en

langue source, plutôt que ceux de la langue cible, nous avons deux sorties du

ré-seau de longueurs différentes : une sortie de la longueur de la phrase source, et

une sortie de la longueur de la phrase cible. De plus, cette fois, seul l’encodeur est

commun aux deux objectifs (produire des mots et produire des sens), ce qui devrait

offrir une meilleure représentation des mots dans l’encodeur, sans nécessairement

forcer le décodeur à prendre ces sens en compte.

Enfin, avec cette nouvelle architecture, nous avons maintenant deux objectifs

à combiner et à optimiser pendant l’apprentissage : la fonction de coût liée à la

classification des sens dans le classifieur, et celle liée à la classification des mots

dans le décodeur.

Les deux fonctions objectif à minimiser sont l’entropie croisée, avec deux

dif-férences : d’abord, la fonction objectif du classifieur ignore les étiquettes de sens

qui correspondent à l’absence de sens, et ensuite, la fonction objectif du décodeur

est une version « lissée sur les étiquettes » (label smoothed), déjà utilisée dans notre

système de TA (voirsection 5.3.3etsection 7.3.5pour plus de détails).

Nous combinons ainsi ces deux fonctions objectif pendant l’apprentissage en

les sommant, lors de la phase de rétro-propagation du gradient.

8.3 Protocole expérimental

Dans cette section, nous allons détailler le protocole expérimental que nous

avons suivi afin d’entraîner et d’évaluer les systèmes qui s’appuient sur notre

nou-velle architecture. Nous évaluerons à la fois leur capacité à désambiguïser ainsi

que leur capacité à traduire.

8.3.1 Données d’apprentissage

Pour entraîner le plus efficacement possible notre modèle, nous avons besoin

de corpus qui soient en même temps bilingues et annotés en sens WordNet. De

tels corpus constitués manuellement n’existent pas à notre connaissance,2 alors

nous proposons d’exploiter les meilleurs systèmes de TA et de DL de l’état de

l’art afin de traduire automatiquement les données annotées en sens, et d’annoter

automatiquement en sens les données parallèles que nous utiliserons.

2. On peut tout de même citer les corpus d’évaluation de la tâche 12 de SemEval 2013 (Navigli

et al.,2013), disponibles en cinq langues et annotés en sens BabelNet. Il n’est constitué cependant

que d’environ 300 phrases.

Nous évaluerons ensuite les performances de nos modèles entraînés sur

l’en-semble de nos données, qui seront ainsi partiellement générées automatiquement,

sur les tâches de DL et sur les tâches de TA. De plus, nous mènerons des

expé-riences dans lesquelles nous poursuivrons l’apprentissage en ajustement fin (fine

tuning), en exploitant uniquement les parties manuelles des corpus pour chacune

des deux tâches.

aujour-d’hui prédominante dans tous les systèmes état de l’art¹ et qui s’est exportée à

est une version « lissée sur les étiquettes » (label smoothed_{), déjà utilisée dans notre}

tels corpus constitués manuellement n’existent pas à notre connaissance,² alors

tuning_{), en exploitant uniquement les parties manuelles des corpus pour chacune}

sur le meilleur système de traduction anglais-allemand fourni avec l’outil Fairseq³.

sup-plémentaires générées parback-translation_(voir_{section 2.4.3.2}_).

Corpus #phrases ^#mots

IWSLT 164 179 3 267 185 3 090 267⁺ 1 420 173⁻

SemCor+WNGC 154 835 2 413 278 2 489 865⁻ 726 309⁺

Total 319 014 5 680 463 5 580 132^± 2 146 482^±

Table 8.1 – Taille de nos données d’apprentissage par corpus. Les symboles+_,−

et±_{indiquent respectivement les données originales, générées automatiquement}

Mots (langue source) _{28 996}

Mots (langue cible) _{14 121}