• Aucun résultat trouvé

Dans les premiers systèmes de TA neuronaux deSutskever et al.(2014) et

Bah-danau et al.(2015), les vocabulaires d’entrée et de sortie utilisés sont limités aux

nmots les plus fréquents du corpus d’entraînement utilisé. Par exemple,Sutskever

et al.(2014) utilisent les 160 000 mots les plus fréquents dans la langue source et

les 80 000 mots les plus fréquents dans la langue cible, tandis queBahdanau et al.

(2015) utilisent les 30 000 mots les plus fréquents dans les deux langues. Dans ces

systèmes, les mots ne faisant pas partie de ce vocabulaire sont remplacés par un

symbole spécial <unk>, ce qui permet à l’encodeur et au décodeur de

modéli-ser tous les mots rares ou inconnus sous une même représentation vectorielle. Au

moment d’évaluer, ces symboles sont généralement retirés.

Progressivement, d’autres méthodes sont apparues et ont permis d’améliorer

cette gestion du vocabulaire. Dans cette section, nous allons décrire quelques-unes

de ces méthodes.

2.3.1 Remplacement des mots hors vocabulaire

Luong et al.(2015b) proposent une phase de post-traitement applicable à

n’im-porte quel système de TA neuronal, dans laquelle chaque symbole «<unk>»

pro-duit en sortie est remplacé par le mot de la phrase source avec lequel il est aligné,

ou bien, si elle existe, une traduction de ce mot dans une table de traduction.

Pour cela, les auteurs utilisent un aligneur externe, celui deLiang et al.(2006),

de deux manières : d’abord, pour générer la table de traduction, associant à chaque

mot dans la langue source sa traduction la plus probable, et ensuite, pendant la

phase de post-traitement du réseau neuronal, afin de trouver le mot dans la phrase

source aligné à un symbole «<unk>» généré dans la sortie. Si le mot de la

source existe dans la table de traduction, on l’utilise pour remplacer le symbole

«<unk>», sinon, on copie le mot source tel quel.

Les auteurs ont ainsi appliqué leur méthode à un système similaire à celui de

Sutskever et al.(2014), et ils observent ainsi une amélioration significative dans

leurs scores.

En parallèle, Jean et al. (2015) proposent aussi une méthode similaire, mais

en utilisant cette fois-ci directement le modèle d’alignement proposé par le

méca-nisme d’attention du système deBahdanau et al.(2015) pour remplacer les mots

inconnus en sortie, et ils obtiennent des gains similaires.

2.3.2 Découpage des mots en sous-unités

Les méthodes de remplacement des mots hors vocabulaire, avec ou sans

dic-tionnaire, posent toujours certains problèmes, en particulier parce qu’elles

présup-posent généralement qu’un symbole «<unk>» dans la sortie correspond toujours

à un seul mot dans la phrase d’entrée. D’une manière générale, ces méthodes

fonc-tionnent raisonnablement bien sur des noms et des entités nommées présentes dans

le corpus d’entraînement, et sur des paires de langues morphologiquement

simi-laires. Elles sont cependant incapables de gérer certains cas, comme par exemple

la translittération de nouvelles entités nommées ou la conjugaison de nouveaux

mots à la volée.

Sennrich et al. (2016b) partent de ce constat, et proposent une autre méthode

pour gérer les mots hors vocabulaire : le découpage des mots en sous-unités. Leur

méthode, qui est une adaptation du Byte Pair Encoding (BPE) (Gage, 1994), une

technique de compression des données, consiste à remplacer les paires de

carac-tères consécutifs les plus fréquentes dans un texte par un nouveau symbole, puis de

réitérer le processus en considérant ces symboles comme des nouveaux caractères,

et ainsi de suite, jusqu’à avoir une taille de vocabulaire souhaitée dans notre texte.

En effet, cette méthode a pour effet d’identifier les mots, et plus généralement

les n-grammes de caractères, les plus fréquents dans un texte afin de leur assigner

un symbole unique dans le vocabulaire, et de découper en suites de symboles les

mots et n-grammes de caractères les moins fréquents. Ainsi, non seulement

beau-coup de formes dérivées d’un mot peuvent se construire à partir du radical et de

préfixes ou suffixes présents dans le vocabulaire, mais en plus, comme les

carac-tères individuels font partie du vocabulaire, n’importe quel mot peut être découpé

en suites de caractères dans le cas extrême où il ne repose sur aucune suite de

caractères faisant partie du vocabulaire.

Cette méthode, ou sa variante similaire appelée WordPiece Model (WPM),

développée en parallèle pour le système de traduction neuronal de Google (Wu

et al.,2016), sera ensuite utilisée dans la plupart des travaux pour traiter les mots

hors vocabulaire. On la retrouve notamment dans le système Transformer (Vaswani

et al., 2017), avec un vocabulaire de 32 000 sous-unités de mots, partagé entre la

langue source et la langue cible, mais aussi dans le système ConvS2S deGehring

et al. (2017), et plus généralement dans la grande majorité des systèmes état de

l’art qui ont suivi.

Le découpage en sous-unités est aussi appliqué dans la plupart des modèles

de langue pré-entraînés comme BERT et tous ses dérivés (voir section 1.3.3.2),

de même que dans nos travaux sur la désambiguïsation lexicale et la traduction

automatique (voir contributions).

2.3.3 Traduction factorisée

Une autre méthode permettant à la fois de réduire le vocabulaire de sortie des

systèmes de TA neuronaux et de gérer la plupart des mots hors vocabulaire consiste

à découper la prédiction des mots en deux : d’un côté on prédit les lemmes des mots

et de l’autre on prédit des « facteurs » tels que leur partie du discours, leur genre,

leur nombre, etc. Au moment de décoder, on reconstruit la forme de surface des

mots grâce à leur lemme et à ces facteurs.

Cette méthode, nommée traduction factorisée, se retrouve dans des travaux

bien avant la traduction neuronale, par exemple dans les travaux deKoehn et Hoang

(2007). Elle a ensuite été exploitée plus récemment dans des travaux comme ceux

deGarcía-Martínez et al.(2017). Dans cet article, le découpage des mots en

fac-teurs permet aux aufac-teurs de générer 172 000 mots différents avec un vocabulaire

de seulement 30 000 lemmes et 142 facteurs. De plus, leurs résultats montrent

une amélioration supérieure à un système utilisant un découpage en sous-unités

de mots.

Cependant, la limitation principale de cette approche est qu’elle nécessite un

outil externe pour extraire les lemmes et les facteurs de la langue cible,

contraire-ment au découpage en sous-unités qui peut être appliqué à n’importe quelle langue

sans connaissance préalable. De plus, cette méthode n’élimine pas complètement

la présence de mots inconnus, par exemple dans le cas de néologismes ou

d’enti-tés nommées rares. Pour ces raisons, la traduction factorisée est en pratique peu

utilisée pour réduire la taille des vocabulaires.

On peut noter toutefois qu’elle est utilisée dans certains travaux comme ceux

deSennrich et Haddow(2016) et ceux deHadj Salah(2018) en plus des techniques

vues précédemment, afin d’améliorer les performances des systèmes de TA. En

ef-fet, on peut voir dans certains cas que prédire à la fois des sous-unités de mots et des

facteurs linguistiques, ou bien utiliser ces facteurs en entrée comme information

supplémentaire permet d’obtenir de meilleurs résultats.