Dans les premiers systèmes de TA neuronaux deSutskever et al.(2014) et
Bah-danau et al.(2015), les vocabulaires d’entrée et de sortie utilisés sont limités aux
nmots les plus fréquents du corpus d’entraînement utilisé. Par exemple,Sutskever
et al.(2014) utilisent les 160 000 mots les plus fréquents dans la langue source et
les 80 000 mots les plus fréquents dans la langue cible, tandis queBahdanau et al.
(2015) utilisent les 30 000 mots les plus fréquents dans les deux langues. Dans ces
systèmes, les mots ne faisant pas partie de ce vocabulaire sont remplacés par un
symbole spécial <unk>, ce qui permet à l’encodeur et au décodeur de
modéli-ser tous les mots rares ou inconnus sous une même représentation vectorielle. Au
moment d’évaluer, ces symboles sont généralement retirés.
Progressivement, d’autres méthodes sont apparues et ont permis d’améliorer
cette gestion du vocabulaire. Dans cette section, nous allons décrire quelques-unes
de ces méthodes.
2.3.1 Remplacement des mots hors vocabulaire
Luong et al.(2015b) proposent une phase de post-traitement applicable à
n’im-porte quel système de TA neuronal, dans laquelle chaque symbole «<unk>»
pro-duit en sortie est remplacé par le mot de la phrase source avec lequel il est aligné,
ou bien, si elle existe, une traduction de ce mot dans une table de traduction.
Pour cela, les auteurs utilisent un aligneur externe, celui deLiang et al.(2006),
de deux manières : d’abord, pour générer la table de traduction, associant à chaque
mot dans la langue source sa traduction la plus probable, et ensuite, pendant la
phase de post-traitement du réseau neuronal, afin de trouver le mot dans la phrase
source aligné à un symbole «<unk>» généré dans la sortie. Si le mot de la
source existe dans la table de traduction, on l’utilise pour remplacer le symbole
«<unk>», sinon, on copie le mot source tel quel.
Les auteurs ont ainsi appliqué leur méthode à un système similaire à celui de
Sutskever et al.(2014), et ils observent ainsi une amélioration significative dans
leurs scores.
En parallèle, Jean et al. (2015) proposent aussi une méthode similaire, mais
en utilisant cette fois-ci directement le modèle d’alignement proposé par le
méca-nisme d’attention du système deBahdanau et al.(2015) pour remplacer les mots
inconnus en sortie, et ils obtiennent des gains similaires.
2.3.2 Découpage des mots en sous-unités
Les méthodes de remplacement des mots hors vocabulaire, avec ou sans
dic-tionnaire, posent toujours certains problèmes, en particulier parce qu’elles
présup-posent généralement qu’un symbole «<unk>» dans la sortie correspond toujours
à un seul mot dans la phrase d’entrée. D’une manière générale, ces méthodes
fonc-tionnent raisonnablement bien sur des noms et des entités nommées présentes dans
le corpus d’entraînement, et sur des paires de langues morphologiquement
simi-laires. Elles sont cependant incapables de gérer certains cas, comme par exemple
la translittération de nouvelles entités nommées ou la conjugaison de nouveaux
mots à la volée.
Sennrich et al. (2016b) partent de ce constat, et proposent une autre méthode
pour gérer les mots hors vocabulaire : le découpage des mots en sous-unités. Leur
méthode, qui est une adaptation du Byte Pair Encoding (BPE) (Gage, 1994), une
technique de compression des données, consiste à remplacer les paires de
carac-tères consécutifs les plus fréquentes dans un texte par un nouveau symbole, puis de
réitérer le processus en considérant ces symboles comme des nouveaux caractères,
et ainsi de suite, jusqu’à avoir une taille de vocabulaire souhaitée dans notre texte.
En effet, cette méthode a pour effet d’identifier les mots, et plus généralement
les n-grammes de caractères, les plus fréquents dans un texte afin de leur assigner
un symbole unique dans le vocabulaire, et de découper en suites de symboles les
mots et n-grammes de caractères les moins fréquents. Ainsi, non seulement
beau-coup de formes dérivées d’un mot peuvent se construire à partir du radical et de
préfixes ou suffixes présents dans le vocabulaire, mais en plus, comme les
carac-tères individuels font partie du vocabulaire, n’importe quel mot peut être découpé
en suites de caractères dans le cas extrême où il ne repose sur aucune suite de
caractères faisant partie du vocabulaire.
Cette méthode, ou sa variante similaire appelée WordPiece Model (WPM),
développée en parallèle pour le système de traduction neuronal de Google (Wu
et al.,2016), sera ensuite utilisée dans la plupart des travaux pour traiter les mots
hors vocabulaire. On la retrouve notamment dans le système Transformer (Vaswani
et al., 2017), avec un vocabulaire de 32 000 sous-unités de mots, partagé entre la
langue source et la langue cible, mais aussi dans le système ConvS2S deGehring
et al. (2017), et plus généralement dans la grande majorité des systèmes état de
l’art qui ont suivi.
Le découpage en sous-unités est aussi appliqué dans la plupart des modèles
de langue pré-entraînés comme BERT et tous ses dérivés (voir section 1.3.3.2),
de même que dans nos travaux sur la désambiguïsation lexicale et la traduction
automatique (voir contributions).
2.3.3 Traduction factorisée
Une autre méthode permettant à la fois de réduire le vocabulaire de sortie des
systèmes de TA neuronaux et de gérer la plupart des mots hors vocabulaire consiste
à découper la prédiction des mots en deux : d’un côté on prédit les lemmes des mots
et de l’autre on prédit des « facteurs » tels que leur partie du discours, leur genre,
leur nombre, etc. Au moment de décoder, on reconstruit la forme de surface des
mots grâce à leur lemme et à ces facteurs.
Cette méthode, nommée traduction factorisée, se retrouve dans des travaux
bien avant la traduction neuronale, par exemple dans les travaux deKoehn et Hoang
(2007). Elle a ensuite été exploitée plus récemment dans des travaux comme ceux
deGarcía-Martínez et al.(2017). Dans cet article, le découpage des mots en
fac-teurs permet aux aufac-teurs de générer 172 000 mots différents avec un vocabulaire
de seulement 30 000 lemmes et 142 facteurs. De plus, leurs résultats montrent
une amélioration supérieure à un système utilisant un découpage en sous-unités
de mots.
Cependant, la limitation principale de cette approche est qu’elle nécessite un
outil externe pour extraire les lemmes et les facteurs de la langue cible,
contraire-ment au découpage en sous-unités qui peut être appliqué à n’importe quelle langue
sans connaissance préalable. De plus, cette méthode n’élimine pas complètement
la présence de mots inconnus, par exemple dans le cas de néologismes ou
d’enti-tés nommées rares. Pour ces raisons, la traduction factorisée est en pratique peu
utilisée pour réduire la taille des vocabulaires.
On peut noter toutefois qu’elle est utilisée dans certains travaux comme ceux
deSennrich et Haddow(2016) et ceux deHadj Salah(2018) en plus des techniques
vues précédemment, afin d’améliorer les performances des systèmes de TA. En
ef-fet, on peut voir dans certains cas que prédire à la fois des sous-unités de mots et des
facteurs linguistiques, ou bien utiliser ces facteurs en entrée comme information
supplémentaire permet d’obtenir de meilleurs résultats.
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 92-95)