2.6 Traduction automatique et désambiguïsation lexicale
2.6.1 Enrichissement des systèmes de traduction avec des sens . 110
Une manière évidente pour enrichir un système de TA avec des sens donnés
par un système de DL consiste à désambiguïser le texte source en amont, puis à se
servir de ces prédictions pour influencer le comportement du système de TA.
Dans cette section, nous allons voir différentes méthodes pour atteindre cet
objectif et que nous allons séparer en deux groupes : d’un côté les méthodes dites
pré-neuronales, c’est-à-dire dans lesquelles le système de TA utilise une
architec-ture statistique classique telle qu’abordée dans lasection 2.1.2, et de l’autre côté les
méthodes neuronales, qui s’appuient donc sur un système de TA neuronal comme
évoqué dans lasection 2.2.
2.6.1.1 Enrichissement sémantique des systèmes pré-neuronaux
On peut trouver les premières méthodes d’intégration d’un système de DL au
sein d’un système de TA statistique dans la thèse deCarpuat(2008) et dans ses
tra-vaux associés (Carpuat et Wu,2005,2007), ainsi que dans les travaux deCabezas
et Resnik(2005) et deChan et al.(2007a).
Dans la thèse deCarpuat(2008), un système de DL est construit spécialement
pour une tâche « échantillon lexical » (voirfigure 1.5.1.1) du chinois, utilisant
l’in-ventaire de sens HowNet
14, puis un système de TA statistique classique est entraîné
sur des corpus parallèles chinois-anglais.
En s’appuyant sur le fait que les étiquettes de sens de HowNet ont à la fois une
description textuelle en chinois et en anglais, le système de TA est modifié pour
prendre en compte les prédictions du système de DL appliqué sur le texte source
chinois. Pour cela, les auteurs comparent plusieurs méthodes :
1. En forçant le modèle de traduction chinois-anglais à produire uniquement
des mots anglais présents dans la description du sens prédit par le système
de DL.
2. En laissant le système de TA produire une traduction anglaise complète et en
remplaçant, à postériori, les mots anglais qui ont un sens différent de celui
prédit par le système de DL.
3. En prenant en compte les prédictions du système de DL dans le calcul des
probabilités du système de TA, au même titre que le modèle de langue et le
modèle de traduction.
Les deux premières méthodes dégradent ainsi la performance du système de TA,
tandis que la dernière a tendance à l’améliorer. Dans les travaux de Cabezas et
Resnik(2005) et deChan et al.(2007a), ce sont aussi des méthodes similaires à
cette troisième méthode qui sont utilisées, avec différentes paires de langues, et qui
permettent aussi d’améliorer les résultats du système de traduction.
Dans mes travaux de master (Vial,2016), nous avions aussi intégré les
prédic-tions d’un système de DL au sein d’un système de TA statistique anglais-français,
en utilisant un système de DL plus récent et en prenant en compte les prédictions
de sens lors du calcul des probabilités, et nous avions aussi constaté une nette
amé-lioration des résultats.
2.6.1.2 Enrichissement sémantique des systèmes neuronaux
Comme vu précédemment, avec les systèmes statistiques classiques, plusieurs
travaux ont montré qu’on pouvait améliorer les performances d’un système de TA
grâce aux prédictions d’un système de DL.
Cependant, avec le basculement de paradigme en faveur des architectures
neu-ronales, et les améliorations importantes de leurs performances qui en découlent,
les méthodes d’intégration de sens dans les systèmes de TA neuronaux sont depuis
bien différentes, et nous allons ici les décrire.
Les sens en tant qu’information discrète
Sennrich et Haddow(2016) proposent une méthode permettant d’ajouter
n’im-porte quelle donnée discrète, qu’on appelera trait, en entrée d’un système de TA
neuronal. La méthode consiste à simplement concaténer les vecteurs de mot et
de chaque trait utilisé, et d’apprendre conjointement ces vecteurs avec le reste du
modèle neuronal.
Ainsi, les mots de la langue source sont eux-mêmes considérés comme des
traits, et les auteurs ajoutent d’autres traits linguistiques tels que les lemmes et les
parties du discours. Ils montrent ainsi une amélioration des performances sur deux
tâches de traduction, anglais-allemand et allemand-anglais.
Bien que les auteurs n’aient pas essayé d’utiliser des traits de sens, leur
mé-thode peut facilement s’appliquer à des traits produits par un système de DL. Dans
la thèse deHadj Salah(2018), l’autrice a d’ailleurs mené l’expérience sur un
sys-tème de TA anglais-arabe et arabe-anglais, en désambiguïsant le texte source dans
chacun des cas, à l’aide d’un système de DL supervisé neuronal qui assigne aux
mots un sens provenant de WordNet, et elle a constaté une amélioration
supplé-mentaire par rapport au simple ajout des lemmes et des parties du discours.
Pu et al. (2018) mènent une expérience similaire, mais ils utilisent cette fois
un système de désambiguïsation non supervisé, dans lequel des vecteurs de sens
sont créés à partir de leur définition dans WordNet, et où des groupes sont ensuite
formés à partir de leur proximité dans l’espace vectoriel. Enfin, ces vecteurs de
sens sont intégrés à plusieurs systèmes de TA neuronaux et là encore ils constatent
une amélioration systématique des résultats.
Enfin,Vanmassenhove et Way(2018) utilisent une méthode de DL qui assigne
aux mots une des 41 catégories de supersenses de WordNet (des catégories de
sens générales telles que « social », « cognition », etc.), et ils intègrent ces traits à
un système de TA avec la méthode deSennrich et Haddow(2016). Cette fois, les
auteurs ne concluent pas à des améliorations significatives, mais tout de même à
une vitesse de convergence plus élevée.
Les sens en tant qu’information continue
Liu et al. (2018) proposent une méthode pour intégrer indirectement les
in-formations d’un système de DL à un système de TA neuronal. Ils s’appuient sur
l’architecture de DL neuronale de Kågebäck et Salomonsson (2016) (voir
sec-tion 1.4.2.2) et celle de Yuan et al.(2016) (voir section 1.4.2.3) afin d’apprendre
des vecteurs de contexte, puis ils concatènent ces vecteurs de contexte aux vecteurs
de mot en entrée du système de TA.
Plus précisément, les auteurs entraînent un premier modèle qu’ils appellent
« modèle de contexte » et qui a pour objectif de prédire un motx
tà l’indiceten
fonction des mots le précédant(x
0, . . . , x
t−1)et des mots le suivant(x
t+1, . . . , x
n).
Le modèle fondé sur l’architecture de Kågebäck et Salomonsson (2016) utilise
pour cela deux couches LSTM (avant et arrière), tandis que le modèle fondé sur
l’architecture deYuan et al.(2016) utilise une seule couche LSTM (avant) et un
symbole spécial pour masquer le mot à prédire.
En concaténant ensuite les vecteurs de contexte avec les vecteurs de mot en
entrée du système de TA, les auteurs constatent ainsi une amélioration notable de
ses performances.
Ce qu’on peut remarquer, en plus de ces gains de performances, c’est que cet
article propose finalement, à travers son modèle de contexte, la même chose que les
modèles de langue comme ELMo et BERT cités précédemment (section 1.3.3.2),
parallèles utilisés pour le système de traduction uniquement.
Dans nos contributions (chapitre 7), nous comparerons les méthodes qui
consistent à ajouter des sens en tant qu’information discrète à un système de TA,
et les méthodes qui considèrent indirectement les sens à partir d’un modèle de
langue.
2.6.2 Capacité de désambiguïsation des systèmes de traduction
Si les méthodes dont on a parlé précédemment visent à améliorer les systèmes
de traduction grâce aux informations extraites d’un système de désambiguïsation,
d’autres travaux étudient directement les capacités intrinsèques qu’ont les systèmes
de traduction à désambiguïser. En effet, si un modèle neuronal de TA est entraîné
sur suffisament de données parallèles, il est déjà capable de traduire correctement
un mot ambigu ayant plusieurs traductions possibles, par sa bonne traduction.
Rios et al.(2017) proposent ainsi une nouvelle tâche d’évaluation pour la TA
intitulée ContraWSD (contra étant l’abbréviation decontrastive), dans laquelle on
donne un ensemble de phrases dans une langue source, avec pour chaque phrase un
mot ambigu. Pour chaque phrase, on fournit une traduction de référence dans une
langue cible, ainsi que plusieurs autres traductions contrastives, dans lesquelles
le mot ambigu est remplacé par un autre (une mauvaise traduction). L’objectif des
systèmes de TA évalués est finalement de donner un score plus élevé pour la
traduc-tion de référence que pour les traductraduc-tions contrastives, en se servant des prédictraduc-tions
du décodeur.
La tâche propose deux paires de langues : anglais et
allemand-français, et elle sera ensuite reprise dans la campagne d’évaluation WMT 2018
(Rios et al., 2018). Elle permettra notamment de prendre directement en compte
une sortie de traduction d’un modèle de TA neuronal plutôt qu’un seul score.
Tang et al. (2018, 2019) étudient ainsi séparément les capacités de chaque
couche d’un encodeur et de plusieurs mécanismes d’attention pour
désambiguï-ser les mots, et ils évaluent leurs systèmes notamment sur ContraWSD.
Pour finir, on peut citer les travaux deMarvin et Koehn(2018), dans lesquels les
auteurs évaluent la capacité de désambiguïsation d’un système de TA neuronal sur
quelques exemples sélectionnés manuellement, afin de montrer que les systèmes
récents ont encore de grandes lacunes pour déterminer le sens de certains mots très
polysémiques.
On notera que tous ces travaux permettent seulement d’estimer la capacité d’un
système de TA à distinguer différents sens d’un mot dans le cadre d’une traduction
entre deux langues spécifiques, mais pas de manière absolue. Par exemple, le terme
« souris » se traduit en anglais par « mouse », qu’il soit employé dans son sens de
rongeur ou celui de périphérique informatique, alors il est impossible de savoir si
un système de TA français-anglais est bien capable de reconnaître le bon sens du
mot souris en regardant uniquement sa sortie.
2.7 Conclusion
Comme on a pu le voir dans ce chapitre, la traduction automatique est une
des toutes premières tâches du TAL à avoir vu le jour, et elle reste une des tâches
fondamentales aujourd’hui. En effet, elle est au cœur d’enjeux importants comme
l’apprentissage ou la compréhension de langues étrangères.
La traduction automatique est, en pratique, complexe à mettre en œuvre comme
à évaluer, entre autres, car elle fait appel à de nombreux critères subjectifs (le style
d’écriture, la culture, etc.).
Bien que plusieurs approches pour la construction de systèmes de TA existent,
dont les systèmes à base de règles et les systèmes statistiques, la grande majorité
des travaux portent aujourd’hui sur les systèmes qui s’appuient sur un réseau de
neurones, ou systèmes de TA neuronaux.
La recherche en TA neuronale a grandement influencé la recherche dans les
autres domaines du TAL. En effet, les systèmes séquence à séquence, les modèles
d’attention et l’architecture Transformer sont au moins trois avancées majeures
imaginées d’abord pour la TA et qui ont ensuite été reprises dans de nombreux
autres modèles neuronaux pour d’autres tâches.
Les systèmes de TA neuronaux, à l’instar des systèmes statistiques, s’appuient
presque uniquement sur des corpus parallèles pour leur apprentissage, ainsi que
pour leur évaluation. Avoir ces ressources pour une paire de langues visée, et en
avoir en grande quantité, est donc primordial afin de construire des systèmes de
traduction de bonne qualité. Cependant, on a recensé dans lasection 2.4plusieurs
méthodes employées dans le cas des langues moins dotées.
Finalement, nous avons réalisé un tour d’horizon des travaux alliant la
désam-biguïsation lexicale à la traduction automatique dans lasection 2.6. Certaines
mé-thodes consistent à ajouter aux mots des étiquettes de sens issues d’un inventaire
de sens (WordNet ou supersenses plus généraux), tandis que d’autres méthodes
intègrent directement un modèle de langue, qui n’est donc pas rattaché à un
inven-taire de sens particulier.
Dans nos contributions aux chapitre 7 et chapitre 8, nous allons d’une part
étudier et comparer ces deux approches d’intégration de sens dans un système de
TA neuronal (avec et sans inventaire de sens) ainsi que plusieurs méthodes (trait
supplémentaire en entrée ou apprentissage guidé par la sortie), et d’autre part
étu-dier les capacités et l’intérêt d’un modèle joint de désambiguïsation lexicale et de
traduction automatique.
Deuxième partie
Contributions
Chapitre 3
Vecteurs de sens pour la
désambiguïsation à base de
similarité sémantique
3.1 Introduction
Parmi les différentes approches pour la désambiguïsation lexicale que nous
avons décrites précédemment (voirsection 1.4), celles qui obtiennent en pratique
des résultats état de l’art sont le plus souvent les approches supervisées, dans
les-quelles un classifieur est entraîné sur une grande quantité de textes annotés en
sens. Les approches à base de connaissances, à l’inverse, obtiennent généralement
de moins bons résultats, mais nécessitent aussi beaucoup moins de ressources pour
fonctionner.
En effet, parce que ces dernières s’appuient uniquement sur des bases de
connaissances, il en découle plusieurs avantages, notamment :
— une meilleure couverture des systèmes sur les données d’évaluation, car ils
ne sont pas tributaires des sens observés lors de l’apprentissage ;
— une meilleure généralisation des méthodes à d’autres langues, car on peut
trouver des bases de connaissances dans de nombreuses langues (à minima
des dictionnaires), au contraire des corpus annotés en sens, qui ne sont
dis-ponibles que pour des langues très dotées telles que l’anglais.
Ce deuxième point est important à relever, car l’annotation de corpus en sens
est extrêmement lourde, et peu de langues disposent de ce type de ressource.
1Pour ces raisons, nous présentons dans ce chapitre des travaux qui s’articulent
autour des approches à base de connaissances et nous présentons plus
particu-lièrement une extension d’un système fondé sur l’algorithme de Lesk (voir
sec-tion 1.4.1.1), à l’aide de vecteurs de sens créés à partir de leur définition dans
WordNet, et d’un modèle de vecteurs de mot pré-entraînés.
En effet, les modèles pré-entraînés de vecteurs de mot, tels que Word2Vec
(Mi-kolov et al., 2013), GloVe, (Pennington et al., 2014) ou encore ceux de Levy et
Goldberg (2014) qui reposent sur des dépendances syntaxiques, ont montré des
gains intéressants dans de nombreuses tâches du TAL. Ils sont notamment
utili-sés dans plusieurs méthodes de DL telles queIacobacci et al. (2016), Yuan et al.
(2016) ou encoreLuo et al.(2018a,b).
Cependant, leur intégration concerne, dans les cas évoqués précédemment, des
système supervisés. Rares sont les utilisations de vecteurs de mot au sein d’un
système à base de connaissances. On peut tout de même citer les travaux deChen
et al. (2014) dans lesquels les auteurs entraînent un modèle de vecteurs de mot
similaire à Word2Vec, puis créent des vecteurs de sens à partir de leur définition
dans WordNet, et proposent un nouvel algorithme de DL utilisant uniquement ces
vecteurs de sens.
Dans nos travaux, nous allons explorer la création de vecteurs de sens similaires
à ceux deChen et al.(2014), ainsi que leur application dans une nouvelle méthode
pour l’extension de la mesure de Lesk, à la manière du Lesk étendu (Banerjee et
Pedersen,2002) mais sans utiliser de réseau lexical construit manuellement.
Les travaux présentés dans ce chapitre sont issus de deux de nos articles :Vial
et al.(2017c) (en français) etVial et al.(2017a) (en anglais).
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 111-121)