• Aucun résultat trouvé

Enrichissement des systèmes de traduction avec des sens . 110

2.6 Traduction automatique et désambiguïsation lexicale

2.6.1 Enrichissement des systèmes de traduction avec des sens . 110

Une manière évidente pour enrichir un système de TA avec des sens donnés

par un système de DL consiste à désambiguïser le texte source en amont, puis à se

servir de ces prédictions pour influencer le comportement du système de TA.

Dans cette section, nous allons voir différentes méthodes pour atteindre cet

objectif et que nous allons séparer en deux groupes : d’un côté les méthodes dites

pré-neuronales, c’est-à-dire dans lesquelles le système de TA utilise une

architec-ture statistique classique telle qu’abordée dans lasection 2.1.2, et de l’autre côté les

méthodes neuronales, qui s’appuient donc sur un système de TA neuronal comme

évoqué dans lasection 2.2.

2.6.1.1 Enrichissement sémantique des systèmes pré-neuronaux

On peut trouver les premières méthodes d’intégration d’un système de DL au

sein d’un système de TA statistique dans la thèse deCarpuat(2008) et dans ses

tra-vaux associés (Carpuat et Wu,2005,2007), ainsi que dans les travaux deCabezas

et Resnik(2005) et deChan et al.(2007a).

Dans la thèse deCarpuat(2008), un système de DL est construit spécialement

pour une tâche « échantillon lexical » (voirfigure 1.5.1.1) du chinois, utilisant

l’in-ventaire de sens HowNet

14

, puis un système de TA statistique classique est entraîné

sur des corpus parallèles chinois-anglais.

En s’appuyant sur le fait que les étiquettes de sens de HowNet ont à la fois une

description textuelle en chinois et en anglais, le système de TA est modifié pour

prendre en compte les prédictions du système de DL appliqué sur le texte source

chinois. Pour cela, les auteurs comparent plusieurs méthodes :

1. En forçant le modèle de traduction chinois-anglais à produire uniquement

des mots anglais présents dans la description du sens prédit par le système

de DL.

2. En laissant le système de TA produire une traduction anglaise complète et en

remplaçant, à postériori, les mots anglais qui ont un sens différent de celui

prédit par le système de DL.

3. En prenant en compte les prédictions du système de DL dans le calcul des

probabilités du système de TA, au même titre que le modèle de langue et le

modèle de traduction.

Les deux premières méthodes dégradent ainsi la performance du système de TA,

tandis que la dernière a tendance à l’améliorer. Dans les travaux de Cabezas et

Resnik(2005) et deChan et al.(2007a), ce sont aussi des méthodes similaires à

cette troisième méthode qui sont utilisées, avec différentes paires de langues, et qui

permettent aussi d’améliorer les résultats du système de traduction.

Dans mes travaux de master (Vial,2016), nous avions aussi intégré les

prédic-tions d’un système de DL au sein d’un système de TA statistique anglais-français,

en utilisant un système de DL plus récent et en prenant en compte les prédictions

de sens lors du calcul des probabilités, et nous avions aussi constaté une nette

amé-lioration des résultats.

2.6.1.2 Enrichissement sémantique des systèmes neuronaux

Comme vu précédemment, avec les systèmes statistiques classiques, plusieurs

travaux ont montré qu’on pouvait améliorer les performances d’un système de TA

grâce aux prédictions d’un système de DL.

Cependant, avec le basculement de paradigme en faveur des architectures

neu-ronales, et les améliorations importantes de leurs performances qui en découlent,

les méthodes d’intégration de sens dans les systèmes de TA neuronaux sont depuis

bien différentes, et nous allons ici les décrire.

Les sens en tant qu’information discrète

Sennrich et Haddow(2016) proposent une méthode permettant d’ajouter

n’im-porte quelle donnée discrète, qu’on appelera trait, en entrée d’un système de TA

neuronal. La méthode consiste à simplement concaténer les vecteurs de mot et

de chaque trait utilisé, et d’apprendre conjointement ces vecteurs avec le reste du

modèle neuronal.

Ainsi, les mots de la langue source sont eux-mêmes considérés comme des

traits, et les auteurs ajoutent d’autres traits linguistiques tels que les lemmes et les

parties du discours. Ils montrent ainsi une amélioration des performances sur deux

tâches de traduction, anglais-allemand et allemand-anglais.

Bien que les auteurs n’aient pas essayé d’utiliser des traits de sens, leur

mé-thode peut facilement s’appliquer à des traits produits par un système de DL. Dans

la thèse deHadj Salah(2018), l’autrice a d’ailleurs mené l’expérience sur un

sys-tème de TA anglais-arabe et arabe-anglais, en désambiguïsant le texte source dans

chacun des cas, à l’aide d’un système de DL supervisé neuronal qui assigne aux

mots un sens provenant de WordNet, et elle a constaté une amélioration

supplé-mentaire par rapport au simple ajout des lemmes et des parties du discours.

Pu et al. (2018) mènent une expérience similaire, mais ils utilisent cette fois

un système de désambiguïsation non supervisé, dans lequel des vecteurs de sens

sont créés à partir de leur définition dans WordNet, et où des groupes sont ensuite

formés à partir de leur proximité dans l’espace vectoriel. Enfin, ces vecteurs de

sens sont intégrés à plusieurs systèmes de TA neuronaux et là encore ils constatent

une amélioration systématique des résultats.

Enfin,Vanmassenhove et Way(2018) utilisent une méthode de DL qui assigne

aux mots une des 41 catégories de supersenses de WordNet (des catégories de

sens générales telles que « social », « cognition », etc.), et ils intègrent ces traits à

un système de TA avec la méthode deSennrich et Haddow(2016). Cette fois, les

auteurs ne concluent pas à des améliorations significatives, mais tout de même à

une vitesse de convergence plus élevée.

Les sens en tant qu’information continue

Liu et al. (2018) proposent une méthode pour intégrer indirectement les

in-formations d’un système de DL à un système de TA neuronal. Ils s’appuient sur

l’architecture de DL neuronale de Kågebäck et Salomonsson (2016) (voir

sec-tion 1.4.2.2) et celle de Yuan et al.(2016) (voir section 1.4.2.3) afin d’apprendre

des vecteurs de contexte, puis ils concatènent ces vecteurs de contexte aux vecteurs

de mot en entrée du système de TA.

Plus précisément, les auteurs entraînent un premier modèle qu’ils appellent

« modèle de contexte » et qui a pour objectif de prédire un motx

t

à l’indiceten

fonction des mots le précédant(x

0

, . . . , x

t−1

)et des mots le suivant(x

t+1

, . . . , x

n

).

Le modèle fondé sur l’architecture de Kågebäck et Salomonsson (2016) utilise

pour cela deux couches LSTM (avant et arrière), tandis que le modèle fondé sur

l’architecture deYuan et al.(2016) utilise une seule couche LSTM (avant) et un

symbole spécial pour masquer le mot à prédire.

En concaténant ensuite les vecteurs de contexte avec les vecteurs de mot en

entrée du système de TA, les auteurs constatent ainsi une amélioration notable de

ses performances.

Ce qu’on peut remarquer, en plus de ces gains de performances, c’est que cet

article propose finalement, à travers son modèle de contexte, la même chose que les

modèles de langue comme ELMo et BERT cités précédemment (section 1.3.3.2),

parallèles utilisés pour le système de traduction uniquement.

Dans nos contributions (chapitre 7), nous comparerons les méthodes qui

consistent à ajouter des sens en tant qu’information discrète à un système de TA,

et les méthodes qui considèrent indirectement les sens à partir d’un modèle de

langue.

2.6.2 Capacité de désambiguïsation des systèmes de traduction

Si les méthodes dont on a parlé précédemment visent à améliorer les systèmes

de traduction grâce aux informations extraites d’un système de désambiguïsation,

d’autres travaux étudient directement les capacités intrinsèques qu’ont les systèmes

de traduction à désambiguïser. En effet, si un modèle neuronal de TA est entraîné

sur suffisament de données parallèles, il est déjà capable de traduire correctement

un mot ambigu ayant plusieurs traductions possibles, par sa bonne traduction.

Rios et al.(2017) proposent ainsi une nouvelle tâche d’évaluation pour la TA

intitulée ContraWSD (contra étant l’abbréviation decontrastive), dans laquelle on

donne un ensemble de phrases dans une langue source, avec pour chaque phrase un

mot ambigu. Pour chaque phrase, on fournit une traduction de référence dans une

langue cible, ainsi que plusieurs autres traductions contrastives, dans lesquelles

le mot ambigu est remplacé par un autre (une mauvaise traduction). L’objectif des

systèmes de TA évalués est finalement de donner un score plus élevé pour la

traduc-tion de référence que pour les traductraduc-tions contrastives, en se servant des prédictraduc-tions

du décodeur.

La tâche propose deux paires de langues : anglais et

allemand-français, et elle sera ensuite reprise dans la campagne d’évaluation WMT 2018

(Rios et al., 2018). Elle permettra notamment de prendre directement en compte

une sortie de traduction d’un modèle de TA neuronal plutôt qu’un seul score.

Tang et al. (2018, 2019) étudient ainsi séparément les capacités de chaque

couche d’un encodeur et de plusieurs mécanismes d’attention pour

désambiguï-ser les mots, et ils évaluent leurs systèmes notamment sur ContraWSD.

Pour finir, on peut citer les travaux deMarvin et Koehn(2018), dans lesquels les

auteurs évaluent la capacité de désambiguïsation d’un système de TA neuronal sur

quelques exemples sélectionnés manuellement, afin de montrer que les systèmes

récents ont encore de grandes lacunes pour déterminer le sens de certains mots très

polysémiques.

On notera que tous ces travaux permettent seulement d’estimer la capacité d’un

système de TA à distinguer différents sens d’un mot dans le cadre d’une traduction

entre deux langues spécifiques, mais pas de manière absolue. Par exemple, le terme

« souris » se traduit en anglais par « mouse », qu’il soit employé dans son sens de

rongeur ou celui de périphérique informatique, alors il est impossible de savoir si

un système de TA français-anglais est bien capable de reconnaître le bon sens du

mot souris en regardant uniquement sa sortie.

2.7 Conclusion

Comme on a pu le voir dans ce chapitre, la traduction automatique est une

des toutes premières tâches du TAL à avoir vu le jour, et elle reste une des tâches

fondamentales aujourd’hui. En effet, elle est au cœur d’enjeux importants comme

l’apprentissage ou la compréhension de langues étrangères.

La traduction automatique est, en pratique, complexe à mettre en œuvre comme

à évaluer, entre autres, car elle fait appel à de nombreux critères subjectifs (le style

d’écriture, la culture, etc.).

Bien que plusieurs approches pour la construction de systèmes de TA existent,

dont les systèmes à base de règles et les systèmes statistiques, la grande majorité

des travaux portent aujourd’hui sur les systèmes qui s’appuient sur un réseau de

neurones, ou systèmes de TA neuronaux.

La recherche en TA neuronale a grandement influencé la recherche dans les

autres domaines du TAL. En effet, les systèmes séquence à séquence, les modèles

d’attention et l’architecture Transformer sont au moins trois avancées majeures

imaginées d’abord pour la TA et qui ont ensuite été reprises dans de nombreux

autres modèles neuronaux pour d’autres tâches.

Les systèmes de TA neuronaux, à l’instar des systèmes statistiques, s’appuient

presque uniquement sur des corpus parallèles pour leur apprentissage, ainsi que

pour leur évaluation. Avoir ces ressources pour une paire de langues visée, et en

avoir en grande quantité, est donc primordial afin de construire des systèmes de

traduction de bonne qualité. Cependant, on a recensé dans lasection 2.4plusieurs

méthodes employées dans le cas des langues moins dotées.

Finalement, nous avons réalisé un tour d’horizon des travaux alliant la

désam-biguïsation lexicale à la traduction automatique dans lasection 2.6. Certaines

mé-thodes consistent à ajouter aux mots des étiquettes de sens issues d’un inventaire

de sens (WordNet ou supersenses plus généraux), tandis que d’autres méthodes

intègrent directement un modèle de langue, qui n’est donc pas rattaché à un

inven-taire de sens particulier.

Dans nos contributions aux chapitre 7 et chapitre 8, nous allons d’une part

étudier et comparer ces deux approches d’intégration de sens dans un système de

TA neuronal (avec et sans inventaire de sens) ainsi que plusieurs méthodes (trait

supplémentaire en entrée ou apprentissage guidé par la sortie), et d’autre part

étu-dier les capacités et l’intérêt d’un modèle joint de désambiguïsation lexicale et de

traduction automatique.

Deuxième partie

Contributions

Chapitre 3

Vecteurs de sens pour la

désambiguïsation à base de

similarité sémantique

3.1 Introduction

Parmi les différentes approches pour la désambiguïsation lexicale que nous

avons décrites précédemment (voirsection 1.4), celles qui obtiennent en pratique

des résultats état de l’art sont le plus souvent les approches supervisées, dans

les-quelles un classifieur est entraîné sur une grande quantité de textes annotés en

sens. Les approches à base de connaissances, à l’inverse, obtiennent généralement

de moins bons résultats, mais nécessitent aussi beaucoup moins de ressources pour

fonctionner.

En effet, parce que ces dernières s’appuient uniquement sur des bases de

connaissances, il en découle plusieurs avantages, notamment :

— une meilleure couverture des systèmes sur les données d’évaluation, car ils

ne sont pas tributaires des sens observés lors de l’apprentissage ;

— une meilleure généralisation des méthodes à d’autres langues, car on peut

trouver des bases de connaissances dans de nombreuses langues (à minima

des dictionnaires), au contraire des corpus annotés en sens, qui ne sont

dis-ponibles que pour des langues très dotées telles que l’anglais.

Ce deuxième point est important à relever, car l’annotation de corpus en sens

est extrêmement lourde, et peu de langues disposent de ce type de ressource.

1

Pour ces raisons, nous présentons dans ce chapitre des travaux qui s’articulent

autour des approches à base de connaissances et nous présentons plus

particu-lièrement une extension d’un système fondé sur l’algorithme de Lesk (voir

sec-tion 1.4.1.1), à l’aide de vecteurs de sens créés à partir de leur définition dans

WordNet, et d’un modèle de vecteurs de mot pré-entraînés.

En effet, les modèles pré-entraînés de vecteurs de mot, tels que Word2Vec

(Mi-kolov et al., 2013), GloVe, (Pennington et al., 2014) ou encore ceux de Levy et

Goldberg (2014) qui reposent sur des dépendances syntaxiques, ont montré des

gains intéressants dans de nombreuses tâches du TAL. Ils sont notamment

utili-sés dans plusieurs méthodes de DL telles queIacobacci et al. (2016), Yuan et al.

(2016) ou encoreLuo et al.(2018a,b).

Cependant, leur intégration concerne, dans les cas évoqués précédemment, des

système supervisés. Rares sont les utilisations de vecteurs de mot au sein d’un

système à base de connaissances. On peut tout de même citer les travaux deChen

et al. (2014) dans lesquels les auteurs entraînent un modèle de vecteurs de mot

similaire à Word2Vec, puis créent des vecteurs de sens à partir de leur définition

dans WordNet, et proposent un nouvel algorithme de DL utilisant uniquement ces

vecteurs de sens.

Dans nos travaux, nous allons explorer la création de vecteurs de sens similaires

à ceux deChen et al.(2014), ainsi que leur application dans une nouvelle méthode

pour l’extension de la mesure de Lesk, à la manière du Lesk étendu (Banerjee et

Pedersen,2002) mais sans utiliser de réseau lexical construit manuellement.

Les travaux présentés dans ce chapitre sont issus de deux de nos articles :Vial

et al.(2017c) (en français) etVial et al.(2017a) (en anglais).