5.4 Protocole expérimental
5.5.3 Analyse des erreurs
Afin de mieux comprendre l’impact du choix du corpus d’entraînement sur
la qualité des annotations produites par notre système, nous proposons dans cette
section une analyse plus fine des sorties, en nous appuyant sur les statistiques du
ta-bleau 5.6. Ces chiffres sont calculés avec les sorties de nos systèmes sur l’ensemble
des corpus d’évaluation (tâche « ALL ») et sans la stratégie de repli.
Tout d’abord la première chose que l’on peut remarquer, dans les deux
pre-mières sections du tableau, est que sur les 7 253 mots à annoter, l’ajout du WNGC
aux données d’entraînement permet d’annoter 364 mots de plus qu’en utilisant le
SemCor seul, soit une couverture supplémentaire d’environ 5% des mots à
an-noter. En ajoutant l’intégralité d’UFSAC, c’est 67 mots supplémentaires qui sont
couverts, soit environ 1% du total des mots à annoter. Concernant les autres
mé-triques, la précision du système entraîné sur SemCor+WNGC est améliorée de
plus de 2 points par rapport à celui entraîné sur le SemCor, mais elle est dégradée
d’un peu moins de 2 points en utilisant l’ensemble UFSAC. Au niveau du rappel,
l’ensemble UFSAC est meilleur que le SemCor seul, mais c’est toujours le couple
SemCor+WNGC qui est en tête, de même que pour la mesure F1.
La troisième section du tableau, « Moyenne du nombre de sens dans WordNet »,
montre une tendance visible sur les trois systèmes : les mots mal annotés sont
généralement aussi les plus polysémiques. Cette statistique permet de rappeler que
même pour les systèmes de désambiguïsation les plus performants, la distinction
extrêmement « fine » entre les sens de WordNet reste un des challenges principaux
de cette tâche. Pour rappel, le verbe « make » a, par exemple, 49 sens différents
dans WordNet 3.0.
Dans la quatrième section, « Nombre moyen d’exemples du lemme cible »,
on peut voir un indice supplémentaire pour montrer la qualité du SemCor et du
WNGC par rapport aux autres corpus annotés en sens. En effet, on peut voir que le
rapport entre le nombre moyen d’exemples des lemmes des mots bien annotés sur
ceux des mots mal annotés est supérieur pour le SemCor et le WNGC par rapport
à l’ensemble UFSAC. Cela tend à montrer que, sur les corpus de bonne qualité,
plus il y a d’exemples d’un lemme et plus il y a de chances de bien désambiguïser
ce lemme. On peut aussi émettre l’hypothèse que parfois, un trop grand nombre
d’exemples dans le corpus d’entraînement va nuire à l’apprentissage des systèmes
supervisés en ajoutant plus de bruit que d’informations pertinentes.
Corpus d’entraînement SemCor SC+WNGC UFSAC
Nombre de mots
total des mots à annoter 7 253 7 253 7 253
mots non annotés 491 127 60
mots bien annotés 5 009 5 474 5 225
mots mal annotés 1 753 1 652 1 968
Métriques
Couverture (C) 93,23% 98,25% 99,17%
Précision (P) 74,08% 76,82% 72,64%
Rappel (R) 69,06% 75,47% 72,04%
F-mesure (F1) 71,48% 76,14% 72,34%
Moyenne du nombre de sens dans WordNet
mots bien annotés 5,42 5,19 4,89
mots mal annotés 8,26 8,28 8,49
Nombre moyen d’exemples du lemme cible dans le corpus d’entraînement
(a) mots bien annotés 125 223 1 318
(b) mots mal annotés 174 308 2 001
rapport a/b 0,72 0,72 0,66
Nombre moyen d’exemples du sens attendu dans le corpus d’entraînement
(a) mots bien annotés 77 135 675
(b) mots mal annotés 22 42 397
rapport a/b 3,50 3,21 1,70
Représentation des différents sens du lemme cible dans le corpus d’entraînement
mots bien annotés 1,77 2,23 2,20
mots mal annotés 0,72 1,17 1,41
Nombre de mots mal annotés dont le
sens attendu n’est jamais représenté
dans le corpus d’entraînement
494 113 40
Table 5.6 – Analyse des erreurs commises sur l’ensemble des corpus d’évaluation
(tâche « ALL ») par nos systèmes en fonction du corpus d’entraînement.
Ensuite, le nombre d’exemples du sens attendu dans le corpus d’entraînement
montre que les sens les plus vus dans les données d’apprentissage sont
généra-lement plus souvent choisis par le système. Autrement dit, si un sens est souvent
représenté, que ce soit dans un contexte pertinent ou bien dans un contexte bruité,
le système aura plus souvent tendance à le sélectionner. Là encore, on voit une nette
différence entre les corpus SemCor et WNGC par rapport à l’ensemble UFSAC :
pour ce dernier, le rapport du nombre de sens des mots bien annotés sur les mots
mal annotés est bien en dessous des deux autres corpus, ce qui tend à montrer que,
même si un sens est souvent représenté dans ce corpus, ces exemples n’aident pas
forcément notre système à correctement le désambiguïser.
L’avant-dernière section « Représentation des différents sens » met en avant
une statistique particulière : pour les mots bien et mal annotés, est-ce que les
diffé-rents sens du lemme cible étaient représentés de manière équilibrée dans le corpus
d’entraînement ? Ces chiffres s’appuient sur la formule suivante :
nombre d
0exemples du sens cible
nombre d
0exemples du lemme cible ∗nombre de sens du lemme cible
Plus le chiffre est proche de1, et plus la représentation du sens est « équilibrée »,
c’est-à-dire qu’il n’est pas sur-représenté ni sous-représenté par rapport aux autres
sens possibles du lemme. Sur nos trois systèmes, les chiffres montrent qu’en
gé-néral, les mots bien annotés ont en moyenne un sens qui est quasiment deux fois
plus représenté que les autres sens, et les sens mal assignés sont moins représentés
dans le cas du SemCor, et assez équilibrés dans le cas de l’ensemble de corpus.
Enfin, les derniers chiffres du tableau mettent en avant le fait que, dans de
nom-breux cas, sur ces corpus d’évaluation, même si le système est capable d’annoter
un mot en sens, il ne pourra jamais sélectionner le sens attendu, tout simplement
parce qu’il ne l’a jamais observé pendant l’apprentissage. C’est le cas pour 494
mots, pour le système appris sur le SemCor, ce qui correspond à plus de 6,8% du
total des mots à annoter, qu’aucun système supervisé appris sur ces données ne
serait capable d’annoter correctement. Pour le système SC+WNGC ce chiffre est
de 1,5%, et pour l’ensemble UFSAC, il tombe à 0,5% du total des mots à annoter,
cela montre ainsi l’intérêt d’utiliser plus de données annotées pour l’entraînement
de systèmes supervisés robustes.
Pour conclure, ces statistiques permettent de mieux se rendre compte de
l’im-pact des corpus choisis pour l’entraînement sur les performances de notre système,
mais aussi de l’importance de la quantité et de la qualité des données annotées en
sens pour l’entraînement de systèmes supervisés en général.
En effet, si la majorité des systèmes supervisés sont entraînés sur le SemCor
seulement, très peu sont les travaux qui justifient son utilisation plutôt qu’un autre
corpus. Avec l’ensemble des corpus annotés en sens WordNet maintenant
facile-ment accessibles et dans un format unifié, il est désormais plus facile d’identifier
et de sélectionner des corpus ou même seulement des parties de corpus qui seront
bénéfiques aux systèmes de désambiguïsation supervisés.
5.6 Conclusion
Nous présentons dans ce chapitre une nouvelle architecture de réseau
neuro-nal pour la désambiguïsation lexicale fondée sur trois couches : tout d’abord une
couche d’entrée, qui permet de convertir des mots sous forme vectorielle, soit à
l’aide de vecteurs statiques pré-entraînés, entraînés conjointement avec le modèle,
ou encore avec des vecteurs pré-entraînés contextualisés ; ensuite, un ensemble
de couches cachées, permettant d’utiliser des cellules récurrentes (LSTM) ou un
encodeur Transformer ; et enfin, une couche de sortie qui permet d’assigner une
probabilité sur tous lessynsetsvus pendant l’entraînement.
Après avoir mené une analyse des corpus UFSAC pour l’entraînement d’un
système comme le nôtre, nous avons décidé d’entraîner notre modèle neuronal sur
trois ensembles : le SemCor, parce qu’il est utilisé dans la grande majorité des
travaux de l’état de l’art, le couple SemCor+WNGC, parce que ce dernier nous
semble être d’aussi bonne qualité que le SemCor, et tous les corpus d’entraînement
d’UFSAC, à savoir le SemCor, le DSO, le WNGC, l’OMSTI, le MASC,
l’Onto-notes et le Train-O-Matic. Nous avons évalué notre système sur toutes les tâches
de DL des campagnes d’évaluation SensEval/SemEval.
Notre système se distingue par sa simplicité, tout en obtenant des résultats
sur-passant l’état de l’art sur toutes les tâches de désambiguïsation lexicale. Nous avons
ainsi montré qu’en utilisant aussi le SemCor comme seules données
d’entraîne-ment, et BERT comme modèle de langue pré-entraîné, nous obtenons des résultats
supérieurs à ceux deLoureiro et Jorge(2019). En ajoutant le WordNet Gloss
Cor-pus aux données d’entraînement, notre système utilise des ressources comparables
à Huang et al.(2019) (qui utilisent les définitions de WordNet non annotées), et
nous obtenons encore des résultats bien supérieurs.
Cependant, nous avons aussi montré dans nos résultats que l’utilisation de tous
les corpus de la ressource UFSAC pouvait nuire à l’apprentissage, du fait d’une
trop grande quantité de bruit apporté par les corpus non annotés manuellement.
Afin d’aller plus loin, nous avons présenté une analyse fine des résultats de nos
systèmes afin de comprendre l’impact du choix des corpus d’entraînement pour
l’apprentissage d’un système supervisé tel que le nôtre. Nous montrons ainsi les
effets positifs d’utiliser davantage de données annotées en sens, mais aussi les
pro-blèmes que peuvent apporter des données de moins bonne qualité. Nous espérons
ainsi voir se développer des approches supervisées utilisant d’autres corpus que le
SemCor uniquement, notamment le couple SemCor+WNGC.
Finalement, nous avons mis en avant l’importance d’entraîner plusieurs
ré-seaux de neurones séparément et de moyenner leurs prédictions au sein d’un
sys-tème « ensemble » qui permet de maximiser les performances de nos syssys-tèmes.
Les études sur les réseaux de neurones pour la désambiguïsation lexicale sont
encore très récentes comme en atteste le faible nombre de systèmes existants pour
le moment. C’est cependant une direction prometteuse, tant les résultats obtenus
par ces nouveaux systèmes ont montré leur qualité dans les campagnes
d’évalua-tion.
Chapitre 6
Compression de vocabulaire de sens
6.1 Introduction
Comme on l’a vu au chapitre 1, en désambiguïsation lexicale, les méthodes
supervisées sont de loin les plus représentées car elles offrent généralement les
meilleurs résultats dans les campagnes d’évaluation (par exemple (Navigli et al.,
2007)). Les classifieurs état de l’art combinaient jusqu’à récemment des
caracté-ristiques précises telles que les parties du discours et les lemmes des mots
voi-sins, (Zhong et Ng, 2010), mais ils sont maintenant remplacés par des réseaux
de neurones récurrents qui apprennent leur propre représentation des mots (voir
chapitre 5).
Une des limitations majeures des systèmes supervisés est la quantité limitée de
corpus manuellement annotés en sens. En effet, le SemCor (Miller et al.,1993), qui
est le plus grand corpus manuellement annoté en sens disponible, contient 33 760
labels de sens différents, ce qui correspond à seulement 16% environ de l’inventaire
de sens de WordNet
1(Miller et al.,1990).
De nombreux travaux tentent de résoudre ce problème via la création de
nou-veaux corpus annotés en sens, générés soit automatiquement (Pasini et Navigli,
2017), soit semi-automatiquement (Taghipour et Ng, 2015b), ou bien par
crowd-sourcing(Yuan et al.,2016). Ces corpus ainsi que d’autres sont ainsi tous
regrou-pés au sein d’une même ressource grâce à nos travaux (voirchapitre 4), mais on
a vu au chapitre précédent qu’ils ne sont pas tous d’aussi bonne qualité que le
SemCor et apportent ainsi du bruit qui peut nuire à l’apprentissage.
Dans ce chapitre, nous allons explorer une nouvelle solution à ce problème en
tirant parti des relations sémantiques présentes entre les sens de WordNet comme
l’hyperonymie, l’hyponymie, l’antonymie, la méronymie, etc. afin d’étendre la
couverture d’un même corpus, sans perdre en qualité.
Notre méthode est fondée sur les observations suivantes :
1. Un sens et ses sens voisins dans le graphe des relations sémantiques de
Word-Net véhiculent tous une même idée ou concept, à des niveaux d’abstraction
différents.
2. Dans certains cas, un mot peut être désambiguïsé en utilisant seulement les sens
voisins de ses sens, et pas nécessairement ses sens propres.
3. Par conséquent, nous n’avons pas besoin de connaître tous les sens de WordNet
pour désambiguïser tous les mots de WordNet.
Par exemple, considérons le mot « souris » et deux de ses sens : la souris
d’or-dinateur et la souris l’animal. Les notions plus générales comme « être vivant »
(hyperonyme de souris/animal) et « appareil électronique » (hyperonyme de
sou-ris/ordinateur), permettent déjà de distinguer les deux sens, et toutes les notions
plus spécialisées telles que « rongeur » ou « mammifère » sont, elles, superflues.
En regroupant ces étiquettes de sens ensemble, on peut bénéficier de tous les autres
exemples mentionnant un appareil électronique ou un être vivant dans un corpus
d’entraînement, même si le mot « souris » n’est pas mentionné spécifiquement,
pour désambiguïser le mot « souris ».
Dans ce chapitre, nous émettons ainsi l’hypothèse que seul un sous-ensemble
des sens de WordNet peut être considéré pour pouvoir désambiguïser tous les mots
de la base lexicale. Par conséquent, nous proposons deux méthodes différentes pour
construire ce sous-ensemble que nous appelons méthodes de compression de
vo-cabulaire de sens. En utilisant ces techniques, nous sommes en mesure d’améliorer
considérablement la couverture des systèmes de DL supervisés, en éliminant
qua-siment le besoin d’une stratégie de repli habituellement employée pour les mots
jamais observés pendant l’entraînement. Nous présentons des résultats qui
sur-passent l’état de l’art de façon significative sur toutes les tâches d’évaluation de
la DL, et nous fournissons à la communauté notre outil ainsi que nos meilleurs
modèles pré-entraînés, sur notre dépôt GitHub dédié
2.
Les travaux présentés dans ce chapitre sont issus de deux de nos articles de
conférence :Vial et al.(2019c) (en français) etVial et al.(2019a) (en anglais).
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 159-166)