• Aucun résultat trouvé

5.4 Protocole expérimental

5.5.3 Analyse des erreurs

Afin de mieux comprendre l’impact du choix du corpus d’entraînement sur

la qualité des annotations produites par notre système, nous proposons dans cette

section une analyse plus fine des sorties, en nous appuyant sur les statistiques du

ta-bleau 5.6. Ces chiffres sont calculés avec les sorties de nos systèmes sur l’ensemble

des corpus d’évaluation (tâche « ALL ») et sans la stratégie de repli.

Tout d’abord la première chose que l’on peut remarquer, dans les deux

pre-mières sections du tableau, est que sur les 7 253 mots à annoter, l’ajout du WNGC

aux données d’entraînement permet d’annoter 364 mots de plus qu’en utilisant le

SemCor seul, soit une couverture supplémentaire d’environ 5% des mots à

an-noter. En ajoutant l’intégralité d’UFSAC, c’est 67 mots supplémentaires qui sont

couverts, soit environ 1% du total des mots à annoter. Concernant les autres

mé-triques, la précision du système entraîné sur SemCor+WNGC est améliorée de

plus de 2 points par rapport à celui entraîné sur le SemCor, mais elle est dégradée

d’un peu moins de 2 points en utilisant l’ensemble UFSAC. Au niveau du rappel,

l’ensemble UFSAC est meilleur que le SemCor seul, mais c’est toujours le couple

SemCor+WNGC qui est en tête, de même que pour la mesure F1.

La troisième section du tableau, « Moyenne du nombre de sens dans WordNet »,

montre une tendance visible sur les trois systèmes : les mots mal annotés sont

généralement aussi les plus polysémiques. Cette statistique permet de rappeler que

même pour les systèmes de désambiguïsation les plus performants, la distinction

extrêmement « fine » entre les sens de WordNet reste un des challenges principaux

de cette tâche. Pour rappel, le verbe « make » a, par exemple, 49 sens différents

dans WordNet 3.0.

Dans la quatrième section, « Nombre moyen d’exemples du lemme cible »,

on peut voir un indice supplémentaire pour montrer la qualité du SemCor et du

WNGC par rapport aux autres corpus annotés en sens. En effet, on peut voir que le

rapport entre le nombre moyen d’exemples des lemmes des mots bien annotés sur

ceux des mots mal annotés est supérieur pour le SemCor et le WNGC par rapport

à l’ensemble UFSAC. Cela tend à montrer que, sur les corpus de bonne qualité,

plus il y a d’exemples d’un lemme et plus il y a de chances de bien désambiguïser

ce lemme. On peut aussi émettre l’hypothèse que parfois, un trop grand nombre

d’exemples dans le corpus d’entraînement va nuire à l’apprentissage des systèmes

supervisés en ajoutant plus de bruit que d’informations pertinentes.

Corpus d’entraînement SemCor SC+WNGC UFSAC

Nombre de mots

total des mots à annoter 7 253 7 253 7 253

mots non annotés 491 127 60

mots bien annotés 5 009 5 474 5 225

mots mal annotés 1 753 1 652 1 968

Métriques

Couverture (C) 93,23% 98,25% 99,17%

Précision (P) 74,08% 76,82% 72,64%

Rappel (R) 69,06% 75,47% 72,04%

F-mesure (F1) 71,48% 76,14% 72,34%

Moyenne du nombre de sens dans WordNet

mots bien annotés 5,42 5,19 4,89

mots mal annotés 8,26 8,28 8,49

Nombre moyen d’exemples du lemme cible dans le corpus d’entraînement

(a) mots bien annotés 125 223 1 318

(b) mots mal annotés 174 308 2 001

rapport a/b 0,72 0,72 0,66

Nombre moyen d’exemples du sens attendu dans le corpus d’entraînement

(a) mots bien annotés 77 135 675

(b) mots mal annotés 22 42 397

rapport a/b 3,50 3,21 1,70

Représentation des différents sens du lemme cible dans le corpus d’entraînement

mots bien annotés 1,77 2,23 2,20

mots mal annotés 0,72 1,17 1,41

Nombre de mots mal annotés dont le

sens attendu n’est jamais représenté

dans le corpus d’entraînement

494 113 40

Table 5.6 – Analyse des erreurs commises sur l’ensemble des corpus d’évaluation

(tâche « ALL ») par nos systèmes en fonction du corpus d’entraînement.

Ensuite, le nombre d’exemples du sens attendu dans le corpus d’entraînement

montre que les sens les plus vus dans les données d’apprentissage sont

généra-lement plus souvent choisis par le système. Autrement dit, si un sens est souvent

représenté, que ce soit dans un contexte pertinent ou bien dans un contexte bruité,

le système aura plus souvent tendance à le sélectionner. Là encore, on voit une nette

différence entre les corpus SemCor et WNGC par rapport à l’ensemble UFSAC :

pour ce dernier, le rapport du nombre de sens des mots bien annotés sur les mots

mal annotés est bien en dessous des deux autres corpus, ce qui tend à montrer que,

même si un sens est souvent représenté dans ce corpus, ces exemples n’aident pas

forcément notre système à correctement le désambiguïser.

L’avant-dernière section « Représentation des différents sens » met en avant

une statistique particulière : pour les mots bien et mal annotés, est-ce que les

diffé-rents sens du lemme cible étaient représentés de manière équilibrée dans le corpus

d’entraînement ? Ces chiffres s’appuient sur la formule suivante :

nombre d

0

exemples du sens cible

nombre d

0

exemples du lemme cible ∗nombre de sens du lemme cible

Plus le chiffre est proche de1, et plus la représentation du sens est « équilibrée »,

c’est-à-dire qu’il n’est pas sur-représenté ni sous-représenté par rapport aux autres

sens possibles du lemme. Sur nos trois systèmes, les chiffres montrent qu’en

gé-néral, les mots bien annotés ont en moyenne un sens qui est quasiment deux fois

plus représenté que les autres sens, et les sens mal assignés sont moins représentés

dans le cas du SemCor, et assez équilibrés dans le cas de l’ensemble de corpus.

Enfin, les derniers chiffres du tableau mettent en avant le fait que, dans de

nom-breux cas, sur ces corpus d’évaluation, même si le système est capable d’annoter

un mot en sens, il ne pourra jamais sélectionner le sens attendu, tout simplement

parce qu’il ne l’a jamais observé pendant l’apprentissage. C’est le cas pour 494

mots, pour le système appris sur le SemCor, ce qui correspond à plus de 6,8% du

total des mots à annoter, qu’aucun système supervisé appris sur ces données ne

serait capable d’annoter correctement. Pour le système SC+WNGC ce chiffre est

de 1,5%, et pour l’ensemble UFSAC, il tombe à 0,5% du total des mots à annoter,

cela montre ainsi l’intérêt d’utiliser plus de données annotées pour l’entraînement

de systèmes supervisés robustes.

Pour conclure, ces statistiques permettent de mieux se rendre compte de

l’im-pact des corpus choisis pour l’entraînement sur les performances de notre système,

mais aussi de l’importance de la quantité et de la qualité des données annotées en

sens pour l’entraînement de systèmes supervisés en général.

En effet, si la majorité des systèmes supervisés sont entraînés sur le SemCor

seulement, très peu sont les travaux qui justifient son utilisation plutôt qu’un autre

corpus. Avec l’ensemble des corpus annotés en sens WordNet maintenant

facile-ment accessibles et dans un format unifié, il est désormais plus facile d’identifier

et de sélectionner des corpus ou même seulement des parties de corpus qui seront

bénéfiques aux systèmes de désambiguïsation supervisés.

5.6 Conclusion

Nous présentons dans ce chapitre une nouvelle architecture de réseau

neuro-nal pour la désambiguïsation lexicale fondée sur trois couches : tout d’abord une

couche d’entrée, qui permet de convertir des mots sous forme vectorielle, soit à

l’aide de vecteurs statiques pré-entraînés, entraînés conjointement avec le modèle,

ou encore avec des vecteurs pré-entraînés contextualisés ; ensuite, un ensemble

de couches cachées, permettant d’utiliser des cellules récurrentes (LSTM) ou un

encodeur Transformer ; et enfin, une couche de sortie qui permet d’assigner une

probabilité sur tous lessynsetsvus pendant l’entraînement.

Après avoir mené une analyse des corpus UFSAC pour l’entraînement d’un

système comme le nôtre, nous avons décidé d’entraîner notre modèle neuronal sur

trois ensembles : le SemCor, parce qu’il est utilisé dans la grande majorité des

travaux de l’état de l’art, le couple SemCor+WNGC, parce que ce dernier nous

semble être d’aussi bonne qualité que le SemCor, et tous les corpus d’entraînement

d’UFSAC, à savoir le SemCor, le DSO, le WNGC, l’OMSTI, le MASC,

l’Onto-notes et le Train-O-Matic. Nous avons évalué notre système sur toutes les tâches

de DL des campagnes d’évaluation SensEval/SemEval.

Notre système se distingue par sa simplicité, tout en obtenant des résultats

sur-passant l’état de l’art sur toutes les tâches de désambiguïsation lexicale. Nous avons

ainsi montré qu’en utilisant aussi le SemCor comme seules données

d’entraîne-ment, et BERT comme modèle de langue pré-entraîné, nous obtenons des résultats

supérieurs à ceux deLoureiro et Jorge(2019). En ajoutant le WordNet Gloss

Cor-pus aux données d’entraînement, notre système utilise des ressources comparables

à Huang et al.(2019) (qui utilisent les définitions de WordNet non annotées), et

nous obtenons encore des résultats bien supérieurs.

Cependant, nous avons aussi montré dans nos résultats que l’utilisation de tous

les corpus de la ressource UFSAC pouvait nuire à l’apprentissage, du fait d’une

trop grande quantité de bruit apporté par les corpus non annotés manuellement.

Afin d’aller plus loin, nous avons présenté une analyse fine des résultats de nos

systèmes afin de comprendre l’impact du choix des corpus d’entraînement pour

l’apprentissage d’un système supervisé tel que le nôtre. Nous montrons ainsi les

effets positifs d’utiliser davantage de données annotées en sens, mais aussi les

pro-blèmes que peuvent apporter des données de moins bonne qualité. Nous espérons

ainsi voir se développer des approches supervisées utilisant d’autres corpus que le

SemCor uniquement, notamment le couple SemCor+WNGC.

Finalement, nous avons mis en avant l’importance d’entraîner plusieurs

ré-seaux de neurones séparément et de moyenner leurs prédictions au sein d’un

sys-tème « ensemble » qui permet de maximiser les performances de nos syssys-tèmes.

Les études sur les réseaux de neurones pour la désambiguïsation lexicale sont

encore très récentes comme en atteste le faible nombre de systèmes existants pour

le moment. C’est cependant une direction prometteuse, tant les résultats obtenus

par ces nouveaux systèmes ont montré leur qualité dans les campagnes

d’évalua-tion.

Chapitre 6

Compression de vocabulaire de sens

6.1 Introduction

Comme on l’a vu au chapitre 1, en désambiguïsation lexicale, les méthodes

supervisées sont de loin les plus représentées car elles offrent généralement les

meilleurs résultats dans les campagnes d’évaluation (par exemple (Navigli et al.,

2007)). Les classifieurs état de l’art combinaient jusqu’à récemment des

caracté-ristiques précises telles que les parties du discours et les lemmes des mots

voi-sins, (Zhong et Ng, 2010), mais ils sont maintenant remplacés par des réseaux

de neurones récurrents qui apprennent leur propre représentation des mots (voir

chapitre 5).

Une des limitations majeures des systèmes supervisés est la quantité limitée de

corpus manuellement annotés en sens. En effet, le SemCor (Miller et al.,1993), qui

est le plus grand corpus manuellement annoté en sens disponible, contient 33 760

labels de sens différents, ce qui correspond à seulement 16% environ de l’inventaire

de sens de WordNet

1

(Miller et al.,1990).

De nombreux travaux tentent de résoudre ce problème via la création de

nou-veaux corpus annotés en sens, générés soit automatiquement (Pasini et Navigli,

2017), soit semi-automatiquement (Taghipour et Ng, 2015b), ou bien par

crowd-sourcing(Yuan et al.,2016). Ces corpus ainsi que d’autres sont ainsi tous

regrou-pés au sein d’une même ressource grâce à nos travaux (voirchapitre 4), mais on

a vu au chapitre précédent qu’ils ne sont pas tous d’aussi bonne qualité que le

SemCor et apportent ainsi du bruit qui peut nuire à l’apprentissage.

Dans ce chapitre, nous allons explorer une nouvelle solution à ce problème en

tirant parti des relations sémantiques présentes entre les sens de WordNet comme

l’hyperonymie, l’hyponymie, l’antonymie, la méronymie, etc. afin d’étendre la

couverture d’un même corpus, sans perdre en qualité.

Notre méthode est fondée sur les observations suivantes :

1. Un sens et ses sens voisins dans le graphe des relations sémantiques de

Word-Net véhiculent tous une même idée ou concept, à des niveaux d’abstraction

différents.

2. Dans certains cas, un mot peut être désambiguïsé en utilisant seulement les sens

voisins de ses sens, et pas nécessairement ses sens propres.

3. Par conséquent, nous n’avons pas besoin de connaître tous les sens de WordNet

pour désambiguïser tous les mots de WordNet.

Par exemple, considérons le mot « souris » et deux de ses sens : la souris

d’or-dinateur et la souris l’animal. Les notions plus générales comme « être vivant »

(hyperonyme de souris/animal) et « appareil électronique » (hyperonyme de

sou-ris/ordinateur), permettent déjà de distinguer les deux sens, et toutes les notions

plus spécialisées telles que « rongeur » ou « mammifère » sont, elles, superflues.

En regroupant ces étiquettes de sens ensemble, on peut bénéficier de tous les autres

exemples mentionnant un appareil électronique ou un être vivant dans un corpus

d’entraînement, même si le mot « souris » n’est pas mentionné spécifiquement,

pour désambiguïser le mot « souris ».

Dans ce chapitre, nous émettons ainsi l’hypothèse que seul un sous-ensemble

des sens de WordNet peut être considéré pour pouvoir désambiguïser tous les mots

de la base lexicale. Par conséquent, nous proposons deux méthodes différentes pour

construire ce sous-ensemble que nous appelons méthodes de compression de

vo-cabulaire de sens. En utilisant ces techniques, nous sommes en mesure d’améliorer

considérablement la couverture des systèmes de DL supervisés, en éliminant

qua-siment le besoin d’une stratégie de repli habituellement employée pour les mots

jamais observés pendant l’entraînement. Nous présentons des résultats qui

sur-passent l’état de l’art de façon significative sur toutes les tâches d’évaluation de

la DL, et nous fournissons à la communauté notre outil ainsi que nos meilleurs

modèles pré-entraînés, sur notre dépôt GitHub dédié

2

.

Les travaux présentés dans ce chapitre sont issus de deux de nos articles de

conférence :Vial et al.(2019c) (en français) etVial et al.(2019a) (en anglais).