Corpus annotés en sens pour l’entraînement de systèmes supervisés 142

1. https://wordnet.princeton.edu/documentation/wnstats7wn_{. Consulté}

_t Couche d'entrée Couches cachées Mots (indices) Couche de sortie Sens (indices)

2. https://github.com/google-research/bert_{. Consulté le 28/04/20.}

3. https://pytorch.org

Corpus annotés en sens pour l’entraînement de systèmes supervisés 142

systèmes supervisés

Les corpus annotés en sens sont la matière première des approches supervisées

pour la DL, et leur utilisation ou non en tant que données d’entraînement est ainsi

un choix crucial.

Le SemCor (Miller et al., 1993) est indéniablement le corpus le plus utilisé

en tant que données d’entraînement dans les systèmes supervisés. Il est en effet la

source principale de données annotées des meilleurs systèmes depuis la création

des premières campagnes d’évaluation (Hoste et al., 2001; Decadt et al., 2004)

jusqu’aux systèmes les plus récents (Yuan et al., 2016; Raganato et al., 2017b;

Luo et al.,2018a,b;Loureiro et Jorge,2019).

D’autres corpus sont aussi utilisés dans un plus faible nombre de travaux. C’est

le cas, par exemple, du DSO (Ng et Lee,1997) qui est utilisé en plus du SemCor

dans le système NUS-PT (Chan et al.,2007b), le meilleur système de la campagne

d’évaluation SemEval 2007 (Navigli et al., 2007) ou de l’OMSTI (Taghipour et

Ng, 2015b), un corpus d’un million de mots annotés en sens, utilisé notamment

parIacobacci et al.(2016) en remplacement du SemCor et qui permet aux auteurs

d’obtenir leurs meilleurs résultats. On peut aussi citer le MASC (Ide et al.,2008),

un corpus utilisé dans le récent travail deYuan et al.(2016) pour l’évaluation de

On remarque ainsi qu’aucun travail n’utilise l’ensemble des corpus annotés en

sens disponibles, et rares sont ceux qui justifient l’emploi d’un corpus plutôt qu’un

autre. Jusqu’à récemment, ces ressources pouvaient être difficiles d’accès et

d’uti-lisation, notamment à cause des différents inventaires de sens utilisés (différentes

versions de WordNet, ou même d’autres bases lexicales), ou bien des différents

formats de fichiers. Cependant, avec nos travaux sur la ressource UFSAC (voir

chapitre 4) contenant l’ensemble des corpus annotés en sens cités précédemment,

dans un format et un inventaire de sens unifiés, leur utilisation est facilitée. Ainsi,

nous proposons d’entraîner pour la première fois un système supervisé à partir de

toutes ces données.

Dans le tableau 5.1, nous présentons une synthèse des différences notables

entre les corpus que nous utiliserons pour l’apprentissage. Nous avons considéré

tous les corpus d’UFSAC à l’exception des corpus d’évaluation de SensEval et

Se-mEval afin de pouvoir évaluer nos systèmes sur l’ensemble de ces tâches. De plus,

dans notre analyse, nous excluons certaines annotations en sens :

— D’abord, on exclut les annotations à gros grains, c’est-à-dire les

annota-tions pour lesquelles, soit l’annotateur n’a pas pu choisir un seul sens, soit la

conversion d’un inventaire lexical à un autre (par ex. d’une ancienne version

de WordNet à WordNet 3.0) a laissé une ambiguïté entre plusieurs sens.

— Ensuite, on exclut les annotations sur les mots monosémiques. En effet, ces

annotations apportent moins d’informations dans le cas de notre analyse

que les annotations sur les mots polysémiques, du fait qu’elles peuvent être

créées de façon triviale.

Ces chiffres font ainsi ressortir les caractéristiques propres de chaque corpus.

Comme nous pouvons le voir, l’OMSTI et le Train-O-Matic sont les plus grands

corpus en termes de nombre de mots annotés et non annotés, mais ils sont ceux

qui ont le plus faible ratio entre ces deux nombres : moins d’un mot sur trente est

effectivement annoté en sens, là où pour le SemCor, près d’un mot sur quatre est

annoté, et pour le WNGC, près d’un mot sur cinq. Enfin, l’OntoNotes, le DSO et

le MASC ont aussi cette caractéristique d’avoir un faible ratio de mots annotés

(moins d’un mot sur douze).

Pour ce qui est de la diversité des lemmes, le WNGC se démarque le plus des

autres corpus avec 19 149 lemmes différents annotés en sens, mais le SemCor et

l’OMSTI en ont aussi beaucoup avec respectivement 11 646 et 11 125. À l’extrême

opposé, le DSO ne contient que 191 lemmes différents. À noter que le nombre de

lemmes polysémiques dans WordNet 3.0 s’élève à 26 896

.

Corpus SemCor DSO WNGC MASC OMSTI OntoNotes

Train-O-Matic Tous

Nombre de mots, en milliers

(w

) 779 2 705 1 635 585 36 637 2 476 31 708 76 525

Nombre de mots annotés en

sens, en milliers (w

) 189 176 329 45 1 074 75 719 2 608

Ratiow

/w

0,24 0,07 0,20 0,08 0,03 0,03 0,02 0,03

Nombre de lemmes distincts

annotés en sens 11 646 191 19 149 3 766 11 125 2 124 1 100 20 346

Nombre d’exemples par lemme

en moyenne 16 922 17 12 97 35 654 128

Nombre d’exemples par sens en

moyenne 8 125 8 9 48 21 138 52

Polysémie moyenne dans

WordNet des lemmes présents

dans le corpus (p

)

3,66 10,62 3,18 4,41 3,71 5,35 4,95 3,14

Polysémie moyenne dans

le corpus des lemmes présents

Corpus _SemCor _DSO _WNGC _MASC _OMSTI _OntoNotes

Train-O-Matic ^Tous

₎ ⁷⁷⁹ ^{2 705} ^{1 635} ⁵⁸⁵ ^{36 637} ^{2 476} ^{31 708} ^{76 525}

) ¹⁸⁹ ¹⁷⁶ ³²⁹ ⁴⁵ ^{1 074} ⁷⁵ ⁷¹⁹ ^{2 608}

_0,24 _0,07 _0,20 _0,08 _0,03 _0,03 _0,02 _0,03

annotés en sens ^{11 646} ¹⁹¹ ^{19 149} ^{3 766} ^{11 125} ^{2 124} ^{1 100} ^{20 346}

en moyenne ¹⁶ ⁹²² ¹⁷ ¹² ⁹⁷ ³⁵ ⁶⁵⁴ ¹²⁸

moyenne ⁸ ¹²⁵ ⁸ ⁹ ⁴⁸ ²¹ ¹³⁸ ⁵²

₎

₎

_0,53 _0,69 _0,71 _0,28 _0,54 _0,31 _0,96 _0,78

— Unecouche d’entrée_{, qui transforme les mots en vecteurs.}

— Un ensemble decouches cachées_{, qui calculent une nouvelle représentation}

— Unecouche de sortie_{, qui attribue une probabilité de sens à chacun des mots.}