• Aucun résultat trouvé

1.4 Approches

1.5.1 Campagnes d’évaluation

L’évaluationin vitroconsiste à évaluer les systèmes de DL sur des tâches de DL

spécifiques. Elle est rendue possible notamment grâce à la création de la première

campagne d’évaluation nommée SensEval (Kilgarriff, 1998), centrée sur la tâche

de DL. Après deux autres éditions de SensEval, cette campagne a été renommée

en SemEval et touche maintenant à des tâches diverses allant de la reconnaissance

d’entités nommées à de l’analyse de sentiments. Les tâches de DL sont pour autant

toujours régulièrement présentes. Après le premier SensEval, on retrouve au moins

une tâche de DL dans SensEval 2 (Edmonds et Cotton,2001), SensEval 3 (Snyder

et Palmer, 2004), SemEval 2007 (Navigli et al., 2007), SemEval 2013 (Navigli

et al.,2013) et SemEval 2015 (Moro et Navigli,2015).

Désambiguïsation

lexicale

Supervisée

À base de

connaissances

À base de similarité

sémantique À base de graphes Non-neuronale Neuronale

À classification

directe

Par la méthode des

k plus proches

voisins

Lesk, 1986

Banerjee et Pedersen, 2002

Vial et al., 2016, 2017

Cowie et al., 1992

Schwab et al., 2011

Mihalcea et al., 2004

Moro et al., 2014

Agirre et Soroa, 2009

Yarowsky, 1992

Ng et Lee, 1996

Chan et al., 2007

Zhong et Ng, 2010

Iacobacci et al., 2016

Kågebäck et Salomonsson, 2016

Raganato et al., 2017

Luo et al., 2018

Vial et al., 2018, 2019

Yuan et al., 2016

Le et al., 2018

Loureiro et Jorge, 2019

Huang et al., 2019

Figure 1.5 – Taxonomie des différentes approches pour la désambiguïsation lexicale.

1.5.1.1 Tâches

On distingue deux tâches pour l’évaluation de la désambiguïsation lexicale

in-vitro:

— La tâche « tous mots », dans laquelle tous les mots dans un ensemble de

documents doivent être annotés en sens.

— La tâche « échantillon lexical », dans laquelle de nombreuses instances de

seulement quelques lemmes extraits dans un ensemble de phrases doivent

être annotées en sens.

Par exemple, la campagne d’évaluation SensEval 2 (Edmonds et Cotton,2001)

comprenait à la fois une tâche « tous mots » dans laquelle 2 301 mots sont à annoter

en sens dans 238 phrases, avec un nombre de lemmes uniques de 1 051, et une tâche

« échantillon lexical » dans laquelle 4 238 mots sont à annoter dans 4 328 phrases,

pour un nombre de lemmes uniques de 233.

La campagne d’évaluation SemEval 2007 (Agirre et al.,2007) a aussi proposé

deux tâches « tous mots » distinctes :

— La tâche de DL « grain fin » (tâche 17), dans laquelle les mots sont annotés

avec un unique sens, et où aucune approximation n’est possible.

— La tâche de DL « gros grain » (tâche 7), dans laquelle les mots sont annotés

pour la plupart avec plusieurs sens possibles, ce qui reflète souvent mieux

un réel jugement humain.

La principale langue cible de ces tâches d’évaluation est l’anglais, mais il existe

aussi des tâches pour la désambiguïsation d’autres langues comme le français ou

l’italien par exemple (Navigli et al.,2013;Moro et Navigli,2015).

Dans les tâches de DL des campagnes d’évaluation, les corpus sont annotés

avec la version la plus récente de WordNet disponible au moment de la campagne

(voir lasection 1.3.2.8). Étant donné que les étiquettes de sens ne sont pas toujours

compatibles d’une version à une autre de WordNet, ces variations peuvent

com-pliquer la comparaison des systèmes entre eux. Cependant, depuis nos travaux sur

UFSAC (voirchapitre 4) et les travaux deRaganato et al.(2017a), tous les corpus

d’évaluation sont regroupés et utilisent l’inventaire de sens WordNet 3.0.

1.5.1.2 Mesures

Dans ces tâches de DL, les systèmes comparés doivent annoter en sens tous

les mots d’un document ou une partie d’entre eux. Les annotations sont ensuite

comparées aux références et les performances des systèmes sont mesurées selon

les mesures de couverture (C), précision (P), rappel (R) et F-mesure (F1), dont les

formules sont :

C = mots annotes´

mots`a annoter P =

mots correctement annotes´

mots annotes´

R= mots correctement annotes´

mots`a annoter F1 =

2×P ×R

P +R

Dans la plupart des articles sur la DL, seule la mesure F1 est utilisée pour

comparer des systèmes entre eux. En effet, la majorité des systèmes de DL annotent

en sens tous les mots possibles à annoter. On se retrouve avecmotsa annoter` =

mots annotes´ , doncC= 1, et enfinP =R=F1.

1.5.1.3 Performances des systèmes

Deux mesures de référence sont généralement données dans les tâches

d’éva-luation :

— L’étalon du sens aléatoire, une mesure théorique qui se calcule comme la

moyenne des probabilités d’obtenir un mot correctement annoté en prenant

un sens aléatoire dans l’inventaire de sens, pour tous les mots du document.

— L’étalon du premier sens, ou sens le plus fréquent, qui est le score obtenu par

un système choisissant systématiquement le premier sens dans l’inventaire

de sens (voirsection 1.4.3).

Dans letableau 1.2, on peut voir les performances des meilleurs systèmes sur

la tâche 7 de SemEval 2007 depuis sa sortie, avec ces mesures étalons. Comme on

peut le voir, parmi les approches détaillées dans lasection 1.4, celles qui arrivent

généralement en tête sont les approches supervisées. Seule la méthode de Chen

et al. (2014) à base de connaissances a égalé une méthode supervisée, jusqu’à

l’arrivée des premiers réseaux de neurones et la méthode deYuan et al.(2016).

Ce que l’on peut aussi remarquer, c’est qu’entre 2007 et 2016, les scores des

meilleures méthodes de DL n’ont d’une part pas beaucoup évolué, et d’autre part

n’étaient pas très supérieurs à l’étalon du premier sens. Depuis 2018 et notamment

Année Système Type Score F1 (%)

- Sens aléatoire - 62,7

- Premier sens - 78,9

2007 Chan et al.(2007b) sup. 82,5

2010 Zhong et Ng(2010) sup. 82,6

2014 Chen et al.(2014) conn. 82,6

2016 Yuan et al.(2016) sup. 84,3

2018 Vial et al.(2018a) sup. 85,8

2019 Vial et al.(2019a) sup. 90,6

Table 1.2 – Résultats des systèmes état de l’art à la fin de chaque année sur la

tâche 7 de la campagne d’évaluation SemEval 2007 (tâche de DL « tous mots » et

« gros grain »). « sup. » indique un système supervisé, « conn. » indique un système

à base de connaissances.

en 2019, les systèmes état de l’art sont nettement plus performants, et ce, grâce

aux modèles de langue pré-entraînés d’une part (voir section 1.3.3.2) et grâce à

nos contributions d’autre part (voirchapitre 4,chapitre 5etchapitre 6).