1.4 Approches
1.5.1 Campagnes d’évaluation
L’évaluationin vitroconsiste à évaluer les systèmes de DL sur des tâches de DL
spécifiques. Elle est rendue possible notamment grâce à la création de la première
campagne d’évaluation nommée SensEval (Kilgarriff, 1998), centrée sur la tâche
de DL. Après deux autres éditions de SensEval, cette campagne a été renommée
en SemEval et touche maintenant à des tâches diverses allant de la reconnaissance
d’entités nommées à de l’analyse de sentiments. Les tâches de DL sont pour autant
toujours régulièrement présentes. Après le premier SensEval, on retrouve au moins
une tâche de DL dans SensEval 2 (Edmonds et Cotton,2001), SensEval 3 (Snyder
et Palmer, 2004), SemEval 2007 (Navigli et al., 2007), SemEval 2013 (Navigli
et al.,2013) et SemEval 2015 (Moro et Navigli,2015).
Désambiguïsation
lexicale
Supervisée
À base de
connaissances
À base de similarité
sémantique À base de graphes Non-neuronale Neuronale
À classification
directe
Par la méthode des
k plus proches
voisins
Lesk, 1986
Banerjee et Pedersen, 2002
Vial et al., 2016, 2017
Cowie et al., 1992
Schwab et al., 2011
Mihalcea et al., 2004
Moro et al., 2014
Agirre et Soroa, 2009
Yarowsky, 1992
Ng et Lee, 1996
Chan et al., 2007
Zhong et Ng, 2010
Iacobacci et al., 2016
Kågebäck et Salomonsson, 2016
Raganato et al., 2017
Luo et al., 2018
Vial et al., 2018, 2019
Yuan et al., 2016
Le et al., 2018
Loureiro et Jorge, 2019
Huang et al., 2019
Figure 1.5 – Taxonomie des différentes approches pour la désambiguïsation lexicale.
1.5.1.1 Tâches
On distingue deux tâches pour l’évaluation de la désambiguïsation lexicale
in-vitro:
— La tâche « tous mots », dans laquelle tous les mots dans un ensemble de
documents doivent être annotés en sens.
— La tâche « échantillon lexical », dans laquelle de nombreuses instances de
seulement quelques lemmes extraits dans un ensemble de phrases doivent
être annotées en sens.
Par exemple, la campagne d’évaluation SensEval 2 (Edmonds et Cotton,2001)
comprenait à la fois une tâche « tous mots » dans laquelle 2 301 mots sont à annoter
en sens dans 238 phrases, avec un nombre de lemmes uniques de 1 051, et une tâche
« échantillon lexical » dans laquelle 4 238 mots sont à annoter dans 4 328 phrases,
pour un nombre de lemmes uniques de 233.
La campagne d’évaluation SemEval 2007 (Agirre et al.,2007) a aussi proposé
deux tâches « tous mots » distinctes :
— La tâche de DL « grain fin » (tâche 17), dans laquelle les mots sont annotés
avec un unique sens, et où aucune approximation n’est possible.
— La tâche de DL « gros grain » (tâche 7), dans laquelle les mots sont annotés
pour la plupart avec plusieurs sens possibles, ce qui reflète souvent mieux
un réel jugement humain.
La principale langue cible de ces tâches d’évaluation est l’anglais, mais il existe
aussi des tâches pour la désambiguïsation d’autres langues comme le français ou
l’italien par exemple (Navigli et al.,2013;Moro et Navigli,2015).
Dans les tâches de DL des campagnes d’évaluation, les corpus sont annotés
avec la version la plus récente de WordNet disponible au moment de la campagne
(voir lasection 1.3.2.8). Étant donné que les étiquettes de sens ne sont pas toujours
compatibles d’une version à une autre de WordNet, ces variations peuvent
com-pliquer la comparaison des systèmes entre eux. Cependant, depuis nos travaux sur
UFSAC (voirchapitre 4) et les travaux deRaganato et al.(2017a), tous les corpus
d’évaluation sont regroupés et utilisent l’inventaire de sens WordNet 3.0.
1.5.1.2 Mesures
Dans ces tâches de DL, les systèmes comparés doivent annoter en sens tous
les mots d’un document ou une partie d’entre eux. Les annotations sont ensuite
comparées aux références et les performances des systèmes sont mesurées selon
les mesures de couverture (C), précision (P), rappel (R) et F-mesure (F1), dont les
formules sont :
C = mots annotes´
mots`a annoter P =
mots correctement annotes´
mots annotes´
R= mots correctement annotes´
mots`a annoter F1 =
2×P ×R
P +R
Dans la plupart des articles sur la DL, seule la mesure F1 est utilisée pour
comparer des systèmes entre eux. En effet, la majorité des systèmes de DL annotent
en sens tous les mots possibles à annoter. On se retrouve avecmotsa annoter` =
mots annotes´ , doncC= 1, et enfinP =R=F1.
1.5.1.3 Performances des systèmes
Deux mesures de référence sont généralement données dans les tâches
d’éva-luation :
— L’étalon du sens aléatoire, une mesure théorique qui se calcule comme la
moyenne des probabilités d’obtenir un mot correctement annoté en prenant
un sens aléatoire dans l’inventaire de sens, pour tous les mots du document.
— L’étalon du premier sens, ou sens le plus fréquent, qui est le score obtenu par
un système choisissant systématiquement le premier sens dans l’inventaire
de sens (voirsection 1.4.3).
Dans letableau 1.2, on peut voir les performances des meilleurs systèmes sur
la tâche 7 de SemEval 2007 depuis sa sortie, avec ces mesures étalons. Comme on
peut le voir, parmi les approches détaillées dans lasection 1.4, celles qui arrivent
généralement en tête sont les approches supervisées. Seule la méthode de Chen
et al. (2014) à base de connaissances a égalé une méthode supervisée, jusqu’à
l’arrivée des premiers réseaux de neurones et la méthode deYuan et al.(2016).
Ce que l’on peut aussi remarquer, c’est qu’entre 2007 et 2016, les scores des
meilleures méthodes de DL n’ont d’une part pas beaucoup évolué, et d’autre part
n’étaient pas très supérieurs à l’étalon du premier sens. Depuis 2018 et notamment
Année Système Type Score F1 (%)
- Sens aléatoire - 62,7
- Premier sens - 78,9
2007 Chan et al.(2007b) sup. 82,5
2010 Zhong et Ng(2010) sup. 82,6
2014 Chen et al.(2014) conn. 82,6
2016 Yuan et al.(2016) sup. 84,3
2018 Vial et al.(2018a) sup. 85,8
2019 Vial et al.(2019a) sup. 90,6
Table 1.2 – Résultats des systèmes état de l’art à la fin de chaque année sur la
tâche 7 de la campagne d’évaluation SemEval 2007 (tâche de DL « tous mots » et
« gros grain »). « sup. » indique un système supervisé, « conn. » indique un système
à base de connaissances.
en 2019, les systèmes état de l’art sont nettement plus performants, et ce, grâce
aux modèles de langue pré-entraînés d’une part (voir section 1.3.3.2) et grâce à
nos contributions d’autre part (voirchapitre 4,chapitre 5etchapitre 6).
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 65-69)