Campagnes d’évaluation - Méthodologies d’évaluation

Désambiguïsation sémantique : état de l’art

1.4. Méthodologies d’évaluation

1.4.4. Campagnes d’évaluation

Plusieurs campagnes d’évaluation ont été organisées pour évaluer la perfor-mance des algorithmes de désambiguïsation : Senseval–1 (Kilgarriff et

Ro-senzweig, 2000), Senseval–2 (Edmonds, 2002), Senseval–3 (Mihalcea et

Ed-monds, 2004) pour l’anglais et RomansEval, désambiguïsation sémantique des

sens pour des langues romanes telles que le français (Segond, 2000) et l’italien

(Calzolari et Corazzari, 2000). La suite des travaux de désambiguïsation a

été explorée dans des campagnes successives qui ont eu lieu tous les trois ans entre 1998 et 2010 et annuellement depuis 2012. Par exemple, SemEval–2007

(Navigli et al., 2007), SemEval–2013 (Navigli et al., 2013) et SemEval–2015

(Moro et Navigli, 2015). Pour chaque campagne d’évaluation, des corpus de

données ont été fournis.

L’évaluation intrinsèque peut être utilisée pour deux variantes de désambiguï-sation : all-words disambiguation (AWD), les systèmes sont censés fournir une annotation en sens pour chaque mot plein dans un texte donné. Dans l’autre variante, lexical sample disambiguation (LSD), les systèmes reçoivent un en-semble fixe de lemmes comme échantillon lexical et sont chargés de désambi-guïser toutes leurs occurrences dans un document ou une collection de textes courts. AWD est la tâche de référence pour l’évaluation de la désambiguïsation sémantique, car elle nécessite un inventaire de sens ayant une large couverture

et un effort considérable pour produire l’ensemble de données annotées manuel-lement. Il est également plus difficile d’appliquer des méthodes de désambiguï-sation supervisées à tous les scénarios possibles pour lesquels les mots poly-sémiques peuvent apparaître. Cela demande un nombre suffisant d’exemples annotés manuellement pour chaque mot. Cependant, AWD est une tâche plus naturelle qui lie les distributions de mots et de sens se trouvant dans des textes du monde réel. En revanche, la tâche LSD permet de produire plus facilement des données de test, car toutes les instances d’un lemme donné peuvent être éti-quetées en même temps (désambiguïsation ciblée) plutôt que d’avoir des anno-tations séquentielles d’un mot au mot qui le suit. Comme les ensembles d’échan-tillons lexicaux contiennent généralement un nombre minimum d’occurrences par lemme, ils sont particulièrement adaptés aux systèmes de désambiguïsation supervisés. Pour la tâche LSD, il est courant de sélectionner les lemmes de ma-nière à assurer une distribution particulière à travers la catégorie grammaticale, la fréquence des mots, la polysémie, le domaine ou d’autres caractéristiques d’intérêt.

L’un des obstacles majeurs d’une désambiguïsation sémantique pour atteindre de bons résultats est la granularité fine des inventaires de sens. Dans Senseval– 3, les systèmes ayant participé à la tâche English All-Words (EAW) ont atteint une performance autour de 65% (Snyder et Palmer, 2004) avec une utilisation de WordNet comme inventaire de sens. Une performance de 72, 9% a été ob-tenue sur la tâche English Lexical Sample (ELS). WordNet est une ressource possédant une granularité fine dont la distinction des sens est difficile à recon-naître par les annotateurs humains (Edmonds et Kilgarriff, 2002).

Une désambiguïsation avec un inventaire de sens à granularité forte (ou plus optimale) a alors été proposée dans SemEval–2007 sur les mêmes tâches de Senseval–3 (EAW et ELS). Les résultats ont été meilleurs : 82 − 83% pour EAW et 88, 7% pour ELS. Cela montre que la granularité de l’inventaire de sens a un impact décisif lorsque nous souhaitons atteindre des performances dans les 80 − 90%.

Le tableau 1.2 présente des statistiques sur les corpus de données pour la langue anglaise proposés dans Senseval–1, Senseval–2, Senseval–3, SemEval– 2007 et SemEval–2010. Pour la plupart de ces corpus, WordNet est utilisé comme inventaire de sens. Pour Senseval–1 et pour la tâche ELS, Hector (

At-kins, 1992) est utilisé comme inventaire de sens (un dictionnaire produit par des

lexicographes de la Presse Universitaire d’Oxford). Pour SemEval–2007 et pour la tâche ELS, la ressource OntoNotes (Hovy et al., 2006) est utilisée comme inventaire de sens. Pour ces campagnes, deux corpus ont été proposés pour la tâche ELS : un pour l’apprentissage et un pour le test. Le tableau1.2 décrit pour chaque corpus le nombre total d’occurrences de mots annotés (tokens) et le nombre de mots uniques annotés (types).

Le tableau1.3présente des statistiques sur les différents ensembles de don-nées multilingues proposés dans SemEval–2013 et SemEval–2015.

Tâche de désambiguïsation sémantique Inventaire de sens ^{Corpus d’apprentissage} ^{Corpus de test} Tokens Types Tokens Types

SENEVAL–1 ELS HECTOR 13 127 30 8 451 35

SENEVAL–2 EAW WORDNET1.7 – – 2 473 > 1 082

SENEVAL–2 ELS WORDNET1.7 8 611 73 4 328 73

SENEVAL–3 EAW WORDNET1.7 – – 2 041 > 960

SENEVAL–3 ELS WORDNET1.7 7 860 57 3 944 57

SEMEVAL–2007 EAW (granularité fine) WORDNET2.1 – – 466 > 327

SEMEVAL–2007 ELS (granularité forte) ONTONOTES 22 281 100 4 851 100 SEMEVAL–2007 EAW (granularité forte) WORDNET2.1 – – 2 269 1 183

SEMEVAL–2010 EAW WORDNET3.0 – – 1 632 8 157

Table 1.2. – Ensembles de données proposés pour la tâche de désambiguïsation sémantique monolingue, traitant la langue anglaise, dans

Senseval/SemEval

Langue Instances Mots Expressions Entités Nombre moyen Nombre moyen singuliers polylexicales nommées de sens par instance de sens par lemme

BABELNET(SEMEVAL–2013) Allemand 1 467 1 267 21 176 1.00 1.05 Anglais 1 931 1 604 127 200 1.02 1.09 Espagnol 1 481 1 103 129 249 1.15 1.19 Français 1 656 1 389 89 176 1.05 1.15 Italien 1 706 1 454 211 41 1.22 1.27 WIKIPÉDIA(SEMEVAL–2013) Allemand 1 156 957 21 176 1.07 1.08 Anglais 1 242 945 102 195 1.15 1.16 Espagnol 1 103 758 107 248 1.11 1.10 Français 1 039 790 72 175 1.18 1.14 Italien 1 977 869 85 41 1.20 1.18 WORDNET(SEMEVAL–2013) Anglais 1 644 1 502 85 57 1.01 1.10 BABELNET(SEMEVAL–2015) Anglais 1 261 1 094 81 86 8.1 7.6 Espagnol 1 239 1 088 67 84 6.8 6.8 Italien 1 225 1 085 66 74 6.1 5.9

Table 1.3. – Ensembles de données proposés pour la tâche de désambiguïsation sémantique multilingue dans SemEval–2013 et SemEval–2015 Pour ces campagnes, seulement des corpus de test sont fournis. Trois inven-taire de sens ont été utilisés, à savoir : BabelNet, Wikipédia et WordNet.

Le tableau1.3décrit le nombre d’instances annotées manuellement pour chaque langue. Ces instances sont des termes représentant soit des mots simples, soit des expressions polylexicales. Il est à noter que seulement des noms (noms communs et entités nommées) ont été proposés comme instances à désambi-guïser pour le corpus SemEval–2013 alors que le corpus SemEval–2015 pro-pose une annotation sémantique manuelle pour l’ensemble des mots pleins. Aussi, un corpus en langue française est disponible seulement dans SemEval– 2013 alors qu’il n’a pas été proposé pour la campagne qui a suivi. Dans le ta-bleau 1.3, les deux dernières colonnes, présentant le nombre moyen de sens, décrivent le nombre moyen d’annotations en sens effectuées par les annota-teurs.

1.5. Conclusion

Dans ce chapitre, nous avons formellement défini la tâche de désambiguï-sation sémantique des sens de mots. Nous avons étudié les types de sources de connaissances utilisés pour réaliser cette tâche, à savoir : les ressources lexico-sémantiques et les corpus de données. Nous avons donné un aperçu des approches de désambiguïsation et montré l’importance de la représenta-tion sémantique de mots et de sens. Nous avons vu que les méthodes supervi-sées nécessitent un corpus d’apprentissage rassemblant une grande quantité d’exemples. Les méthodes basées sur les connaissances, quant à elles, ne né-cessitent pas d’avoir de tels corpus et cela n’empêche pas qu’elles soient com-pétitives vis-à-vis des méthodes supervisées. Enfin, nous avons décrit comment les systèmes de désambiguïsation sont évalués, en présentant les mesures uti-lisées pour évaluer leur performance ainsi que les corpus de référence dispo-nibles et proposés durant les campagnes d’évaluation.

Dans le chapitre suivant, nous explorons les différentes approches utilisées pour mesurer la similarité sémantique entre mots et sens de mots. Comme nous l’avons mentionné au tout début de ce chapitre, la mesure de similarité séman-tique est un critère important pour le choix de l’algorithme de désambiguïsation sémantique.

CHAPITRE 2.

Dans le document Désambiguïsation sémantique dans le cadre de la simplification lexicale : contributions à un système d'aide à la lecture pour des enfants dyslexiques et faibles lecteurs (Page 45-49)