1.3 Ressources
1.3.1 Bases de données lexicales
On parle généralement de base de données lexicale pour toute source de
connaissances structurée qui apporte des informations sur les mots et les sens
d’une ou plusieurs langues et qui est accessible par logiciel. On retrouve parmi
ces bases de données des dictionnaires, des thésaurus, des ontologies, des graphes
de connaissances, etc. Dans cette section, nous présentons deux principales bases
de données lexicales qui sont utilisées en DL : WordNet et BabelNet.
1.3.1.1 WordNet
Le Princeton WordNet (Miller et al.,1990), souvent appelé simplement
Word-Net, est une base de données lexicale créée au laboratoire des sciences
cogni-tives de l’université de Princeton, qui a la particularité de regrouper les différents
sens des mots de la langue anglaise en ensembles de synonymes appeléssynsets
(contraction desynonym sets). Ainsi, pour le nommousequi possède par exemple
quatre sens, son deuxième sens (unmouseau sens d’un œil au beurre noir) partage
le même synsetque le premier sens du nom shiner et le premier sens du groupe
nominalblack eye.
WordNet repose sur des principes psycholinguistiques, qui ont pour
consé-quence une granularité très fine dans la distinction des sens. Par exemple, le
pre-mier et le deuxième sens du mot snowse distinguent par le fait que le premier
(precipitation falling from clouds in the form of ice crystals) se réfère à la neige
qui tombe du ciel, tandis que le second (a layer of snowflakes (white crystals of
frozen water) covering the ground) se réfère à la neige qui couvre le sol. Les mots
peuvent ainsi avoir un nombre de sens très grand, allant jusqu’à 59 sens différents
pour le verbebreak.
La richesse de cette base lexicale, en plus de sa granularité fine, vient aussi
de son vaste réseau sémantique. En effet, lessynsetssont reliés entre eux par des
relations sémantiques telles que l’antonymie, l’hyperonymie, la méronymie, etc.
Le réseau sémantique de WordNet classe les mots en quatre parties du
dis-cours : les noms, les verbes, les adjectifs et les adverbes. Les principales relations
sémantiques possibles entre les sens sont :
— la synonymie, qui regroupe les sens ensynsets;
— l’antonymie, qui définit deux sens opposés (par exemple les adjectifspetitet
grand) ;
— l’hyperonymie et l’hyponymie, qui définissent respectivement la
généralisa-tion et la spécialisagénéralisa-tion d’un sens (par exemplevoitureest un hyponyme de
véhicule, et à l’inverseanimalest un hyperonyme dechat) ;
— la méronymie et l’holonymie, qui définissent la « partie de » (par exemple
mainest à la fois un méronyme debraset un holonyme dedoigt).
Lafigure 1.1illustre ces relations entre quelquessynsets.
WordNet s’est rapidement imposé comme un standardde factoen DL de
l’an-glais, si bien que son inventaire de sens est utilisé pour l’annotation de la grande
majorité des corpus anglais, tant pour l’apprentissage que pour l’évaluation des
systèmes. Il est aussi au cœur de nombreuses approches à base de connaissances.
mouse#1
rat#1
cohyponymes
hyponyme
hyponyme
hyperonyme
mouse_
button#1
antonymes
holonyme
méronyme
hypernonyme
rodent#1
gnawer#1
small#1
little#1
mouse#4
computer_
mouse#1
large#1
big#1
Figure 1.1 – Relations sémantiques entre différentssynsetsde WordNet.
La dernière version du Princeton WordNet, la version 3.1, est sortie en 2013.
Elle contient ainsi 155 287 mots et 206 941 sens répartis en 117 659synsets4
. Tous
les mots communs de la langue anglaise y sont présents, et on retrouve aussi
cer-taines entités nommées connues (Obama, Einstein, etc.).
Il est aussi à noter qu’en 2019, le projet Open English WordNet, aussi
simple-ment appelé English Wordnet, voit le jour. Ce projet se situe dans la continuité du
Princeton WordNet et il est soutenu par la Global WordNet Association. Il marque
cependant une rupture avec ce dernier car il suit une approche plus collaborative
dans laquelle n’importe qui peut contribuer en proposant des modifications5.
Dans les autres langues que l’anglais, de nombreuses bases de données
lexi-cales reproduisent la structure et la méthode de conception du Princeton WordNet,
si bien qu’ils font partie d’un ensemble de « WordNets » dont la liste est
main-tenue par la Global WordNet Association6. On peut par exemple citer le WOLF
(WOrdNet Libre du Français) pour le français, l’Arabic WordNet pour l’arabe, etc.
Cependant, la grande majorité des travaux et des ressources pour la
désambiguï-sation lexicale concerne uniquement la langue anglaise (en particulier les corpus
annotés en sens et les campagnes d’évaluation), c’est pourquoi ces autres bases de
données sont bien moins connues et utilisées que le Princeton WordNet.
4. https://wordnet.princeton.edu/documentation/wnstats7wn
5. https://github.com/globalwordnet/english-wordnet
1.3.1.2 BabelNet
BabelNet (Navigli et Ponzetto, 2010) est une base de données lexicale
mul-tilingue, créée à l’université La Sapienza de Rome, qui repose sur le concept de
Babel synsets. UnBabel synsetreprésente un concept et regroupe des entrées
lexi-cales provenant de multiples bases de données lexilexi-cales telles que Wikipedia,
Wik-tionary, WordNet, etc.
Cette ressource est, à la différence de WordNet, générée de façon automatique,
à l’aide d’un algorithme qui aligne les différents inventaires de sens en s’appuyant
sur différentes informations propres à la base de données cible (titres et liens entre
les pages Wikipedia, relations sémantiques entre lessynsetsde WordNet, etc.). Le
résultat est un vaste réseau sémantique mis à jour continuellement. Il couvre, dans
sa version 4.0, 284 langues et près de 16 millions deBabel synsets7
.
On retrouve des utilisations notables de BabelNet dans certains travaux comme
l’algorithme de Babelfy (Moro et al., 2014) qui exploite le graphe de BabelNet
pour permettre de désambiguïser du texte dans n’importe quelle langue présente
dans la base de données. Les campagnes d’évaluation SemEval 2013 (Navigli et al.,
2013) et SemEval 2015 (Moro et Navigli, 2015) ont aussi consacré une tâche de
désambiguïsation lexicale multilingue utilisant l’inventaire de sens de BabelNet.
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 35-38)