• Aucun résultat trouvé

1.3 Ressources

1.3.1 Bases de données lexicales

On parle généralement de base de données lexicale pour toute source de

connaissances structurée qui apporte des informations sur les mots et les sens

d’une ou plusieurs langues et qui est accessible par logiciel. On retrouve parmi

ces bases de données des dictionnaires, des thésaurus, des ontologies, des graphes

de connaissances, etc. Dans cette section, nous présentons deux principales bases

de données lexicales qui sont utilisées en DL : WordNet et BabelNet.

1.3.1.1 WordNet

Le Princeton WordNet (Miller et al.,1990), souvent appelé simplement

Word-Net, est une base de données lexicale créée au laboratoire des sciences

cogni-tives de l’université de Princeton, qui a la particularité de regrouper les différents

sens des mots de la langue anglaise en ensembles de synonymes appeléssynsets

(contraction desynonym sets). Ainsi, pour le nommousequi possède par exemple

quatre sens, son deuxième sens (unmouseau sens d’un œil au beurre noir) partage

le même synsetque le premier sens du nom shiner et le premier sens du groupe

nominalblack eye.

WordNet repose sur des principes psycholinguistiques, qui ont pour

consé-quence une granularité très fine dans la distinction des sens. Par exemple, le

pre-mier et le deuxième sens du mot snowse distinguent par le fait que le premier

(precipitation falling from clouds in the form of ice crystals) se réfère à la neige

qui tombe du ciel, tandis que le second (a layer of snowflakes (white crystals of

frozen water) covering the ground) se réfère à la neige qui couvre le sol. Les mots

peuvent ainsi avoir un nombre de sens très grand, allant jusqu’à 59 sens différents

pour le verbebreak.

La richesse de cette base lexicale, en plus de sa granularité fine, vient aussi

de son vaste réseau sémantique. En effet, lessynsetssont reliés entre eux par des

relations sémantiques telles que l’antonymie, l’hyperonymie, la méronymie, etc.

Le réseau sémantique de WordNet classe les mots en quatre parties du

dis-cours : les noms, les verbes, les adjectifs et les adverbes. Les principales relations

sémantiques possibles entre les sens sont :

— la synonymie, qui regroupe les sens ensynsets;

— l’antonymie, qui définit deux sens opposés (par exemple les adjectifspetitet

grand) ;

— l’hyperonymie et l’hyponymie, qui définissent respectivement la

généralisa-tion et la spécialisagénéralisa-tion d’un sens (par exemplevoitureest un hyponyme de

véhicule, et à l’inverseanimalest un hyperonyme dechat) ;

— la méronymie et l’holonymie, qui définissent la « partie de » (par exemple

mainest à la fois un méronyme debraset un holonyme dedoigt).

Lafigure 1.1illustre ces relations entre quelquessynsets.

WordNet s’est rapidement imposé comme un standardde factoen DL de

l’an-glais, si bien que son inventaire de sens est utilisé pour l’annotation de la grande

majorité des corpus anglais, tant pour l’apprentissage que pour l’évaluation des

systèmes. Il est aussi au cœur de nombreuses approches à base de connaissances.

mouse#1

rat#1

cohyponymes

hyponyme

hyponyme

hyperonyme

mouse_

button#1

antonymes

holonyme

méronyme

hypernonyme

rodent#1

gnawer#1

small#1

little#1

mouse#4

computer_

mouse#1

large#1

big#1

Figure 1.1 – Relations sémantiques entre différentssynsetsde WordNet.

La dernière version du Princeton WordNet, la version 3.1, est sortie en 2013.

Elle contient ainsi 155 287 mots et 206 941 sens répartis en 117 659synsets4

. Tous

les mots communs de la langue anglaise y sont présents, et on retrouve aussi

cer-taines entités nommées connues (Obama, Einstein, etc.).

Il est aussi à noter qu’en 2019, le projet Open English WordNet, aussi

simple-ment appelé English Wordnet, voit le jour. Ce projet se situe dans la continuité du

Princeton WordNet et il est soutenu par la Global WordNet Association. Il marque

cependant une rupture avec ce dernier car il suit une approche plus collaborative

dans laquelle n’importe qui peut contribuer en proposant des modifications5.

Dans les autres langues que l’anglais, de nombreuses bases de données

lexi-cales reproduisent la structure et la méthode de conception du Princeton WordNet,

si bien qu’ils font partie d’un ensemble de « WordNets » dont la liste est

main-tenue par la Global WordNet Association6. On peut par exemple citer le WOLF

(WOrdNet Libre du Français) pour le français, l’Arabic WordNet pour l’arabe, etc.

Cependant, la grande majorité des travaux et des ressources pour la

désambiguï-sation lexicale concerne uniquement la langue anglaise (en particulier les corpus

annotés en sens et les campagnes d’évaluation), c’est pourquoi ces autres bases de

données sont bien moins connues et utilisées que le Princeton WordNet.

4. https://wordnet.princeton.edu/documentation/wnstats7wn

5. https://github.com/globalwordnet/english-wordnet

1.3.1.2 BabelNet

BabelNet (Navigli et Ponzetto, 2010) est une base de données lexicale

mul-tilingue, créée à l’université La Sapienza de Rome, qui repose sur le concept de

Babel synsets. UnBabel synsetreprésente un concept et regroupe des entrées

lexi-cales provenant de multiples bases de données lexilexi-cales telles que Wikipedia,

Wik-tionary, WordNet, etc.

Cette ressource est, à la différence de WordNet, générée de façon automatique,

à l’aide d’un algorithme qui aligne les différents inventaires de sens en s’appuyant

sur différentes informations propres à la base de données cible (titres et liens entre

les pages Wikipedia, relations sémantiques entre lessynsetsde WordNet, etc.). Le

résultat est un vaste réseau sémantique mis à jour continuellement. Il couvre, dans

sa version 4.0, 284 langues et près de 16 millions deBabel synsets7

.

On retrouve des utilisations notables de BabelNet dans certains travaux comme

l’algorithme de Babelfy (Moro et al., 2014) qui exploite le graphe de BabelNet

pour permettre de désambiguïser du texte dans n’importe quelle langue présente

dans la base de données. Les campagnes d’évaluation SemEval 2013 (Navigli et al.,

2013) et SemEval 2015 (Moro et Navigli, 2015) ont aussi consacré une tâche de

désambiguïsation lexicale multilingue utilisant l’inventaire de sens de BabelNet.