Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Bases de données lexicales

Dans le document Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique (Page 35-38)

1.3 Ressources

1.3.1 Bases de données lexicales

On parle généralement de base de données lexicale pour toute source de

connaissances structurée qui apporte des informations sur les mots et les sens

d’une ou plusieurs langues et qui est accessible par logiciel. On retrouve parmi

ces bases de données des dictionnaires, des thésaurus, des ontologies, des graphes

de connaissances, etc. Dans cette section, nous présentons deux principales bases

de données lexicales qui sont utilisées en DL : WordNet et BabelNet.

1.3.1.1 WordNet

Le Princeton WordNet (Miller et al.,1990), souvent appelé simplement

Word-Net, est une base de données lexicale créée au laboratoire des sciences

cogni-tives de l’université de Princeton, qui a la particularité de regrouper les différents

sens des mots de la langue anglaise en ensembles de synonymes appeléssynsets

(contraction desynonym sets_{). Ainsi, pour le nom}mouse_{qui possède par exemple}

quatre sens, son deuxième sens (unmouse_{au sens d’un œil au beurre noir) partage}

le même synset_{que le premier sens du nom} shiner _{et le premier sens du groupe}

nominalblack eye_.

WordNet repose sur des principes psycholinguistiques, qui ont pour

consé-quence une granularité très fine dans la distinction des sens. Par exemple, le

pre-mier et le deuxième sens du mot snow_{se distinguent par le fait que le premier}

(precipitation falling from clouds in the form of ice crystals_{) se réfère à la neige}

qui tombe du ciel, tandis que le second (a layer of snowflakes (white crystals of

frozen water) covering the ground_{) se réfère à la neige qui couvre le sol. Les mots}

peuvent ainsi avoir un nombre de sens très grand, allant jusqu’à 59 sens différents

pour le verbebreak_.

La richesse de cette base lexicale, en plus de sa granularité fine, vient aussi

de son vaste réseau sémantique. En effet, lessynsets_{sont reliés entre eux par des}

relations sémantiques telles que l’antonymie, l’hyperonymie, la méronymie, etc.

Le réseau sémantique de WordNet classe les mots en quatre parties du

dis-cours : les noms, les verbes, les adjectifs et les adverbes. Les principales relations

sémantiques possibles entre les sens sont :

— la synonymie, qui regroupe les sens ensynsets_;

— l’antonymie, qui définit deux sens opposés (par exemple les adjectifspetit_et

grand_{) ;}

— l’hyperonymie et l’hyponymie, qui définissent respectivement la

généralisa-tion et la spécialisagénéralisa-tion d’un sens (par exemplevoiture_{est un hyponyme de}

véhicule_{, et à l’inverse}animal_{est un hyperonyme de}chat_{) ;}

— la méronymie et l’holonymie, qui définissent la « partie de » (par exemple

main_{est à la fois un méronyme de}bras_{et un holonyme de}doigt_).

Lafigure 1.1illustre ces relations entre quelquessynsets_.

WordNet s’est rapidement imposé comme un standardde facto_{en DL de}

l’an-glais, si bien que son inventaire de sens est utilisé pour l’annotation de la grande

majorité des corpus anglais, tant pour l’apprentissage que pour l’évaluation des

systèmes. Il est aussi au cœur de nombreuses approches à base de connaissances.

mouse#1

rat#1

cohyponymes

hyponyme

hyponyme

hyperonyme

mouse_

button#1

antonymes

holonyme

méronyme

hypernonyme

rodent#1

gnawer#1

small#1

little#1

mouse#4

computer_

mouse#1

large#1

big#1

Figure 1.1 – Relations sémantiques entre différentssynsets_{de WordNet.}

La dernière version du Princeton WordNet, la version 3.1, est sortie en 2013.

Elle contient ainsi 155 287 mots et 206 941 sens répartis en 117 659synsets4

. Tous

les mots communs de la langue anglaise y sont présents, et on retrouve aussi

cer-taines entités nommées connues (Obama, Einstein, etc.).

Il est aussi à noter qu’en 2019, le projet Open English WordNet, aussi

simple-ment appelé English Wordnet, voit le jour. Ce projet se situe dans la continuité du

Princeton WordNet et il est soutenu par la Global WordNet Association. Il marque

cependant une rupture avec ce dernier car il suit une approche plus collaborative

dans laquelle n’importe qui peut contribuer en proposant des modifications⁵.

Dans les autres langues que l’anglais, de nombreuses bases de données

lexi-cales reproduisent la structure et la méthode de conception du Princeton WordNet,

si bien qu’ils font partie d’un ensemble de « WordNets » dont la liste est

main-tenue par la Global WordNet Association⁶. On peut par exemple citer le WOLF

(WOrdNet Libre du Français) pour le français, l’Arabic WordNet pour l’arabe, etc.

Cependant, la grande majorité des travaux et des ressources pour la

désambiguï-sation lexicale concerne uniquement la langue anglaise (en particulier les corpus

annotés en sens et les campagnes d’évaluation), c’est pourquoi ces autres bases de

données sont bien moins connues et utilisées que le Princeton WordNet.

4. https://wordnet.princeton.edu/documentation/wnstats7wn

5. https://github.com/globalwordnet/english-wordnet

1.3.1.2 BabelNet

BabelNet (Navigli et Ponzetto, 2010) est une base de données lexicale

mul-tilingue, créée à l’université La Sapienza de Rome, qui repose sur le concept de

Babel synsets_{. Un}Babel synset_{représente un concept et regroupe des entrées}

lexi-cales provenant de multiples bases de données lexilexi-cales telles que Wikipedia,

Wik-tionary, WordNet, etc.

Cette ressource est, à la différence de WordNet, générée de façon automatique,

à l’aide d’un algorithme qui aligne les différents inventaires de sens en s’appuyant

sur différentes informations propres à la base de données cible (titres et liens entre

les pages Wikipedia, relations sémantiques entre lessynsets_{de WordNet, etc.). Le}

résultat est un vaste réseau sémantique mis à jour continuellement. Il couvre, dans

sa version 4.0, 284 langues et près de 16 millions deBabel synsets7

.

On retrouve des utilisations notables de BabelNet dans certains travaux comme

l’algorithme de Babelfy (Moro et al., 2014) qui exploite le graphe de BabelNet

pour permettre de désambiguïser du texte dans n’importe quelle langue présente

dans la base de données. Les campagnes d’évaluation SemEval 2013 (Navigli et al.,

2013) et SemEval 2015 (Moro et Navigli, 2015) ont aussi consacré une tâche de

désambiguïsation lexicale multilingue utilisant l’inventaire de sens de BabelNet.

Dans le document Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique (Page 35-38)

Télécharger maintenant "Modèles neuronaux join..."

Outline

Documents relatifs