• Aucun résultat trouvé

Désambiguïsation sémantique à base de connaissances provenant

3.2. Approche de désambiguïsation à base de connais- connais-sances

Désambiguïser tous les mots pleins d’un corpus dont le contexte représente une phrase, un paragraphe ou tout un texte brut, est une tâche qui demande 1. Phrase tirée du corpus IREST (International Reading Speed Texts) correspond à des textes standards pour des tests de vitesse de lecture :http://www.vision-research.eu/index.php?id=641.

beaucoup de temps si on se base sur un algorithme exhaustif simple. La clé de notre approche de désambiguïsation est l’observation des voisins de chaque mot polysémique dans le texte : au lieu de comparer chaque sens d’un mot à désambiguïser avec tous les sens de tous les mots qui se trouvent dans le texte, nous faisons une comparaison uniquement avec les sens des voisins sé-lectionnés au moyen d’une similarité distributionnelle. D’une part, ces voisins fournissent souvent des indices sur le sens le plus probable d’un mot dans un texte. D’autre part, cela nous permet de diminuer le temps d’exécution de l’algo-rithme et de ne pas perdre une cohérence au niveau de la désambiguïsation de tous les mots du texte. Il s’agit de garder les mots ayant de forts liens séman-tiques afin de retourner le sens le plus spécifique (le plus adéquat) à chaque mot pour le contexte utilisé.

Ce que nous proposons dans un premier temps est d’utiliser une méta-heuristique d’optimisation combinatoire qui consiste à choisir les voisins les plus proches par sélection distributionnelle autour de chaque mot à désambiguïser. Un travail proche du nôtre a été proposé par McCarthy et al. (2004). Ce travail repose sur l’utilisation des voisins distributionnels et consiste à trouver le sens prédomi-nant dans l’intégralité d’un texte donné. L’approche utilisée parMcCarthy et al.

(2004) est aussi non supervisée et consiste à défier les baselines de la désam-biguïsation que nous avons présentées dans le chapitre1(cf. sous-section1.4.3). Dans cette section, nous présentons d’abord notre stratégie de sélection des voisins distributionnels depuis le contexte du mot à désambiguïser (cf. sous-section3.2.1). Ensuite, nous décrivons l’algorithme de désambiguïsation à pro-prement dit (cf. sous-section3.2.2).

3.2.1. Sélection des voisins distributionnels

Nous utilisons des mesures de similarité distributionnelle pour le choix des voisins les plus proches. La similarité distributionnelle est une mesure indiquant le degré de cooccurrence entre un mot-cible et son voisin apparaissant dans des contextes similaires. Par exemple, dans un texte décrivant l’équipement d’un

ordinateur de bureauplacé dans une salle de la maison, les voisins écran, clavier et disque ont une similarité distributionnelle plus forte avec le mot souris

(périphé-rique)que les mots maison et salle.

Nous utilisons deux approches totalement différentes à base d’analyse distri-butionnelle. L’une d’elles repose sur la méthode deLin(1998a) et l’autre repose sur l’utilisation des word embeddings :

(1) La première consiste à réaliser une analyse syntaxique en dépendances permettant d’extraire un ensemble de traits syntaxiques pour chaque mot ana-lysé. Cette méthode vise à déterminer la similarité distributionnelle entre un mot polysémique et chacun de ses voisins, en se référant aux traits syntaxiques qu’ils partagent.

(2) La deuxième approche consiste à utiliser le modèle Word2Vec proposé

parMikolov et al.(2013a). La similarité distributionnelle, dans ce cas-là, consiste

à comparer le vecteur du mot polysémique à désambiguïser et le vecteur de cha-cun de ses voisins.

Nous utilisons la fonction SimLin (cf. fonction2.5, chapitre2) pour mesurer la similarité à l’aide de la méthode proposée parLin(1998a). D’autre part, nous uti-lisons la fonction Cosinus (cf. fonction2.1, chapitre2) pour mesurer la similarité à l’aide des word embeddings. Pour l’entraînement des embeddings, nous utili-sons le modèle Skip–Gram. Nous nous intéresutili-sons à la sélection d’un contexte réduit en terme de taille et permettant de retourner un certain nombre k des mots les plus pertinents par rapport au contexte d’origine.

3.2.2. Algorithme de désambiguïsation par sélection

distributionnelle et à base de connaissances

provenant de BabelNet

Notre méthode de désambiguïsation sémantique prend en considération des critères distributionnels. Cette méthode repose sur l’hypothèse suivante : « plus la similarité distributionnelle entre les voisins est forte plus la probabilité d’avoir le sens le plus proche est grande ». Nous pouvons voir notre méthode comme un processus à deux niveaux :

(1) Le premier niveau sélectionne les voisins les plus proches au moyen d’une similarité distributionnelle.

(2) Le deuxième niveau permet de lever les ambiguïtés au moyen d’une simi-larité sémantique.

La similarité distributionnelle entre le mot à désambiguïser et chacun des voi-sins sélectionnés est plus forte que celle du mot à désambiguïser et chacun des autres mots du contexte. La similarité sémantique utilisée tient compte des traits sémantiques provenant des définitions des sens. Ces traits sémantiques représentent les mots pleins des définitions.

La similarité distributionnelle est utilisée pour déterminer un score entre chaque mot à désambiguïser et l’ensemble des mots pleins du texte. Cela a pour but de retourner les k meilleurs voisins qui ont le plus grand score de similarité. Si la mesure de similarité est celle de (Lin, 1998a), le contexte est limité aux mots qui partagent la même catégorie grammaticale du mot à désambiguïser. Dans le cas contraire, si la mesure de similarité est basée sur les word embeddings, le partage de la catégorie grammaticale n’est pas obligatoire. Dans ce cas, tous les mots pleins avec toutes les catégories grammaticales sont pris en compte.

Après avoir choisi les voisins distributionnels, nous adaptons la méthode struc-turelle proposée parNavigli(2009) et qui est décrite formellement dans l’équa-tion 2.14(cf. chapitre 2 sous-section2.2.2). Soient wc un mot-cible à désambi-guïser, Nwc = {N1, N2, . . . , Nk}l’ensemble des k voisins les plus proches de wc,

le sens s0

∈ S (Ni)où S (Ni)est l’ensemble des sens du voisin Ni et S (wc)est l’ensemble des sens du mot-cible wc. La fonction ˆS0 décrite dans l’équation 3.1

retourne le sens choisi par l’algorithme de désambiguïsation pour le mot-cible

wc. La fonction Score (s, s0

)retourne le score de similarité entre les sens s et s0

. ˆ S0 = arg max s∈S(wc) X Ni∈Nwc:Ni6=wc MAX Score(s, s0 ) (3.1)

Pour mesurer la similarité sémantique entre deux sens, nous utilisons l’algo-rithme de Lesk (1986), que nous appelons LeskBase par la suite (cf. chapitre

2, sous-section2.2.2, équation 2.6). Pour cette utilisation, nous tenons compte de la forme lemmatisée des mots pleins et d’une comptabilisation d’occurrences d’un même mot. Nous utilisons aussi l’algorithme de Lesk étendu proposé par

Banerjee et Pedersen(2002) (cf. chapitre2, sous-section2.2.2, équation2.13)

mais dans une version simplifiée3. Nous utilisons aussi la variante permettant de comparer directement chaque sens candidat avec le contexte du mot à désam-biguïser (cf. chapitre 2, sous-section2.2.2, équation 2.9). Nous appelons cette variante LeskVariante tout au long de ce chapitre. Il est à noter que la sélection des voisins distributionnels ne concerne pas LeskVariante. Cette dernière prend en considération tout le contexte du mot à désambiguïser.

Pour comparer deux sens ou un sens candidat avec un contexte, nous utili-sons du texte provenant des définitions (gloses) des sens et du contexte du mot à désambiguïser. Nous rappelons que BabelNet propose plusieurs définitions pour un sens donné et cela pour différentes langues. Nous tenons compte de toutes les définitions de la langue du corpus d’évaluation utilisé. Aussi, Babel-Net utilise un système de traduction automatique pour l’enrichissement de sa base. Nous pouvons nous retrouver avec des sens qui ne proposent aucune dé-finition pour une langue donnée (par exemple, le français). Dans ce cas-là, nous prenons en compte la liste des synonymes se trouvant dans les Babel synsets. Le principe des algorithmes à base de Lesk est de compter le nombre de mots pleins partagés entre les deux ensembles de mots à comparer. Afin d’avoir cette liste de mots pleins partagés, nous réalisons une analyse morphologique de chaque texte pour obtenir la forme lemmatisée de chaque mot plein. C’est cette forme qui est mise en comparaison. Nous utilisons l’analyseur TreeTagger4

pour obtenir les mots pleins provenant des gloses de sens.

Au niveau de la comparaison des deux ensembles de mots, on peut facile-ment se retrouver avec des définitions de sens trop concises et il est difficile d’obtenir des distinctions de similarité fines. Pour ces cas, nous nous servons 3. Pour des raisons calculatoires, nous avons préféré utiliser une version simplifiée de l’algorithme de Lesk étendu en faisant une comparaison seulement entre les mots et non pas entre des séquences de mots comme décrit dans la version originale. Les relations sémantiques prises en compte sont les suivantes : {hyperonymie, hyponymie, méronymie, holonymie}. Nous tenons compte de la(les) glose(s) du sens mis en

comparaison.

de l’heuristique suivante une fois obtenu le score final de chaque sens candidat :

Dans le cas où deux sens ou plus possèdent le meilleur score de similarité, le sens retourné est celui qui a le plus grand nombre de connexions sémantiques avec les autres sens du réseauBabelNet.

Cette information est fournie dans BabelNet. Le plus souvent, le sens d’un mot qui a le plus de connexions sémantiques est le plus général. Par exemple, le sens souris (genre de rongeur) possède 1 453 connexions sémantiques contre 1 244pour le sens souris (informatique) selon la version 4.0 du réseau. Aussi, le sens avocat (homme de loi) possède 2 208 connexions sémantiques contre 210 pour le sens avocat (fruit).

3.3. Évaluation intrinsèque de la désambiguïsation