• Aucun résultat trouvé

Désambiguïsation sémantique : état de l’art

1.3. Approches pour la désambiguïsation sémantique

1.3.3. Approches basées sur les ressources lexico-sémantiques

Ces méthodes fonctionnent indépendamment des données annotées dans les corpus et peuvent exploiter la structure des réseaux sémantiques pour identifier les significations les plus appropriées. Elles permettent d’obtenir une large cou-verture et une bonne performance en utilisant des connaissances structurées rivalisant ainsi les méthodes supervisées.

Les approches fondées sur les connaissances exploitent largement les res-sources lexico-sémantiques. Cependant, il a été montré parCuadros et Rigau

(2006) que les quantités d’informations lexicales et sémantiques contenues dans de telles ressources sont généralement insuffisantes pour avoir de très hautes performances en désambiguïsation. De ce fait, beaucoup de travaux ont été pro-posés pour étendre automatiquement les ressources existantes. Par exemple, le travail deSuchanek et al.(2008) permettant d’inclure des liens de Wikipédia à WordNet afin d’intégrer une utilisation complète de l’heuristique du premier sens de WordNet et avoir une représentation plus riche pour ce sens.

Pon-zetto et Navigli (2009), quant à eux, ont proposé dans un premier temps une

mise en correspondance à base de graphes entre les catégories de Wikipédia et les sens de WordNet. Ensuite, ils ont proposé une mise en correspondance intégrale entre les pages de Wikipédia et les sens de WordNet (Ponzetto et

Navigli, 2010).

L’une des approches les plus classiques de cette catégorie consiste à estimer la proximité sémantique entre chaque sens candidat par rapport à chaque sens de chaque mot appartenant au contexte16 du mot à désambiguïser. En d’autres termes, il s’agit de donner des scores locaux et de les propager au niveau glo-bal. Une application de cette méthode exhaustive est proposée parPedersen et

al.(2003). Nous pouvons imaginer la rapide explosion combinatoire (complexité exponentielle) que retourne cette approche exhaustive. Il est possible de se re-trouver facilement avec un temps de calcul très long alors que le contexte qu’il s’agit d’utiliser est petit. Par exemple, pour une phrase de 10 mots avec 10 sens en moyenne, il y aurait 1010combinaisons possibles (séquences de 10 sens, un sens pour chacun des 10 mots). Le calcul exhaustif est donc très compliqué à réaliser dans des conditions réelles et, surtout, rend impossible l’utilisation d’un contexte de taille importante. Pour diminuer le temps de calcul, il est possible d’utiliser une fenêtre autour du mot afin de réduire le temps d’exécution d’une combinaison mais le choix d’une fenêtre de taille quelconque peut mener à une perte de cohérence globale de la désambiguïsation. Plusieurs solutions, autres que la méthode exhaustive, ont été proposées. Par exemple, des approches à base de corpus pour diminuer le nombre de combinaisons à examiner comme la recherche des chaînes lexicales compatibles (Vasilescu et al., 2004) ou

core des approches issues de l’intelligence artificielle comme le recuit simulé17

(Cowie et al., 1992) et les algorithmes à colonies de fourmis (Guinand et

La-fourcade, 2010; Schwab et al., 2011) ou encore les algorithmes génétiques

(Gelbukh et al., 2003).Tchechmedjiev (2012) fournit plus de détails pour ces

méthodes.

Le contexte du mot à désambiguïser est délimité par une fenêtre textuelle qui se situe à gauche ou à droite ou des deux côtés et dont la taille peut varier. Les fenêtres peuvent être délimitées soit à l’aide de séparateurs de phrases ou de paragraphes, soit à l’aide de « n-grammes » qui permettent d’observer un certain nombre (n−1) de mots entourant le mot polysémique dans le texte. La définition de la taille de la fenêtre textuelle est liée à celle de la distance optimale entre les mots ambigus et les indices contextuels pouvant servir à leur désambiguïsation

(Audibert, 2007). SelonYarowsky (1993), une grande fenêtre est nécessaire

pour lever l’ambiguïté des noms alors que seulement une petite fenêtre suffit pour le cas des verbes ou des adjectifs. Dans un cadre d’analyse distribution-nelle de données, plusieurs recherches sont faites sur la construction automa-tique de thésaurus à partir de cooccurrences de mots provenant d’un corpus de grande taille. Pour chaque mot-cible en entrée, une liste ordonnée de voisins les plus proches (nearest neighbours) lui est attribuée. Les voisins sont ordonnés en fonction de la similarité distributionnelle qu’ils ont avec le mot-cible.Lin(1998a) a proposé une méthode pour mesurer la similarité distributionnelle entre deux mots (un mot-cible et son voisin).McCarthy et al.(2004) ont proposé un modèle de désambiguïsation qui tient compte de l’utilisation des voisins distributionnels.

Plusieurs modèles de représentation sémantique supposent que chaque mot possède un seul vecteur sémantique. Ceci est généralement problématique car l’ambiguïté sémantique est omniprésente, ce qui est aussi le problème de la désambiguïsation sémantique.Chen et al.(2014) ont proposé un modèle unifié permettant à la fois une représentation et une désambiguïsation des sens de mots. Chaque sens a sa propre représentation. Ce modèle assume, d’une part, qu’une meilleure qualité de représentation des sens (WSR – Word Sense Re-presentation) capture de riches informations permettant d’améliorer la désam-biguïsation sémantique. D’autre part, une désamdésam-biguïsation d’une meilleure qua-lité permet de fournir des corpus fiables pouvant être utilisés pour l’apprentis-sage des représentations des sens. Le développement de ce modèle se réalise en trois grandes étapes : (1) initialisation des vecteurs de mots et vecteurs de sens ; (2) l’application d’un algorithme de désambiguïsation ; et (3) apprentis-sage des vecteurs de sens à partir d’occurrences pertinentes.

La première étape consiste à se servir d’un modèle neuronal Word2Vec de type Skip–gram entraîné sur un corpus de données textuelles pour apprendre des représentations vectorielles continues de mots. La représentation vectorielle des sens est basée sur les définitions (gloses de WordNet). Le vecteur de 17. Méthode d’optimisation stochastique classique fondée sur les principes physiques du refroidissement des métaux qui a été appliquée à la désambiguïsation.

chaque sens d’un mot-cible est le vecteur moyen après concaténation des vec-teurs de mots de la définition. Le modèle ne prend que les mots pleins de la définition hors le mot-cible ayant un score de similarité positif et non nul avec le mot-cible.

La deuxième étape consiste à appliquer un des deux algorithmes de désam-biguïsation proposés et qui sont à base de connaissances provenant de Word-Net : (a) l’algorithme L2R (left to right) ou (b) l’algorithme S2C (simple to

com-plex). La différence principale de ces deux algorithmes est dans l’ordre des mots. L’algorithme L2R désambiguïse les mots de gauche à droite dans l’ordre naturel de la phrase tandis que l’algorithme S2C désambiguïse les mots avec peu de sens en premier. L’avantage de l’utilisation de S2C est que la désambiguïsation des mots avec peu de sens peut être utile pour la désambiguïsation des autres mots. Comme la représentation d’un sens se construit à partir des mots de la dé-finition, la représentation du contexte peut se faire de même à partir des vecteurs de mots. Les deux algorithmes reposent sur le principe suivant : chaque sens de mot possède un score et le sens ayant le meilleur score est celui retourné en sortie. Si la différence entre le score obtenu par le meilleur sens et le score du sens se trouvant en deuxième position est supérieure au seuil ε = 0.1, le vecteur du contexte est mis à jour en remplaçant le vecteur du mot polysémique traité par le vecteur du sens correspondant.

La troisième étape consiste à réentraîner le modèle Skip–gram sur le même corpus utilisé lors de l’étape 1 mais cette fois-ci pour apprendre à la fois des représentations de mots et de sens. La stratégie de mise à jour implémentée dans l’étape 2 est utilisée ici pour valider ou non l’existence d’un sens pour un mot polysémique donné.

Moro et al. (2014) ont développé un système de désambiguïsation, nommé

Babelfy18, à base de connaissances provenant du réseau sémantique Babel-Net. Babelfy est un système état-de-l’art qui utilise l’intégralité de la structure de BabelNet. Cette structure inclut non seulement des sens lexicographiques mais aussi des entités encyclopédiques. En plus de la désambiguïsation des noms communs, verbes, adjectifs et adverbes, Babelfy permet la détection et la désambiguïsation d’entités nommées dans toutes les langues couvertes par BabelNet (271 langues lors de l’utilisation de la version 3.0 de BabelNet).

La tâche de désambiguïsation d’entités nommées (aussi appelée Entity

Lin-king), et comme citée parDaher et al.(2017), est une tâche qui consiste à faire automatiquement le lien entre des entités trouvées dans un texte et des entités connues, présentes dans la base de connaissances utilisée (Ling et al., 2015;

Shen et al., 2015). Par exemple, pour l’entité nommée New York, BabelNet dans

sa version 4.0 propose plus de 20 sens différents. Parmi ces sens, on trouve :

Ville de New York, l’état de New York, titre d’une chanson, nom d’un album, nom de l’épisode d’une série télévisée, nom d’un magazine, etc.