Approches dirigées par les corpus de données

Désambiguïsation sémantique : état de l’art

1.3. Approches pour la désambiguïsation sémantique

1.3.2. Approches dirigées par les corpus de données

Après avoir décrit les différentes approches pour représenter les mots et les sens de mots, nous décrivons dans cette sous-section les différentes approches dirigées par les données pour la désambiguïsation sémantique (cf. figure1.1).

Approches supervisées

Ces méthodes sont basées sur l’hypothèse que le contexte d’un mot polysé-mique peut fournir suffisamment de preuves pour sa désambiguïsation. Puisque l’annotation manuelle des occurrences de mots en sens est un processus diffi-cile et long, connu sous le nom de goulot d’étranglement de l’acquisition des

connaissances(Pilehvar et Navigli, 2014), les méthodes supervisées ne sont pas évolutives et nécessitent la répétition d’un effort comparable pour chaque nouvelle langue. Actuellement, les systèmes de désambiguïsation sémantique les plus performants sont basés sur un apprentissage supervisé.

Une annotation de mots d’un corpus avec des sens désambiguïsés provenant d’un inventaire de sens (par exemple, WordNet) est extrêmement coûteuse. À l’heure actuelle, très peu de corpus annotés sémantiquement sont disponibles pour l’anglais ; à notre connaissance, rien n’existe pour le français. Le consor-tium de données linguistiques (LDC : Linguistic Data Consorconsor-tium15) a dtribué un corpus contenant approximativement 200 000 phrases en anglais is-sues du corpus Brown et Wall Street Journal dont toutes les occurrences de 191 lemmes ont été annotées avec WordNet (Ng et Lee, 1996). Le corpus SemCor

(Miller et al., 1993) reste le plus grand corpus annoté manuellement en sens

(352 textes avec 234 136 instances de sens de mots). Cependant, ces corpus contiennent peu de données pour être utilisés avec des méthodes statistiques.

Ng(1997) estime que, pour obtenir un système de désambiguïsation à large cou-verture et de haute précision, nous avons probablement besoin d’un corpus d’en-viron 3, 2 millions d’instances de sens de mots. L’effort humain pour construire un tel corpus d’apprentissage peut être estimé à 27 années pour une annota-tion d’un mot par minute par personne (Edmonds, 2000). Il est clair qu’avec une telle ressource à portée de main, les systèmes supervisés seraient beaucoup plus performants. Plus récemment, Pasini et Camacho-Collados (2018) ont proposé un court survol sur les corpus annotés en sens en passant par ceux qui sont annotés manuellement, semi-automatiquement ou encore totalement d’une manière automatique.

Comme analysé par Lee et Ng (2002), les systèmes de désambiguïsation classiques utilisent généralement un ensemble fixe de traits pour modéliser le contexte d’un mot. Le premier trait est basé sur les mots entourant le mot-cible. Il s’agit généralement du contexte local sous la forme d’un tableau binaire, où intéressés pouvant y répondre en présentant des propositions ou des plans de leur propre initiative, souvent après avoir collaboré à distance et en ligne avec d’autres personnes qui ont une idée semblable.

chaque position représente l’occurrence d’un mot particulier. Les étiquettes de catégories grammaticales (POS : Parts of Speech) des mots voisins ont égale-ment été largeégale-ment utilisées. Les collocations locales représentent un autre trait standard qui capture les séquences ordonnées de mots pouvant apparaître au-tour du mot-cible (Firth, 1957). Bien qu’elles ne soient pas très populaires, les relations syntaxiques ont également été étudiées en tant que traits syntaxiques

(Stetina et al., 1998).

Le système IMS (It Makes Sense) de Zhong et Ng (2010) est un bon repré-sentant pour cette catégorie des méthodes de désambiguïsation. IMS fournit une plateforme extensible et flexible permettant l’utilisation non seulement de différents traits syntaxiques et sémantiques mais aussi des techniques de classi-fication. Par défaut, IMS utilise trois ensembles de traits : (1) étiquettes POS des mots environnants, avec une fenêtre de trois mots de chaque côté, restreinte par la limite de la phrase ; (2) ensemble de mots qui apparaissent dans le contexte du mot-cible après suppression des mots outils ; et (3) collocations locales com-posées de 11 traits autour du mot-cible. IMS utilise une machine à vecteurs de support linéaire (SVM : Support Vector Machine) comme classificateur.

D’autres traits plus sophistiqués ont également été étudiés : les modèles sé-mantiques distributionnels, tels que l’analyse sémantique latente (Van de Cruys

et Apidianaki, 2011), l’allocation latente de Dirichlet (Cai et al., 2007) ainsi que

les word embeddings (Iacobacci et al., 2016; Rothe et Schütze, 2015;

Ta-ghipour et Ng, 2015; Zhong et Ng, 2010). Durant les dernières années, des

efforts ont été faits pour tirer parti de l’intégration des embeddings afin d’amélio-rer les systèmes de désambiguïsation sémantique supervisés.Taghipour et Ng

(2015) ont montré que les performances des systèmes supervisés convention-nels peuvent être améliorés en utilisant les embeddings comme de nouveaux traits. Dans la même direction,Rothe et Schütze(2015) ont entraîné des

em-beddingsen mélangeant des mots et des sens, et en introduisant un ensemble de traits basés sur des calculs dans les représentations résultantes. Iacobacci

et al.(2016) ont proposé des méthodes grâce auxquelles les word embeddings

peuvent être exploités dans des systèmes état-de-l’art de désambiguïsation sé-mantique supervisée. Ils ont aussi effectué une analyse approfondie de la ma-nière dont les différents paramètres de ces modèles affectent les performances des systèmes de désambiguïsation. Ils ont ainsi étudié les différentes techniques de combinaison des embeddings.

Approches semi-supervisées

Pour ces méthodes, un petit corpus annoté manuellement est généralement utilisé comme point de départ pour arriver à la création d’un corpus plus grand annoté sémantiquement. Des travaux basés sur ces méthodes ont été présen-tés par Mihalcea et Faruque(2004). Une deuxième option consiste à utiliser une approche à base de corpus bilingues alignés sur les mots, basée sur

l’hy-pothèse qu’un mot ambigu dans une langue pourrait être sans ambiguïté dans le contexte d’une seconde langue, contribuant ainsi à annoter le sens dans la première langue (Ng et Lee, 1996).

Des efforts ont été fournis pour annoter sémantiquement des corpus en utili-sant des méthodes de boostrapping. Hearst (1991) a proposé un algorithme,

CatchWord, pour une classification des noms qui comprend une phase d’ap-prentissage au cours de laquelle plusieurs occurrences de chaque nom sont ma-nuellement annotées. Les informations statistiques extraites du contexte de ces occurrences sont ensuite utilisées pour lever l’ambiguïté d’autres occurrences. Si une autre occurrence peut être désambiguïsée avec certitude, le système acquiert automatiquement des informations statistiques de ces nouvelles occur-rences désambiguïsées, améliorant ainsi ses connaissances progressivement.

Hearst(1991) indique qu’une première série d’au moins 10 occurrences est

né-cessaire pour la procédure, et que 20 ou 30 occurrences sont néné-cessaires pour une haute précision.

Approches non supervisées

Ces méthodes sont basées sur l’hypothèse que les sens similaires se pro-duisent dans des contextes similaires. Il est donc possible de regrouper les usages de mots en fonction de leur signification commune et d’induire des sens. Ces méthodes conduisent à la difficulté de mettre en correspondance les sens induits dans un inventaire de sens et elles nécessitent toujours une interven-tion manuelle afin d’effectuer une telle mise en correspondance. Pour ne citer que quelques exemples, ces méthodes ont été étudiées parAgirre et al.(2006),

Brody et Lapata(2009),Manandhar et al.(2010),Van de Cruys et Apidianaki

(2011) etMarco et Navigli(2013).

Reisinger et Mooney(2010) ont proposé un modèle à base d’un espace

vec-toriel multi-prototype permettant dans un premier temps de mettre les contextes de chaque mot dans des clusters et ensuite chaque cluster génère un vecteur prototype distinct pour un mot en faisant la moyenne sur tous les vecteurs de contexte dans le cluster. Huang et al. (2012) ont suivi cette idée mais ont in-troduit des vecteurs à distribution continue basés sur des modèles utilisant les réseaux de neurones. Ces deux modèles conduisent à une induction de sens non supervisée en regroupant des contextes de mots. Il reste difficile pour ces modèles de déterminer le nombre de clusters pour chaque mot, une limite qui n’existe pas lorsque nous utilisons une base de connaissances comme Word-Net, BabelNet ou JeuxDeMots. Les modèles à base de clusters ne peuvent pas être utilisés d’une manière directe pour effectuer une désambiguïsation sé-mantique puisqu’il reste difficile de faire le lien entre un sens et un cluster.

1.3.3. Approches basées sur les ressources

Dans le document Désambiguïsation sémantique dans le cadre de la simplification lexicale : contributions à un système d'aide à la lecture pour des enfants dyslexiques et faibles lecteurs (Page 36-39)