1.4 Approches
1.4.1 Approches à base de connaissances
Les approches à base de connaissances, comme nous l’avons dit
précédem-ment, s’appuient sur des connaissances explicites telles que des bases de données
lexicales, des thésaurus ou des graphes sémantiques par exemple.
D’une manière générale, l’avantage principal des méthodes de cette catégorie
est qu’elles offrent une bonne couverture, étant donné que les bases de
connais-sances utilisées sont souvent directement liées à l’inventaire de sens. De plus,
elles sont facilement généralisables d’une langue à une autre, du moment que les
connaissances sur lesquelles elles s’appuient sont disponibles dans la langue
ci-blée.
On peut classer les approches à base de connaissances en deux sous-catégories :
les approches à base de similarité sémantique, et les approches à base de graphes.
1.4.1.1 Approches à base de similarité sémantique
Les approches à base de similarité sémantique sont les héritières d’une des
pre-mières méthodes pour la désambiguïsation lexicale : l’algorithme de Lesk (Lesk,
1986). Le fonctionnement de ce type d’approche repose sur deux composants
14:
— Une mesure de similarité sémantique, ou algorithmelocal, qui permet
d’at-tribuer un score de proximité entre deux sens. Par exemple, une bonne
me-sure donnera un score de proximité vraisemblablement plus élevé entre la
paire de sens (fromage/nourriture, souris/animal) qu’entre la paire de sens
(fromage/nourriture, souris/ordinateur).
— Une méthode de propagation de l’algorithme local, ou algorithme global,
qui permet de désambiguïser tous les mots dans un contexte donné (phrase,
document...) grâce à la mesure locale. Par exemple, attribuer, pour tous les
mots d’une phrase, le sens qui obtient le plus haut score de similarité avec
les sens des mots voisins dans une fenêtre de trois mots.
Une de nos contributions s’appuie principalement sur l’algorithme de Lesk
(voir chapitre 3), ainsi que plusieurs de nos travaux antérieurs (Vial et al., 2016;
Vial,2016;Vial et al.,2017d). Nous allons ici présenter cet algorithme et sa
prin-cipale amélioration, l’algorithme de Lesk étendu. Enfin, nous aborderons d’autres
méthodes à base de similarité inspirées de l’algorithme de Lesk.
L’algorithme de Lesk
Lesk(1986) présente un des tout premiers algorithmes pour la
désambiguïsa-tion lexicale utilisant uniquement un dicdésambiguïsa-tionnaire électronique contenant des mots,
des sens et leurs définitions.
Pour cela, sa méthode repose sur l’idée générale que le sens d’un mot, pris dans
un contexte, partage des caractéristiques communes avec les sens des autres mots
de ce même contexte. Ainsi, pour désambiguïser un mot, l’algorithme va chercher
parmi tous ses sens possibles et lui attribuer celui qui aura la plus grande similarité
avec les sens de ses mots voisins.
Afin de mesurer cette similarité entre deux sens, Lesk propose de simplement
compter le nombre de mots en commun dans leur définition. Plus formellement, si
nous notonsD(S) ={w
1, w
2, . . . , w
n}la définition deS, alors on peut décrire la
mesure de similarité de Lesk entre deux sensS
1etS
2de la manière suivante :
Lesk(S
1, S
2) =|D(S
1)∩D(S
2)|
Pour donner un exemple du fonctionnement de l’algorithme de Lesk, prenons la
phrase «Je pose la fourchette à côté de la cuillère.» et cherchons à attribuer le sens
correct du mot fourchette. Dans le Larousse en ligne
15, les sens 1 et 2 des mots
fourchetteetcuillèreont les définitions suivantes :
Sens Définition
fourchette#1 «Ustensile de table dont le manche se termine par des dents
[...]»
fourchette#2 «Écart entre deux valeurs, deux possibilités extrêmes [...]»
cuillère#1 «Ustensile de table ou de cuisine composé d’un manche [...]»
cuillère#2 «Contenu d’une cuillère ; cuillerée.»
15. https://www.larousse.fr/dictionnaires/francais/. Consulté le
En calculant la similarité entre toutes les paires de sens possibles, et en excluant
les mots vides (le, de, et, à...)
16on a :
S
1S
2D(S
1)∩D(S
2) Lesk(S
1, S
2)
fourchette#1 cuillère#1 {ustensile,table,manche} 3
fourchette#1 cuillère#2 {} 0
fourchette#2 cuillère#1 {} 0
fourchette#2 cuillère#2 {} 0
Le score le plus élevé concerne ainsi la paire de sens (fourchette#1, cuillère#1),
on attribuera donc ces sens-là à ces deux mots.
Dans son article, Lesk a essayé trois dictionnaires anglais classiques (Oxford,
Collins et Webster). Il constate une précision de l’ordre de 50% à 70% sur quelques
exemples qu’il a extraits d’un roman et d’un article de presse.
Lesk étendu et adapté pour WordNet
Quelques temps après la popularisation de WordNet et de la campagne
d’éva-luation SensEval,Banerjee et Pedersen(2002) proposent une implémentation qui
adapte l’algorithme de Lesk à l’inventaire de sens et aux définitions de WordNet.
De plus, ils proposent une extension de la mesure de Lesk classique en exploitant
les relations sémantiques présentes entre les sens dans la base de données lexicale.
L’extension fonctionne de la manière suivante : en plus de compter le nombre
de mots en commun dans les définitions des sens dont on veut calculer la
simi-larité, on compte aussi les mots en commun dans les définitions des sens reliés
sémantiquement aux sens d’origine.
Plus formellement, si l’on noterel(S)l’ensemble des sens reliés àS à travers
un lien explicite dans WordNet, alors la mesure de Lesk étendue entre les sensS
1etS
2notéeExtLesk(S
1, S
2)est la suivante :
ExtLesk(S
1, S
2) =
(D(S
1) [
r∈rel(S1)D(r)
\
D(S
2) [
r∈rel(S2)D(r)
Banerjee et Pedersen(2002) évaluent ensuite leur système sur la tâche
d’échan-tillon lexical de SensEval 2. Avec l’approche de Lesk classique, ils obtiennent une
précision de 16% et grâce à leur extension, ils obtiennent une précision de 32%.
16. Lesk(1986) exclut en effet certains mots de ses calculs commetheouof sans donner de liste précise, de même dans l’adaptation pour WordNet deBanerjee et Pedersen(2002).
Autres mesures de similarité sémantique
Patwardhan et al.(2003) s’intéressent à la mesure de Lesk étendue et comparent
ses performances à d’autres mesures de similarité sémantique. Ils essaient ainsi
plusieurs mesures en remplacement de la mesure de Lesk :
— La mesure de Leacock-Chodorow (Leacock et Chodorow,1998) mesure la
similarité entre deux sens de noms en calculant le plus court chemin qui
les sépare dans le graphe des relations d’hyperonymie et d’hyponymie de
WordNet.
— La mesure de Resnik (Resnik, 1995) attribue une valeur de « quantité
d’in-formations » (information content) à chaque sens en estimant la variabilité
des contextes dans lesquels il se trouve dans des corpus non annotés en sens.
Puis, elle considère que deux sens sont proches s’ils partagent une quantité
d’informations proche.
— La mesure de Jiang-Conrath (Jiang et Conrath,1997) améliore la mesure de
Resnik en considérant aussi la longueur du chemin entre les deux sens dans
le graphe de WordNet.
— La mesure de Lin (Lin,1998) est une autre mesure similaire à celle de
Jiang-Conrath.
— La mesure de Hirst-St. Onge (Hirst et St-Onge,1998) utilise non seulement
les relations d’hyperonymie et d’hyponymie dans son calcul de proximité,
mais aussi toutes les autres offertes par WordNet (antonymie, méronymie,
etc.).
Les tests sont menés sur la tâche « échantillon lexical » de SensEval 2, et les
résul-tats montrent que la mesure de Lesk étendue reste la meilleure, suivie de près par
la mesure de Jiang-Conrath.
Autres méthodes de propagation de la mesure de similarité
Dans tous les travaux que nous avons vus précédemment (Lesk,1986;
Baner-jee et Pedersen, 2002;Patwardhan et al., 2003), le cœur des études est la mesure
de similarité sémantique, ou algorithme local. La méthode de propagation de cette
mesure, ou algorithme global, est systématiquement la même. Elle consiste à
éva-luer toutes les combinaisons de sens possibles dans une fenêtre de contexte de cinq
à dix mots, et de choisir les sens qui maximisent la mesure de similarité locale.
Dans d’autres travaux conduits en parallèle tels queCowie et al.(1992) et
Gel-bukh et al.(2003), d’autres stratégies de propagation sont étudiées. En effet,
Gel-bukh et al. (2003) constatent que l’utilisation d’une petite fenêtre fixe de mots,
comme dans la méthode de Lesk originale, peut mener à de fortes incohérences
au sein d’une même phrase ou d’un document, parce que la désambiguïsation des
mots dans une fenêtre de contexte ne prend pas du tout en compte les résultats de
la désambiguïsation des mots au-delà de cette fenêtre.
Partant d’un principe démontré par Gale et al.(1992) que le sens d’un même
mot varie très rarement au sein d’un même discours, ils proposent alors un
algo-rithme global permettant de prendre en compte l’intégralité d’un document pour
désambiguïser un mot. Les auteurs constatent que pour un texte de 500 mots à
désambiguïser et ayant chacun en moyenne 3 sens
17, il existe3
500combinaisons
de sens possibles, soit environ 4× 10
238combinaisons. Dans ces conditions, il
est impossible de calculer la similarité entre toutes les paires possibles de sens.
C’est pourquoi les auteurs implémentent une heuristique à base d’algorithmes
gé-nétiques capables d’approcher la meilleure solution sans essayer toutes les
possi-bilités.
Certains travaux explorent d’autres heuristiques pour l’algorithme global.
Co-wie et al. (1992) implémentent par exemple l’algorithme du recuit simulé et
Schwab et al.(2011) implémentent un algorithme à base de colonies de fourmis.
Dans une de nos contributions (Vial et al., 2017d)
18, nous comparons les
perfor-mances de certains de ces différents algorithmes globaux et d’autres, comme
l’al-gorithme des chauve-souris et l’all’al-gorithme des coucous. Plus de détails peuvent
aussi se trouver dans les travaux deTchechmedjiev(2012).
Finalement, il est à noter qu’une de nos contributions dans cette thèse porte
sur l’amélioration de l’algorithme de Lesk grâce à des vecteurs de mot (voir
cha-pitre 3). De plus, une autre contribution, précédant la thèse, porte sur l’amélioration
de l’algorithme de Lesk grâce à des corpus annotés en sens (Vial et al.,2016).
Algorithme de Lesk simplifié
Une autre variante de l’algorithme de Lesk qu’on peut retrouver dansKilgarriff
et Rosenzweig(2000) et dansVasilescu et al.(2004) consiste à compter le nombre
de termes en commun entre la définition d’un sens d’un mot cible et directement
les mots du contexte autour de lui. On appelle cet algorithme « algorithme de Lesk
simplifié » parce qu’il ne nécessite plus de calculer la mesurer de similarité pour
toutes les combinaisons possibles de sens, mais seulement une fois par sens pour
17. Ce qui correspond à une taille de document typique et au nombre de sens moyen dans Word-Net pour les mots polysémiques.
chaque mot. Le nombre de fois où l’on exécute l’algorithme local passe ainsi de
3
500à3×500si on reprend l’exemple vu précédemment.
L’algorithme de Lesk simplifié a cependant un désavantage important par
rap-port à l’algorithme de Lesk original. En effet, dans son utilisation, si plusieurs
sens d’un mot cible obtiennent le même score de similarité avec leur contexte,
c’est l’ordre des sens dans l’inventaire utilisé qui détermine le sens choisi. Or cet
ordre des sens, s’il est effectivement donné dans WordNet, est en partie issu de la
fréquence de ces sens dans des corpus annotés en sens. Ainsi, l’algorithme de Lesk
simplifié, contrairement à sa version classique, repose fortement sur des données
qui ne sont pas disponibles pour n’importe quelle langue ou dans n’importe quel
inventaire de sens.
Le Lesk simplifié connaîtra aussi quelques améliorations. Par exemple,Basile
et al. (2014) mesurent la similarité grâce à la mesure cosinus entre un vecteur
calculé à partir de mots de la définition d’un sens et un vecteur calculé à partir
des mots du contexte du mot à désambiguïser. Ils utilisent cependant, en plus de la
fréquence d’apparition des sens, de nombreuses autres informations sémantiques
issues de BabelNet.
1.4.1.2 Méthodes à base de graphes
Une autre branche de méthodes pour la DL à base de connaissances se
com-pose des méthodes fondées sur les graphes. Ces méthodes cherchent, comme pour
les méthodes à base de similarité sémantique, une cohérence globale au niveau
du texte, mais cette fois en exploitant des techniques de parcours d’arbres ou de
graphes plus générales, qu’on peut retrouver dans d’autres domaines, notamment
l’algorithme du PageRank deBrin et Page(1998) et ses dérivés.
Le premier algorithme pour la DL à base de graphes a été proposé parMihalcea
et al.(2004). Dans leur article, l’algorithme du PageRank (Brin et Page,1998) qui
est normalement utilisé pour mesurer la pertinence d’une page Web en fonction
des liens pointant depuis/vers la page, est ainsi appliqué au problème de la
désam-biguïsation lexicale. En effet, en considérant lessynsetsde WordNet comme des
nœuds et les relations sémantiques de WordNet comme des liens, on peut
calcu-ler un score de PageRank pour chacun des nœuds avec une formule de la forme
suivante :
S(V
i) = X
j∈In(Vi)
S(V
j)
|Out(V
j)|
avecV
ile nœud dont on veut calculer le score,In(V
i)l’ensemble de nœuds
l’algorithme de DL en tant que tel, on construit d’abord le sous-graphe de
Word-Net composé des sens des mots présents dans le texte à désambiguïser. On assigne
ensuite initialement un score de1à chaque nœud du graphe. Enfin, on exécute le
calcul des scores de PageRank pour chaque nœud jusqu’à convergence des scores,
et on assigne aux mots du texte les sens qui ont le plus grand score.
De multiples variantes de cet algorithme ont ensuite été proposées, toujours
en utilisant WordNet comme graphe de connaissances. Par exemple, on peut citer
Agirre et Soroa(2009), Agirre et al.(2014) et les travaux deMoro et al.(2014).
Ces derniers présentent notamment Babelfy, un système de DL multilingue à base
de graphes utilisant le réseau sémantique de BabelNet.
Dans le document
Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique
(Page 53-59)