Approches à base de connaissances

1.4 Approches

1.4.1 Approches à base de connaissances

Les approches à base de connaissances, comme nous l’avons dit

précédem-ment, s’appuient sur des connaissances explicites telles que des bases de données

lexicales, des thésaurus ou des graphes sémantiques par exemple.

D’une manière générale, l’avantage principal des méthodes de cette catégorie

est qu’elles offrent une bonne couverture, étant donné que les bases de

connais-sances utilisées sont souvent directement liées à l’inventaire de sens. De plus,

elles sont facilement généralisables d’une langue à une autre, du moment que les

connaissances sur lesquelles elles s’appuient sont disponibles dans la langue

ci-blée.

On peut classer les approches à base de connaissances en deux sous-catégories :

les approches à base de similarité sémantique, et les approches à base de graphes.

1.4.1.1 Approches à base de similarité sémantique

Les approches à base de similarité sémantique sont les héritières d’une des

pre-mières méthodes pour la désambiguïsation lexicale : l’algorithme de Lesk (Lesk,

1986). Le fonctionnement de ce type d’approche repose sur deux composants

¹⁴

:

— Une mesure de similarité sémantique, ou algorithmelocal_{, qui permet}

d’at-tribuer un score de proximité entre deux sens. Par exemple, une bonne

me-sure donnera un score de proximité vraisemblablement plus élevé entre la

paire de sens (fromage/nourriture, souris/animal) qu’entre la paire de sens

(fromage/nourriture, souris/ordinateur).

— Une méthode de propagation de l’algorithme local, ou algorithme global_,

qui permet de désambiguïser tous les mots dans un contexte donné (phrase,

document...) grâce à la mesure locale. Par exemple, attribuer, pour tous les

mots d’une phrase, le sens qui obtient le plus haut score de similarité avec

les sens des mots voisins dans une fenêtre de trois mots.

Une de nos contributions s’appuie principalement sur l’algorithme de Lesk

(voir chapitre 3), ainsi que plusieurs de nos travaux antérieurs (Vial et al., 2016;

Vial,2016;Vial et al.,2017d). Nous allons ici présenter cet algorithme et sa

prin-cipale amélioration, l’algorithme de Lesk étendu. Enfin, nous aborderons d’autres

méthodes à base de similarité inspirées de l’algorithme de Lesk.

L’algorithme de Lesk

Lesk(1986) présente un des tout premiers algorithmes pour la

désambiguïsa-tion lexicale utilisant uniquement un dicdésambiguïsa-tionnaire électronique contenant des mots,

des sens et leurs définitions.

Pour cela, sa méthode repose sur l’idée générale que le sens d’un mot, pris dans

un contexte, partage des caractéristiques communes avec les sens des autres mots

de ce même contexte. Ainsi, pour désambiguïser un mot, l’algorithme va chercher

parmi tous ses sens possibles et lui attribuer celui qui aura la plus grande similarité

avec les sens de ses mots voisins.

Afin de mesurer cette similarité entre deux sens, Lesk propose de simplement

compter le nombre de mots en commun dans leur définition. Plus formellement, si

nous notonsD(S) ={w

, w

, . . . , w

}_{la définition de}S_{, alors on peut décrire la}

mesure de similarité de Lesk entre deux sensS

₁

_etS

₂

_{de la manière suivante :}

Lesk(S

₁

, S

₂

) =|D(S

₁

)∩D(S

₂

)|

Pour donner un exemple du fonctionnement de l’algorithme de Lesk, prenons la

phrase «Je pose la fourchette à côté de la cuillère._{» et cherchons à attribuer le sens}

correct du mot fourchette_{. Dans le Larousse en ligne}

, les sens 1 et 2 des mots

fourchette_etcuillère_{ont les définitions suivantes :}

Sens Définition

fourchette#1 ^«Ustensile de table dont le manche se termine par des dents

[...]_»

fourchette#2 «Écart entre deux valeurs, deux possibilités extrêmes [...]_»

cuillère#1 «Ustensile de table ou de cuisine composé d’un manche [...]_»

cuillère#2 «Contenu d’une cuillère ; cuillerée._»

15. https://www.larousse.fr/dictionnaires/francais/_{. Consulté le}

En calculant la similarité entre toutes les paires de sens possibles, et en excluant

les mots vides (le, de, et, à...)

¹⁶

on a :

S

₁

S

₂

D(S

)∩D(S

) Lesk(S

, S

)

fourchette#1 cuillère#1 {ustensile_,table_,manche} ₃

fourchette#1 cuillère#2 {} ₀

fourchette#2 cuillère#1 {} ₀

fourchette#2 cuillère#2 {} ₀

Le score le plus élevé concerne ainsi la paire de sens (fourchette#1, cuillère#1),

on attribuera donc ces sens-là à ces deux mots.

Dans son article, Lesk a essayé trois dictionnaires anglais classiques (Oxford,

Collins et Webster). Il constate une précision de l’ordre de 50% à 70% sur quelques

exemples qu’il a extraits d’un roman et d’un article de presse.

Lesk étendu et adapté pour WordNet

Quelques temps après la popularisation de WordNet et de la campagne

d’éva-luation SensEval,Banerjee et Pedersen(2002) proposent une implémentation qui

adapte l’algorithme de Lesk à l’inventaire de sens et aux définitions de WordNet.

De plus, ils proposent une extension de la mesure de Lesk classique en exploitant

les relations sémantiques présentes entre les sens dans la base de données lexicale.

L’extension fonctionne de la manière suivante : en plus de compter le nombre

de mots en commun dans les définitions des sens dont on veut calculer la

simi-larité, on compte aussi les mots en commun dans les définitions des sens reliés

sémantiquement aux sens d’origine.

Plus formellement, si l’on noterel(S)_{l’ensemble des sens reliés à}S _{à travers}

un lien explicite dans WordNet, alors la mesure de Lesk étendue entre les sensS

₁

etS

₂

_notéeExtLesk(S

₁

, S

₂

)_{est la suivante :}

ExtLesk(S

₁

, S

₂

) =



(D(S

₁

) ^[

r∈rel(S1)

D(r)





\



D(S

₂

) ^[

r∈rel(S2)

D(r)





Banerjee et Pedersen(2002) évaluent ensuite leur système sur la tâche

d’échan-tillon lexical de SensEval 2. Avec l’approche de Lesk classique, ils obtiennent une

précision de 16% et grâce à leur extension, ils obtiennent une précision de 32%.

16. Lesk(1986) exclut en effet certains mots de ses calculs commethe_ouof _{sans donner de liste} précise, de même dans l’adaptation pour WordNet deBanerjee et Pedersen(2002).

Autres mesures de similarité sémantique

Patwardhan et al.(2003) s’intéressent à la mesure de Lesk étendue et comparent

ses performances à d’autres mesures de similarité sémantique. Ils essaient ainsi

plusieurs mesures en remplacement de la mesure de Lesk :

— La mesure de Leacock-Chodorow (Leacock et Chodorow,1998) mesure la

similarité entre deux sens de noms en calculant le plus court chemin qui

les sépare dans le graphe des relations d’hyperonymie et d’hyponymie de

WordNet.

— La mesure de Resnik (Resnik, 1995) attribue une valeur de « quantité

d’in-formations » (information content_{) à chaque sens en estimant la variabilité}

des contextes dans lesquels il se trouve dans des corpus non annotés en sens.

Puis, elle considère que deux sens sont proches s’ils partagent une quantité

d’informations proche.

— La mesure de Jiang-Conrath (Jiang et Conrath,1997) améliore la mesure de

Resnik en considérant aussi la longueur du chemin entre les deux sens dans

le graphe de WordNet.

— La mesure de Lin (Lin,1998) est une autre mesure similaire à celle de

Jiang-Conrath.

— La mesure de Hirst-St. Onge (Hirst et St-Onge,1998) utilise non seulement

les relations d’hyperonymie et d’hyponymie dans son calcul de proximité,

mais aussi toutes les autres offertes par WordNet (antonymie, méronymie,

etc.).

Les tests sont menés sur la tâche « échantillon lexical » de SensEval 2, et les

résul-tats montrent que la mesure de Lesk étendue reste la meilleure, suivie de près par

la mesure de Jiang-Conrath.

Autres méthodes de propagation de la mesure de similarité

Dans tous les travaux que nous avons vus précédemment (Lesk,1986;

Baner-jee et Pedersen, 2002;Patwardhan et al., 2003), le cœur des études est la mesure

de similarité sémantique, ou algorithme local. La méthode de propagation de cette

mesure, ou algorithme global, est systématiquement la même. Elle consiste à

éva-luer toutes les combinaisons de sens possibles dans une fenêtre de contexte de cinq

à dix mots, et de choisir les sens qui maximisent la mesure de similarité locale.

Dans d’autres travaux conduits en parallèle tels queCowie et al.(1992) et

Gel-bukh et al.(2003), d’autres stratégies de propagation sont étudiées. En effet,

Gel-bukh et al. (2003) constatent que l’utilisation d’une petite fenêtre fixe de mots,

comme dans la méthode de Lesk originale, peut mener à de fortes incohérences

au sein d’une même phrase ou d’un document, parce que la désambiguïsation des

mots dans une fenêtre de contexte ne prend pas du tout en compte les résultats de

la désambiguïsation des mots au-delà de cette fenêtre.

Partant d’un principe démontré par Gale et al.(1992) que le sens d’un même

mot varie très rarement au sein d’un même discours, ils proposent alors un

algo-rithme global permettant de prendre en compte l’intégralité d’un document pour

désambiguïser un mot. Les auteurs constatent que pour un texte de 500 mots à

désambiguïser et ayant chacun en moyenne 3 sens

¹⁷

, il existe3

500

combinaisons

de sens possibles, soit environ 4× 10

²³⁸

_{combinaisons. Dans ces conditions, il}

est impossible de calculer la similarité entre toutes les paires possibles de sens.

C’est pourquoi les auteurs implémentent une heuristique à base d’algorithmes

gé-nétiques capables d’approcher la meilleure solution sans essayer toutes les

possi-bilités.

Certains travaux explorent d’autres heuristiques pour l’algorithme global.

Co-wie et al. (1992) implémentent par exemple l’algorithme du recuit simulé et

Schwab et al.(2011) implémentent un algorithme à base de colonies de fourmis.

Dans une de nos contributions (Vial et al., 2017d)

¹⁸

, nous comparons les

perfor-mances de certains de ces différents algorithmes globaux et d’autres, comme

l’al-gorithme des chauve-souris et l’all’al-gorithme des coucous. Plus de détails peuvent

aussi se trouver dans les travaux deTchechmedjiev(2012).

Finalement, il est à noter qu’une de nos contributions dans cette thèse porte

sur l’amélioration de l’algorithme de Lesk grâce à des vecteurs de mot (voir

cha-pitre 3). De plus, une autre contribution, précédant la thèse, porte sur l’amélioration

de l’algorithme de Lesk grâce à des corpus annotés en sens (Vial et al.,2016).

Algorithme de Lesk simplifié

Une autre variante de l’algorithme de Lesk qu’on peut retrouver dansKilgarriff

et Rosenzweig(2000) et dansVasilescu et al.(2004) consiste à compter le nombre

de termes en commun entre la définition d’un sens d’un mot cible et directement

les mots du contexte autour de lui. On appelle cet algorithme « algorithme de Lesk

simplifié » parce qu’il ne nécessite plus de calculer la mesurer de similarité pour

toutes les combinaisons possibles de sens, mais seulement une fois par sens pour

17. Ce qui correspond à une taille de document typique et au nombre de sens moyen dans Word-Net pour les mots polysémiques.

chaque mot. Le nombre de fois où l’on exécute l’algorithme local passe ainsi de

3

500

à3×500_{si on reprend l’exemple vu précédemment.}

L’algorithme de Lesk simplifié a cependant un désavantage important par

rap-port à l’algorithme de Lesk original. En effet, dans son utilisation, si plusieurs

sens d’un mot cible obtiennent le même score de similarité avec leur contexte,

c’est l’ordre des sens dans l’inventaire utilisé qui détermine le sens choisi. Or cet

ordre des sens, s’il est effectivement donné dans WordNet, est en partie issu de la

fréquence de ces sens dans des corpus annotés en sens. Ainsi, l’algorithme de Lesk

simplifié, contrairement à sa version classique, repose fortement sur des données

qui ne sont pas disponibles pour n’importe quelle langue ou dans n’importe quel

inventaire de sens.

Le Lesk simplifié connaîtra aussi quelques améliorations. Par exemple,Basile

et al. (2014) mesurent la similarité grâce à la mesure cosinus entre un vecteur

calculé à partir de mots de la définition d’un sens et un vecteur calculé à partir

des mots du contexte du mot à désambiguïser. Ils utilisent cependant, en plus de la

fréquence d’apparition des sens, de nombreuses autres informations sémantiques

issues de BabelNet.

1.4.1.2 Méthodes à base de graphes

Une autre branche de méthodes pour la DL à base de connaissances se

com-pose des méthodes fondées sur les graphes. Ces méthodes cherchent, comme pour

les méthodes à base de similarité sémantique, une cohérence globale au niveau

du texte, mais cette fois en exploitant des techniques de parcours d’arbres ou de

graphes plus générales, qu’on peut retrouver dans d’autres domaines, notamment

l’algorithme du PageRank deBrin et Page(1998) et ses dérivés.

Le premier algorithme pour la DL à base de graphes a été proposé parMihalcea

et al.(2004). Dans leur article, l’algorithme du PageRank (Brin et Page,1998) qui

est normalement utilisé pour mesurer la pertinence d’une page Web en fonction

des liens pointant depuis/vers la page, est ainsi appliqué au problème de la

désam-biguïsation lexicale. En effet, en considérant lessynsets_{de WordNet comme des}

nœuds et les relations sémantiques de WordNet comme des liens, on peut

calcu-ler un score de PageRank pour chacun des nœuds avec une formule de la forme

S(V

) = ^X

j∈In(Vi)

S(V

)

|Out(V

)|

avecV

le nœud dont on veut calculer le score,In(V

)_{l’ensemble de nœuds}

l’algorithme de DL en tant que tel, on construit d’abord le sous-graphe de

Word-Net composé des sens des mots présents dans le texte à désambiguïser. On assigne

ensuite initialement un score de1_{à chaque nœud du graphe. Enfin, on exécute le}

calcul des scores de PageRank pour chaque nœud jusqu’à convergence des scores,

et on assigne aux mots du texte les sens qui ont le plus grand score.

De multiples variantes de cet algorithme ont ensuite été proposées, toujours

en utilisant WordNet comme graphe de connaissances. Par exemple, on peut citer

Agirre et Soroa(2009), Agirre et al.(2014) et les travaux deMoro et al.(2014).

Ces derniers présentent notamment Babelfy, un système de DL multilingue à base

de graphes utilisant le réseau sémantique de BabelNet.

Dans le document Modèles neuronaux joints de désambiguïsation lexicale et de traduction automatique (Page 53-59)

1.4 Approches

1.4.1 Approches à base de connaissances

Les approches à base de connaissances, comme nous l’avons dit

précédem-ment, s’appuient sur des connaissances explicites telles que des bases de données

lexicales, des thésaurus ou des graphes sémantiques par exemple.

D’une manière générale, l’avantage principal des méthodes de cette catégorie

est qu’elles offrent une bonne couverture, étant donné que les bases de

connais-sances utilisées sont souvent directement liées à l’inventaire de sens. De plus,

elles sont facilement généralisables d’une langue à une autre, du moment que les

connaissances sur lesquelles elles s’appuient sont disponibles dans la langue

ci-blée.

On peut classer les approches à base de connaissances en deux sous-catégories :

les approches à base de similarité sémantique, et les approches à base de graphes.

1.4.1.1 Approches à base de similarité sémantique

Les approches à base de similarité sémantique sont les héritières d’une des

pre-mières méthodes pour la désambiguïsation lexicale : l’algorithme de Lesk (Lesk,

1986). Le fonctionnement de ce type d’approche repose sur deux composants

:

— Une mesure de similarité sémantique, ou algorithmelocal, qui permet

d’at-tribuer un score de proximité entre deux sens. Par exemple, une bonne

me-sure donnera un score de proximité vraisemblablement plus élevé entre la

paire de sens (fromage/nourriture, souris/animal) qu’entre la paire de sens

(fromage/nourriture, souris/ordinateur).

— Une méthode de propagation de l’algorithme local, ou algorithme global,

qui permet de désambiguïser tous les mots dans un contexte donné (phrase,

document...) grâce à la mesure locale. Par exemple, attribuer, pour tous les

mots d’une phrase, le sens qui obtient le plus haut score de similarité avec

les sens des mots voisins dans une fenêtre de trois mots.

Une de nos contributions s’appuie principalement sur l’algorithme de Lesk

(voir chapitre 3), ainsi que plusieurs de nos travaux antérieurs (Vial et al., 2016;

Vial,2016;Vial et al.,2017d). Nous allons ici présenter cet algorithme et sa

prin-cipale amélioration, l’algorithme de Lesk étendu. Enfin, nous aborderons d’autres

méthodes à base de similarité inspirées de l’algorithme de Lesk.

L’algorithme de Lesk

Lesk(1986) présente un des tout premiers algorithmes pour la

désambiguïsa-tion lexicale utilisant uniquement un dicdésambiguïsa-tionnaire électronique contenant des mots,

des sens et leurs définitions.

Pour cela, sa méthode repose sur l’idée générale que le sens d’un mot, pris dans

un contexte, partage des caractéristiques communes avec les sens des autres mots

de ce même contexte. Ainsi, pour désambiguïser un mot, l’algorithme va chercher

parmi tous ses sens possibles et lui attribuer celui qui aura la plus grande similarité

avec les sens de ses mots voisins.

Afin de mesurer cette similarité entre deux sens, Lesk propose de simplement

compter le nombre de mots en commun dans leur définition. Plus formellement, si

nous notonsD(S) ={w

, w

, . . . , w

}la définition deS, alors on peut décrire la

mesure de similarité de Lesk entre deux sensS

etS

de la manière suivante :

Lesk(S

, S

) =|D(S

)∩D(S

)|

Pour donner un exemple du fonctionnement de l’algorithme de Lesk, prenons la

phrase «Je pose la fourchette à côté de la cuillère.» et cherchons à attribuer le sens

correct du mot fourchette. Dans le Larousse en ligne

, les sens 1 et 2 des mots

fourchetteetcuillèreont les définitions suivantes :

Sens Définition

fourchette#1 «Ustensile de table dont le manche se termine par des dents

[...]»

fourchette#2 «Écart entre deux valeurs, deux possibilités extrêmes [...]»

cuillère#1 «Ustensile de table ou de cuisine composé d’un manche [...]»

cuillère#2 «Contenu d’une cuillère ; cuillerée.»

En calculant la similarité entre toutes les paires de sens possibles, et en excluant

les mots vides (le, de, et, à...)

on a :

S

S

D(S

)∩D(S

) Lesk(S

, S

)

fourchette#1 cuillère#1 {ustensile,table,manche} 3

fourchette#1 cuillère#2 {} 0

— Une mesure de similarité sémantique, ou algorithmelocal_{, qui permet}

— Une méthode de propagation de l’algorithme local, ou algorithme global_,

}_{la définition de}S_{, alors on peut décrire la}

_etS

_{de la manière suivante :}

phrase «Je pose la fourchette à côté de la cuillère._{» et cherchons à attribuer le sens}

correct du mot fourchette_{. Dans le Larousse en ligne}

fourchette_etcuillère_{ont les définitions suivantes :}

fourchette#1 ^«Ustensile de table dont le manche se termine par des dents

[...]_»

fourchette#2 «Écart entre deux valeurs, deux possibilités extrêmes [...]_»

cuillère#1 «Ustensile de table ou de cuisine composé d’un manche [...]_»

cuillère#2 «Contenu d’une cuillère ; cuillerée._»

fourchette#1 cuillère#1 {ustensile_,table_,manche} ₃

fourchette#1 cuillère#2 {} ₀

fourchette#2 cuillère#1 {} ₀

fourchette#2 cuillère#2 {} ₀

Plus formellement, si l’on noterel(S)_{l’ensemble des sens reliés à}S _{à travers}

_notéeExtLesk(S

)_{est la suivante :}

) ^[

) ^[

d’in-formations » (information content_{) à chaque sens en estimant la variabilité}