Mesures de similarité taxonomique - Représentation géométrique de treillis de Galois

3.3 Représentation géométrique de treillis de Galois

4.1.2 Mesures de similarité taxonomique

On peut noter que le calcul de δ∆ considère les extensions autant que les

intensions pour mesurer la distance entre deux concepts. Une telle mesure serait opportune dans l’algorithme de Lesk aﬁn de sélectionner des concepts formels. Cependant, δ∆ ne permet pas de tenir compte des déﬁnitions hiérarchisées telles

qu’elles peuvent l’être dans un thésaurus ou un treillis de Galois. Par ailleurs, cette distance n’est pas capable de prendre en compte le nombre d’occurrences des unités lexicales en corpus. Pour résoudre ces problèmes, nous examinons des mesures de similarité qui ont été élaborées pour prendre en compte une structure taxonomique.

4.1.2 Mesures de similarité taxonomique

En partant de l’algorithme de Lesk, Patwardhan et al. [2003] et Vasilescu et al. [2004] présentent une technique de désambiguïsation exploitant des mesures de similarité capables d’évaluer la proximité sémantique entre deux nœuds d’une base lexicale taxonomique telle que WordNet [Miller, 1995]. Ce type de mesure permet de mettre en correspondance des UL observées en corpus avec les entrées lexicales décrites dans la base lexicale. Le calcul de similarité repose principalement sur la longueur du plus court chemin entre deux concepts dans la hiérarchie. L’intuition sous-jacente est de déterminer le plus direct hyperonyme commun à deux concepts dans la taxonomie. Ce concept est le subsumant le plus spéciﬁque (SPS, ou en anglais LCS pour least common subsumer) : le SPS d’une collection de concepts

c₁. . . cn est le concept le plus spéciﬁque D qui subsume c1. . . cn tel que ci ≤ d

pour i = 1 . . . n ; et si ci ≤ E pour i = 1 . . . n alors D ≤ E.

Une mesure de similarité conceptuelle hybride, proposée par Resnik [1999], combine des contraintes structurelles avec des critères probabilistes estimés par une analyse des occurrences dans un corpus. Lorsque plusieurs unités polysé- miques cooccurrent, le sens le plus probable pour chacune de ces unités lexicales est celui qui maximise les relations sémantiques entre chaque sens choisi : le concept le plus probable pour annoter une unité polysémique est celui qui mini- mise la longueur du chemin avec les autres unités du concept.

L’approche proposée par Resnik ne se limite pas à déterminer le SPS entre deux concepts, c’est-à-dire le plus court chemin qui les sépare. La distance calculée prend aussi en compte la distribution des unités lexicales observées dans un corpus de référence. Cette connaissance n’est pas disponible dans un corpus ne disposant pas d’un étiquetage sémantique : il n’existe pas d’association entre les mots du corpus et les concepts de la base lexicale. Resnik suggère alors de compter le

nombre d’occurrences d’une unité polysémique dans le corpus, puis de diviser ce compte par le nombre de concepts diﬀérents qui lui sont associés dans la base lexicale. Par exemple, supposons que l’unité lexicale bank apparaisse 20 fois dans un corpus. Les concepts associés à cette unité dans la taxonomie (en l’occurrence,

river bank et ﬁnancial bank) reçoivent chacun un compte de 10, ce qui présuppose

une équiprobabilité d’appartenance des sens possibles.

La similarité entre deux concepts c1 et c2 est ﬁnalement déﬁnie comme l’en-

tropie (quantité d’information) fournie par les lexicalisations (les unités lexicales du concept) du SPS dans un corpus, où P (c) est la probabilité de retrouver une instance du concept c.

sim(c1, c2) = − log P (SP S(c1, c2))

Ces travaux ont été adaptés à la structure de treillis de Galois pour permettre de mesurer la similarité entre des concepts formels. Dans le cadre d’une logique de descriptions, Maala et al. [2007] présentent une mesure de similarité entre deux concepts formels qui s’appuie sur la longueur des chemins entre ces concepts dans le graphe que constitue le treillis. Cette mesure fait appel aux notions de concept subsumant le plus spéciﬁque (SPS) et de concept subsumé le plus général (SPG, en anglais MGS pour most general subsumee) pour une collection de concepts. Le SPG d’une collection de concepts c1. . . cn est le concept le plus général D qui est

subsumé par c1. . . cn tel que D ≤ ci pour i = 1 . . . n ; et si E ≤ ci pour i = 1 . . . n

alors E ≤ D.

La distance est calculée en comptant le nombre d’arcs entre les concepts. Cette mesure peut être considérée comme une distance d’édition car elle est calculée sur la base d’un chemin minimal de transformations entre éléments (objets et/ou attributs). Ce type de similarité taxonomique est capable de tirer parti de l’aspect structurel des treillis. En revanche, contrairement au modèle de Resnik [1999], l’aspect fréquentiel (fréquences d’occurrence d’UL en corpus) n’est pas utilisé pour pondérer les arcs du treillis. Dans notre cadre d’exploitation de treillis en désambiguïsation lexicale, il nous semble plutôt approprié de combiner ces aspects structurels et fréquentiels : nous n’utiliserons donc pas la mesure proposée par Maala et al. [2007].

4.1.3 Conclusion

Les approches examinées dans cette section mettent en œuvre des techniques de désambiguïsation d’unités polysémiques à partir de ressources décrivant une sé- mantique prédéﬁnie du lexique. Dans le cadre de l’utilisation de concepts formels pour cette tâche, une variante non supervisée de l’algorithme de Lesk pourrait s’appuyer, non pas sur un dictionnaire traditionnel, mais sur un treillis de Galois.

Plutôt que de mesurer le taux de recouvrement entre des déﬁnitions, les critères de sélection d’unités de sens pourraient être dirigés par une mesure de similarité ou une distance entre des concepts formels [Maala et al., 2007]. Dans cette perspec- tive, des mesures de similarité taxonomiques pourraient tirer avantage de l’aspect structurel des treillis de Galois autant que des aspects fréquentiels observés dans des corpus. Enﬁn, en complément à cet aspect structurel de la polysémie, il paraît opportun d’exploiter le modèle continu du sens présenté dans le chapitre 3.

Dans le document Apprentissage incrémental pour la construction de bases lexicales évolutives : application en désambiguïsation d'entités nommées (Page 119-121)