Mesures sémantiques - Contributions au problème d'hétérogénéité sémantique dans les systèmes pa

Dans cette section nous présentons un état de l’art concernant les mesures de similarité sémantique entre entités d’une même ontologie (si- milarité intra-ontologie), et sur les mesures de (dis)similarité entre deux ontologies.

1.5.1 Similarités intra-ontologie

Mesurer la similarité entre deux concepts d’une même ontologie peut servir dans plusieurs contextes. Par exemple, cela permet d’étendre des requêtes sémantiques en recherche d’information [QF93, VCLV08] ou de désambiguïser des termes [BFCS12]. De nombreuses mesures ont été pro- posées dans la littérature. Elles permettent d’estimer la proximité séman-

tique entre concepts d’une même ontologie. Un certain nombre d’entre elles considèrent la structure hiérarchique des ontologies. C’est le cas de la mesure proposée par Rada [RMBB89]. Elle est définie par :

simRa(c1, c2) = ₁ 1

+dist(c1, c2) (1.6)

où dist(c1, c2)correspond au nombre d’arcs qu’il faut traverser dans l’on-

tologie pour relier les concepts c1 et c2. Quelles que soient leurs positions

dans l’ontologie, plus les concepts sont éloignés dans la hiérarchie, moins la similarité est importante. Wu et Palmer ont proposé une mesure prenant en compte la position des concepts, c’est-à-dire la profondeur à la- quelle ils se trouvent dans l’ontologie [WP94] :

simWP(c1, c2) = _{pro f}2·pro f(c)

(c1) +pro f(c2) (1.7)

Dans cette mesure, c désigne le plus petit ancêtre commun à c1et c2 dans

l’ontologie, et pro f(c)est une fonction donnant la profondeur du concept c dans la hiérarchie (la profondeur du concept racine vaut 0). La mesure de Wu et Palmer ne prend pas en compte la profondeur de l’ontologie. Pour- tant celle-ci peut avoir une importance. La profondeur d’une ontologie o est définie par : Pro f(o) = maxc∈opro f(c). Resnik a définit une mesure

de similarité utilisant cette notion [Res95] :

simRe(c1, c2) =2·Pro f(o) −dist(c1, c2) (1.8)

Des approches considèrent le contenu informationnel des concepts pour mesurer la similarité entre deux concepts. C’est le cas de la mesure proposée par Richardson, Smeaton et Murphy [RSM94] :

simRi(c1, c2) =max

c∈C ci(c) (1.9)

où C correspond à l’ensemble des ancêtres communs aux concepts c1et c2,

et ci(c)correspond au contenu informationnel associé au concept c. Plu- sieurs approches ont été proposées pour estimer le contenu informationnel d’un concept. Resnik propose d’utiliser un corpus [Res95], tandis que Seco, Veale et Hayes proposent de se limiter à l’ontologie en considé- rant que le contenu informationnel d’un concept décroît avec le nombre de concepts qui le spécialisent [SVH04].

Jiang et Conrath [JC97] et Lin [Lin98] ont proposé des mesures com- binant les deux approches (celle basée sur la structure de l’ontologie et celle basée sur le contenu informationnel des concepts). La mesure de Lin est définie par :

simLin(c1, c2) = _log 2·log(P(c))

(P(c1)) +log(P(c2)) (1.10)

où c est le plus petit ancêtre commun à c1 et c2, et P(c)correspond à la

1.5.2 Similarités entre ontologies

Il est souvent utile de pouvoir évaluer la distance entre deux ontologies. Pour cela il faut disposer de mesures de (dis)similarité. Certaines de ces mesures permettent de décider s’il est raisonnable d’aligner deux ontologies. Cela permet de ne pas lancer un processus d’alignement coûteux et produisant peu de correspondances dans le cas où les ontologies sont trop différentes. Le calcul de la distance doit être rapide (en tout cas plus rapide que l’alignement lui-même).

Maëdche et Staab définissent plusieurs mesures de similarité entre ontologies [MS02]. L’une d’entre elles se concentre sur le niveau lexi- cal (SM : String Matching). Elle considère les labels attribués aux concepts et est basée sur la distance d’édition (mesure de Levenshtein [Lev66]). Ils proposent également une mesure de similarité à partir des hiérarchies de deux ontologies (TO : Taxonomie Overlap). Cette mesure permet de mesurer à quel point deux ontologies sont similaires au niveau de leurs structures. Enfin ils proposent une mesure prenant en considération les relations liant les concepts (RO : Relation Overlap).

Dans [DE08], David et Euzenat présentent différentes mesures de (dis)similarité entre ontologies. Étant donnée une mesure de dissimila- rité δ entre entités de deux ontologies o et o′_{, les auteurs définissent la} mesure de dissimilarité Average Linkage :

∆_alo(o, o′_{) =} 1

|o| × |o′_|

∑

(e,e′_)∈_o_×_o′

δ(e, e′₎ _(1.11) où |o| correspond au nombre d’entités contenues dans l’ontologie o. La mesure δ est une mesure de dissimilarité quelconque entre deux entités. Dans le même contexte, les auteurs présentent une mesure de Hausdorff qui mesure une distance entre deux ontologies :

∆_Hauss(o, o′_{) =}_max max e∈o mine′_∈_o′δ(e, e ′₎_{, max} e′_∈_o′ min_e_∈_o δ(e, e ′₎ (1.12) Enfin, les auteurs introduisent la notion de graphe d’alignement maxi- mal de poids minimal (minimum weight maximum graph matching). Un tel graphe G⊆ o×o′ _{vérifie que quel que soit un autre graphe G}′ _⊆_o_×_o′ _:

∑

hp,q′_i∈_G

δ(p, q) 6

∑

hp,q′_i∈_G′

δ(p, q′) (1.13)

La distance MWMGM (Minimum Weight Maximum Graph Matching) est définie par :

∆_mwmgm(o, o′_{) =} ∑hp,q′i∈Gδ(p, q′) +max(|o|,|o′|) − |G|

max(|o|,|o′_|) (1.14) Euzenat, Alloca, David et al. présentent un ensemble de mesures de distance entre ontologies dans [EAD+_{09]. Certaines considèrent uniquement} les labels assignés aux entités : la distance d’Hamming sur les noms ∆hdcn,

la similarité Common Name σcn, etc. Une mesure similaire à la similarité

Common Name est définie sur les axiomes des ontologies : σcax. En consi-

sémantique : la distance Ideal Semantic. Elle prend en compte l’ensemble des conséquences d’une ontologie. Étant donné que cet ensemble peut être infini, les auteurs proposent de considérer l’ensemble des conséquences d’une ontologie par rapport à une autre. Ils définissent ainsi la similarité Common Consequence :

σccsq(o, o′) = |LCn(o, o

′_{) ∩}_LCn₍_o′_{, o}_)|

max(|o|,|o′_|) (1.15) où LCn(o, o′_{) =} _o_∩_Cn₍_o′₎_{. Les auteurs proposent également une mesure} qui permet de se focaliser sur les concepts les plus importants des ontologies. Pour cela les travaux de Peroni, Motta et d’Aquin peuvent être considérés [PMd08]. La fonction KC permet de retourner l’ensemble des n concepts clés (key concepts) d’une ontologie. La mesure de similarité est définie par :

σukc(o, o′) = |KC(o, n) ∩KC(o

′_{, n}_)|

n (1.16)

Dans cette définition, KC(o, n)désigne l’ensemble des n concepts les plus importants. L’expression A∩B désigne ici l’ensemble des concepts de A et de B ayant le même label. Cette mesure est un raffinement de la me- sure σcn, et elle ne tient pas compte de l’ordre des concepts importants.

Les auteurs proposent une mesure permettant de prendre en compte cet aspect :

σrkc(o, o′) = _n1

∑

c∈KC(o,n)

σkc(KC(o, n), KC(o′, n), c) (1.17)

où, étant donnés deux ensembles ordonnés de concepts S1 et S2 de cardi-

nalité n, la mesure σkc est définie par :

σkc(S1, S2, c) =

1− 1_n|rang(S1, c) −rang(S2, c)| si c∈S1∩S2

0 sinon (1.18)

Contrairement à toutes les mesures présentées précédemment (qui sont définies dans l’espace des ontologies), certaines mesures ont été définies dans l’espace des alignements, c’est-à-dire qu’elles mesurent la distance entre deux ontologies en prenant en compte des alignements existants entre elles. Euzenat et al. proposent un ensemble de mesures [DEvZ10, EAD+_{09]. Ils définissent par exemple une mesure de similarité de manière} très simple : σap(o, o′) =        1 si o=o′ 2/3 si o6=o′_{∧ A(}_{o, o}′_{) 6=}_∅ 1/3 si o6=o′_{∧ A(}_{o, o}′_{) =}_∅_{∧ A}∗₍_{o, o}′_{) 6=}_∅ 0 sinon (1.19)

oùA(o, o′₎_{désigne l’ensemble des alignements existants entre o et o}′ _dans l’espace d’alignementA, etA∗₍_{o, o}′₎_{désigne l’ensemble des chemins d’ali-} gnements entre o et o′ _dans_A_{. Une mesure considérant le plus court che-} min d’alignements a également été proposée (σsap). La mesure Alignment

Coverage (cov) se focalise sur le nombre d’entités d’une ontologie o pré- servées par un alignement a. Elle est définie par :

cov(o, o′_{, a}_{) =} |{e∈ o:∃hid, e, e′, r, ni ∈a}|

Une mesure de distinguabilité est également définie : sep(o, o′_{, a}_{) =} |{e′ ∈o′ :∃hid, e, e′, r, ni ∈a}|

|{e ∈o:∃hid, e, e′_{, r, n}_{i ∈} _a_}| (1.21) La mesure cov détermine à quel point les concepts d’une ontologie sont préservés par un alignement, alors que la mesure sep détermine à quel point les concepts sont distincts lorsqu’un alignement est appliqué. Ces deux mesures peuvent être combinées pour définir la mesure covdis. Étant donné un ensemble de chemins d’alignement A∗₍_{o, o}′₎ _{entre deux onto-} logies o et o′_{, la mesure Largest Covering Preservation (σ}

lcp) permet de

déterminer à quel point les concepts d’une ontologie sont préservés sur ce chemin :

σlcp(o, o′) = max

a∈A∗₍_o,o′₎covdis(o, o

′_{, a}₎ _(1.22)

Enfin, la mesure de similarité Union Path Coverage (σupc) considère

l’union de différents chemins d’alignements entre deux ontologies, plutôt qu’un seul chemin. L’idée sous-jacente est qu’une requête propagée entre deux individus au travers d’un chemin d’alignement peut être décompo- sée et propagée parallélement à travers différents chemins. La mesure de similarité est donc définie par :

σupc(o, o′) = |{e∈o :∃a

∗ _{∈ A}∗₍_{o, o}′₎_{tel que e est préservé sur a}∗_}|

|o|

(1.23) Dans [d’A09], d’Aquin propose des mesures d’accord et de désac- cord (agreement et disagreement) entre deux ontologies. Pour cela il consi- dère le degré d’accord entre toutes les déclarations des ontologies. Par exemple la déclaration hc1, ra, c2icontenue dans l’ontologie o déclare que

le concept c1 est lié au concept c2 via la relation ra. Si les concepts c1et c2

sont alignés avec les concepts c′

1et c′2 de l’ontologie o′ et que o′ contient la

déclaration hc′

1, rb, c′2ialors la mesure d’accord (ou de désaccord) dépend

de la proximité entre ra et rb : agreement(o, o′_{) =} 1 |ST| + |ST′_|

∑

st∈ST agr(st, o′_{) +}

_∑

st′_∈_ST′ agr(st′_{, o}₎ _(1.24) où ST est l’ensemble des déclarations contenues dans l’ontologie o, et agr(st, o′₎_{mesure l’accord de la déclaration st dans l’ontologie o}′

Dans le document Contributions au problème d'hétérogénéité sémantique dans les systèmes pair-à-pair : application à la recherche d'information (Page 38-42)