• Aucun résultat trouvé

Taxonomies et r` egles d’association

3.2 Taxonomies et mesures de similarit´ e

3.2.2 Mesures de similarit´ e

egalement pour la r´ecup´eration chez l’utilisateur final. Il y a aussi des taxonomies con¸cues pour aider la r´ecup´eration des r´esultats de recherche sans soutenir l’in-dexation humaine. Ces taxonomies sont typiquement des tables de mapping des termes et de leurs synonymes con¸cues pour faciliter la recherche en ligne.

— support d’organisation et de navigation : une taxonomie, comme une hi´erarchie, peut fournir un syst`eme de cat´egorisation ou de classification des objets ou des informations.

3.2.2 Mesures de similarit´e

Afin de pouvoir ´etablir des relations entre les concepts d’une telle ontologie, il est n´ecessaire de trouver une mesure qui permet d’en ´evaluer leur similitude et/ou leur dis-similitude. Cependant, il est essentiel de faire la diff´erence entre la notion de la relation s´emantique et celle de la similarit´e. En effet, deux concepts sont dits similaires s’ils satisfont une certaine relation s´emantique de ressemblance. Par ailleurs, deux concepts

Figure 3.1 – Approches de mesure de similarit´e. [Slimani et al., 2007]

not´es comme dis-similaires peuvent ´egalement ˆetre li´es s´emantiquement mais par d’autres types de relations telles que : antonymie, m´etonymie, etc.

Selon [Rezgui et al., 2013], nous pouvons distinguer trois classes de mesures s´ eman-tiques entre les concepts et qui sont couramment utilis´ees :

Similarit´e s´emantique quand la mesure calcule/´evalue si les deux concepts sont s´emantiquement similaires, i.e., ils partagent des propri´et´es et des attributs com-muns.

Parent´e s´emantique quand la mesure calcule/´evalue si les deux concepts sont ap-parent´es s´emantiquement, i.e., ils sont connect´es dans leur fonction. C’est un cas g´en´eral de la similarit´e s´emantique, ´etudi´ee dans les travaux de [Resnik et al., 1995] et [Budanitsky et Hirst, 2006].

Distance S´emantique quand la mesure calcule/´evalue deux concepts qui sont s´ e-mantiquement distants/loin. En effet, selon [Budanitsky et Hirst, 2006], la dis-tance s´emantique est l’inverse de la parent´e s´emantique, i.e., plus deux termes sont s´emantiquement li´es, plus ils sont s´emantiquement proches.

Nous nous int´eressons dans le cadre de cette th`ese seulement aux mesures de la simila-rit´e s´emantique. Pour plus des d´etails sur les autres classes de mesures, nous invitons le lecteur int´eress´e `a lire l’article [Rezgui et al., 2013].

Dans la litt´erature, nombreuses sont les approches de mesure de similarit´e, qui peuvent ˆetre class´ees en : approche reposant uniquement sur la structure hi´erarchique, approche utilisant le contenu informationnel et incluant d’autres informations `a part celles de la structure hi´erarchique, approche hybride et approche bas´ee sur l’espace vec-toriel (cf figure 3.1). Les mesures de similarit´e varient donc du simple calcul du nombre d’arcs `a l’int´egration d’autres mesures statistiques.

Approche bas´ee sur les arcs : bas´ee sur la longueur des chemins dans un arbre pour d´eterminer la distance entre deux concepts. Cette approche suppose que les arcs d’une taxonomie repr´esentent des distances uniformes. Dans [Rada et al., 1989], les auteurs calculent la distance conceptuelle entre les concepts par le chemin le plus court et la consid`erent comme un moyen efficace pour ´evaluer la simila-rit´e s´emantique, sans tenir compte des positions des arcs dans la hi´erarchie des concepts. Cependant, dans [Zhong et al., 2002], les auteurs tiennent compte de la position des concepts dans la hi´erarchie. De mˆeme, une autre mesure propos´ee par [Wu et Palmer, 1994] et tr`es li´ee `a celle de [Zhong et al., 2002], tient compte de la profondeur du plus petit g´en´eralisateur commun dans le calcul de la mesure de similarit´e.

Le probl`eme avec cette classe de mesures est que chaque mesure de similarit´e est li´ee `a une application particuli`ere. De plus, elles ont toutes l’avantage d’ˆetre faciles `a impl´ementer.

Approche bas´ee sur les nœuds : utilise des mesures tenant compte du contenu

informationnel pour d´eterminer la similarit´e conceptuelle. Dans [Resnik et al., 1995], l’auteur propose une nouvelle mesure de similarit´e s´emantique bas´ee sur le contenu informationnel.

Dans [Lin, 1998], l’auteur a essay´e de proposer une d´efinition de la mesure de similarit´e universelle, i.e., la mesure est applicable dans diff´erents domaines.

Approche hybride : elle combine les propri´et´es de deux premi`eres approches `a sa-voir l’approche bas´ee sur les arcs et l’approche bas´ee sur les nœuds/le contenu informationnel. Ainsi, certaines autres mesures ont ´et´e d´eriv´ees de ces deux der-ni`eres mesures et plusieurs mani`eres sont possibles pour d´eterminer la similarit´e s´emantique. Parmi ces mesures, nous citons celle de [Jiang et Conrath, 1997], et o`u les auteurs proposent une nouvelle approche pour mesurer la similarit´e s´ eman-tique entre les concepts. Cette approche h´erite de la fa¸con de calcul des arcs `a partir de l’approche bas´ee sur les graphes/les arcs, ainsi que de l’approche bas´ee sur les nœuds la mani`ere de calculer le contenu informationnel.

De plus, la mesure de Leacock and Chodorow [Leacock et Chodorow, 1998], tient compte de la longueur du chemin entre les concepts dans une ontologie restreinte aux liens taxonomiques et `a la profondeur de la taxonomie. De mˆeme, elle permet

d’´eviter le calcul de la teneur en information, mais elle maintient le concept de la th´eorie de l’information.

Approche bas´ee sur l’espace vectoriel : elle utilise un vecteur caract´eristique k-dimensions repr´esentant chaque objet/concept et puis calcule la similarit´e en se basant sur la mesure de cosine ou la distance euclidienne [Salton et McGill, 1983] et [Baeza-Yates et Ribeiro-Neto, 1999]. La d´efinition de la similarit´e entre deux vecteurs d’objets est obtenue par leurs contenus internes. Parmi ces similarit´es, nous citons la similarit´e de Jaccard, la similarit´e de Cosine, la similarit´e de Dice [Lin, 1998], etc.

Dans cette th`ese, nous utilisons le mod`ele bas´e sur les graphes (structure arbores-cente) et une mesure de similarit´e bas´ee sur les arcs. Ce mod`ele suppose que la hi´erarchie des concepts est structur´ee en fonction de la similarit´e s´emantique.

Par cons´equent, des concepts de l’ontologie sont similaires si la distance qui les s´ e-pare est faible. (Respectivement, ils sont dis-similaires si la distance qui les s´epare est importante).

C’est dans ce cadre, se situe la mesure de similarit´e de Shekar et Natarajan

[Shekar et Natarajan, 2004] pour le calcul de degr´es de parent´e entre les items d’une base de donn´ees transactionnelle. Cette mesure, appel´ee Item-Relatedness ou en fran¸cais Parent´e-globale et est class´ee comme ´etant une mesure s´emantique, est celle que nous utilisons par la suite.

Pour qualifier si une r`egle d’association est int´eressante ou non, la similarit´e est ´etudi´ee dans une r`egle d’association en deux niveaux : entre les items de la pr´emisse et entre les items de la conclusion.

L’objectif principal de la mesure introduite dans [Shekar et Natarajan, 2004] est de mesurer la parent´e entre les items des r`egles d’association d´ej`a d´ecouvertes. En fait, les auteurs ont propos´e d’utiliser une taxonomie floue dans le but de d´ecrire les relations entre les items des r`egles d’association. La diff´erence entre les taxonomies simples et les taxonomies floues, est ce que ces derni`eres permettent `a un nœud d’avoir des parents multiples (ce qui n’est pas le cas pour les taxonomies simples). Par ailleurs, elles per-mettent les relations pond´er´ees de type est-un. Pour bien illustrer la mesure introduite par Shekar et al., nous pr´esentons ses diff´erentes composantes et les calculs n´ecessaires en se r´ef´erant `a la figure 3.2. Ainsi, cette derni`ere illustre un exemple d’une taxonomie des produits alimentaires o`u les rectangles repr´esentent les concepts `a classifier effectivement et les cercles des concepts plus g´en´eraux.

Nœud de plus-haut-niveau du chemin [HA,B(P )] : le nœud qui apparaˆıt au plus haut niveau dans le chemin p qui connecte A et B. Par exemple, HP omme,Salade(P) = Produits alimentaires.

Figure 3.2 – Exemple d’une taxonomie.

le minimum des valeurs d’appartenance de deux items A et B dans le nœud de plus-haut-niveau du chemin HA,B(P), (sachant que dans le cas d’une taxonomie floue, chaque item poss`ede une valeur d’appartenance vers un p`ere donn´e.) Supposons que la valeur d’appartenance de P omme est de 0.5, celle de Salade est de 0.6, alors HAP omme,Salade(P) = 0.5.

Plus-haut niveau de parent´e [HPA,B(P)] : la parent´e entre deux items est d´ e-termin´ee par le niveau du nœud situ´e au niveau le plus ´elev´e qui les connecte dans le chemin p. HPA,B(P) = le niveau (HA,B(P)). Par exemple, HPP omme,Salade(P)=0.

Nœud de s´eparation de parent´e [N SPA,B(P)] : la longueur du chemin le plus

simple p connectant A et B en terme de nœuds (concepts). Par exemple N SPP omme,Salade(P)= 3.

Ainsi, la mesure de Shekar et Natarajan [Shekar et Natarajan, 2004] est d´efinie comme suit :

ORA,B(P ) = (1+HPA,B(P ))×(HAA,B(P ))

N SPA,B(P )

Shekar et al. comparent cette mesure de parent´e introduite `a d’autres mesures de similarit´e s´emantique ´etant donn´e que les notions de similarit´e et de parent´e sont li´ees : (i) mesure de [Resnik, 1999] ; et (ii) mesure de [Wu et Palmer, 1994]. La mesure de

Shekar et al. consid`ere les diff´erentes relations possibles entre deux items et aussi tient compte de la capacit´e des items de pouvoir ˆetre substitu´es l’un par l’autre.

3.3 Taxonomies dans le processus d’extraction de r`egles