• Aucun résultat trouvé

Homog´ en´ eit´ e et itemsets homog` enes

Fouille de r` egles d’association disjonctives en utilisant les

5.2 Homog´ en´ eit´ e et itemsets homog` enes

Comme nous l’avons d´ej`a mentionn´e, l’int´erˆet d’itemsets est mesur´e non pas seule-ment en se basant sur leur support disjonctif, mais aussi sur leur homog´en´eit´e. L’homo-g´en´eit´e d’itemsets est d´efinie en utilisant une mesure d’homog´en´eit´e, que nous appelons Overall-Relatedness.

5.2.1 Mesure d’homog´en´eit´e : Overall-Relatedness

Dans ce qui suit, nous ´etudions la mesure d’homog´en´eit´e entre une paire d’items, puis nous la g´en´eralisons pour le cas d’un ensemble d’items (i.e., itemset).

La mesure Overall-Relatedness (OR) pour une paire d’items mesure le niveau d’ho-mog´en´eit´e de deux items qui est ´equivalent `a calculer la distance s´emantique entre ces deux items.

efinition 38. Une taxonomie est une structure hi´erarchique qui repr´esente des concepts li´es `a travers la relation ”est-un” ou ”is-a”.

Il est important `a noter que nous avons consid´er´e le cas des taxonomies arbre dans notre travail.

Dans ce qui suit, nous rappelons bri`evement les d´efinitions de Shekar et Natarajan [Shekar et Natarajan, 2004], qui sont pr´ec´edemment cit´ees (cf. page 55) et nous consid´ e-rons la taxonomie des produits alimentaires de la figure 5.1 pour illustrer nos d´efinitions.

Figure 5.1 – Taxonomie des produits alimentaires.

Soit T une taxonomie et A et B deux nœuds distincts de T . Si on note p le chemin unique dans T qui connecte A et B, alors :

H(A,B) : d´enote le nœud de plus-haut-niveau du chemin p.

HR(A,B) d´enote le niveau maximal des nœuds de p.

NSR(A,B) d´enote le nombre de nœuds de p, si l’on exclut A et B.

Exemple 24. En consid´erant la taxonomie de la figure 5.1, nous avons : H(Pomme, Salade) = Produits-alimentaires,

HR(Pomme, Salade)= 0, NSR(Pomme, Salade)= 6.

La mesure d’homog´en´eit´e Overall-Relatedness pour une paire de concepts, not´ee OR(c1, c2), est d´efinie comme suit :

efinition 39. Overall-Relatedness

Soit T une taxonomie et A et B deux nœuds de T . — si A=B alors OR(A, B) = 1

— sinon, OR(A, B) = sim(A, B) = k1+HR(A,B)∗NSR(A,B)

Remarque

Cette d´efinition de la mesure d’homog´en´eit´e diff`ere de celle de Shekar et Natarajan [Shekar et Natarajan, 2004], puisque les auteurs ont consid´er´e une taxonomie floue (avec des degr´es d’appartenance diff´erents) ce qui n’est pas notre cas.

5.2.2 Calcul de la mesure Overall-Relatedness

Dans ce qui suit, nous expliquons en premier lieu la mani`ere dont sont repr´esent´es les concepts, puis en deuxi`eme lieu comment calculer la distance s´emantique entre deux items c1 et c2.

Pour calculer la mesure Overall-Relatedness entre les concepts d’une taxonomie don-n´ee, nous construisons un fichier texte incluant pour chaque concept son chemin. Ce fichier texte sera parmi les param`etres de l’algorithme du calcul de la mesure Overall-Relatedness entre deux concepts quelconques. Le fichier correspondant `a la taxonomie de la figure 5.1 est donn´e par la figure 5.2.

Figure 5.2 – Fichier de la taxonomie de la figure 5.1.

Chaque ligne de ce fichier correspond `a un concept donn´e de la taxonomie. Si un ou plusieurs concepts sont fr`eres, alors on les repr´esente dans la mˆeme ligne.

Nous expliquons la premi`ere ligne tout en sachant qu’il en est de mˆeme pour les autres lignes. Les concepts sont toujours `a la fin de la ligne et sont toujours entre parenth`eses et s´epar´es par une virgule. Le d´ebut de la ligne correspond au chemin de ce (ou de ces) concept(s) depuis le p`ere racine. Ainsi, nous avons au niveau de la racine Pa(Produits Alimentaires), puis V(Viandes), puis Vb(Viande Blanche). Pour diff´erentier le p`ere de ce (ou de ces) concept(s) des autres ancˆetres, on le pr´ec`ede par une virgule.

Chaque ligne est impl´ement´ee `a l’aide d’une liste et le niveau de chaque concept est d´etermin´e par sa position dans la liste. De mˆeme, il est facile de d´eterminer le HR de

deux concepts donn´es qui correspond `a la position de leur pr´ed´ecesseur commun dans la liste.

Apr`es avoir expliqu´e comment sont repr´esent´es les concepts, nous passons `a expliquer comment calculer leur mesure Overall-Relatedness. D’abord, nous expliquons le calcul de la distance entre deux concepts c1et c2, N SR(c1, c2) qui est pr´esent´e par l’algorithme 9. Ce calcul se r´ealise en plusieurs ´etapes :

1. D´eterminer le niveau de chaque concept dans la taxonomie ;

2. Initialiser la mesure N SR(c1, c2) = 0, alors deux cas peuvent se pr´esenter :

les deux concepts sont du mˆeme niveau : nous partons des deux concepts c1et c2, et nous remontons `a travers la relation ”is-a” vers leur ancˆetre commun en ajoutant `a chaque remont´ee la valeur 2 `a N SR(c1, c2). ´Etant donn´e, que nous comptons les nœuds et pas les arcs, nous retranchons la valeur 1 de la valeur finale de N SR.

les deux concepts ne sont pas du mˆeme niveau : nous partons du concept

avec le niveau le plus ´elev´e (i.e., celui situ´e plus bas de la taxonomie), nous remontons dans la taxonomie `a travers la relation ”is-a” et nous ajoutons la valeur 1 `a de N SR(c1, c2) `a chaque remont´ee. Nous nous arrˆetons quand nous avons atteint le niveau de l’autre concept, et nous revenons au cas pr´ec´edent.

Exemple 25. Nous consid´erons la taxonomie donn´ee par la figure 5.1 : les produits de cette taxonomie sont eux mˆeme les items de la base de donn´ees repr´esent´ee par la figure 5.3 et qui servira comme un exemple illustratif jusqu’`a la fin du chapitre.

Les nœuds{Fruits-l´egumes, Laitiers, compl´ements, Viandes, Entr´ees, Boissons, Liquide, Fruits, Viande-blanche, Entr´ee-froides, Entr´ee-chaudes et Boisson-gazeuse} sont des nœuds fictifs (i.e., n’existaient pas r´eellement dans la base de donn´ees).

De mˆeme, consid´erons l’ensembleI = {salade, tomate, poulet, porc, pomme, soupe, poire, lait, coca}, et nous supposons l’ensemble de transactions ∆ pr´esent´e dans la table de la figure 5.3. Pour simplifier, pour chaque j = 1, . . . , 8 , la transaction avec tId ´egal `a j est d´enot´ee par tj. Par exemple t1 fait r´ef´erence `a la premi`ere transaction dans ∆, qui est (1, { salade, tomate, poulet }).

tId I

T1 salade, tomate, poulet T2 salade, tomate, porc T3 tomate, poulet

T4 salade, tomate, poulet T5 pomme, soupe

T6 poire T7 lait, soupe T8 coca