Calculer les skylines `a partir des itemsets graduels

5.4 Extraction de r`egles graduelles multidimensionnelles

6.1.2 Calculer les skylines `a partir des itemsets graduels

Dans cette section, nous utilisons l’exemple du tableau 6.3.

Le tableau 6.4 montre tous les skylines obtenus `a partir de cette base :

Itemset Skyline Itemset Skyline

A _{o3} BD {o2, o5} B {o2} CD {o2, o5} C _{o2} ABC {o1, o2, o3, o5} D _{o3, o4, o5} ABD {o2, o3, o5} AB {o2, o3, o5} ACD {o1, o2, o3, o5} AC _{o1, o2, o3, o5} BCD {o2, o5} AD _{o3} ABCD {o1, o2, o3, o5} BC {o2}

Plus formellement, la domination d’un objet sur un autre est définie de la manière suivante : Définition 41. (domination) Soit s = (i≥₁...i≥

n) un itemset graduel. o domine o′ si ∀i ∈ s, i[o] ≤ i[o′]

et∃j ∈ s, j[o] < j[o′_{]. On note o}_≺ so′.

D´efinition 42. (skyline) Soit s = (i≥₁...i≥n) un itemset graduel. o appartient au skyline de s (o ∈

SKY (s)) s’il n’est domin´e par aucun autre objet sur s.

Dans le contexte de l’extraction d’itemsets graduels, nous avons le théorème 3 : Théorème 3. Soit s = (i≥₁...i≥n) un itemset graduel. Alors

SKY (s) =_{{o ∈ O, M}_•os =→0} ∪ {o ∈ O, ∀o′ ∈ O, Moos′∧ M_os′_o= 1} où Ms _{est la matrice binaire associée à l’itemset s, M}s

•o est la colonne correspondant `a l’indice o de la

matrice, et→0 est le vecteur nul de longueur |O|.

Démonstration. Soit Ms _{la matrice associée à s = s}

k.sl telle que Ms = Msk ∧ Msl. Soit o tel que

Ms •o= → 0 , alors • Soit Msk •o = →

0 alors il n’existe aucun o′ tel que i[o′]≤ i[o], ∀i ∈ sk. Donc comme sk⊂ s, il n’existe

aucun o′ tel que i[o′]_{≤ i[o], ∀i ∈ s} • Soit Msl

•o = →

0 alors il n’existe aucun o′ tel que i[o′_]_{≤ i[o], ∀i ∈ s}

l. Donc comme sl ⊂ s, il n’existe

aucun o′ tel que i[o′]≤ i[o], ∀i ∈ s • Soit Msk •o 6= → 0 et Msl •o 6= → 0 , donc ∄o′, Msk o′_o = M sl

o′_o = 1. Donc on peut avoir M

o′_o = 1, mais dans ce cas Msl

o′_o= 0 ou inversement. On en d´eduit que sur s, o′ ne peut ˆetre tel que i[o′]≤ i[o], ∀i ∈ s. Supposons maintenant que Ms=sk.sl

•o 6= →

0 , et que si M_os′_o = 1, alors M_oos′ = 1. Cela signifie que i[o′_{] = i[o],} _{∀i ∈ s}

k et j[o′] = j[o], ∀j ∈ sl. Ces deux objets sont donc confondus et ne sont pas

dominés l’un par l’autre car la seconde condition de domination (stricte) n’est pas vérifiée. Nous ne gardons alors qu’un seul membre de cette classe d’objets. Pour tous les objets o′ _{restants, M}s

o′_o = 0. La colonne M_•os devient donc nulle, et aucun autre objet ne domine o.

Nous avons d´emontr´e que {o ∈ O, Ms •o =

→

0} ∪ {o ∈ O, ∀o′ _{∈ O, M}s

oo′∧ M_os′_o= 1} ⊆ SKY (s). Soit un objet o tel que o_{∈ SKY (s). Alors il n’existe pas d’objet o}′_{∈ O qui domine o. Cela signifie ∄o}′

tel que o′ _{≤ o sur toutes les dimensions, et o}′ _{< o sur au moins une dimension. Alors o}_{≤ o}′_,_∀o′ _{∈ O.}

Donc :

• Soit il n’y a pas d’objet confondu avec o, et o < o′ _{sur toutes les dimensions. On a M}s •o =

→

0 • Soit ∃o′ _{tel que o = o}′_{. Par construction, M}s

oo′∧ M_os′_o = 1 Nous avons d´emontr´e que SKY (s)_{⊆ {o ∈ O, M}s

•o= →

0} ∪ {o ∈ O, ∀o′ ∈ O, Ms

o3 o5 o4 o1 o2 A ≥ o2 o5 o1 o3 o4 B ≥ o2 o5 o1 o3 o4 C ≥ o3 o4 o5 o1 o2 D ≥ o2 o3 o5 o4 o1 A ≥_B≥ o3 o5 o4 o1 o2 A ≥_D≥ o1 o2 o3 o5 o4 A ≥_C≥ o2 o5 o1 o3 o4 B ≥_C≥ o2 o5 o1 o3 o4 B ≥_D≥ o2 o5 o1 o3 o4 C ≥_D≥ o2 o3 o5 o4 o1 A ≥_B≥_D≥ o1 o2 o3 o5 o4 A ≥_B≥_C≥ o1 o2 o3 o5 o4 A ≥_C≥_D≥ o2 o5 o1 o3 o4 B ≥_C≥_D≥ o1 o2 o3 o5 o4 A ≥_B≥_C≥_D≥ 13 3

En d’autres termes, le théorème 3 montre que les “racines” des diagrammes de Hasse correspondant aux matrices binaires sont les skylines. Par exemple, considérons la figure 6.4, qui représente tous les diagrammes de Hasse générés pour la base du tableau 6.2. Par souci de lisibilité, nous les avons ordonnés selon le treillis des itemsets. Les racines du diagramme de Hasse associé à l’itemset graduel (B≥D≥) sont o2, o5, et correspondent bien aux sous-espaces skylines recensés dans le tableau 6.4. On

note également que les objets o3, o4, o5 sont sélectionnés comme racine de D≥, car ils sont égaux et

aucun autre objet ne les domine. Ils v´erifient la partie{∀o′_{∈ O, M}s

oo′∧ M_os′_o= 1} du théorème. Le théorème 3 montre qu’il est possible d’utiliser l’algorithme d’extraction complet présenté au chapitre 3 afin de répondre aux différentes requêtes skylines.

Requˆetes skylines classiques

Supposons une requˆete skyline de la forme : SELECT ... FROM ... WHERE ... GROUP BY ... HAVING ...

SKYLINE OF [DISTINCT] i1 [MIN | MAX], ..., in [MIN| MAX]

ORDER BY ...

Alors il suffit de construire les matrices binaires associ´ees aux items i1... in, en utilisant l’op´erateur

de comparaison≥ pour MIN et ≤ pour MAX (les racines représentent les plus petites valeurs pour ≥). Nous effectuons ensuite une intersection (ET binaire) entre toutes ces matrices, et calculons les racines de la matrice finalement obtenue. Ces racines sont les skylines demandés. Ces étapes sont résumées par l’algorithme 9.

Algorithme 9 : SkyQuery

Données : Une base de données BD, Requête skyline SKY (_I)

R´esultat : Ensemble des objets de SKY (_I)

M ← 1 /* Initialisation de tous les bits de la matrice r´esultat `a 1 */

pour chaque i_{∈ I faire}

M′ _{← ConstructMat(i, ∗)} 3

/* Construire la matrice binaire en fonction de l’ordre associé à l’item */ M ← MET M′ 4 fin 5 Résultat : GetRootsM

L’avantage de cette approche est l’utilisation de la structure binaire, qui permet de faire émerger rapidement les objets skylines de SKY (I). Contrairement aux approches de [BKS01, PTFS03, GSG05], nous n’avons pas besoin de comparer les objets à chaque itération afin de déterminer les objets skylines courants, ni de fusionner des objets aux retours des itérations D& C. En ce sens, notre méthode sera

plus rapide. Dans ce contexte, l’utilisation d’une fonction d’ordre telle que proposée par [CGGL03] est réalisée par la ligne 3 de notre algorithme. En revanche, nous souffrons de la structure binaire pour des bases de données contenant beaucoup d’objets. L’efficacité mémoire sera donc moindre.

L’algorithme 9 est une généralisation permettant de répondre à la problématique des top-k skylines. Le K-SKYBAND

Le K-SKYBAND est une généralisation des skylines. Il consiste à trouver les objets qui sont dominés par au plus K_{−1 objets. Dans ce contexte, nous aurons besoin de calculer les niveaux associés à chaque} objet de la matrice finale afin de trouver ceux possédant au plus K_{− 1 pères.}

Corollaire 3. K_{− SKY BAND(s) = {∀o ∈ M}s_,_|Ms

•o| ≤ K − 1}

Démonstration. Le corollaire 3 est une généralisation du théorème 3

Dans ce cas, la découverte des objets skylines associés est encore plus directe, puisque nous n’avons pas à vérifier les objets égaux dans la matrice. Contrairement à [GSYZ09], nous n’avons pas besoin de stratégie de partitionnement des données. Comme pour les requêtes skylines, nous pensons qu’une méthode basée sur les règles graduelles sera plus performante dans le cas d’un jeu de données ayant un nombre d’objets susceptible de tenir en mémoire.

Le SKYCUBE

Le skycube consiste à calculer l’ensemble des sous-skylines, ce qui correspond dans notre cas à tous les itemsets graduels de la base. Cependant, nous ne pouvons pas utiliser la mesure de fréquence afin de réduire l’espace de recherche. Il existe donc un risque d’explosion mémoire liée au phénomène de l’explosion combinatoire.

L’approche [RPK10] ne conserve pas tous les ordres en mémoire. Les règles de dérivation permettent d’inférer une majeure partie des objets skylines pour chaque sous-ensemble. En ce sens, cette approche aura de meilleures performances qu’une approche basée sur les itemsets graduels. Notre approche devra alors être améliorée, afin de pouvoir se comparer à celle-ci.

Nous pensons qu’une approche basée sur l’extraction des itemsets graduels clos pourrait nous rap- procher des performances présentées dans [RPK10] et [KLRK10]. Afin d’illustrer notre propos, nous reprenons le treillis de la figure 6.4. L’algorithme classique énumère les itemsets par niveau, du niveau 1 à 4. Les cadres de différentes couleurs sur la figure montrent les “skylines clos”, c’est-à-dire les sous-ensembles skylines partageant les mêmes objets skylines. A l’exception de (B≥C≥D≥), tous les diagrammes de Hasse ayant la même couleur sont identiques. Cela signifie que les groupes représentés par des couleurs peuvent être représentés par un même nœud.

Cette constatation rappelle la d´efinition des itemsets clos propos´ee dans [ABLP10]. Un itemset graduel s est clos s’il n’existe pas d’itemset graduel s′ _{tel que s}′ _{⊂ s et F req(s) = F req(s}′_{). Cette notion}

de clos est basée sur la fréquence, et non sur les skylines. Les premières expérimentations menées à partir de cette définition montrent une nette amélioration des performances de notre algorithme. En cela, nous pensons que les itemset graduels clos peuvent être très efficaces dans le contexte de découverte des

skylines.

La principale différence entre les objets skylines et les itemsets graduels repose sur le fait que dans un cas la mesure de fréquence est primordiale alors que dans l’autre seules les racines comptent. Cependant, des objets qui ne sont pas racines à un niveau n peuvent le devenir à un niveau n + 1. Est-il possible de détecter à l’avance quels objets vont remonter dans l’arbre ? Pour résoudre cette question, nous envisageons deux pistes :

• L’utilisation du principe d’inclusion-exclusion peut permettre de détecter à l’avance si un objet appartenant à si et/ou à sj se trouvera dans le diagramme associé à l’itemset graduel si.sj. Il

s’agira alors de d´efinir comment d´eterminer l’index de cet objet, ou du moins de borner son index potentiel.

• L’utilisation de règles de dérivations peut permettre d’inférer directement sur les matrices de niveau n à partir des matrices de niveau n− 1. Il s’agira alors de définir et démontrer plusieurs propriétés provenant de l’ordre des objets.

Enfin, les diverses propositions énumérées dans les travaux existants montrent qu’il existe d’autres structures que les matrices binaires permettant de conserver efficacement les ordres. On peut par exemple citer les B+-Tree ou encore les R-Tree. Il s’agit alors d’étudier la mise en œuvre du remplacement de notre structure binaire, ainsi que les éventuels gains ou pertes de mémoire et leur impact sur la complexité de nos propositions.

Dans le document Recherche de motifs graduels et application aux données médicales (Page 132-137)