• Aucun résultat trouvé

Calcul du cube de skypatterns

N/A
N/A
Protected

Academic year: 2021

Partager "Calcul du cube de skypatterns"

Copied!
3
0
0

Texte intégral

(1)

HAL Id: hal-01627117

https://hal.archives-ouvertes.fr/hal-01627117

Submitted on 31 Oct 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Calcul du cube de skypatterns

Willy Ugarte, Patrice Boizumault, Samir Loudni, Bruno Cremilleux

To cite this version:

Willy Ugarte, Patrice Boizumault, Samir Loudni, Bruno Cremilleux. Calcul du cube de skypatterns.

11èmes Journées Francophones de Programmation par Contraintes (JFPC 2015), 2015, Bordeaux,

France. �hal-01627117�

(2)

Actes JFPC 2015

Calcul du cube de skypatterns

Willy Ugarte

1

Patrice Boizumault

1

Samir Loudni

1

Bruno Cr´ emilleux

1

1

GREYC (CNRS UMR 6072),

Universit´ e de Caen Basse-Normandie, 14032 CAEN {pr´ enom.nom}@unicaen.fr

Abstract

In [5], we introduce skypattern cubes and propose an efficient bottom-up approach to compute them. Our ap- proach relies on derivation rules collecting skypatterns of a parent node from its child nodes without any do- minance test. Non-derivable skypatterns are computed on the fly thanks to Dynamic CSP. The bottom-up prin- ciple enables to provide a concise representation of the cube based on skypattern equivalence classes without any supplementary effort. Experiments on mutagenicity datasets show the effectiveness of our proposal.

1. Introduction

La notion de requˆ etes skyline [1] a ´ et´ e r´ ecemment int´ egr´ ee dans la d´ ecouverte de motifs pour extraire des motifs appel´ es skypatterns [4, 6]. Les skypatterns sont des motifs bas´ es sur la notion de Pareto-dominance pour lesquels aucune mesure ne peut ˆ etre am´ elior´ ee sans en d´ egrader au moins une autre. De tels motifs sont int´ eressants car ils n’obligent pas ` a fixer de seuil sur les mesures et poss` edent un tr` es fort int´ erˆ et global.

Dans la pratique, l’utilisateur ne connait pas a priori le rˆ ole exact de chaque mesure, et ne peut d´ etermi- ner ` a l’avance le sous-ensemble le plus appropri´ e de mesures. De fa¸ con similaire au cube de skylines [3], l’utilisateur aimerait disposer du cube de skypatterns.

Chaque ´ el´ ement du cube est un nœud qui associe, ` a un sous-ensemble des mesures, son ensemble de sky- patterns. De plus, l’utilisateur peut facilement rep´ erer les sous-ensembles de mesures ayant le mˆ eme ensemble de skypatterns (qui forment une classe d’´ equivalence).

2. Contexte et d´ efinitions

Soit I un ensemble de litt´ eraux appel´ es items. Un motif est un sous-ensemble non-vide de I. Le langage d’itemsets correspond ` a L

I

= 2

I

\∅. Un jeu de don- n´ ees est un multiset de motifs appel´ ees transactions.

La Figure 1a repr´ esente un jeu de donn´ ees r o` u chaque transaction t

i

est d´ ecrite par les items not´ es A, . . . , F .

Exemple 1. Pour le jeu de donn´ ees de Fig. 1a, on a freq(BC)=5, area(BC)=10 et mean(BCD.price)=25, avec les mesures suivantes d´ efinies par :

– freq(x) = |{t ∈ r | x ⊆ t}|.

– area(x) = freq(x) × taille(x) o` u taille(x)=|x|.

– min(x.att) (resp. max(x.att)) est la plus petite (resp.

grande) valeur de x pour l’attribut att.

– mean(x) = (min(x.att) + max(x.att))/2.

Les skypatterns permettent d’exprimer une pr´ ef´ erence de l’utilisateur via une relation de dominance [4].

D´ efinition 1 (Dominance Pareto). Soit M un en- semble de mesures, un motif x

i

domine un autre motif x

j

sur M (not´ e x

i

M

x

j

), ssi ∀m∈M, m(x

i

)≥m(x

j

) et ∃m ∈ M, m(x

i

) > m(x

j

).

D´ efinition 2 (Skypattern et op´ erateur skypattern).

Soit M un ensemble de mesures, un skypattern sur M est un motif non-domin´ e. L’op´ erateur skypattern est Sky(M ) = {x

i

∈ L

I

| 6 ∃x

j

∈ L

I

, x

j

M

x

i

}

Exemple 2. Pour M = {freq, area}, on a Sky(M ) = {BCDE, BCD, B, E} (cf Figure 1b).

Soit M un ensemble de mesures, deux motifs x

i

et x

j

sont indistincts sur M (not´ e x

i

=

M

x

j

) ssi ∀m∈M, m(x

i

)=m(x

j

). x

i

et x

j

sont incomparables sur M (not´ e x

i

M

x

j

) ssi (x

i

6

M

x

j

) et (x

j

6

M

x

i

) et (x

i

6=

M

x

j

).

D´ efinition 3 (Skypattern incomparable). Un motif x ∈ Sky(M ) est incomparable sur M ssi ∀x

i

∈Sky(M ) tel que x

i

6= x, x

i

M

x.

D´ efinition 4 (Skypattern indistinct). Un motif x∈Sky(M ) est indistinct sur M ssi ∃x

i

∈Sky(M ) tel que (x

i

6= x) ∧ (x

i

=

M

x).

On peut regrouper les skypatterns indistincts.

D´ efinition 5 (Groupe de skypatterns indistincts (GSI)). S⊆Sky(M ) est un GSI ssi |S|≥2 et

∀x

i

, x

j

∈S,(x

i

=

M

x

j

)∧∀x

i

∈S ,∀x

j

∈Sky(M )\S,(x

i

M

x

j

).

Exemple 3. Pour M ={freq, area}, BCDE et BCD sont incomparables. B et E (indistincts) forment un GSI.

D´ efinition 6 (Cube de skypatterns pour M ).

SkyCube(M )={(M

u

, Sky(M

u

)) | M

u

⊆ M, M

u

6= ∅}

(3)

Trans. Items

t1 B E F

t2 B C D

t3 A E F

t4 A B C D E t5 B C D E t6 B C D E F t7 A B C D E F

Item A B C D E F

Prix 30 40 10 40 70 55 (a) Jeu de donn´eesr.

(b) Skypatterns pourM={freq,area}.

(c) Treillis associ´e `aM.

Sous-ensemble deM Ensemble de skypatterns {m1,m2,m3,m4} {BCDE, BCD, BDE, EF,

BE, E}

{m1,m2,m3} {BCDE, BCD, BE, E}

{m1,m2,m4} {E}

{m1,m3,m4} {BCDE, BCD, BDE, EF, BE, E}

{m2,m3,m4} {BCDE, BDE, EF, E}

{m1,m2} {E}

{m1,m3} {BCDE, BCD, B, E}

{m1,m4} {E}

{m2,m3} {BCDE}

{m2,m4} {E}

{m3,m4} {BCDE, BDE, EF, E}

{m1} {B, E}

{m2} {ABCDEF, ABCEF,

ABDEF, ABEF, ABCDE, ABCE, ABDE, ABE, ACDEF, ACEF, ACDE, ACE, ADEF, ADE, AEF, AE, BCDEF, BCEF, CDEF, CEF, BCDE, BCE, CDE, CE, BDEF, DEF, BDE, DE, BEF, EF, BE, E}

{m3} {BCDE}

{m4} {E}

(d) Cube de skypatterns pourM.

Figure 1 – M = {m

1

: freq, m

2

: max, m

3

: area, m

4

: mean}.

Exemple 4. La Figure 1c repr´ esente le treillis associ´ e ` a M. La Figure 1d associe ` a chaque sous-ensemble non-vide de M son ensemble de skypatterns.

3. R` egles de d´ erivation et calcul du cube

Deux r` egles de d´ erivation permettent construire de mani` ere ascendante le cube de skypatterns, : l’une pour les skypatterns incomparables (cf. le th´ eor` eme 1) et l’autre pour les GSI (cf. le th´ eor` eme 2).

Th´ eor` eme 1 (R` egle pour les incomparables). Soit M

u

⊆M , si x est un skypattern incomparable pour M

u

, alors ∀m ∈ M \ M

u

, x ∈ Sky(M

u

∪ {m}).

Th´ eor` eme 2 (R` egle pour les GSI ). Soient M

u

⊆M et S un GSI pour M

u

. ∀m∈M \M

u

, ∀x∈S t.q.

m(x)=max

x0∈S

{m(x

0

)}, x ∈ Sky(M

u

∪ {m}).

Mais, ces deux r` egles ne permettent pas toujours de d´ eterminer tous les skypatterns d’un nœud p` ere ` a l’aide des skypatterns de ses fils.

Exemple 5. Pour M

u

={m

1

, m

3

}, les skypatterns d´ eri- v´ es sont : B, E et BCDE (le motif BCDE est incom- parable alors que les motifs B et E sont indistincts).

Mais, les deux r` egles ne permettent pas de d´ eduire que BCD ∈ Sky(M

u

).

Les CSP Dynamiques permettent de calculer ` a la vo- l´ ee les skypatterns manquants (non-d´ erivables). Consi- d´ erons la s´ equence P

1

, . . . , P

n

de CSP o` u chaque P

i

= ({x}, L

I

, q

i

(x)) et :

- q

1

(x) = (B 6

Mu

x) ∧ (E 6

Mu

x) ∧ (BCDE 6

Mu

x).

- q

i+1

(x) = q

i

(x) ∧ (s

i

6

Mu

x) o` u s

i

est la premi` ere solution ` a la requˆ ete q

i

(x).

Chaque requˆ ete q

i

(x) permet d’agrandir la zone de non-dominance jusqu’` a ce qu’elle soit totalement d´ e-

termin´ ee, i.e. ∃n t.q. q

n

(x) n’a pas de solution. Mais, tous les s

i

ainsi obtenus ne sont pas forc´ ement des sky- patterns pour M

u

. Une ´ etape de post-traitement doit ˆ

etre effectu´ ee afin de les d´ eterminer [6].

4. Exp´ erimentations

Nous avons men´ e une ´ evaluation exp´ erimentale sur diff´ erents jeux de donn´ ees de l’UCI et sur un jeu de donn´ ees r´ eel Mutag´ enicit´ e [2], probl` eme majeur dans l’´ evaluation des risques des substances chimiques fourni par le CERMN ( www.cermn.unicaen.fr ). Les r´ e- sultats obtenus montrent l’efficacit´ e de notre proposi- tion et la qualit´ e de nos r` egles de d´ erivation.

Conclusion. Nous avons con¸ cu une m´ ethode bottom- up efficace pour calculer le cube de skypatterns. Les exp´ erimentations men´ ees montrent l’int´ erˆ et de notre proposition. La navigation ` a travers le cube est une perspective tr` es prometteuse.

R´ ef´ erences

[1] S. B¨orzs¨onyi, D. Kossmann, and K. Stocker. The Skyline Operator. InICDE, pages 421–430, 2001.

[2] K. Hansen and al. Benchmark data set for in silico prediction of ames mutagenicity.Journal of Chemical Information and Modeling, 49(9) :2077–2081, 2009.

[3] C. Ra¨ıssi, J. Pei, and T. Kister. Computing Closed Sky- cubes. PVLDB, 3(1) :838–847, 2010.

[4] A. Soulet, C. Ra¨ıssi, M. Plantevit, and B. Cr´emilleux. Mi- ning Dominant Patterns in the Sky. InICDM, 2011.

[5] W. Ugarte, P. Boizumault, S. Loudni, and B. Cr´emilleux.

Computing Skypattern Cubes. InECAI, 2014.

[6] W. Ugarte, P. Boizumault, S. Loudni, B. Cr´emilleux, and A. Lepailleur. Mining (Soft-) Skypatterns using Dynamic CSP. InCPAIOR, pages 71–87, 2014.

Références

Documents relatifs

[r]

[r]

[r]

Nous allons construire ici une pyramide régulière à base carrée, cela signifie que sa base est un carré, et que toutes les surfaces latérales sont exactement de même taille.

Pour chacun des items suivants, choisir la bonne r´eponse parmi celles qui sont propos´ees. Et puisque vous ˆetes d´esormais en pr´epa : v´erifiez que vous ˆetes capable de

D’autre part, je me rendis vite compte que le projet d’un grand campus pluridisciplinaire et multi-établissements en sciences sociales, à l’intersection de l’ENS et de l’EHESS,

• 12 quadrilat` eres curvilignes, en regard des arˆ etes du cube, d’o` u on voit exactement deux faces ; chacun de ces quadrilat` eres a pour aire Sp 2 /12 ;. • 8

Ses 6 faces sont des carrés... Le