• Aucun résultat trouvé

Motifs séquentiels multidimensionnels h-généralisés

Dans cette section, nous définissons le problème de l’extraction de motifs séquentiels multidimen- sionnels avec prise en compte des hiérarchies. Il est donc nécessaire de présenter comment les hiérarchies peuvent être prises en compte sur les dimensions d’analyse. Nous définissons ainsi, notre modèle de don- nées ainsi que les concepts récurrents d’item, itemset et séquences h-généralisés. Enfin, nous définissons le support des séquences h-généralisées.

1.3.1 Contexte et définitions préliminaires

Soit D = {D1, D2, . . . , Dn}, un ensemble de dimensions où chaque dimension Di est définie sur

un domaine potentiellement infini de valeurs, noté dom(Di). Pour chacune de ces dimensions, nous

supposons que dom(Di) contient une valeur spécifique notée ALLi.

Afin de prendre en compte le fait que les items puissent être exprimés par rapport à différents niveaux de granularité, nous supposons que chaque dimension Di est associée à une hiérarchie notée Hi. Chaque

hiérarchie Hi est un arbre dont les nœuds sont des éléments de dom(Di) et la racine est ALLi. Comme

souvent, les arêtes d’un tel arbre Hi peuvent être vues comme des relations de type is-a. La relation

de spécialisation (respectivement la relation de généralisation) correspond à un chemin « top-down » (respectivement « bottom-up ») dans Hi. Un chemin connecte deux nœuds lors d’un parcours de Hi de

la racine vers les feuilles (respectivement des feuilles vers la racine).

Lorsqu’il n’y a pas de hiérarchie définie sur une dimension Di, nous considérons Hi comme un arbre

équilibré dont la racine est ALLi et les feuilles sont tous les éléments de dom(Di) \ {ALLi}. La figure

1.3 illustre une telle hiérarchie : pour la dimension X qui n’a pas de hiérarchie définie explicitement, on associe la hiérarchie où la racine est ALLX et les feuilles sont tous les xi qui appartiennent à dom(X).

1.3. MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS H-GÉNÉRALISÉS 101 ALLX gggggggg gggggggg gggggggg ggggggg nnnn nnnn nnnn nnn P P P P P P P P P P P P P P P P X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z Z x1 x2 x3 . . . xn−1 xn

Fig. 1.3 – Hiérarchie HX « définie arbitrairement » sur DX

Une table de faits T sur un univers D est un ensemble fini de n-uplets t = (d1, . . . , dn) où pour

chaque i = 1 . . . n, di est un élément de dom(Di) qui est une feuille dans la hiérarchie associée Hi. En

d’autres mots, nous supposons que la table de faits T contient seulement les valeurs les plus spécifiques par rapport à toutes les hiérarchies associées. En effet, eau ou vin apparaissent sur le ticket de caisse et non boisson alcoolis´ee ou boisson.

Etant donnés un élément x de Dom(Di) et la hiérarchie associée Hi, nous introduisons les notations

suivantes :

– down(x) et up(x) représentent respectivement l’ensemble des spécialisations directes et le singleton contenant la seule généralisation directe de x. Plus précisément, si x n’est pas une feuille dans Hi,

alors down(x) est l’ensemble de tous les y ∈ Dom(Di) tel que Hi contienne une arête de x à y ;

autrement, down(x) est égal à l’ensemble vide.

– Nous notons x↑ (respectivement x) l’ensemble contenant x ainsi que toutes les généralisations

(respectivement spécialisations) de x dans Hi. Ainsi, ∀i = 1 . . . n, ALL↑i = {ALLi}, ALL↓i =

Dom(Di), si x est une feuille de Hi alors ALLi ∈ x↑ et x↓ = {x}. Pour tout x, on a également

down(x) ⊆ x↓, up(x) ⊆ x↑ et {x} = x↑∩ x.

Exemple 1.1. Par rapport à la table de faits exemple décrite dans le tableau Tab. 1.1, dom(P roduit) = {bi`ere, soda, vin, whisky, cacahu`etes, chocolat, smecta, aspirine}.

La figure 1.2 décrit la hiérarchie HP roduit associée à la dimension P roduit. On peut voir à partir de

cette hiérarchie que down(Boisson) = {Boisson Alcoolis´ee, Soda} and up(Boisson) = {ALLP roduit}.

De plus, à partir de cette hiérarchie, on peut également remarquer que Boisson est une généralisation de Soda puisque Boisson ∈ Soda↑ et Soda ∈ Boisson. Comme Soda est une feuille de H

P roduit, on

a down(Soda) = ∅ et Soda↓= {Soda}.

Puisqu’aucune hiérarchie n’est associée à la dimension Date, la hiérarchie implicite associée HD est

définie comme dans la figure 1.3.

Par rapport à la table de faits exemple, nous choisissons la partition de D suivante : – DA= {Lieu, P roduit}

– DR = {CID}

102 CHAPITRE 1. M3SP : PRISE EN COMPTE DES HIÉRARCHIES

– DI = ∅

Etant donnée cette partition, on peut identifier 4 séquences de données différentes identifiées par les blocs B1, B2, B3 et B4. Par exemple, la séquence de données identifiées par B3 est h{(UK, W hisky),-

(U K, Cacahu`etes)}{(U K, Aspirine)}i. Nous pouvons remarquer que de telles séquences sont décrites avec les valeurs d’agrégation les plus fines sur chaque dimension d’analyse.

Notre but est de découvrir des motifs séquentiels multidimensionnels dans l’ensemble des séquences de données en prenant en compte les hiérarchies, c’est-à-dire extraire des motifs où différents niveaux de hiérarchie sont présents au sein de ces motifs. Il est donc nécessaire de (re-)définir les notions d’item, itemset, et séquence dans un tel contexte.

1.3.2 Item et itemset multidimensionnels h-généralisés

Etant donnée une table de faits DB définie sur un ensemble D de n dimensions D1, D2, . . . , Dn sur

lesquelles des hiérarchies sont définies, nous considérons, comme mentionné précédemment, une partition de D en quatre sous-ensembles DA, DR, DT et DI. Nous supposons que |DA| = m et m < n − 2. A

partir de ces différents paramètres, nous pouvons définir les concepts fondamentaux d’item et itemset multidimensionnels h-généralisés.

Définition 1.1 (Item multidimensionnel h-généralisé). Un item multidimensionnel h-généralisé a = (d1, . . . , dm) est un m-uplet défini sur DA, c’est-à-dire ∀i = 1 . . . m, Di ∈ DA, di ∈ dom(Di) et

∃j ∈ [1, . . . , m] tel que dj 6= ALLj.

Il est important de remarquer que les items multidimensionnels h-généralisés peuvent être définis, contrairement aux faits de la base, avec n’importe quelle valeur sur les hiérarchies associées aux dimensions d’analyse. Ainsi, par rapport à notre table de faits exemple, (Boisson, USA) et (Boisson Alcoolis´ee, ALLLieu)

sont des items multidimensionnels h-généralisés.

La dernière condition de la définition, qui réclame l’existence d’au moins une dimension d’analyse instanciée avec une valeur différente de la valeur la plus générale ALLj permet de ne pas considérer le

m-uplet (ALLLieu, ALLP roduct) qui n’apporte aucune information.

Cette définition est différente de celle des items multidimensionnels de la page 44. En effet, dans cette définition, les items peuvent être définis selon n’importe quel niveau de hiérarchie alors que dans la définition 1.3 de la page 44, les items sont définis qu’avec les niveaux les plus fins des hiérarchies associées ou avec * (ALL).

Puisque les items multidimensionnels h-généralisés sont définis sur plusieurs niveaux de hiérarchies, il est possible d’établir des comparaisons entre eux à partir d’une relation de spécialisation définie de la façon suivante :

Définition 1.2 (Relation de spécialisation). Soient a = (d1, . . . , dm) et a′ = (d′1, . . . , d′m) deux items

multidimensionnels h-généralisés. On dit que a est plus spécifique que a′ (noté a ⊆ a), si ∀i = 1, . . . , m,

1.3. MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS H-GÉNÉRALISÉS 103

Exemple 1.2. Par rapport à la table de faits exemple, nous avons :

– (USA, Soda) ⊆ (USA, Boisson), car USA ∈ USA↓ et Soda ∈ Boisson.

– (F rance, V in) ⊆ (UE, Boisson alcoolis´ee), car F rance ∈ UE↓and V in ∈ Boisson alcoolis´ee.

Toutefois, certains items peuvent ne pas être comparables entre eux. Ainsi (F rance, V in) et (USA, Soda) ne sont pas comparables par rapport aux hiérarchies associées : nous n’avons ni F rance ∈ USA↑ ni

F rance ∈ U SA↓ sur H Lieu.

Il est facile de voir que la relation ⊆ définit un ordre partiel. En d’autres mots, la relation ⊆ définie sur Dom(DA) est réflexive, antisymétrique et transitive. L’ensemble de tous les items multidimensionnels

h-généralisés forme un treillis. En effet, pour tout couple d’items multidimensionnels h-généralisés, il existe une unique borne supérieure et unique borne inférieure.

Afin d’éviter les redondances dans les motifs extraits, deux items comparables ne peuvent pas appar- tenir au même itemset. Ainsi, comme indiqué dans la définition suivante, deux items peuvent appartenir au même itemset si et s’ils ne sont pas comparables par rapport à l’ordre partiel ⊆.

Définition 1.3 (Itemset multidimensionnel h-généralisé). Un itemset multidimensionnel h-généralisé i = {a1, . . . , ak} est un ensemble non-vide d’items multidimensionnels h-généralisés tel que ∀i ∈ 1 . . . k, ∀j 6=

i ∈ 1 . . . k, ai et aj ne sont pas comparables par rapport à ⊆ (ai * aj et aj * ai).

Par exemple, {(F rance, V in), (USA, Soda)} est un itemset multidimensionnel h-généralisé alors que {(F rance, V in), (U E, Boisson)} n’en est pas un puisque les items (F rance, V in) et (U E, Boisson) sont comparables ((F rance, V in) ⊆ (UE, Boisson)).

La notion de séquence multidimensionnelle h-généralisée découle naturellement des notion d’item et d’itemset h-généralisés. Les séquences h-généralisées ainsi que le support de telles séquences sont définis dans la sous-section suivante.

1.3.3 Séquence multidimensionnelle h-généralisée et support

Définition 1.4 (Séquence multidimensionnelle h-généralisée). Une séquence multidimensionnelle h-gé- néralisée ς = hi1, . . . , iji est une liste ordonnée non vide d’itemsets.

Par exemple, h{(F rance, V in), (USA, Soda)}, {(Allemagne, bi`ere)}i est une séquence h-généralisée. Puisque notre objectif est d’extraire des motifs séquentiels multidimensionnels définis sur plusieurs niveaux de hiérarchies, il est nécessaire de pouvoir déterminer le support d’une séquence h-généralisée afin de déterminer si celle-ci est fréquente ou non. La définition suivante décrit comment compter le nombre de blocs de BDB,DR qui supportent la séquence.

Définition 1.5 (Support d’une séquence). Un bloc Brsupporte une séquence ς = hi1, . . . , ili si il existe

d1, . . . , dl dans dom(DT) tels que :

104 CHAPITRE 1. M3SP : PRISE EN COMPTE DES HIÉRARCHIES

2. Pour chaque j = 1, . . . , l et chaque item α de ij, Brcontient un n-uplet t = (dj, a) tel que a ⊆ α.

Le support de ς correspond au nombre de blocs de BDB,DR qui supportent la séquence ς (le support relatif étant le pourcentage de blocs de BDB,DR qui supportent la séquence).

En s’appuyant sur la définition 1.5, nous pouvons définir formellement le problème d’extraction de motifs séquentiels h-généralisés :

Définition 1.6 (Extraction de motifs séquentiels h-généralisés). Etant donné un seuil de support minimun minsupp, le but de l’extraction des motifs séquentiels multidimensionnels h-généralisés est d’extraire l’ensemble complet des séquences h-généralisées dont le support est supérieur ou égal à minsupp.

L’exemple suivant illustre les définitions précédentes dans le contexte de notre table de faits exemple illustrée Tab 1.1.

Exemple 1.3.

Considérons la séquence ς = h{(UE, Boisson Alcoolis´ee), (UE, Cacahu`etes)}, {(EU, Aspirine)}i et le seuil de support relatif minimum minsupp = 1

2. En considérant tous les blocs B1, B2, B3 et B4 de

BDB,CID, nous avons :

1. B1. Par rapport aux hiérarchies HP roduit et HLieu, nous avons Allemagne ∈ UE↓, UK ∈

U E↓ et bi`ere ∈ Boisson Alcoolisée↓. Ainsi, (Allemagne, Bière) ⊆ (UE, Boisson Alcoolisée), (Allemagne, cacahuètes) ⊆ (U E, cacahuètes) et (Allemagne, Aspirine) ⊆ (EU, Aspirine). Comme les deux items du premier itemset sont découverts à une date postérieure à la décou- verte du second itemset, la relation d’ordre est bien respectée. Le bloc B1 supporte la séquence

ς.

2. B2. Comme F rance ∈ EU↓ et V in ∈ Boisson Alcoolisée↓, la séquence ς est également supportée

par le bloc B2.

3. B3. On est dans un cas similaire aux deux précédents puisque UK appartient à UE↓ et whisky

appartient à Boisson Alcoolisée↓. Le bloc B

3 supporte donc également la séquence ς.

4. B4. Ce bloc ne supporte pas la séquence ς car aucune valeur de EU↓ ne peut être trouvée dans

ce bloc.

Etant donné que |BDB,CID| = 4, le support de la séquence ς est égal à

3

4. La séquence est donc

fréquente. ς est un motif séquentiel multidimensionnel h-généralisé.

Dans le but de définir l’inclusion de séquence dans ce contexte, nous devons d’abord définir quand un itemset est un sous-ensemble d’un autre.

Définition 1.7 (Inclusion d’itemsets). Soient deux itemsets i et i′, on dit que i est inclus dans i′, noté

Documents relatifs