Motifs séquentiels multidimensionnels - Extraction De Motifs Séquentiels Dans Des Données Multi

Dans cette section, nous présentons une nouvelle définition des motifs séquentiels multidimensionnels.

1.2.1 Données manipulées

Nous étendons les concepts présentés précédemment (client - date - items) en considérant non plus des attributs simples pour décrire les données, mais des ensembles d’attributs.

Nous supposons qu’il existe au moins une dimension (e.g. temporelle) dont le domaine est totalement ordonné.

Définition 1.1 (Partition des dimensions). Pour chaque table relationnelle définie sur un ensemble de dimensions D, nous considérons une partition de D en quatre sous-ensembles notés respectivement :

– DR pour l’ensemble des dimensions de référence (client dans le contexte classique) qui permettent

de déterminer si une séquence est fréquente.

– DT pour l’ensemble des dimensions permettant d’introduire une relation d’ordre.

– DA pour l’ensemble des dimensions d’analyse (produit dans contexte classique) sur lesquelles les

corrélations seront extraites.

– DI pour l’ensemble des dimensions ignorées.

Il en découle que chaque n-uplet c = (d1, . . . , dn) peut s’écrire sous la forme d’un quadruplet c =

(i, r, a, t) où i, r, a et t sont respectivement les projections de c sur DI, DR, DA et DT.

Définition 1.2 (Bloc). Etant donnée une table relationnelle DB, on appelle bloc l’ensemble des n-uplets de DB qui ont la même projection r sur DR.

Chaque bloc Br est identifié par le n-uplet r qui le définit. On note BDB,DR, l’ensemble des blocs de DB définis à partir des dimensions de référence DR.

Exemple 1.1. Nous considérons la partition suivante des dimensions de la base de données DB repré- sentée par le tableau Tab. 1.1 :

– DI = ∅

1.2. MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS 43

– DA= {Age, P roduct}

– DT = {Date}

Il est possible de diviser DB en trois blocs définis par les n-uplets (Educ, Chicago) (cf tableau 1.2), (Educ, Los Angeles) (cf tableau 1.3) et (Reti., M iami) (cf tableau 1.4). Ces trois blocs définissent une partition en blocs de DB.

Date Cust-Grp City Age Product

1 Educ Chicago A clou

1 Educ Chicago B pneu

1 Educ Los Angeles A clou

1 Reti. Miami C clou

1 Reti. Miami C marteau

2 Educ Chicago B rustine

2 Educ Chicago B pneu

2 Educ Los Angeles A clou

3 Educ Los Angeles B rustine

Tab. 1.1 – Base de données DB

Date Cust-Grp City Age Product

1 Educ Chicago A clou

1 Educ Chicago B pneu

2 Educ Chicago B pneu

2 Educ Chicago B rustine

Tab. 1.2 – B_{(Educ,Chicago)}

Date Cust-Grp City Age Product

1 Educ Los Angeles A clou

2 Educ Los Angeles A clou

3 Educ Los Angeles B rustine

Tab. 1.3 – B_{(Educ,LosAngeles)}

Dans le cadre de l’extraction des motifs séquentiels multidimensionnels, l’ensemble DRpermet d’iden-

tifier les blocs par rapport auxquels le support sera calculé. Pour cette raison, cet ensemble est nommé référence. On note que dans le cadre des motifs séquentiels classiques et des extensions [PHP+_{01] et}

[dAFGL04], cet ensemble est réduit à un seul attribut (identifiant du client cid du tableau Tab. ?? ou identifiant IdG dans [dAFGL04]). Dans nos calculs, le support d’une séquence sera ainsi calculé comme étant la proportion de blocs où cette séquence peut être retrouvée.

44 CHAPITRE 1. MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS

Date Cust-Grp City Age Product

1 Reti. Miami C clou

1 Reti. Miami C marteau

Tab. 1.4 – B(Reti.,M iami)

L’ensemble DA décrit les axes d’analyse, c’est-à-dire l’ensemble des dimensions apparaissant expli-

citement dans les motifs séquentiels multidimensionnels extraits. Dans le cadre des motifs séquentiels classiques, seule une dimension apparaît, correspondant aux produits achetés (ou encore aux pages in- ternet visitées). Dans notre approche, cette dimension est étendue à la prise en compte d’un ensemble de dimensions.

L’ensemble DI décrit les axes ignorés, c’est-à-dire ceux qui ne servent ni à définir la date, ni à identifier

un sous-cube, ni à définir le motif lui-même.

1.2.2 Item, itemset et séquence multidimensionnels

Etant donnée une base de données DB, nous considérons une partition {DR, DA, DT, DI} de l’en-

semble des dimensions D (|DA|=m). Nous pouvons maintenant définir les concepts fondamentaux d’item,

itemset et séquence dans un contexte multidimensionnel.

Définition 1.3 (Item multidimensionnel). Un item multidimensionnel e = (d1, . . . , dm) est un m-uplet

défini sur les dimensions d’analyse DA tel que :

– ∀i ∈ [1, . . . m], di ∈ Dom(Di) ∪ {∗} et Di ∈ DA

– ∃di ∈ [1, |dots, m] t.q. di6= ∗

(A, clou), (B, pneu) et (∗, rustine) sont des items multidimensionnels.

Il peut être très difficile de trouver une instantiation sur l’intégralité des dimensions d’analyse fré- quente. Pour cette raison, nous introduisons une valeur joker symbolisée par ∗. Cette valeur signifie que l’on ne tient pas compte de la valeur sur la dimension d’analyse ciblée et permet ainsi de réduire ponctuellement le nombre de dimensions d’analyse.

Un item multidimensionnel doit contenir au moins une dimension d’analyse spécifiée (non étoilée). En effet, découvrir l’item (∗, ∗, . . . , ∗) n’a aucun intérêt. La fréquence de cet item est |BDB,DR|.

Deux items multidimensionnels peuvent être comparables. Ainsi un item e peut être inclus dans un item e′ _{d’après la définition suivante :}

Définition 1.4. Un item multidimensionnel e = (d1, . . . , dm) est inclus dans un item multidimensionnel

e′= (d′₁, . . . , d′_m) (noté e ⊆ e′) si ∀i ∈ [1, . . . , m] di= d′i ou d′i = ∗.

Définition 1.5 (Itemset multidimensionnel). Un itemset multidimensionnel i = {e1, e2, . . . , ep} est un

1.2. MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS 45

Il est important de remarquer que d’une part tous les items d’un itemset sont définis sur les mêmes dimensions (DA), et que d’autre part les items multidimensionnels d’un même itemset sont deux à

deux distincts. Ainsi, {(A, clou), (B, pneu)} et {(B, rustine)} sont des itemsets multidimensionnels alors que {(A, clou), (A, ∗)} n’en est pas un puisque l’item (A, clou) est inclus dans l’item (A, ∗) (noté (A, clou) ⊆ (A, ∗)). On dit aussi que (A, clou) est plus spécifique que (A, ∗).

Un itemset i peut également être inclus dans un itemset i′ _{si pour tous les items e de i, il existe des}

items distincts e′ _{de i}′ _{tels que e ⊆ e}′_{. Par exemple, l’itemset i = {(A, clou)} est inclus dans l’itemset}

i′ = {(A, ∗), (B, pneu)} (i ⊆ i′).

Définition 1.6 (Séquence multidimensionnelle). Une séquence multidimensionnelle ς = hi1, . . . , ili est

une liste ordonnée non vide d’itemsets multidimensionnels.

h{(A, clou), (B, pneu)} {(B, rustine)}i est une séquence multidimensionnelle. Une séquence peut être incluse dans une autre d’après la définition suivante.

Définition 1.7 (Inclusion de séquence). Une séquence multidimensionnelle ς = ha1, . . . , ali est appelée

sous-séquence d’une séquence ς′ _{= hb}

1, . . . , bl′i (ς ≺ ς′) s’il existe des entiers 1 ≤ j₁≤ j₂ ≤ . . . ≤ j_l≤ l′ tels que a1⊆ bj1, a2 ⊆ bj2, . . . , al⊆ bjl.

On dit aussi que la séquence ς′ _{est une super-séquence de ς.}

Soient les séquences multidimensionnellesς = h{(A, clou)}, {(B, rustine)}ietς′_{= h{(A, ∗), (B, pneu)},-}

{(B, rustine)}i, ς est une sous-séquence de ς′.

1.2.3 Support

Calculer le support d’une séquence revient donc à compter le nombre de blocs de la base qui la supportent, de même qu’il revient à compter le nombre de clients ayant suivi la séquence d’achat dans le contexte du panier de la ménagère.

Définition 1.8 (Séquence et Bloc ). Un bloc de données Br supporte une séquence ς = hi1, . . . , ili si :

– ∀j = 1 . . . l, ∃dj ∈ Dom(Dt), ∀e = (ai1, . . . , aim) ∈ ij, ∃c = (i, r, (xi1, . . . , xim), dj) ∈ Br avec (xi1, . . . , xim) ⊂ e

– d1 < d2 < · · · < dl.

Un bloc supporte une séquence si on peut trouver un ensemble de cellules vérifiant chacun des itemsets de la séquence en respectant les contraintes de temps imposées par l’ordre des itemsets. La présence d’une valeur joker ∗ sur une dimension d’un item multidimensionnel équivaut à relâcher une contrainte lorsqu’on souhaite appairer l’item avec un n-uplet d’un bloc.

Il est important de remarquer que même si un bloc supporte une séquence, celle-ci n’est pas néces- sairement incluse dans le bloc. En effet, dès qu’il y a une * dans un item de la séquence, l’inclusion

46 CHAPITRE 1. MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS

(Définition 1.7 n’est plus vérifiée. Ceci est dû au fait que “tout est inclus dans *", et cela se répercute au niveau des items, itemsets et des séquences.

Par exemple, le bloc B(Educ,Chicago)du tableau Tab. 1.2 supporte la séquence h{(A, clou), (∗, pneu)},-

{(∗, pneu)}i puisque l’on retrouve bien la date 1 à laquelle l’itemset {(A, clou), (∗, pneu)} est vérifié et la date 2 à laquelle l’itemset {(∗, pneu)} est vérifié. Or cette séquence n’est pas incluse dans la séquence de données identifiée par B(Educ,Chicago) .

On peut exprimer le support d’une séquence de deux façons différentes. Ainsi le support absolu d’une séquence multidimensionnelle correspond donc au nombre de blocs définis sur DR qui supportent cette

séquence.

support_absolu(ς) = |Br∈ BDB,DR t.q. Br supporte ς|

Le support relatif, quant à lui, correspond à la proportion de blocs de BDB,DR qui supportent la séquence. support_relatif(ς) = support_absolu(ς)

|BDB,DR|

Définition 1.9 (Séquence fréquente). Soit σ, le seuil de support minimum fixé par l’utilisateur, une séquence ς est dite fréquente si support(ς) ≥ σ.

Exemple 1.2. On considère la base de données du tableau Tab. 1.1 avec DR = {Cust-Grp, City}, DA =

{Age, P roduct}, σ = 1. On cherche le support de la séquence ς = h{(A, clou), (B, pneu)}, {(B, rustine)}i. Ce calcul nécessite le parcours de tous les blocs de BDB,DR, c’est-à-dire les trois blocs illustrés par les tableaux 1.2, 1.3 et 1.4.

1. B(Educ,Chicago) (cf tableau Tab. 1.2). Dans ce bloc, deux dates sont présentes. A la date 1, on a

bien (A, clou) et (B, pneu). Puis à la date 2 on retrouve bien (B, rustine). Donc ce bloc supporte la séquence ς.

2. B(Educ,LosAngeles) (cf tableau Tab. 1.3). Ce bloc ne supporte pas l’item (B, pneu), et donc pas

la séquence ς.

3. B(Reti.,M iami) (cf tableau Tab. 1.4). Ce bloc ne contient qu’une seule date, il ne peut donc pas

supporter la séquence ς qui nécessite des blocs contenant au moins deux dates différentes. On a donc : support(ς) = 1 ≥ σ, et par conséquent, ς est une séquence fréquente.

Le problème de l’extraction des motifs séquentiels multidimensionnels est exposé dans la définition suivante.

Définition 1.10 (Extraction des motifs séquentiels multidimensionnels). Etant donnés un ensemble de n-uplets définis sur un ensemble de dimensions D, la partition de D en quatre sous-ensembles DA, DR,

DT et DI, un seuil de support minimum σ, le but de l’extraction de motifs séquentiels multidimensionnels

Dans le document Extraction De Motifs Séquentiels Dans Des Données Multidimensionelles (Page 45-50)