• Aucun résultat trouvé

Limites des motifs séquentiels multidimensionnels

Dans cette section, nous expliquons pourquoi les motifs séquentiels multidimensionnels (def. 1.10 p. 46) ne sont pas directement adaptables dès qu’une dimension particulière (e.g. la mesure) apparaît. Nous montrons par l’intermédiaire d’un exemple, qu’il est nécessaire de prendre en compte cette dimension.

Considérons une société de vente en ligne stockant les opérations de ses clients dans une base de données. Le tableau Tab. 3.1 représente plusieurs n-uplets de cette base de données. La partition

de l’ensemble des dimensions D est la suivante : DI = ∅, DR = {CID}, DT = {Date} et DA =

{City, Cust-Grp, A-Grp, P roduct}

CID Date City Customer Informations Product Cust-Grp Age-Grp C1 1 N Y Educ. M iddle A C1 1 N Y Educ. M iddle B C1 2 LA Educ M iddle C C2 1 SF P rof. M iddle A C2 2 SF P rof. M iddle C C3 1 DC Business Retired A C3 1 LA Business Retired B

Tab. 3.1 – Table de faits

Les données de production des entreprises et des administrations, sont souvent agrégées dans un entrepôt de données à des fins d’analyse. Ainsi, une (ou plusieurs) dimension particulière appelée mesure, matérialise le résultat de cette agrégation. Cette dimension est numérique. Elle représente le résultat d’agrégation des données transactionnelles. La fonction d’agrégation dépend de la sémantique de l’ap- plication (somme, comptage, moyenne, etc.). Nous considérons, dans ce chapitre, un comptage comme opérateur d’agrégation.

Un cube de données peut donc être vu comme une application d’un ensemble de dimensions D = {D1, . . . , Dn} vers une dimension particulière M . Plus précisément, pour chaque n-uplet (d1, . . . , dn)

défini sur D, une valeur m de Dom(M) est associée.

D1× D2× . . . × Dn → M

(d1, d2, . . . , dn) 7→ m

Le tableau Tab. 3.2 représente un exemple de cube de données résultant de l’agrégation de données transactionnelles issues de bases de données suivant le schéma de la table du tableau Tab. 3.1. Puisque les données sont agrégées dans une perspective d’analyse, la notion d’individu (CID) disparaît au profit de groupe d’individus (customer-grp, customer-age, etc.). De plus, une nouvelle dimension apparaît : la

3.2. LIMITES DES MOTIFS SÉQUENTIELS MULTIDIMENSIONNELS 137

Fig. 3.1 – Agrégation des données de productions dans un cube de données

Date City Customer Informations Product Mesure

Cust-Grp Age-Grp 1 N Y Educ. M iddle A 123 1 N Y Educ. M iddle B 234 2 LA Educ M iddle C 120 1 SF P rof. M iddle A 125 2 SF P rof. M iddle C 115 1 DC Business Retired A 1 1 LA Business Retired B 24

138 CHAPITRE 3. PRISE EN COMPTE DE LA MESURE

mesure. Il est donc nécessaire de faire une nouvelle partition de l’ensemble des dimensions D ∪ {M}. Considérons la partition suivante :

– DT = {Date}

– DR= {Cust-Grp}

– DA= {City, A-Grp, P roduct, M esure}

Puisque la notion d’individu a disparu (CID), nous prenons comme dimension de référence le groupe de consommateurs. Cette dimension permet d’identifier 3 blocs comme l’illustre le tableau Tab. 3.3. En effet, DR permet d’identifier les blocs Beduc., Bprof. et Bbusiness. La relation d’ordre reste la même

(DT = {Date}).

La mesure est intégrée dans les dimensions d’analyse (M ∈ DA). Par rapport aux définitions défi-

nies dans les chapitres précédents, il est assez intuitif de traiter cette dimension comme une dimension d’analyse et considérer seulement les cellules qui ont une mesure associée non vide.

Date City Customer Informations Product Mesure

Cust-Grp Age-Grp 1 N Y Educ. M iddle A 123 1 N Y Educ. M iddle B 234 2 LA Educ. M iddle C 120 1 SF Prof. M iddle A 125 2 SF Prof. M iddle C 115 1 DC Business Retired A 1 1 LA Business Retired B 24

Tab. 3.3 – Partition en blocs en fonction de DR= {Cust-Grp}

L’extraction de motifs séquentiels multidimensionnels s’appuie sur une gestion symbolique des données qu’elle traite. Ainsi, étant donnée la partition précédente, l’extraction de motifs séquentiels multidimen- sionnels a pour objectif de découvrir des corrélations entre la ville, l’âge des consommateurs, les produits vendus et la mesure associée au cours du temps. Cependant, les motifs extraits présentent des limites non négligeables dues à la gestion symbolique de la mesure. En effet, en se basant sur les définitions précédentes, nous pouvons obtenir les situations suivantes :

Support de la séquence h{(∗, M, A, 125)}i Le support absolu de la séquence h{(∗, M, A, 125)}i est égal à 1. En effet, seul le bloc BP rof.supporte cette séquence. Le bloc BEduc.contient une séquence

relativement similaire h{(∗, M, A, 123)}i. Toutefois, la gestion symbolique de la mesure (dimension numérique) implique que les valeurs 123 et 125 sont considérées comme totalement différentes. Support de la séquence h{(∗, ∗, A, ∗)}i Le support absolu de la séquence h{(∗, ∗, A, ∗)}i est égal à 3.

3.3. PANORAMA DES TRAVAUX EXISTANTS 139

qui supportent la séquence (l’item) sont (∗, ∗, A, 123) pour BEduc., (∗, ∗, A, 125) pour BP rof. et

(∗, ∗, A, 1) pour BBusiness. Nous omettons les valeurs instanciées sur la ville, et l’âge afin de mettre

en évidence l’observation suivante. (∗, ∗, A, 125) et (∗, ∗, A, 1) ont le même impact dans le calcul du support de la séquence h{(∗, ∗, A, ∗)}i.

Les deux points précédents soulignent les limites d’une gestion symbolique de la mesure dans l’extrac- tion de motifs séquentiels multidimensionnels quand celle-ci est incluse dans les dimensions d’analyse. Il est donc nécessaire de prendre en compte la spécificité de cette dimension : son caractère numérique.

3.3

Panorama des travaux existants

La présence de valeurs numériques pour des « approches symboliques » est un problème relativement étudié.

Ainsi l’approche décrite dans [Lau03] propose une architecture basée sur les bases de données multi- dimensionnelles floues pour générer des résumés flous.

Dans [DHP03, DHP06], les auteurs s’intéressent à ce problème dans le cadre de l’extraction de règles d’association sur des attributs numériques.

[MRBM06] propose d’utiliser la mesure afin de calculer le support et la confiance des règles d’as- sociation multidimensionnelles dans des cubes de données. Ces règles identifient des corrélations entre les positions des cellules d’un cube de données. Elles ne permettent pas d’établir des corrélations entre différentes cellules.

Dans [FLT07], les auteurs utilisent la théorie des sous-ensembles flous pour prendre en compte les attributs numériques dans le contexte de la recherche de motifs séquentiels.

A notre connaissance, il n’existe pas d’approche qui s’attaque à la prise en compte de la mesure et son caractère numérique dans l’extraction de motifs séquentiels multidimensionnels. Dans ce chapitre, nous proposons trois façons de prendre en compte cette dimension :

1. En introduisant des contraintes d’agrégats sur les valeurs de mesure des cellules du cube, ce qui permet de réduire l’espace de recherche et de ne pas considérer les cellules dont la mesure associée ne respecte pas la contrainte.

2. En discrétisant la mesure à l’aide de partitionnements stricts ou flous afin de considérer la mesure comme une dimension d’analyse. Ceci permet de réduire la taille du domaine de la mesure, et également de considérer des valeurs similaires comme identiques.

3. En utilisant directement la puissance agrégative de la cellule pour calculer le support des séquences multidimensionnelles, ce qui nous amène à définir deux nouvelles méthodes pour calculer le support relatif d’une séquence multidimensionnelles.

140 CHAPITRE 3. PRISE EN COMPTE DE LA MESURE

Documents relatifs