• Aucun résultat trouvé

Discrétisation du domaine de la mesure

Dans cette section, nous proposons de discrétiser la mesure afin de bénéficier des informations pré- sentes sur cette dimension. Lors de l’extraction de motifs séquentiels multidimensionnels, cette dimension peut alors être considérée de la même façon que les autres. La discrétisation d’un domaine de valeurs nu- mériques peut se faire de plusieurs façons. Nous étudions ici différentes partitions possibles et comparons les motifs séquentiels multidimensionnels extraits selon la discrétisation opérée (partition de la mesure en intervalles stricts ou en sous-ensembles flous) et le comptage utilisé (normal ou flou).

3.5.1 Partition en intervalles stricts

Dans le cadre de l’extraction de connaissances par des techniques symboliques sur des données numériques, plusieurs approches ont été proposées afin de discrétiser les domaines de définition des attributs numériques en intervalles distincts. Il s’agit, la plupart du temps, de définir les bornes des intervalles de façon automatique. Plusieurs types de partitions sont couramment utilisés :

– Découpage equi-width où les intervalles ont tous la même largeur.

– Découpage equi-depth qui assure une équi-répartition des enregistrements dans chaque intervalle. – Découpage selon la connaissance d’un expert ou le résultats de calculs statistiques.

La plupart des propositions qui s’attaquent à la découverte de motifs dans des données numériques à l’aide d’une partition en intervalles stricts [KLNS04, SA96b] soulignent la difficulté de déterminer les bornes optimales et le nombre d’intervalles. Des intervalles mal définis ont des conséquences sur la qualité des données extraites.

Par rapport au cube de données exemple 3.3, nous choisissons la partition du domaine de la mesure en trois intervalles distincts :

– P eu = [0, 99] – Moyen = [100, 199] – Beaucoup = [200, 300]

Ainsi, chaque valeur m de mesure d’une cellule est associée à un unique intervalle parmi les trois définis. Le tableau Tab. 3.5 illustre le cube de données exemple après discrétisation de la mesure.

Le support absolu de la séquence h{(∗, Middle, A, Moyen)}i est égal à 2. Avec la discrétisation des valeurs de mesure, les valeurs 123 et 125 appartiennent au même intervalle (Moyen) et sont donc considérer comme similaire lors de l’extraction de motifs séquentiels multidimensionnels. C’est ainsi que le bloc BEduc. supporte désormais la séquence h{(∗, Middle, A, Moyen)}i.

Expérimentations

Pour montrer l’utilité d’un partitionnement strict, nous avons mené des expérimentations sur des données réelles (cube EDF). Nous étudions le nombre des items fréquents les plus spécifiques. Afin

3.5. DISCRÉTISATION DU DOMAINE DE LA MESURE 143

Date City Customer Informations Product Mesure

P eu M oyen Beaucoup 1 N Y Educ. M iddle A 0 1 0 1 N Y Educ. M iddle B 0 0 1 2 LA Educ. M iddle C 0 1 0 1 SF Prof. M iddle A 0 1 0 2 SF Prof. M iddle C 0 1 0 1 DC Business Retired A 1 0 0 1 LA Business Retired B 1 0 0

Tab. 3.5 – Partitions strictes des valeurs de la mesure

d’exploiter pleinement la « puissance informationnelle » de la mesure, nous interdisons la valeur joker sur cette dimension. La figure 3.3 montre la distribution des valeurs de mesures des cellules du cube de données. Le domaine de définition est large (de 1 à environ 47000). Les mesures inférieures à 10 sont celles qui sont le plus souvent associées aux cellules du cube de données.

0 100 200 300 400 500 1 10 100 1000 10000 measure distribution

Fig. 3.3 – Distribution des données en fonction de la mesure

La figure 3.4(a) rapporte le nombre d’items fréquents les plus spécifiques en fonction du seuil de support considéré tout en interdisant la valeur joker sur la mesure. Cette courbe souligne la difficulté d’extraire des connaissances sans aucun traitement de la mesure. En effet, si le seuil de support est trop fort, le nombre d’items fréquents dont la dimension mesure n’est pas intanciée par * est très faible, voire nul. Par contre, lorsque le support devient faible, le nombre d’items devient relativement important. Il est donc nécessaire de partitionner la mesure. Nous utilisons dans ces expérimentations des partitions equi-depth, c’est à dire que chaque partition possède le même nombre d’éléments.

La figure 3.4(b) rapporte le nombre d’items fréquents les plus spécifiques (* interdite sur la mesure) en fonction du nombre de partitions considérées. Lorsque le nombre de partitions diminue (entre 3000 et 300), le nombre d’items fréquents les plus spécifiques augmente. Lorsque le nombre de partitions est très

144 CHAPITRE 3. PRISE EN COMPTE DE LA MESURE

élevé, on se retrouve dans le même cas que lorsque la mesure n’est pas partitionnée (difficile de trouver des items fréquents avec valeur joker interdite sur la mesure). Quand le nombre de partition diminue, des items (a, p) et (a, p′) (a ∈ D

A\ {M }, p et p′ sont des partitions de la mesure) apparaissent. En effet, à

une combinaison a fréquente sur DA\ {M }, on peut associer plusieurs éléments p issus la partition de la

mesure. Le nombre d’items fréquents les plus spécifiques diminue ensuite lorsque le nombre de partition diminue (entre 300 et 2) car p et p′ sont regroupés dans la même partition.

0 200 400 600 800 1000 1200 1400 1

Most Specific Fr. Items

minsup

(a) Nombre d’items fréquents les plus spécifiques en fonction du seuil de support minimum (* interdite sur la mesure) 0 500 1000 1500 2000 10 100 1000

Most Specific Fr. Items

Number of Partitions minsup=0.125 minsup=0.375 minsup=0.75

(b) Nombre d’items fréquents les plus spécifiques

Fig. 3.4 – Partitionnement Strict

Ces expérimentations montrent l’intérêt d’utiliser un partitionnement de la mesure. Toutefois, un tel partitionnement peut également créer des effets de bords. Ces effets de bords sont dus à un découpage strict des intervalles. Ainsi, si on considère X comme étant la limite entre deux intervalles, deux valeurs similaires X − 1 et X + 1 seront considérées comme différentes car elles appartiennent à deux intervalles différents. Une partition floue de la mesure permet d’atténuer ce problème et de découvrir des motifs absents avec un découpage strict de la mesure. Une partition floue permet également l’utilisation de plusieurs techniques de comptage.

3.5.2 Partition en sous-ensembles flous

Les ensembles flous ont été introduits afin de modéliser la représentation humaine des connaissances, et ainsi améliorer les performances des systèmes de décision qui utilisent cette modélisation.

Une sous-ensemble flou A de B est caractérisé par une application de B dans [0, 1]. Cette applica- tion, appelée fonction d’appartenance et notée µA représente le degré de validité de la proposition « x

appartient à A » pour chacun des éléments x de B. Si µA(x) = 1, l’objet x appartient totalement à

A, et si µA(x) = 0, il ne lui appartient pas du tout. Pour un élément x donné, la valeur de la fonction

Documents relatifs