• Aucun résultat trouvé

Dans cette section, nous cherchons à étudier empiriquement le comportement des mesures d’intérêt d’extraction de règles d’association. Pour ce faire, nous proposons une démarche ex- périmentale que nous illustrons tout d’abord dans le diagramme de la figure5.1pour présenter les différentes étapes suivies. Les notations incluses dans ce diagramme sont présentées en détail dans le descriptif de la méthodologie ci-dessous.

FIGURE5.1: Diagramme de la méthodologie expérimentale.

étapes :

– Étape 1 : Extraction des N meilleures règles

Nous appliquons pour chaque ensemble de données et pour chaque mesure d’intérêt étudiée, l’algorithme “Apriori“. L’utilisation de cet algorithme n’est qu’un paramètre, il est possible d’utiliser d’autres outils, voir [WKQ+07].

À l’issue de cette extraction, nous obtenons pour chacune des mesures, un ensemble des N meilleures règlesEik jugées pertinentes par la mesure mi avec (i = 1,··· ,c) pour la baseBk (k = 1,··· ,p), sachant quecreprésente le nombre de mesures d’intérêt (c = 61) etpdésigne le nombre de bases analysées (p = 6). Les N meilleures règles sélectionnées représentent les règles les mieux classées par une mesuremi, i.e., la mesure mi leur attribue les valeurs les plus élevées.

Nous obtenons à l’issue de cette première étape, un tableau décrivant l’ensemble Eik des règles extraites par la mesuremipour la baseBk.

– Étape 2 : Élaboration de matrices de similarité entre les mesures

Pour chaque base de donnéesBk (k = 1,··· ,p), nous comparons les ensemblesEiket

Ejk des N meilleures règles extraites par les mesures d’intérêt mi et mj. Au cours de cette comparaison, nous nous intéressons uniquement à la présence des règles dans les deux ensembles et non pas à l’ordre avec lequel les mesures classent ces règles. Nous

jugeons que deux mesures se ressemblent si elles extraient les mêmes N meilleures règles, quelque soit l’ordre dans lequel elles se présentent. La présence étant plus signi- ficative que l’ordre pour juger la similarité de deux mesures.

La comparaison des deux ensembles de règles est alors effectuée afin de calculer le pour- centage de règles communes à ces deux ensembles permettant ainsi d’obtenir un taux de ressemblance entre les deux mesures. Le taux de ressemblanceτij B

k des mesures mietmjpour la baseBk se calcule de la façon suivante :

τij Bk =| Eik∩ Ejk|

N (5.1)

| Eik∩ Ejk|est la cardinalité deEik∩ Ejk, c’est-à-dire l’ensemble de règles extraites par à la fois la mesuremiet la mesuremj.

Nous obtenons à l’issue de cette deuxième étape, un ensemble depmatricesMk de taux de ressemblance entre chaque paire de mesures.

– Étape 3 : Calcul d’un degré de similarité entre les mesures

À partir despmatrices de taux de similarité obtenues à l’étape précédente, nous allons calculer un degré de similaritéIS pour chaque couple de mesures (mi, mj) de la façon suivante :

IS(mi, mj) =

p

k=1τij Bk

p (5.2)

Une nouvelle matrice de similarité est ainsi obtenue décrivant la moyenne desptaux de ressemblanceτij B

k entre couple de mesures pour tous les jeux de données étudiés.

Puisque les mesures dépendent de la nature des données, il nous semble important de prendre ce facteur en considération dans notre étude et d’étudier l’écart-type des taux de ressemblanceτ.

– Étape 4 : Catégorisation des mesures par le calcul de l’écart-type des taux de res-

semblance

Pour chaque couple(mi, mj)de mesures, nous calculons l’écart-typeσ(mi, mj)des taux de ressemblanceτij afin de détecter les couples de mesures stables, i.e., qui possèdent un comportement similaire par la proposition des mêmes N meilleures règles et ceux qui ne le sont pas. Ces mesures stables sont identifiées pour une faible valeur de l’écart-type et une forte valeur du degré de similarité (proche de 1). Ce calcul s’effectue de la façon suivante : σ(mi, mj) =       p k=1  τij B k− IS(mi, mj) 2 p (5.3)

À l’issue de cette étape, nous cherchons à catégoriser les différentes mesures grâce au degré de similaritéIS et l’écart-typeσ. Ainsi, on peut dégager les3catégories de mesures suivantes :

1. mesures au comportement similaire : lorsque le degré de similarité est proche de 1 et l’écart-type est faible ;

2. mesures au comportement différent : lorsqueIS etσ ont des faibles valeurs ; 3. mesures au comportement indéterminé, en fonction des bases de données : lorsque

(i)IS a une valeur forte etσ une valeur faible, (ii)IS et σont tous deux une valeur forte.

La formalisation de ces différentes catégories est présentée dans la table5.1.

Catégorie IndiceIS Écart-typeσ

mesures au comportement similaire IS(mi, mj)≥ 1 − ε1 σ(mi, mj)≤ ε2

mesures au comportement différent IS(mi, mj)≤ ε1 σ(mi, mj)≤ ε2

mesures au comportement indéterminé — σ(mi, mj)≥ 1 − ε2

TABLE 5.1: Étude du comportement des mesures par le calcul du degré de similarité et de

l’écart-type.

– Étape 5 : Visualisation graphique des mesures au comportement similaire

Cette étape s’intéresse à la visualisation des mesures au comportement similaire, qui appartiennent à la catégorie 1. Pour ce faire, nous proposons de dessiner des graphes connexes1Gl pour chaque groupe de mesures identifié. Ainsi, nous nous appuyons sur les deux matrices obtenues dans les étapes 3 et 4 afin de chercher les valeurs deIS et

σsupérieures à deux seuilsεIS etεσfixés. Ces deux seuils représentent respectivement 1− ε1 et ε2 et valent 0, 95 et 0, 1 (le choix de ces valeurs est expliqué dans la sous-

section 5.4.3, page 156). Ainsi, nous jugeons proches les mesures ayant un degré de similaritéIS ≥ 0,95et un écart-typeσ≤ 0,1. Les groupes de mesures qui vérifient ces deux contraintes sont appelés stables, i.e., qui possèdent un comportement semblable. Ces groupes sont visualisables par des graphes complets dont les arêtes sont étiquetées parIS etσ.

– Étape 6 : Interprétation des résultats

Cette dernière étape de notre méthodologie expérimentale consiste à interpréter les résultats de la catégorisation des mesures obtenus précédemment. Nous nous focalisons essentiellement sur les groupes de mesures stables (catégorie 1), qui possèdent un

comportement semblable quelque soit le jeu de données sélectionné.

Avant de suivre cette démarche expérimentale, nous présentons les différentes bases de données qui vont servir à déterminer les diverses catégories de mesures.