Les règles d'association extraites des grosses bases de données

Partie I Problématique et état de l'art

4.5 Les règles d'association extraites des grosses bases de données

Pour extraire les règles d'association des grosses bases de données, on procède principalement en deux temps. On extrait d'abord tous les motifs fréquents, c'est-à-dire dont la fréquence dépasse un seuil xé par l'utilisateur, ou seulement un nombre réduit de ces motifs fréquents permettant de générer toutes les règles issues des motifs fréquents101_{. Puis on extrait de ces motifs fréquents}

101_{Nous allons voir qu'en fait on obtient souvent une partie seulement de ces règles les autres pouvant en principe}

4.5. Les règles d'association extraites des grosses bases de données les règles dépassant un seuil donné de conance.

Nous ne nous intéressons ici qu'aux algorithmes générant un jeu de règles d'association re- présentant la totalité des données, notre but étant leur exploration à travers cette méthodologie. Nous renvoyons le lecteur intéressé par les algorithmes permettant de chercher des règles d'association en utilisant un langage d'interrogation à l'article de M. Botta, J.-F. Boulicaut, C. Masson et R. Meo [25]. Nous décrivons d'abord les premiers algorithmes Apriori et GenRules [2], puis nous exposons rapidement les améliorations proposées par leurs successeurs.

4.5.1 L'algorithme A priori

C'est un des premiers algorithmes [2] permettant d'extraire les motifs fréquents. Il se fait par étapes successives, les données pouvant être représentées par un tableau T booléens Sujets×Propriétés de dimension n×p, un seuil de support a sont donnés.

étape 1 : Initialisation

On cherche F1 l'ensemble de tous les motifs fréquents de longueur 1 dont le support est

supérieur ou égal au seuil. F , l'ensemble de tous les fréquents est initialisé à F1

étape k>1

1. Génération de Ck par examen de Fk−1

On génère l'ensemble Ckde tous les motifs de longueur k candidats, c'est-à-dire suscep-

tibles d'être reconnus comme motifs fréquents, en concaténant deux motifs distincts de Fk-1 qui ne dièrent que d'une propriété. Cette étape peut se faire ainsi grâce à l'antimonotonie du support/l'inclusion des sous-ensembles de propriétés.

2. Fk obtenu par élagage de Ck L'ensemble Fk est obtenu en éliminant de Ck tous les

motifs dont le support est en dessous du seuil. On ajoute alors à F les éléments de

Fk.

On passe de l'étape k à l'étape k+1 si Fk est non vide.

Cet algorithme admet des variantes qui sont décrites en détail dans la thèse de N. Pasquier [191], mais on y retrouve le même enchaînement des étapes, ce qui impose qu'on accède non seulement au support de chaque motif fréquent ou candidat mais également aux sujets correspondants, et ceci pour chaque étape.

4.5.2 L'extraction des règles qui s'ensuit

Une fois extraits les motifs fréquents, on parcourt leur ensemble F en décomposant chaque motif en deux parties qui sont la partie gauche et la partie droite d'une règle d'association. Ainsi pour un motif d'une longueur donnée, on obtient autant de règles d'association que de couples de sous-motifs diérents. Quand on désire extraire les seules règles dépassant un seuil donné de conance, des versions plus rapides de cet algorithme existent, qui s'appuient sur les propriétés de la conance. C'est le cas de l'algorithme "Genrules" proposé par R. Agrawal et R. Srikant [2] qui diminuent le nombre de recherches en explorant les sous-motifs de chaque motif fréquent selon leurs longueurs décroissantes. Cela permet d'éviter d'explorer systématiquement toutes les parties d'un motif en utilisant la propriété suivante de la conance : si un sous-motif m' d'un motif m produit des règles de conance inférieure au seuil, alors il en est de même de tout sous-motif de m'. Par exemple si la règle ABC→D construite sur le motif fréquent ABCD a une conance inférieure à un seuil c, c'est le cas également des règles AB→CD, AC→BD, BC→AD, A→BCD, B→ACD et C→ABD.

Le pire des cas a lieu quand toutes les propriétés sont vériées par tous les sujets, ce qui se produit quand le tableau booléen sujetsXpropriétés ne contient que des 1. Il y a alors p étapes,

et chaque ensemble Fk est formé d'autant d'éléments que de parties à k éléments de l'ensemble

de propriétés, soit C(k,n), et il y a en tout 2p _{motifs fréquents de support n si on inclut le motif}

vide vérié par tous les éléments, et Pp

k=12k (soit 2p+1− 2) règles d'association de support n

et de conance 1, si on accepte les règles d'association contenant un motif vide en partie gauche ou droite. A l'autre extrême, si le tableau T n'est formé que de 0, F1 est vide, et on n'obtient aucun motif fréquent en dehors du motif vide, donc aucune règle d'association. Entre ces deux extrêmes, le nombre de fréquents et de règles d'association varie non seulement en fonction de la proportion de 1 présents dans le tableau, mais également en fonction de la distribution des valeurs 1 dans ce tableau [243].

4.5.3 Les algorithmes suivants

Les algorithmes proposés par la suite sont des améliorations de l'algorithme Apriori dans plusieurs directions. On a essayé de réduire le nombre de données explorées en même temps, par une lecture à travers une fenêtre glissant sur les données [33], par tirage au sort d'un partie des données (algorithme "Sampling" de Toinoven [228]), par partition de l'ensemble des sujets (algorithme "Partition" de Savasere [211]). On a aussi pris en compte la structure de treillis des sous-ensembles de propriétés an de se limiter à une partie des motifs fréquents, comme les maximaux dans l'algorithme de Godin et Missaoui [95], et dans ClusterApr, Eclat, MaxEclat, Clique, MaxClique, TopDown, algorithmes décrits dans la thèse de N. Pasquier [191], les fermés dans Close [191] et Titanic [222], les free sets dans l'algorithme de J.-F. Boulicaut et al. [28], les clés dans Pascal [13]. Et les algorithmes Charm [243], FP-Tree, FP-Grow [114] et dEclat [244] s'appuient sur une représentation des données par un arbre construit en explorant simultanément l'espace des propriétés et celui des sujets. Le parcours de l'arbre permet au premier algorithme d'éviter la création de sous-motifs, et aux derniers d'éviter la création de motifs candidats.

La plupart de ces améliorations visent à rendre plus ecace l'extraction des règles construites à partir des motifs fréquents. Signalons que les algorithmes d'extraction de règles d'association utilisés après extraction d'une partie réduite de motifs fréquents ne fournissent souvent qu'une partie des règles d'association. C'est le cas notamment de l'algorithme JEN [83], opérant sur l'ensemble des motifs fermés fréquents générés par CHARM après exécution d'un algorithme naïf pour avoir l'ordre complet des motifs fermés fréquents. Il permet d'obtenir des règles de deux types : "RIE exactes" et "RIA approximatives", les premières étant la base de Guigues et Duquenne, et les secondes étant la base de Luxemburger qui ont été décrites dans l'état de l'art (paragraphe intitulé "les bases de règles").

Chaque nouvel algorithme est comparé à un ensemble d'autres contenant souvent Apriori, en faisant varier les seuils de support, de conance, et les tableaux de valeurs, ces derniers étant pris dans les bases de données de l'"UCI Knowledge Discovery in Databases Archives" (http ://kdd.ics.uci.edu/), pour lesquelles les dimensions des tableaux sont variées, ainsi que les liens entre les colonnes, ou dans les bases de données synthétiques de [221]. Notons que sont es- sentiellement pris en compte des critères de temps d'exécution, et que sont souvent passées sous silence les étapes de pré-traitement (prise en compte des valeurs manquantes, recodage des pro- priétés non booléennes). De plus ces comparaisons fournissent des classements diérents selon les propriétés statistiques des bases de données. M.J. Zaki et C.-J Hsiao [243] montrent ainsi que la diérence de qualité des algorithmes n'est pas la même selon la distribution statistique des bases de données de l'UCI utilisées habituellement pour ce genre de tests, en particulier selon la distribution de la longueur de leurs motifs fermés, ces distributions pouvant être bimodales ("Mush- room", "T40"), symétriques ("chess", "pumsb", "connect"), asymétriques ("gazelle", "T10").

Dans le document Extraire et valider les relations complexes en sciences humaines : statistiques, motifs et règles d'association (Page 133-136)