• Aucun résultat trouvé

D´ efinition d’une r` egle d’association

R` egles d’association

13.2 D´ efinition d’une r` egle d’association

La recherche de r`egles d’association se fait sur un ensemble detransactions. Chaque transaction concerne un ensemble d’items appel´e itemset.

T ransaction Couches Biere` Lait P ain Oeuf s Soda T icket1 X X

T icket2 X X X X

T icket3 X X X X

T icket4 X X X X

T icket5 X X X X

Table 13.1 – Construction de vecteurs binaires

Une r`egle d’association a la forme P → C, o`u P et C sont des items. L’item P est appel´epr´emisse de la r`egle et l’item C est sa conclusion.

Il est important de pr´eciser qu’une r`egle d’association est diff´erente d’une implication logique. En effet, une r`egle d’association peut souffrir d’exceptions, mais pas une implication logique. Ainsi, une implicationA⇒B garanti que la r´ealisation deA entrainera la r´ealisation de B, alors que la r`egle d’association

A → B signifie que la r´ealisation de A peut, `a forte probabilit´e, entrainer la r´ealisation de B, ou non.

La Table 13.1 d´ecrit des ventes d’un supermarch´e. Les transactions dans cet exemple sont les tickets (duT icket1auT icket5). Les items sont les produits achet´es (Bi`ere, Couches, Lait, Pain, Oeufs, Soda). L’information«Couche→

Bi`ere»est une r`egle d’association qui signifie que l’achat des Couches entraˆıne souvent l’achat de Bi`ere.

Un point important `a prendre en consid´eration lors de la recherche de r`egles, concerne la pertinence des r`egles associations, o`u dans certains cas quelques associations apparaissent simplement par hasard. Ainsi, il est n´ eces-saire d’avoir des mesures qui permettent d’´evaluer la pertinence d’une r`egle d’association, comme nous le d´etaillons dans la section suivante.

13.3 Evaluation des r`´ egles d’association

Il est possible d’avoir un assez grand nombre de r`egles d’association `a par-tir d’un ensemble de transactions. Cependant, certaines sont plus pertinentes que d’autres. Afin d’´evaluer la pertinence d’une r`egle d’association de nom-breux indices statistiques peuvent ˆetres utilis´es [18,25]. Dans cette th`ese nous pr´esentons les trois indices les plus souvent utilis´es [25], qui sont : lesupport, la confiance et le lift.

13.3. ´Evaluation des r`egles d’association 123

13.3.1 Support

Soient I l’ensemble des items et T = {t1, . . . , ti} l’ensemble des transac-tions. Chaque transaction contient un sous ensemble d’items, appel´e itemset. Soient P etC deux itemsets.

Le support de la r`egle d’association P →C, not´e sup(P →C), est la pro-portion de transactions contenant les items deP et deC. Math´ematiquement, il est d´efini par :

sup(P →C) = {ti ∈T |P ∪C⊆ti} T . (13.1)

Le support est donc calcul´e en divisant le nombre de transactions contenant les items de P mais ´egalement les items de C sur le nombre de toutes les transactions T.

Exemple : Dans les donn´ees de la Table 13.1, le support de la r`egle d’as-sociation «Couche, Biere` →Lait »est ´egal `a 25, car deux tickets,T icket2 et

T icket4, contiennent `a la fois Couche,Bi`ereet Lait.

Dans le but d’´eviter la g´en´eration d’un grand nombre de r`egles peu fr´ e-quentes, souvent, lors de la recherche de r`egles d’association, un seuil de sup-port minimal est fix´e.

13.3.2 Confiance

La confiance d’une r`egle d’association est le rapport entre le nombre de transactions v´erifiant cette r`egle et le nombre de transactions v´erifiant sa pr´ e-misse. Math´ematiquement, la confiance conf(P → C) d’une r`egle d’associa-tion P →C est d´efinie par :

conf(P →C) = {ti ∈T |P ∪C⊆ti} {ti ∈T |P ⊆ti} . (13.2)

La confiance est donc calcul´ee en divisant le nombre de transactions contenant les items de P mais ´egalement les items de C sur le nombre de toutes les transactions contenant les items de P.

Exemple : dans les donn´ees de la Table 13.1, la confiance de la r`egle

«Lait → P ain » a une confiance de 23, car deux tickets, T icket3 et T icket4

contiennentP ain etLait, alors que trois tickets, T icket3, T icket4 etT icket5, contiennentLait.

Dans le but d’´eviter la g´en´eration d’un grand nombre de r`egles souffrant de«trop d’exceptions», souvent, lors de la recherche de r`egles d’association, un seuil de confiance minimal est fix´e.

13.3.3 Lift

Lelift d’une r`egle d’association est d´efini comme le rapport de la confiance de cette r`egle et la confiance d’une r`egle ayant la mˆeme conclusion quelle que soit sa pr´emisse. Par exemple, une r`egle P → C ayant un lift ´egal `a deux indique que, compar´es aux autre individus, les individus ayant l’item P ont deux fois plus de chances d’avoir l’itemC. Ainsi, le lift sert `a mesurer l’apport r´eel d’une pr´emisse. Il est d´efini math´ematiquement comme suit :

lift(P →C) = conf(P →C)

sup(C) . (13.3)

Exemple: Dans les donn´ees de la Table13.1, le lift de la r`egle d’associa-tion «Couches → P ain» est ´egal `a 1. En effet, la confiance de la r`egle est ´

egale `a 12. De plus, trois tickets sur six contiennentP aindans leur description :

T icket2, T icket3 et T icket4. Donc sup(P ain) = 12.

Le lift mesure donc l’influence de l’apparition de la pr´emisse dans une tran-saction sur l’apparition de la conclusion dans cette mˆeme transaction. Il y a trois cas `a consid´erer :

– lift(P → C) >1 : signifie que l’observation de la pr´emisse augmente la probabilit´e d’observer la conclusion. Cet effet est appel´e attraction, P

attire C.

– lift(P → C) = 1 : signifie que l’observation de la pr´emisse et de la conclusion sont deux faits ind´ependants.

– lift(P → C) < 1 : signifie que l’observation de la pr´emisse diminue la probabilit´e d’observer la conclusion. Ces deux items sont dits alors n´egativement corr´el´es. Cet effet est appel´e r´epulsion, P repousse C.

13.4 L’algorithme LCM

La recherche d’items fr´equents est l’un des probl`emes fondamentaux dans l’exploration de donn´ees et poss`ede de nombreuses applications telles que la r`egle d’association mini`ere [14], les bases de donn´ees inductives [56], et l’ex-pansion de requˆete [63].

Soit I = {1, . . . , n} l’ensemble des items. Un sous-ensemble X de I est appel´e itemset. Soit T l’ensemble des transactions sur I, c’est-`a-dire, chaque

t ∈T est compos´e d’items deI. Pour un itemsetX, soitT(X) ={t∈T |X ⊆

t}l’ensemble des transactions concernantX. Chaque transaction deT(X) est appel´eeoccurrence deX. Pour une constante donn´eea≥0, un itemset X est dit fr´equent si|T(X)| ≥a. Si un itemset fr´equent n’est inclus dans aucun autre

13.4. L’algorithme LCM 125

itemset fr´equent, il est ditmaximal. Pour un ensemble de transactionsS ⊆T, soit L(S) = T

T∈ST. Si un itemset X satisfait la condition L(T(X)) = X, alors X est appel´e itemset ferm´e.

LCM [72], pour «Linear time Closed itemset Miner», est un algorithme qui sert `a ´enum´erer les itemsets ferm´es fr´equents. Tel qu’illustr´e dans l’exemple de la Figure 13.1 [34], cet algorithme est bas´e sur la d´efinition de la relation parent-enfant entre les itemsets ferm´es fr´equents. Cette relation produit un arbre compos´e d’un ensemble d’itemsets ferm´es fr´equents. L’algorithme par-coure ainsi l’arbre en un temps lin´eaire selon le nombre d’itemsets ferm´es fr´ e-quents. Cet algorithme est inspir´e des algorithmes utilis´es pour l’´enum´eration des cliques bipartites maximales [71, 70].

Dans notre travail, LCM est utilis´e par notre approche afin d’extraire les r`egles d’association d’un ensemble de cycles. L’algorithme est donn´e dans les annexes, page 156.

Figure 13.1 – Exemple d’utilisation de l’algorithme LCM pour d´ecouvrir les itemsets fr´equents

Chapitre 14

Recherche de r`egles

d’association en utilisant une