Notations utilisées pour une règle X → Y

C.3 Principe de la CAH

1.2 Notations utilisées pour une règle X → Y

– n_XY =_|T_X∪Y_{| = |T}_XY_|représente le nombre de transactions satisfaisantXmais pasY. Le diagramme de Venn de la ﬁgure1.2illustre ces différentes notations.

Pour plus de clarté, nous gardons aussi les notations probabilistes : P (X)(resp.P (XY ),

P (XY )) comme étant la probabilité de X (resp.Y,XY, XY). Cette notation est équivalente à celle décrite ci-dessus puisqu’il s’agit de passer de l’une à l’autre simplement via la relation

P (X) = nX

n . Selon nos besoins, nous gardons l’une de ces notations, celle qui sera la plus appropriée.

Ayant introduit ces différentes notations, nous pouvons maintenant déﬁnir une règle d’association.

1.3.3 Déﬁnition

Déﬁnition 1 (règle d’association) Une règle d’association [AIS93] est un couple (X, Y), noté

X_{→ Y}, oùXetY sont des motifs (ou conjonctions de variables binaires) disjoints. Nous avons donc les relations suivantes :X⊆ I,Y ⊆ I etX∩ Y = ∅.

Une règle d’association de type X _{→ Y} prend la forme "Si condition alors résultat". Elle comporte une partie prémisse (ou antécédent) composée d’un ensemble d’items X et une partie conclusion (ou conséquent) composée d’un ensemble d’itemsY disjoint deX. Une telle règle permet de découvrir si les transactions qui vériﬁent le motif X ont tendance à vériﬁer également le motif Y. Un exemple de règle qui pourrait être extraite des données de la table 1.1, est "Caf é→ Lait".

En outre, une règle d’association est entièrement caractérisée par son tableau de contingence (table 1.2), qui est la base pour le calcul des mesures d’évaluation des règles d’association. Les cellules du tableau de contingence sont liées par les relations suivantes, où

P (XY )est exprimée comme le rapport nXY

n : – P (X) + P (X) = 1

– P (XY ) = P (Y )_{− P (XY ) = P (X) − P (XY )}

Y Y P rof ils ligne X P (XY ) P (XY ) P (X)

X P (XY ) P (XY ) P (X) P rof ils colonne P (Y ) P (Y ) 1

TABLE1.2: Tableau de contingence.

Les règles d’association ont été utilisées avec succès dans une large variété de domaines d’application [Hue09], parmi lesquels le secteur médical pour la recherche par exemple de com- plications dues à des associations de médicaments [MYGS91], [OO98], [PMS97], [GSM94], l’analyse d’images [Czy96], [OO98], [ZHL+₉₈_{], de données génomiques [}_XHD+₀₅_{], de don-}

nées graphiques [KK04] et statistiques [SW85], l’amélioration des services de télécommunica- tions [HKM+₉₆_{], [}_KMT97_{], [}_AMS97_{], la fouille de textes [}_Kod99_{], [}_HY02_{]. Cette technique peut}

aussi être appliquée à tout autre secteur d’activité où il serait intéressant de découvrir des conjonctions d’articles ou services qui apparaissent fréquemment ensemble tels que les services bancaires.

Pour évaluer la qualité des règles d’association extraites, deux mesures sont classiquement utilisées : le support et la conﬁance qui sont l’objet de notre prochaine section.

1.3.4 L’approche support-conﬁance

Dans ce qui suit, nous déﬁnissons les deux mesures les plus utilisées, support et conﬁance, proposées par [AIS93], [AS94].

Déﬁnition 2 (support) Le support d’une règle X _{→ Y} désigne la proportion de transactions

qui vériﬁent à la foisXetY, c’est-à-dire la fréquence d’apparition deX etY.

support(X

→ Y ) = P (XY ) =

|TXY|

Le support est ainsi le rapport du nombre d’enregistrements où la prémisse et la conclusion sont vériﬁées, sur le nombre total d’enregistrements.

Par exemple, dans les données du panier de la table1.1, nous avons :

support(Lait) = P (Lait) = 4₅= 80%

support(Lait_{→ Café) = P (Lait,Café) =} 3₅= 60%

Définition 3 (confiance) La confiance d’une règleX→ Y est la proportion de transactions qui

vériﬁentY parmi celles qui réalisentX, c’est-à-dire la fréquence conditionnelle de Y sachant

conf iance(X

→ Y ) = P (Y |X) =

P (XY )_{P (X)}

=

|TXY|

|TX|

(1.2)

La confiance est ainsi le rapport du nombre d’enregistrements où la prémisse et la conclusion sont vérifiées, sur le nombre d’enregistrements où seule la prémisse est vérifiée. Elle ne tient pas compte du nombre total d’enregistrementsn, elle est uniquement fonction de_{| T}XY | et_{| T}X |et pas de la taille de la base| T |.

Afin de retenir les règles les plus intéressantes, que l’on appelle règles valides, des seuils d’élagage doivent être fixés. Ces deux seuils, notés respectivement "minsup" pour le support minimum et "minconf" pour la confiance minimum, ont pour objectif d’éliminer les règles les moins intéressantes. Le choix des seuils s’avère essentiel pour que le nombre de règles à pro- poser à l’utilisateur soit gérable. Reprenons l’exemple du panier de la table 1.1, page11, issu d’une base de données transactionnelle d’un supermarché, où la règle suivanteP izza→ Lait

a été déduite. Cette règle est générée avec un support égal à40%(i.e., dans 40% des transactions de la base de données, contiennent les items P izza et Lait) et une conﬁance de 67%

(i.e., 67% des fois lorsque le consommateur achète la pizza alors il achète également du lait). Une telle règle est jugée valide si et seulement si son support et sa confiance sont supérieurs ou égaux aux seuils respectifsminsup et minconf préalablement fixés par l’utilisateur. Pour le cas de la règleP izza_{→ Lait}, si nous retenons des valeurs supérieures à40%pourminsupet à67%pourminconf, cette règle sera alors ignorée. Afin de choisir les bons seuils et de garder les règles intéressantes, il est préférable de sélectionner de petites valeurs pour le support et de fortes pour la confiance.

Ayant présenté l’approche support-conﬁance, nous abordons dans ce qui suit le problème d’extraction de règles d’association.

1.4 Extraction de règles d’association

Le problème d’extraction de règles d’association est l’une des4principales étapes de l’ECD (décrits brièvement dans la section1.2), qui vise à découvrir des liaisons signiﬁcatives entre les items dans une base de données. Il peut être formulé selon les contraintes suivantes :

Étant donné un ensemble de transactionsT, trouver toutes les règles d’associationX_{→ Y}

ayant un support supérieur ou égal àminsupet une confiance supérieure ou égale àminconf, où minsup et minconf sont deux seuils minimums pour le support et la confiance fixés par l’utilisateur.

L’extraction de règles d’association consiste ainsi à déterminer l’ensemble des règles, dont le support et la confiance sont au moins égaux à des seuils minimaux de support et de confiance fixés par l’utilisateur. En se basant sur la contrainte du support, il est possible de réduire le nombre des motifs proposés [AIS93], et ne garder que les motifs fréquents que nous définissons dans ce qui suit.

1.4.1 Recherche des motifs fréquents

La recherche de motifs fréquents dans les bases de données fait l’objet, depuis quelques années, de recherches intensives dans le domaine de la fouille de données. Cette phase est primordiale dans l’extraction des règles d’association, et elle consiste à rechercher des motifs ou des associations de variables que l’on rencontre fréquemment ensemble.

Déﬁnition 4 (motif fréquent) Un motif X est fréquent lorsque la valeur de son support

support(X → Y )est supérieure au seuil minimumminsup ﬁxé par l’utilisateur :support(X →

Y )_{≥ min}sup[AS94].

Si nous choisissons un seuil minimum égal à30%(minsup= 30%) et que nous l’appliquons sur les données du panier (table 1.1), nous obtenons la liste des motifs fréquents suivants : {Lait}, {Café}, {Banane}, {Pizza}, {Lait, Café}, {Lait, Banane}, {Café, Banane}, {Pizza, Banane} et {Lait, Banane, Café} sont tous des motifs fréquents. Les motifs {Sucre}, {Sucre, Banane} ou encore {Sucre, Café}, dont le support est inférieur à30%, ne sont pas fréquents.

Le problème de l’extraction des motifs fréquents est de complexité exponentielle dans la taillende l’ensemble d’items puisque le nombre de motifs fréquents potentiels est2n.

Aﬁn de réduire l’espace de recherche des motifs fréquents, les algorithmes d’extraction de règles d’association reposent sur la propriété d’anti-monotonie.

Propriété 1 (anti-monotonie) SoientX et Y deux motifs disjoints. Nous avons (dans le cas de support) :

∀X,Y ⊆ I : X ⊆ Y ⇒ support(X) ≥ support(Y ).

La propriété 1.4.1 [AS94], [MTV94] est particulièrement importante dans les algorithmes d’extraction de connaissances, puisqu’elle permet d’afﬁrmer que pour un motifX_{⊆ I} :

(i). SiXest fréquent, alors pour tout motifX1, tel queX1⊆ X,X1est aussi fréquent, i.e.,

Tout sous-ensemble d’un motif fréquent est fréquent.

(ii). SiX est non fréquent, alors pour tout motifX2, tel queX ⊆ X2,X2 est aussi non fré-

quent, i.e., Tout sur-ensemble d’un motif non fréquent est non fréquent. (anti-monotonie)

Plusieurs travaux se sont intéressés à la génération des motifs fréquents, et à la découverte de toutes les règles d’association valides liant ces motifs entre eux.

Ce problème de découverte des règles associatives [AIS93] peut ainsi être décomposé en deux sous-problèmes :

1. Trouver tous les motifs fréquents ;

2. Générer l’ensemble des règles associatives, ayant une grande conﬁance supérieure àminconf à partir des motifs fréquents. Ces règles sont appelées règles valides. Parmi les algorithmes fondateurs pour la recherche de règles associatives, nous retrouvons Apriori [AMS+₉₆_{]. Cet algorithme se base essentiellement sur la propriété d’anti-monotonicité}

de Support existant entre les motifs. Il permet d’évaluer les règles potentiellement valides, et de ne garder que celles qui satisfont les mesures d’intérêt support et conﬁance.

1.4.2 Principe de l’algorithme Apriori

L’algorithme Apriori est l’un des plus importants algorithmes d’extraction de règles d’association [WKQ+₀₇_{], basé sur l’approche support-conﬁance. Comme il est fondé sur la propriété}

d’anti-monotonie, Apriori est alors capable d’élaguer les motifs non fréquents d’une base de données volumineuse. Pour ce faire, il s’appuie sur le treillis des motifs.

Déﬁnition 5 (Treillis) Un ensemble ordonné (T r,) est un treillis si toute paire d’éléments de

T rpossède une borne inférieure et une borne supérieure.

Un exemple de treillis est illustré dans la ﬁgure 1.3. Ce treillis des motifs représente les données du "panier" (décrites dans la table 1.1) sous forme de diagramme de Hasse. C’est

Dans le document Etude comportementale des mesures d'intérêt d'extraction de connaissances (Page 33-38)