• Aucun résultat trouvé

NOUVELLES BASES DES R` EGLES M GK -VALIDES Corollaire 4.3 (Axiomes d’inf´erences pour les r`egles positives approximatives (P A))

Remarque sur l’utilisation de la valeur critique

CHAPITRE 4. NOUVELLES BASES DES R` EGLES M GK -VALIDES Corollaire 4.3 (Axiomes d’inf´erences pour les r`egles positives approximatives (P A))

SoientX, Y deux motifs d’un contexte binaire d’extraction K et α un niveau de confiance fix´e. Si la r`egle X → Y est une r`egle valide au niveau de confiance α (MGK(X → Y ) > Mα

GK, Supp(X) ≥ minSupp et Supp (Y ) ≥ minSupp), alors on a :

(P A1) Pour tous motifs Z, T tels que : γ (Z) = γ (X) et γ (T ) = γ (Y ) , la r`egle Z → T est une r`egle valide au niveau de confiance α.

(P A2) Pour tous motifs Z, T tels que : γ (Z) = γ (X) et γ (T \ Z) = γ (Y ) , la r`egle Z → T \ Z est une r`egle valide au niveau de confiance α.

Remarquons que l’axiome (P A2) est un cas particulier (P A1). On l’utilise lorsque l’on sou-haite avoir syst´ematiquement des r`egles `a pr´emisses et cons´equents disjoints.

Proposition 4.8. Soit K = (O, I, R) un contexte binaire d’extraction. Pour tous motifs X et Y , tels que Y est ferm´e et γ(X) ⊇ Y , la r`egle X → Y \ X est une r`egle exacte.

Preuve.

Soient X et Y deux ´el´ements de P(I) tels que :  γ (Y ) = Y,γ (X) ⊇ Y.

Conf (X → Y \X) = Supp (X ∪ Y \X) Supp (X) = Supp (X ∪ Y ) Supp (X) = Supp (γ (γ (X) ∪ Y )) Supp (γ (X)) .

Comme γ(X) ⊇ Y , on a : γ(X) ∪ Y = γ(X). Donc, Conf (X → Y \ X) = 1 et par la suite (selon la proposition 4.3), MGK(X → Y \ X) = 1. La r`egle X → Y \ X est bien une r`egle exacte.

Une cons´equence imm´ediate de cette propri´et´e nous permet d’affirmer que pour extraire une r`egle approximative (de mesure MGK 6= 1), on doit se passer des r`egles X → Y \ X avec γ (X) ⊇ Y.

Avant de voir la nouvelle description de base des r`egles positives approximatives, nous allons d’abord voir l’ensemble des r`egles repr´esentantes.

D´efinition 4.3. Soient K = (O, I, R) un contexte binaire d’extraction et X, Y deux ferm´es de P(I). Toutes les r`egles rij : Xi → Yj telles que Xi ∈ [X] et Yj ∈ [Y ] ont la mˆeme mesure et la mˆeme valeur critique. Celles qui sont les plus informatives, c’est-`a-dire, celles qui ont de pr´emisse minimale, de cons´equent maximal et ´eventuellement, de pr´emisse et cons´equent disjoints, sont appel´ees repr´esentantes des r`egles de pr´emisse dans[X] et de cons´equent dans [Y ].

Exemple 10. Dans le contexte K du tableau 2.1, prenons les ferm´es ABE et ABEF . Les ´

el´ements de la classe de ABE ceux de ABEF sont : [ABE] = {ABE, AE},

En prenant X = AE (g´en´erateur de ABE) et en prenant Y = ABEF , le motif Y \ X = BF est un ´el´ement de [Y ]. Donc, la r`egle AE → BF est la plus informative (cons´equent maximal et de pr´emisse minimale), elle peut ˆetre prise comme repr´esentante de toutes les r`egles dont la pr´emisse se trouve dans [ABE] et de cons´equent dans [ABEF ].

Consid´erons la classe des ferm´es ABC et ABCE.

[ABC] = {ABC, BC, AC, C}

[ABCE] = {ABCE, BCE, ACE, CE}

En prenant X = C (g´en´erateur de ABC), Y \ X = AB et AB /∈ [ABCE]. Dans ce cas, on se contente de la r`egle C → ABCE pour repr´esenter les r`egles de pr´emisse dans [ABC] et de cons´equent dans [ABCE].

Algorithme de construction d’un ensemble des r`egles repr´esentantes

Comme nous l’avons fait remarquer plus haut, pour tout motif ferm´e Y et pour tout g´e-n´erateur GX d’un ferm´e X, le motif Y \ GX ne reste pas toujours dans [Y ]. Pour ´eviter l’´eventualit´e de perte d’information, il faut `a tous prix trouver au moins une repr´esentante des r`egles dont les pr´emisses sont dans [X] et le cons´equent dans [Y ]. D’o`u la nec´essit´e de l’algorithme2.

Algorithme 2 Recherche des r`egles repr´esentantes

Entr´ee : Deux ferm´es X et Y (GX : ensemble des g´en´erateurs de X)

Sortie : RXY r`egles repr´esentant celles de pr´emisse dans [X] et de cons´equent dans [Y ]

1: RXY = ∅

2: Pour Chaque GX dans GX faire

3: Si (Y \ GX ∈ [Y ]) alors 4: RXY = RXY ∪ {GX → Y \ GX} 5: Sinon 6: RXY = {GX → Y } 7: Fin Si 8: Fin Pour

En partant de deux motifs ferm´es X et Y , l’id´ee est de trouver des repr´esentantes des r`egles de pr´emisse dans [X] et de cons´equent dans [Y ]. L’algorithme commence par parcourir l’en-semble des g´en´erateurs de X (ligne 2).

Pour chaque g´en´erateur GX de X, on commence par tester le motif ferm´e Y (lignes 3 et 4), si Y \ GX reste dans [Y ], on prend la r`egle GX → Y \ GX comme une repr´esentante des r`egles de pr´emisse dans [X] et de cons´equent dans [Y ] obtenue `a partir du g´en´erateur GX (ligne 2) et on recommence le processus avec d’autres g´en´erateurs de X (sous r´eserve qu’il en existe encore). Dans le cas contraire (c’est-`a-dire, si Y \ GX ∈ [Y ]), on se contente du motif Y et on/ prend la r`egle GX → Y comme repr´esentante obtenue `a partir du g´en´erateur GX (lignes 6). Remarquons que le nombre des ´el´ements constituant l’ensemble RXY est ´egale au nombre des g´en´erateurs de X. On aurait pu prendre une seule repr´esentante des r`egles de pr´emisse dans [X] et de cons´equent dans [Y ] et d´eriver les autres r`egles en utilisant les axiomes d’inf´erence. Mais, nous avons jug´e bon de donner `a l’utilisateur toutes les r`egles valides dont la pr´emisse est un g´en´erateur. En effet, les g´en´erateurs ne sont pas comparables ; donc, quand

CHAPITRE 4. NOUVELLES BASES DES R`EGLES MGK-VALIDES on a deux r`egles r1 et r2 dont la pr´emisse de chacune est un g´en´erateur d’un ferm´e X, les deux r`egles apportent forc´ement des informations diff´erentes. Il serait int´eressant de fournir ces informations avant la d´erivation des r`egles redondantes. Autrement dit, les informations contenues dans la base pourraient ˆetre largement suffisantes pour l’interpr´etation de r´esultats et par cons´equent, le recours `a la d´erivation des r`egles redondantes ne sera pratiquement plus n´ecessaire.

´

Etant donn´e qu’un g´en´erateur n’est pas n´ecessairement unique dans sa classe, par rapport `a l’ancienne base MGK-valide, ´etablie `a partir de pr´emisse et cons´equent ferm´es, la nouvelle base positive approximative va g´en´erer beaucoup plus des r`egles. D’un autre cot´e, elle va fournir beaucoup plus d’informations (toutes non redondantes) sans avoir `a d´eriver toutes les r`egles valides (une op´eration qui n’est pas tr`es pratique quand on a plusieurs dizaines de variables). Connaissant les r`egles repr´esentantes pour chaque couple des ferm´es, on peut d´efinir la nouvelle base positive approximative.

Proposition 4.9 (Nouvelle Base Positive Approximative (NBPA)).

Soit K = (O, I, R) un contexte binaire d’extraction. D´esignons par F FK l’ensemble des Fer-m´es Fr´equents et par GK l’ensemble des g´en´erateurs des ferm´es fr´equents du contexte K. L’ensemble N BP A(α) d´efini par :

N BP A (α) = {r ∈ RXY / X, Y ∈ F FK, X + Y et MGK(r) ≥ MαGK}. o`u Mα

GK d´esigne la valeur critique de MGK de la r`egle r calcul´ee au niveau de confiance α est une base pour les r`egles positives approximatives relativement aux axiomes d’inf´erences (P A1) et (P A2).

Preuve.

Nous allons montrer que l’application des axiomes (P A1) et (P A2) aux r`egles dans N BP A permet de trouver l’ensemble des r`egles approximatives valides avec leurs mesures respectives, et qu’aucune r`egle non valide n’est d´eriv´ee de N BP A.

Soit K = (O, I, R) un contexte binaire d’extraction. Prenons deux motifs X, Y de P(I) tels que r : X → Y soit une r`egle approximative valide. Montrons que si elle n’est pas dans N BP A, alors on peut y trouver une r`egle `a partir de laquelle l’application de (P A1) permet de la d´eduire. r1 : X → Y ⇔    Supp (X) ≥ minSupp, Supp (Y ) ≥ minSupp, MGK(X → Y ) ≥ Mα GK. Supposons que r /∈ N BP A(α).

Puisque X est fr´equent (Supp (X) ≥ minSupp), sa fermeture est aussi un motif fr´equent (X et γ(X) ont le mˆeme support). Donc il existe GF, g´en´erateur du ferm´e F avec F = γ(X) tels que : X soit dans [F ] et que GF soit une partie de X.

De mˆeme pour le motif Y , γ(Y ) est ferm´e et il contient Y . Comme ces deux motifs (Y et γ(Y )) ont le mˆeme support, le motif γ(Y ) est donc un motif fr´equent. L’application de l’algorithme 2 aux motifs ferm´es γ(X) et γ(Y ) permet de retrouver une repr´esentante des r`egles de pr´emisse dans [X] et de cons´equent dans [Y ]. Selon le contexte ´etudi´e, deux cas sont `a distinguer.

Premier cas

Figure 4.4 – Repr´esentante des r`egles dans [X] et [Y ]

GF → Y1\GF est une repr´esentante des r`egles entre les deux classes [X] et [Y ] (voir Fig.4.4). Nous avons montr´e(§4.6.1) que pour tous Z ∈ [X] et T ∈ [Y ], MGK(X → Y ) = MGK(Z → T ). De plus, Supp(X) = Supp(Z), Supp(Y ) = Supp(T ) et Conf(r : X → Y ) = Conf(r0 : Z → T ), r et r0 ont la mˆeme valeur critique. D’o`u les ´egalit´es :

 MGK(X → Y ) = MGK(GF → Y1\GF) , Mcr

GK(X → Y ) = Mcr

GK(GF → Y1\GF) .

Comme X → Y est une r`egle approximative valide, la r`egle repr´esentante GF → Y1\GF l’est aussi et elle est dans N BP A. Remarquons maintenant que GF est un g´en´erateur, donc GF ⊆ X et, γ(Y ) est ferm´e, donc Y1 \ GF ⊇ γ(Y ) ; de plus, γ(X) = γ(GF) et γ(Y1\ GF) = γ(Y ). L’application de (P 21) `a GF → Y1 \ GF permet de retrouver la r`egle X → Y ainsi que sa mesure.

Deuxi`eme cas

Dans le cas o`u Y \ GF n’est pas dans [Y ], dans le pr´esent cas, l’algorithme2 fourni la r`egle r : GF → γ(Y ) comme repr´esentante des r`egles de pr´emisse dans [X] et de cons´equent dans [Y ] (voir Fig4.5).

Figure 4.5 – Repr´esentante non n´ecessairement disjointe des r`egles dans [X] et [Y ] Puisque X ⊇ GF et Y ⊆ γ(Y ), l’application de (P A1) `a r permet de retrouver la r`egle X → Y ainsi que sa mesure.

CHAPITRE 4. NOUVELLES BASES DES R`EGLES MGK-VALIDES D’un autre cot´e, soit X → Y une r`egle de N BP A et Z → T une r`egle d´eriv´ee de X → Y par l’application de (P A1). Selon l’axiome d’inf´erence (RP A), on a : γ(Z) = γ(X) et γ(T ) = γ(Y ). Ces deux ´egalit´es nous permettent d’affirmer, d’une part, que Supp(Z) = Supp(X) et Supp(T ) = Supp(Y ). Donc, Z et T sont des motifs fr´equents. D’autre part, selon la pro-position 4.7, les deux r`egles X → Y et Z → T ont la mˆeme mesure et valeur critique, donc, Z → T est une r`egle approximative valide.

´

Etudions maintenant la question de minimalit´e de N BP A. Comme dans le cas de N BN E, nous allons d´efinir l’application surjective et non injective R qui associe une r`egle r : X → Y de N BP A `a la r`egle r0 : γ(X) → γ(Y ) de BN A. Soulignons que l’utilisation de l’application R et le lemme 4.2 permettent aussi de justifier que la base N BP A est bien g´en´eratrice. Comme R est non injective, card(N BP A) ≥ card(BP A). Prendre une seule r`egle repr´e-sentante pour chaque couple des ferm´ees permet d’avoir N BP A mˆeme cardinale que BP A. Mais, comme nous l’avons soulign´e un peu plus haut, la consid´eration de tous les g´en´erateurs d’une classe pour la construction des r`egles repr´esentantes de pr´emisse dans cette classe est justifi´ee par le fait que chacune de ces r`egles repr´esentantes apportent des informations diff´e-rentes (puisque les g´en´erateurs d’une classe ne sont pas comparable entre eux). Avec N BP A, l’utilisateur a acc`es `a ces informations sans avoir effectu´e une quelconque d´erivation.

Exemple 11.

Reprenons le contexte d’extraction d´ecrit dans le tableau2.1. En prenant unminSupp = 1/2, voici la liste des ferm´es et des g´en´erateurs fr´equents :

F FK = {ABE, ABC, BE, AB, BD, AD, B, A, D}, GK = {AE, C, E, AB, BD, AD, B, A, D}.

Selon la d´efinition de N BP A, pour chaque couple de ferm´e X et Y , il faut d’abord construire l’ensemble des r`egles repr´esentantes `a partir de l’ensemble des g´en´erateurs GX du motif ferm´e X et d’un motif Y1 dans [Y ]. Ces r`egles repr´esentantes constituent des candidates `a la nouvelle base positive approximative (Tableau 4.6). Pour ˆetre valid´ees, les valeurs MGK de ces candidates vont ˆetre compar´ees `a leurs valeurs critiques respectives. Les cases crois´ees contiennent des r`egles GX → Y1 (GX ∈ GX et Y1 ∈ [Y ]) qui ne doivent pas se trouver dans N BP A (soit le support de GX → Y1 ne d´epasse pas le minSupp, soit γ(GX) ⊃ Y , ou encore, les deux motifs constituant la r`egle sont mutuellement r´epulsifs, dans ce dernier cas, on doit envisager d’´etudier les r`egles n´egatives correspondantes).

Nous allons faire une comparaison des r`egles qui constituent l’ancienne base positive approxi-mative avec celles qui pourraient composer la nouvelle base positive approxiapproxi-mative. Dans le tableau4.7, les r`egles qui diff´erencient les deux bases (nouvelle et ancienne) sont pr´esent´ees en caract`eres rouges. Dans ce simple exemple, on peut faire au moins deux observations. Au niveau des r`egles candidates, dans l’ancienne comme dans la nouvelle base positive approxi-mative, on a exactement le mˆeme nombre de candidats. Par contre, quand c’est possible, pr´emisse et cons´equent de la nouvelle base sont disjoints. `A part les quatre premi`eres r`egles figurant dans le tableau 4.7 `a gauche, dans les deux bases, nous avons `a chaque fois des r`egles de mˆeme pr´emisse. Ce constat est juste une particularit´e du contexte K du tableau

2.1, mais en r´ealit´e, les pr´emisses et cons´equents des r`egles dans les deux bases sont g´e-n´eralement diff´erents. Dans le pr´esent contexte, plusieurs ferm´es fr´equents sont les uniques ´el´ements composant leurs classes, donc, ils jouent `a la fois le rˆole de ferm´e et de g´en´erateur. Ceci explique pourquoi on les voit dans la pr´emisse des r`egles dans les deux bases. On peut

ABE ABC BE AB AE × AE → ABC × × C C → ABE × × × E E → ABE × × E → AB AB AB → ABE AB → C AB → BE × BD × × × × AD × × × × B B → AE B → AC B → E B → AB A A → ABE A → BC × A → AB D × × × × BD AD B A D AE × × × × × C × × × × × E × × × × × AB × × × × × BD × BD → AD × × × AD AD → BD × × × × B B → BD × × × × A × A → AD × × × D D → BD D → AD × × ×

Tableau 4.6 – G´en´eration des candidats `a N BP A Ancienne Base Nouvelle Base MGK

BE → AB E → AB 0, 25

BE → ABE E → ABE 0, 50

ABC → ABE C → ABE 0, 33

ABE → ABC AE → BC 0, 33 AB → ABC AB → C 0, 50 AB → BE AB → E 0, 25 B → ABE B → AE 0, 20 AB → ABE AB → ABE 0, 5 AD → BD AD → BD 0, 33 BD → AD BD → AD 0, 33

Ancienne Base Nouvelle Base MGK

B → AB B → AB 0, 40 B → BD B → BD 0, 20 A → ABE A → ABE 0, 20 A → ABC A → BC 0, 20 A → AB A → AB 0, 40 A → AD A → AD 0, 20 D → BD D → BD 0, 50 D → AD D → AD 0, 50 B → ABC B → AC 0, 20 B → BE B → E 0, 40

Tableau 4.7 – Comparaison des bases positives approximatives

maintenant soumettre ces r`egles candidates `a leurs valeurs critiques respectives pour pouvoir valider ces liens implicatifs. `A titre indicatif et d’exemple, nous allons calculer les valeurs cri-tiques de chacune de ces candidates `a N BP A. Par ailleurs, remarquons que la valeur critique de MGK est li´ee au test d’ind´ependance de χ2. Or, ce test n’est fiable que lorsque la taille de l’´echantillon d´epasse la trentaine et que tous les effectifs th´eoriques sont au moins ´egaux `a cinq. Dans le cas du contexte donn´e dans le tableau 2.1, la taille de l’´echantillon ´etudi´e (nombre d’objet ou de transaction) est ´egale `a six ; comme cette quantit´e est tr`es loin de 30,

CHAPITRE 4. NOUVELLES BASES DES R`EGLES MGK-VALIDES