2.2 Aper¸ cu sur les bases g´ en´ eriques de r` egles d’association
2.2.1 Extraction de bases g´ en´ eriques sans perte d’information
2.3 MGB: Nouvelle base g´en´erique minimale de r`egles d’association
entre termes . . . . 71
2.3.1 D´ecouverte des r`egles d’association non-redondantes . . . . 72
2.3.2 D´efinition de la base g´en´erique minimaleMGB . . . . 74
2.3.3 Description de l’algorithmeGen-MGB . . . . 75
2.3.4 D´erivation des r`egles d’association redondantes . . . . 77
2.4 Comparaison des bases g´en´eriques de r`egles d’association avec
la base MGB . . . . 78
2.5 Evaluation empirique de la base g´´ en´erique MGB . . . . 79
2.6 Bilan des contributions . . . . 82
2.1 Objectifs du chapitre
Ce chapitre s’adresse `a la probl´ematique de la redondance des r`egles d’association. Dans la
pratique, le nombre de r`egles d’association, pouvant ˆetre extraites `a partir de corpus de textes,
s’av`ere tr`es ´elev´e du fait de la pr´esence de r`egles redondantes. Pour r´eduire le nombre de r`egles
extraites, certains travaux ont puis´e dans les fondements math´ematiques de l’Analyse Formelle
de Concepts (AFC) pour proposer des approches de s´election d’un noyau compact de r`egles
d’association non-redondantes, appel´ebase g´en´erique [Pasquier et al., 2005, Balc´azar, 2010].
Dans le pr´esent chapitre, apr`es avoir donn´e un aper¸cu sur les bases g´en´eriques de r`egles
d’association les plus cit´ees dans la litt´erature, nous proposons la formalisation et l’extraction
d’une nouvelle base g´en´erique minimale de r`egles d’association non-redondantes entre termes,
appel´ee MGB [Latiri et al., 2012b]. La d´efinition de cette base g´en´erique est bas´ee sur les
fondements math´ematiques de l’AFC. Elle contient ainsi un nombre plus r´eduit de r`egles valides
suite `a l’´elagage de celles qui sont redondantes. La caract´eristique cl´e de ces r`egles est qu’elles ont
des pr´emisses minimales et des conclusions maximales. Ce chapitre se termine par une ´evaluation
empirique de la base MGB ainsi qu’une ´etude comparative avec les bases g´en´eriques pionni`eres
de la litt´erature [Latiriet al., 2012b].
2.2 Aper¸cu sur les bases g´en´eriques de r`egles d’association
Dans ce qui suit, nous nous focalisons sur les travaux issus de l’AFC [Wille, 1989, Ganter
and Wille, 1999] pour la d´erivation des bases g´en´eriques [Bastide et al., 2000a, Kryszkiewicz,
2002, Ben Yahia et al., 2009, Balc´azar, 2010]. Certaines bases g´en´eriques propos´ees dans la
lit-t´erature englobent des r`egles d’association qui se pr´esentent sous forme d’implications entre les
g´en´erateurs minimaux et les termsets ferm´es, tout en garantissant l’obtention de r`egles
d’associa-tion avec une pr´emisse minimale et une conclusion maximale. Ces r`egles v´ehiculent le maximum
d’information, et sont donc consid´er´ees comme les plus informatives [Bastide et al., 2000a]. En
effet, une base g´en´erique doit remplir les conditions suivantes [Kryszkiewicz, 2002] :
– Informativit´e : la base g´en´erique de r`egles d’association doit permettre de retrouver avec
exactitude le support et la confiance des r`egles d´eriv´ees.
– D´erivabilit´e: la base g´en´erique doit ˆetre dot´ee d’un m´ecanisme d’inf´erence (i.e.,un syst`eme
axiomatique), permettant la d´erivation des r`egles redondantes. Ce syst`eme doit ˆetre
cor-rect(i.e.,le syst`eme ne permet de d´eriver que les r`egles d’association valides) etcomplet
(i.e.,l’ensemble de toutes les r`egles valides peut ˆetre retrouv´e).
– Compacit´e : l’ensemble de r`egles d’association d´eriv´e doit ˆetre r´eduit et minimal tout en
permettant la d´erivation de toutes les r`egles valides, i.e.,les r`egles redondantes.
Dans la litt´erature, deux principales classes d’approches ont ´et´e explor´ees pour l’extraction
de bases g´en´eriques. La premi`ere contient celles qui proposent des bases avec perte
d’informa-tion,i.e., elles ne remplissent pas la condition de d´erivabilit´e ou celle de l’informativit´e, tandis
que la deuxi`eme classe couvre les approches qui utilisent des bases g´en´eriquessans perte
d’infor-mation. Une discussion int´eressante sur les principales bases g´en´eriques de r`egles d’association
est propos´ee dans [Ben Yahia et al., 2009].
Dans ce qui suit, nous allons pr´esenter la principale base g´en´erique repr´esentante de chacune
des classes susmentionn´ees. Notons que les d´efinitions associ´ees sont adapt´ees `a notre contexte
d’ECT, et ce `a travers l’utilisation determsets au lieu d’itemsets.
2.2.1 Extraction de bases g´en´eriques sans perte d’information
Dans la litt´erature, plusieurs approches se sont int´eress´ees `a la r´eduction de l’ensemble de
r`egles d’association extraites sans aucune perte d’information [Ben Yahiaet al., 2009, Balc´azar,
2010]. Toutefois, comme cela a ´et´e mentionn´e dans [Kryszkiewicz, 2002, Ben Yahiaet al., 2009],
la principale base g´en´erique repr´esentante de cette classe est celle de Bastide et al.[Bastide et
al., 2000a]. Dans leurs travaux, les auteurs ont d´efini une r`egle d’associationredondante comme
suit :
D´efinition 9 Soit VARl’ensemble de toutes les r`egles d’association valides, d´ecouvertes `a
par-tir d’un contexte textuelM=(C,T,I)pour un seuil de support minimalminsuppet un seuil de
confiance minimal minconf. Une r`egle d’association R1 :T1 ⇒ T2 ∈ VAR est dite redondante
par rapport `a (ou d´erivable `a partir) d’une r`egle R2 :T′
1⇒T′
2 ∈ VAR, si et seulement si :
1. Supp(R1) = Supp(R2) et Conf(R1) = Conf(R2), et,
2. T′
1 ⊆ T1 etT2 ⊂T′
2.2. Aper¸cu sur les bases g´en´eriques de r`egles d’association 69
Nos exemples illustratifs seront bas´es sur le contexte d’extraction donn´e dans laTable1.2 (cf.
page 53).
Exemple 13 Consid´erons les deux r`eglesR1 : W⇒A etR2: W⇒AC. ´Etant donn´e,Ω(AW)
=Ω(ACW) ={ACW}et en se basant sur la Propri´et´e 1 (cf. page 54), nous avons Supp(AW)
= Supp(ACW). Ainsi, Supp(R1) = Supp(R2). De plus, puisque les deux r`egles ont la mˆeme
pr´emisse, elles ont donc la mˆeme confiance, soit : Conf(R1) = Conf(R2). Par cons´equent, R1
est dite redondante par rapport `a la r`egle R2 puisqu’elles ont les mˆemes valeurs de support et
de confiance ainsi que la mˆeme pr´emisse, tandis que la conclusion de R1, `a savoir A, est un
sous-ensemble propre de celle de R2, soit {AC}.
En se r´ef´erant `a la D´efinition 9, ´etant donn´ee une r`egle d’association R1 : T1 ⇒ T2, s’il
n’existe pas une autre r`egle de la formeR2 :T′
1⇒T′
2, tel que,Supp(R1)=Supp(R2),Conf(R1)
=Conf(R2),T′
1⊆T1, etT2 ⊂T′
2, alorsR1 :T1⇒T2est diteminimale non-redondante [Bastide
et al., 2000a].
Notons que cette d´efinition garantit que les r`egles d’association non-redondantes d´ecouvertes
ont despr´emisses minimales et desconclusions maximales. Les auteurs distinguent deux types
de bases `a savoir : (i) la base g´en´erique pour les r`egles exactes, not´ee parGBE; et, (ii) la base
g´en´erique pour les r`eglesapproximatives, not´ee parGBA. Les bases g´en´eriquesGBEetGBAsont
formalis´ees comme suit [Bastideet al., 2000a] :
D´efinition 10 SoitT FF l’ensemble des termsets ferm´es fr´equents extrait `a partir d’un contexte
d’extraction textuel et, pour chaque termset ferm´e fr´equent T, GT d´esigne l’ensemble de ses
g´en´erateurs minimaux. La base g´en´erique pour les r`egles exactesGBE est d´efinie comme suit :
GBE={R:g⇒(T −g)| T ∈ T FF ∧ g∈ GT ∧ g̸=T}. (2.1)
La base g´en´erique pour les r`egles approximatives GBA est d´efinie comme suit :
GBA={R:g⇒(T −g)| T, T1∈ T FF ∧ g∈ GT1 ∧ T1 ⊂T ∧ Conf(R)≥minconf}. (2.2)
Pour rem´edier aux faiblesses li´ees `a la grande taille et `a la faible compacit´e de la base g´en´
e-riqueGBA, notamment pour les contextes d’extraction ´epars [Bastideet al., 2000a], Bastideet al.
ont propos´e un r´eduction transitive de la base g´en´erique de r`egles d’association approximatives,
not´eeT GBA, comme suit :
D´efinition 11 La base T GBA est formalis´ee par :
T GBA={R:g⇒(T−g)|T, T1∈ T FF ∧ T ∈Couvs(T1) ∧ g∈ GT1 ∧ Conf(R)≥minconf}.
(2.3)
Exemple 14 Supposons un seuil de confiance minimale minconf = 0.5. Puisque {ACW} ∈
Couvs(CW) et W est un g´en´erateur minimal de{CW}, la r`egle W ⇒ AC appartient `a T GBA
et a une valeur de confiance ´egale `a 45 ≥ minconf. Notons par ailleurs que la r`egle W ⇒ ACT
appartenant `a GBA n’est pas incluse dansT GBA puisque {ACT W} ∈/ Couvs(CW).
Dans [Kryszkiewicz, 2002], l’auteur prouve que le couple (GBE,GBA) forme une base g´
e-n´erique valide et informative de r`egles d’association, i.e., leurs support et confiance respectifs
sont inf´er´es avec exactitude. Toutefois, la base(GBE,GBA)souffre de la g´en´eration d’un nombre
important de r`egles surtout pour les contextes d’extraction denses. Ce constat est renforc´e par
le fait que pour les contextes ´epars, l’extraction du couple(GBE,GBA)n’apporte aucun gain en
terme de compacit´e.
Exemple 15 Nous nous r´ef´erons dans cet exemple au treillis de l’Iceberg augment´eT A, illustr´e
dans la Figure 1.1 (cf. page 56). Consid´erons le termset ferm´e fr´equent {ACT W} et son
g´en´erateur minimal{AT}. La r`egle d’association induite `a partir de ces motifs est : AT⇒ CW
appartient `a GBE. D’un autre cˆot´e, admettons un seuil de minconf ´egal `a 0.5 et consid´erons les
deux TFFs {CW} et {ACT W}. Puisque {CW} ⊂ {ACT W} et W est un g´en´erateur minimal
de{CW}, la r`egle d’associationW ⇒ACT appartient donc `aGBAavec une valeur de confiance
´
egale `a 35 ≥minconf.
Dans le document
Extraction de Connaissances a partir de Textes : M ethodes et Applications
(Page 82-85)