• Aucun résultat trouvé

Extraction de bases g´ en´ eriques sans perte d’information

2.2 Aper¸ cu sur les bases g´ en´ eriques de r` egles d’association

2.2.1 Extraction de bases g´ en´ eriques sans perte d’information

2.3 MGB: Nouvelle base g´en´erique minimale de r`egles d’association

entre termes . . . . 71

2.3.1 D´ecouverte des r`egles d’association non-redondantes . . . . 72

2.3.2 D´efinition de la base g´en´erique minimaleMGB . . . . 74

2.3.3 Description de l’algorithmeGen-MGB . . . . 75

2.3.4 D´erivation des r`egles d’association redondantes . . . . 77

2.4 Comparaison des bases g´en´eriques de r`egles d’association avec

la base MGB . . . . 78

2.5 Evaluation empirique de la base g´´ en´erique MGB . . . . 79

2.6 Bilan des contributions . . . . 82

2.1 Objectifs du chapitre

Ce chapitre s’adresse `a la probl´ematique de la redondance des r`egles d’association. Dans la

pratique, le nombre de r`egles d’association, pouvant ˆetre extraites `a partir de corpus de textes,

s’av`ere tr`es ´elev´e du fait de la pr´esence de r`egles redondantes. Pour r´eduire le nombre de r`egles

extraites, certains travaux ont puis´e dans les fondements math´ematiques de l’Analyse Formelle

de Concepts (AFC) pour proposer des approches de s´election d’un noyau compact de r`egles

d’association non-redondantes, appel´ebase g´en´erique [Pasquier et al., 2005, Balc´azar, 2010].

Dans le pr´esent chapitre, apr`es avoir donn´e un aper¸cu sur les bases g´en´eriques de r`egles

d’association les plus cit´ees dans la litt´erature, nous proposons la formalisation et l’extraction

d’une nouvelle base g´en´erique minimale de r`egles d’association non-redondantes entre termes,

appel´ee MGB [Latiri et al., 2012b]. La d´efinition de cette base g´en´erique est bas´ee sur les

fondements math´ematiques de l’AFC. Elle contient ainsi un nombre plus r´eduit de r`egles valides

suite `a l’´elagage de celles qui sont redondantes. La caract´eristique cl´e de ces r`egles est qu’elles ont

des pr´emisses minimales et des conclusions maximales. Ce chapitre se termine par une ´evaluation

empirique de la base MGB ainsi qu’une ´etude comparative avec les bases g´en´eriques pionni`eres

de la litt´erature [Latiriet al., 2012b].

2.2 Aper¸cu sur les bases g´en´eriques de r`egles d’association

Dans ce qui suit, nous nous focalisons sur les travaux issus de l’AFC [Wille, 1989, Ganter

and Wille, 1999] pour la d´erivation des bases g´en´eriques [Bastide et al., 2000a, Kryszkiewicz,

2002, Ben Yahia et al., 2009, Balc´azar, 2010]. Certaines bases g´en´eriques propos´ees dans la

lit-t´erature englobent des r`egles d’association qui se pr´esentent sous forme d’implications entre les

g´en´erateurs minimaux et les termsets ferm´es, tout en garantissant l’obtention de r`egles

d’associa-tion avec une pr´emisse minimale et une conclusion maximale. Ces r`egles v´ehiculent le maximum

d’information, et sont donc consid´er´ees comme les plus informatives [Bastide et al., 2000a]. En

effet, une base g´en´erique doit remplir les conditions suivantes [Kryszkiewicz, 2002] :

Informativit´e : la base g´en´erique de r`egles d’association doit permettre de retrouver avec

exactitude le support et la confiance des r`egles d´eriv´ees.

erivabilit´e: la base g´en´erique doit ˆetre dot´ee d’un m´ecanisme d’inf´erence (i.e.,un syst`eme

axiomatique), permettant la d´erivation des r`egles redondantes. Ce syst`eme doit ˆetre

cor-rect(i.e.,le syst`eme ne permet de d´eriver que les r`egles d’association valides) etcomplet

(i.e.,l’ensemble de toutes les r`egles valides peut ˆetre retrouv´e).

Compacit´e : l’ensemble de r`egles d’association d´eriv´e doit ˆetre r´eduit et minimal tout en

permettant la d´erivation de toutes les r`egles valides, i.e.,les r`egles redondantes.

Dans la litt´erature, deux principales classes d’approches ont ´et´e explor´ees pour l’extraction

de bases g´en´eriques. La premi`ere contient celles qui proposent des bases avec perte

d’informa-tion,i.e., elles ne remplissent pas la condition de d´erivabilit´e ou celle de l’informativit´e, tandis

que la deuxi`eme classe couvre les approches qui utilisent des bases g´en´eriquessans perte

d’infor-mation. Une discussion int´eressante sur les principales bases g´en´eriques de r`egles d’association

est propos´ee dans [Ben Yahia et al., 2009].

Dans ce qui suit, nous allons pr´esenter la principale base g´en´erique repr´esentante de chacune

des classes susmentionn´ees. Notons que les d´efinitions associ´ees sont adapt´ees `a notre contexte

d’ECT, et ce `a travers l’utilisation determsets au lieu d’itemsets.

2.2.1 Extraction de bases g´en´eriques sans perte d’information

Dans la litt´erature, plusieurs approches se sont int´eress´ees `a la r´eduction de l’ensemble de

r`egles d’association extraites sans aucune perte d’information [Ben Yahiaet al., 2009, Balc´azar,

2010]. Toutefois, comme cela a ´et´e mentionn´e dans [Kryszkiewicz, 2002, Ben Yahiaet al., 2009],

la principale base g´en´erique repr´esentante de cette classe est celle de Bastide et al.[Bastide et

al., 2000a]. Dans leurs travaux, les auteurs ont d´efini une r`egle d’associationredondante comme

suit :

efinition 9 Soit VARl’ensemble de toutes les r`egles d’association valides, d´ecouvertes `a

par-tir d’un contexte textuelM=(C,T,I)pour un seuil de support minimalminsuppet un seuil de

confiance minimal minconf. Une r`egle d’association R1 :T1 T2 ∈ VAR est dite redondante

par rapport `a (ou d´erivable `a partir) d’une r`egle R2 :T

1T

2 ∈ VAR, si et seulement si :

1. Supp(R1) = Supp(R2) et Conf(R1) = Conf(R2), et,

2. T

1 T1 etT2 T

2.2. Aper¸cu sur les bases g´en´eriques de r`egles d’association 69

Nos exemples illustratifs seront bas´es sur le contexte d’extraction donn´e dans laTable1.2 (cf.

page 53).

Exemple 13 Consid´erons les deux r`eglesR1 : WA etR2: WAC. ´Etant donn´e,(AW)

=(ACW) ={ACW}et en se basant sur la Propri´et´e 1 (cf. page 54), nous avons Supp(AW)

= Supp(ACW). Ainsi, Supp(R1) = Supp(R2). De plus, puisque les deux r`egles ont la mˆeme

pr´emisse, elles ont donc la mˆeme confiance, soit : Conf(R1) = Conf(R2). Par cons´equent, R1

est dite redondante par rapport `a la r`egle R2 puisqu’elles ont les mˆemes valeurs de support et

de confiance ainsi que la mˆeme pr´emisse, tandis que la conclusion de R1, `a savoir A, est un

sous-ensemble propre de celle de R2, soit {AC}.

En se r´ef´erant `a la D´efinition 9, ´etant donn´ee une r`egle d’association R1 : T1 T2, s’il

n’existe pas une autre r`egle de la formeR2 :T

1T

2, tel que,Supp(R1)=Supp(R2),Conf(R1)

=Conf(R2),T

1T1, etT2 T

2, alorsR1 :T1T2est diteminimale non-redondante [Bastide

et al., 2000a].

Notons que cette d´efinition garantit que les r`egles d’association non-redondantes d´ecouvertes

ont despr´emisses minimales et desconclusions maximales. Les auteurs distinguent deux types

de bases `a savoir : (i) la base g´en´erique pour les r`egles exactes, not´ee parGBE; et, (ii) la base

g´en´erique pour les r`eglesapproximatives, not´ee parGBA. Les bases g´en´eriquesGBEetGBAsont

formalis´ees comme suit [Bastideet al., 2000a] :

efinition 10 SoitT FF l’ensemble des termsets ferm´es fr´equents extrait `a partir d’un contexte

d’extraction textuel et, pour chaque termset ferm´e fr´equent T, GT esigne l’ensemble de ses

en´erateurs minimaux. La base g´en´erique pour les r`egles exactesGBE est d´efinie comme suit :

GBE={R:g(T g)| T ∈ T FF ∧ g∈ GT g̸=T}. (2.1)

La base g´en´erique pour les r`egles approximatives GBA est d´efinie comme suit :

GBA={R:g(T g)| T, T1∈ T FF ∧ g∈ GT1 T1 T Conf(R)minconf}. (2.2)

Pour rem´edier aux faiblesses li´ees `a la grande taille et `a la faible compacit´e de la base g´en´

e-riqueGBA, notamment pour les contextes d’extraction ´epars [Bastideet al., 2000a], Bastideet al.

ont propos´e un eduction transitive de la base g´en´erique de r`egles d’association approximatives,

not´eeT GBA, comme suit :

efinition 11 La base T GBA est formalis´ee par :

T GBA={R:g(Tg)|T, T1∈ T FF ∧ T Couvs(T1) g∈ GT1 Conf(R)minconf}.

(2.3)

Exemple 14 Supposons un seuil de confiance minimale minconf = 0.5. Puisque {ACW} ∈

Couvs(CW) et W est un g´en´erateur minimal de{CW}, la r`egle W AC appartient `a T GBA

et a une valeur de confiance ´egale `a 45 minconf. Notons par ailleurs que la r`egle W ACT

appartenant `a GBA n’est pas incluse dansT GBA puisque {ACT W} / Couvs(CW).

Dans [Kryszkiewicz, 2002], l’auteur prouve que le couple (GBE,GBA) forme une base g´

e-n´erique valide et informative de r`egles d’association, i.e., leurs support et confiance respectifs

sont inf´er´es avec exactitude. Toutefois, la base(GBE,GBA)souffre de la g´en´eration d’un nombre

important de r`egles surtout pour les contextes d’extraction denses. Ce constat est renforc´e par

le fait que pour les contextes ´epars, l’extraction du couple(GBE,GBA)n’apporte aucun gain en

terme de compacit´e.

Exemple 15 Nous nous r´ef´erons dans cet exemple au treillis de l’Iceberg augment´eT A, illustr´e

dans la Figure 1.1 (cf. page 56). Consid´erons le termset ferm´e fr´equent {ACT W} et son

en´erateur minimal{AT}. La r`egle d’association induite `a partir de ces motifs est : AT CW

appartient `a GBE. D’un autre cˆot´e, admettons un seuil de minconf ´egal `a 0.5 et consid´erons les

deux TFFs {CW} et {ACT W}. Puisque {CW} ⊂ {ACT W} et W est un g´en´erateur minimal

de{CW}, la r`egle d’associationW ACT appartient donc `aGBAavec une valeur de confiance

´

egale `a 35 minconf.