7.4 Évaluation de l'intérêt d'une règle en fonction des connaissances
7.4.3 La règle générée a un indice de conance plus élevé que la
connaissance . . . 130
7.4.4 Laconnaissance aun indicede conanceplusélevé quela
règle générée . . . 131
7.1 Motivations
Les algorithmes de fouille de données peuvent générer dans certains cas un
nombre important de modèles selon les données fournies et les paramètres dé-
nis pour l'extraction. Une étapeessentielle de la fouillede données est donc l'étape
de post-traitement lors de laquelle les modèles sont réduits pour ne conserver que
lesconnaissances lesplusintéressantes. Des approches de diérentes naturesontété
proposées : il peut s'agir d'éliminerles redondances au sein des modèles, de ltrer
les meilleurs modèles selon un certain seuil pour une mesure de qualité donnée ou
selon un des critères subjectifs présentés dans lechapitre 3.
Dans l'approche KEOPS, nous caractérisons l'intéressabilité d'un modèle selon
quatre critères:
1. L'intelligibilité,
2. La taille des modèles an de ne pas présenter simultanément un trop grand
nombre de motifsà l'utilisateur,
3. La facilitéde confrontation avec laconnaissanceapriori an d'éviteràl'utili-
sateur l'obligationd'eectuer des transformationslogiques trop complexes ou
trop nombreuses pour conrmer ses intuitions,
4. La personnalisation an de ne fournir à un utilisateur que les règles intéres-
santes en fonction de ses connaissances et de ses centres d'intérêts.
Le critère d'intelligibilité est une constante dans la plupart des travaux sur ce
sujet ce qui justie le choix de modèles sous la forme de règles de causalité si ...
alors ... du même type que les règles d'association. Les règles d'association ainsi
quelesmesuresstatistiquesnécessairesandelesinterprétercorrectement(support,
conance et lift) ont, en eet, l'avantage d'être facilement compréhensibles par un
utilisateur non expert. Ainsi nous supposons donc être en mesure d'exprimer les
connaissances du domaine dans ce format.
Poursatisfairelesecondcritère,nousutilisonsenpremierlieul'algorithmeCLOSE
quiassurequ'aucune redondancesyntaxiquene soitgénérée.Ensuite,nousétendons
le concept de maximisation du niveau d'information en prenant en compte toutes
les relationsde généralisationdéniesdans l'ontologie.
La structure du système d'information conceptuel et l'utilisation de la base de
connaissances permettentderespecterletroisièmeetlequatrièmecritère.Nouspro-
an d'évaluer l'intérêt desrègles en fonctiondes connaissances déniesdansla base
de connaissances par un utilisateur.
Dans le cadre de ce chapitre où nous nous intéressons à des motifs sous forme
de règles d'association, nous employons par abus de langage le terme d'attribut
pour désigner un concept-attribut et de valeur pour désigner un concept-valeur au
sein d'une règle. Cet abus de langage se justie par le fait qu'un unique concept-
attribut (respectivement concept-valeur) est associé à un attribut (respectivement
une valeur) de laMODB.
Ce chapitre est organisé de la manière suivante : dans la première partie nous
nous intéressons aux techniques pour éliminer les règles d'association redondantes,
la deuxième partie décrit notre approche pour l'évaluation relative du niveau d'in-
formation de deux règles et la troisième partie présente la mesure d'intérêt que
nous avons mise au point an d'évaluer la pertinence d'une règle en fonction des
connaissances.
7.2 Réduction du nombre de règles d'association
Il existe diérentes approches an de sélectionner les modèles les plus intéres-
sants à présenter à l'utilisateur. Les approches les plus simples sélectionnent les
n
meilleuresrèglesselonune mesured'intérêtouencoretouteslesrèglesdépassantunseuil xé. Dans le chapitre 2 nous avons évoqué diérents critères de qualité pour
la création de mesures d'évaluation des règles extraites. Ces mesures permettent
de sélectionner lesrègles les plus intéressantes en xant un seuil minimal d'intérêt.
D'autres approches ont pour objectif de ltrer les règles redondantes comme par
exemple la méthode d'extraction basée sur les itemsets fermés fréquents présentée
en section2.4.1.2.Dans l'approche KEOPSle choixaété faitde sebaser sur l'algo-
rithmeCLOSEpourl'extractiondemotifsquisontensuitetraitésand'éliminerles
redondances d'originesémantique quine peuvent être identiées par l'algorithme.
7.2.1 Maximisation du niveau d'information
L'algorithme CLOSE [Pas00] permet d'extraire des règles d'association non re-
dondantes minimales.Dansce contexte, unerègle estdite redondantesielleconvoie
par une autre règle de même utilitéet de même pertinence.
7.2.2 Factorisation de règles d'association
L'approche KEOPS se fonde sur la dénition de règle d'association généralisée
présentée par Srikant [SA95] dans laquelle une règle d'association généralisée est
composéed'itemsorganisésen unetaxonomie
T
.Avantd'introduirenotredénition il est nécessaire de présenter certaines notions.Dénition 7.1 (Chemin entre deux concepts)
On appelle chemin entre les concepts
C1
etCn
une suite de conceptsC1, C2, ..., Cn
dans laquelle deux concepts successifs quelconquesCi
etCi+1
sont reliés par une relation orientée deCi
versCi+1
Danslecadre delafactorisationdes donnéesons'intéresseplusparticulièrement
aux cheminscréésà partird'unemêmerelationde généralisationreliantun concept
à son ancêtre, onles appelle :chemin de généralisation.
Exemple 7.1
La gure 6.1 illustre un chemin composé d'une relation sémantique et de relations
de généralisationentre DomicileLyonetCAF Rhône-Alpes.Surlagure7.1
on peut observer un chemin de généralisation entre les concepts-valeurs
CV111
etCV1
.On rappellequ'un item est dénitpar un triplet{A,op,V} où :
•
A est un attribut du jeu de données,•
opest un opérateurparmi <,≤
, >,≥
, =,•
V est une valeur du domainede l'attribut. Dénition 7.2 (Généralisation d'un item)Soit un item
IA
déni par un couple(Att, V alA)
etun itemIB
déni par le couple(Att, V alB)
.On dit qu'un item
IA
généralise un itemIB
siIA= IB
oubien s'ilexiste un chemin de généralisationdeV alB
versV alA
.Exemple 7.2
CV1
CV2
CV22
CV21
CV13
CV12
CV11
CV111
CV112
CA
Fig.7.1: Undomaine etses sous-domaines
La notion de généralisationd'un item permet de dénir les règles d'association
généralisées. Ces règles, formées uniquement à partir des concepts d'une ontolo-
gie KEOPS, sont minimales dans le sens où elles excluent toute relation non
pertinente entre les concepts-valeurs de leurs items:
Dénition 7.3 (Règle d'association généralisée)
Soit
CA
etCV
respectivement l'ensemble des concepts-attributs et des concepts- valeurs d'une ontologieKEOPS.Soit
I
l'ensemble des items de la MODB créés à partirdeCA
etCV
.Une règle
R : A → C
est une règle d'associationgénéralisée si etseulement si:• A ⊂ I
• C ⊂ I
•
Aucun item deA
ne généralise un autre item deA
•
Aucun item deC
ne généralise un item deA
ouun autre item deC
Lesseulesrelationsautoriséesentrelesitemsd'unerègled'associationgénéralisée
sont lesrelationssémantiques etles relationsde généralisation d'un itemde
C
vers un item deA
. An de factoriser plusieurs règles d'association généralisées il est nécessaire de dénirentre elles une relationd'ordre :L'étape de factorisation des règles consiste à combiner un ensemble de règles
proches en une nouvelle qui permet de toutes les résumer. Avant de la présenter
il est nécessaire de rappeler la notion de sous-domaine . Si l'on considère
CA
un concept-attribut et un ensemble de concepts-valeurs en relation valeurDeavec
CA
dénissant un domaineD
. Un concept-valeurCV
deD
est appelé un sous-domaine deD
s'il existe un ensemble de concepts-valeurs{CV1, . . . , CVn}
deD
en relationde généralisationavecCV
.On ditque{CV1, . . . , CVn}
dénitlesous-domaine
CV
.Sur la gure 7.1 le domaine
D
deCA
est représenté par{CV1, CV2}
oùCV1
etCV2
sont deux sous-domainesdeD
.Lesous-domaineCV1
est déni quantà luipar l'ensemble{CV11, CV12, CV13}
ou encore par{CV111, CV112, CV12, CV13}
. La gure 7.2 représentelesous-domainePrestation Action Socialetandisquelagure6.1du chapitre6représentelessous-domainesPrestation LogementetPrestation
Entretien.
Dénition 7.4 (Factorisation de règles)
Soit un ensemble de règles
E = {R1, . . . , Rn}
telque :∀i ∈ {1, n} Ri
: att1
= val(i,1), . . . , attp
= val(i,p)
→ attp+1
= val(i,p+1), . . . , attq
= val(i,q)
On ditque l'ensemble
E
se factorise en une seule règleR
de laforme :R : att1
= val1, . . . , attp
= valp
→ attp+1
= valp+1, . . . , attq
= valq
si :
∀j ∈ {1, q} {val1,j, . . . , valn,j}
dénitle sous-domainevalj
ou bien si :∀r ∈ {1, q} val(r,j)
= valj
.Exemple 7.3
Considérons l'ontologie simpliée illustrée par la gure 7.2. Les règles 7.2, 7.3, 7.4
ne peuvent sefactoriseren larègle7.1 car lesconcepts-valeurs BAFA , PAH
et PEL ne dénissent pas complètement le sous-domaine Prestation Action
Sociale.Toutefois,dès lorsquelarègle7.5apparaitildevientpossibledefactoriser
l'ensembledesrègles.BienentendudansnotreexempleLyonetGrenoble dénissent
le sous-domaine Rhône-Alpes ce qui ne reète pas la situationréelle.
Règle 7.1
Localisation CAF="Rhône-Alpes"
∧
Prestation="Prestation Action Sociale"→
Heure Arrivée="Matin"Prestation Action Sociale
VAC
Prestation
PAH
PEL
BAFA
Fig. 7.2: Le sous-domaine Prestation Action Sociale dans une ontologie dédiée
aucontact allocataire
Règle 7.2
LocalisationCAF="Grenoble"
∧
Prestation="BAFA"→
Heure Arrivée="Matin"Règle 7.3
LocalisationCAF="Grenoble"
∧
Prestation="PAH"→
Heure Arrivée="Matin"Règle 7.4
LocalisationCAF="Grenoble"
∧
Prestation="PEL"→
Heure Arrivée="Matin"Règle 7.5
LocalisationCAF="Lyon"
∧
Prestation="VAC"→
Heure Arrivée="Matin"7.3 Évaluation relative des niveaux d'informations
Un des objectifs de l'approche KEOPS est de confronter lesmotifs extraits par
lestechniquesde fouillesdedonnéesauxconnaissancesdéjàacquisessurledomaine.
Laconfrontationnécessitede disposerde critèresde comparaison:unde cescritères
est de comparer le niveau d'information de chaque règle aux connaissances. Étant
donnéqu'une ontologieKEOPS peut dénirde nombreuses relationspouvant relier
les diérents items d'une règle de manières diérente, une comparaison syntaxique
aboutirait à la nécessité d'associer à chacun des concepts un poids an de pouvoir
d'informationdedeuxrèglesendeuxétapes:lapremièreconsisteàcomparerlescou-
verturesdes antécédentsetdes conséquents desdeux règles, etladeuxièmeconsiste
à évaluer leniveau d'informationen seconformant auprincipede maximisationdu
niveau d'information. Nous dénissons également la notion de comparabilité
de deux règles qui est basée sur l'existence d'un lien quelconque dans l'ontologie
entre leurs items respectifs. Dans cette section nous dénissons cette notion, nous
abordons le mécanisme de comparaison de la couverture de deux itemsets et nous
présentons lemécanisme d'évaluationdu niveau d'intérêt.Pour nir, nous donnons
un récapitulatifde la méthode ainsi quel'algorithme quilui est associé.
Dénition 7.5 (Items comparables)
Onditquedeuxitemssontcomparabless'ilexisteunerelationdansl'ontologieentre
leurs valeurs.
Dénition 7.6 (Itemsets comparables)
On ditqu'un itemset
I1
est comparableà un itemsetI2
s'il existeau moinsun item deI1
comparableà un item deI2
.Dénition 7.7 (Règles comparables)
Soit
R1
une règle du type :A1
→ C1
. SoitR2
une règle du type :A2
→ C2
.On ditque deux règles R1 etR2 sont comparables si:
• A1
est comparable àA2
et• C1
est comparable àC2
Danslasection2.4.1nousavonsprésentéleformalismeconcernantlesrèglesd'as-
sociation.Celanous permetd'introduireladénitionde lacouvertured'un itemset.
Dénition 7.8 (Couverture d'un itemset)
Soit un contexte d'extraction de règles d'association
B = (T , I, R)
. La couverture d'un itemsetI ⊆ I
,notéef (I)
, estl'ensembledes tuplesT ⊆ B
contenantI.On dit d'un tupleT
def (I)
qu'ilest couvert parI
.7.3.1 Comparaison de la couverture des itemsets
Notation 7.1
Nous appelons couverture d'un itemset
I
, et onnotef (I)
, l'ensemble des tuples de la base de données contenantI
.Notation 7.2
Nous notons
E \ F
ladiérence ensembliste entre deux ensemblesE
etF
et|E|
le cardinalde l'ensembleE
.Dénition 7.9 (Couvertures similaires)
Deux itemsets
I1
etI2
ont une couverture similairesi :• |f (I1) \ f (I2)| < δ |f (I1)|
• |f (I2) \ f (I1)| < δ |f (I2)|
où
δ ∈
[0,1]estuncoecientpermettantdedénirunseuilau-delàduquellenombre d'exemplesdef (I2)
n'appartenantpasàf (I1)
esttropgrand.Onnotef (I1) ∼ f (I2)
.f (I1)
f (I
2)
Fig.7.3: Couverture des itemsets lorsque
f (I1) ∼ f (I2)
Comme onpeut levoirsur la gure 7.3,
I1
aune couverture similaire àI2
si:•
Lenombred'exemples couverts uniquementparI1
est négligeablepar rapport aunombre total d'exemples couverts parI1
,•
Lenombred'exemples couverts uniquementparI2
est négligeablepar rapport aunombre total d'exemples couverts parI2
.Enn, la notion de négligeable est dénie par le coecient
δ
paramétrablepar l'utilisateur en fonction des données.Dénition 7.10 (Couverture plus étendue)
Un itemset
I1
a une couverture plus étendue qu'un itemsetI2
si: 1.|f (I1) \ f (I2)| ≥ δ |f (I1)|
,2.
|f (I2) \ f (I1)| < δ |f (I2)|
.où
δ ∈
[0,1]estuncoecientpermettantdedénirunseuilau-delàduquellenombre d'exemplesdef (I2)
n'appartenantpasàf (I1)
est tropgrand.Onnotef (I1) Bf (I2)
.f (I1)
f (I2)
a)
f(I1) B f (I2)
f (I1)
f (I
2)
b)
f(I1) C f (I2)
Fig. 7.4: Comparaisonde lacouverture des itemsetsI1
etI2
•
Lenombre d'exemples couverts uniquement parI1
est importantpar rapportaunombre total d'exemples couverts par
I1
•
Lenombre d'exemples couverts uniquementparI2
est négligeableparrapportaunombre total d'exemples couverts par
I2
On peut souligner que cette dénition introduit une notiond'égalité approximative
entre couvertures, moinsrigide que l'égalitéstricte.
Remarque 7.1 Sil'inégalité
f (I1)Bf (I2)
estfaussecelan'impliquepasquef (I1) E f (I2)
soit vraiecar les couvertures des itemsetspeuvent être incomparables.Dénition 7.11 (Couvertures incomparables)
On ditque deux itemsets
I1
etI2
ontune couverture incomparablesi : 1.|f (I1) \ f (I2)| ≥ δ |f (I1)|
2.
|f (I2) \ f (I1)| ≥ δ |f (I2)|
où
δ ∈
[0,1]estuncoecientpermettantdedénirunseuilau-delàduquellenombre d'exemplesdef (I2)
n'appartenantpasàf (I1)
esttropgrand.Onnotef (I1) f(I2)
.f (I1)
f (I
2)
Fig. 7.5: Couverture des itemsets lorsque
f (I1) f(I2)
Lagure 7.5 illustrele cas oùles couvertures de
I1
etI2
sont incomparables: le nombre d'exemples couverts par l'intersection de leurs couverturesf (I1) ∩ f (I2)
estfaiblepar rapportà leurs tailles respectives.
7.3.2 Comparaison des règles
L'objectif de l'approche KEOPS est de confronter les règles aux connaissances
an d'évaluer leur intérêt. Cependant dans la phase de comparaison des règles il
n'est pas encore nécessaire de distinguer la nature des règles. Nous avons introduit
précédemmentdescritèresdecomparaisondelacouverturededeux itemsets.Ceux-
ci peuvent être appliqués aux antécédents et aux conséquents de deux règles et
permettent d'évaluer leur niveau de généralisation respectif.
Dans lebut de comparer deux règles nous reprenons leparadigmequi aconduit
au développement de l'algorithme CLOSE, c'est-à-dire la maximisation du niveau
d'information. Dans cette section nous présentons une méthode an de comparer
lesniveaux d'informationde deux règles,en tenant comptedes aspects sémantiques
liant les items des règles tandis que CLOSE a permis lors de la fouille de données
de prendre en compte lesaspects syntaxiques.
Nousnous basonssur l'axiomesuivant:Plusla condition d'unerègleest restric-
tive et plus laprédictionest large plus leniveau d'information de larègleaugmente.
Dans notre contexte cet axiome se traduit par lefait que lacouverture de l'antécé-
dent d'une règle doit être minimal tandis que lacouverture de son conséquent doit
être maximal.
Dénition 7.12 (Niveau d'information supérieur / inférieur)
Pour deux règles comparables
R1
etR2
,R1
possède un niveau d'information supé- rieur àR2
dans lessituationssuivantes :• f (A1) E f (A2)
etf (C1) B f (C2)
• f (A1) C f (A2)
etf (C1) ∼ f (C2)
Dénition 7.13 (Niveaux d'information similaires)
On dit que les niveaux d'information de deux règles comparables
R1
etR2
sont similaires lorsque les couvertures respectives de leurs antécédents et conséquentssont similaires.
Dénition 7.14 (Niveaux d'information non comparables)
Si deux règles
R1
: A1
→ C1
etR2
: A2
→ C2
sont non comparables ou si les couvertures de leurs antécédents et conséquents sont non comparables on dit queExemple 7.4
Considérons la connaissance C et la règle extraite R, données ci-dessous. Si l'on
compare leur syntaxe on remarque que leur conséquent est identique et que leur
antécédent, bien que constitué des mêmes concepts-attributs, est diérent. Étant
donné que les concepts-valeurs de chacune des règles sont en relation de généra-
lisation, les deux règles sont bien comparables. Cependant le sens de la relation
de généralisation n'est pas le même entre antécédents et conséquents, c'est-à-dire
que le concept-valeur Rhône-Alpes de la connaissance Cest plus généralque le
concept-valeur Grenoble de larègle Rtandis queleconcept-valeur Prestation
Logement de la règle R est plus général que le concept-valeur APL de la
connaissance C. Ainsicet exempleillustre bien le fait que,selon ladistribution des
valeursdanslesdonnées, l'une oul'autredes règlessera plus informativeausens où
nous l'avons déni.
Connaissance C
Localisation CAF = "Rhône-Alpes"
∧
Prestation = "APL"→
Motif Contact = "Paiement"Règle R
LocalisationCAF ="Grenoble"
∧
Prestation ="PrestationLogement"→
Motif Contact = "Paiement"Remarque 7.2 Dans le cadre de cet exemple, {Grenoble,Hors-Grenoble} est le
sous-domaine de Rhône-Alpes et {APL,ALS} le sous-domaine de Prestation
Logement.
Nousétudions parlasuite lesconclusionsdiverses quipeuvent être obtenues sur
le niveau d'informationrespectifdes règles RetCselon lasituationrelativede leur
couverture.
Situation où la règle extraite est plus informative
Letableau7.1illustreunexemplevirtuelderépartitiondesallocatairesenfonction
du lieu de contact et du type de prestation logement qu'ils reçoivent. La gure 7.6
Grenoble Hors-Grenoble
APL 95 200
ALS 5
Tab. 7.1: Répartition des eectifs allocatairesen fonction du lieude contact et du
typede prestation
Rhone-Alpes + APL
Grenoble + PL
Hors-Grenoble + APL
Grenoble + APL
Grenoble + ALS
Fig. 7.6: Comparaisondes couvertures lorsque
f (C) B f (R)
Lacomparaisondesdeux règlesnousmontrequel'antécédentdelaconnaissance
a une couverture plus étendue que celle de l'antécédent de la règle extraite. De
plus nous savons que leurs conséquents sont identiques. Ainsi la connaissance Cde
l'utilisateurconsisteàdéduirelemêmeprédicatquelarègleRàpartirde conditions
pluscouvrantes.Onen déduitquelaconnaissanceestmoinsinformativequelarègle
extraite (voir dénition 7.12) qui dans le cas présent donne une information plus
précise.
Situation où la connaissance est plus informative
Le tableau 7.2 illustre un exemple virtuel de répartition diérente de la même
population selon les mêmes critères que le tableau 7.1. La gure 7.7 illustre cette
deuxième situationgraphiquement.
Lacomparaisondesdeux règlesnousmontrequel'antécédentdelaconnaissance
a une couverture plus restreinte que celle de l'antécédent de la règle extraite. De
plus nous savons que leurs conséquents sont identiques. Ainsi la connaissance Cde
l'utilisateurconsisteàdéduirelemêmeprédicatquelarègleRàpartirde conditions
Grenoble Hors-Grenoble
APL 95 5
ALS 200
Tab. 7.2: Répartition des eectifs allocataires en fonction du lieu de contact et du
type de prestation
Rhone-Alpes + APL
Grenoble + PL
Hors-Grenoble + APL
Grenoble + APL
Grenoble + ALS
Fig. 7.7: Comparaison des couvertures lorsque
f (C) C f (R)
extraite (voirdénition 7.12).
Situation où connaissance et règle extraite ont le même niveau d'infor-
mation
Le tableau 7.3 illustre un exemple virtuel de répartition diérente de la même
populationselon lesmêmescritèresquelestableaux 7.1et 7.2.Lagure 7.8illustre
la même situationgraphiquement.
Grenoble Hors-Grenoble
APL 95 5
ALS 5
Tab.7.3:Répartitiondeseectifsallocatairesenfonctiondesdiérentscritèresdans
la situationoù connaissanceet règle extraiteont le mêmeniveau d'information
Lacomparaisondes deuxrèglesnous montre quel'antécédentde laconnaissance
a une couverture similaire à l'antécédent de la règle extraite. De plus nous savons
Rhone-Alpes + APL
Grenoble + PL
Hors-Grenoble + APL
Grenoble + APL
Grenoble + ALS
Fig. 7.8: Comparaison des couvertures dans la situation où connaissance et règle