La règle générée a un indice de conance plus élevé que la

7.4 Évaluation de l'intérêt d'une règle en fonction des connaissances

7.4.3 La règle générée a un indice de conance plus élevé que la

connaissance . . . 130

7.4.4 Laconnaissance aun indicede conanceplusélevé quela

règle générée . . . 131

7.1 Motivations

Les algorithmes de fouille de données peuvent générer dans certains cas un

nombre important de modèles selon les données fournies et les paramètres dé-

nis pour l'extraction. Une étapeessentielle de la fouillede données est donc l'étape

de post-traitement lors de laquelle les modèles sont réduits pour ne conserver que

lesconnaissances lesplusintéressantes. Des approches de diérentes naturesontété

proposées : il peut s'agir d'éliminerles redondances au sein des modèles, de ltrer

les meilleurs modèles selon un certain seuil pour une mesure de qualité donnée ou

selon un des critères subjectifs présentés dans lechapitre 3.

Dans l'approche KEOPS, nous caractérisons l'intéressabilité d'un modèle selon

quatre critères:

1. L'intelligibilité,

2. La taille des modèles an de ne pas présenter simultanément un trop grand

nombre de motifsà l'utilisateur,

3. La facilitéde confrontation avec laconnaissanceapriori an d'éviteràl'utili-

sateur l'obligationd'eectuer des transformationslogiques trop complexes ou

trop nombreuses pour conrmer ses intuitions,

4. La personnalisation an de ne fournir à un utilisateur que les règles intéres-

santes en fonction de ses connaissances et de ses centres d'intérêts.

Le critère d'intelligibilité est une constante dans la plupart des travaux sur ce

sujet ce qui justie le choix de modèles sous la forme de règles de causalité si ...

alors ... du même type que les règles d'association. Les règles d'association ainsi

quelesmesuresstatistiquesnécessairesandelesinterprétercorrectement(support,

conance et lift) ont, en eet, l'avantage d'être facilement compréhensibles par un

utilisateur non expert. Ainsi nous supposons donc être en mesure d'exprimer les

connaissances du domaine dans ce format.

Poursatisfairelesecondcritère,nousutilisonsenpremierlieul'algorithmeCLOSE

quiassurequ'aucune redondancesyntaxiquene soitgénérée.Ensuite,nousétendons

le concept de maximisation du niveau d'information en prenant en compte toutes

les relationsde généralisationdéniesdans l'ontologie.

La structure du système d'information conceptuel et l'utilisation de la base de

connaissances permettentderespecterletroisièmeetlequatrièmecritère.Nouspro-

an d'évaluer l'intérêt desrègles en fonctiondes connaissances déniesdansla base

de connaissances par un utilisateur.

Dans le cadre de ce chapitre où nous nous intéressons à des motifs sous forme

de règles d'association, nous employons par abus de langage le terme d'attribut

pour désigner un concept-attribut et de valeur pour désigner un concept-valeur au

sein d'une règle. Cet abus de langage se justie par le fait qu'un unique concept-

attribut (respectivement concept-valeur) est associé à un attribut (respectivement

une valeur) de laMODB.

Ce chapitre est organisé de la manière suivante : dans la première partie nous

nous intéressons aux techniques pour éliminer les règles d'association redondantes,

la deuxième partie décrit notre approche pour l'évaluation relative du niveau d'in-

formation de deux règles et la troisième partie présente la mesure d'intérêt que

nous avons mise au point an d'évaluer la pertinence d'une règle en fonction des

connaissances.

7.2 Réduction du nombre de règles d'association

Il existe diérentes approches an de sélectionner les modèles les plus intéres-

sants à présenter à l'utilisateur. Les approches les plus simples sélectionnent les

n

meilleuresrèglesselonune mesured'intérêtouencoretouteslesrèglesdépassantun

seuil xé. Dans le chapitre 2 nous avons évoqué diérents critères de qualité pour

la création de mesures d'évaluation des règles extraites. Ces mesures permettent

de sélectionner lesrègles les plus intéressantes en xant un seuil minimal d'intérêt.

D'autres approches ont pour objectif de ltrer les règles redondantes comme par

exemple la méthode d'extraction basée sur les itemsets fermés fréquents présentée

en section2.4.1.2.Dans l'approche KEOPSle choixaété faitde sebaser sur l'algo-

rithmeCLOSEpourl'extractiondemotifsquisontensuitetraitésand'éliminerles

redondances d'originesémantique quine peuvent être identiées par l'algorithme.

7.2.1 Maximisation du niveau d'information

L'algorithme CLOSE [Pas00] permet d'extraire des règles d'association non re-

dondantes minimales.Dansce contexte, unerègle estdite redondantesielleconvoie

par une autre règle de même utilitéet de même pertinence.

7.2.2 Factorisation de règles d'association

L'approche KEOPS se fonde sur la dénition de règle d'association généralisée

présentée par Srikant [SA95] dans laquelle une règle d'association généralisée est

composéed'itemsorganisésen unetaxonomie

T

.Avantd'introduirenotredénition il est nécessaire de présenter certaines notions.

Dénition 7.1 (Chemin entre deux concepts)

On appelle chemin entre les concepts

C1

Cn

une suite de concepts

C1, C2, ..., Cn

dans laquelle deux concepts successifs quelconques

Ci

Ci+1

sont reliés par une relation orientée de

Ci

vers

Ci+1

Danslecadre delafactorisationdes donnéesons'intéresseplusparticulièrement

aux cheminscréésà partird'unemêmerelationde généralisationreliantun concept

à son ancêtre, onles appelle :chemin de généralisation.

Exemple 7.1

La gure 6.1 illustre un chemin composé d'une relation sémantique et de relations

de généralisationentre DomicileLyonetCAF Rhône-Alpes.Surlagure7.1

on peut observer un chemin de généralisation entre les concepts-valeurs

CV111

CV1

On rappellequ'un item est dénitpar un triplet{A,op,V} où :

•

A est un attribut du jeu de données,

•

opest un opérateurparmi <,

≤

, >,

≥

, =,

•

V est une valeur du domainede l'attribut. Dénition 7.2 (Généralisation d'un item)

Soit un item

IA

déni par un couple

(Att, V alA)

etun item

IB

déni par le couple

(Att, V alB)

On dit qu'un item

IA

généralise un item

IB

IA= IB

oubien s'ilexiste un chemin de généralisationde

V alB

vers

V alA

Exemple 7.2

CV1

CV2

CV22

CV21

CV13

CV12

CV11

CV111

CV112

CA

Fig.7.1: Undomaine etses sous-domaines

La notion de généralisationd'un item permet de dénir les règles d'association

généralisées. Ces règles, formées uniquement à partir des concepts d'une ontolo-

gie KEOPS, sont minimales dans le sens où elles excluent toute relation non

pertinente entre les concepts-valeurs de leurs items:

Dénition 7.3 (Règle d'association généralisée)

Soit

CA

CV

respectivement l'ensemble des concepts-attributs et des concepts- valeurs d'une ontologieKEOPS.

Soit

I

l'ensemble des items de la MODB créés à partirde

CA

CV

Une règle

R : A → C

est une règle d'associationgénéralisée si etseulement si:

• A ⊂ I

• C ⊂ I

•

Aucun item de

A

ne généralise un autre item de

A

•

Aucun item de

C

ne généralise un item de

A

ouun autre item de

C

Lesseulesrelationsautoriséesentrelesitemsd'unerègled'associationgénéralisée

sont lesrelationssémantiques etles relationsde généralisation d'un itemde

C

vers un item de

A

. An de factoriser plusieurs règles d'association généralisées il est nécessaire de dénirentre elles une relationd'ordre :

L'étape de factorisation des règles consiste à combiner un ensemble de règles

proches en une nouvelle qui permet de toutes les résumer. Avant de la présenter

il est nécessaire de rappeler la notion de sous-domaine . Si l'on considère

CA

un concept-attribut et un ensemble de concepts-valeurs en relation valeurDe

avec

CA

dénissant un domaine

D

. Un concept-valeur

CV

D

est appelé un sous-domaine de

D

s'il existe un ensemble de concepts-valeurs

{CV1, . . . , CVn}

D

en relationde généralisationavec

CV

.On ditque

{CV1, . . . , CVn}

dénitlesous-

domaine

CV

Sur la gure 7.1 le domaine

D

CA

est représenté par

{CV1, CV2}

où

CV1

CV2

sont deux sous-domainesde

D

.Lesous-domaine

CV1

est déni quantà luipar l'ensemble

{CV11, CV12, CV13}

ou encore par

{CV111, CV112, CV12, CV13}

. La gure 7.2 représentelesous-domainePrestation Action Socialetandisquelagure6.1

du chapitre6représentelessous-domainesPrestation LogementetPrestation

Entretien.

Dénition 7.4 (Factorisation de règles)

Soit un ensemble de règles

E = {R1, . . . , Rn}

telque :

∀i ∈ {1, n} Ri

: att1

= val(i,1), . . . , attp

= val(i,p)

→ attp+1

= val(i,p+1), . . . , attq

= val(i,q)

On ditque l'ensemble

E

se factorise en une seule règle

R

de laforme :

R : att1

= val1, . . . , attp

= valp

→ attp+1

= valp+1, . . . , attq

= valq

si :

∀j ∈ {1, q} {val1,j, . . . , valn,j}

dénitle sous-domaine

valj

ou bien si :

∀r ∈ {1, q} val(r,j)

= valj

Exemple 7.3

Considérons l'ontologie simpliée illustrée par la gure 7.2. Les règles 7.2, 7.3, 7.4

ne peuvent sefactoriseren larègle7.1 car lesconcepts-valeurs BAFA , PAH

et PEL ne dénissent pas complètement le sous-domaine Prestation Action

Sociale.Toutefois,dès lorsquelarègle7.5apparaitildevientpossibledefactoriser

l'ensembledesrègles.BienentendudansnotreexempleLyonetGrenoble dénissent

le sous-domaine Rhône-Alpes ce qui ne reète pas la situationréelle.

Règle 7.1

Localisation CAF="Rhône-Alpes"

∧

Prestation="Prestation Action Sociale"

→

Heure Arrivée="Matin"

Prestation Action Sociale

VAC

Prestation

PAH

PEL

BAFA

Fig. 7.2: Le sous-domaine Prestation Action Sociale dans une ontologie dédiée

aucontact allocataire

Règle 7.2

LocalisationCAF="Grenoble"

∧

Prestation="BAFA"

→

Heure Arrivée="Matin"

Règle 7.3

LocalisationCAF="Grenoble"

∧

Prestation="PAH"

→

Heure Arrivée="Matin"

Règle 7.4

LocalisationCAF="Grenoble"

∧

Prestation="PEL"

→

Heure Arrivée="Matin"

Règle 7.5

LocalisationCAF="Lyon"

∧

Prestation="VAC"

→

Heure Arrivée="Matin"

7.3 Évaluation relative des niveaux d'informations

Un des objectifs de l'approche KEOPS est de confronter lesmotifs extraits par

lestechniquesde fouillesdedonnéesauxconnaissancesdéjàacquisessurledomaine.

Laconfrontationnécessitede disposerde critèresde comparaison:unde cescritères

est de comparer le niveau d'information de chaque règle aux connaissances. Étant

donnéqu'une ontologieKEOPS peut dénirde nombreuses relationspouvant relier

les diérents items d'une règle de manières diérente, une comparaison syntaxique

aboutirait à la nécessité d'associer à chacun des concepts un poids an de pouvoir

d'informationdedeuxrèglesendeuxétapes:lapremièreconsisteàcomparerlescou-

verturesdes antécédentsetdes conséquents desdeux règles, etladeuxièmeconsiste

à évaluer leniveau d'informationen seconformant auprincipede maximisationdu

niveau d'information. Nous dénissons également la notion de comparabilité

de deux règles qui est basée sur l'existence d'un lien quelconque dans l'ontologie

entre leurs items respectifs. Dans cette section nous dénissons cette notion, nous

abordons le mécanisme de comparaison de la couverture de deux itemsets et nous

présentons lemécanisme d'évaluationdu niveau d'intérêt.Pour nir, nous donnons

un récapitulatifde la méthode ainsi quel'algorithme quilui est associé.

Dénition 7.5 (Items comparables)

Onditquedeuxitemssontcomparabless'ilexisteunerelationdansl'ontologieentre

leurs valeurs.

Dénition 7.6 (Itemsets comparables)

On ditqu'un itemset

I1

est comparableà un itemset

I2

s'il existeau moinsun item de

I1

comparableà un item de

I2

Dénition 7.7 (Règles comparables)

Soit

R1

une règle du type :

A1

→ C1

. Soit

R2

une règle du type :

A2

→ C2

On ditque deux règles R1 etR2 sont comparables si:

• A1

est comparable à

A2

• C1

est comparable à

C2

Danslasection2.4.1nousavonsprésentéleformalismeconcernantlesrèglesd'as-

sociation.Celanous permetd'introduireladénitionde lacouvertured'un itemset.

Dénition 7.8 (Couverture d'un itemset)

Soit un contexte d'extraction de règles d'association

B = (T , I, R)

. La couverture d'un itemset

I ⊆ I

,notée

f (I)

, estl'ensembledes tuples

T ⊆ B

contenantI.On dit d'un tuple

T

f (I)

qu'ilest couvert par

I

7.3.1 Comparaison de la couverture des itemsets

Notation 7.1

Nous appelons couverture d'un itemset

I

, et onnote

f (I)

, l'ensemble des tuples de la base de données contenant

I

Notation 7.2

Nous notons

E \ F

ladiérence ensembliste entre deux ensembles

E

F

|E|

le cardinalde l'ensemble

E

Dénition 7.9 (Couvertures similaires)

Deux itemsets

I1

I2

ont une couverture similairesi :

• |f (I1) \ f (I2)| < δ |f (I1)|

• |f (I2) \ f (I1)| < δ |f (I2)|

où

δ ∈

[0,1]estuncoecientpermettantdedénirunseuilau-delàduquellenombre d'exemplesde

f (I2)

n'appartenantpasà

f (I1)

esttropgrand.Onnote

f (I1) ∼ f (I2)

f (I1)

_{f (I}

2)

Fig.7.3: Couverture des itemsets lorsque

f (I1) ∼ f (I2)

Comme onpeut levoirsur la gure 7.3,

I1

aune couverture similaire à

I2

si:

•

Lenombred'exemples couverts uniquementpar

I1

est négligeablepar rapport aunombre total d'exemples couverts par

I1

•

Lenombred'exemples couverts uniquementpar

I2

est négligeablepar rapport aunombre total d'exemples couverts par

I2

Enn, la notion de négligeable est dénie par le coecient

δ

paramétrablepar l'utilisateur en fonction des données.

Dénition 7.10 (Couverture plus étendue)

Un itemset

I1

a une couverture plus étendue qu'un itemset

I2

si: 1.

|f (I1) \ f (I2)| ≥ δ |f (I1)|

|f (I2) \ f (I1)| < δ |f (I2)|

où

δ ∈

[0,1]estuncoecientpermettantdedénirunseuilau-delàduquellenombre d'exemplesde

f (I2)

n'appartenantpasà

f (I1)

est tropgrand.Onnote

f (I1) Bf (I2)

f (I1)

_{f (I}₂₎

f(I1) B f (I2)

f (I1)

_{f (I}

2)

f(I1) C f (I2)

Fig. 7.4: Comparaisonde lacouverture des itemsets

I1

I2

•

Lenombre d'exemples couverts uniquement par

I1

est importantpar rapport

aunombre total d'exemples couverts par

I1

•

Lenombre d'exemples couverts uniquementpar

I2

est négligeableparrapport

aunombre total d'exemples couverts par

I2

On peut souligner que cette dénition introduit une notiond'égalité approximative

entre couvertures, moinsrigide que l'égalitéstricte.

Remarque 7.1 Sil'inégalité

f (I1)Bf (I2)

estfaussecelan'impliquepasque

f (I1) E f (I2)

soit vraiecar les couvertures des itemsetspeuvent être incomparables.

Dénition 7.11 (Couvertures incomparables)

On ditque deux itemsets

I1

I2

ontune couverture incomparablesi : 1.

|f (I1) \ f (I2)| ≥ δ |f (I1)|

|f (I2) \ f (I1)| ≥ δ |f (I2)|

où

δ ∈

[0,1]estuncoecientpermettantdedénirunseuilau-delàduquellenombre d'exemplesde

f (I2)

n'appartenantpasà

f (I1)

esttropgrand.Onnote

f (I1) f(I2)

f (I1)

_{f (I}

2)

Fig. 7.5: Couverture des itemsets lorsque

f (I1) f(I2)

Lagure 7.5 illustrele cas oùles couvertures de

I1

I2

sont incomparables: le nombre d'exemples couverts par l'intersection de leurs couvertures

f (I1) ∩ f (I2)

est

faiblepar rapportà leurs tailles respectives.

7.3.2 Comparaison des règles

L'objectif de l'approche KEOPS est de confronter les règles aux connaissances

an d'évaluer leur intérêt. Cependant dans la phase de comparaison des règles il

n'est pas encore nécessaire de distinguer la nature des règles. Nous avons introduit

précédemmentdescritèresdecomparaisondelacouverturededeux itemsets.Ceux-

ci peuvent être appliqués aux antécédents et aux conséquents de deux règles et

permettent d'évaluer leur niveau de généralisation respectif.

Dans lebut de comparer deux règles nous reprenons leparadigmequi aconduit

au développement de l'algorithme CLOSE, c'est-à-dire la maximisation du niveau

d'information. Dans cette section nous présentons une méthode an de comparer

lesniveaux d'informationde deux règles,en tenant comptedes aspects sémantiques

liant les items des règles tandis que CLOSE a permis lors de la fouille de données

de prendre en compte lesaspects syntaxiques.

Nousnous basonssur l'axiomesuivant:Plusla condition d'unerègleest restric-

tive et plus laprédictionest large plus leniveau d'information de larègleaugmente.

Dans notre contexte cet axiome se traduit par lefait que lacouverture de l'antécé-

dent d'une règle doit être minimal tandis que lacouverture de son conséquent doit

être maximal.

Dénition 7.12 (Niveau d'information supérieur / inférieur)

Pour deux règles comparables

R1

R2

R1

possède un niveau d'information supé- rieur à

R2

dans lessituationssuivantes :

• f (A1) E f (A2)

f (C1) B f (C2)

• f (A1) C f (A2)

f (C1) ∼ f (C2)

Dénition 7.13 (Niveaux d'information similaires)

On dit que les niveaux d'information de deux règles comparables

R1

R2

sont similaires lorsque les couvertures respectives de leurs antécédents et conséquents

sont similaires.

Dénition 7.14 (Niveaux d'information non comparables)

Si deux règles

R1

: A1

→ C1

R2

: A2

→ C2

sont non comparables ou si les couvertures de leurs antécédents et conséquents sont non comparables on dit que

Exemple 7.4

Considérons la connaissance C et la règle extraite R, données ci-dessous. Si l'on

compare leur syntaxe on remarque que leur conséquent est identique et que leur

antécédent, bien que constitué des mêmes concepts-attributs, est diérent. Étant

donné que les concepts-valeurs de chacune des règles sont en relation de généra-

lisation, les deux règles sont bien comparables. Cependant le sens de la relation

de généralisation n'est pas le même entre antécédents et conséquents, c'est-à-dire

que le concept-valeur Rhône-Alpes de la connaissance Cest plus généralque le

concept-valeur Grenoble de larègle Rtandis queleconcept-valeur Prestation

Logement de la règle R est plus général que le concept-valeur APL de la

connaissance C. Ainsicet exempleillustre bien le fait que,selon ladistribution des

valeursdanslesdonnées, l'une oul'autredes règlessera plus informativeausens où

nous l'avons déni.

Connaissance C

Localisation CAF = "Rhône-Alpes"

∧

Prestation = "APL"

→

Motif Contact = "Paiement"

Règle R

LocalisationCAF ="Grenoble"

∧

Prestation ="PrestationLogement"

→

Motif Contact = "Paiement"

Remarque 7.2 Dans le cadre de cet exemple, {Grenoble,Hors-Grenoble} est le

sous-domaine de Rhône-Alpes et {APL,ALS} le sous-domaine de Prestation

Logement.

Nousétudions parlasuite lesconclusionsdiverses quipeuvent être obtenues sur

le niveau d'informationrespectifdes règles RetCselon lasituationrelativede leur

couverture.

Situation où la règle extraite est plus informative

Letableau7.1illustreunexemplevirtuelderépartitiondesallocatairesenfonction

du lieu de contact et du type de prestation logement qu'ils reçoivent. La gure 7.6

Grenoble Hors-Grenoble

APL 95 200

ALS 5

Tab. 7.1: Répartition des eectifs allocatairesen fonction du lieude contact et du

typede prestation

Rhone-Alpes + APL

Grenoble + PL

Hors-Grenoble + APL

Grenoble + APL

Grenoble + ALS

Fig. 7.6: Comparaisondes couvertures lorsque

f (C) B f (R)

Lacomparaisondesdeux règlesnousmontrequel'antécédentdelaconnaissance

a une couverture plus étendue que celle de l'antécédent de la règle extraite. De

plus nous savons que leurs conséquents sont identiques. Ainsi la connaissance Cde

l'utilisateurconsisteàdéduirelemêmeprédicatquelarègleRàpartirde conditions

pluscouvrantes.Onen déduitquelaconnaissanceestmoinsinformativequelarègle

extraite (voir dénition 7.12) qui dans le cas présent donne une information plus

précise.

Situation où la connaissance est plus informative

Le tableau 7.2 illustre un exemple virtuel de répartition diérente de la même

population selon les mêmes critères que le tableau 7.1. La gure 7.7 illustre cette

deuxième situationgraphiquement.

Lacomparaisondesdeux règlesnousmontrequel'antécédentdelaconnaissance

a une couverture plus restreinte que celle de l'antécédent de la règle extraite. De

plus nous savons que leurs conséquents sont identiques. Ainsi la connaissance Cde

l'utilisateurconsisteàdéduirelemêmeprédicatquelarègleRàpartirde conditions

Grenoble Hors-Grenoble

APL 95 5

ALS 200

Tab. 7.2: Répartition des eectifs allocataires en fonction du lieu de contact et du

type de prestation

Rhone-Alpes + APL

Grenoble + PL

Hors-Grenoble + APL

Grenoble + APL

_{Grenoble + ALS}

Fig. 7.7: Comparaison des couvertures lorsque

f (C) C f (R)

extraite (voirdénition 7.12).

Situation où connaissance et règle extraite ont le même niveau d'infor-

mation

Le tableau 7.3 illustre un exemple virtuel de répartition diérente de la même

populationselon lesmêmescritèresquelestableaux 7.1et 7.2.Lagure 7.8illustre

la même situationgraphiquement.

Grenoble Hors-Grenoble

APL 95 5

ALS 5

Tab.7.3:Répartitiondeseectifsallocatairesenfonctiondesdiérentscritèresdans

la situationoù connaissanceet règle extraiteont le mêmeniveau d'information

Lacomparaisondes deuxrèglesnous montre quel'antécédentde laconnaissance

a une couverture similaire à l'antécédent de la règle extraite. De plus nous savons

Rhone-Alpes + APL

Grenoble + PL

Hors-Grenoble + APL

Grenoble + APL

_{Grenoble + ALS}

Fig. 7.8: Comparaison des couvertures dans la situation où connaissance et règle

Dans le document Intégration de connaissances expertes dans le processus de fouille de données pour l'extraction d'informations pertinentes (Page 124-150)

La règle générée a un indice de conance plus élevé que la

7.4 Évaluation de l'intérêt d'une règle en fonction des connaissances

7.4.3 La règle générée a un indice de conance plus élevé que la

n

T

C1

Cn

C1, C2, ..., Cn

Ci

Ci+1

Ci

Ci+1

CV111

CV1

•

•

≤

≥

•

IA

(Att, V alA)

IB

(Att, V alB)

IA

IB

IA= IB

V alB

V alA

CV1

CV2

CV22

CV21

CV13

CV12

CV11

CV111

CV112

CA

CA

CV

I

CA

CV

R : A → C

• A ⊂ I

• C ⊂ I

•

A

A

•

C

A

C

C

A

CA

CA

D

CV

D

D

{CV1, . . . , CVn}

D

CV

{CV1, . . . , CVn}

CV

D

CA

{CV1, CV2}

CV1

CV2

D

CV1

{CV11, CV12, CV13}

{CV111, CV112, CV12, CV13}

E = {R1, . . . , Rn}

∀i ∈ {1, n} Ri

: att1

= val(i,1), . . . , attp

= val(i,p)

La règle générée a un indice de conance plus élevé que la

7.4.3 La règle générée a un indice de conance plus élevé que la

_{f (I}