Intégration de connaissances expertes dans le processus de fouille de données pour l'extraction d'informations pertinentes

(1)

HAL Id: tel-00211946

https://tel.archives-ouvertes.fr/tel-00211946

Submitted on 22 Jan 2008

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

de fouille de données pour l’extraction d’informations

pertinentes

Laurent Brisson

To cite this version:

Laurent Brisson. Intégration de connaissances expertes dans le processus de fouille de données pour

l’extraction d’informations pertinentes. Interface homme-machine [cs.HC]. Université Nice Sophia

Antipolis, 2006. Français. �tel-00211946�

(2)

ÉCOLE DOCTORALE

SCIENCES ET TECHNOLOGIES DE L'INFORMATION ET DE LA

COMMUNICATION

THÈSE

pour obtenirle titre de

DOCTEUR EN SCIENCES

de l'université de Nice- Sophia Antipolis

Spécialité : INFORMATIQUE

présentée par etsoutenue par

Laurent BRISSON

Intégration de connaissances expertes dans le processus de

fouille de données pour l'extraction d'informations

pertinentes

Thèse dirigéepar Martine COLLARD

soutenue le13décembre 2006 devant lejury :

Michel RIVEILL,Professeur,UNSA Président

OscarPASTOR,Professeur,UniversitadPolitécnicadeValencia Rapporteur

Jean-Marie PINON,Professeur,INSAdeLyon Rapporteur

JérômeAZÉ,MaîtredeConférences,UniversitéParisXI Examinateur

EngelbertMEPHU NGUIFO,MaîtredeConférences(HDR), Universitéd'Artois Examinateur

MartineCOLLARD, MaîtredeConférences(HDR),UNSA Directeurdethèse

Pierre BOURGEOT,DirecteurduCERTIAM/CNEDI deSophiaAntipolis Membreinvité

(3)

(4)

Cette thèse a été nancée par une Convention Industrielle de Formationpar la

Recherche (CIFRE)avec leCERTIAM/CNEDIdeSophia-Antipolis.Cetravailaété

réaliséausein del'équipeEXeCO du laboratoireInformatique SignauxetSystèmes

de SophiaAntipolis(I3S,UMRUNSA/CNRS) etduCERTIAM/CNEDI de Sophia

Antipolis.

Je tiens en tout premier lieu à remercier ma directrice de thèse Mme Martine

COLLARD, pour laconance qu'elle m'a témoignée tout au long de ces années de

travail, sagrande disponibilité auquotidien etses précieuxconseils.

Je remercie M.Pierre BOURGEOT etM.Jacques FAVEEUW pour m'avoir

ac-cueilliauCNEDIetrassemblétouteslesconditionsnécessairesàlaréussitede cette

thèse aussi bien dans le cadre de l'entrepriseque dans celui de la recherche.

JeremercieM.CyrilleBROILLIARD,M.HuguesSANIEL,M.HusseinCHAMI,

MmeMarie-HélèneBARON-ROYER etlesmembres du BGPEOde Grenoble pour

leur collaborationfructueuse.

Je remercie les professeurs Oscar PASTOR et Jean-Marie PINON pour

l'hon-neur qu'ils m'ontfait en acceptant d'être rapporteurs et pour toutes lesremarques

constructivesqu'ils ont formulées ausujet de mon manuscrit.

JeremercieleprofesseurMichelRIVEILLpourm'avoirfaitl'honneurdeprésider

ce jury.

Je remercie également M. Jérôme AZÉ M. Engelbert MEPHU NGUIFO qui

m'ontfait leplaisir de participerà ce jury.

JetienstoutparticulièrementàremercierM.Nicolas PASQUIER,pourletemps

qu'ila pu m'accorder tout aulong de ces trois années etla patience avec laquelle il

a répondu à mes nombreuses questions; nos discussions m'ont beaucoup appris.

(5)

MIRBELainsi quetous lesautresmembresde l'équipeEXeCOpour lesdiscussions

intéressantes que nous avons partagées lors de nos séminaires et le soutien qu'ils

m'ont apporté tout aulong de cettethèse.

Enn une pensée particulière à mes amis, Sylvie, Florian et Nepher ainsi qu'à

mes parents et mes frères pour le soutien et l'aide qu'ils m'ont apportés durant

mes études et sans qui ce travail n'aurait pas pu avoir lieu. Un dernier clien d'oeil

à Pistou et Pitchoun, qui n'ont jamais omis de me réveiller aux toutes premières

(6)

L'extraction automatique de connaissances àpartirdes données peut être

consi-dérée comme la découverte d'informations enfouies dans de très grands volumes

de données. Les approches actuelles, pour évaluer la pertinence des informations

extraites, se distinguent en deux catégories : les approches objectives qui mettent

en ÷uvre des mesures d'intérêt an d'évaluer les propriétés statistiques des

mo-dèles extraitsetlesapproches subjectives quiconfrontent lesmodèlesextraits àdes

connaissances exprimées sur le domaineet nécessitent généralement l'interrogation

d'experts. Toutefois, le choix de modèles pertinents en regard de la connaissance

métier d'un expert reste un problème ouvert et l'absence de formalisme dans

l'ex-pression des connaissances nuit à la mise au point de techniques automatiques de

confrontation des modèles permettant d'exploiter toute la richesse sémantique des

connaissances expertes.

L'approche KEOPS que nous proposons dans ce mémoire, répond à cette

pro-blématiqueen proposantuneméthodologiequiintègrelesconnaissances desexperts

d'un domainetoutaulong du processus de fouille.Un systèmed'information dirigé

paruneontologie(ODIS)joueunrôlecentraldanslesystèmeKEOPSenpermettant

d'organiser rationnellementnon seulementla préparationdes données mais aussi la

sélectionet l'interprétationdes modèles générés. Unemesure d'intérêtest proposée

an de prendre en compteles centres d'intérêt etle niveau de connaissancedes

ex-perts. Le choix des modèles les plus pertinents se base sur une évaluation à la fois

objectivepourévaluerlaprécisiondesmotifsetsubjectivepourévaluerl'intérêtdes

modèlespourlesexperts du domaine. Ennl'approche KEOPSfaciliteladénition

destratégiespouraméliorerleprocessusde fouillededonnéesdansletempsen

fonc-tion des résultatsobservés. Les diérents apports de l'approche KEOPS favorisent

l'automatisationdu processus de fouille de données, et ainsi, une dynamique

d'ap-prentissage peut être initiée pour obtenir un processus de fouille particulièrement

bienadaptéaudomaineétudié.KEOPSaétémiseen÷uvredanslecadredel'étude

de lagestion des relationsavec lesallocatairesausein des Caissesd'AllocationsF

a-miliales. L'objectif de cette étude a été d'analyser la relation de service rendu aux

allocataires an de fournir aux décideurs des connaissances précises, pertinentes et

utiles pour l'amélioration de ce service.

Mots-Clefs: Fouillededonnées,mesuresd'intérêt,ontologies,expressionde

(7)

1 Introduction 1

1.1 Problématique. . . 2

1.2 Contributions . . . 3

1.3 Organisationdu mémoire. . . 4

I État de l'art 5 2 Approches objectives pour l'extraction de connaissances 7 2.1 Introduction . . . 9

2.2 Critères de qualité . . . 10

2.2.1 Intelligibilitéet simplicité . . . 11

2.2.2 Critères liés autypedes motifsà extraire . . . 13

2.2.3 Critères liés auxpropriétés intrinsèquesdes mesures . . . 17

2.2.4 Critères liés au comportement des mesures en fonction des données . . . 20

2.2.5 Formalisationmatriciellede certainscritères . . . 22

2.2.6 Conclusion. . . 25

2.3 Travaux sur les mesures d'intérêt . . . 25

2.3.1 Agrégationde mesures . . . 25

2.3.2 Lanouveauté comme mesureunique . . . 26

2.3.3 Transformées anes de la conance . . . 27

2.3.4 Aideà la décision . . . 28

2.3.5 Conclusion. . . 29

2.4 Miseen ÷uvre des mesures dans lesalgorithmes . . . 29

2.4.1 Algorithmed'extraction de règles d'association. . . 30

2.4.2 Algorithmede recherche d'événements rares . . . 34

2.4.3 Approches évolutionnaires . . . 36

(8)

3 Approches subjectives pour l'extraction de connaissances 39

3.1 Intérêt subjectif . . . 40

3.2 Les patrons . . . 43

3.3 Les convictions . . . 44

3.3.1 La créationd'un ensemblede convictions . . . 44

3.3.2 Le processus de ranement . . . 45

3.4 Les attentes de l'utilisateur. . . 45

3.4.1 L'extraction de règles inattendues . . . 48

3.5 Les impressions générales . . . 48

3.5.1 Représentation des impressions générales . . . 48

3.5.2 Évaluationdes règles . . . 49

3.6 Les prédictions oues . . . 49

3.7 Conclusion . . . 50

4 Utilisation des connaissances en fouille de données 53 4.1 Expression formelle des connaissances . . . 54

4.1.1 Les langagesde représentation des connaissances. . . 54

4.1.2 Ontologies . . . 58

4.2 Les ontologiesen fouillede données . . . 64

4.2.1 Les ontologiesdans lecycle de vie CRISP-DM . . . 64

4.2.2 Un environnement de post-traitement intégrant laconnaissance 66 4.3 Conclusion . . . 66

II L'approcheKEOPS pourl'intégration desconnaissances au processus de fouille de données 69 5 Présentation générale de l'approche KEOPS 71 5.1 Introduction . . . 72

5.2 Rappeldes objectifs . . . 72

5.3 Présentation de laméthodologie . . . 73

5.4 Déploiement . . . 75

(9)

6 Expression des connaissances 79

6.1 Motivations . . . 80

6.2 Choix ontologiques . . . 81

6.2.1 Préambule . . . 81

6.2.2 Structure de l'ontologie . . . 81

6.2.3 Relationsentre concepts . . . 84

6.3 Lesystème d'information dirigé par une ontologie (ODIS). . . 89

6.3.1 Extractiond'ontologie àpartir des données . . . 89

6.3.2 Principes fondateurs pour lacréationde l'ODIS . . . 92

6.3.3 Méthode de construction . . . 95

6.3.4 Génération de jeux de données. . . 101

6.4 Labase de connaissances . . . 102

6.4.1 Lespropriétés des connaissances . . . 103

6.4.2 Structure de la base de connaissances . . . 105

7 Confrontation des modèles aux connaissances 109 7.1 Motivations . . . 110

7.2 Réduction du nombre de règles d'association . . . 111

7.2.1 Maximisationdu niveau d'information . . . 111

7.2.2 Factorisation de règles d'association . . . 112

7.3 Évaluationrelative des niveaux d'informations . . . 115

7.3.1 Comparaisonde lacouverture des itemsets . . . 116

7.3.2 Comparaisondes règles . . . 119

7.3.3 Émergence de règles inattendues. . . 123

7.3.4 Récapitulatif . . . 124

7.3.5 Algorithmes . . . 126

7.4 Évaluationde l'intérêtd'une règle en fonctiondes connaissances . . . 128

7.4.1 Méthode . . . 128

7.4.2 Larèglegénéréeetlaconnaissanceontdesindicesdeconance similaires . . . 129

7.4.3 La règle générée a un indice de conance plus élevé que la connaissance. . . 130

(10)

7.4.4 Laconnaissanceaunindicedeconanceplusélevéquelarègle

générée . . . 131

8 Stratégies et résultats 135 8.1 Stratégies en fouillede données . . . 136

8.1.1 Gestion de l'expérience . . . 136

8.1.2 Dimension temporelleen fouillede données . . . 137

8.2 Expérimentations avec l'approche KEOPS . . . 143

8.2.1 Caractéristiques du processus de fouille de données . . . 143

8.2.2 Sélection de règles intéressantes . . . 144

8.2.3 Mise en ÷uvre de stratégies . . . 149

9 Conclusion et Perspectives 161 9.1 Bilan . . . 161

(11)

2.1 Situationoùla conance est inférieure à1 . . . 12

2.2 Événement rare avec une conance égale à 1 . . . 12

2.3 Deux situationsdiérentes oùla conance est égale à 1 . . . 13

2.4 Permutationdes variables . . . 23

2.5 Miseà l'échelle des lignes etdes colonnes . . . 23

2.6 Permutationdes lignes . . . 24

2.7 Inversion . . . 24

2.8 Invariancelorsde l'ajout d'exemples vides . . . 24

2.9 Treillisdes itemsets associé aucontexte

D

. . . 32

2.10 Itemsets fréquents dans le treillisdes itemsets associé aucontexte

D

pour minsupport

= 2/6

. . . 33

3.1 Représentation des règles R1,R2, R3et R1'=R1 - (R2

∪

R3) . . . . 42

4.1 Exempled'utilisationd'unRDFSchemapourladescriptiondeclassez etde propriétés . . . 62

5.1 Approche KEOPS. . . 74

6.1 Extrait d'une ontologie sur la gestiondu contact allocatairedans les CAF . . . 83

6.2 RelationsvaleurDe (en bleu)au sein de l'ontologie . . . 86

6.3 Relationsde subsomption(en vert) au sein de l'ontologie . . . 87

6.4 Relations de généralisation (en vert pointillés) et relation d'équiva-lence (en violet)ausein de l'ontologie . . . 88

7.1 Undomaine etses sous-domaines . . . 113

7.2 Le sous-domaine Prestation Action Sociale dans une ontologie dédiéeau contact allocataire . . . 115

7.3 Couverturedes itemsetslorsque

f (I

1 ) ∼ f (I

2 )

. . . 117

7.4 Comparaisonde lacouverture des itemsets

I

1

et

I

2

. . . 118

(12)

7.6 Comparaison des couvertures lorsque

f (C) B f (R)

. . . 121 7.7 Comparaison des couvertures lorsque

f (C) C f (R)

. . . 122 7.8 Comparaison des couvertures dans la situation où connaissance et

règle extraite ont lemême niveau d'information . . . 123

8.1 Meilleuresrèglesapprisessur legroupePGetévaluéessurlesgroupes

RGet NG . . . 140

8.2 Meilleuresrèglesapprisessur legroupeCVDetévaluéessurlegroupe

NCVD . . . 141

8.3 Niveaux de conance relative entre les connaissances et leurs règles

associées . . . 145

8.4 Niveaux de support relatif entre les connaissances et leurs règles

as-sociées . . . 147

8.5 Niveaux de lift relatifentre les connaissances et leurs règles associées 148

8.6 Conance et liftdes règles extraites . . . 150

8.7 Conanceetliftdesconnaissancessélectionnéesparlesexperts parmi

les règles (en rouge)et des règles qui leurs sont associées (en bleu) . . 151

8.8 Conance et lift d'une connaissance (en rouge) extraite de la gure

8.7 etdes règles qui luisont associées (en bleu) . . . 153

8.9 Conance et liftdes règles extraiteslors de diérentes expériences . . 155

8.10 Conance et lift des connaissances exprimées par les experts en

lan-gage naturel (en rouge)et des règles qui leurs sont associées (en bleu) 156

8.11 Conance et lift d'une connaissance (en rouge) extraite de la gure

(13)

2.1 Illustrationdu paradoxe de Simpson:Taux de réussitedes étudiants

par groupe etpar concours . . . 17

2.2 Tabledecontingence2x2pourunerègle

A → B

extraitede[TKS02]: chaque

f

ij

représente une fréquence d'occurence dans les données. . . 22

2.3 Conance, abilité négative, sensibilité et spécicité exprimée sous leur formenormale,relative etrelative pondérée . . . 27

2.4 Contexte d'extraction de règles d'association

B

. . . 31

6.1 Attributs des tables d'origine . . . 94

6.2 Attributs non considérés pour l'étudedu contact allocataire . . . 96

6.3 Informations nécessaires à la création des concepts-attributs concer-nant les données des bornesinteractives (biw2004) . . . 98

6.4 Une valeur de la base de données d'origine peut être associée à plu-sieurs domaines (Exemple concernant lesbornesinteractives) . . . 99

6.5 Extrait de valeursde laMODB pour quelques attributs . . . 101

6.6 Exemple de jeu de données avec des concepts plus générauxpour les Prestations . . . 102

6.7 Exemple de jeu de données avec des concepts plus généraux pour l'heured'arrivée, la sélectiondes contacts par borne interactive etla suppression de la colonneRésultat. . . 102

7.1 Répartitiondes eectifsallocatairesen fonction du lieude contactet du type de prestation . . . 121

7.2 Répartitiondes eectifsallocatairesen fonction du lieude contactet du type de prestation . . . 122

7.3 Répartitiondeseectifsallocatairesen fonctiondesdiérentscritères danslasituationoùconnaissanceetrègleextraiteontlemêmeniveau d'information . . . 122

(14)

7.5 Indice d'intérêt dans le cas où règle générée et connaissance ont des

indices de conance similaires . . . 130

7.6 Indiced'intérêtdanslecasoùlarèglegénéréeaunindicedeconance

plus élevéque la connaissance . . . 131

7.7 Indiced'intérêtdanslecasoùlaconnaissanceaunindicedeconance

(15)

7.1 Fonctionsutilisées dans lesalgorithmes 7.2, 7.3et 7.4 . . . 126

7.2 Programme principal . . . 127

7.3 Calculd'une ensemble minimald'itemsets . . . 127

(16)

Chapitre

1

Introduction Sommaire 1.1 Problématique . . . 2 1.2 Contributions . . . 3 1.3 Organisation du mémoire . . . 4

L'extraction automatique de connaissances àpartirdes données peut être

consi-dérée comme ladécouverte d'informations enfouies dans de très grands volumes de

données. Ces informations,selonlatâche eectuée etlesalgorithmesmisen ÷uvre,

sontexpriméessouslaformede modèlesoudemotifs.Handetal.dénissentun

mo-dèle relativement à une structure globale qui couvre toutes les données alors qu'un

motif correspond à une description d'une partie de l'espace de données [HSM01].

Parmi les modèles on peut considérer les arbres de décision résultant d'une

clas-sication supervisée ou les clusters en classication non supervisée tandis que les

motifs sont souvent exprimés sous la forme de règles, par exemple dans le cas de

larecherche d'associations.Bienque l'approche proposée dans cette thèsesoit mise

en ÷uvre pour la recherche de motifs exprimés sous forme de règles d'association,

elleest égalementadaptée à larecherche d'autres formes de motifsetmodèles.Une

diérence essentielle entre les techniques statistiques et les techniques de fouillede

données réside dans le fait que ces dernières visent à construire les modèles de

fa-çon automatique, sans formuler d'hypothèses sur les relations liant les données et

en évitant ainsi de recourir à un expert. Cependant nous pouvons constater que

les approches actuelles ne permettent pas de s'abstraire de la présence d'un expert

du domaine pour sélectionner des résultats réellement intéressants et utilisables.

Les indicespermettant de caractériser lapertinence des informationsextraites sont

traditionnellement séparés en deux classes : les indices objectifs d'une part, et les

(17)

1.1 Problématique

Les approches objectives mettent en ÷uvre des mesures d'intérêt an d'évaluer

la précision des modèles extraits. Les nombreux travaux menés sur l'optimisation

des algorithmesd'extractionontaboutiàdes solutionsperformantesfournissantdes

modèles plus concis etplus ables. Cependant, dans lecadre d'un domaine donné,

il demeure toujours assez dicilede choisir des modèles pertinents en regard de la

connaissance métier d'un expert. De nombreuses approches dénissent des critères

de qualité guidant le choix d'une mesure ou d'un ensemble de mesures; toutefois,

la communauté n'est pas parvenue actuellement à un consensus sur le choix d'un

ensembledemesuresadéquates.Uneméthoded'aideàladécisionaétéproposéean

d'assister lesexperts dans lechoixd'une mesure adaptée à une situationdonnée.

Les approches subjectives, quand à elles, se sont focalisées sur des mécanismes

interactifsnécessitantl'interrogationd'experts dudomaineavantdepouvoirévaluer

les modèles extraits par les techniques de fouille. Elles se basent par exemple sur

l'expression de patrons qui modélisent les attentes et les connaissances des experts

etquisontensuiteconfrontés auxmodèlesextraitsgrâceàdes mesuresde similarité

prenant parfois en compte des relations taxonomiques. Ces approches demeurent

limitées car elles mélangent lesconnaissances explicites des experts (cellesqui sont

formulées et apparaissent sous forme de documents tangibles) et les connaissances

tacites,quirelèventplusdusavoir-faireetquidemeurentparfoisincertaines.D'autre

part l'absence de formalisme au niveau de l'expression des connaissances empêche

la mise au point de techniques automatiques de confrontation des modèles et des

connaissances qui pourraient proter de toute la richesse sémantique des

connais-sances des experts.

Avecledéveloppementdestechniquesdegestionetdereprésentationdes

connais-sancesilapparaîtplusaisé d'intégrerauprocessusdefouillededonnéesdes

connais-sancessémantiquementriches:lesontologies,parexemple,quiformalisentla

connais-sance et apportent un support exploitable de manière automatisée. Toutefois, à la

diérence des ontologies du domaine, les ontologiesà dénir pour la fouillede

don-nées doivent également contenir les connaissances nécessaires à la réalisation de la

tâche de fouille de données : ce sont des ontologies d'application. L'utilisation de

ce type d'ontologie tout au long du processus de fouille de données apparaît donc

(18)

Par ailleurs, un processus de fouille de données est habituellement considéré

comme éminemment itératif. Il est généralement mené de manière expérimentale,

par essais et erreurs. Bien que permettant de comparer deux modèles extraits, les

environnements dédiés à la fouille de données n'orent pas actuellement la

possi-bilité d'organiser de manière très rationnelle de véritables stratégies de fouille. Il

serait intéressant de disposer d'outils permettant de maîtriser la gestion des

expé-riencesetdecomparerdesmodèlesextraitsenfonctiondesvariationsdesparamètres

caractérisant lesexpériences.

1.2 Contributions

L'approche KEOPS que nous proposons dans ce mémoire a pour objectif

d'ap-porter de nouvelles solutions palliant en partie les limitations évoquées ci-dessus.

Les contributions de ce travail sont àla foisd'ordre méthodologique etapplicatif :

•

Uneméthodologiequiintègrelesconnaissances desexpertsd'undomainetout au long du processus de fouille. Cette méthodologie concentre l'intervention

de l'expertdudomainelorsdelaphasedepré-traitementdesdonnées anque

l'intégrationde lasémantiquedu domainepuisses'eectuer dèslapréparation

des données. Cette étape devientainsi plus complexemais leprocessus global

de fouillede donnéesprotelargementdel'apportdes connaissancesexpertes.

•

Un systèmed'information dirigépar une ontologie(ODIS pour Ontology Dri-ven Information System) qui joue un rôle central dans le système KEOPS.

L'ODIS est constitué d'une ontologie d'application et d'une base de données

relationnelle(MODB pour Mining Oriented DataBase) dont lesvaleurs et

at-tributs sont associés à des concepts de l'ontologie. Ce système d'information

permet d'organiser rationnellement la préparation des données mais aussi la

sélectionet l'interprétationdes modèles générés.

•

Une mesure pour évaluer l'intérêt des modèles générés prenant en compteles centres d'intérêt et le niveau de connaissance des experts. Cette mesure se

base sur une approche à la fois objective pour évaluer la précision des motifs

et subjective pour évaluer l'intérêt des modèles pour les experts du domaine.

Son originalité réside dans le fait qu'elle repose sur l'ODIS qui formalise les

relationsentre conceptsetfournitdes donnéesnettoyées etstructuréesausein

(19)

•

Lapossibilitéde dénirdes stratégies permettant d'améliorer le processus de fouillede données dans letemps en fonction des résultatsobservés. Les

dié-rents apports de l'approche KEOPS favorisent l'automatisationdu processus

defouillededonnées, etainsi,unedynamiqued'apprentissagepeutêtreinitiée

pour obtenirun processus de fouilleparticulièrementbien adaptéaudomaine

étudié.

La méthodologie proposée a été mise en ÷uvre dans le cadre de deux tâches de

fouille sur des données réelles. La première est du type CRM et répond à une

de-mande des CAF (Caissesd'AllocationFamiliales);laseconde concerne des données

médicales issues d'une étudesur l'athérosclérose.

1.3 Organisation du mémoire

Ce mémoire est organisé comme suit. La première partie, structurée en trois

chapitres, est consacrée à un état de l'art des approches existantes. Le chapitre 2

présente les approches objectives pour l'extraction de connaissances. Le chapitre

3 se focalise sur les approches subjectives. Le chapitre 4 décrit les méthodes de

représentation desconnaissances ainsi quelamanièredontces dernièrespermettent

d'intégrer laconnaissance à un processus de fouillede données.

La seconde partie est consacrée à la présentation complète du système, elle est

structurée en quatre chapitres. Le chapitre 5présenteles objectifs du système. Ces

objectifs guidentleschoix méthodologiquesetde conceptionainsi quelesméthodes

d'évaluationetd'explorationdesmodèlesgénérésparlafouille.Ce chapitreprésente

égalementunevued'ensembledu systèmeetjustie l'approchequiest adoptéedans

la suite du mémoire. L'expression des connaissances fait l'objet du chapitre 6. Au

chapitre 7 nous présentons notre méthode de confrontation des connaissances aux

modèlesgénérés parlafouillededonnées. Enn,danslechapitre8,nous présentons

les stratégies quipeuvent être misesen place an d'organiseret gérerlesdiérentes

expériences menées dans un processus de fouille de données.

Le chapitre 9 présente le bilan des travaux eectués et présente nos projets de

(20)

(21)

(22)

Chapitre

2

Approches objectives pour

l'extraction de connaissances

Sommaire

2.1 Introduction . . . 9

2.2 Critères de qualité . . . 10

2.2.1 Intelligibilité etsimplicité . . . 11

2.2.2 Critèresliésau type desmotifsà extraire . . . 13

2.2.2.1 Lesévénementsrares . . . 14

2.2.2.2 Lesmotifssurprenants. . . 14

2.2.3 Critèresliésaux propriétés intrinsèquesdesmesures . . . 17

2.2.3.1 Sensdevariation delamesure . . . 17

2.2.3.2 Étude desituations caractéristiques . . . 18

2.2.3.3 Naturedesrègles visées . . . 18

2.2.3.4 Naturede lavariationde lamesure . . . 19

2.2.3.5 Comportement par rapport à la couverture de

l'antécédent etduconséquent . . . 19

2.2.3.6 Fixationd'unseuil . . . 19

2.2.4 Critèresliésaucomportementdesmesuresenfonctiondes

données . . . 20

2.2.4.1 Ledéséquilibre deladistribution desclasses . . 20

2.2.4.2 Lecoûtdes attributs. . . 20

2.2.4.3 Lecoûtdes erreursde classication . . . 20

2.2.4.4 Priseen compte descontre-exemples . . . 21

2.2.4.5 Sensibilitéà lataille desdonnées . . . 21

2.2.4.6 Sensibilitéau bruit. . . 21

2.2.5 Formalisation matricielle de certainscritères . . . 22

2.2.6 Conclusion . . . 25

(23)

2.3.1 Agrégation de mesures . . . 25

2.3.2 La nouveauté commemesureunique . . . 26

2.3.3 Transformées anes delaconance. . . 27

2.3.4 Aide àladécision . . . 28

2.3.5 Conclusion . . . 29

2.4 Mise en ÷uvre des mesures dans les algorithmes . . . . 29

2.4.1 Algorithme d'extraction derègles d'association . . . 30

2.4.1.1 Extraction desitemsets fréquents . . . 33

2.4.1.2 Extraction desitemsets fermésfréquents . . . . 34

2.4.2 Algorithme derecherche d'événements rares . . . 34

2.4.3 Approchesévolutionnaires . . . 36

(24)

2.1 Introduction

Le volume importantde motifsgénérés lorsd'unprocessus de fouillede données

a conduit à la mise au point de techniques pour sélectionner les meilleurs d'entre

euxselondiérentscritères. Denombreusesmesures d'intérêtontétémisesaupoint

danslebutd'évaluerlaabilitéetlaqualitédecesmotifs.Desétudesontétémenées

pour énoncer des critères auxquels doivent répondre ces mesures (section 2.2). Une

approche diérente a été de clarier la situation, soit par la création d'une mesure

unique soit en aidant à choisir une mesure réalisant le meilleurcompromis selon le

contexte (section2.3).Enn, des algorithmesquiintègrentlesmesures àleur

méca-nisme ont été mis au point pour éviter d'utiliser les mesures d'intérêt uniquement

en tant que ltre appliquéaux modèles découverts (section2.4).

Danscettesectionlaplupartdesapprochesprésentéess'appliquentàl'évaluation

de motifs exprimés sous forme de règles d'association. Il est donc indispensable de

présenter lesnotations utilisées par la suite.

Dénition 2.1 (Table d'une base de données)

Une table d'une base de données est composée d'attributs dénis sur un domaine

de valeurs. Une table représente une relationde la base de données, c'est-à-dire un

sous-ensembleduproduitcartésiendes domainesd'unensembled'attributs.Chaque

ligne de la base de données est également appelée exemple, tuple ouobjet.

Dénition 2.2 (Item et itemset)

On dénit un item par un triplet{A,op,V} où:

•

A est un attribut

•

opest un opérateur parmi<,

≤

,>,

≥

, =

•

V est une valeur

Un itemsetest constitué d'un ensemble d'items.

Remarque :Dans le cas de valeursdiscrètes seul l'opérateur= est utilisé.

Notation 2.1

Soit une règle

R

de laforme

A → B

.On appelleAl'antécédentde larègleetB son conséquent.

(25)

d'exemples qui contiennent respectivement les items de A et de B et

n(AB)

le nombre d'exemples quicontiennent à lafois A etB.

L'objectif de ce chapitren'est pas d'eectuer un état de l'artdes diérentes

me-sures d'intérêt objectif. Unesynthèse complète sur ce sujet été réaliséepar Azéqui

introduit de plus des critères de choix sur les mesures d'intérêt [Azé03 ], ou encore

par McGarry qui établit un récapitulatif des diérentes mesures d'intérêt

objec-tif et subjectif [McG05]. Ce chapitre traite des diérentes approches utilisées pour

l'étude des mesures d'intérêt. La première partie examine les diérents critères de

qualitépourévaluerlesmesures.Ladeuxièmepartieprésentelestravauxuniantles

mesures d'intérêt. Latroisièmepartie présente diérentes solutionsalgorithmiques.

2.2 Critères de qualité

Freitas propose dans [Fre99] cinqcritères évaluer laqualité de mesures d'intérêt

utilisées dans le contexte de la classicationsupervisée :

•

Les événements rares, également appelés pépites de connaissances ou small disjunct en anglais

•

Lecoût des attributs

•

L'asymétriedes règles

•

Ledéséquilibre de ladistribution des classes

•

Lecoût des erreursde classication

Toutefois, les trois premiers critères s'appliquent à des mesures qui évaluent de

façon individuelle les règles qui décrivent les modèles et non pas à des mesures

évaluant les modèles dans leur intégralité. Lallich et Teytaud ont, quand à eux,

dénis dix critères [LT04] qui ont été ensuite complétés par Guillaume [Gui00] et

Azé [Azé03] :

•

Compréhensibilitéde lamesure

•

Nature des règles visées

•

Prise en compte des contre-exemples

•

Sens de variation de la mesure

•

Nature de lavariationde la mesure

(26)

•

Sensibilité à latailledes données

•

Fixationd'un seuil

•

Sensibilité aubruit

Danscettesection,unaspectessentieldesmesuresestprésenté:leurintelligibilité

ouencore leur simplicitéde compréhension. Ensuite lesdiérentscritères proposés,

parfois similaires, sont classés en trois catégories : les critèresliés au type de motif

que l'on souhaite extraire, les critères liés aux propriétés intrinsèques des mesures

et lescritèresliés aucomportementdes mesures en fonctiondes données.

2.2.1 Intelligibilité et simplicité

Une première évaluation lors de l'étude de motifs est de considérer les mesures

de support et de conance dont le sens concret est parfaitement assimilable pour

l'utilisateur non spécialiste[LT04]. Nousrappelons lesdénitions ci-dessous.

Dénition 2.3 (Support)

Le support d'une règle

A → B

sur une table

T

est la proportion d'exemples de

T

qui contiennent à lafois A et B. Il peut s'exprimer en terme de probabilité :

Supp(A → B) = p(AB) =

n(AB)

n

Dénition 2.4 (Conance)

La conance d'une règle

A → B

sur une table

T

est la proportion d'exemples de

T

qui contiennent B parmi ceux qui contiennent A, c'est-à-dire la probabilité conditionnellede B sachant A :

Conf (A → B) = p(B |A) =

p(AB)

p(A)

=

n(AB)

n(A)

Le principal intérêt des mesures de support et de conance réside dans leur

grande intelligibilitépour les utilisateurs non statisticiens. Toutefois les approches

basées sur lesupport etla conance sourent de deux inconvénientsmajeurs. Dans

lesalgorithmesderecherche d'associations,leseuildesupportécartelesrèglesayant

untroppetitsupport,alorsqueparmiellescertainespeuventavoirunebonnevaleur

de conance etprésenter un réel intérêt! Une solutionest alors de baisser lavaleur

du seuil de support, ce qui engendre de nouveaux problèmes : le nombre de motifs

extraitsdevienttrèsgrandetlesalgorithmessontasphyxiés.L'utilisationdusupport

(27)

B

A

Fig. 2.1: Situationoù laconance est inférieureà 1

Le deuxième inconvénient est relatif à la dénition de la conance. En eet,

la faiblesse de la conance est de ne pas prendre en compte p(B), la proportion

d'exemples qui contiennent les itemsde B.

Remarque 2.1 Dans les gures 2.1, 2.2 et 2.3le rectangle représente l'univers

Ω

. L'ellipse bleue représente lacouverture du conséquent B d'une règle, l'ellipse jaune

lacouverturede l'antécédentAd'une règleetl'ellipseverte l'intersectionde AetB.

Comme on peut le voir sur la gure 2.1, la conance n'est pas optimale dans

cette situation.Il existe alors trois situationsoùla conanceest améliorée:lorsque

la couverture de B inclut celle de A et met en évidence un événement rare (gure

2.2), lorsque la couverturede A est inclusedans cellede B (gure2.3a) oulorsque

la couverture de B couvre quasiment tout l'univers (gure 2.3 b). Dans ces trois

derniers cas la conance sera égale à 1, cependant si le cas représenté par lagure

2.2 est très intéressant, celui de la gure 2.3b n'apporte aucune information qui

puisse être intéressante puisque la probabilité de B approche de près laprobabilité

conditionnelle de B sachant A.

B

A

Fig.2.2: Événement rare avec une conance égale à1

La mesure de lift représente un bon compromis satisfaisant le critère

(28)

B

A

a) Règleintéressante

B

A

b) Règle inintéressante

Fig. 2.3: Deux situationsdiérentes oùla conance est égale à1

part. Lelift permeten eetde fairela distinction entre lescorrélations positiveset

négatives entre antécédent et conséquent. Cependant c'est une mesure symétrique

qui ne diérencie donc pas larègle

A → B

de larègle

B → A

.

Dénition 2.5 (Lift)

Le lift d'une règle

A → B

représente sa distance à l'indépendance. Les attributs

A

et

B

sont indépendants lorsque :

p(AB) = p(A) × p(B)

Lif t(A → B) =

p(AB)

p(A)p(B)

=

p(B |A)

p(B)

En conclusion, les approches utilisant des mesures simples et intelligibles ont

en contrepartie quelques inconvénients. En complément de celles-ci, il peut alors

être intéressantde faireappelà desmesures d'intérêt plus complexes. Cesdernières

pouvant toutefois introduire un biais il est important de connaître leurs propriétés

et leur comportement. Un certain nombre de travaux [Azé03 ][LT04][McG05] ont

été consacrés récemment à l'analyse, selon des points de vue divers, des diérentes

mesures proposées. Certains auteurs [Fre99][LMV

+

04][TKS02] se sont attachés à

dénir des critères de satisfaction.

Danslasuitede ce chapitrenous présentonsun étatde l'artde ces travauxselon

troisaxes:lescritèresliésautypedesmotifsàextraire,lescritèresliésauxpropriétés

intrinsèques des mesures et enn les critères liés aux propriétés des mesures vis à

vis des données.

2.2.2 Critères liés au type des motifs à extraire

Cette section présente les critères permettant d'extraire un type particulier de

motif.Nous nous intéressons au cas des événements rares età celui des motifs

(29)

2.2.2.1 Les événements rares

Leconcept d'événementrare correspondàune règledontlacouverturede

l'anté-cédentestfaible.SelonFreitas,lapriseen comptedes événementsrares estessentiel

an de mettreaupointune mesure d'intérêt. Cependantcet aspect est souvent mis

de côté lors de la fouille de données car, à première vue, ces règles sont

potentiel-lementsource d'erreurs. Eneet, en lesétudiant,on peut observer qu'elles peuvent

aussi bien représenter une exception véritable qu'un simple bruit.

Les mesures permettant d'évaluer les événements rares sont évidemment très

diérentes de celles permettant d'évaluer les règles ayant une large couverture. On

voitainsilanécessitéd'adapterlamesureautypede l'informationoudu motifciblé

par latâche de fouille.

2.2.2.2 Les motifs surprenants

Lesmesures baséessur lasurpriserelèventleplussouvent des approches

subjec-tivesdécritesdanslasection3.Cependant Freitaspropose dans[Fre98] de

s'intéres-ser àlamanièred'évaluerledegréde surprised'unerègledefaçonobjective.Dansle

cadre de ses travauxrelatifs à des règles de classicationil propose trois approches

diérentes :

•

une première relative auxévénements rares en utilisantla notionde générali-sationminimaled'une règle,

•

une deuxième qui prend en compte l'eet de surprise de chacun des items d'unerègle,

•

une troisièmesebasant sur la détection du paradoxe de Simpson.

Généralisations minimales d'une règle

Soit une règle de classication

R : A → B

, A représentant une conjonction d'items

1

:

A

1 ∧ A

2 ∧ ... ∧ A

k

.Onditquela

i

ème généralisationminimalede

R

apour antécédent

A

privé de l'item

A

i

etpour conséquent la classe majoritaire, sur lejeu de données, qui vérie A. Une règle d'antécédent

A

de taille

|A| = k

possède donc

k

généralisationsminimales.

1

(30)

Exemple 2.1

Considérons une étude concernant l'analyse de laclientèle susceptible d'acheter un

ordinateur. La règle 2.1 possède trois généralisations minimales: lesrègles 2.2, 2.3

et 2.4.

Règle 2.1

Sexe="Homme"

∧

Revenus="Faibles"

∧

Age="Jeune"

→

AchetePC="Non"

Règle 2.2

Sexe="Homme"

→

AchetePC="Oui"

Règle 2.3

Revenus="Faibles"

→

AchetePC="Non"

Règle 2.4

Age="Jeune"

→

AchetePC="Oui"

Selon cette approche, plus le conséquent de la règle 2.1 est contredit par les

conséquentsdesgénéralisationsminimales2.2,2.4et2.3pluslarègleseraconsidérée

comme surprenante. Dans cet exemple, la règle 2.1 est donc surprenante car deux

de ses trois généralisationsminimalesne prédisent pas lamême classe Non .

Eet de surprise de chacun des items de l'antécédent

Selon Freitas, la plupart des mesures évaluant la surprise prennent en compte

l'antécédent d'une règle comme un tout, sans prendre en considération chacun de

ses items. Ces mesures sont appelées mesure de surprise à forte granularité. Ainsi

deuxmesuresdesurpriseàfortegranularité pourraientévaluerlasurprised'unerègle

de la même façon alors que celles-ci auraient un intérêt diérent pour l'utilisateur

si l'on avait considéré chacun des items lorsdu calculde l'intérêt.

Freitas propose donc une mesure de surprise à faible granularité se basant sur

la théoriede l'information[CT91]. Pour cela, il se base sur la mesurede gain

d'in-formation appliquéeàchacundes attributscomposantl'antécédent d'unerègle.Les

attributsavec un haut niveau de gain d'information sont de bons prédicteursde la

classe.Dans cette approche, lepostulatest queces attributssont très certainement

déjà connus de l'utilisateur et ne lui sont d'aucun intérêt. C'est ainsi que les règles

(31)

d'attributs mauvaisprédicteurs de laclasse. Chacun des attributspris

individuelle-ment n'est pas intéressant, mais une règle qui en réunitun grand nombre dans son

antécédent est potentiellementsurprenante et donc intéressantepour l'utilisateur.

Le paradoxe de Simpson

Ce paradoxe repose sur unedistribution particulièredes classes. Considéronsune

populationpartitionnéeendeuxpopulationsexclusives

P op

1

et

P op

2

selonuncritère

Crit

1

. Soit

G

un attribut binaire dénissant un objectif.

G

1

et

G

2

sont respective-ment les valeurs de l'objectif pour les populations

P op

1

et

P op

2

. On dénit

p(G

1 )

et

p(G

2 )

les probabilitésquel'objectif étudiésoitvériésur lespopulations

P op

1

et

P op

2

.

Considérons le cas où chacune des populations

P op

1

et

P op

2

est partitionnée selon un deuxième critère

Crit

2

possédant

n

valeurs. On dénitalors

p(G

ij

)

la pro-babilitéquel'objectifsoitatteintpourchacunedes sous-populations,avec

i = {1, 2}

l'identiantde

Crit

1

et

j = {1, ..., n}

l'identiantde

Crit

2

.

Leparadoxe de Simpsonapparaîtlorsque :











p(G

1 ) > p(G

2 )

et

∀j = 1, ..., n

p(G

1j

) ≤ p(G

2j

)

etdans la situationduale :











p(G

1 ) < p(G

2 )

et

∀j = 1, ..., n

p(G

1j

) ≥ p(G

2j

)

Exemple 2.2 (Cursus de formation et concours)

Des étudiants, an de préparer deux concours X etY décident de suivre des cursus

de formation an de s'améliorer. Ils ont le choix entre suivre le cursus A ou suivre

le cursus B. Cependant au moment de passer les concours, ils apprennent que les

deux ont lieuen mêmetemps! Chacunfait donclechoix de passerleconcours pour

l'école qui l'intéresse leplus.

Letableau2.1donnelesrésultatsduconcours (eneectifsetpourcentage),pour

(32)

Cursus A Cursus B

Concours X 29/30: 96,5% 1/1 : 100%

Concours Y 1/70: 1,5% 19/99 : 19,2%

Total 30% 20%

Tab. 2.1: Illustrationdu paradoxe de Simpson: Taux de réussite des étudiantspar

groupe etpar concours

Leparadoxe deSimpsons'illustreparlefaitqueglobalementlesétudiantsayant

suivislecursusAontmieuxréussisurl'ensembledesconcoursalorsquepourchacun

des concours le pourcentage de réussite des étudiants du groupe B est meilleur.Ce

paradoxeestdûaufaitque,lorsd'uneévaluationglobale,onneprendpasencompte

l'impact de la variable Concours et la répartition des eectifs dans les deux

sous-populations.

Freitas propose un algorithme de détection du paradoxe de Simpsonausein des

modèles générés an d'extrairedes informations surprenantes.

2.2.3 Critères liés aux propriétés intrinsèques des mesures

Lesmesures d'intérêtmisesaupointpeuventavoirdescomportementstrès

dié-rentslorsde l'évaluationdes règles. Nousprésentons iciquelques critèresde qualité

liés aux propriétés des mesures; ils prennent en compte le sens et la nature de la

variation d'une mesure, sa compréhensibilité, son comportement dans diérentes

situationsmais aussi la naturedes règles visées.

2.2.3.1 Sens de variation de la mesure

Piatetsky-Shapiro[PSF91]aproposétroiscritèrespourconstruireunemesure

m

ayant la capacité d'évaluer la corrélation entre l'antécédent et le conséquent d'une

règle :

•

Si A etB sont statistiquement indépendantalors

m(R) = 0

• m(R)

augmente de façon monotone avec n(AB) quand n(A) et n(B) restent constants

• m(R)

diminue de façon monotone avec n(AB) quand n(A) et n(B) restent

(33)

Major etMangano ontintroduit un quatrièmecritère [MM95] :

• m(R)

augmenteavec n(A)avec une conance xée

conf (R) > p(B)

2.2.3.2 Étude de situations caractéristiques

Azé[Azé03]etGuillaume[Gui00]s'intéressentaucomportementdesmesuresdans

trois cas spéciques pour une règle

A → B

, quicorrespondent àdes situationsdans lesquelles l'intérêt de la règle est facilementévaluable :

1. La règle ne vérie aucun exemple;

A

et

B

sont totalement incompatibles :

p(AB) = 0

2.

A

et

B

sont indépendants :

p(AB) = p(A) × p(B)

3.

A → B

est une règle exacte car sa conance est égale à 1 :

p(AB) = p(A)

et

A ⊂ B

Dans le premier cas, la règle

A → B

n'a aucun lieu d'être et l'évaluationd'une mesure devrait être égale à une valeur nulle ou à la valeur minimale associée à la

mesure.Lesecondcascorrespond àunesituationd'indépendance entrelesattributs

etdevraitsecaractériserparuneévaluationégaleàlavaleurnulle.Enn,letroisième

cas détermine, selon Azé, une situationoù larègle représente un événement rare.

L'étudeeectuéecompare,selon cescritères, diérentes mesuresd'intérêt.Ainsi,

lorsque A et B sont indépendants un grand nombre de mesures prend une valeur

constanteetdonc indépendantede lataillede AetB. Demême,lorsque

A → B

est une règle logique, plusieursmesures prennent des valeurs constantes etévaluent de

manière identiquelessituations représentées par lesgures 2.2et 2.3.

Il est donc intéressant, lors du choix d'une mesure, de prendre en compte sa

capacité àdistinguer ces situationscaractéristiques.

2.2.3.3 Nature des règles visées

Selon les travaux de Lallichet Teytaud une mesure d'intérêt devrait permettre

de [LT04] :

•

Faire la diérence entre les règles

A → B

et

A → B

, les exemples de l'une étant lescontre-exemples de l'autre.

•

Prendreencomptel'orientationdulienentre

A

et

B

:lesévaluationsdesrègles

(34)

exemples, leurs contre-exemples sont diérents. Ainsi une règle inversant la

cause etla conséquence ne devrait absolument pas avoirle même intérêt!

•

Faire la distinctionentre

A → B

et

B → A

: siles règles sont équivalentes au sens logique, elles ne le sont pas au sens des règles d'association car elles ne

sont pas vériéespar lesmêmes exemples.

2.2.3.4 Nature de la variation de la mesure

Lallich et Teytaud s'intéressent également à la variation linéaire des mesures.

Lesmesures peuvent varier de façonlinéaire ounon-linéaireen fonctiondu nombre

d'exemples ou de contre-exemples. Toutes les mesures créées par une transformée

anede laconance évoluent de façonlinéaire,cependant lesmesures nonlinéaires

présentent l'avantage d'être moins sensibles au bruit. En eet, une mesure

non-linéairevoitsavaleurchangerlentementàl'apparitiondespremierscontre-exemples.

Celaluiconfèreainsimeilleurerésistance aubruitquelesmesureslinéairesquivont,

dès les premierscontre-exemples, changer leur valeur de façon plus rapide.

2.2.3.5 Comportement par rapport à la couverture de l'antécédent et

du conséquent

Il est importantqu'une mesure prenne en considération lacouverture de

l'anté-cédentetduconséquentd'unerègle.Lorsquece n'estpaslecaslamesurepeutavoir

des valeurs égales pour des règles ayantun intérêttotalementdiérent :c'est lecas

pourlamesurede conancecommenousl'avonsexpliquéen section2.4.Lallich

sug-gère donc qu'une mesuresoitune fonction croissanteselon

1 − p(B)

, quireprésente larareté du conséquent.

2.2.3.6 Fixation d'un seuil

Les mesures doivent pouvoir être utilisées avec un seuil d'élagage an de

sélec-tionnerlesrègleslesplusintéressantes d'entre elles.Lesmesures compréhensibleset

lesmesures normaliséespermettent àl'utilisateur de xer assez facilementun seuil.

Cependant, lorsque le seuil est xé par l'utilisateur, ce dernier prend rarement en

compte la nature des données ce qui peut conduire à une mauvaise interprétation

des résultats. Le calcul automatique du seuil est alors une approche intéressante;

(35)

2.2.4 Critères liés au comportement des mesures en fonction

des données

Une même mesure peut se comporter diéremment selon le jeu de données sur

lequel elleest employée.Nousévoquonsicilesdiérentsaspectsd'unjeude données

à prendre en comptelors de l'élaborationd'une mesured'intérêt.

2.2.4.1 Le déséquilibre de la distribution des classes

On parle de déséquilibre dans la distribution des classes lorsque les exemples

contenant une classe sont beaucoup plus fréquents ou beaucoup plus rares que les

exemples relatifs aux autres classes. Pour illustrer ce problème, prenons l'exemple

de données relatives à 2classes dont ladistribution est déséquilibrée.Découvrir les

règles concernant laclassemajoritairementprésente est trèsfacile,mais ilest

beau-coup plus dur de découvrir les règles décrivant la classe minoritaire. Selon Freitas

les règles prédisant une classe minoritaire, diciles à découvrir,sont intéressantes.

Inversement lesrègles décrivant la classemajoritaire sontplutôt inintéressantes.

Il est donc important qu'une mesure prenne en compte ce déséquilibre dans la

distribution des classes (voirsection 2.2.2.2).

2.2.4.2 Le coût des attributs

Certaines mesures prennent en compte l'antécédent d'une règle commeun tout.

Freitasmetenévidencelefaitqu'ilestintéressantdeconsidérerchacundesattributs

d'un antécédent comme une entité individuelle.Il présente ainsi lanotion de coût :

dans un cadre prédictif, deux règles ables statistiquement n'auront pas forcément

la même valeur si l'on prend en compte lecoût associéà chacun des attributs. Une

mesure d'intérêt devrait donc,à abilitéet utilitéidentiques, trouverles règles peu

coûteuses.

2.2.4.3 Le coût des erreurs de classication

Dans certains domaines, les erreurs de classication peuvent avoir des coûts

diérents. Par exemple, dans le domaine bancaire refuser un prêt à un bon client

(c'est-à-dire un clientqui vale rembourser)coûte moinscher qued'accepter leprêt

(36)

Lapriseencompteducoûtdeserreursdeclassicationestdonc,selonledomaine

d'étude, un paramètre àprendre en compteavant de choisir une mesure.

2.2.4.4 Prise en compte des contre-exemples

Une règlepeut êtreintéressante sison nombre d'exemples

n(AB)

est élevé ousi son nombre de contre-exemples

n(AB)

est faible. La plupart des mesures prenant encompte

n(AB)

considèrentimplicitementlescontre-exemples;cependantcertains auteursenvisagentunemesureévaluant

n(AB)

,bienquelacomplexitéducalculsoit non négligeable.

2.2.4.5 Sensibilité à la taille des données

Lallichfaitladistinctionentrelesmesuresdescriptivesetlesmesuresstatistiques.

Seloncette classicationlesmesures descriptivesne changent pasl'évaluationd'une

règle en cas de dilatation des données, c'est-à-dire lorsque tous les eectifs sont

multipliéspar un même facteur, etles mesures statistiquessont sensibles àla taille

de l'échantillonconsidéré.

A première vue, une mesure statistique semble plus intéressante. Si l'on xe la

taillede

A

etde

B

etque l'ondilate latailledes données, larègle

A → B

décrivant lesdonnées dilatéesest plus intéressante car elledécrit une fraction des données; il

est donc possiblequ'elle ne soitpas encoreconnue!Toutefois,Lallichdémontre que

lorsque la taille des données devient très grande les mesures perdent leur pouvoir

discriminantetil devient très dicilede comparer l'intérêtde deux règles[LVL05].

2.2.4.6 Sensibilité au bruit

Le bruit est présent dans toutes les données réelles : il est engendré par les

erreurs de mesures, leserreurs de saisies, lesdonnées manquantes ouencore le

pré-traitement appliqué aux données. Lasensibilité au bruit d'une mesure est donc un

critère important. Cependant il demeure assez dicile de diérencier le bruit des

événementsraresetintéressants(voirsection2.2.2.1).Uneméthodeestd'utiliserdes

mesures ne variant pas linéairement (voir section 2.2.3.4) mais il existe également

d'autres approches baséessur lesévénements raresque nousprésentons parla suite

(37)

2.2.5 Formalisation matricielle de certains critères

Les mesures sont dénies à partir des fréquences d'occurrence des items dans

les données. Tan [TKS02] présente une approche dans laquelle, pour chaque règle

d'association

A → B

, ces fréquences peuvent être exprimées sous la forme d'une table de contingence 2x2 commel'illustrele tableau2.2.

B

A

f

11 f

10 f

A

f

01 f

00 f

A

f

B

f

B

n

Tab. 2.2: Table de contingence 2x2 pour une règle

A → B

extraite de [TKS02] : chaque

f

ij

représente une fréquence d'occurence dans les données.

Tan dénit les propriétés d'une mesure en utilisant une formulation matricielle

dans laquelle chaque table de contingence est représentée par lamatrice

M

donnée ci-dessous :

M =

f

11 f

10 f

01 f

00 !

Chaque mesure est représentée par un opérateur matriciel

O

, qui transforme une matrice

M

en une valeur scalaire

k

tel quel

OM = k

. On peut noter que A et B sont indépendants statistiquement lorsque le déterminant de la matrice est nul,

c'est-à-dire lorsque :

Det(M) = f

11 f

00 − f

01 f

10 = 0

.

Tan formalise aussi 5 propriétés qui, pour certaines d'entre elles, correspondent

aux critères dénisde manièreinformelle dans lasection précédente.

Symétrie de la mesure

Pour toutematricede contingence

M

,

O

est ditesymétriquesi

O(M

T

_{) = O(M)}

;

sinon elleest diteasymétrique.Eneet,l'évaluationdesrègles

A → B

et

B → A

ne devrait pasdonnerlemêmerésultatpourlesdeuxrègles.Siellesontbienlesmêmes

exemples, leurs contre-exemples sont diérents. Ainsi, une règle inversant la cause

etlaconséquenced'unerègleRne devraitabsolumentpas avoirlemêmeintérêtque

(38)

B

A p q

A

r s A

A

B p r

B

q s

Fig.2.4: Permutationdes variables

Invariance lors du changement d'échelle des lignes et des colonnes

Soient

R =

k

1

0

0 k

2 !

et

C =

k

3

0

0 k

4 !

deux matrices carrées 2x2 où

k

1

,

k

2

,

k

3

et

k

4

sont des constantes positives. Leproduit

R × M

correspond à un changement de l'échelle de lapremière ligne de la matricepar

k

1

etde la deuxièmeligne par

k

2

tandisqueleproduit

M × C

correspond àun changementdel'échellede lapremière colonnede lamatrice par

k

3

et de ladeuxième colonnepar

k

4

(gure2.5).

Pourtoutematricede contingence

M

,unemesure

O

estditeinvariantelorsd'un changement d'échelle des lignes et colonnes si

O(RM) = O(M)

et si

O(MC) =

O(M)

. B

B

A p q

A

r s B

B

A

k

3 k

1

p

k

4 k

1

q

A

k

3 k

2

r

k

4 k

2

s

Fig. 2.5: Miseà l'échelle des lignes etdes colonnes

Unemesurevériantcettepropriété seradoncplus portéesur lacomparaisonde

laproportiondes eectifsetne changera pas en fonctiondu changement de lataille

de l'antécédent oudu conséquent d'une règle.

Antisymétrie lors d'une permutation de lignes et de colonnes

Soit

S =

0 1

1 0

!

une matrice 2x2. Une mesure

O

normalisée (c'est-à-dire dont

lesvaleurs sont comprises entre -1et 1),est dite :

•

antisymétrique lors d'une permutation de lignes si :

O(SM) = −O(M)

pour toute matricede contingence

M

(gure 2.6);

•

antisymétrique lors d'une permutation de colonnes si :

O(MS) = −O(M)

pour toute matrice de contingence

M

.

Une mesure antisymétrique lors d'une permutation de lignes et de colonnes ne

(39)

B

A p q

A

r s B

B

A r s

A

p q

Fig. 2.6: Permutation des lignes

l'antécédent et leconséquent d'une règle. Il fautdonc prendre ce critère en compte

lors de l'interprétation des résultats!

Mesure invariante lors d'une inversion

Soit

S =

0 1

1 0

!

unematricede permutation2x2.Pour toutematricede

contin-gence

M

, une mesure

O

est dite invariante lors d'une inversion si

O(SMS) =

−O(M)

. Nous sommes dans un cas particulier de la propriété précédente où l'on eectue à la fois une permutation des lignes et des colonnes. Les mesures vériant

cette propriété évaluent donc de lamême façonles règles

A → B

et

A → B

(gure 2.7). B

B

A p q

A

r s B

B

A s r

A

q p Fig.2.7: Inversion

Mesure invariante lors de l'ajout d'exemples vides

Une mesureest invariantelorsde l'ajout d'exemples vides si :

O(M + C) = O(M)

, où

C =

0 0

0 k

!

avec

k

une constantepositive.

Cetteopérationconsisteàajouter destuplesquine contiennentaucundesitems

présentsdans larègleconsidérée.Cette propriétéest intéressantedans lesdomaines

oùlaco-occurence desitemsest plusimportantequeleur absencesimultanée(gure

2.8). B

B

A p q

A

r s B

B

A p q

A

r s+k

(40)

L'approche de Tan dénit donc des propriétés mathématiques permettant de

vérier la satisfaction d'un critère. L'antisymétrie et l'invariance au changement

d'échelle, par exemple,correspondent àdes critèresimportants.

2.2.6 Conclusion

An de répondre au mieux à la nécessité d'extraire des règles intéressantes, de

plus en plus de mesures ont été créées sans toutefois qu'aucune ne fasse le

consen-sus. Nousavons présentédiérentes études qui,bien que possédant quelques points

communs,constituentdes approchesdiérentes permettantdemettreen valeur une

mesure plutôtqu'une autreen fonction de critères diérents. Le choix d'unebonne

mesure reste donc un problème largement ouvert qui, comme le note Lenca dans

[LMV

+

04], résulte de plusieurs éléments :

•

ladiculté àcomparer des mesures caractériséespar des propriétéstrès dié-rentes,

•

la diculté àexprimer lescritères de l'utilisateur à l'aide de ces propriétés,

•

la diculté à intégrer des critères propres à l'utilisateur et à son domaine d'application,qui sont très subjectifs.

2.3 Travaux sur les mesures d'intérêt

Dans la section précédente, nous avons vu que lesmesures sont souvent

hétéro-gènes de par leur comportement et leurs propriétés. Ainsi se pose le problème du

choixdelamesureadaptée auxbesoinsduprocessusdefouilleetdudomaineétudié.

Pour cela, deux approches peuvent être envisagées :la première consisterait à faire

lechoixdelamesurelaplusadaptée (sections2.3.1 et2.3.2),ladeuxièmeapproche,

quandàelle,conduitàtrouveruncompromisentre plusieursmesures(sections 2.3.3

et 2.3.4).

2.3.1 Agrégation de mesures

Barthelemy propose trois stratégies pour faire émerger un compromis entre

(41)

•

L'agrégationdirecte des mesures en une seule en utilisantune moyenne géné-ralisée.La diculté de cette approche étant de gérer lesdiérences d'échelles

entre mesures.

•

L'agrégation des rangs induits par les diérentes mesures en un rang unique. Cependant l'agrégationordinalepose lesmêmesproblèmes queceuxprésentés

par Condorcet pour le choix d'unordre socialàpartir d'ordres individuels.

•

L'agrégation de relations valuées. Les classements sont des préordres totaux quisont généralisés sous formede relationsvaluées.

Barthelemy propose de mettre en ÷uvre la troisième stratégie. Les relations

valuéespermettent d'échapperauxeets d'échelle. Ellespeuvent présenter de

nom-breuses propriétés comme la transitivité. L'un des avantages de la modélisation de

relations valuées est la retranscription des évaluations numériques.

Étant donné,

R = {r

1 , ..., r

k

}

un ensemble de règles et,

µ

1 , ..., µ

m

les mesures sélectionnées, on considère que chaque mesure

µ

j

induit une relation valuée

R

j

sur

R

.

L'idéegénéraleest queladiérencenormaliséeentre lesvaleursprisesparla

me-sure

µ

j

sur lesrègles

r

i

et

r

i

0

doitpermettrede modéliserun système de préférences sur l'ensembledes règles.

La procédure d'agrégation produit une matrice carrée de valeurs entre 0 et 1,

chaque valeur représentant lapréférence agrégéed'une règle surune autre. Les

pré-férences sont alors représentées par des graphes où les arcs entre deux sommets

représentent la préférence d'une règle sur l'autre, la èche pointant sur larègle qui

est préférée.

2.3.2 La nouveauté comme mesure unique

L'approche de Lavra£ [LFZ99] a pour objectif de démontrer que quelques unes

des mesures utiliséestraditionnellementcommelaconance,la abiliténégative,la

sensibilitéetlaspéciciténe visentàexprimerqu'un seulcritère :lanouveauté,qui

selon ellejoueun rôle central dans lesmécanismes d'évaluationde règles.

Dénition 2.6 (Nouveauté)

La nouveauté est une mesurerelative dansle sens oùellecompare le supportd'une

(42)

A

et

B

:

Nouveaut´

e(A → B) = p(AB) − p(A)p(B)

Lavra£ propose alors d'exprimer les mesures traditionnelles relativement à un

seuilexprimantlavaleurattendue de larègle sousl'hypothèsed'indépendance (voir

tableau2.3).

P

Mesure Forme

Normale Relative Relative pondérée

Conance

p(B|A)

p(B|A) − p(B)

p(A) × (p(B|A) − p(B))

Fiabiliténégative

p(B|A)

p(B|A) − p(B)

p(A) × (p(B|A) − p(B))

Sensibilité

p(A|B)

p(A|B) − p(A)

p(B) × (p(A|B) − p(A))

Spécicité

p(A|B)

p(A|B) − p(A)

p(B) × (p(A|B) − p(A))

Tab. 2.3: Conance, abilité négative, sensibilité et spécicité exprimée sous leur

formenormale,relative etrelative pondérée

La conance relative, connue également sous le nom de conance centrée,

pos-sède toutefois un inconvénient : il est faciled'obtenir des règles avec une conance

relativeélevée etun supporttrès faible.On introduit alors

p(A)

dans lamesurean de pondérer la conance relative par le support de l'antécédent de la règle. De la

mêmemanière,

p(B)

est introduitdanslecalculde laabiliténégativecarlesrègles générales ont une abilité négative élevée. L'utilisation de la pondération permet

donc de lutter contre les solutionstriviales.

Enn, Lavra£ démontre que ces quatre mesures relatives pondérées sont

équi-valentes à l'expression de la nouveauté qui est donc une mesure essentielle pour

l'évaluationde l'intérêt des règles. Cependant Azé fait remarquer que cette mesure

n'est pas adaptée àla recherche d'événements rares [Azé03 ].

2.3.3 Transformées anes de la conance

Lallich et Teytaud montrent que de nombreuses mesures d'intérêt s'écrivent

comme une normalisation de la conance par le biais d'une transformation ane

[LT04].

Si l'on considère une règle

A → B

, on peut dénir une transformation ane de laconancecommeunemesure

m

quipeuts'exprimersouslaforme

θ

1 (p(B|A)−θ

0 )

,

(43)

avec

θ

0

et

θ

1

ne dépendant que des margesrelatives de latable qui croiseA etB et éventuellement du nombre de tuples

n

présents dans la base de données [Azé03].

Par le biais de cette transformation, on corrige la principale critique faite à la

conance au sujet de la prise en compte de la taille de B. Cependant les mesures

résultantes héritent de quelques unes des propriétés de la conance :

•

elles sontdes fonctionsanes du nombre d'exemples etde contre-exemples

•

ellessontinvariantes en cas dedilatationdes donnéesdans lecasoùlefacteur d'échelle ne dépend pas de

n

2.3.4 Aide à la décision

Lenca et al. proposent d'utiliser un processus d'aide multicritères à la décision

an de prendre en compte les diérents aspects des mesures sans négliger le rôle

de l'utilisateur etses besoinsspéciques [LMV

+

04]. Ilprésente quatreproblèmes de

référence relatifsà ce type d'approche :

1. Choisir un sous-ensemblede mesures en vuede faciliterun choix nal.

2. Déterminertoutes lesbonnesmesures en éclairantladécisionpar untri

résul-tant d'une aectationde chaque mesure àune catégorie.

3. Classer les mesures de la meilleureà lamoins bonne.

4. Décrire lesmesures et/ouleurs conséquences de façonformalisée.

Lenca dénit cette approche dans le cadre des problèmes 1 et 3. Il propose de

structurer leprocessus d'aide àla décisionen quatre grandesétapes:

•

Établirla liste

M

des mesures possibles.

•

Établirla famille

F

des critèresservant àévaluer lesmesures.

•

Évaluer les mesures de

M

sur les critères de

F

an de bâtir des matrices de décision.

•

Agrégerles performances en fonctionde laproblématique choisie.

Les propriétés choisies pour évaluer les mesures sont traditionnelles et ont été

présentées dans la section2.2 :

1. traitement non symétrique de

A

et

B

, 2. décroissance avec

n

B

,

(44)

3. évaluationde l'indépendance,

4. évaluationdes règles logiques,

5. non-linéaritéde

p(AB)

autour de

0 +

,

6. prise en compte du nombre de cas

n

, 7. facilitéà xer un seuil,

8. intelligibilitéde la règle.

Des valeurs et des évaluations ordinales sont proposées pour chacune de ces

propriétés ande lestransformer en critères. Ensuitepour chacune des mesures, les

critères sont évalués et le résultat est représenté au sein d'une matrice de décision.

La méthode Promethee-Gaia permet alors de déterminer des rangements et de

lesvisualiser sur un plan [BM02].

2.3.5 Conclusion

Les approches présentées proposent des solutions très diérentes cependant le

sujet de recherche reste ouvert. D'autres méthodes tentent de parvenir à un

com-promisaumoyen desolutionsalgorithmiques,commelesalgorithmesgénétiquesque

nous présentons dans lasection suivante.

2.4 Mise en ÷uvre des mesures dans les algorithmes

Nous avons précédemment introduit les diérents critères considérés pour

cons-truire une mesure d'intérêt ainsi que diérentes approches an de faire un choix

parmi elles. La plupart de ces approches s'eectuent dans une phase de

post-trai-tement lors de laquelle les règles précédemment générées sont ltrées selon une

mesure particulière. Il est également possible d'intégrer un ensemble de mesures

d'intérêt au sein d'un algorithme d'extraction. Nous nous intéressons ici aux

algo-rithmesutilisés en classicationouencoredans larecherche d'associations[AIS93a,

PBTL99a,PBTL99b,PBTL99c ]pour l'extractionde règles.Danscettesectionnous

présentons trois approches algorithmiques qui mettent en ÷uvre plusieurs mesures

d'intérêt. En premier lieu, la recherche de règles d'association, ensuite la recherche