HAL Id: tel-00211946
https://tel.archives-ouvertes.fr/tel-00211946
Submitted on 22 Jan 2008
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
de fouille de données pour l’extraction d’informations
pertinentes
Laurent Brisson
To cite this version:
Laurent Brisson. Intégration de connaissances expertes dans le processus de fouille de données pour
l’extraction d’informations pertinentes. Interface homme-machine [cs.HC]. Université Nice Sophia
Antipolis, 2006. Français. �tel-00211946�
ÉCOLE DOCTORALE
SCIENCES ET TECHNOLOGIES DE L'INFORMATION ET DE LA
COMMUNICATION
THÈSE
pour obtenirle titre de
DOCTEUR EN SCIENCES
de l'université de Nice- Sophia Antipolis
Spécialité : INFORMATIQUE
présentée par etsoutenue par
Laurent BRISSON
Intégration de connaissances expertes dans le processus de
fouille de données pour l'extraction d'informations
pertinentes
Thèse dirigéepar Martine COLLARD
soutenue le13décembre 2006 devant lejury :
Michel RIVEILL,Professeur,UNSA Président
OscarPASTOR,Professeur,UniversitadPolitécnicadeValencia Rapporteur
Jean-Marie PINON,Professeur,INSAdeLyon Rapporteur
JérômeAZÉ,MaîtredeConférences,UniversitéParisXI Examinateur
EngelbertMEPHU NGUIFO,MaîtredeConférences(HDR), Universitéd'Artois Examinateur
MartineCOLLARD, MaîtredeConférences(HDR),UNSA Directeurdethèse
Pierre BOURGEOT,DirecteurduCERTIAM/CNEDI deSophiaAntipolis Membreinvité
Cette thèse a été nancée par une Convention Industrielle de Formationpar la
Recherche (CIFRE)avec leCERTIAM/CNEDIdeSophia-Antipolis.Cetravailaété
réaliséausein del'équipeEXeCO du laboratoireInformatique SignauxetSystèmes
de SophiaAntipolis(I3S,UMRUNSA/CNRS) etduCERTIAM/CNEDI de Sophia
Antipolis.
Je tiens en tout premier lieu à remercier ma directrice de thèse Mme Martine
COLLARD, pour laconance qu'elle m'a témoignée tout au long de ces années de
travail, sagrande disponibilité auquotidien etses précieuxconseils.
Je remercie M.Pierre BOURGEOT etM.Jacques FAVEEUW pour m'avoir
ac-cueilliauCNEDIetrassemblétouteslesconditionsnécessairesàlaréussitede cette
thèse aussi bien dans le cadre de l'entrepriseque dans celui de la recherche.
JeremercieM.CyrilleBROILLIARD,M.HuguesSANIEL,M.HusseinCHAMI,
MmeMarie-HélèneBARON-ROYER etlesmembres du BGPEOde Grenoble pour
leur collaborationfructueuse.
Je remercie les professeurs Oscar PASTOR et Jean-Marie PINON pour
l'hon-neur qu'ils m'ontfait en acceptant d'être rapporteurs et pour toutes lesremarques
constructivesqu'ils ont formulées ausujet de mon manuscrit.
JeremercieleprofesseurMichelRIVEILLpourm'avoirfaitl'honneurdeprésider
ce jury.
Je remercie également M. Jérôme AZÉ M. Engelbert MEPHU NGUIFO qui
m'ontfait leplaisir de participerà ce jury.
JetienstoutparticulièrementàremercierM.Nicolas PASQUIER,pourletemps
qu'ila pu m'accorder tout aulong de ces trois années etla patience avec laquelle il
a répondu à mes nombreuses questions; nos discussions m'ont beaucoup appris.
MIRBELainsi quetous lesautresmembresde l'équipeEXeCOpour lesdiscussions
intéressantes que nous avons partagées lors de nos séminaires et le soutien qu'ils
m'ont apporté tout aulong de cettethèse.
Enn une pensée particulière à mes amis, Sylvie, Florian et Nepher ainsi qu'à
mes parents et mes frères pour le soutien et l'aide qu'ils m'ont apportés durant
mes études et sans qui ce travail n'aurait pas pu avoir lieu. Un dernier clien d'oeil
à Pistou et Pitchoun, qui n'ont jamais omis de me réveiller aux toutes premières
L'extraction automatique de connaissances àpartirdes données peut être
consi-dérée comme la découverte d'informations enfouies dans de très grands volumes
de données. Les approches actuelles, pour évaluer la pertinence des informations
extraites, se distinguent en deux catégories : les approches objectives qui mettent
en ÷uvre des mesures d'intérêt an d'évaluer les propriétés statistiques des
mo-dèles extraitsetlesapproches subjectives quiconfrontent lesmodèlesextraits àdes
connaissances exprimées sur le domaineet nécessitent généralement l'interrogation
d'experts. Toutefois, le choix de modèles pertinents en regard de la connaissance
métier d'un expert reste un problème ouvert et l'absence de formalisme dans
l'ex-pression des connaissances nuit à la mise au point de techniques automatiques de
confrontation des modèles permettant d'exploiter toute la richesse sémantique des
connaissances expertes.
L'approche KEOPS que nous proposons dans ce mémoire, répond à cette
pro-blématiqueen proposantuneméthodologiequiintègrelesconnaissances desexperts
d'un domainetoutaulong du processus de fouille.Un systèmed'information dirigé
paruneontologie(ODIS)joueunrôlecentraldanslesystèmeKEOPSenpermettant
d'organiser rationnellementnon seulementla préparationdes données mais aussi la
sélectionet l'interprétationdes modèles générés. Unemesure d'intérêtest proposée
an de prendre en compteles centres d'intérêt etle niveau de connaissancedes
ex-perts. Le choix des modèles les plus pertinents se base sur une évaluation à la fois
objectivepourévaluerlaprécisiondesmotifsetsubjectivepourévaluerl'intérêtdes
modèlespourlesexperts du domaine. Ennl'approche KEOPSfaciliteladénition
destratégiespouraméliorerleprocessusde fouillededonnéesdansletempsen
fonc-tion des résultatsobservés. Les diérents apports de l'approche KEOPS favorisent
l'automatisationdu processus de fouille de données, et ainsi, une dynamique
d'ap-prentissage peut être initiée pour obtenir un processus de fouille particulièrement
bienadaptéaudomaineétudié.KEOPSaétémiseen÷uvredanslecadredel'étude
de lagestion des relationsavec lesallocatairesausein des Caissesd'AllocationsF
a-miliales. L'objectif de cette étude a été d'analyser la relation de service rendu aux
allocataires an de fournir aux décideurs des connaissances précises, pertinentes et
utiles pour l'amélioration de ce service.
Mots-Clefs: Fouillededonnées,mesuresd'intérêt,ontologies,expressionde
1 Introduction 1
1.1 Problématique. . . 2
1.2 Contributions . . . 3
1.3 Organisationdu mémoire. . . 4
I État de l'art 5 2 Approches objectives pour l'extraction de connaissances 7 2.1 Introduction . . . 9
2.2 Critères de qualité . . . 10
2.2.1 Intelligibilitéet simplicité . . . 11
2.2.2 Critères liés autypedes motifsà extraire . . . 13
2.2.3 Critères liés auxpropriétés intrinsèquesdes mesures . . . 17
2.2.4 Critères liés au comportement des mesures en fonction des données . . . 20
2.2.5 Formalisationmatriciellede certainscritères . . . 22
2.2.6 Conclusion. . . 25
2.3 Travaux sur les mesures d'intérêt . . . 25
2.3.1 Agrégationde mesures . . . 25
2.3.2 Lanouveauté comme mesureunique . . . 26
2.3.3 Transformées anes de la conance . . . 27
2.3.4 Aideà la décision . . . 28
2.3.5 Conclusion. . . 29
2.4 Miseen ÷uvre des mesures dans lesalgorithmes . . . 29
2.4.1 Algorithmed'extraction de règles d'association. . . 30
2.4.2 Algorithmede recherche d'événements rares . . . 34
2.4.3 Approches évolutionnaires . . . 36
3 Approches subjectives pour l'extraction de connaissances 39
3.1 Intérêt subjectif . . . 40
3.2 Les patrons . . . 43
3.3 Les convictions . . . 44
3.3.1 La créationd'un ensemblede convictions . . . 44
3.3.2 Le processus de ranement . . . 45
3.4 Les attentes de l'utilisateur. . . 45
3.4.1 L'extraction de règles inattendues . . . 48
3.5 Les impressions générales . . . 48
3.5.1 Représentation des impressions générales . . . 48
3.5.2 Évaluationdes règles . . . 49
3.6 Les prédictions oues . . . 49
3.7 Conclusion . . . 50
4 Utilisation des connaissances en fouille de données 53 4.1 Expression formelle des connaissances . . . 54
4.1.1 Les langagesde représentation des connaissances. . . 54
4.1.2 Ontologies . . . 58
4.2 Les ontologiesen fouillede données . . . 64
4.2.1 Les ontologiesdans lecycle de vie CRISP-DM . . . 64
4.2.2 Un environnement de post-traitement intégrant laconnaissance 66 4.3 Conclusion . . . 66
II L'approcheKEOPS pourl'intégration desconnaissances au processus de fouille de données 69 5 Présentation générale de l'approche KEOPS 71 5.1 Introduction . . . 72
5.2 Rappeldes objectifs . . . 72
5.3 Présentation de laméthodologie . . . 73
5.4 Déploiement . . . 75
6 Expression des connaissances 79
6.1 Motivations . . . 80
6.2 Choix ontologiques . . . 81
6.2.1 Préambule . . . 81
6.2.2 Structure de l'ontologie . . . 81
6.2.3 Relationsentre concepts . . . 84
6.3 Lesystème d'information dirigé par une ontologie (ODIS). . . 89
6.3.1 Extractiond'ontologie àpartir des données . . . 89
6.3.2 Principes fondateurs pour lacréationde l'ODIS . . . 92
6.3.3 Méthode de construction . . . 95
6.3.4 Génération de jeux de données. . . 101
6.4 Labase de connaissances . . . 102
6.4.1 Lespropriétés des connaissances . . . 103
6.4.2 Structure de la base de connaissances . . . 105
6.5 Conclusion . . . 106
7 Confrontation des modèles aux connaissances 109 7.1 Motivations . . . 110
7.2 Réduction du nombre de règles d'association . . . 111
7.2.1 Maximisationdu niveau d'information . . . 111
7.2.2 Factorisation de règles d'association . . . 112
7.3 Évaluationrelative des niveaux d'informations . . . 115
7.3.1 Comparaisonde lacouverture des itemsets . . . 116
7.3.2 Comparaisondes règles . . . 119
7.3.3 Émergence de règles inattendues. . . 123
7.3.4 Récapitulatif . . . 124
7.3.5 Algorithmes . . . 126
7.4 Évaluationde l'intérêtd'une règle en fonctiondes connaissances . . . 128
7.4.1 Méthode . . . 128
7.4.2 Larèglegénéréeetlaconnaissanceontdesindicesdeconance similaires . . . 129
7.4.3 La règle générée a un indice de conance plus élevé que la connaissance. . . 130
7.4.4 Laconnaissanceaunindicedeconanceplusélevéquelarègle
générée . . . 131
7.5 Conclusion . . . 132
8 Stratégies et résultats 135 8.1 Stratégies en fouillede données . . . 136
8.1.1 Gestion de l'expérience . . . 136
8.1.2 Dimension temporelleen fouillede données . . . 137
8.2 Expérimentations avec l'approche KEOPS . . . 143
8.2.1 Caractéristiques du processus de fouille de données . . . 143
8.2.2 Sélection de règles intéressantes . . . 144
8.2.3 Mise en ÷uvre de stratégies . . . 149
8.3 Conclusion . . . 159
9 Conclusion et Perspectives 161 9.1 Bilan . . . 161
2.1 Situationoùla conance est inférieure à1 . . . 12
2.2 Événement rare avec une conance égale à 1 . . . 12
2.3 Deux situationsdiérentes oùla conance est égale à 1 . . . 13
2.4 Permutationdes variables . . . 23
2.5 Miseà l'échelle des lignes etdes colonnes . . . 23
2.6 Permutationdes lignes . . . 24
2.7 Inversion . . . 24
2.8 Invariancelorsde l'ajout d'exemples vides . . . 24
2.9 Treillisdes itemsets associé aucontexte
D
. . . 322.10 Itemsets fréquents dans le treillisdes itemsets associé aucontexte
D
pour minsupport= 2/6
. . . 333.1 Représentation des règles R1,R2, R3et R1'=R1 - (R2
∪
R3) . . . . 424.1 Exempled'utilisationd'unRDFSchemapourladescriptiondeclassez etde propriétés . . . 62
5.1 Approche KEOPS. . . 74
6.1 Extrait d'une ontologie sur la gestiondu contact allocatairedans les CAF . . . 83
6.2 RelationsvaleurDe (en bleu)au sein de l'ontologie . . . 86
6.3 Relationsde subsomption(en vert) au sein de l'ontologie . . . 87
6.4 Relations de généralisation (en vert pointillés) et relation d'équiva-lence (en violet)ausein de l'ontologie . . . 88
7.1 Undomaine etses sous-domaines . . . 113
7.2 Le sous-domaine Prestation Action Sociale dans une ontologie dédiéeau contact allocataire . . . 115
7.3 Couverturedes itemsetslorsque
f (I
1
) ∼ f (I
2
)
. . . 1177.4 Comparaisonde lacouverture des itemsets
I
1
etI
2
. . . 1187.6 Comparaison des couvertures lorsque
f (C) B f (R)
. . . 121 7.7 Comparaison des couvertures lorsquef (C) C f (R)
. . . 122 7.8 Comparaison des couvertures dans la situation où connaissance etrègle extraite ont lemême niveau d'information . . . 123
8.1 Meilleuresrèglesapprisessur legroupePGetévaluéessurlesgroupes
RGet NG . . . 140
8.2 Meilleuresrèglesapprisessur legroupeCVDetévaluéessurlegroupe
NCVD . . . 141
8.3 Niveaux de conance relative entre les connaissances et leurs règles
associées . . . 145
8.4 Niveaux de support relatif entre les connaissances et leurs règles
as-sociées . . . 147
8.5 Niveaux de lift relatifentre les connaissances et leurs règles associées 148
8.6 Conance et liftdes règles extraites . . . 150
8.7 Conanceetliftdesconnaissancessélectionnéesparlesexperts parmi
les règles (en rouge)et des règles qui leurs sont associées (en bleu) . . 151
8.8 Conance et lift d'une connaissance (en rouge) extraite de la gure
8.7 etdes règles qui luisont associées (en bleu) . . . 153
8.9 Conance et liftdes règles extraiteslors de diérentes expériences . . 155
8.10 Conance et lift des connaissances exprimées par les experts en
lan-gage naturel (en rouge)et des règles qui leurs sont associées (en bleu) 156
8.11 Conance et lift d'une connaissance (en rouge) extraite de la gure
2.1 Illustrationdu paradoxe de Simpson:Taux de réussitedes étudiants
par groupe etpar concours . . . 17
2.2 Tabledecontingence2x2pourunerègle
A → B
extraitede[TKS02]: chaquef
ij
représente une fréquence d'occurence dans les données. . . 222.3 Conance, abilité négative, sensibilité et spécicité exprimée sous leur formenormale,relative etrelative pondérée . . . 27
2.4 Contexte d'extraction de règles d'association
B
. . . 316.1 Attributs des tables d'origine . . . 94
6.2 Attributs non considérés pour l'étudedu contact allocataire . . . 96
6.3 Informations nécessaires à la création des concepts-attributs concer-nant les données des bornesinteractives (biw2004) . . . 98
6.4 Une valeur de la base de données d'origine peut être associée à plu-sieurs domaines (Exemple concernant lesbornesinteractives) . . . 99
6.5 Extrait de valeursde laMODB pour quelques attributs . . . 101
6.6 Exemple de jeu de données avec des concepts plus générauxpour les Prestations . . . 102
6.7 Exemple de jeu de données avec des concepts plus généraux pour l'heured'arrivée, la sélectiondes contacts par borne interactive etla suppression de la colonneRésultat. . . 102
7.1 Répartitiondes eectifsallocatairesen fonction du lieude contactet du type de prestation . . . 121
7.2 Répartitiondes eectifsallocatairesen fonction du lieude contactet du type de prestation . . . 122
7.3 Répartitiondeseectifsallocatairesen fonctiondesdiérentscritères danslasituationoùconnaissanceetrègleextraiteontlemêmeniveau d'information . . . 122
7.5 Indice d'intérêt dans le cas où règle générée et connaissance ont des
indices de conance similaires . . . 130
7.6 Indiced'intérêtdanslecasoùlarèglegénéréeaunindicedeconance
plus élevéque la connaissance . . . 131
7.7 Indiced'intérêtdanslecasoùlaconnaissanceaunindicedeconance
7.1 Fonctionsutilisées dans lesalgorithmes 7.2, 7.3et 7.4 . . . 126
7.2 Programme principal . . . 127
7.3 Calculd'une ensemble minimald'itemsets . . . 127
Chapitre
1
Introduction Sommaire 1.1 Problématique . . . 2 1.2 Contributions . . . 3 1.3 Organisation du mémoire . . . 4L'extraction automatique de connaissances àpartirdes données peut être
consi-dérée comme ladécouverte d'informations enfouies dans de très grands volumes de
données. Ces informations,selonlatâche eectuée etlesalgorithmesmisen ÷uvre,
sontexpriméessouslaformede modèlesoudemotifs.Handetal.dénissentun
mo-dèle relativement à une structure globale qui couvre toutes les données alors qu'un
motif correspond à une description d'une partie de l'espace de données [HSM01].
Parmi les modèles on peut considérer les arbres de décision résultant d'une
clas-sication supervisée ou les clusters en classication non supervisée tandis que les
motifs sont souvent exprimés sous la forme de règles, par exemple dans le cas de
larecherche d'associations.Bienque l'approche proposée dans cette thèsesoit mise
en ÷uvre pour la recherche de motifs exprimés sous forme de règles d'association,
elleest égalementadaptée à larecherche d'autres formes de motifsetmodèles.Une
diérence essentielle entre les techniques statistiques et les techniques de fouillede
données réside dans le fait que ces dernières visent à construire les modèles de
fa-çon automatique, sans formuler d'hypothèses sur les relations liant les données et
en évitant ainsi de recourir à un expert. Cependant nous pouvons constater que
les approches actuelles ne permettent pas de s'abstraire de la présence d'un expert
du domaine pour sélectionner des résultats réellement intéressants et utilisables.
Les indicespermettant de caractériser lapertinence des informationsextraites sont
traditionnellement séparés en deux classes : les indices objectifs d'une part, et les
1.1 Problématique
Les approches objectives mettent en ÷uvre des mesures d'intérêt an d'évaluer
la précision des modèles extraits. Les nombreux travaux menés sur l'optimisation
des algorithmesd'extractionontaboutiàdes solutionsperformantesfournissantdes
modèles plus concis etplus ables. Cependant, dans lecadre d'un domaine donné,
il demeure toujours assez dicilede choisir des modèles pertinents en regard de la
connaissance métier d'un expert. De nombreuses approches dénissent des critères
de qualité guidant le choix d'une mesure ou d'un ensemble de mesures; toutefois,
la communauté n'est pas parvenue actuellement à un consensus sur le choix d'un
ensembledemesuresadéquates.Uneméthoded'aideàladécisionaétéproposéean
d'assister lesexperts dans lechoixd'une mesure adaptée à une situationdonnée.
Les approches subjectives, quand à elles, se sont focalisées sur des mécanismes
interactifsnécessitantl'interrogationd'experts dudomaineavantdepouvoirévaluer
les modèles extraits par les techniques de fouille. Elles se basent par exemple sur
l'expression de patrons qui modélisent les attentes et les connaissances des experts
etquisontensuiteconfrontés auxmodèlesextraitsgrâceàdes mesuresde similarité
prenant parfois en compte des relations taxonomiques. Ces approches demeurent
limitées car elles mélangent lesconnaissances explicites des experts (cellesqui sont
formulées et apparaissent sous forme de documents tangibles) et les connaissances
tacites,quirelèventplusdusavoir-faireetquidemeurentparfoisincertaines.D'autre
part l'absence de formalisme au niveau de l'expression des connaissances empêche
la mise au point de techniques automatiques de confrontation des modèles et des
connaissances qui pourraient proter de toute la richesse sémantique des
connais-sances des experts.
Avecledéveloppementdestechniquesdegestionetdereprésentationdes
connais-sancesilapparaîtplusaisé d'intégrerauprocessusdefouillededonnéesdes
connais-sancessémantiquementriches:lesontologies,parexemple,quiformalisentla
connais-sance et apportent un support exploitable de manière automatisée. Toutefois, à la
diérence des ontologies du domaine, les ontologiesà dénir pour la fouillede
don-nées doivent également contenir les connaissances nécessaires à la réalisation de la
tâche de fouille de données : ce sont des ontologies d'application. L'utilisation de
ce type d'ontologie tout au long du processus de fouille de données apparaît donc
Par ailleurs, un processus de fouille de données est habituellement considéré
comme éminemment itératif. Il est généralement mené de manière expérimentale,
par essais et erreurs. Bien que permettant de comparer deux modèles extraits, les
environnements dédiés à la fouille de données n'orent pas actuellement la
possi-bilité d'organiser de manière très rationnelle de véritables stratégies de fouille. Il
serait intéressant de disposer d'outils permettant de maîtriser la gestion des
expé-riencesetdecomparerdesmodèlesextraitsenfonctiondesvariationsdesparamètres
caractérisant lesexpériences.
1.2 Contributions
L'approche KEOPS que nous proposons dans ce mémoire a pour objectif
d'ap-porter de nouvelles solutions palliant en partie les limitations évoquées ci-dessus.
Les contributions de ce travail sont àla foisd'ordre méthodologique etapplicatif :
•
Uneméthodologiequiintègrelesconnaissances desexpertsd'undomainetout au long du processus de fouille. Cette méthodologie concentre l'interventionde l'expertdudomainelorsdelaphasedepré-traitementdesdonnées anque
l'intégrationde lasémantiquedu domainepuisses'eectuer dèslapréparation
des données. Cette étape devientainsi plus complexemais leprocessus global
de fouillede donnéesprotelargementdel'apportdes connaissancesexpertes.
•
Un systèmed'information dirigépar une ontologie(ODIS pour Ontology Dri-ven Information System) qui joue un rôle central dans le système KEOPS.L'ODIS est constitué d'une ontologie d'application et d'une base de données
relationnelle(MODB pour Mining Oriented DataBase) dont lesvaleurs et
at-tributs sont associés à des concepts de l'ontologie. Ce système d'information
permet d'organiser rationnellement la préparation des données mais aussi la
sélectionet l'interprétationdes modèles générés.
•
Une mesure pour évaluer l'intérêt des modèles générés prenant en compteles centres d'intérêt et le niveau de connaissance des experts. Cette mesure sebase sur une approche à la fois objective pour évaluer la précision des motifs
et subjective pour évaluer l'intérêt des modèles pour les experts du domaine.
Son originalité réside dans le fait qu'elle repose sur l'ODIS qui formalise les
relationsentre conceptsetfournitdes donnéesnettoyées etstructuréesausein
•
Lapossibilitéde dénirdes stratégies permettant d'améliorer le processus de fouillede données dans letemps en fonction des résultatsobservés. Lesdié-rents apports de l'approche KEOPS favorisent l'automatisationdu processus
defouillededonnées, etainsi,unedynamiqued'apprentissagepeutêtreinitiée
pour obtenirun processus de fouilleparticulièrementbien adaptéaudomaine
étudié.
La méthodologie proposée a été mise en ÷uvre dans le cadre de deux tâches de
fouille sur des données réelles. La première est du type CRM et répond à une
de-mande des CAF (Caissesd'AllocationFamiliales);laseconde concerne des données
médicales issues d'une étudesur l'athérosclérose.
1.3 Organisation du mémoire
Ce mémoire est organisé comme suit. La première partie, structurée en trois
chapitres, est consacrée à un état de l'art des approches existantes. Le chapitre 2
présente les approches objectives pour l'extraction de connaissances. Le chapitre
3 se focalise sur les approches subjectives. Le chapitre 4 décrit les méthodes de
représentation desconnaissances ainsi quelamanièredontces dernièrespermettent
d'intégrer laconnaissance à un processus de fouillede données.
La seconde partie est consacrée à la présentation complète du système, elle est
structurée en quatre chapitres. Le chapitre 5présenteles objectifs du système. Ces
objectifs guidentleschoix méthodologiquesetde conceptionainsi quelesméthodes
d'évaluationetd'explorationdesmodèlesgénérésparlafouille.Ce chapitreprésente
égalementunevued'ensembledu systèmeetjustie l'approchequiest adoptéedans
la suite du mémoire. L'expression des connaissances fait l'objet du chapitre 6. Au
chapitre 7 nous présentons notre méthode de confrontation des connaissances aux
modèlesgénérés parlafouillededonnées. Enn,danslechapitre8,nous présentons
les stratégies quipeuvent être misesen place an d'organiseret gérerlesdiérentes
expériences menées dans un processus de fouille de données.
Le chapitre 9 présente le bilan des travaux eectués et présente nos projets de
Chapitre
2
Approches objectives pour
l'extraction de connaissances
Sommaire
2.1 Introduction . . . 9
2.2 Critères de qualité . . . 10
2.2.1 Intelligibilité etsimplicité . . . 11
2.2.2 Critèresliésau type desmotifsà extraire . . . 13
2.2.2.1 Lesévénementsrares . . . 14
2.2.2.2 Lesmotifssurprenants. . . 14
2.2.3 Critèresliésaux propriétés intrinsèquesdesmesures . . . 17
2.2.3.1 Sensdevariation delamesure . . . 17
2.2.3.2 Étude desituations caractéristiques . . . 18
2.2.3.3 Naturedesrègles visées . . . 18
2.2.3.4 Naturede lavariationde lamesure . . . 19
2.2.3.5 Comportement par rapport à la couverture de
l'antécédent etduconséquent . . . 19
2.2.3.6 Fixationd'unseuil . . . 19
2.2.4 Critèresliésaucomportementdesmesuresenfonctiondes
données . . . 20
2.2.4.1 Ledéséquilibre deladistribution desclasses . . 20
2.2.4.2 Lecoûtdes attributs. . . 20
2.2.4.3 Lecoûtdes erreursde classication . . . 20
2.2.4.4 Priseen compte descontre-exemples . . . 21
2.2.4.5 Sensibilitéà lataille desdonnées . . . 21
2.2.4.6 Sensibilitéau bruit. . . 21
2.2.5 Formalisation matricielle de certainscritères . . . 22
2.2.6 Conclusion . . . 25
2.3.1 Agrégation de mesures . . . 25
2.3.2 La nouveauté commemesureunique . . . 26
2.3.3 Transformées anes delaconance. . . 27
2.3.4 Aide àladécision . . . 28
2.3.5 Conclusion . . . 29
2.4 Mise en ÷uvre des mesures dans les algorithmes . . . . 29
2.4.1 Algorithme d'extraction derègles d'association . . . 30
2.4.1.1 Extraction desitemsets fréquents . . . 33
2.4.1.2 Extraction desitemsets fermésfréquents . . . . 34
2.4.2 Algorithme derecherche d'événements rares . . . 34
2.4.3 Approchesévolutionnaires . . . 36
2.1 Introduction
Le volume importantde motifsgénérés lorsd'unprocessus de fouillede données
a conduit à la mise au point de techniques pour sélectionner les meilleurs d'entre
euxselondiérentscritères. Denombreusesmesures d'intérêtontétémisesaupoint
danslebutd'évaluerlaabilitéetlaqualitédecesmotifs.Desétudesontétémenées
pour énoncer des critères auxquels doivent répondre ces mesures (section 2.2). Une
approche diérente a été de clarier la situation, soit par la création d'une mesure
unique soit en aidant à choisir une mesure réalisant le meilleurcompromis selon le
contexte (section2.3).Enn, des algorithmesquiintègrentlesmesures àleur
méca-nisme ont été mis au point pour éviter d'utiliser les mesures d'intérêt uniquement
en tant que ltre appliquéaux modèles découverts (section2.4).
Danscettesectionlaplupartdesapprochesprésentéess'appliquentàl'évaluation
de motifs exprimés sous forme de règles d'association. Il est donc indispensable de
présenter lesnotations utilisées par la suite.
Dénition 2.1 (Table d'une base de données)
Une table d'une base de données est composée d'attributs dénis sur un domaine
de valeurs. Une table représente une relationde la base de données, c'est-à-dire un
sous-ensembleduproduitcartésiendes domainesd'unensembled'attributs.Chaque
ligne de la base de données est également appelée exemple, tuple ouobjet.
Dénition 2.2 (Item et itemset)
On dénit un item par un triplet{A,op,V} où:
•
A est un attribut•
opest un opérateur parmi<,≤
,>,≥
, =•
V est une valeurUn itemsetest constitué d'un ensemble d'items.
Remarque :Dans le cas de valeursdiscrètes seul l'opérateur= est utilisé.
Notation 2.1
Soit une règle
R
de laformeA → B
.On appelleAl'antécédentde larègleetB son conséquent.d'exemples qui contiennent respectivement les items de A et de B et
n(AB)
le nombre d'exemples quicontiennent à lafois A etB.L'objectif de ce chapitren'est pas d'eectuer un état de l'artdes diérentes
me-sures d'intérêt objectif. Unesynthèse complète sur ce sujet été réaliséepar Azéqui
introduit de plus des critères de choix sur les mesures d'intérêt [Azé03 ], ou encore
par McGarry qui établit un récapitulatif des diérentes mesures d'intérêt
objec-tif et subjectif [McG05]. Ce chapitre traite des diérentes approches utilisées pour
l'étude des mesures d'intérêt. La première partie examine les diérents critères de
qualitépourévaluerlesmesures.Ladeuxièmepartieprésentelestravauxuniantles
mesures d'intérêt. Latroisièmepartie présente diérentes solutionsalgorithmiques.
2.2 Critères de qualité
Freitas propose dans [Fre99] cinqcritères évaluer laqualité de mesures d'intérêt
utilisées dans le contexte de la classicationsupervisée :
•
Les événements rares, également appelés pépites de connaissances ou small disjunct en anglais•
Lecoût des attributs•
L'asymétriedes règles•
Ledéséquilibre de ladistribution des classes•
Lecoût des erreursde classicationToutefois, les trois premiers critères s'appliquent à des mesures qui évaluent de
façon individuelle les règles qui décrivent les modèles et non pas à des mesures
évaluant les modèles dans leur intégralité. Lallich et Teytaud ont, quand à eux,
dénis dix critères [LT04] qui ont été ensuite complétés par Guillaume [Gui00] et
Azé [Azé03] :
•
Compréhensibilitéde lamesure•
Nature des règles visées•
Prise en compte des contre-exemples•
Sens de variation de la mesure•
Nature de lavariationde la mesure•
Sensibilité à latailledes données•
Fixationd'un seuil•
Sensibilité aubruitDanscettesection,unaspectessentieldesmesuresestprésenté:leurintelligibilité
ouencore leur simplicitéde compréhension. Ensuite lesdiérentscritères proposés,
parfois similaires, sont classés en trois catégories : les critèresliés au type de motif
que l'on souhaite extraire, les critères liés aux propriétés intrinsèques des mesures
et lescritèresliés aucomportementdes mesures en fonctiondes données.
2.2.1 Intelligibilité et simplicité
Une première évaluation lors de l'étude de motifs est de considérer les mesures
de support et de conance dont le sens concret est parfaitement assimilable pour
l'utilisateur non spécialiste[LT04]. Nousrappelons lesdénitions ci-dessous.
Dénition 2.3 (Support)
Le support d'une règle
A → B
sur une tableT
est la proportion d'exemples deT
qui contiennent à lafois A et B. Il peut s'exprimer en terme de probabilité :Supp(A → B) = p(AB) =
n(AB)
n
Dénition 2.4 (Conance)
La conance d'une règle
A → B
sur une tableT
est la proportion d'exemples deT
qui contiennent B parmi ceux qui contiennent A, c'est-à-dire la probabilité conditionnellede B sachant A :Conf (A → B) = p(B |A) =
p(AB)
p(A)
=
n(AB)
n(A)
Le principal intérêt des mesures de support et de conance réside dans leur
grande intelligibilitépour les utilisateurs non statisticiens. Toutefois les approches
basées sur lesupport etla conance sourent de deux inconvénientsmajeurs. Dans
lesalgorithmesderecherche d'associations,leseuildesupportécartelesrèglesayant
untroppetitsupport,alorsqueparmiellescertainespeuventavoirunebonnevaleur
de conance etprésenter un réel intérêt! Une solutionest alors de baisser lavaleur
du seuil de support, ce qui engendre de nouveaux problèmes : le nombre de motifs
extraitsdevienttrèsgrandetlesalgorithmessontasphyxiés.L'utilisationdusupport
B
A
Fig. 2.1: Situationoù laconance est inférieureà 1
Le deuxième inconvénient est relatif à la dénition de la conance. En eet,
la faiblesse de la conance est de ne pas prendre en compte p(B), la proportion
d'exemples qui contiennent les itemsde B.
Remarque 2.1 Dans les gures 2.1, 2.2 et 2.3le rectangle représente l'univers
Ω
. L'ellipse bleue représente lacouverture du conséquent B d'une règle, l'ellipse jaunelacouverturede l'antécédentAd'une règleetl'ellipseverte l'intersectionde AetB.
Comme on peut le voir sur la gure 2.1, la conance n'est pas optimale dans
cette situation.Il existe alors trois situationsoùla conanceest améliorée:lorsque
la couverture de B inclut celle de A et met en évidence un événement rare (gure
2.2), lorsque la couverturede A est inclusedans cellede B (gure2.3a) oulorsque
la couverture de B couvre quasiment tout l'univers (gure 2.3 b). Dans ces trois
derniers cas la conance sera égale à 1, cependant si le cas représenté par lagure
2.2 est très intéressant, celui de la gure 2.3b n'apporte aucune information qui
puisse être intéressante puisque la probabilité de B approche de près laprobabilité
conditionnelle de B sachant A.
B
A
Fig.2.2: Événement rare avec une conance égale à1
La mesure de lift représente un bon compromis satisfaisant le critère
B
A
a) RègleintéressanteB
A
b) Règle inintéressanteFig. 2.3: Deux situationsdiérentes oùla conance est égale à1
part. Lelift permeten eetde fairela distinction entre lescorrélations positiveset
négatives entre antécédent et conséquent. Cependant c'est une mesure symétrique
qui ne diérencie donc pas larègle
A → B
de larègleB → A
.Dénition 2.5 (Lift)
Le lift d'une règle
A → B
représente sa distance à l'indépendance. Les attributsA
etB
sont indépendants lorsque :p(AB) = p(A) × p(B)
Lif t(A → B) =
p(AB)
p(A)p(B)
=
p(B |A)
p(B)
En conclusion, les approches utilisant des mesures simples et intelligibles ont
en contrepartie quelques inconvénients. En complément de celles-ci, il peut alors
être intéressantde faireappelà desmesures d'intérêt plus complexes. Cesdernières
pouvant toutefois introduire un biais il est important de connaître leurs propriétés
et leur comportement. Un certain nombre de travaux [Azé03 ][LT04][McG05] ont
été consacrés récemment à l'analyse, selon des points de vue divers, des diérentes
mesures proposées. Certains auteurs [Fre99][LMV
+
04][TKS02] se sont attachés à
dénir des critères de satisfaction.
Danslasuitede ce chapitrenous présentonsun étatde l'artde ces travauxselon
troisaxes:lescritèresliésautypedesmotifsàextraire,lescritèresliésauxpropriétés
intrinsèques des mesures et enn les critères liés aux propriétés des mesures vis à
vis des données.
2.2.2 Critères liés au type des motifs à extraire
Cette section présente les critères permettant d'extraire un type particulier de
motif.Nous nous intéressons au cas des événements rares età celui des motifs
2.2.2.1 Les événements rares
Leconcept d'événementrare correspondàune règledontlacouverturede
l'anté-cédentestfaible.SelonFreitas,lapriseen comptedes événementsrares estessentiel
an de mettreaupointune mesure d'intérêt. Cependantcet aspect est souvent mis
de côté lors de la fouille de données car, à première vue, ces règles sont
potentiel-lementsource d'erreurs. Eneet, en lesétudiant,on peut observer qu'elles peuvent
aussi bien représenter une exception véritable qu'un simple bruit.
Les mesures permettant d'évaluer les événements rares sont évidemment très
diérentes de celles permettant d'évaluer les règles ayant une large couverture. On
voitainsilanécessitéd'adapterlamesureautypede l'informationoudu motifciblé
par latâche de fouille.
2.2.2.2 Les motifs surprenants
Lesmesures baséessur lasurpriserelèventleplussouvent des approches
subjec-tivesdécritesdanslasection3.Cependant Freitaspropose dans[Fre98] de
s'intéres-ser àlamanièred'évaluerledegréde surprised'unerègledefaçonobjective.Dansle
cadre de ses travauxrelatifs à des règles de classicationil propose trois approches
diérentes :
•
une première relative auxévénements rares en utilisantla notionde générali-sationminimaled'une règle,•
une deuxième qui prend en compte l'eet de surprise de chacun des items d'unerègle,•
une troisièmesebasant sur la détection du paradoxe de Simpson.Généralisations minimales d'une règle
Soit une règle de classication
R : A → B
, A représentant une conjonction d'items1
:
A
1
∧ A
2
∧ ... ∧ A
k
.Onditquelai
ème généralisationminimaledeR
apour antécédentA
privé de l'itemA
i
etpour conséquent la classe majoritaire, sur lejeu de données, qui vérie A. Une règle d'antécédentA
de taille|A| = k
possède donck
généralisationsminimales.1
Exemple 2.1
Considérons une étude concernant l'analyse de laclientèle susceptible d'acheter un
ordinateur. La règle 2.1 possède trois généralisations minimales: lesrègles 2.2, 2.3
et 2.4.
Règle 2.1
Sexe="Homme"
∧
Revenus="Faibles"∧
Age="Jeune"→
AchetePC="Non"Règle 2.2
Sexe="Homme"
→
AchetePC="Oui"Règle 2.3
Revenus="Faibles"
→
AchetePC="Non"Règle 2.4
Age="Jeune"
→
AchetePC="Oui"Selon cette approche, plus le conséquent de la règle 2.1 est contredit par les
conséquentsdesgénéralisationsminimales2.2,2.4et2.3pluslarègleseraconsidérée
comme surprenante. Dans cet exemple, la règle 2.1 est donc surprenante car deux
de ses trois généralisationsminimalesne prédisent pas lamême classe Non .
Eet de surprise de chacun des items de l'antécédent
Selon Freitas, la plupart des mesures évaluant la surprise prennent en compte
l'antécédent d'une règle comme un tout, sans prendre en considération chacun de
ses items. Ces mesures sont appelées mesure de surprise à forte granularité. Ainsi
deuxmesuresdesurpriseàfortegranularité pourraientévaluerlasurprised'unerègle
de la même façon alors que celles-ci auraient un intérêt diérent pour l'utilisateur
si l'on avait considéré chacun des items lorsdu calculde l'intérêt.
Freitas propose donc une mesure de surprise à faible granularité se basant sur
la théoriede l'information[CT91]. Pour cela, il se base sur la mesurede gain
d'in-formation appliquéeàchacundes attributscomposantl'antécédent d'unerègle.Les
attributsavec un haut niveau de gain d'information sont de bons prédicteursde la
classe.Dans cette approche, lepostulatest queces attributssont très certainement
déjà connus de l'utilisateur et ne lui sont d'aucun intérêt. C'est ainsi que les règles
d'attributs mauvaisprédicteurs de laclasse. Chacun des attributspris
individuelle-ment n'est pas intéressant, mais une règle qui en réunitun grand nombre dans son
antécédent est potentiellementsurprenante et donc intéressantepour l'utilisateur.
Le paradoxe de Simpson
Ce paradoxe repose sur unedistribution particulièredes classes. Considéronsune
populationpartitionnéeendeuxpopulationsexclusives
P op
1
etP op
2
selonuncritèreCrit
1
. SoitG
un attribut binaire dénissant un objectif.G
1
etG
2
sont respective-ment les valeurs de l'objectif pour les populationsP op
1
etP op
2
. On dénitp(G
1
)
etp(G
2
)
les probabilitésquel'objectif étudiésoitvériésur lespopulationsP op
1
etP op
2
.Considérons le cas où chacune des populations
P op
1
etP op
2
est partitionnée selon un deuxième critèreCrit
2
possédantn
valeurs. On dénitalorsp(G
ij
)
la pro-babilitéquel'objectifsoitatteintpourchacunedes sous-populations,aveci = {1, 2}
l'identiantdeCrit
1
etj = {1, ..., n}
l'identiantdeCrit
2
.Leparadoxe de Simpsonapparaîtlorsque :
p(G
1
) > p(G
2
)
et
∀j = 1, ..., n
p(G
1j
) ≤ p(G
2j
)
etdans la situationduale :
p(G
1
) < p(G
2
)
et
∀j = 1, ..., n
p(G
1j
) ≥ p(G
2j
)
Exemple 2.2 (Cursus de formation et concours)
Des étudiants, an de préparer deux concours X etY décident de suivre des cursus
de formation an de s'améliorer. Ils ont le choix entre suivre le cursus A ou suivre
le cursus B. Cependant au moment de passer les concours, ils apprennent que les
deux ont lieuen mêmetemps! Chacunfait donclechoix de passerleconcours pour
l'école qui l'intéresse leplus.
Letableau2.1donnelesrésultatsduconcours (eneectifsetpourcentage),pour
Cursus A Cursus B
Concours X 29/30: 96,5% 1/1 : 100%
Concours Y 1/70: 1,5% 19/99 : 19,2%
Total 30% 20%
Tab. 2.1: Illustrationdu paradoxe de Simpson: Taux de réussite des étudiantspar
groupe etpar concours
Leparadoxe deSimpsons'illustreparlefaitqueglobalementlesétudiantsayant
suivislecursusAontmieuxréussisurl'ensembledesconcoursalorsquepourchacun
des concours le pourcentage de réussite des étudiants du groupe B est meilleur.Ce
paradoxeestdûaufaitque,lorsd'uneévaluationglobale,onneprendpasencompte
l'impact de la variable Concours et la répartition des eectifs dans les deux
sous-populations.
Freitas propose un algorithme de détection du paradoxe de Simpsonausein des
modèles générés an d'extrairedes informations surprenantes.
2.2.3 Critères liés aux propriétés intrinsèques des mesures
Lesmesures d'intérêtmisesaupointpeuventavoirdescomportementstrès
dié-rentslorsde l'évaluationdes règles. Nousprésentons iciquelques critèresde qualité
liés aux propriétés des mesures; ils prennent en compte le sens et la nature de la
variation d'une mesure, sa compréhensibilité, son comportement dans diérentes
situationsmais aussi la naturedes règles visées.
2.2.3.1 Sens de variation de la mesure
Piatetsky-Shapiro[PSF91]aproposétroiscritèrespourconstruireunemesure
m
ayant la capacité d'évaluer la corrélation entre l'antécédent et le conséquent d'unerègle :
•
Si A etB sont statistiquement indépendantalorsm(R) = 0
• m(R)
augmente de façon monotone avec n(AB) quand n(A) et n(B) restent constants• m(R)
diminue de façon monotone avec n(AB) quand n(A) et n(B) restentMajor etMangano ontintroduit un quatrièmecritère [MM95] :
• m(R)
augmenteavec n(A)avec une conance xéeconf (R) > p(B)
2.2.3.2 Étude de situations caractéristiques
Azé[Azé03]etGuillaume[Gui00]s'intéressentaucomportementdesmesuresdans
trois cas spéciques pour une règle
A → B
, quicorrespondent àdes situationsdans lesquelles l'intérêt de la règle est facilementévaluable :1. La règle ne vérie aucun exemple;
A
etB
sont totalement incompatibles :p(AB) = 0
2.
A
etB
sont indépendants :p(AB) = p(A) × p(B)
3.
A → B
est une règle exacte car sa conance est égale à 1 :p(AB) = p(A)
etA ⊂ B
Dans le premier cas, la règle
A → B
n'a aucun lieu d'être et l'évaluationd'une mesure devrait être égale à une valeur nulle ou à la valeur minimale associée à lamesure.Lesecondcascorrespond àunesituationd'indépendance entrelesattributs
etdevraitsecaractériserparuneévaluationégaleàlavaleurnulle.Enn,letroisième
cas détermine, selon Azé, une situationoù larègle représente un événement rare.
L'étudeeectuéecompare,selon cescritères, diérentes mesuresd'intérêt.Ainsi,
lorsque A et B sont indépendants un grand nombre de mesures prend une valeur
constanteetdonc indépendantede lataillede AetB. Demême,lorsque
A → B
est une règle logique, plusieursmesures prennent des valeurs constantes etévaluent demanière identiquelessituations représentées par lesgures 2.2et 2.3.
Il est donc intéressant, lors du choix d'une mesure, de prendre en compte sa
capacité àdistinguer ces situationscaractéristiques.
2.2.3.3 Nature des règles visées
Selon les travaux de Lallichet Teytaud une mesure d'intérêt devrait permettre
de [LT04] :
•
Faire la diérence entre les règlesA → B
etA → B
, les exemples de l'une étant lescontre-exemples de l'autre.•
Prendreencomptel'orientationdulienentreA
etB
:lesévaluationsdesrèglesexemples, leurs contre-exemples sont diérents. Ainsi une règle inversant la
cause etla conséquence ne devrait absolument pas avoirle même intérêt!
•
Faire la distinctionentreA → B
etB → A
: siles règles sont équivalentes au sens logique, elles ne le sont pas au sens des règles d'association car elles nesont pas vériéespar lesmêmes exemples.
2.2.3.4 Nature de la variation de la mesure
Lallich et Teytaud s'intéressent également à la variation linéaire des mesures.
Lesmesures peuvent varier de façonlinéaire ounon-linéaireen fonctiondu nombre
d'exemples ou de contre-exemples. Toutes les mesures créées par une transformée
anede laconance évoluent de façonlinéaire,cependant lesmesures nonlinéaires
présentent l'avantage d'être moins sensibles au bruit. En eet, une mesure
non-linéairevoitsavaleurchangerlentementàl'apparitiondespremierscontre-exemples.
Celaluiconfèreainsimeilleurerésistance aubruitquelesmesureslinéairesquivont,
dès les premierscontre-exemples, changer leur valeur de façon plus rapide.
2.2.3.5 Comportement par rapport à la couverture de l'antécédent et
du conséquent
Il est importantqu'une mesure prenne en considération lacouverture de
l'anté-cédentetduconséquentd'unerègle.Lorsquece n'estpaslecaslamesurepeutavoir
des valeurs égales pour des règles ayantun intérêttotalementdiérent :c'est lecas
pourlamesurede conancecommenousl'avonsexpliquéen section2.4.Lallich
sug-gère donc qu'une mesuresoitune fonction croissanteselon
1 − p(B)
, quireprésente larareté du conséquent.2.2.3.6 Fixation d'un seuil
Les mesures doivent pouvoir être utilisées avec un seuil d'élagage an de
sélec-tionnerlesrègleslesplusintéressantes d'entre elles.Lesmesures compréhensibleset
lesmesures normaliséespermettent àl'utilisateur de xer assez facilementun seuil.
Cependant, lorsque le seuil est xé par l'utilisateur, ce dernier prend rarement en
compte la nature des données ce qui peut conduire à une mauvaise interprétation
des résultats. Le calcul automatique du seuil est alors une approche intéressante;
2.2.4 Critères liés au comportement des mesures en fonction
des données
Une même mesure peut se comporter diéremment selon le jeu de données sur
lequel elleest employée.Nousévoquonsicilesdiérentsaspectsd'unjeude données
à prendre en comptelors de l'élaborationd'une mesured'intérêt.
2.2.4.1 Le déséquilibre de la distribution des classes
On parle de déséquilibre dans la distribution des classes lorsque les exemples
contenant une classe sont beaucoup plus fréquents ou beaucoup plus rares que les
exemples relatifs aux autres classes. Pour illustrer ce problème, prenons l'exemple
de données relatives à 2classes dont ladistribution est déséquilibrée.Découvrir les
règles concernant laclassemajoritairementprésente est trèsfacile,mais ilest
beau-coup plus dur de découvrir les règles décrivant la classe minoritaire. Selon Freitas
les règles prédisant une classe minoritaire, diciles à découvrir,sont intéressantes.
Inversement lesrègles décrivant la classemajoritaire sontplutôt inintéressantes.
Il est donc important qu'une mesure prenne en compte ce déséquilibre dans la
distribution des classes (voirsection 2.2.2.2).
2.2.4.2 Le coût des attributs
Certaines mesures prennent en compte l'antécédent d'une règle commeun tout.
Freitasmetenévidencelefaitqu'ilestintéressantdeconsidérerchacundesattributs
d'un antécédent comme une entité individuelle.Il présente ainsi lanotion de coût :
dans un cadre prédictif, deux règles ables statistiquement n'auront pas forcément
la même valeur si l'on prend en compte lecoût associéà chacun des attributs. Une
mesure d'intérêt devrait donc,à abilitéet utilitéidentiques, trouverles règles peu
coûteuses.
2.2.4.3 Le coût des erreurs de classication
Dans certains domaines, les erreurs de classication peuvent avoir des coûts
diérents. Par exemple, dans le domaine bancaire refuser un prêt à un bon client
(c'est-à-dire un clientqui vale rembourser)coûte moinscher qued'accepter leprêt
Lapriseencompteducoûtdeserreursdeclassicationestdonc,selonledomaine
d'étude, un paramètre àprendre en compteavant de choisir une mesure.
2.2.4.4 Prise en compte des contre-exemples
Une règlepeut êtreintéressante sison nombre d'exemples
n(AB)
est élevé ousi son nombre de contre-exemplesn(AB)
est faible. La plupart des mesures prenant encompten(AB)
considèrentimplicitementlescontre-exemples;cependantcertains auteursenvisagentunemesureévaluantn(AB)
,bienquelacomplexitéducalculsoit non négligeable.2.2.4.5 Sensibilité à la taille des données
Lallichfaitladistinctionentrelesmesuresdescriptivesetlesmesuresstatistiques.
Seloncette classicationlesmesures descriptivesne changent pasl'évaluationd'une
règle en cas de dilatation des données, c'est-à-dire lorsque tous les eectifs sont
multipliéspar un même facteur, etles mesures statistiquessont sensibles àla taille
de l'échantillonconsidéré.
A première vue, une mesure statistique semble plus intéressante. Si l'on xe la
taillede
A
etdeB
etque l'ondilate latailledes données, larègleA → B
décrivant lesdonnées dilatéesest plus intéressante car elledécrit une fraction des données; ilest donc possiblequ'elle ne soitpas encoreconnue!Toutefois,Lallichdémontre que
lorsque la taille des données devient très grande les mesures perdent leur pouvoir
discriminantetil devient très dicilede comparer l'intérêtde deux règles[LVL05].
2.2.4.6 Sensibilité au bruit
Le bruit est présent dans toutes les données réelles : il est engendré par les
erreurs de mesures, leserreurs de saisies, lesdonnées manquantes ouencore le
pré-traitement appliqué aux données. Lasensibilité au bruit d'une mesure est donc un
critère important. Cependant il demeure assez dicile de diérencier le bruit des
événementsraresetintéressants(voirsection2.2.2.1).Uneméthodeestd'utiliserdes
mesures ne variant pas linéairement (voir section 2.2.3.4) mais il existe également
d'autres approches baséessur lesévénements raresque nousprésentons parla suite
2.2.5 Formalisation matricielle de certains critères
Les mesures sont dénies à partir des fréquences d'occurrence des items dans
les données. Tan [TKS02] présente une approche dans laquelle, pour chaque règle
d'association
A → B
, ces fréquences peuvent être exprimées sous la forme d'une table de contingence 2x2 commel'illustrele tableau2.2.B
B
A
f
11
f
10
f
A
A
f
01
f
00
f
A
f
B
f
B
n
Tab. 2.2: Table de contingence 2x2 pour une règle
A → B
extraite de [TKS02] : chaquef
ij
représente une fréquence d'occurence dans les données.Tan dénit les propriétés d'une mesure en utilisant une formulation matricielle
dans laquelle chaque table de contingence est représentée par lamatrice
M
donnée ci-dessous :M =
f
11
f
10
f
01
f
00
!
Chaque mesure est représentée par un opérateur matriciel
O
, qui transforme une matriceM
en une valeur scalairek
tel quelOM = k
. On peut noter que A et B sont indépendants statistiquement lorsque le déterminant de la matrice est nul,c'est-à-dire lorsque :
Det(M) = f
11
f
00
− f
01
f
10
= 0
.Tan formalise aussi 5 propriétés qui, pour certaines d'entre elles, correspondent
aux critères dénisde manièreinformelle dans lasection précédente.
Symétrie de la mesure
Pour toutematricede contingence
M
,O
est ditesymétriquesiO(M
T
) = O(M)
;
sinon elleest diteasymétrique.Eneet,l'évaluationdesrègles
A → B
etB → A
ne devrait pasdonnerlemêmerésultatpourlesdeuxrègles.Siellesontbienlesmêmesexemples, leurs contre-exemples sont diérents. Ainsi, une règle inversant la cause
etlaconséquenced'unerègleRne devraitabsolumentpas avoirlemêmeintérêtque
B
B
A p qA
r s AA
B p rB
q sFig.2.4: Permutationdes variables
Invariance lors du changement d'échelle des lignes et des colonnes
Soient
R =
k
1
0
0
k
2
!
etC =
k
3
0
0
k
4
!
deux matrices carrées 2x2 où
k
1
,k
2
,k
3
etk
4
sont des constantes positives. LeproduitR × M
correspond à un changement de l'échelle de lapremière ligne de la matricepark
1
etde la deuxièmeligne park
2
tandisqueleproduitM × C
correspond àun changementdel'échellede lapremière colonnede lamatrice park
3
et de ladeuxième colonnepark
4
(gure2.5).Pourtoutematricede contingence
M
,unemesureO
estditeinvariantelorsd'un changement d'échelle des lignes et colonnes siO(RM) = O(M)
et siO(MC) =
O(M)
. BB
A p qA
r s BB
Ak
3
k
1
pk
4
k
1
qA
k
3
k
2
rk
4
k
2
sFig. 2.5: Miseà l'échelle des lignes etdes colonnes
Unemesurevériantcettepropriété seradoncplus portéesur lacomparaisonde
laproportiondes eectifsetne changera pas en fonctiondu changement de lataille
de l'antécédent oudu conséquent d'une règle.
Antisymétrie lors d'une permutation de lignes et de colonnes
Soit
S =
0 1
1 0
!
une matrice 2x2. Une mesure
O
normalisée (c'est-à-dire dontlesvaleurs sont comprises entre -1et 1),est dite :
•
antisymétrique lors d'une permutation de lignes si :O(SM) = −O(M)
pour toute matricede contingenceM
(gure 2.6);•
antisymétrique lors d'une permutation de colonnes si :O(MS) = −O(M)
pour toute matrice de contingenceM
.Une mesure antisymétrique lors d'une permutation de lignes et de colonnes ne
B
B
A p qA
r s BB
A r sA
p qFig. 2.6: Permutation des lignes
l'antécédent et leconséquent d'une règle. Il fautdonc prendre ce critère en compte
lors de l'interprétation des résultats!
Mesure invariante lors d'une inversion
Soit
S =
0 1
1 0
!
unematricede permutation2x2.Pour toutematricede
contin-gence
M
, une mesureO
est dite invariante lors d'une inversion siO(SMS) =
−O(M)
. Nous sommes dans un cas particulier de la propriété précédente où l'on eectue à la fois une permutation des lignes et des colonnes. Les mesures vériantcette propriété évaluent donc de lamême façonles règles
A → B
etA → B
(gure 2.7). BB
A p qA
r s BB
A s rA
q p Fig.2.7: InversionMesure invariante lors de l'ajout d'exemples vides
Une mesureest invariantelorsde l'ajout d'exemples vides si :
O(M + C) = O(M)
, oùC =
0 0
0 k
!
avec
k
une constantepositive.Cetteopérationconsisteàajouter destuplesquine contiennentaucundesitems
présentsdans larègleconsidérée.Cette propriétéest intéressantedans lesdomaines
oùlaco-occurence desitemsest plusimportantequeleur absencesimultanée(gure
2.8). B
B
A p qA
r s BB
A p qA
r s+kL'approche de Tan dénit donc des propriétés mathématiques permettant de
vérier la satisfaction d'un critère. L'antisymétrie et l'invariance au changement
d'échelle, par exemple,correspondent àdes critèresimportants.
2.2.6 Conclusion
An de répondre au mieux à la nécessité d'extraire des règles intéressantes, de
plus en plus de mesures ont été créées sans toutefois qu'aucune ne fasse le
consen-sus. Nousavons présentédiérentes études qui,bien que possédant quelques points
communs,constituentdes approchesdiérentes permettantdemettreen valeur une
mesure plutôtqu'une autreen fonction de critères diérents. Le choix d'unebonne
mesure reste donc un problème largement ouvert qui, comme le note Lenca dans
[LMV
+
04], résulte de plusieurs éléments :
•
ladiculté àcomparer des mesures caractériséespar des propriétéstrès dié-rentes,•
la diculté àexprimer lescritères de l'utilisateur à l'aide de ces propriétés,•
la diculté à intégrer des critères propres à l'utilisateur et à son domaine d'application,qui sont très subjectifs.2.3 Travaux sur les mesures d'intérêt
Dans la section précédente, nous avons vu que lesmesures sont souvent
hétéro-gènes de par leur comportement et leurs propriétés. Ainsi se pose le problème du
choixdelamesureadaptée auxbesoinsduprocessusdefouilleetdudomaineétudié.
Pour cela, deux approches peuvent être envisagées :la première consisterait à faire
lechoixdelamesurelaplusadaptée (sections2.3.1 et2.3.2),ladeuxièmeapproche,
quandàelle,conduitàtrouveruncompromisentre plusieursmesures(sections 2.3.3
et 2.3.4).
2.3.1 Agrégation de mesures
Barthelemy propose trois stratégies pour faire émerger un compromis entre
•
L'agrégationdirecte des mesures en une seule en utilisantune moyenne géné-ralisée.La diculté de cette approche étant de gérer lesdiérences d'échellesentre mesures.
•
L'agrégation des rangs induits par les diérentes mesures en un rang unique. Cependant l'agrégationordinalepose lesmêmesproblèmes queceuxprésentéspar Condorcet pour le choix d'unordre socialàpartir d'ordres individuels.
•
L'agrégation de relations valuées. Les classements sont des préordres totaux quisont généralisés sous formede relationsvaluées.Barthelemy propose de mettre en ÷uvre la troisième stratégie. Les relations
valuéespermettent d'échapperauxeets d'échelle. Ellespeuvent présenter de
nom-breuses propriétés comme la transitivité. L'un des avantages de la modélisation de
relations valuées est la retranscription des évaluations numériques.
Étant donné,
R = {r
1
, ..., r
k
}
un ensemble de règles et,µ
1
, ..., µ
m
les mesures sélectionnées, on considère que chaque mesureµ
j
induit une relation valuéeR
j
surR
.L'idéegénéraleest queladiérencenormaliséeentre lesvaleursprisesparla
me-sure
µ
j
sur lesrèglesr
i
etr
i
0
doitpermettrede modéliserun système de préférences sur l'ensembledes règles.La procédure d'agrégation produit une matrice carrée de valeurs entre 0 et 1,
chaque valeur représentant lapréférence agrégéed'une règle surune autre. Les
pré-férences sont alors représentées par des graphes où les arcs entre deux sommets
représentent la préférence d'une règle sur l'autre, la èche pointant sur larègle qui
est préférée.
2.3.2 La nouveauté comme mesure unique
L'approche de Lavra£ [LFZ99] a pour objectif de démontrer que quelques unes
des mesures utiliséestraditionnellementcommelaconance,la abiliténégative,la
sensibilitéetlaspéciciténe visentàexprimerqu'un seulcritère :lanouveauté,qui
selon ellejoueun rôle central dans lesmécanismes d'évaluationde règles.
Dénition 2.6 (Nouveauté)
La nouveauté est une mesurerelative dansle sens oùellecompare le supportd'une
A
etB
:Nouveaut´
e(A → B) = p(AB) − p(A)p(B)
Lavra£ propose alors d'exprimer les mesures traditionnelles relativement à un
seuilexprimantlavaleurattendue de larègle sousl'hypothèsed'indépendance (voir
tableau2.3).
P
P
P
P
P
P
P
P
P
P
P
Mesure FormeNormale Relative Relative pondérée
Conance
p(B|A)
p(B|A) − p(B)
p(A) × (p(B|A) − p(B))
Fiabiliténégativep(B|A)
p(B|A) − p(B)
p(A) × (p(B|A) − p(B))
Sensibilitép(A|B)
p(A|B) − p(A)
p(B) × (p(A|B) − p(A))
Spécicitép(A|B)
p(A|B) − p(A)
p(B) × (p(A|B) − p(A))
Tab. 2.3: Conance, abilité négative, sensibilité et spécicité exprimée sous leur
formenormale,relative etrelative pondérée
La conance relative, connue également sous le nom de conance centrée,
pos-sède toutefois un inconvénient : il est faciled'obtenir des règles avec une conance
relativeélevée etun supporttrès faible.On introduit alors
p(A)
dans lamesurean de pondérer la conance relative par le support de l'antécédent de la règle. De lamêmemanière,
p(B)
est introduitdanslecalculde laabiliténégativecarlesrègles générales ont une abilité négative élevée. L'utilisation de la pondération permetdonc de lutter contre les solutionstriviales.
Enn, Lavra£ démontre que ces quatre mesures relatives pondérées sont
équi-valentes à l'expression de la nouveauté qui est donc une mesure essentielle pour
l'évaluationde l'intérêt des règles. Cependant Azé fait remarquer que cette mesure
n'est pas adaptée àla recherche d'événements rares [Azé03 ].
2.3.3 Transformées anes de la conance
Lallich et Teytaud montrent que de nombreuses mesures d'intérêt s'écrivent
comme une normalisation de la conance par le biais d'une transformation ane
[LT04].
Si l'on considère une règle
A → B
, on peut dénir une transformation ane de laconancecommeunemesurem
quipeuts'exprimersouslaformeθ
1
(p(B|A)−θ
0
)
,avec
θ
0
etθ
1
ne dépendant que des margesrelatives de latable qui croiseA etB et éventuellement du nombre de tuplesn
présents dans la base de données [Azé03].Par le biais de cette transformation, on corrige la principale critique faite à la
conance au sujet de la prise en compte de la taille de B. Cependant les mesures
résultantes héritent de quelques unes des propriétés de la conance :
•
elles sontdes fonctionsanes du nombre d'exemples etde contre-exemples•
ellessontinvariantes en cas dedilatationdes donnéesdans lecasoùlefacteur d'échelle ne dépend pas den
2.3.4 Aide à la décision
Lenca et al. proposent d'utiliser un processus d'aide multicritères à la décision
an de prendre en compte les diérents aspects des mesures sans négliger le rôle
de l'utilisateur etses besoinsspéciques [LMV
+
04]. Ilprésente quatreproblèmes de
référence relatifsà ce type d'approche :
1. Choisir un sous-ensemblede mesures en vuede faciliterun choix nal.
2. Déterminertoutes lesbonnesmesures en éclairantladécisionpar untri
résul-tant d'une aectationde chaque mesure àune catégorie.
3. Classer les mesures de la meilleureà lamoins bonne.
4. Décrire lesmesures et/ouleurs conséquences de façonformalisée.
Lenca dénit cette approche dans le cadre des problèmes 1 et 3. Il propose de
structurer leprocessus d'aide àla décisionen quatre grandesétapes:
•
Établirla listeM
des mesures possibles.•
Établirla familleF
des critèresservant àévaluer lesmesures.•
Évaluer les mesures deM
sur les critères deF
an de bâtir des matrices de décision.•
Agrégerles performances en fonctionde laproblématique choisie.Les propriétés choisies pour évaluer les mesures sont traditionnelles et ont été
présentées dans la section2.2 :
1. traitement non symétrique de
A
etB
, 2. décroissance avecn
B
,3. évaluationde l'indépendance,
4. évaluationdes règles logiques,
5. non-linéaritéde
p(AB)
autour de0
+
,
6. prise en compte du nombre de cas
n
, 7. facilitéà xer un seuil,8. intelligibilitéde la règle.
Des valeurs et des évaluations ordinales sont proposées pour chacune de ces
propriétés ande lestransformer en critères. Ensuitepour chacune des mesures, les
critères sont évalués et le résultat est représenté au sein d'une matrice de décision.
La méthode Promethee-Gaia permet alors de déterminer des rangements et de
lesvisualiser sur un plan [BM02].
2.3.5 Conclusion
Les approches présentées proposent des solutions très diérentes cependant le
sujet de recherche reste ouvert. D'autres méthodes tentent de parvenir à un
com-promisaumoyen desolutionsalgorithmiques,commelesalgorithmesgénétiquesque
nous présentons dans lasection suivante.
2.4 Mise en ÷uvre des mesures dans les algorithmes
Nous avons précédemment introduit les diérents critères considérés pour
cons-truire une mesure d'intérêt ainsi que diérentes approches an de faire un choix
parmi elles. La plupart de ces approches s'eectuent dans une phase de
post-trai-tement lors de laquelle les règles précédemment générées sont ltrées selon une
mesure particulière. Il est également possible d'intégrer un ensemble de mesures
d'intérêt au sein d'un algorithme d'extraction. Nous nous intéressons ici aux
algo-rithmesutilisés en classicationouencoredans larecherche d'associations[AIS93a,
PBTL99a,PBTL99b,PBTL99c ]pour l'extractionde règles.Danscettesectionnous
présentons trois approches algorithmiques qui mettent en ÷uvre plusieurs mesures
d'intérêt. En premier lieu, la recherche de règles d'association, ensuite la recherche