• Aucun résultat trouvé

Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles

N/A
N/A
Protected

Academic year: 2021

Partager "Fouille de données complexes et logique floue : extraction de motifs à partir de bases de données multidimensionnelles"

Copied!
139
0
0

Texte intégral

(1)

HAL Id: tel-00413140

https://tel.archives-ouvertes.fr/tel-00413140

Submitted on 3 Sep 2009

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Fouille de données complexes et logique floue :

extraction de motifs à partir de bases de données

multidimensionnelles

Anne Laurent

To cite this version:

Anne Laurent. Fouille de données complexes et logique floue : extraction de motifs à partir de bases de

données multidimensionnelles. Interface homme-machine [cs.HC]. Université Montpellier II - Sciences

et Techniques du Languedoc, 2009. �tel-00413140�

(2)

HABILITATION À DIRIGER DES RECHERCHES

Dis ipline : Informatique

Spé ialitéDo torale : Informatique

É oleDo torale : Informatique,Stru ture,Systèmes(I2S)

Fouille de données omplexes et logique floue : extra tion de motifs à partir de bases de données

multidimensionnelles

Présentéeetsoutenuepubliquementpar

AnneLAURENT

le27avril2009

DEVANT LEJURYCOMPOSEDE :

B. Bou hon-Meunier(Dire tri e deRe her he), CNRS, Université Paris6, Examinatri e

C.Collet(Professeur),InstitutPolyte hniquedeGrenoble,Présidente E.Hüllermeier (Professeur),Philipps-UniversitätMarburg,Examinateur T.Martin(Professeur),UniversityofBristol,Rapporteur

J. Pei(Professeur),SimonFraserUniversity, Rapporteur

P.Pon elet(Professeur),UniversitéMontpellier2,Examinateur M.S holl(Professeur),CNAMParis,Rapporteur

(3)
(4)
(5)
(6)

I Introdu tion 7

1 Fouillede donnéesoue 15

1.1 Résuméset règlesd'asso iationous . . . 16 1.2 Motifsséquentielsous. . . 17 1.3 Règlesgraduelles . . . 18

2 Entrepts de données 21

2.1 Modélisation multidimensionnelle . . . 21 2.2 OpérationsOLAP . . . 23

3 Fouille de données oue et entrepts de données :

probléma-tique etdés 25

II Re her he de blo s au sein de données

multidimen-sionnelles 27

4 Dé ouverte de blo s ous à partir d'entrepts de données :

Dénitions, Propriétés etAlgorithmes 31

4.1 Dénitionspréliminaires . . . 31 4.2 Générationdesblo s . . . 34 4.3 Qualitédesreprésentations . . . 36

5 Extension des appro hes : prise en ompte des voisinages de

ellules etblo s multi-niveaux 39

5.1 Ranementdu al uldesblo s . . . 39 5.2 Blo smulti-niveaux . . . 41

III Extra tion de motifs séquentiels à partir

d'entre-pts de données 45

6 Motifsséquentielsmultidimensionnels 49

6.1 M

3

SP(MiningMultidimensionalandMulti-LevelSequentialPatterns) 49

(7)

7 Motifsséquentielsmultidimensionnelsousetprise en ompte

de la mesure 57

7.1 Dis rétisationdudomainedelamesure . . . 58

7.2 Lamesurepour al ulerlesupport . . . 61

IV Fouille d'entrepts de données et ex eptions 67 8 Règles multidimensionnellesinattendues 71 8.1 Règlesmultidimensionnellesinattendues:dénitions . . . 72

8.2 Pro essusd'extra tion . . . 75

9 Données inattendues et entrepts de données : une aide à la navigation 79 9.1 Comparaisondeséquen eparrapportàunensembledeséquen es 80 9.2 Algorithmes . . . 82

V Règles et motifs graduels 87 10Extra tion de règles graduelles à l'aided'une heuristique 91 10.1 Dénitionspréliminaires . . . 91

10.2 Heuristique . . . 93

11Une appro he exhaustive 97 11.1 Représentationdelagradualité . . . 97 11.2 Algorithmesd'extra tion. . . 98 VI Con lusion et Perspe tives 105 12Con lusion 107 12.1 Transfertste hnologiques . . . 107 12.2 En adrementsd'étudiants . . . 108 12.3 Versdenouveauxdés . . . 110 13Perspe tives 111 13.1 Fouilledestream ubes . . . 111

13.2 Gestiondesin ertitudes . . . 111

13.3 Skylinesous . . . 112

13.4 Entreptsdedonnéestempsréel . . . 112

13.5 Fouillede ubesdedonnéesnon-stru turéeset semi-stru turées . 113 13.6 Règlesetmotifsgraduels. . . 113

VII Annexes 121

(8)
(9)
(10)

Ce mémoire dé rit mes a tivités de re her he et d'animation de re her he depuismathèse,soutenueen2002.Lestravauxdé ritsi iontétéprin ipalement menés au LIRMM (Université Montpellier 2, CNRS UMR 5506), au sein de l'équipeTATOO.Dans e ontexte,je me suis atta héeà on ilierdes visions tropsouventvues ommedivergentesauseindes ommunautésliéesàlafouille dedonnées omplexes:gérerl'approximation(àlafoisdanslesdonnéesetdans lesrésultatsproduits), lafouille de donnéesetlesbases dedonnées omplexes et volumineuses, notamment les entrepts de données. Plus pré isément, mes travauxvisentàmontrerqu'ilestpossibledereleverledéjusqu'àprésentnon totalementsolutionnéd'extraire des onnaissan esexploitables parlesexperts non informati iens à partird'entrepts de données, en prenant en ompte au mieuxlesparti ularitésde edomaine.Enparti ulier,j'aiportéd'unepartune grande attentionà exploiter la dimension temporelle desentrepts et d'autre partàmontrerautant quefairesepeutque ou et passage àl'é helle nesont pas des notions antagonistes. Dans et obje tif, j'ai mené, dirigé, en adré et valorisé à travers des ollaborations s ientiques et industrielles des travaux dontje rapportei iunesynthèse.

(11)
(12)

This reportdes ribesmy resear ha tivitiesIhavebeen ondu ting forthe lastsixyears.Thisworkhasbeenmainly ledat theLIRMMlab(Univ. Mont-pellier 2, CNRS UMR 5506), within the TATOO group. In this framework,I haveputtheemphasisonputtingtogetherresear heldsthatwereseenas an-togonisti :managing theimperfe tion(onbothdataand dis overedpatterns) ontheonehand,dataminingonthese ondhand,and omplexandhuge data-basesontheotherhand.Morepre isely,myresear hworkaimsatstudyingthe useoffuzzy logi tominemorevaluablepatternsfrom datawarehouses,while remainings alable.Tothisaim, Ihaveled, ondu ted andsupervisedresear h andindustrialworkthatI dis ussherebyprovidingasyntheti alview.

(13)
(14)

Je tiens tout d'abord àremer ierTrevorMartin, JianPei et Mi hel S holl pouravoira eptéd'êtrelesrapporteursde etravail.Jesuishonoréequ'ilsaient onsa réde leurtempspré ieuxà et eet.Larenomméede es her heurset leur onnaissan edesdomainesasso iésàmontravailontpermisdenombreux é hangesfru tueux,et jelesenremer ievivement.

Je tiens également àexprimer mes remer iements aux autres membres du jury. En parti ulier,je tiensà remer ier Bernadette Bou hon-Meunier d'avoir a epté de revenir m'é outer, après es quelques années qui nous séparent de ma soutenan e de thèse. Sa présen e au ours de es dernières années et son a ueiltoujoursaussi haleureuxdanssabelleéquipeduLIP6m'ontpermisde maintenirdeslienssolidesave mesthématiquesde ÷urliéesautraitementde donnéesimparfaites.

Laprésen edeEykeHüllermeierdans ejuryestégalementunhonneurdont jesuistrèsheureuse.Lesdis ussionsfru tueusesquenousavonseueslorsdenos ren ontressontlereetdesagrande onnaissan edetouslessujets traitési i etontpermisdefaireavan erdenombreuxaspe tsdemontravail.

Enn,laprésen edeChristineColletestpourmoiunprivilègeetjetiensà laremer ierd'avoira eptédeparti iperà ejuryet deleprésider.

Jen'oubliebiensûrpasMaguelonneetPas alquim'ontoertun environne-mentdetravailri heetdynamiquequim'apermisd'apprendrebeau oupet de dé ouvrir de très nombreusesfa ettes de notremétier d'enseignant- her heur. Les (an iens et nouveaux) do torants de l'équipe m'ont apporté énormément et je tiens à les en remer ier également. Mer i don à Cé ile, Céline, Chedy, Federi o,Hassan,Haoyuan,Julien, Lisa,Mar ,Paola,Sarah,Yoann.

Je tiens également à remer ier mes ollègues du LIRMM et de Polyte- h'Montpellier, pour l'ambian e sympathique et dynamique qu'ils savent in-suer et la for e que ela donne tous les jours pour avan er. Mer i don à Christophe,Mathieu,Olivier,Sandra,et lesautreset tous euxquim'ontfait onan e en me onant des missions au ours desquelles j'apprends tant de hoses.

(15)

Demême,jetiensàremer ierlespartenairesindustrielssansquinotremétier ne serait pas tout à fait le même et auprèsde qui nous apprenonségalement tant.Mer idon enparti ulieràBénédi te,Cédrine,François,Françoise,Mi hel, Ni olas,Olivier,Ra helet Stéphane.

Certains travaux présentés i i sont issus de ollaborations nationales ou internationales et 'est toujours un plaisir de s'ins rire dans ette démar he d'é hanges,jetiensdon àremer ier haleureusementmespartenairesdans es aventures:Denis,Marie-Jeanne,Maria,Ni olas,Putri,Saifullah,Sadok,Sophie, YeowWei.

Enn,jetiensàremer iermafamillepoursaprésen epré ieuseeten parti- ulierPatri eet Salomépouravoira epté(eta epteren oremaintenant)de sa rierunpeudesweek-ends,va an esetsoiréesenfamille.

(16)
(17)
(18)

An réesàl'interse tiondeplusieursdis iplinesinformatiques(basesde don-nées,entrepts dedonnées, théoriedessous-ensembles ous,et fouille de don-nées), mes a tivités de re her he onsistent depuis 1999 à étudier omment rendre les méthodes de fouille de données robustes fa e à des données om-plexes:multidimensionnelles,hiérar hisées,arbores entes,numériques,et .tout en onservantungrandpotentielexpli atifauxrésultatsprésentésàl'utilisateur, elui- iétantsouventnoninformati ien.

Initiés au oursdemestravauxdethèse, es travauxsepoursuiventdepuis 2002auLaboratoired'Informatique,de Robotiqueet deMi ro-éle troniquede Montpellier(UniversitéMontpellier2).Dansle adredemathèse,j'avaismontré qu'il étaitpertinent de on ilier les domainesliés aux entrepts de données à lafouille dedonnéeset àlathéoriedes sous-ensemblesous. Ils'agissaitalors de représenter l'information potentiellementimparfaite du monde réel ausein d'entreptsdedonnéeset dedénirdesméthodese a eset pertinentespour extrairedesrèglesutilesauxutilisateurs.

Parlasuite, es travauxontétéétenduspourrépondreauxnouveauxdés liésàlafouillededonnées omplexes,notammentpourlapriseen omptedela temporalité,l'extra tione a ed'ex eptions,et lagestiondedonnéesenots auseindesentreptsdedonnées.

Entrepts de données : représentation et fouille

Les entreprises, qu'ellessoient grandes oumoyennes,voirede petite taille, sont maintenant ouramment dotées d'outils d'entreposage de leurs données. Véritablesgarantsdelamémoiredel'entreprise, esentreptssontsouventau ÷urdesoutilsdepilotagedel'a tivité tantauniveaudelaprodu tion,de la gestiondesprixoudesa tionsmarketinget ,qu'auniveaudelagestioninterne (e.g. resour eshumaines).

Des outils d'exploitation de es entrepts sontdisponibles (e.g. navigation OLAP, reporting). Cependant il reste di ile de doter les entreprises et leurs utisateursd'outils permettantdelesguiderautomatiquementversles onnais-san es a héessus eptiblesd'é lairerleurdé isionetdeguiderleurs hoix,que esoitparladéte tionautomatiquedetendan esouau ontraired'ex eptions. À lasuitede l'arti lefondateur deJ. Hanproposantde ouplerlesappro hes OLAP et lesméthodes defouille de données,dénissantainsi l'OLAP Mining [28℄, de nombreuses re her hes avaient débuté pour répondre aux nombreux hallengesquirestaientetrestentàrelever,notammentenraisondeladi ulté deréaliserun ouplageperformant,enraisondel'explosionduvolumedes don-néesetdelarapiditédeleurarrivéedansl'entrept,enraisondela omplexité des donnéesmaintenantintégrées (e.g. données non stru turées), et en raison delané essitédeprendreen omptel'imperfe tion desdonnées.

Au ours de ma thèse, j'avais hoisi d'ajouter à la vision OLAP Mining lassique la prise en ompte de l'imperfe tion des données réelles. Nous nous

(19)

étionsalorsintéressésàl'intégrationd'outilsavan ésau ÷urmêmedes entre-pts de données. Ces outils permettaient de prendre en ompte les imperfe -tionsdumonderéelens'appuyantnotammentsurlathéoriedessous-ensembles ous:représentationdedonnéesimparfaites(notammentimpré ises), interroga-tionexible. D'autrepart,unensembledeméthodesdefouillede esentrepts avaientété proposéesà la re her hede tendan es mais aussi d'inattendus, en respe tant là en ore le ara tère souvent imparfait des données sous-ja entes et lesbesoinsd'agrégationet d'approximationné essaireàunrendu pertinent pourlesexperts.

Lare her hedetendan esavait alorsprislaformederésumés multidimen-sionnels ous. Les appro hes proposéesvisaientprin ipalement : d'une partà doterlesappro hesouesd'outilsdefouille dedonnéespuissants(algorithmes de re her heave propriétés de oupurede typeAPriori) et d'unautre téà doterlesoutilsdefouillededonnéesdesémantiquepluspro hedel'utilisateur ave des résumés ous : résumés inter-dimensions , intra-dimensions (e.g. la plupart desventes del'EST sontee tuéesàBoston),ou ranement de résu-més(e.g. produ tiond'unrésuméàniveaudegranularitéélevé: peudeventes au deuxième trimestre 1995 on ernent les produits de amping puis rane-mentsouhaitéparl'utilisateursuruneouplusieursdimensions: peudeventes audeuxièmetrimestre1995 on ernentdestentes).Plusieursméthodesavaient égalementétéproposéespourdé elerles ellulesanormalementvides.

Cestravauxontétéétenduspourfairefa eauxenjeuxdesnouvellesformes debasesdedonnéesetauxbesoinsdesutilisateursdeplusenplusémergents.

Entrepts de données et fouille de données : les

nouveaux dés

Comme vu pré édemment, mes travaux de thèse (Université Paris 6) ont permisdemontrerqu'ilétaitnonseulementpossiblemaisaussiprometteur de ouplerlesentreptsdedonnéesetlesméthodesdefouillededonnées(en parti- ulierfouillededonnéesoue).Ainsi,lesaspe tsmultidimensionnelsavaientété pris en ompte, laspé i ité delamesureavaitégalementété onsidéréepour dénirplusieurstypesde omptagedusupportdesrésumés.Leséléments inat-tendusavaientétéétudiés( ellules anormalementvides).Cependant,lanature desdonnées omplexesliéesauxentreptsdedonnéesalevédenouveauxdés.

Enparti ulier,lefaitquelesdonnéesd'entreptssonthistoriséesn'avaitpas été exploité. Monarrivéeau LIRMM adon été apitalepourprendre pleine-menten omptelesspé i itésdesentreptsgrâ eàleurexpertisesur l'extra -tion de motifs séquentiels

1

. De manière duale, j'ai pu orienter les re her hes

1. On appellemotifséquentielun motifdelaforme

<

{a, b}{a, d}{e} > x%

a, b

,

d

et

e

sontdesitems,

{a, b}

,

{a, d}

et

{e}

sontdesitemsets(ouensemblesd'items)et

x

estle support.Onlitalorsx%destransa tionsdelabasededonnées ontiennent

a

et

b

puis

a

et

d

puis

e

.Parexemple20%des lientsa hètentdubeurreetdelamoutardepuisdubeurre etdes hipspuisdupain estuntelmotif.

(20)

menéesauseindel'équipeverslapriseen ompted'entreptsdedonnéesd'une part,et dedonnées et règles impré isesd'autrepart. De plus,l'avénement de nouvellesstru turesdebasesdedonnées omplexes onstituedenouveauxdés qu'ils'agissaitderelever:donnéesditesenot,donnéesarbores entes,données numériques,et . Enn,il devenait ru ial,auvudes demandesdesentreprises ets ientiquesave lesquelsnous ollaborions,deproposerauxutilisateursdes outilsleurpermettantnonseulementd'extrairedes onnaissan esgénérales (ten-dan es),maisaussidesex eptions.

C'est don tout naturellement vers es sujets que j'ai orienté mes travaux aprèsmonarrivéeauLIRMM.

Contributions et organisation du mémoire

Dans l'obje tif de on ilier d'une part l'appro he prometteuse développée pré édemment liant fouille de données d'entrepts et logique oue, et d'autre partla nouvelledonne (né essité de mieux prendre en ompte les données sé-quentielles,lesdonnées omplexes,etlagestiondesex eptions),j'aimisenpla e etmenédiérentesa tionslorsdes inqdernières annéesauLIRMM, dontj'ai assurélaresponsabilitéoula o-responsabilité.

 des en adrementsdethèse (huit théses o-en adréesdonttrois déjà sou-tenues,et uneen oursdenalisation),

 des ollaborationss ientiquesnationales(EMA,INSERM,INRIA Sophia-Antipolis,UniversitéMontpellier3,Orsay,Cergy-Pontoise,Paris6,Tours, 1projetsupportéparl'ANR) etinternationales(Allemagne, Canada, In-donésie,Malaisie,Pakistan,Tunisie),

 des ollaborationsindustrielles(IBM,EDF R&D,etso iétésin ubées ré-gionales).

Dans le adre de notre ollaboration ave la Malaisie, nous nous sommes intéressésàladé ouverte deblo sdedonnées homogènesausein de ubes de données,travauxquenousrapportonsdanslapartieII.Ils'agissaitalorsd'être apablesdedéte terautomatiquementdeszones(parexempleunezone orres-pondantàdesventesassezfortes)andeguiderl'utilisateurdanssanavigation auseindedonnéesOLAP.Ces travauxsontrapportésdanslapartie II.Ils in-tègrentnonseulementlapriseen omptedesspé i itésdesentreptsde don-nées(hiérar hies),maisaussiladénitionsoupledelanotiondevaleurdublo . Ainsi,nousétudionsdesblo s ontenantexa tementlamêmevaleurdemesure (par exemple une zone orrespondant à des ventes de

500

unités), ontenant unevaleur omprisedans unintervalle(parexempleunezone orrespondantà desventes omprisesentre

320

et

512

unités),ou ontenantunevaleur omprise dansunintervalleou(parexempleunezone orrespondantàdesventes assez fortes, 'est-à-dire autour de 400unités). Les propriétésexhibées par nos tra-vauxnousontpermisdedénirdesalgorithmese a es.Notonsqueparsou i de synthèse, nous ne rapportons pas i i les résultats expérimentaux présents danslespubli ations.

(21)

Cependant esappro hesnepermettentpasdeprendreen omptela dimen-sion temporelle des entrepts alorsque l'historisation est l'une des ara téris-tiques entralesde etypedebasesdedonnées.Lestravauxréalisésauseindu LIRMMontdon été entréssur etteproblématique.

An de permettre l'extra tion de motifs séquentiels à partir de bases de données séquentielles numériques jusqu'alors impossibles à fouiller, j'ai don proposéladénitiond'algorithmesd'extra tiondemotifsséquentielsous.Ces travauxontété menés dans le adrede la thèse de C.Fiot. Ils ont permis de poserlespremiersjalonsdel'intégrationdeméthodesouesdanslepro essusde fouillededonnéesintégrantladimensiontemporelle.Ils'agissaitalorsnonplus detrouverdesmotifsséquentielstelsque20%des lientsa hètentdubeurreet delamoutardepuisdubeurreetdes hipspuisdupain maispluttdesmotifs dutype20%des lientsa hètentunpeudebeurreet unpeudemoutardepuis beau oupdebeurre etunpeude hipspuisbeau oup depain.

Cependant, es motifs n'intégrent pas lamulti-dimensionnalité qui est elle aussiau ÷urdel'appro heentreptsdedonnéesetquin'avaitpasététraitéede manièresatisfaisantedanslalittérature.Nousavonsdon proposédedénirles motifsséquentielsmultidimensionnelsdansle adredenotre ollaborationave laMalaisie,etdansle adredelathèsedeMar Plantevit.Cestravaux,présentés danslapartieIII,permettentalorsd'extrairedesmotifs delaforme23% des lientsonta hétéuneplan hedesurfetunsa àNewYorkpuisune ombinaison à San Fran is o. Ce motif permet de mettre en valeur des orrélations entre plusieurs dimensions (ville et produit) et extrait les diérentes ombinaisons de valeurs au ours du temps, e qu'au une autre méthode ne permettait de réaliserjusqu'alors.Lesalgorithmesproposéspermettentégalementde ombiner desniveauxde hiérar hieet s'interrogentsurlafaçondeprendreen omptela mesuredes ubesdedonnéesdans e ontexte.

Cependant, il est apparu que de nombreux utilisateurs (et notamment les partenaires industriels de EDF R&D ave lesquels nous ollaborions) souhai-taientnonseulementextrairedetellestendan esàpartirdeleursentreptsde données,maisaussides omportementsatypiques, andemettre envaleurles dysfon tionnementsdeleursorganisations.

Nous avonsdon déni des méthodes originales de re her he d'ex eptions au seinde donnéesd'entrepts. Deux méthodesprin ipales ont été proposées, quenousrapportonsdanslapartieIV.Lapremièreméthodepermetd'extraire des règles multidimensionnelles inattendues. Il est ainsi possible de dé ouvrir desrèglesdutypeles lientsdusud delaFran ea hètentdesbottespuisdes lunettesdesoleil alorsqueles lientsdusuddelaFran equisontàla retraite a hètent des bottes puis des parapluies. La deuxième méthode quant à elle propose une aideà lanavigation. Par exemple, si l'utilisateur est désireux de naviguerdanssesdonnéesenfon tiondelalo alisation,ilpourra,pour haque niveaudegranularité (parexemple larégion),repérer lavaleur orrespondant auxdonnéeshistoriséeslesplusatypiquesen omparaisondesautres,puis hoisir de se fo aliser sur un sous-ensemble de données (e.g. une région parti ulière) pourpoursuivresoninvestigationàunniveauplusn(e.g.verslesvilles).

(22)

Les méthodes que nous avons proposées sont don sémantiquement très ri hesetpermettentde ouvrirdenombreusesutilisations.Cependant,untype de règlesest malheureusementtrop souventoublié : lesrègles graduelles (par exemplePluslemurestpro he,plusletraindoitfreinerfort).

Nousavonsdon proposédedénirdesalgorithmese a espourfairefa e à e problème. Peu étudiée en raison de la omplexité du problème asso ié, l'extra tiondetellesrèglesest ependant ru ialepuisqu'ilexistedenombreuses appli ations,notammentdansledomaines ientique(donnéesliéesàlasanté). Orau un algorithmee a e n'existait. Le sujet de post-do torat de C. Fiot, ee tuéen ollaborationave l'INRIASophia-Antipolis,adon étéproposépour répondreà edé, etaétésuiviparlamiseenpla edelathèsedeL.Di Jorio. Il s'agit de dénirdes algorithmes e a es tant en terme de temps de al ul qu'entermesd'utilisationmémoire,raisonpourlaquellenoustravaillonssurdes stru tures de données optimiséeset re her honsdes propriétés permettant de réduirela omplexité des al uls (voirpartie V). Notammentappliquées àdes donnéesissues du domaine de lasanté, es algorithmesdoivent en parti ulier être apablesdegérerdesbasesdedonnées ontenantpeudelignesetbeau oup de olonnes.Diérentesformesderèglessontre her hées,selonqu'ellesprennent en omptelatemporalité(Plusun lienta hètedebeurre,moinsila hèteradu laitplustard), ounon(Plus un lienta hètedebeurre,plusil a hètedulait etmoins ila hètede hips).

Notonsque emémoireneseveutpasexhaustifetneprésentepasl'ensemble demesa tiviésendétail.Enparti ulier,nousn'abordonspasi ilestravaux me-néssurlafouillede donnéesarbores entesréalisésdansle adredelathèse de Federi oDelRazoLopez.Notonsque estravauxsonttrèsliésau ontextedes entreptsdedonnéespuisquelafouille detellesdonnéespeutêtreutiliséedans unpro essusdemédiationaumomentd'interrogerdessour esdedonnées dis-perséesethétérogènespourla onstru tiond'unentrept.Demême,nesontpas rapportési ilestravauxen adrésdansle adredelathèsedeDong(Haoyuan) Liquis'intéresseàlare her hedemotifsséquentielsex eptionnelsdansle adre dedonnéesnonissuesd'entrepts(données textuellesnotamment).

(23)
(24)

Fouille de données oue

Lathéoriedessous-ensemblesousaétéintroduiteparL.Zadehen1965an depermettrelareprésentationdes onnaissan esimparfaites[62℄.Cettethéorie oreun adreformelpourmanipulerdesdonnéesimpré iseset/ouin ertaines. Par exemple, il est possible de modéliser mathématiquement des données du typejeuneoùunindividu appartientplus oumoins(de manièregraduelle) au on eptjeune.

Demanièregénérale,unsous-ensembleoudel'univers

X

estreprésentépar safon tiond'appartenan eprenantsesvaleursdans l'intervalle

[0, 1]

. Pourun sous-ensembleou

A

del'univers

X

,onnote

µ

A

lafon tiond'appartenan ede

A

,ave

µ

A

: X → [0, 1]

.Pour

x ∈ X

,

µ

A

(x)

représenteledegréd'appartenan e de

x

ausous-ensembleou

A

.

Onappellesupportl'ensembledesvaleursde

x ∈ X

tellesque

µ

A

(x) > 0

et noyaul'ensembledesvaleursde

x ∈ X

tellesque

µ

A

(x) = 1

.

La Figure 1.1 illustre un exemple de sous-ensemble ou ave la fon tion d'appartenan easso iée.

Figure1.1Exemple desous-ensembleou

(25)

pourlequel ledegré d'appartenan evaut soit

0

soit

1

et non pastoute valeur entre

0

et

1

.

La théorie des sous-ensembles ous a été très longtempsutilisée dans des systèmesdédu tifs,reproduisantleraisonnementhumaindansle adrede sys-tèmes disposant de bases de onnaisssan es ( ommande oue). De nombreux su èss ientiqueset ommer iauxontémergédetellesappli ations.Depuisde nombreusesannées,lessystèmesindu tifs sesontpourtantégalement dévelop-pés,etplusré emment,lesméthodesdefouillededonnéesouesontapparues. Ces dernièresontpourparti ularitédepouvoirtraiterdesdonnéesimparfaites et/oudeproduiredesrèglesintégrantl'impré isioninhérenteàtouteextra tion detendan e.Nousprésentonsbrièvement i-aprèslesdomaineslespluspro hes destravauxquenousavonsee tués.

1.1 Résumés et règles d'asso iation ous

Les résumés ous ont été étudiés depuis ledébut des années 1980. Un tel résuméest parexempledonnéparlaphraselaplupart desexperts importants sontjeunes.

De manière plus formelle, soit

Q

un quanti ateur (e.g. la plupart),

S

un termederésumé(e.g.jeune),

y

lenomdelarelation ontenantles

n

donnéesà résumer

y

1

,...,

y

n

(e.g.experts),

B

unevaleurd'attributde

y

(e.g.important) et

τ

le degré de vérité du résumé, lesrésumés générés sontalors de la forme [36,35,55℄:

QB y sontS :

τ



On onsidèreunensembledequanti ateursetdetermesderésumés onnus a priori (donnés parle système et/ou par l'utilisateur). Le système al ule le degréde vérité pour ha unedes ombinaisonspossiblesde

Q

et

S.

Les quan-ti ateurset les termes derésumésontdessous-ensemblesous.Les premiers sontdénissurl'intervalle

[0, 1]

et lesse ondssurl'intervallededénitionde

y.

L'introdu tiondesous-ensemblesousapporteplusdesouplessequedes quan-ti ateursettermes lassiques.Ilssontreprésentésparleursfon tions d'appar-tenan e;

Q

et

S

sontainsirespe tivementreprésentéspar

µ

Q

et

µ

S

.

Ledegré

τ

estalors al ulédelamanièresuivante:

τ = µ

Q

1

n

n

X

i=1

µ

S

(y

i

)

!

(1.1)

(26)

donnéesvériantle ritère(ou ounon)

B

, on al ule e degré de lamanière suivante:

τ = µ

Q

1

n

n

X

i=1

⊤(µ

S

(y

i

), µ

B

(y

i

))

!

(1.2)

est unopérateurdetypet-norme.

Dans la ontinuité de es travaux, j'avais développé au ours de ma thèse des méthodes d'extra tion de résumés ous à l'aide d'algorithmes par niveau andepermettrel'appli ationsurdegrandsvolumeset lepassageàl'é helle.

Deplus,desextensionsauxrèglesd'asso iationouesexistent,andeprendre en ompte au mieux les attributs numériques en les partitionnant non pas à l'aidede seuilsstri ts, maisàl'aide d'intervallesous [41℄. Lesrèglestrouvées sontalors delaformeSi l'âgeest moyen Alorsle salaire est élevé oùmoyen etélevésontdessous-ensemblesous.Detellesrèglespermettentdemieux ap-préhenderlesbasesdedonnées ontenantdesattributsnumériques,puisqueles algorithmes lassiquestransforment esbasesenbasesdedonnéesbinaires (pré-sen e/absen e),oubliantalorsl'informationpourtantimportantedelaquantité. Ilestparexempletrèsdiérentde onsidérerun lientayanta heté1bouteille etun lientayanta heté3500bouteilles.Orlesméthodes lassiques onsidèrent esdeux lients ommetotalementsimilaires,puisqu'ilyaprésen ed'aumoins1 bouteilledansleursa hats.Notonsque esméthodes onstituentuneextension de l'appro hede [56℄ proposant une dis rétisationstri te par intervalles pour trouverdesrèglesdelaforme10%despersonnesmariéesayantentre50et 60 ansontaumoins

2

voitures.

Lors de l'extra tion de telles règles d'asso iation oues, les dés soulevés, outre la dénition des sous-ensembles ous eux-mêmes (e.g. omment dénir qu'unâgeest moyen?), sontalors ladénition du omptage [18℄ et l'étude de propriétésintéressantespourlamiseenpla ed'unalgorithmepro édantleplus possibleàdes oupures(surleprin ipedel'anti-monotonie).

Ces travaux ont été étendus au ontextedes motifs séquentiels ous dans le adre du travail de C. Fiot (thèse o-en adrée ave M. Teisseire) présenté i-dessous.

1.2 Motifs séquentiels ous

Lesmotifsséquentielsouspermettentlapriseen omptededonnées numé-riques,extrayantdesinformationsdelaforme60%des lientsa hètentbeau oup de pain puis peu de gâteauxoùpeuet beau oup sontdes sous-ensemblesous dénissurl'universdesquantitésdeproduitsa hetés.

(27)

Danssathèse,C.Fiotaproposédesdénitionsd'item,itemsetet séquen e ousintégrantlapriseen omptedesous-ensemblesous.Troisméthodes d'ex-tra tionde telsmotifs séquentielsous (Speedy Fuzzy, Mini Fuzzy et Totally Fuzzy)ontétéproposées,permettantdemoduler ledegré d'approximationdu support et la rapiditéde son al ul. Ces travaux ont permis de ompléter les premièresappro hes présentéesdans [30℄ qui ne permettaientpas debien dis-tinguer entre dates et ne dénissaientpas d'algorithmes e a es. De plus,ils ontété appliqués ave su ès au problème di ile du traitement de bases de donnéesin omplètes.

Dans la ontinuité de es règles et motifs ous exprimant des tendan es telles queSil'âge estmoyen Alorsle salaireest élevé, nousnoussommes in-téressésàl'extra tionderèglesgraduellespermettantd'exprimerdestendan es dutype Plus l'âge est moyen, plusle salaire est élevé. L'extra tiondetelles règlesétantrendue très di ile parla omplexité destraitementsàmettre en ÷uvre(explosion ombinatoire),il n'existaitque trèspeudetravaux.Nousles rapportons i-dessous.

1.3 Règles graduelles

L'ordonnan ementde données est un problème onnu en informatique qui adonné lieu àde nombreux travaux.En fouille de données,on peut iter par exemplelestravauxliésàlafouillededonnéesdepréféren es,àl'extra tionde top-k,ainsiqu'à lare her hed'ordonnan ementsdevaleursdemesure ausein de ubesmultidimensionnels[14℄ quiestunproblèmenp-di ile.

Dans notre appro he, nous nous intéressons au problème de la re her he derèglesgraduellesdansdesdonnéesmultidimensionnelles ontenantplusieurs attributsmunisd'unordre(attributsnumériquesparexemple).Detellesrègles ontlaformegénéralePlus(moins)

A

1

et...plus(moins)

A

n

alorsplus(moins)

B

1

et ...plus(moins)

B

n

.

Denombreuxtravauxontétéproposéspourlare her hederèglesgraduelles. Lanotiondegradualité,etplusparti ulièrementderèglesgraduelles,a majori-tairementétéétudiée dansla ommunautéoue.Celles- iétaientutiliséesdans le but de modéliser des systèmes experts. L'a ent n'est alors pas missur la manière de les extraire, mais plutt sur leur rle au sein de systèmes à base de règles(parexemple,Plus lemur est pro he, plusletraindoit a tionnerle frein,voirparexemple [22℄). [20℄ proposentun adrethéorique omplet pour laformalisationdesrèglesgraduelles,et omparentdiversesimpli ationsoues pour mesurer les dépendan es graduelles. L'impli ation la plus utilisée reste Resher-Gaines(

A(X)

est dedegréd'appartenan ede

X

ausousensembleou

A

):

X →

RG

Y =



1 if A(X) ≤ B(Y )

(28)

L'équation(1.3)assurequeledegréd'impli ation de

X

est ontraintparle degréd'impli ationde

Y

.Ainsi,silavaleurde

Y

augmente,alors ellede

X

peut augmenter,assurantqueplus

Y

est

B

,plus

X

est

A

.Cependant,l'impli ation deResher-Gainesest restri tiveet rendla onjon tion di ileàimplémenter.

[31℄rempla elestables de ontingen e représentantdesrèglesd'asso iations pardesdiagrammes de ontingen e. Puis,les orrélationsentre variationssont extraites à l'aide d'une régression linéaire dire tement appliquée sur les dia-grammes.Les oe ients depente et de qualité dela régressionpeuventêtre utilisésande dé iderdelavaliditéd'unerègle.Cependant, etteméthode ne peutêtreappliquéesurdesjeux ontenantungrandnombred'attributs, arla régressionlinéairepeuts'avérertrop oûteuseenterme detemps.

And'éviterdesjointurestrop oûteuses,[4℄proposentl'utilisationde l'al-gorithmeApriori.Ainsi,lesitemsetsgraduelssontdénisàl'aidedesopérateurs

{<, >}

,et labase dedonnéesesttransforméeen unebase de ouplesd'objets. La fouille s'ee tue alors dire tement àpartir des ouples. Le support est re-déni ommelaproportionde ouplessupportantunevariationparmitousles ouples de la base. Cette méthode est la première permettant de prendre en omptedes onjon tionsdevariations,aussibien roissantesquedé roissantes, dans la ondition et la on lusion de la règle. Cependant, la base de ouples asso iéeauxsous-ensemblesousrendlaméthode omplexed'unpointdevue al ul, e qui empê he lepassageàl'é helle.Les expérimentationssur jeux de donnéesréelles,bienqueprometteusesdeparl'intérêtdesrèglesextraites,sont menéessurune base ontenantseulement6attributs.

Commenousl'avonsvudans e hapitre,lathéoriedessous-ensemblesous permet d'extraire,àpartir debases de données(notamment numériques), des règles et motifs intéressants. Si la dénition d'algorithmes e a esfa e à de trèsgrosvolumesdedonnéesn'estpasaisée,enraisondel'espa edere her he souventaugmentéparlapriseen omptedel'imperfe tionpossible,ilexistetout demêmedenombreusespropriétéssurlesquellesilestpossibledes'appuyerpour résoudre esproblèmes.

Ilestdon toutàfaitraisonnabled'envisagerl'appli ationdetellesméthodes de fouille de données oue à des bases de données omplexes telles que les entrepts de données. Monobje tif adon été de on ilier es domainespour proposer des méthodes originales de ouplage entre entrepts de données et fouillededonnéesoue.

An demieux omprendrelesdésasso iésà es données omplexes,nous présentonsbrièvement,dansle hapitresuivant,lesprin ipales ara téristiques des ubesdedonnéesetintroduisonsensuitedemanièreplusdétailléel'ensemble de la problématique qui a été au ÷ur de nos préo upations es dernières années.

(29)
(30)

Entrepts de données

Lesentreptsdedonnéessontapparussousl'implusiondebesoinsindustriels fortspoursto kerdesdonnéeshistoriséesàdesnsd'analyse.Commedé ritpar [32℄,Adatawarehouseisasubje t-oriented,integrated,non-volatileand time-variant olle tionofdatainsupportofmanagement'sde isionmakingpro ess".

L'entrepsagede donnéesréfèredon aupro essus de onstru tionet d'ex-ploitation de gros volumes de données à partir de sour es hétérogènes en un s hémaunié. La onstru tionde tellesbases in lut don l'intégration,le net-toyage,la onsolidationet lespro essusd'analyse,ditsOLAP(On-Line Analy-ti alPro essing)[9,16, 27℄.

Souventopposés aux pro essus OLTP (On-Line Transa tional Pro essing) liésauxbasesdedonnées lassiques,lessytèmesOLAPensontle omplémentet viennentsegreer au-dessusdessystèmesopérationnels lassiques. Longtemps trèsséparésde esdernierssystèmes pournepasenhandi aperle fon tionne-ment, lessystèmes dé isionnelsdeviennent maintenant dire tementintera tifs pourdesrésultatsdeplusenplustempsréel.

SilessystèmesditsdeBusinessIntelligen ene ontiennentpasàproprement parlerd'outilstrèsintelligents,lafouillededonnéespeutêtre onsidérée omme uneextensionnaturellede essystèmes [27℄.

2.1 Modélisation multidimensionnelle

Lesentreptsdedonnéessontmodélisésdemanièremultidimensionnelle,et ontiennentdes ubesdedonnéesdé rivantdesindi ateursoumesuresselonun ensemblededimensions quipeuventêtreorganiséesenhiérar hies.

(31)

d'ana-























































































































1 2 3 4 5 5 6 7 2 3 4 5 6 6 7 8 3 4 5 6 7 7 8 9 4 5 6 7 8 8 9 10 4 5 6 7 8 5 6 7 8 9 6 7 8 9 10 TEMPS LIEU PRODUIT 2001 2002 2003 Le Cap Shanghai Paris NewYork biere soda vin lait jus











Figure 2.1Cubededonnéesà3dimensions

lyserlevolumedeventesréaliséesenfon tiondetroisdimensions:lo alisation géographique,produit vendu,etmomentdelavente.( f.Figure 2.1).Une el-lule d'untel ube orrespondantalors àlavaleurduvolumedeventepourun produit donné, unelo alisationdonnéeset une date donnée.D'autresmesures peuventêtre onsidérées(e.g.prix,béné e).

Ilestpossibledeposerdesrequêtessurles ubesdedonnées,onparlealors d'analyseOLAP.

On appelle base de données multidimensionnelles un ensemble de dimen-sions, de mesures (indi ateurs) et de ubes de données dénisà partirde es dimensionsetmesures.Deshiérar hiespeuventêtredéniessurlesdimensions. Nousdé rivons i-dessouslesdénitions plusformelles.

Dénition1 - Cube. Un ube de dimension

k

est déni par

hC, dom

1

, . . . ,

dom

k

, dom

m

, m

C

i



C

estlenom du ube,



dom

1

, . . . , dom

k

sont

k

ensemblesnisde symboles orrespondant respe -tivementauxmembres desdimensions

1, . . . , k

,



dom

m

= dom

mes

∪ {⊥}

,

dom

mes

est un ensemble totalement ordonné de valeurs possibles de mesure et

est une onstante non in luse dans

dom

mes

indiquantla valeur nulle.



m

C

estune appli ation de

dom

1

× . . . × dom

k

vers

dom

m

.

Une ellule

c

d'un ube

C

de dimension

k

est un

(k + 1)

-uplet

hv

1

, . . . , v

k

, mi

telque,pourtout

i = 1, . . . , k

,

v

i

appartientà

dom

i

et

m = m

C

(v

1

, . . . , v

k

).

De plus,

m

estappelé ontenu de

c

et

c

estdite

m

- ellule.

Commeexpliqué par[14℄,un ubepeutêtreasso iéàplusieurs représenta-tions,selonlafaçond'ordonnerlesensemblesdesdomainesdedimensions

dom

i

(

i = 1, . . . , k

). Parexemple,lagure2.2 représentedeux représentations

(32)

dié-rentes dumême ube. Selon ses hoix de présentation, l'utilisateur peutalors être onfronté àune représentation meilleurequ'une autre au sens où elle lui permet detirerautomatiquementdes on lusions.Orilest impossiblepourun utilisateurdevisualisertoutes lesreprésentationspossibles,leur nombreétant trèsgrand.

Dénition2 - Représentation.Une représentation d'un ube

C

estun en-semble

R = {rep

1

, . . . , rep

k

}

oùpour tout

i = 1, . . . , k

,

rep

i

estune appli ation 1-1de

dom

i

vers

{1, . . . , |dom

i

|}

.

Dans notre appro he, nous onsidérons une représentation donnée

R =

{rep

1

, . . . , rep

k

}

. PRODUIT P1 6 6 8 5 5 2 P2 6 8 5 5 6 75 P3 8 5 5 2 2 8 P4 8 8 8 2 2 2 V1 V2 V3 V4 V5 V6 VILLE (a) PRODUIT P4 8 8 8 2 2 2 P2 5 6 8 5 6 75 P1 8 6 6 5 5 2 P3 5 8 5 2 2 8 V3 V1 V2 V4 V5 V6 VILLE (b)

Figure2.2Deuxreprésentationsd'unmême ube.

2.2 Opérations OLAP

Comme mentionné pré édemment, dans le modèle multidimensionnel, les donnéessontorganiséesselonplusieursdimensions,et haquedimension ontient plusieursniveaux de granularité dénisà partirdes hiérar hies, permettant à l'utilisateurd'analyserlesdonnéesdu ubeàdiérentsniveauxdedétail.Pour ela, des opérations sont disponibles pour naviguer dans les données. La na-vigation est un pro essus dirigé par les requêtes utilisateurs. Si de nombreux modèlesetlangagesderequêtesontétéproposés[27,45,61℄iln'existeàl'heure a tuelleau unlangagefaisant onsensus.

Cependant,lesopérationsOLAPsontprin ipalementregroupéesautourdes opérationssuivantes:

 Généralisation (Roll-up). Cette opération al ule l'agrégation d'un en-semble de ellules quand il s'agit de passer d'un niveau de granularité dehiérar hieàunautreplusgénéral(parexempleanalyserlesventespar

(33)

régions plutt que ville par ville). L'agrégation totalle (jusqu'au niveau dit ALL)revientàéliminer ladimensionet don àréduirele nombrede dimensionsdu ube.

 Spé ialisation(Drill-down).Cetteopérationestl'inversedelapré édente, et permet deretrouverplusdedétails,parexemplepourrepasserdu ni-veau des régions au niveau des villes. Notons que ette opération n'est possiblequesiledétailduniveaupré édentest onnu. Ellerequiert par-foisd'interrogerlessour esdedonnéessile ubededonnéesaété onstruit àunniveauplusagrégé.

 Séle tion(Sli eanddi e).L'opérationsli epermetdeséle tionner ertains membresd'unedimension(parexempleAvril,MaietJuinsurladimension temporelle) pour obtenir un sous- ube (hypertran he). L'opération di e permetdeséle tionnerdesvaleursdemesures.

 Rotation(Pivot).Cetteopérationpermetd'inverserlesdimensionsvisibles d'unhyper ube,parexemplepourpasserd'unevisualisationoùles dimen-sionstemporelleetspatialesontmisesaupremierplanàunevisualisation danslaquelleladimensionspatiales'ea eauprotdeladimension pro-duit. Notons que ette opération est né essitée par lefait que les ubes de données ne peuventêtre visualisés qu'en deux dimensions.Les

k − 2

dimensions restantes sont alorssoit imbriquéesdans haque ellule dela représentation,soitxées àune valeurdénieparl'utilisateur.

 Inversion (Swit h). Cetteopérationliéeàlareprésentationdu ube per-met d'inter hangerles positions de deux membresd'une dimension, par exemple pour a herla ville

V 3

avantlaville

V 1

(voirgures2.2(a) et 2.2(b)).

Il existe de nombreuses autres opérations OLAP (e.g. push, pull, join et merge).Une liste plusdétaillée de es opérationspourraêtre trouvée dans [7, 23,25,32,33,38℄.

Commenousl'avonsvudans e hapitre,lesentreptsdedonnéesprésentent des ara téristiques propresqui rendent di ile l'appli ation de méthodes de fouillededonnéesdemanièredire te, ommenousledétaillonsdansle hapitre suivant.

(34)

Fouille de données oue et

entrepts de données :

problématique et dés

La fouille dedonnées omplexes (arbores entes, en ots,issuesd'entrepts et )est une tâ hedi ile né essitantde nouveaux algorithmes.Dans le adre des données d'entrepts, les données à traitersont souvent très volumineuses et lesespa esdere her he nepermettent pasune explorationsystématiqueet exhaustive.Lesproblèmessous-ja ents(liésauxentreptsetàlafouillede don-nées) sontexponentiels et il a été démontré que la plupart sontnp- omplets. Notons que dans les problèmes on ernéspar nos thématiques, la réponse de l'algorithmeest ellefournieàl'utilisateuretqu'ilnes'agitdon passeulement dedé ider s'il existeou non une solution.De plus,les utilisateursde tels sys-tèmes,expertsdesdonnées,nesontpasinformati iensetnedisposentdon pas des onnaissan esné essaires pourposerdesrequêtes etbéné ierde leurs ré-sultats.Sidesoutilsdereportingoud'analyseexistent,ilrestetoujoursdi ile devisualiserlesdonnéespourendégagerdesinformationspertinenteset poten-tiellement utiles. Typiquement, lenombre de dimensionsvarie selon les ubes onstruits,maisil estpresquetoujourssupérieurà4,et levolumedesdonnées présentesdansles ubesesttrèsimportant, equirenddi ile lavisualisation detellesdonnées.

Fa eà de telles données,des méthodes de fouille de donnéesdoivent don êtremisesen÷uvreand'extrairelesinformationsin onnuesauparavant. Ce-pendant,prétraiterlesdonnéespourutiliserlesalgorithmesdéjàexistantssans lesmodiern'estpaspossiblepuisquelesbasesdedonnéesmultidimensionnelles ontdes ara téristiquespropres,dé rites i-dessous.

 Laprésen edemesuresestl'unedesprin ipales ara téristiquesdes entre-pts.Numériques, esmesures onstituentunobjetd'étudeparti ulier ar ellessont onstruitesen fon tiond'unensemble dedimensionset ontun

(35)

domainea tifsouventtrès onséquent(beau oup devaleursdiérentes).  De plus, es mesures orrespondent à des données agrégées. Il est par

exempleleplussouventimpossiblederetrouverl'identiantindividuelde lientsauniveaud'unentrept.

 Pourexpliquer esmesures,denombreusesdimensionssontprésentes, e qui dière des appro hes lassiques de fouille de données où seule une dimensionestsouvent onsidérée(e.g. nombredeventes).

 Ces dimensionssontelles-mêmessouventdé ritesàdiérentsniveaux de granularitéàl'aidedehiérar hies.

 De parlarestitutionsouventfaitedes basesde données multidimension-nelles,l'ordredénisurlesdomainesdesdimensionsestimportant.  Enn,les ubesdedonnéesmultidimensionnellessonttrèssouventdenses.

Dans e ontexte,nousnousintéressonsàladé ouvertedetendan es(motifs séquentiels multidimensionnels, dé ouverte de règles graduelles) mais aussi à l'extra tiond'ex eptions, thématiquestrèsimportantespourlesutilisateurs.

Mêmesilafouilled'entreptsn'estpasunethématiquenouvelle[26℄(1997),il n'enrestepasmoinsquelessolutionsprésentesdanslalittératurenepermettent toujourspasuneimplémentationdire tedanslesoutilsdeBusinessIntelligen e dumar hé.

De manière plus détaillée, les pin ipales ontributions rapportées dans les partiesquisuivent on ernent:

 lare her hedeblo sauseindedonnéesmultidimensionnelles(parexemple pourretrouverautomatiquementleszonesdu ube orrespondantaumême niveaudeventes),

 l'extra tiondemotifsséquentielsmultidimensionnelsetous(parexemple pourextrairedesmotifsdutype23%des lientsonta hétéuneplan he de surf et unsa àNew York puisune ombinaison àSan Fran is o et 20% des lientsa hètent unpeu debeurre et un peu de moutarde puis beau oupdebeurreet unpeude hipspuisbeau oupdepain),

 lare her hed'ex eptionsauseindedonnées omplexes(parexemplepour extrairedes onnaissan esdutypeles lientsdusuddelaFran ea hètent des bottespuis des lunettes de soleil alors que les lientsdu sud de la Fran equi sontàla retraitea hètentdesbottespuisdesparapluies),  l'extra tion de règles et motifs graduels (par exemple pour extraire des

règlesdelaformePluslemurestpro he,plusletraindoitfreinerfort),

Notons que le but de nos travaux est de nous préo uper au mieux des attentesdesexperts,utilisateursnauxdesrésultats.

(36)

Re her he de blo s au sein de

(37)
(38)

Dansle ontextedesbasesdedonnéesmultidimensionnelles,lesoutilsOLAP permettentdenaviguerdanslesdonnéesdanslebutdedé ouvrirdes informa-tion pertinentes. Cependant, en raison de la taille des ensembles de données, ilest impossibled'adopter unpar ourssystèmatiqueet exhaustif desdonnées. Pour etteraison,ilest né essairedefournirauxutilisateursdesoutilsles gui-dantverslespartiesdesdonnéeslespluspertinentesleurpermettantd'identier des onnaissan esnouvelles.

Dans nos travaux, nous avons don proposé des outils permettant de dé- ouvrir automatiquement desblo s dedonnéeshomogènes, e qui permet non seulementderésumerlesdonnées omplexes,maisaussidedé ouvrirdes ex ep-tionsparrapportà esblo s.

Danslalittérature,ilexistedenombreusesappro hesderésumésde ubes. Initialementmotivéesparlatailletrès volumineuse des ubesdedonnéesalors même qu'ils étaient reux, ainsi que par leur volume, les méthodes de om-pressionsesontégalementrévéléesintéressantespourrésumersémantiquement les ubes de données.La prin ipale appro he de la littérature adoptant ette stratégieest elle de[42℄.Cependant ette appro henepermet pasde prendre en omptedeszonesoueset negèrepasdemanièreavan éeleshiérar hies.

Notre appro he est fondée sur les algorithmes lassiques par niveaux, et nousavonsdéniplusieurstypesdeblo s,selonquelavaleurmajoritairequ'ils ontiennentestunique,ouappartientàunintervalle lassique,ouàunintervalle ou.

Réalisés dansle adre denotre ollaborationave laMalaisie(HELP Uni-versity College)et l'UniversitéCergy-Pontoise, es travauxontreçulesoutien del'AmbassadedeFran eenMalaisieetplusgénéralementduMinistèredes Af-fairesEtrangères(projetSTIC-Asia EXPEDO). Denombreuxétudiants(dont Anselme Beaud dont j'ai assuré l'en adrement de mémoire ingénieur CNAM) ontétéimpliquésdans ettethématique.Destestsontétémenésdansle adrede la ollaborationave laso iétéNamaeCon eptsurlesdonnéesissuesdel'INPI (InstitutNationaldelaPropriétéIndustrielle) on ernantlesnomsdéposés en Fran eetleurtypologieetontdémontrélapertinen edenotreappro he(intérêt despartenairesindustrielspourlesblo strouvés).

Notons quenousavonségalementinitié destravauxdevisualisation de es blo squinesontpasrapportési i(voirlespubli ationsasso iées).

Thèmesabordés Entreptsdedonnées,hiérar hie,

sous-ensemblesous,blo sdedonnéeshomogènes En adrementd'étudiant A.Beaud (ingénieurCNAM.2006.)

Collaborations HELPUniversityCollege Univ.Cergy-Pontoise INPI(nomsdéposés) So iétéNamaeCon ept

(39)
(40)

Dé ouverte de blo s ous à

partir d'entrepts de

données : Dénitions,

Propriétés et Algorithmes

4.1 Dénitions préliminaires

Habitués à naviguerau sein des ubes de données àl'aide des opérateurs OLAP(e.g.swit h,roll-up),lesdé ideursutilisateursdesentreptsdedonnées sont pourtant souvent onfrontés aux mêmes interrogations : omment faire pour retrouverrapidementles données orrespondant auxventes fortes ou au ontraire aux ventes faibles. Si ette question semble simple dans le adre de donnéestabulaires lassiques (ilsemblequ'ilsuraitd'appliquerune séle tion surlatable desfaitset d'a herlesn-upletsrésultats),elledevientplus om-plexedansle adredelanavigationdansdes ubesdedonnéesoù haquen-uplet estune elluledontlevoisinage(n-upletssuivants,pré édents)est ontraintpar le ara tèremulti-dimensionneletlavisualisation ubique.

Nousnous sommesdon intéressésàdéniruneméthodeoriginale permet-tant de onstruireet d'identier de manièreautomatique et e a e des blo s de donnéessimilaires présentsdans les ubes de données. Chaque blo est en fait un sous-ensemble des données prenant la forme d'un sous-hyper ube, les blo sirréguliersn'étantpasautorisés.Surl'exemple dé ritparlagure4.1, le sous-ensemble dedonnées orrespondantauxproduits

P 1

,

P 2

et àlaville

V 1

onstitueunblo devaleurdemesurehomogène(

6

).LaFigure4.2présenteles blo sdé ouvertsétiquetésave lavaleurdemesureasso iée.

(41)

fa iliterl'analyse.Parexemple,larègleasso iéeaublo pré édemmentprésenté est:

SiPRODUIT =

P 1

ou

P 2

etVILLE=

V 1

Alors Ventes=

6

. Si dans e asla valeurde mesure est lamême pourtoutes les ellulesdu blo , ela n'estpastoujours le as. Parexemple, il existeun blo asso ié àla valeurdemesure

5

orrespondantauxproduits

P 1

,

P 2

,

P 3

et auxvilles

V 3

et

V 4

quine ontientpasuniquementlavaleur

5

.Ceblo estnéanmoins onsidéré ommeintéressantpuisquelaplupartdes ellulesquile omposent ontiennentla mêmevaleur.Demême,ilexisteunblo devaleurs

2

pourlazone orrespondant aux produits

P 3

,

P 4

et aux villes

V 4

,

V 5

,

V 6

. Ces deux blo s se re ouvrent puisqu'ils onten ommunla ellule orrespondantau produit

P 3

et àla ville

V 4

.

Ilseproduit don des as dere ouvremententrelesblo sdé ouverts,qu'il s'agitdetraduirelorsdelagénérationdesrègles.Pour efaire,nousutilisonsla théoriedessous-ensemblesous.Ce formalismenouspermet dereprésenterdes informationsdutype:pourleproduit

P 2

etdansune moindremesurepourle produit

P 3

.

Le but denotretravailest d'identierleplusrapidementpossiblelesblo s de donnéesreprésentés sur lagure4.1, d'en dénirlesre ouvrements,et d'y asso ier desrègles,ouesounon.

Notre méthodeestfondéesurl'utilisation ombinéedesalgorithmespar ni-veaux(fondéssurl'algorithmeAPriori)etdelathéoriedessous-ensemblesous. L'utilisationdetelsalgorithmesestrenduené essaireparlavolontédeproposer desméthodese a espassantàl'é helle.

0000000000

0000000000

0000000000

0000000000

0000000000

0000000000

0000000000

1111111111

1111111111

1111111111

1111111111

1111111111

1111111111

1111111111

00000000000

00000000000

00000000000

00000000000

00000000000

00000000000

11111111111

11111111111

11111111111

11111111111

11111111111

11111111111

0000000

0000000

0000000

0000000

0000000

0000000

0000000

0000000

0000000

0000000

1111111

1111111

1111111

1111111

1111111

1111111

1111111

1111111

1111111

1111111

0000

0000

0000

0000

0000

0000

0000

0000

0000

0000

0000

0000

1111

1111

1111

1111

1111

1111

1111

1111

1111

1111

1111

1111

P1

P2

P3

P4

V1

V2

V3

V4

V5

V6

VILLE

PRODUIT

6

6

6

8

8

8

5

8

8

5

5

8

2

2

5

5

5

6

2

2

2

8

75

2

Figure 4.1Exempled'un ubeetdesblo sasso iés

Nous onsidéronsi iun ubeà

k

dimensions

C

xéet une deses représen-tations,égalementxée.Onappellealorsblo dedonnéesunsous-ensemblede ellulesdu ubeformantunsous- ube:

Dénition3 -Blo de données.Unblo de données

b

estunensemble de ellulesdénisurun ube

C

à

k

dimensions par

b = δ

1

× . . . × δ

k

oùles

δ

i

sont des intervalles de valeurs ontigües du domaine

dom(d

i

)

de la dimension

d

i

:

δ

i

⊆ dom(d

i

)

pour

i = 1, . . . , k

.

(42)

Figure4.2Touslesblo s

desdimensionsdu ube, onseramèneàladenition i-dessus enposant

δ

i

=

ALL = dom(d

i

)

pourtoutedimension

d

i

absentedelaspé i ation.

Lesblo speuventsere ouvrir, ere ouvrementétantplusoumoins impor-tant.Dansnotreappro he,nous onsidéronsqu'ilyare ouvrementdèslorsque deuxblo sontaumoinsune ellule ommune.

Dénition4 - Re ouvrementde blo s.Deux blo s sere ouvrent s'ilsont aumoinsune elluleen ommun.

Ilestfa iledevoirquedeuxblo s

b = δ

1

× . . . × δ

k

et

b

= δ

1

× . . . × δ

k

du même ubesere ouvrentsietseulementsipourtoutedimension

d

i

δ

i

∩ δ

i

6= ∅

. Lanotiondetran he,qui peutêtre vue ommeunblo parti ulier,permet de onsidérerl'ensembledes ellulesasso iéesàunevaleurdedimension,etsera importante dans le adre de ladénition des algorithmes. Nousl'introduisons don i-dessous.

Dénition5 - Tran he d'un ube.Soit

v

i

une valeur de la dimension

d

i

. Onappelletran he(ousli e)de

C

asso iéeà

v

i

,notée

T

v

i

,leblo

δ

1

× . . . × δ

k

telquepourtout

j 6= i

,

δ

j

= ALL

et

δ

i

= {v

i

}

.

Unetran heestdon unhyperplan,réduitàuneligneouune olonnedans le as parti ulier d'un ube à deux dimensions. Les notions de support et de onan easso iéesàunblo etunevaleurdemesuresontdénies ommesuit:

Dénition6 - Support. On dénit lesupport d'un blo de données

b

dans

C

pourune valeur demesure

m

omme:

supp(b, m) =

# occurrences de m dans b

# cellules de C

(43)

Étant donné un seuil de support

σ

xé par l'utilisateur et une valeur de mesure

m

,unblo

b

telque

supp(b, m) > σ

estappelé

σ

-fréquentpour

m

.

On noteque lesupport estanti-monotone, 'est-à-direquepourtousblo s

b

,

b

et pourtout

m

:

b ⊆ b

⇒ support(b, m) ≤ support(b

, m)

Dénition7 - Conan e. On dénit la onan e d'un blo de données

b

pourune valeur de mesure

m

omme:

conf (b, m) =

# occurrences de m dans b

# cellules de b

Nous onsidéronsdesblo smaximalementspé iques, 'est-à-direlesblo s dénisàpartird'unnombremaximaldedimensions.

Dénition8 -Blo maximalementspé ique.Soit

σ

unseuildesupport,

m

unevaleurdemesure,et

b

unblo

σ

-fréquentpour

m

,

b

estditmaximalement spé iquepour

m

etunseuilde onan e

γ

si



conf(b, m) > γ

 iln'existepasdeblo

b

telque: 

b

est

σ

-fréquent pour

m



∃j ∈ [1, k]

telque

δ

j

= ALL

et

δ

j

6= ALL



∀j

∈ [1, k], j

6= j ⇒ δ

j

= δ

j



conf(b

, m) > γ

.

4.2 Génération des blo s

Dans etravail,nousre her honslesblo sayantuneproportionde ellules demêmevaleursusantepourl'utilisateur.Lare her heest fondéesur l'utili-sation d'unalgorithmepar niveaux dérivédestravauxsur APriori[1℄, e type d'algorithmespermettantdeproposerdesoutilse a espassantàl'é helle.Le butdel'algorithmeproposé(voirAlgorithme2)estde onstruirelesrèglespour lesquelles lavaleurdemesure estdéterminée parunmaximumde dimensions. Cet algorithme permet également de onstruire les blo s de taille maximale, en onsidérant non plus les règles les plus spé iques mais les règles les plus générales.

Onnotequeleseuildesupportdéterminelatailleminimaledesblo standis que le seuil de onan e détermine l'homogénéité à l'intérieur des blo s. En eet,pourune valeurdeseuildesupport donnée

σ

, sionnote

N

lenombrede ellulesdu ube,unblo nepeutêtrefréquentques'il ontientaumoins

σ ∗ N

ellules.D'autrepart,pourunevaleurde seuilde onan e donnée

γ

, unblo de ardinalité

M

n'estretenuques'il ontientaumoins

γ ∗ M

ellules ontenant lavaleurdemesure

m

parrapportàlaquelle les al uls sontee tués.

(44)

Data :

C

ubededonnéesdénisur

k

dimensions,

σ

seuil desupport minimumet

γ

seuilde onan eminimale.

Result:

B

l'ensembledesblo sasso iésau ube

C

forea h valeurde mesure

m

du ube

C

1 do forea h dimension

d

i

(i=1,...,k) do

L

i

1

← {v(d

i

) ∈ dom(d

i

)|supp(T

v(d

i

)

, m) > σ}

T

v(d

i

)

est la tran heasso iéeàlavaleur

v(d

i

)

;

Construirelesintervalles maximaux

δ

i

j

= [α

i

j

, β

i

j

]

telsquepour toutevaleur

v(d

i

)

situéesur

d

i

entre

α

i

j

et

β

i

j

ona

v(d

i

) ∈ L

i

1

;

for

l = 2

à

k

do

Générerles andidats àpartirdesfréquentsdetaille

l − 1

.Étant dansle asdedonnéesnonbinaires,les andidatsdevront regrouperdesintervalles devaleurssurdesdimensions diérentes.

Pour haque andidat

δ

i

1

× . . . × δ

i

l

, onsidererleblo

δ

1

× . . . × δ

k

δ

p

= δ

p

j

siladimension

d

p

aététraitée et

δ

p

= ALL

sinon;

Coupure:Supprimertousles andidats

δ

i

1

× . . . × δ

i

l

telsqu'il existe

p ∈ {1, . . . , l}

telque

δ

i

1

× . . . × δ

i

p−1

× δ

i

p+1

× . . . × δ

i

l

n'estpasfréquent;

Évaluerlessupportsdesblo s andidats etsupprimerles andidats nonfréquents(support

≤ σ

);

Supprimerlesblo s

b

telsque

conf (b, m) ≤ γ

;

B ←

{ens.desblo sengendrés};

(45)

L'algorithme i-dessuspeutfa ilementêtreadaptépour onstruirelesblo s maximaux(règleslesmoinsspé iques).Ilsutpour elàde al ulerà haque étapela onan easso iéeauxblo s et destopperlepar ours desdimensions pourunblo dèsqu'ilatteintunniveaude onan esusant.

Notre méthode peut être vue ommeune méthode de segmentation. Nous sommes ons ientsquelaméthodequenousproposonsnepermetpastoujours de retrouvertousles blo s de données. Cependant, ette méthode est e a e pourdéte ter lesblo sdedonnéeshomogèneslespluspertinents.

Ilestalorspossibledeproduiredesrèglesdé rivantlesblo sdedonnées.

Quandunblo

b

j

nere ouvreau unautreblo (

B

j

= ∅

),larègleproduiteest dutype:Si

d

1

= δ

1,j

et...et

d

k

= δ

k,j

Alors

m

j

m

j

estlavaleurdemesure asso iée et oùles ensembles

δ

i,j

sontexprimésàl'aide de lausesdisjon tives. Par exemple,surlaFig. 4.2,larègle produitepourleblo

b

1

orrespondantà lavaleur

6

estlasuivante :

Sila villeest

V 1

etleproduit est

P 1

ou

P 2

Alorsla valeurdes ellulesest

6

En as de re ouvrement, notre méthode are ours àdes règles ouespour exprimerl'impré ision de ladénition desblo s.Les fon tionsd'appartenan e dessous-ensemblesoussont onstruitesdemanièreautomatique[15℄.Lesrègles produitesdeviennentalorsdelaforme:

Sila villeest

V 1

etleproduit est

P 1

ou

P 2

dansunemoindremesureAlors la valeur des ellulesest

6

qui permet de dire que quand le produit

P 2

est on erné, alors plusieurs blo s ohabitent.

Rappelonsque esblo ssont onstruitsàpartird'unereprésentationdonnée dontilestalorspossibled'estimerlaqualitéausensduregroupementdevaleurs de ellules.

4.3 Qualité des représentations

Dans[14℄,diérentesmanièresdereprésenterun ubeontétéétudiées.Ilest enparti uliermontrédans etarti leque ertainesreprésentationsdesdonnées sontpluspertinentesqued'autrespuisqu'ellespermettentderappro herdes in-formationsetdedéduireainsides onnaissan essurlesdonnées.Dansl'appro he rapportéedans e hapitre,nous onsidérons ommeintéressantsles rappro he-ments onsistantàregrouperlesvaleursdemesureidentiques.Ilexisted'autres possibilitésd'organisationsintéressantes,parexempledé ritesdans[13℄,oùles donnéessontorganiséesde tellesorte quelamesure est rangéeenordre rois-santlelongdetouteslesdimensions.Cependant,ilest trèsdi iled'organiser

(46)

automatiquementles ubesdedonnéesd'unemanièrepertinente.Desméthodes existent, issues des statistiques notamment, mais leur omplexité ne permet pasd'envisagerleurappli ationsurlesdonnéesissuesdesentreptsdedonnées ayantdenombreusesdimensions.

Dansl'appro heprésentéei i,l'organisationdesdonnéesn'estpasmodiée avantla onstru tiondesrègles.Ilseraitbiensûrintéressantd'organiserle ube anquelesblo sdedonnéessoientlesplusgrandspossibleset sere ouvrentle moinspossible.Mais ettetâ hene onstituepaslebutdenostravauxprésents. Cependant, il est également intéressant de onsidérer le problème inverse et d'évaluer la qualité de la représentation à partir des règles onstruites. Par qualitédelareprésentation,onentendrareprésentationgroupéeselonlesvaleurs de ellule.Cettequalités'exprimedon enfon tion:

 delaproportionde ellulesin lusesdansdesblo s(plus etteproportion est importante,moins ily aurade donnéesnon on ernées parlesrègles onstruites),

 dunombredeblo s onstruits(plusil yadeblo s,pluslesdonnéessont hétérogènes),

 dunombredeblo sparrapportaunombredevaleursdemesure(retrouver plusieurs blo s orrespondantàla même valeur signie que ette valeur n'estpasbienrangéedemanière ontigüe),

 dunombredere ouvrementsentreblo setdeleurtaille(pluslesblo sse re ouvrent,pluslesdonnéessontmélangées).

Dans e hapitre,nousavonsprésenténostravauxmenéspourladé ouverte automatique deblo sde donnéesous au sein d'entrepts de données, menés dans le adre de ollaborationsave laMalaisie et des partenairesindustriels. Cependant,unaspe tfondamentaldesentreptsresteàétudier:l'exploitation deshiérar hiesprésentessurlesdimensions.Deplus,notreméthodeaété amé-liorée an dedé ouvrir une majorité des blo sprésentsau sein del'entrepts engérantlesvoisinagesde ellules, ommedé ritdansle hapitresuivant.

(47)
(48)

Extension des appro hes :

prise en ompte des

voisinages de ellules et blo s

multi-niveaux

5.1 Ranement du al ul des blo s

Dans ettese tion,nousétudions ommentprendreen ompte levoisinage des ellulesand'améliorerla omplétudedenotreméthode.

Une elluleest onsidérée ommevoisined'uneautresiellepartageaumoins une valeur sur l'une des dimensions dans la représentation. Par exemple, les ellules

hP 2, C3, 5i

et

hP 2, C4, 8i

sontvoisines.

Dénition9 -VoisinagedeCellule.Deux ellules

c = hv

1

, . . . , v

k

, mi

et

c

=

hv

1

, . . . , v

k

, m

i

(

c 6= c

) sont dites voisiness'il existeununique

i

0

∈ {1, . . . , k}

telque:



|rep

i

0

(v

i

0

) − rep

i

0

(v

i

0

)| = 1

et

 pour haque

i = 1, . . . , k

telque

i 6= i

0

,

v

i

= v

i

.

Notonsquedansun ubeà

k

dimensions,une elluleaauplus

2 . k

voisins.De plus,sil'on onsidèreunetran he

T (v)

ave

v

appartientaudomaine

dom

i

dela dimension

i

,soit

v

et

v

+

lesmembresde

dom

i

telsque

rep

i

(v

) = rep

i

(v) − 1

et

rep

i

(v

+

) = rep

i

(v) + 1

,respe tivement.

I i, haque ellule

c

de

T (v)

aexa tementunvoisindans ha unedestran hes

T (v

)

et

T (v

+

)

. Si l'on onsidèreune valeurde mesure

m

, onnote

n(v

, m)

Figure

Figure 1.1  Exemple de sous-ensemble ou
Figure 2.1  Cube de données à 3 dimensions
Figure 2.2  Deux représentations d'un même ube.
Figure 4.1  Exemple d'un ube et des blos assoiés
+7

Références

Documents relatifs

Les méthodes de clustering proposées représentent la première étape de notre mé- thode d'extraction de motifs séquentiels approximatifs dans les ux de données, mais ces

La donn´ ee des fr´ equences de tous les g´ en´ erateurs fr´ equents ainsi que la donn´ ee de l’ensemble des motifs non fr´ equents minimaux permettent en effet de d´ eduire la

Nos analyses sont basées sur le calcul du nombre de bons motifs séquentiels trouvés par SPoID et du nombre de motifs différents extraits par SPoID, ces derniers regroupant les

Si l’affichage des mesures du fait « VENTES » est demandé en fonction de la dimension Temps , le système affiche automatiquement l’ensemble des attributs ayant

Durant ce projet, nous allons utiliser différentes technologies pour mettre au point la base de données, l'IHM pour l'administration de cette base de données, ainsi

Lorsque l’on tient compte de la correspondance entre les blocs, la re- cherche de motifs fréquents sur chacune des 2 bases nous indique que les réactions transformant une

De façon analogue, si l'on compte les fréquences d'apparition des fonctions contenues dans la base de connaissances d'origine, cette étude montre que certaines fonctions sont

codeLivre , codeExemplaire clé primaire composée de la table EXEMPLAIRES codeLivre clé étrangère de la table EXEMPLAIRES qui référence codeLivre de la table LIVRES.