Conception physique statique et dynamique des entrepôts de données

(1)

HAL Id: tel-01244700

https://tel.archives-ouvertes.fr/tel-01244700

Submitted on 16 Dec 2015

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

entrepôts de données

Rima Bouchakri

To cite this version:

Rima Bouchakri. Conception physique statique et dynamique des entrepôts de données. Autre [cs.OH].

ISAE-ENSMA Ecole Nationale Supérieure de Mécanique et d’Aérotechique - Poitiers, 2015. Français.

�NNT : 2015ESMA0012�. �tel-01244700�

(2)

ESI : Ecole nationale Supérieure d’Informatique (Algérie)

ISAE-ENSMA : Ecole Nationale Supérieure de Mécanique et d’Aérotechnique

(France)

THÈSE

En Cotutelle

pour l’obtention du Grade de

DOCTEUR DE L’ESI & DE L’ISAE-ENSMA

Écoles Doctorales :

Sciences et Technologies de l’Information et de la Communication (STIC, ESI)

Sciences et Ingénierie pour l'Information, Mathématiques (S2IM, ISAE-ENSMA)

Secteur de Recherche : INFORMATIQUE

Présentée par :

Rima BOUCHAKRI

Conception physique statique et dynamique des

entrepôts de données

Thèse soutenue le 17 Septembre 2015

Directeurs de thèse : Ladjel BELLATRECHE et Walid-Khaled HIDOUCI

Jury :

Présidente

Examinateurs

Karima BENATCHBA

Mohamed

MEZGHICHE

Mohand-Saïd HACID

Yamine AÏT AMEUR

Ladjel BELLATRECHE

Walid-Khaled HIDOUCI

Professeur, ESI, Algérie

Professeur, UMBB, Algérie

Professeur, LIRIS/LYON1, France

Professeur, ENSEEIHT/IRIT, France

Professeur, ISAE/ENSMA, France

Professeur, ESI, Algérie

(3)

Un grand mer i à :

- Ladjel BELLATRECHE, mon dire teur de thèse, pour m'avoir guidé tout au long de mon travail.Jeleremer ie pour sadisponibilité,pourses pré ieux onseilsetorientation, pour sapassion pourla re her he etledomaine s ientiquequ'il asu me transmettre.

- Walid-Khaled HIDOUCIetSoane MAABOUT mes dire teurs de thèse, pour leur sou-tienetleur disponibilité.

-Au orpsadministratifdel'ESI,parti ulièrementSiLarabiKHELIFATIpoursabienveillan e etsonaidesi pré ieuseetNa era CHERIDpour soné oute.

- Touslesmembres dulaboratoireLCSIàL'ESIparti ulièrement lesresponsablesTouraya TE-BIBELetDjamel Eddine ZEGOUR.

- A Kamel BOUKHALFA, ollèguede l'USTHBpourson soutienetaidein onditionnel.

- Emmanuel GROLLEAUpouravoirbienvoulum'a ueillir auseindulaboratoireLIASqu'il dirige.

- Zoé FAGET, pour sonaideet ontribution àlaréda tion de ertainsarti les.

- Tous lesmembres dulaboratoire LIASà l'ENSMA.

- Tout mes amis(es)sur lestrois ontinents. EnAlgérie,Fran eet Canada.

- Enn et surtout à ma famille et parti ulièrement ma mère pour avoir toujours ru en moi. Rienn'aurait étépossible sanselle.

(4)

(5)

Table des gures xi

Introdu tion Générale 1

Partie I État de l'art 8

Chapitre 1 Séle tion mono-obje tif des te hniques d'optimisation 9

1.1 Introdu tion . . . 11

1.2 Séle tionIsolée des

IJ B

. . . 12

1.2.1 Typesd'

IJ B

. . . 12

1.2.1.1 Les

IJ B

Simples

IS

. . . 12

1.2.1.2 Les

IJ B

Multiples

IM

. . . 14

1.2.2 Problèmede séle tion ettravauxexistants . . . 15

1.2.2.1 Formalisation . . . 16

1.2.2.2 Complexité. . . 16

1.2.2.3 Travaux deAoui he etal.. . . 17

1.2.2.4 Travaux deAzefa ketal. . . 20

1.2.2.5 Travaux deBellatre he etal. . . 22

1.2.2.6 Travaux deBoukhalfa etal. . . 23

1.2.3 Bilanetdis ussion . . . 27

1.3 Séle tionisolée d'uns héma deFragmentation Horizontale . . . 29

1.3.1 La

FH

etsonévolution . . . 29

(6)

1.3.2 Problèmede séle tion ettravauxexistants . . . 33

1.3.2.1 Travaux deBellatre he etal. . . 33

1.3.2.2 Travaux deBoukhalfa etal. . . 35

1.3.2.3 Travaux deMahboubi etal. . . 40

1.3.2.4 Travaux deDerrar etal. . . 41

1.3.3 Bilanet lassi ation destravaux . . . 43

1.4 Séle tionjointe deste hniquesd'optimisation . . . 45

1.4.1 Typesde séle tion jointe . . . 45

1.4.1.1 Séle tion itérative . . . 46

1.4.1.2 Séle tion intégrée . . . 46

1.4.1.3 Choix dutype de séle tion jointe . . . 47

1.4.2 Travauxde séle tion jointedes

IJ B

etde la

FH

. . . 48

1.4.2.1 Travaux deStöhr etal . . . 48

1.4.2.2 Travaux deBoukhalfa etal . . . 50

1.4.3 Bilanetdis ussion . . . 51

1.5 Con lusion . . . 52

Chapitre 2 Optimisation multi-obje tifs pourles entrepts de données 53 2.1 Introdu tion . . . 54

2.2 Problèmed'optimisation Multi-Obje tif . . . 54

2.3 Appro hes de résolution du

P M O

. . . 57

2.3.1 Lesméthodess alaires. . . 58

2.3.1.1 La méthode depondérationdesfon tionsobje tif . . . 58

2.3.1.2 La méthode Keeney-Raia . . . 58

2.3.1.3 La méthode du ompromis . . . 59

2.3.1.4 Les méthodeshybrides . . . 59

2.3.1.5 La méthode du"but à atteindre" . . . 59

2.3.1.6 La méthode d'ordonnan ement lexi ographique . . . 59

2.3.2 Lesméthodesàbase deméta-heuristiques . . . 60

2.3.2.1 VEGA (Ve tor Evaluated Geneti Algorithm) . . . 60

2.3.2.2 MOGA(Multiple Obje tive Geneti Algorithm) . . . 61

2.3.2.3 NSGA (Nondominated Sorting Geneti Algorithm) . . . 61

2.3.2.4 NPGA (Ni hed Pareto Geneti Algorithm) . . . 63

2.3.2.5 SPEA (StrengthPareto EvolutionaryAlgorithm) . . . 63

(7)

2.3.4 Bilan . . . 64

2.4 Travaux existantssurles EDs. . . 65

2.4.1 Le CloudComputing . . . 65

2.4.2 Lesentreptsde données temps réel . . . 67

2.4.3 La on eption physique desentrepts de données. . . 68

2.4.4 Bilan . . . 70

2.5 Con lusion . . . 70

Partie II Contributions 71 Chapitre 1 Séle tion in rémentale isolée des IJB 72 1.1 Introdu tion . . . 73

1.2 Algorithmegénétique pour laséle tion statique des

IJ B

. . . 73

1.2.1 Codage du hromosome pour lesindex. . . 75

1.2.1.1 Codage du hromosome pourles index simples . . . 75

1.2.1.2 Codage du hromosome pourles index multiples . . . 75

1.2.2 Modèle de oûtmathématique . . . 78

1.2.3 Fon tion obje tif . . . 80

1.2.4 Implémentation du AG . . . 81

1.3 Séle tionIn rémentale des

IJ B

basée surlesAGs . . . 82

1.3.1 Typesd'évolutions d'unentrept dedonnées . . . 82

1.3.2 Notreappro he de résolution . . . 84

1.3.2.1 Séle tion In rémentale NaïveNI . . . 86

1.3.2.2 Séle tion In rémentale par Algorithmes Génétiques GA . . . 87

1.4 Expérimentation . . . 89

1.4.1 Environnement d'expérimentation . . . 89

1.4.1.1 Création de l'entrept. . . 90

1.4.1.2 Évaluation théoriqueetpratique d'uneappro he de séle tion . . . 90

1.4.1.3 Fa teursd'expérimentation . . . 91

(8)

1.4.3 Tests surlaséle tion In rémentale . . . 95

1.5 Con lusion . . . 97

Chapitre 2 Séle tion in rémentale isolée de la FH 98 2.1 Introdu tion . . . 100

2.2 Séle tionstatiqued'uns hémade

FH

par Algorithmes Génétiques . . . 101

2.2.1 Codage du hromosome . . . 101

2.2.2 Fon tion obje tif . . . 103

2.2.3 Pro essusde séle tion . . . 104

2.3 Séle tionin rémentale d'uns hémade

FH

. . . 106

2.3.1 Générerles hémade fragmentation a tuel . . . 109

2.3.2 Analyser larequêtenouvellement exé utée . . . 114

2.3.3 Générerun s hémade fragmentation initial . . . 115

2.3.3.1 Codage du hromosome . . . 116

2.3.4 Séle tionneruns hémade fragmentation nal . . . 117

2.3.4.1 Séle tion Naïve

F HN I

. . . 117

2.3.4.2 Séle tion par Algorithmes Génétiques

F HAG

. . . 119

2.3.5 Implémenter le

SF

nalsurl'entrept . . . 120

2.3.5.1 SyntaxeOra le . . . 121

2.3.5.2 Exemple d'appli ation . . . 124

2.4 Algèbrede Fragmentation . . . 126

2.4.1 Codage exible . . . 126

2.4.2 Rédu tion etévolutiond'un

SF

. . . 126

2.4.3 Opérateursalgébrique . . . 127

2.4.3.1 Des ription. . . 128

2.4.3.2 Classi ation. . . 128

2.4.3.3 Propriétés . . . 129

2.4.4 Implémentation sous Ora le11g . . . 129

2.5 Séle tionin rémentale baséesurle Proling desrequêtes . . . 137

2.5.1 Proling desrequêtes basésurl'Algèbre deFragmentation . . . 137

2.5.2 Séle tionin rémentale baséesur leProling desrequêtes . . . 141

2.6.1 Évaluation desdémar hesde séle tion in rémentale . . . 142

2.6.1.1 Tests àpetiteé helle . . . 142

(9)

2.6.2.2 Tests àgrandeé helle . . . 146

2.7 Con lusion . . . 147

Chapitre 3 Séle tion in rémentale jointe des IJB simples et multiples 148 3.1 Introdu tion . . . 150

3.2 Séle tionstatiquejointe desindexsimples etmultiples . . . 150

3.2.1 Problèmede séle tion jointe . . . 151

3.2.1.1 Formalisation . . . 152

3.2.1.2 Complexité. . . 152

3.2.2 Notredémar he de séle tion jointe . . . 153

3.2.3 Problèmede partage desrequêtes . . . 155

3.2.3.1 Prin ipe générale de lassi ation par Datamining . . . 155

3.2.3.2 Critères de lassi ation desrequêtes . . . 157

3.2.3.3 Déroulement del'algorithme k-means . . . 157

3.2.4 Problèmede partage del'espa e de sto kage . . . 158

3.2.4.1 Partage naïfdel'espa e de sto kage . . . 160

3.2.4.2 Partage de l'espa ede sto kage dirigépar requêtes. . . 160

3.2.5 Algorithmes deséle tion . . . 161

3.2.5.1 Séle tion desindex simples . . . 162

3.2.5.2 Séle tion desindex multiples . . . 164

3.3 Séle tionin rémentale jointe desindex simplesetmultiples . . . 164

3.3.1 Séle tionnaïve . . . 165

3.3.2 Notreséle tion in rémentale jointe . . . 166

3.3.3 Partage dynamiquede l'espa e desto kage . . . 168

3.4.1 Évaluation de laséle tion statiquejointe . . . 170

3.4.1.1 Test1:variation dutype deséle tion d'index . . . 170

3.4.1.2 Test2:Variation del'espa e de sto kage S . . . 171

3.4.1.3 Test3:Évaluationde l'appro he departage de S. . . 172

3.4.1.4 Test4:Comparaison de notreappro he ave l'existant . . . 173

3.4.2 Évaluation de laséle tion in rémentale jointe . . . 174

3.4.2.1 Test1:ÉvaluationThéorique. . . 175

3.4.2.2 Test2:ÉvaluationPratique sousOra le 11g . . . 176

3.4.2.3 Test3:Comparaison de notreséle tion ave l'existant . . . 177

(10)

4.2 Séle tionjointe statiquedes

IJ B

etdela

FH

. . . 180

4.2.1 Formalisation du problème . . . 181

4.2.2 Appro he de séle tion . . . 181

4.2.2.1 Partage desattributs deséle tion . . . 183

4.3 Séle tionin rémentale jointe des

IJ B

etde la

FH

. . . 185

4.3.1 S énariosde séle tion in rémentale jointe . . . 185

4.3.1.1 S énario 1:Seulel'indexation hange . . . 186

4.3.1.2 S énario 2:Seulela fragmentation hange . . . 187

4.3.1.3 S énario 3:La fragmentation etindexation hangent . . . 188

4.3.2 Démar he de séle tion in rémentale jointe . . . 188

4.3.2.1 Extraire ClasseFH etClasseIJB . . . 191

4.3.2.2 Classier les attributs delanouvelle requête . . . 192

4.3.2.3 Exé uter uns énario de séle tion in rémentale . . . 194

4.4.1 Test1 :Évaluationthéorique . . . 198

4.4.2 Test2 :Évaluationpratique sousOra le 11g . . . 198

4.5 Con lusion . . . 200

Chapitre 5 Séle tion in rémentale Multi-Obje tifs de la FH 201 5.1 Introdu tion . . . 202

5.2 Formalisation du problèmemulti-obje tif . . . 202

5.3 Modèle de oûtde maintenan e basésurl'Algèbrede Fragmentation . . . 204

5.3.1 Déterminerles opérationsalgébriques . . . 204

5.3.2 Déterminerles opérationsphysiques . . . 204

5.3.3 Modèle de oûtde maintenan e . . . 206

5.4 Notredémar he de résolution du

P M OF H

. . . 207

5.4.1 Séle tionin rémentale ave optimisation du oûtde maintenan e CM . . . 208

5.4.1.1 Codage du hromosome pourla démar he CM . . . 209

5.4.1.2 Fon tion obje tifpour ladémar he CM . . . 209

5.4.2 Intégration duProling desrequêtes dansl'appro he CM . . . 210

5.5 Étude expérimentale . . . 211

5.5.1 Évaluation Théorique . . . 211

5.5.1.1 Test1 :Variationde la ontrainte R. . . 212

5.5.1.2 Test2 :Coûtd'exé ution . . . 212

(11)

Chapitre 6 AdminIn : Outil pour la on eption physique dynamique 216

6.2 Con eptionet réalisationde AdminIn . . . 217

6.2.1 Analysefon tionnelle . . . 218

6.2.1.1 Les te hniquesd'optimisations . . . 218

6.2.1.2 Le mode de séle tion . . . 218

6.2.1.3 Les algorithmesde séle tion . . . 218

6.2.1.4 Les obje tifsàoptimiser . . . 218

6.2.1.5 Le ontrle de laséle tion in rémentale . . . 218

6.2.2 Con eptionet réalisation . . . 219 6.2.2.1 Visualisation . . . 219 6.2.2.2 Système de Séle tion . . . 221 6.2.2.3 Système Dé isionnel . . . 221 6.2.2.4 Optimisation in rémentale . . . 221 6.3 Con lusion . . . 223

Partie III Con lusion et perspe tives 224

Con lusion et perspe tives 225

Partie IV Annexes 229

(12)

Glossaire 238

(13)

1.1 Entrept dedonnées modéliséen étoile . . . 13

1.2 Exempled'index de jointurebinaires simple . . . 14

1.3 Exempled'index de jointurebinaires multiple . . . 15

1.4 Exemplede déroulement del'algorithme CLOSE . . . 19

1.5 Ar hite ture pour laséle tion des

IJ B

:Aoui he etal. . . 19

1.6 Ar hite ture pour laséle tion in rémentale des

IJ B

:Azefa ketal. . . 21

1.7 appro he de séle tion des

IJ B

simples:Boukhalfa et al.. . . 24

1.8 appro he de séle tion des

IJ B

multiples :Boukhalfa et al.. . . 24

1.9 Résultatd'exé utiondu partitionnement graphique . . . 26

1.10 Classi ationdes travaux deséle tion d'

IJ B

. . . 27

1.11 Fragmentation horizontale primaire d'unetable Clientssur l'attributGenre . . . 30

1.12 Fragmentation horizontale dérivée delatable VentessuivantClients . . . 30

1.13 Fragmentation de l'entrept dedonnées . . . 31

1.14 Algorithmeglouton pour lafragmentation :Bellatre he etal. . . 36

1.15 Regroupement graphique dessous-domaines de l'attributVille . . . 39

1.16 Pro essusde fragmentation : Boukhalfaetal. . . 40

1.17 Histogramme pour l'estimation dela séle tivitédesrequêtes . . . 42

1.18 Pro essusde fragmentation : Derraretal. . . 42

1.19 Classi ationetAnalyse desalgorithmes defragmentation horizontale . . . 43

1.20 Prin ipe delaséle tion itérative. . . 46

1.21 Séle tionjointeintégrée . . . 47

1.22 Séle tionjointe,Stohret al. . . 49

1.23 Pro essusde séle tion jointe :Boukhalfaetal. . . 50

1.24 S héma de

FH

et

IJ B

dénis surl'attribut Ville . . . 52

2.1 Détermination graphique delaSurfa e deCompromis . . . 55

2.2 Dominan e Pareto :Relationsentresolutions faisables . . . 56

2.3 Relationentreles Optimums Pareto . . . 57

2.4 Prin ipe delaméthode VEGA . . . 60

2.5 Exempled'une fon tion debéné e

f (rang)

,méthode MOGA . . . 61

2.6 Prin ipe de al uldu béné eàbase devoisinage, méthode NSGA . . . 62

2.7 Stru turedu hromosome pour l'appli ation duMOGAsurle Cloud . . . 67

2.8 Exempled'untreillis de vues andidatesà lamatérialisation . . . 69

1.1 Lastru ture d'unAG . . . 74

(14)

1.5 Ar hite ture deséle tion statiquedes

IJ B

par AG . . . 83

1.6 Ar hite ture globalede séle tion in rémentale desIJB . . . 85

1.7 Ar hite ture deséle tion In rémentale desIJB NaiveNI . . . 87

1.8 Ar hite ture deséle tion In rémentale desIJB par AlgorithmesGénétiques GA . . . . 88

1.9 S héma en étoilede l'entrept de donnéesissu duben hmarkAPB1 . . . 89

1.10 Coûtd'exé ution desrequêteVs.espa e de sto kage S . . . 93

1.11 Tauxde requêtes optimisées Vs. espa e desto kage S . . . 93

1.12 Coûtd'exé ution vs.Nombred'attributs andidatsà laséle tion . . . 94

1.13 Coûtd'exé ution vs.Taillede l'entrept . . . 94

1.14 Le oûtréel desrequêtessous Ora le11g . . . 95

1.15 Le tauxde requêtes optimiséessous Ora le11g . . . 95

1.16 Tauxd'optimisation du oûtd'exé ution:NI,DMI etGA . . . 96

1.17 Tauxde requêtes optimisées :NI,DMIetGA . . . 96

2.1 Ar hite ture deséle tion statiqued'uns hémade fragmentation par AG . . . 105

2.2 Ladimension Clientsfragmentée . . . 107

2.3 Ladimension Clientsrefragmentée selon lenouveau s héma de

FH

. . . 107

2.4 Ar hite ture généralede laséle tion in rémentale d'unnouveaus hémade

F∇H

. . . 108

2.5 répartitionde donnéesde latable Clients . . . 113

2.6 Ar hite ture delaséle tion in rémentale Naïve

F HN I

. . . 118

2.7 Ar hite ture delaséle tion in rémentale par algorithmessgénétiques

F HAG

. . . 119

2.8 S héma de fragmentation de latable Clients a tuel . . . 124

2.9 Nouveau S hémade fragmentation de latableClients . . . 125

2.10 (a)s héma defragmentation

SF c

,(b)table dimension Clientspartitionnée . . . 130

2.11 (a)

SF c1

:

ESF

sur

SF c

,(b)Table Clientspartitionnée selon

SF c1

. . . 132

2.12 (a)

SF c2

:

ESF

sur

SF c1

,(b)Table Clients partitionnée selon

SF c2

. . . 133

2.13 (a)

SF c3

:

ESF

sur

SF c2

,(b)Table Clients partitionnée selon

SF c3

. . . 134

2.14 (a)

SF c4

:

RSF

sur

SF c3

,(b)TableClientspartitionnéeselon

SF c4

. . . 135

2.15 (a)

SF c5

:

RSF

sur

SF c4

,(b)TableClientspartitionnéeselon

SF c5

. . . 136

2.16 (a)

SF c6

:

RSF

vers

SF c5

,(b)Table Clientspartitionnée selon

SF c6

. . . 137

2.17 Ar hite ture delaséle tion in rémentale ave Proling desrequêtes. . . 140

2.18 Tauxd'optimisation du oûtd'exé ution( as 8requêtes). . . 143

2.19 Tauxde requêtes optimisées ( as8 requêtes). . . 143

2.20 Tauxd'optimisation du oût:

F HN I

vs.

F HAG

( as 60 requêtes) . . . 144

2.21 Tauxde requêtes optimisées :

F HN I

vs.

F HAG

( as 60 requêtes) . . . 144

2.22 Tauxl'optimisation du oût( as 8requêtes ave Proling) . . . 146

2.23 Temps de maintenan e sousOra le11g ( as 8requêtes ave Proling) . . . 146

2.24 Tauxl'optimisation du oût( as 60requêtes ave Proling) . . . 147

2.25 Temps de maintenan e sousOra le11g ( as 60 requêtesave Proling) . . . 147

3.1 Ar hite ture généralede séle tion jointedesindex simplesetmultiples . . . 153

3.2 Espa ede re her he pour

IS

vs.Espa ede re her he pour

IM

. . . 154

3.3 Ar hite ture deséle tion jointe par séparationde l'espa e dere her he . . . 154

(15)

3.7 Partage de l'espa e desto kage dirigépar requêtes . . . 160

3.8 Ar hite ture deséle tion jointe desindex simplesetmultiples baséesur les

AG

. . . . 162

3.9 Pro essusnaïfde séle tion in rémentale jointedesindex simplesetmultiples . . . 165

3.10 Ar hite ture deséle tion in rémentale jointedesindex simplesetmultiples. . . 166

3.11 Système deRé upérationde l'espa e desto kage . . . 169

3.12 Coûtd'exé ution vs.variation dutype de séle tion (théorique) . . . 171

3.13 Coûtd'exé ution vs.variation dutype de séle tion (Ora le 11g) . . . 171

3.14 Eetde lavariationde l'espa e desto kage S surlesdémar hes deséle tion . . . 172

3.15 Coûtd'exé ution vs.partage del'espa e de sto kage (théorique) . . . 172

3.16 Coûtd'exé ution vs.partage del'espa e de sto kage (Ora le11g) . . . 172

3.17 Coûtd'exé ution etvariation de S:

DM

vs.

ISIM

. . . 173

3.18 Coûtd'exé ution réelsous Ora le 11g:

DM

vs.

ISIM

. . . 173

3.19 Comparaisonentre séle tionsin rémentale jointe :

SJIN

vs.

SJIC

. . . 175

3.20 Temps de maintenan e desindex sousOra le 11g :

SJIN

vs.

SJIC

. . . 176

3.21 Coûtd'exé ution desrequêtes :

DM I

vs.

SJIC

. . . 177

4.1 Séle tion jointestatiquedela

FH

etdes

IJ B

. . . 182

4.2 Classi ationpar k-means desattributs de séle tion . . . 185

4.3 Représentation desdonnéesde l'entrept avant évolution . . . 186

4.4 Fragmentation surAgeetindexation surVille etGenre :S énario 1. . . 186

4.5 Fragmentation surAgeetGenre etindexation surVille :S énario 2. . . 187

4.6 Fragmentation surAgeetVille etindexation surGenre :S énario 3. . . 188

4.7 Ar hite ture deséle tion in rémentale jointede FHetIJB . . . 189

4.8 Tauxd'optimisation du oût:

SIJF I

,

SIF H

,

SIJB

. . . 198

4.9 Tauxde requêtes optimisées :

SIJF I

,

SIF H

,

SIJB

. . . 198

4.10 Temps de maintenan e de l'entrept sousOra le 11g :

SIJF I

,

SIF H

et

SIJB

. . . . 199

5.1 Ar hite ture delaséle tion in rémentale ave oûtde maintenan e CM . . . 209

5.2 Ar hite ture delaséle tion in rémentale CM+ProlQ . . . 211

5.3 Eetde lavariationde la ontrainte Rsur lesdémar hes

F HAG

et

CM

. . . 212

5.4 Tauxde rédu tiondu oûtd'exé ution:

F HAG

vs.

CM

. . . 213

5.5 Coûtde maintenan e :

F HAG

vs.

CM

. . . 214

5.6 Temps d'implémentation des

SF

:

F HAG

,

CM

,

P rof ilQ

,

CM + P rof ilQ

. . . 215

6.1 Ar hite ture globalede l'outil AdminIn . . . 220

6.2 Connexion àl'entrept de données etvisualisationdestables . . . 220

6.3 S héma d'optimisation a tuelde l'entrept . . . 220

6.4 Paramétrage du Système deSéle tion. . . 221

6.5 A tivation duSystème Dé isionnel,Algèbre etProlde requête . . . 221

6.6 Exé utiond'une nouvelle requêtesous Ora le11g (SQLPlus*) . . . 222

(16)

Contexte

Les entrepts de données ontiennent des données importantes qui sont intégrées, historisées et sto kées dans des modèles logiques relationnels omme les s hémas en étoile ou en o on de neige [66 ℄. Ces entrepts sont exploités par des appli ations dé isionnelles pour des ns d'analyse en ligne, à travers des requêtes dé isionnelles dites requêtes de jointures en étoile très omplexes et très gourmandes en temps d'exé ution (des heures voir des jours). Ces requêtes ontiennent de multiplesopérationsdeséle tion,dejointureetd'agrégationetsont omplexes arellesrenfermentdes opérationsdejointuresenétoilesentretabledefaitsvolumineuse ettablesdimension ave opérations deséle tionsurlesdimensions.Danslebutdesatisfairelesexigen esdesdé ideursentermesdetemps deréponse, il estprimordiald'optimiser esrequêtes.Cetteoptimisation est assuréepar l'utilisation desstru tures d'optimisation séle tionnées lors de la phasede on eption physique de l'entrept de données, omme lafragmentation horizontale [14 ℄, les vues matérialisées [83 ℄, l'ordonnan ement des requêtes [54 ℄,l'indexation [86℄,la ompression [97 ℄,et .

L'indexation est l'une des premières stru tures d'optimisation proposées dans le ontexte des bases de données et qui amontréses performan es [38, 94℄. Cependant, les te hniques d'indexation utilisées dans les bases de données de type OLTP (On-Line Transa tion Pro essing) ne sont pas réellement adaptées aux environnements des entrepts des données, ar les requêtes de jointures en étoilea èdent àuntrèsgrandnombreden-uplets equi onduirait àdesindex volumineuxpastrès e a es[78 , 39 ℄.Par onséquent, danslesou id'optimiser simultanément laséle tion etlajointure, les index de jointure binaires ont été proposés etsupportés par laplupart des SGBD ommer iaux. Un index de jointure binaire est onstruit sur la table de faits suivant un ou plusieurs attributs appartenant à une ou plusieurs tables de dimension. Par onséquent, le nombre d'index possibles peutêtretrès important e quirendlatâ hedeleurséle tiondi ile.Deuxtypesd'indexdejointure binairesexistent;lesindex simplesdénis surunseulattributet les indexmultiples dénissurdeux ouplusieurs attributsdestables dimensions.

Une autrete hnique d'optimisationutiliséelors delaphasede on eptionphysiquedesentrepts de données est la fragmentation horizontale. Elle permet de répartir les instan es d'une table, d'un index ou d'une vue matérialisée en un ensemble de partitions disjointes appelés fragments horizon-taux[84 ℄.C'est une stru ture d'optimisation dite non redondante arelle ne né essite pasun espa e desto kagesupplémentaire. Elleestsupportée parplusieursSGBD ommer iaux(Ora le,DB2,SQL Server, Sybase) et non ommer iaux (PostgreSQL et MySQL). Deux types de fragmentation hori-zontale existent : la fragmentation horizontale primaire et la fragmentation horizontale dérivée. La fragmentation horizontale primaire permet de répartir les tuples d'une table suivent la onjon tion de prédi ats de séle tion dénis sur les attributs de la même table. Elle favorise les opérations de séle tion portéessurles attributs de fragmentation [29℄. Lafragmentation horizontale dérivée quant

(17)

tion des opérations de jointures entres es deux tables [47℄. La fragmentation horizontale a sus ité un grand intérêt dans le domaine de re her he. Premièrement, 'est une te hnique non redondante qui nené essitepasun espa e desto kage supplémentaire.Deuxièmement, lors del'exé ution d'une requête, seulesles partitionsvalidespour ette requête sont hargées e qui réduit onsidérablement le oût d'exé utionde la requête. Une partition valide pour une requêteest une partition a essible par ette requête sur au moins un tuple. Troisièmement, elle onstitue le point de départ dans la on eptiondesentrepts de donnéesparallèles etdistribués[80 ℄.

Vu la né essité d'optimiser les requêtes de jointures en étoile, plusieurs travaux de re her he proposent desappro hesde séle tion etd'implémentation de esdeuxte hniquesd'optimisation. Ils ommen ent par formaliserleproblème deséle tion enunproblèmed'optimisationmono-obje tif où ilfaux hoisirunensembled'instan esoustru turesd'optimisationquioptimiselesperforman esdes requêtessousdes ontraintesd'optimisations,puisproposentdesalgorithmesderésolution.D'abords, le problème de séle tion des index de jointure binaire dans sa formalisation lassique onsiste à séle tionnerune ongurationd'index quioptimisent une hargede requêtes,préalablement onnue, sansvioler la ontrainte d'espa edesto kage. Dansle ontexted'entrept dedonnées, vulenombre importantsdestablesetdesattributs on ernéspar ladénition desindex,leproblème deséle tion des index de jointures binaires est di ile et est prouvé NP-Complet. Ainsi, plusieurs algorithmes nonexhaustifsontétédéveloppésanderésoudre eproblème. Ensuite, on ernantlafragmentation horizontale d'un entrept de données, les travaux proposés ommen ent par formaliser le problème de séle tion d'un s héma de fragmentation en un problème d'optimisation où il faut fragmenter les tablesde l'entrept an d'optimiser le oûtd'exé ution desrequêtes sous ertaines ontraintes, puis ils proposent également des algorithmesde séle tion qui répondent aux exigen esformalisées.

Problématique et propositions

En analysant les travaux proposés pour séle tionner les te hniques d'optimisation, nous remar-quons que estravaux sesituent dansle adrede séle tion dite statique où les te hniques d'optimi-sation sont séle tionnées lors de la phase de on eption physique de l'entrept etne hangent plus. Cetype de séle tion nepermetpasdefaire fa eà l'évolution de l'entrept de donnéesqui omporte deuxaspe ts:l'évolution de hargeparl'exé utionde nouvellesrequêtesdé isionnellesetl'évolution de données par l'insertion ontinuelle de nouvelles données dans les tables de l'entrept. L'aspe t statiquede la séle tion présente un handi ape quant à l'e a ité d'optimisation des te hniques im-plémentées. Les index de jointures binaires, par exemple, sont dénis sur les attributs non- lé des tables dimensions gurant dans les requêtes. L'évolution de l'entrept de donnés peut rendre es index obsolètes etpérimés.Pour e qui est dela fragmentation horizontale sil'entrept évolue, rien ne garantit l'e a itédu s héma defragmentation pour optimiserlanouvelle harge derequêtes.

Nous avons remarqué également que la plupart des travaux de séle tion exploite une séle tion isoléeoùuneseulete hniqued'optimisationestétudiée.Ave l'expansion ontinuelledesentreptsde donnéesetla omplexité grandissante desrequêtes,uneseule te hniquene sutplus. Ee tivement, laséle tion d'uns hémad'optimisationesttoujourssoumiseàdeslimitationsest ontraintes, omme l'espa e de sto kage à allouer pour sto ker des index par exemple, ou en ore la gestion du nombre importants de fragments des tables issus de la fragmentation. Par onséquent, il faut mettre en ÷uvreune appro he de séle tion ditejointequiséle tionneplusieurs te hniques d'optimisations an

(18)

sième onstatation. Le problème de séle tion d'une te hnique d'optimisation est toujours formalisé sous forme d'unproblème d'optimisation mono-obje tif où seul le oût d'exé ution de la harge de requêtes est onsidéré ommeunobje tif àoptimiser. Laquestion quenousnousposonsest : existe-t-il d'autres obje tifs à optimiser an de proposer des stru tures d'optimisation qui non seulement optimisent la harge de requêtes mais répondent également à d'autres exigen es? Notre étude dela séle tion in rémentale a révélé que lamise à jour des te hniques d'optimisation né essiteun temps d'implémentation et d'utilisation des ressour es systèmes. Il est vrai que la séle tion in rémentale permetdefaire fa eàl'évolutiondel'entrepten améliorant ontinuellement le oûtd'exé utiondes requêtes mais elle engendre e qu'on appelle un oût de maintenan e de l'entrept de données qu'il faut optimiserégalement.

Première proposition : Séle tion in rémentale isolée

Vu les in onvénients que présente la séle tion statique, nous onstatons l'intérêt d'étudier la sé-le tion ditein rémentale deste hniques d'optimisation. La séle tion in rémentale ee tuela miseà jourdus hémad'optimisationa tueld'unentreptdedonnéespourprendreen omptesonévolution etles hangementssurvenus, e quigarantitune ontinuelle optimisationdesrequêtes dé isionnelles. An de faire fa eà l'évolution de l'entrept de données, nous proposons une démar he de séle tion in rémentale dite isolée d'une te hnique d'optimisation. Dans un premier lieu, nous proposons une démar hedeséle tionin rémentaleisoléedesindexdejointurebinairesoùnous onsidérons un entre-pt dedonnées sur lequelest implémentéun ensembled'index de jointure binaires.Notre démar he aptureles hangementsquisurviennentsurl'entreptetee tuelamiseàjourdesindexenajoutant denouveauxindexbénéquesetensupprimantlesindexpérimésanquetouslesindeximplémentés répondenttoujoursauxexigen esd'optimisation. Dansunse ondlieu,nousproposonsunedémar he de séle tion in rémentale isolée d'uns héma de fragmentation horizontale. Nous onsidérons un en-trept de données déjà partitionné. Cette se onde démar he prend en onsidération l'évolution de l'entrept et ee tue une mise à jour de son s héma de fragmentation en réorganisant les données entrelesdiérentsfragmentsdel'entrept.Cettemiseàjourgarantiequelenouveaupartitionnement de l'entrept réponde bienàl'optimisation desrequêtes dé isionnelles.

Se onde proposition : Séle tion in rémentale jointe

Devant la omplexité grandissante des requêtes de jointure en étoile, la séle tion d'une seule te hnique d'optimisation devient de moins en moins bénéque. L'intérêt prin ipale de la séle tion jointeetde ombinerplusieurste hniquesd'optimisationande ouvrirl'optimisationd'unmaximum de requêtesetde respe terau mieuxles ontraintes d'optimisation. De plus, ilexiste deste hniques qui présentent des similarités oudes diéren esmaisqui sont omplémentaires où haquete hnique pallie aux manques de l'autre. Ré emment, une séle tion statique jointe de la fragmentation et de l'indexation a été proposée. Elle exploite les similarités entre les deux te hniques pour obtenir un meilleurs hémad'optimisation.Cependant, etteappro heresteuneappro hedeséle tionstatiqueet é opedesin onvénients itées i-dessus.Deplus,iln'existeau untravailsurlaséle tionin rémentale jointe de es deux te hniques. Ainsi, nous proposons d'exploiter les similarités entre les index de jointuresbinaires lafragmentation horizontale pour proposeruneappro hede séle tionin rémentale jointe. Par analogie, nousétudions les similarités et omplémentarité des index de jointure binaires

(19)

Troisième proposition : Optimisation multi-obje tif

La séle tion in rémentale des te hnique d'optimisation implique lamise à jour du s héma d'op-timisation de l'entrept de données e qui engendre un oût de maintenan e. Nous visons don à proposerunenouvelleformulationduproblèmedeséle tionin rémentaleenunproblème d'optimisa-tionmulti-obje tif où ilfaut optimiser deuxobje tifs:le oûtd'exé ution desrequêtes etle oûtde maintenan e de l'entrept de données. Nous onstatons que et axe de re her he est omplètement vierge : il n'existe au un travail qui traite de la séle tion in rémentale et de l'optimisation multi-obje tif à lafoisdans le ontexted'entrept de données. Deplus, il n'existe au un travailqui traite delaséle tion multi-obje tif(statiqueouin rémentale) desindexoudelafragmentationhorizontale. Celaasus iténotregrandintérêt pour développerdenouvellesdémar hesdeséle tion quirépondent à etteproblématique double.

Prin ipales ontributions

L'obje tif de notre travail est de proposer une nouvelle vision de séle tion des te hniques d'op-timisation qui omporte deux aspe ts importants :l'optimisation des entrepts de données dansun adrein rémentaleetl'optimisationmulti-obje tif.Nousavonsétudiédeuxte hniquesd'optimisation qui sontles index de jointures binaires etla fragmentation horizontale selon ette nouvelle vision de séle tion. Nostravauxnousontpermis d'apporterles ontributions suivantes :

1. Séle tion in rémentale isolée des index de jointures binaires. Dans ette première séle tion proposée, nousavons faitles ontributions suivantes :

Proposer un nouvel algorithme de séle tion des index de jointure binaires basésur les algo-rithmes génétiques[18 , 25 ,21,20℄.

Proposerune séle tion in rémentale desindexde jointurebinaires quipermetde fairefa eà l'évolutiondel'entrept dedonnées etaux hangements pouvant survenir[18 , 25,21,20 ℄. 2. Séle tionin rémentaleisoléed'uns hémadefragmentationhorizontale.Séle tionneruns héma

defragmentationestunetâ hetrès omplexe.Elleestd'autantplus omplexes'ilfaut onsidérer l'aspe tin rémentale. Ainsi, nousavons faitlespropositions suivantes:

Proposer unestru ture de donnéesexible pour oderun s hémade fragmentation [24℄. Proposer une nouvelle vision de fragmentation basée surla stru ture de donnée exible qui

peutprendreen hargelafragmentation statiqueou in rémentale [19, 24 ,7,23℄.

Proposer un algorithme génétique qui exploite la stru ture de données pour la séle tion statiqueetin rémentale[24 ℄.

Proposer une Algèbredite Algèbre de Fragmentation

AF

qui modélise toute les opérations pouvant être appliquées sur la stru ture de données (un s héma de fragmentation) an de l'adapter àl'évolutionde l'entrept [23℄.

3. Séle tionin rémentale jointededeuxte hniquesd'optimisation. Dans e adre,nousavonsfait deuxpropositions

Séle tionin rémentalejointe desindex dejointuresbinairessimplesetdesindexde jointures binaires multiples.

Séle tion in rémentale jointe des index de jointures binaires etde lafragmentation horizon-tale.

(20)

Formaliser le problème de séle tion in rémentale d'un s héma de fragmentation en un pro-blème multi-obje tif qui vise à optimiser le oût de la harge de requêtes et le oût de maintenan e d'uns hémade fragmentation.

Proposerunmodèlede oûtmathématiquepourévaluerle oûtdemaintenan edel'entrept de données.

Proposer unerésolution duproblème deséle tion multi-obje tif.

Dénir une ar hite ture globalede séle tion in rémentale multi-obje tif [8, 7℄.

Organisation de la thèse

Cette thèseest organiséeen deuxparties prin ipales:

Partie état de l'art

La premièrepartie exposenotreétatde l'art.Lepremier hapitre abordelesprin ipaux on epts surlesindexdejointuresbinairesetlafragmentationhorizontale,etprésenteuneanalyseet lassi a-tiondesdiérentstravauxdeséle tionsde este hniquespouroptimiserlesentreptsdedonnées.Ce hapitreprésenteégalementlepositionnementdenosdiérentespropositionsparrapportàl'existant. Le se ond hapitre abordel'optimisationmulti-obje tif du point devu dénitionsmathématiques et méthodede résolution ainsiquesonappli ation dans le ontextedesentrepts de données puis pré-sentelepositionnement de notre proposition danslalittérature.

Partie ontributions

Nous exposonsdans ettepartie six hapitresqui exposenosprin ipales ontributions.

Dans le troisième hapitre, nous proposons une appro he de séle tion in rémentale des index de jointure binaires. Ce hapitre présente le odage utilisé pour odier les ongurations d'index, la méthode d'élagage de l'espa e de re her he des index et l'algorithme génétique employé pour la séle tion in rémentale desindex simplesetdesindex multiples. Le hapitre seterminepar une large étude expérimentale sous leSGBD Ora le qui exploite unentrept de données réel pour valider les appro hesproposées etles omparer ave lestravauxd'indexation existants.

Le quatrième hapitreexposenotredémar he deséle tion in rémentale d'uns hémade fragmen-tation. Il présente lastru ture de données exible qui permet de odier n'importe quel s héma de fragmentation. Ensuite, il expose l'algèbre dite algèbre de fragmentation qui exploite la stru ture exibleet permetde déterminertoutes lesopérations requisespour passerd'uns héma de fragmen-tation à un autre. Ensuite, le hapitre dé rit le Proling des requêtes mis en ÷uvre à la base de l'algèbre de fragmentation qui ontrle larefragmentation del'entrept. Après ela,ildé ritla nou-vellear hite turedeséle tionin rémentalebaséesurleProlingdesrequêtes.Finalement,le hapitre exposedans uneétude expérimentale letest desappro hesproposées.

Le inquième hapitreabordelaséle tionjointedesindexsimplesetdesindexmultiples.Ilexpose une omparaisonentrelesdeuxtypesd'index,leursprin ipalesdiéren esetsimilarités,l'ar hite ture de l'appro he de séle tion in rémentale jointe l'étudeexpérimentale menée sousOra le 11g.

Le hapitresixabordeuneappro hedeséle tionin rémentalejointedesindexdejointurebinaires de la fragmentation horizontale. Ce hapitre est une ontinuité de nos travaux pré édents sur la

(21)

Le hapitre septabordenotreappro he d'optimisationin rémentale multi-obje tif dela fragmen-tation horizontale. Il expose la formalisation du problème d'optimisation multi-obje tif, le modèle de oût de maintenan e, l'appro he de résolution du problème et l'ar hite ture de séle tion multi-obje tif.Le hapitre est on lu par une étudeexpérimentale théorique etpratique sousOra le.

Le hapitrehuitprésentel'ar hite turedel'outilquipermetd'implémentertouteslespropositions faitesetpermetdeproposeràl'administrateurdel'entreptdedonnéesuneassistan epouroptimiser unentrept dedonnées.

Le neuvième hapitre présentela on lusiongénéralede etravailetesquissedediverses perspe -tives.

Publi ations

Nous listonsdans e qui suit lespubli ations on ernant letravail de ette thèse.

Liste des arti les portant sur les index de jointure binaires :

1. Rima Bou hakri, Ladjel Bellatre he, Zoé Faget, Sébastien Bress : Séle tion statique et in ré-mentale des Indexde Jointure Binaire : on epts, algorithmes, étude de performan e. Journal ofDe ision Systems(JDS'12) Vol.21(1) :51-70(2012) [20℄.

2. RimaBou hakri,LadjelBellatre he,Khaled-WalidHidou i:Stati andIn rementalSele tionof Multi-tableIndexes for Very LargeJoinQueries. 16th East-European Conferen eon Advan es inDatabases andInformation Systems(ADBIS'12) :43-56,2012. [21 ℄

3. RimaBou hakri,Kamel Boukhalfa,Ladjel Bellatre he :Algorithmes de séle tion desindex de jointurebinairesmonoetmulti-attributs. IngénieriedesSystèmesd'Information(ISI'11)16(6): 91-116(2011) [25 ℄.

4. Rima Bou hakri, Ladjel Bellatre he : Séle tion statique et in rémentale des index de jointure binaires multiples. 7ème Journée Fran ophone sur les Entrepts de Données et l'Analyse en ligne (EDA'11),Revue desNouvelles Te hnologies :171-186, 2011 [18 ℄.

Liste des arti les portant sur la fragmentation horizontale :

1. RimaBou hakri,LadjelBellatre he,ZoéFaget:Algebra-basedApproa hforIn rementalData Warehouse Partitioning, 25thInternational Conferen e on Database and Expert Systems Ap-pli ations(DEXA'14),Germany,2014 [23 ℄.

2. LadjelBellatre he,Rima Bou hakri, Alfredo Cuzzo rea, Soan Maabout :Horizontal partitio-ningofvery-largedatawarehousesunderdynami ally- hangingqueryworkloadsviain remental algorithms. 28th Annual ACM Symposium on Applied Computing (SAC'13) : 208-210, 2013 [7℄.

3. RimaBou hakri,Ladjel Bellatre he :ACodingTemplatefor Handling Stati andIn remental Horizontal Partitioning in Data Warehouses. Journal of De ision Systems (JDS'13) Vol. 22, 2013 [24℄.

(22)

onData Management inGridandP2P Systems(GLOBE'13) :13-25, 2013 [8℄.

5. RimaBou hakri,LadjelBellatre he:OnSimplifyingIntegratedPhysi alDatabaseDesign.15th East-European Conferen e on Advan es in Databases and Information Systems (ADBIS'11) : 43-56, 2011.[17 ℄

6. Rima Bou hakri, Ladjel Bellatre he : Séle tion In rémentale d'un S héma de Fragmentation Horizontaled'unEntreptdeDonnéesRelationnel.8èmeJournéeFran ophonesurlesEntrepts deDonnées etl'Analyseenligne (EDA'12),RevuedesNouvellesTe hnologies:2-16,2012[19℄.

Arti les ollaboratifs :

1. LadjelBellatre he,SelmaKhouri,IlyèsBoukhari,RimaBou hakri:Usingontologiesand requi-rementsfor onstru tingandoptimizingdatawarehouses.InternationalConventionon Informa-tionandCommuni ationTe hnology,Ele troni sandMi roele troni s(MIPRO12):1568-1573, 2012.

(23)

(24)

Séle tion mono-obje tif des te hniques

d'optimisation

Sommaire

1.1 Introdu tion . . . 11 1.2 Séle tionIsoléedes

IJ B

. . . 12 1.2.1 Typesd'

IJ B

. . . 12 1.2.1.1 Les

IJ B

Simples

IS

. . . 12 1.2.1.2 Les

IJ B

Multiples

IM

. . . 14 1.2.2 Problèmedeséle tionettravauxexistants . . . 15 1.2.2.1 Formalisation . . . 16 1.2.2.2 Complexité . . . 16 1.2.2.3 TravauxdeAoui heet al. . . 17 1.2.2.4 TravauxdeAzefa ket al. . . 20 1.2.2.5 TravauxdeBellatre heetal. . . 22 1.2.2.6 TravauxdeBoukhalfaetal. . . 23 1.2.3 Bilanetdis ussion . . . 27 1.3 Séle tionisoléed'un s héma de FragmentationHorizontale. . . 29 1.3.1 La

FH

etsonévolution. . . 29 1.3.1.1 Fragmentationprimaireetdérivée . . . 29 1.3.1.2 Fragmentationdesentreptsdedonnées . . . 30 1.3.1.3 Lafragmentationdansl'industrie . . . 31 1.3.2 Problèmedeséle tionettravauxexistants . . . 33 1.3.2.1 TravauxdeBellatre heetal. . . 33 1.3.2.2 TravauxdeBoukhalfaetal. . . 35 1.3.2.3 TravauxdeMahboubi etal. . . 40 1.3.2.4 TravauxdeDerraretal. . . 41 1.3.3 Bilanet lassi ationdestravaux . . . 43 1.4 Séle tionjointedes te hniques d'optimisation . . . 45 1.4.1 Typesdeséle tionjointe . . . 45 1.4.1.1 Séle tion itérative. . . 46 1.4.1.2 Séle tion intégrée . . . 46 1.4.1.3 Choixdutypedeséle tionjointe . . . 47

(25)

1.4.2.1 TravauxdeStöhret al . . . 48 1.4.2.2 TravauxdeBoukhalfaetal . . . 50 1.4.3 Bilanetdis ussion . . . 51 1.5 Con lusion . . . 52

(26)

1.1 Introdu tion

Les requêtes de jointure en étoile omportent desprédi ats de séle tion dénis surdes tablesde dimensionetdesprédi atsdejointuresentrelatabledesfaitsetlestablesdedimension.Pour optimi-serles séle tions etlesjointures, les her heurs ont pensé àemployer deste hniques d'optimisations proposées dans le ontexte des bases de données omme les index, la fragmentation horizontale, la fragmentation verti ale et les vues matérialisées. Dans le adre de e travail, nous nousintéressons auxdeuxte hniques lesplusutilisés dansle ontexted'entreposagede données, àsavoir lesindex et lafragmentation horizontale.

Lesindexonteneetmontréleursperforman esdanslesbasesdedonnéestraditionnelles,onpeut par exemple iterlesarbresB etleurs variantes[38 ℄. Unindexpeutêtredénisuruneseule olonne d'une table, ou sur plusieurs olonnes d'une même table. Il peut être lustérisé ou non lustérisé. Il peut également être déni sur plusieurs tables omme les index de jointure [94℄. Ave l'arrivée desentrepts de données, l'indexation onstitue une optionimportante danslaphasede on eption physique [34 ℄. Cependant, les te hniques d'indexation utilisées dans les bases de données de type OLTP (On-Line Transa tion Pro essing) ne sont pas réellement adaptées aux environnements des entrepts des données. En eet la plupart des transa tions OLTP a èdent à un petit nombre de n-uplets, et les te hniques utilisées (index

B

+

par exemple) sont adaptées à e type de situation. Lesrequêtes dé isionnellesadresséesà unentrept dedonnées a èdent au ontraireà untrèsgrand nombreden-uplets.Réutiliserleste hniquesdessystèmesOLTP onduiraitàdesindexave ungrand nombre deniveauxquineseraientdon pastrèse a es[78 ℄.And'orirdessolutionsd'indexation adaptées au ontexte des

ED

, de nouveaux index ont été proposés. Nous pouvons iter : les index binaires,lesindex de jointureetlesindex de jointurebinaires.(a)Lesindex binaires [30℄optimisent lesopérationsdeséle tiondéniessurdesattributsappartenantàdestablesdedimension.Cesindex sont largement utilisés dans les bases de données XML [69 , 48℄ et dans la re her he d'information [50℄.(b)Lesindex dejointuresen étoile permettant desto kerlerésultat d'exé utiond'unejointure en étoile entre plusieurs tables [91℄. ( ) Les Index de Jointures Binaires (

IJ B

) [77℄ permettant d'optimiser à la fois les jointures en étoile et les opérations de séle tions dénies sur les tables de dimensions, e quifait qu'ilssont bienadaptés pour optimiserles requêtes de jointureen étoile[89℄. Vule béné e que lesindex de jointures binaires apportent auxrequêtes dé isionnelles, ils sont très souvent employés lors de la phase de on eption physique d'entrepts de données. Par onséquent, plusieurs travauxs'intéressent àdévelopperdespro essusde séle tions de e type d'index.

An d'optimiser les requêtes dé isionnelles une autre te hnique d'optimisation est employée, à savoir la fragmentation horizontale (

FH

) qui a déjà fait ses preuves dans le ontexte des bases de donnéestraditionnellesetd'entreposagededonnées.Lafragmentationhorizontalepermetderépartir lesinstan esd'unetable,d'unindexoud'unevuematérialiséeenunensembledepartitionsdisjointes appelésfragmentshorizontaux [84 ℄.Initialement,lafragmentation horizontale aétéutiliséelorsdela on eption logique desbases de données relationnelles etorientées objet[64, 52℄. A tuellement, elle est onsidérée ommeune te hnique d'optimisationutilisée auniveau physique. C'est unete hnique non redondante ar elle ne né essite pas un espa e de sto kage supplémentaire [12℄. Deux types de fragmentation horizontale existent : (a) la fragmentation horizontale primaire

(FHP)

et (b) la fragmentation horizontale dérivée

(FHD)

[80℄.

Nous nousintéressonsdans e travail auxindex de jointures binaires et à la fragmentation hori-zontale ar esontdeuxte hniquesd'optimisationsouventutilisées,lorsdelaphasede on eptiondes entreptsdedonnées,pouroptimiserlesrequêtesdejointuresenétoiles.Eneet, esdeuxte hniques optimisent lesopérationsde jointuresentretable defaits volumineuse etplusieurstablesdimensions

(27)

ave opérationsdeséle tionsurlestablesdimensions.Ave l'augmentation ontinuelledelatailledes entrepts de données et de la omplexités des requêtes dé isionnelles, une nouvelle tendan e vise à implémenter onjointement les deux te hniques au même temps an de ouvrir l'optimisation d'un plus large nombre de requêtes en respe tant les ontraintes existantes omme l'espa e de sto kage limitéqu'on peutallouer auxindex par exemple.

Nousprésentonsdans e hapitreunétatdel'artportantsurlestravauxsurlesindexdejointures binaireset euxportantsurlafragmentation horizontale.Ce hapitre estorganiséen inqse tion.La se tion2présenterunétatdel'artsurlaséle tiondesIndexdeJointuresBinairesetune lassi ation des travaux de re her hes. La se tion 3 dé rit un état de l'art et une lassi ation des travaux qui traitent de laséle tion d'uns hémade fragmentation horizontale. Lase tion 4présenteles on epts ettravauxsurlaséle tion jointedeste hniques d'optimisation. Lase tion 5 on lu le hapitre.

1.2 Séle tion Isolée des

IJ B

Nous présentons dans ette se tion les Index de Jointures Binaires et leur fon tionnement, la formalisation du problème de séle tion des index et sa omplexité et les prin ipaux travaux qui proposentdesdémar hederésolutionduproblème.Ensuitenousexposonsuneanalyseet lassi ation des travaux existants. Nous présentons deux dénitions employés dans le ontexte de séle tion des index de jointuresbinaires :

Attribut de séle tion : 'estun attribut non- lé d'une table dimension gurant dans la lause WHEREd'unerequêteetutilisé omme ritèrede séle tion.Supposantune table Clientsdont ladénitionrelationnelle estClient(CID,Prénom,Nom, Age,Ville).Soitlarequêtedonnée i-dessus.L'attribut Ville estappeléattributde séle tion aril permetde séle tionner les lients delaville d'Alger.

SELECT * FROM Client

WHERE Ville='Alger'

Prédi at de séle tion : 'est un prédi at logique déni sur un attribut de séle tion. Il est de laforme (

A

op

V

i

), où

A

est un attribut de séle tion,

V

i

une valeur dans le domaine de

A

et op

∈ {=, <>, <, >, ≤, ≥}

.Il peutégalement êtrede laforme

A

In (

V

1 , · · · , V

n

).

1.2.1 Types d'

IJ B

Unindex dejointurebinairespermetdepré- al ulerlesjointuresentreuneouplusieurstablesde dimensionetlatabledesfaitsdanslesentreptsdedonnéesmodélisésparuns hémaenétoile(O'Neil etal.1995,1997).Ilestdénisurlatabledesfaitsenutilisant desattributsdeséle tion appartenant à une ou plusieurs tables de dimension. Il est omposéd'un ensemble de ve teurs binaires muni du RowID qui permet au SGBD de al uler l'adresse physique de l'enregistrement. Nous distinguons deuxtypesd'

IJ B

:les

IJ B

simples etles

IJ B

multiples.

1.2.1.1 Les

IJ B

Simples

IS

Les

IJ B

simples, appelés aussi

IJ B

mono-attributs, sont desindex dénis sur unseul attribut de séle tion. Soit un attribut

A

appartenant à une table de dimension

D

. L'attribut

A

possède

m

valeursdistin tes

v

1 , v

2 , · · · , v

m

.Supposons quela tabledesfaits

F

est omposée de

p

instan es. La onstru tion de l'index dejointure binairedénisur l'attribut

A

sefait omme suit:

(28)

Figure 1.1 Entrept dedonnées modéliséen étoile

1. réer

m

ve teursbinaires(un ve teur pour haque valeur

v

k

) omposés ha un de

p

ligne; 2. le

i

`

eme

bitdu ve teur d'unevaleur

v

k

est mis à

1

si l'instan e

i

de la table desfaits estjointe ave l'instan e de latable de dimension

D

tel quela valeurde

A

de ette instan eest égale à

v

k

.Il est mis à0 sinon.

La nature binaire des

IJ B

permet d'améliorer les performan es des requêtes en permettant d'ap-pliquer des opérations logiques AND, OR, NOT, et . Ces opérations permettent de re her her des n-upletsvériantdes onjon tionsoudesdisjon tionsdeprédi ats.Les

IJ B

sonttrèsbénéquespour les requêtesde type Count(*) oùl'a ès unique àl'index binaire permet de répondreà esrequêtes. Notons quela taille d'un

IJ B

est proportionnelle àla ardinalité desattributs indexés (nombre de valeursdistin tes).Pour omprendre lefon tionnement des

IJ B

simples, nousprésentons l'exemple suivant.

Exemple 1 Soit l'entrept dedonnées modélisé en étoileet omposé d'une table des faits Ventes et trois tables de dimension Client, Produit et Temps représenté dans la gure 1.1. Soit la requête

Q1

suivante :

SELECT ount(*)

FROM Ventes V, Produit P WHERE V.CID=P.CID

AND C.Catégorie='Beaute'

An d'optimiser le oût d'exé ution de

Q

1

, nous réons un

IJ B

simple appelé IJB_Catégorie sur l'attribut Catégorie de la table dimension Clients (gure 1.2(b)). La population des table Ventes et Clients est représenté par la gure 1.2(a). L'implémentation des

IJ B

est supportée par la plupart des SGBD ommer iaux. Ainsi,nous donnons dans e qui suit la syntaxe Ora le pour la réation de l'index IJB_Catégorie.

CREATE BITMAP INDEX IJB_Catégorie ON Ventes(Produit.Catégorie) FROM Ventes V, Produit P WHERE V.CID=P.CID

Pour optimiser la requête

Q

1

, l'optimiser lit le ve teur asso ié à la valeur 'Beauté'. Puisque que

Q

1

est une requête Count(*), au un a ès aux tables n'est requis; il sut de al uler le nombre de "1" dans leve teur résultat (gure 1.2( ).

(29)

Figure 1.2 Exempled'index de jointurebinaires simple

1.2.1.2 Les

IJ B

Multiples

IM

Les

IJ B

multiples, appelés aussi

IJ B

multi-attributs, sont dénis surplusieurs attributs issus d'une ou plusieurs tables dimensions. Ce sont don des

IJ B

multi-tables. An de omprendre le fon tionnement des

IJ B

multiples, supposons la onstru tion d'un

IJ B

multiple sur un ensemble d'attributs

{A

1 , · · · , A

n

}

appartenant aux tables de dimension

D = {D

1 , · · · , D

d

}

. L'attribut

A

i

possède

m

i

valeurs distin tes

v

i

1 , v

1 i

, · · · , v

m

i

. Supposons que latable des faits

F

est omposée de

p

instan es. La onstru tion de l'index de jointurebinaire dénisur les attributs

{A

1 , · · · , A

n

}

sefait ommesuit :

1. réer

m

i

ve teurs binaires (un ve teur pour haque valeur

v

i

k

) omposés ha un de

p

ligne et elapour haque attribut

A

i

;

2. le

j

`

eme

bit duve teur d'unevaleur

v

i

k

estmis à

1

si l'instan e

j

de la tabledes faits estjointe ave l'instan ede latable dedimension

D

telque lavaleurde

A

i

de etteinstan e estégale à

v

i

k

.Il est mis à0 sinon.

Dansl'exemple suivant, nousallonsmontrer la onstru tion d'un

IJ B

multiple.

Exemple 2 Considéronsl'entrept de données de la gure 1.1. Soitla requête

Q

2

suivante : SELECT avg (quantité)

FROM Ventes V, Clients C, Produits P, Temps T

WHERE V.CID =C.CID AND V.PID =P.PID AND V.TID =T.TID AND C.Ville= ('Poitiers' OR 'Alger')

AND T.Mois='Février'

AND P.Catégorie IN ('Beaute', 'Soins') AND C.Genre='M'

Pour réduire le oût d'exé ution de la requête

Q2

, un

IJ B

multiple est rée sur les attributs Ville, Mois,Catégorie et Genre (gure 1.3(a)).

Nousdonnons dans e qui suit la syntaxe Ora le pour la réation de l'index. CREATE BITMAP INDEX IJB_VMCG

ON Ventes(Client.Ville, Temps.Mois, Produit.Catégorie, Client.Genre) FROM Ventes V, Clients C, Produit P, Temps T

(30)

Figure1.3 Exemple d'indexde jointure binairesmultiple

Pour optimiser la requête

Q

2

, des opérations de AND, OR sont appliquées sur les ve teurs du

IJ B

and'obtenirleve teurrésultatprésentédanslagure1.3( ).Ensuite,l'optimisera èdeauxn-uplets de la table de faits en utilisant les Rowid orrespondant aux bits mis à 1 dans le ve teur obtenu. Il al ule la moyenne de quantité de es n-uplets. Cet exemple montre bien l'e a ité des

IJ B

pour l'optimisation derequêtes de jointures enétoile.

La nature binaire des

IJ B

permet d'améliorer les performan es des requêtes en permettant d'ap-pliquer des opérations logiques AND, OR, NOT, et . Ces opérations permettent de re her her des n-uplets vériant des onjon tions ou des disjon tions de prédi ats. Les

IJ B

sont très bénéques pour les requêtes de type Count(*) où l'a ès à l'index binaire seulement permetde répondre à es requêtes. Notons que la taille d'un

IJ B

est proportionnelle à la ardinalité des attributs indexés (nombredevaleursdistin tes).Pour etteraison,ilssont souvent re ommandéspourlesattributs de faible ardinalité.

1.2.2 Problème de séle tion et travaux existants

An d'optimiser les requêtes de jointure en étoile, les index de jointures binaires sont onstruits surdesattributsnon léissusdestablesdimensions. Cependant,au lieudedénir lesindexsurtout les attributs possibles, on les déni surun sous ensembled'attributs non- lés des tablesdimensions utilisés par les requêtes appelés attributs indexables. Un attribut est indexable s'il estutilisé par un prédi atdeséle tion gurantdansla lauseWHEREd'unerequêtedejointureenétoile. Celaassure l'optimisation desrequêtes touten ex luant les attributs nonpertinents.

(31)

en-sembled'index réduisant le oût d'exé ution d'une harge de requêtes exé utées surun entrept de données, sans violer la ontrainte d'espa e de sto kage alloué pour sto ker les index. Ce problème reste ependant di ile à résoudre, parti ulièrement dans le ontexte d'entrept de donnés, vu le nombre important d'attributs indexables (plusieurs dizaines ou entaines d'attributs). De plus, les indexpeuventêtredénissurunouplusieursattributsissusd'uneouplusieurstables.Par onséquent, plusieurs travauxexistent danslalittérature proposantdesdémar hesd'indexation desentreptsde données. Ces travaux on ernent généralement les index de jointures binaires qui sont très e a es pouroptimiserlesopérationsdejointuresenétoileentrelatabledefaitsetplusieurstablesdimensions ave opérationde séle tions surlesdimensions.

Nousprésentonsdans equisuitlaformalisationduproblèmedeséle tiondes

IJ B

,la omplexité duproblèmeetlesprin ipauxtravauxquiproposentdesdémar hesderésolution duproblème.Nous terminonspar présenteruneanalyse ritiquedestravauxquinousà onduite àproposerdenouvelles appro hesde séle tion d'

IJ B

dansles entreptsde données.

1.2.2.1 Formalisation

Les

IJ B

sont séle tionnés et implémentés lors de la phase de on eption physique d'un

ED

et sont dénis sur les attributs indexables. Le problème de séle tion des

IJ B

(PSIJB) est formalisé ommesuit [2 ,28℄ :

Étant donné :

un

ED

modélisépar uns hémaen étoileayant

d

tablesdedimension

D = {D

1 , D

2 , · · · , D

d

}

et unetable desfaits

F

;

une harge de requêtes

Q = {Q

1 , Q

2 , · · · , Q

m

}

à partir de laquelle un ensemble d'attributs indexables

AS = {A

1 , · · · , A

n

}

estobtenu;

unespa e de sto kage d'index

S

.

Le problème PSIJB onsiste à trouver une onguration d'index

CI

(ensemble d'index dénis sur AS)telque :

Le oût d'exé utionde la harge

Q

enprésen ede

CI

estoptimisé.

L'espa ede sto kage allouépour les indexde

CI

ne dépassepas

S

(

T aille(CI) ≤ S

).

Formaliséainsi, lePSIJB estun problèmed'optimisation mono-obje tif où ilfaut minimiser un seul obje tifreprésentant le oûtd'exé utionde la harge

Q

enprésen edesindex

CI

,notéCost(

Q

,

CI

), sousune ontrainte

T aille(CI) ≤ S

:

MinimiserCost(

Q

,

CI

) ave

T aille(CI) ≤ S

(1.1)

LePSIJBest onnuNP-Complet[42 ℄.De efait,iln'existepasd'algorithmeexhaustifproposantune solution optimale en un temps ni. Plusieurs travaux de re her he proposent des solutions pro hes de lasolutionoptimale en utilisant desheuristiquesréduisant la omplexité duproblème.

1.2.2.2 Complexité

La séle tion d'une onguration d'

IJ B

estgénéralement une tâ he di ile omparéeà d'autres typesd'index. Celaestdû àplusieurs onsidérations :

un

IJ B

est déni surles attributs indexables dont le nombre peutêtre important (plusieurs dizaines ou entaines) dans le ontexte d'entrept de données, vu le nombre de tables de di-mensionetlenombred'attributs non lésde haquetable;

(32)

un

IJ B

multiple peut être déni sur un ou plusieurs attributs issus de diérentes tables de dimension, e qui augmente lenombre d'

IJ B

possible;

unattribut indexable peutgurer dansplusieurs

IJ B

multiples ar es dernierspeuvent être nondisjoints;

latailled'un

IJ B

dépenddela ardinalitédesattributsindexés.Unattributdeforte ardinalité rendl'index volumineux,don di ile à sto keretà maintenir;

lataille d'un

IJ B

dépend aussidunombred'instan ede latablesdefaits quiestdel'ordrede plusieurs millionsd'instan es dansle ontexted'entrept dedonnées.

Le problème de séle tion d'

IJ B

est très omplexe vu la taille très grande de l'espa e de re her he d'unesolution optimale. L'espa ede re her he représente toutes les ongurations possiblesde tous les

IJ B

qu'il est possiblesde séle tionner. Nous présentons dans e qui suit lataille de l'espa e de re her he pour les index simples et multiple. Soit

AS = {A

1 , A

2 , · · · , A

n

}

un ensemble d'attributs indexables andidatspour laséle tion d'une onguration d'

IJ B

.

1. Tailledel'espa e dere her he pourles

IJ B

simples : haqueattributde

AS

peutdonnerlieuà l'implémentationd'un

IJ B

simple.Surl'ensemble

AS

,ilestpossiblededénir

n IJ B

simples distin ts. Une onguration d'index ontient un sous ensemble des

n

index. Par onséquent, toutes les ongurations d'index possibles onstituent une partition de

AS

en un ensemble de sousgroupes. Le nombre de ongurations d'indextotal est donnépar laformulesuivante:

N bConf ig

IS

= 2

n

− 1

(1.2)

Sile nombre d'attributs indexablesest

n = 20

,le nombrede ongurations d'

IS

possiblesest

2

20 − 1 = 1048575

.

2. Tailledel'espa e de re her he pour les

IJ B

multiples :Un

IJ B

multiple est onstruit surun sousensemble des

n

attributs indexables. Ainsi, Le nombre total d'

IJ B

multiples qu'on peut dénirreprésentelenombredepartitionde

AS

enunensembledesous-groupesoù haque sous-groupe ontientau moinsdeuxattributs.La formulepour al uler lenombred'indexmultiples estdonné ommesuit :

N b

IM

= 2

n

− n − 1

(1.3)

Le nombre de toutes les ongurations d'index multiples possibles est donné par l'équation suivante :

N bConf ig

IM

= 2

N b

IM

− 1 = 2

2 n

_−n−1

− 1

(1.4)

Si le nombre d'attributs indexables est

n = 20

, le nombre total d'

IJ B

est

2

20 _{− 20 − 1 =}

1048555

.De e fait,lenombre ongurationsd'

IM

possiblesest

2

20 ₋₂₀₋₁

− 1 = 2

1048555

_{− 1 =}

10 1048555×log

10 (2)

_{− 1}

∼ 10

315646

.

Vue ette omplexité, etdanslesou id'optimiser simultanément laséle tionetlajointure, plusieurs travaux esontintéressésàlapropositiondedémar hedeséle tion quiemploidesalgorithmesmoins oûteux.

1.2.2.3 Travaux de Aoui he et al.

Les auteurs dans [2℄ proposent une démar he de séle tion des

IJ B

simples et multiples. Vu la omplexité de l'espa e de re her he, lesauteurs proposent d'utiliser une te hnique de DataMining à savoir l'algorithmeCLOSE [81 ℄ pour lare her he desmotifs fréquents fermésan d'élaguer l'espa e de re her he d'index. L'élagage vise à é arter les ongurations d'index qui ne sont pas protable

(33)

pour l'optimisation des requêtes. Ensuite, les auteurs emploient un algorithme glouton guidé par modèlede oûtpourséle tionner la ongurationnaled'

IJ B

.Dans equi suit,nousallonsdénir les motifs fréquents et les motifs fréquents fermés et présenter le prin ipe de l'algorithme CLOSE ensuite nous exposerons le déroulement du pro essus de séle tion proposé. Motifs fréquents et motifs fréquents fermés :

Soient

I = i

1 , · · · , i

m

unensemblede

m

itemset

B = t

1 , · · · , t

n

unebasededonnéesde

n

transa tions. Chaquetransa tion est omposée d'unsous-ensembled'items

I

′

_{⊆ I}

.Un sous-ensemble

I

′

de taille

k

estappeléunk-itemset.Une transa tion

t

i

ontientun motif

I

′

sietseulement si

I

′

_{⊆ t}

i

.Lesupport d'unmotif

I

′

estla proportionde transa tions de

B

qui ontiennent

I

′

.Le supportest donnépar la formule

support(I

′

_{) =}

card({t∈B,I

′

_⊆t})

card(B)

.An de qualier unmotif d'êtrefréquent ounon, l'utilisateur xeunseuilminimumpourlesupportappeléminsup.Si

Support(I

′

_{) > minsup}

alors

I

′

estunmotif fréquent,sinonilestnonfréquent.Vuquelenombredemotifspossibles roitexponentiellement(

2 m

), les auteurs emploient les motifs fréquents fermés. Unmotif fréquent fermé estun ensemblemaximal de motifs présent dans toutes les transa tions auxquelles il appartient (ne représente pas un sous ensembled'unautre motif).

Exemple 3 Soient les transa tions ou requêtes Q1,Q2, Q3,Q4, Q5 etQ6 utilisant inq motifsqui représentent les attributs indexables, A1, A2, A3, A4 et A5. L'utilisation par les transa tion et le supportde haque motif est donné par letableau 1.1.Si on prendun support minimumminsup=3/6, les motifs A1 et A3 sontfréquents. Le motif A1, A3 est un motif fermé, ar il représente l'ensemble maximal d'items ommuns aux transa tions Q1,Q3, Q4 etQ6.

Table 1.1Matri ed'usage etde supports desmotifs A1 A2 A3 A4 A5 Q1 1 0 1 0 1 Q2 0 0 1 1 1 Q3 1 1 1 0 0 Q4 1 0 1 0 0 Q5 0 0 0 1 0 Q6 1 0 1 0 1 Support 4/6 1/6 5/6 2/6 3/6

Algorithme CLOSE :La génération desmotifsfréquents estune tâ he très omplexe.En eet,si lenombrede motifsest grand,lenombre demotifsfréquents peutexploser.Pour réduire ette om-plexité,les auteurs emploient l'algorithme CLOSE pour générer lesmotifs fréquentsfermés. CLOSE reposesurleprin ipe d'extra tiondegénérateurs d'ensemblede motifsfréquentsfermésen al ulant les fermetures sur les ensembles de générateurs. Soit un motif fréquent

m

i

. La fermeture sur l'en-semble

{m

i

}

viseaajouter a etensembleles motifsquisont présents auxmême tempsque lemotif

m

i

dansunmaximumdetransa tion(requêtes).L'ensemble

{m

i

}

estappelégénérateur.L'algorithme ommen e à l'étape k=1 par l'initialisation desgénérateurs aux singletons1-itemsets ( haque motif estungénérateur).Al'étape k,l'algorithme al ullafermeturesetlessupportssurles k-itemsets gé-nérateursreprésentant unensembledemotifsfréquents andidats.Ildétermine ensuitelesensembles de motifs fréquents fermés selon le seuil minimal du support minsup. Ensuite, les générateurs k+1 sont préparés pour lapro haine itération et les générateur de rangs ksont supprimés. L'algorithme s'arrête lorsque l'ensemble dek-générateurs fréquents estvide.

(34)

Figure 1.4 Exemple dedéroulement de l'algorithmeCLOSE

Figure 1.5 Ar hite ture pour laséle tion des

IJ B

:Aoui he etal.

Exemple 4 Considérons le ontexte d'extra tion dé rit dans l'exemple 3. La gure 1.4 illustre les étapes d'exé ution de l'algorithmeCLOSEave un supportminimal de 2/6.

Les auteurs proposent un pro essusde séle tion des

IJ B

simpleset multiples qui est exposer dans les étapessuivantes (gure1.5).

1. Extraire la harge de requêtes : La harge de requêtes est extraiteà partir du journal de transa tionsquiestsauvegardéetmaintenuautomatiquementparleSGBD.Une hargedonnée

Q

est représentative si elle est a essible grâ e à lasauvegarde des opérations réalisées sur le système durant une période donnés. Cette période est xée par l'administrateur et doit être susante pour pouvoir anti iperles requêtes futures.