Mémoire de fin d études. Thème Conception et réalisation d un Data Warehouse pour la mise en place d un système décisionnel

(1)

Mémoire de fin d’études

Pour l’obtention du diplôme d’Ingénieur d’Etat en Informatique Option : Systèmes d’information

Thème

Conception et réalisation d’un Data Warehouse pour la mise en place d’un système décisionnel

Document de base

Réalisé par Encadré par

- FILALI ABDERRAHMANE - KEDJNANE SOFIANE

- MERABET SOUAD - MEDJAOUI NADJI

Promotion : 2009/2010

(2)

Remerciements

Nos remerciements vont tout spécialement à nos familles, qui ont sus nous supporter et encourager tout au long de notre vie, ainsi que pour leur aide inestimable, leur patience et leur soutien indéfectible.

Nous tenons aussi, à remercier tout les enseignants qui ont contribué de près ou de loin à notre formation.

Nous remercions Mme Souad Merbet et M. Nadji Medjaoui pour avoir assuré l’encadrement de ce projet, qui n’a pas toujours été de tout repos. On remercie monsieur Medjaoui pour nos séances de travail agréables et fructueuses, ses remarques pertinentes, mais aussi pour son écoute et son discours bienveillants.

Nous remercions Mme Merabet pour la confiance quelle nous a accordé et de nous avoir donné l’opportunité de travailler sur un projet d’une tel envergure.

Nous remercions Mme Ait Ali Yahia pour ces critiques constructives qui nous ont permis d’améliorer ce mémoire.

Nous nous devons de mentionner la précieuse et totale collaboration que nous avons reçu au sein de ELIT, de part les moyens mis à notre disposition et l’aide et le support apporté par l’ensemble des employés et des cadres.

On remercie vivement Mesdames et Messieurs les membres du jury d’avoir accepter d’évaluer ce travail.

Pour finir, et afin de n’oublier personne (amis, membre de la famille et tous ceux qui nous sont chers) nous utiliserons la formule : « Merci à… ».

^xw}ÇtÇx 9 Y|ÄtÄ|

(3)

Dédicaces Dédicaces Dédicaces Dédicaces

Je dédie ce m odeste travail à :

M es parents, qui n’on t jam ais cessé de m ’en courager et m e souten ir, M on frère : M oha m m ed, et m es sœ urs :A m ina et Soum ia

M on bin ôm e et a m i Sofiane et sa fam ille,

M es am is : A m ine, M ouhata, M oham m ed, L otfi … T ous les m em bres de m a fam ille,

C eux qui m e sont chers,

M on cousin : Sam ir, puisse dieu l’accueillir dans son vaste paradis.

TuwxÜÜt{ÅtÇx

(4)

Dédicaces Dédicaces Dédicaces Dédicaces

A :

M es parents, pour leur soutient indénia ble et leur aide précieuse

« P ourrais-je jam ais v ous dire tous m on a m our»,

M a grand-m ère, pour sa patience et pour av oir su m e supporter, M a sœ ur L inda, et m es frères T areq et Y acine, pour leurs encouragem ents et leu r am our,

T ous les m em bres de la fam ille, pour l’intérêt qu’ils m ’ont m ontré, M on binôm e (et am i) A bderrahm an e « H a m za » et toute sa fam ille, pour ce qu’ils m ’ont a pporté,

M es am is, pour tous ce qu’on a partagé ensem ble, T outes les personn es proches que je n’ai pa s citées

Je dédie ce travail.

fÉy|tÇx

(5)

Sommaire

Résumé :………..I Abréviations :……….II Liste des tableaux ……….IV Liste des figures ………...VI

Introduction générale ... 9

1. Problématique ... 10

2. Objectifs du projet ... 11

Partie I: Synthèse Bibliographique.

I. Introduction ... 15

I.1. Les systèmes décisionnels ... 15

I.1.1. La place du décisionnel dans l’entreprise ... 16

I.1.2. Les différents composantes du décisionnel ... 17

I.2. Décisionnel vs transactionnel ... 18

II. Le Data Warehouse ... 19

II.1 Qu’est ce qu’un Data Warehouse ... 19

II.2 Historique des Data Warehouse ... 20

II.3 Structure des données d’un Data Warehouse ... 21

II.4 Les éléments d’un Data Warehouse ... 22

II.5 Architecture d’un Data Warehouse ... 25

III. Modélisation des données de l’entrepôt ... 26

III.1 La modélisation dimensionnelle et ses concepts ... 26

III.1.1 Concept de fait ... 27

III.1.2 Concept de dimension ... 27

III.1.3 Comparatif entre les tables de faits et les tables de dimensions ... 28

III.2 Différents modèles de la modélisation dimensionnelle ... 28

III.3 Le concept OLAP ... 29

III.3.1 Généralités ... 29

III.3.2 Architectures des serveurs OLAP ... 29

III.4 La navigation dans les données ... 31

III.4.1 Slice & Dice ... 31

III.4.2 Drill-down & Roll-up ... 32

IV. Démarche de Construction d’un Data Warehouse ... 34

IV.1 Modélisation et conception du Data Warehouse ... 34

IV.1.1 Approche « Besoins d’analyse » ... 34

(6)

IV.1.2 Approche « Source de données » ... 35

IV.1.3 Approche mixte ... 36

IV.2 Alimentation du Data Warehouse ... 37

IV.2.1 Les phases de l’alimentation « E.T.L. » ... 37

IV.2.2 Politiques de l’alimentation ... 38

IV.2.3 Les outils E.T.L. ... 40

IV.3 Mise en œuvre du Data Warehouse ... 40

IV.4 Maintenance et expansion ... 42

V. Conclusion ... 43

PartieII: Conception de la solution.

Chapitre 1: Présentation de l'organisme d'accueil. I. Présentation de SONELGAZ ... 46

I.1 Historique ... 46

I.1.1 Organisation du groupe SONELGAZ ... 47

I.1.2 Le groupe SONELGAZ en chiffres ... 49

I.2 Le métier de la distribution ... 50

I.2.1 Organisation des sociétés de distribution ... 51

I.2.2 La clientèle de la distribution ... 52

I.3 L’informatique au sein du groupe SONELGAZ ... 53

I.3.1 Présentation de la filiale « ELIT » ... 53

II. Conclusion ... 56

Chapitre 2: L'éxistant décisionnel. I. Introduction ... 58

II. Etat du décisionnel au sein du groupe ... 58

II.1 Niveau Groupe ... 58

II.2 Niveau Société de Distribution ... 60

II.3 Niveau Direction de Distribution ... 61

III. Conclusion ... 62

Chapitre 3:Etude des besoins. I. Introduction ... 64

I.1 Description de la démarche d'étude des besoins ... 65

1. Étude préliminaire des systèmes sources et interviews sommaires avec les DBA.... 65

2. Détection des postes susceptibles d'être porteur d'informations utiles ... 65

3. Planification, préparation et conduite des interviews ... 66

4. Autres moyens utilisés pour la détection des besoins ... 67

(7)

5. Rédaction et validation du recueil récapitulatif des besoins ... 68

I.2 Problèmes et obstacles rencontrés ... 69

II. Conclusion ... 70

Chapitre 4: Conception de la zone « entreposage des données ». I. Introduction ... 73

II. Processus de la modélisation dimensionnelle ... 73

II.1 Volet « vente » ... 74

II.2 Volet « recouvrement » ... 89

II.3 Volet « suivi des affaires » ... 93

II.4 Volet « Suivi des abonnés » ... 99

III. Conclusion ... 103

Chapitre 5: Conception de la zone « Alimentation ». I. Introduction ... 105

II. Etude et planification ... 105

II.1 Les sources de données ... 105

II.2 Détection des emplacements des données sources ... 106

II.3 Définition de la périodicité de chargement ... 106

III. Architecture du processus d’alimentation ... 107

IV. Processus de chargement ... 109

IV.1 Processus de chargement de dimension ... 110

IV.2 Processus de chargement des table de fait ... 112

IV.3 Processus de chargement particulier ... 114

IV.3.1 Processus de chargement de la dimension « temps » ... 114

IV.3.2 Processus de construction d’agrégats ... 114

V. Conclusion ... 115

Chapitre 6: Conception des cubes dimensionnels. I. Définition des niveaux et des hiérarchies ... 117

II. La liste des cubes ... 121

III. Présentation des cubes dimensionnels ... 123

IV. Conclusion ... 123

Chapitre 7: Conception des Meta Data. I. Les « Meta Data » ou « méta données » de l’entrepôt ... 129

II. Rôle des méta données ... 129

III. Exploitation des métas données ... 133

III.1 Présentation de la partie navigation ... 133

(8)

III.2 Présentation de la partie supervision ... 133

IV. Conclusion ... 133

Partie III: Implémentation et déploiement. I. Introduction ... 135

II. Implémentation ... 135

II.1 Périmètre technique et fonctionnel ... 135

II.1.1 Matériel ... 135

II.1.2 Systèmes d’exploitation ... 135

II.2 Architecture technique de la solution ... 136

II.3 Zone de stockage ... 136

II.4 Zone d’alimentation de l’entrepôt ... 137

II.5 Zone de restitution ... 137

III. Déploiement ... 139

III.1 Déploiement de la zone d’alimentation ... 139

III.2 Déploiement de la zone de restitution ... 140

IV. Conclusion ………..……….141

Conclusion générale et perspectives ………...………142

Bibliographie ... 145

(9)

Résumé :

Le groupe SONELGAZ, premier opérateur énergétique en Algérie, assure plusieurs missions dans le domaine de l’énergie. Ces dernières, allant de la gestion du réseau électrique et gazier à la distribution et commercialisation de l’électricité et du gaz au profit tant des professionnels que des particuliers, font de SONELGAZ un acteur incontournable de l’économie nationale.

Le groupe SONELGAZ rencontre, dans le cadre de son activité de distribution, quelques problèmes dans sa politique de Reporting clientèle. Ces difficultés sont liées notamment à la lenteur et au coût de la procédure, du fait du nombre important d’intermédiaires et/ou intervenants. Ces difficultés ont rendu tout effort d’analyse vain ; et c’est pourquoi les dirigeants du groupe aspirent à la mise en place d’un système qui procure aux décideurs les informations nécessaires et fiables, les aidant ainsi à pendre dans les meilleurs délais les décisions les plus appropriées. Dans ce contexte, et afin de répondre à ces attentes grandissantes le groupe a sollicité sa filiale spécialisée dans les systèmes d’information et les nouvelles technologies « Elit ».

Le But recherché étant d’aller vers la mise en place d’un système s’inscrivant dans le cadre du Système de Gestion de la Clientèle « S.G.C ». Ce système sera construit autour d’une base de données dédiée totalement aux décisionnel un « Data Warehouse » et répondant à tout les besoins d’analyse du groupe dans sa fonction de distribution. Ce présent projet a donc pour vocation première de réaliser une telle base de données.

Mots clés :

Data Warehouse « Entrepôt de données », Décisionnel, Business Intelligence

« B.I », intégration de données, solutions « BI » Open Source.

(10)

Abréviations :

BI : Business Intelligence.

BT : Basse Tension.

BP : Basse Pression.

CTI : Centre de Traitement Informatique.

DAP : Direction Analyses et Prévision.

DAR : Direction Affaires De Régulation.

DBA : Data Base Administrator.

DCF : Direction Comptabilité et Finance.

DCM: Direction Commercial Et Marketing.

DD : Direction de Distribution.

DED : Département Etudes et Développement.

DGDS : Direction Générale du Développement et de la Stratégie.

DIM : Dimension.

DR : direction régionale(DD).

DRD : Direction de Distribution Régionale.

DW : Data Warehouse (Entrepôt de données).

ED : Etude et développent.

EDW : Entreprise Data Warehouse.

EGA : Electricité et Gaz d’Algérie.

ELIT : EL-djazaïr Information Technology.

EPIC : Etablissement Publique à caractère Industriel et Commercial.

ETL : Extract, Transform and Load (ETC).

FK: Foreign Key.

FTP : File Transfer Protocol.

HOLAP: Hybrid On Line Analytical Process.

HP : Haute Pression.

HT : Haute Tension.

MOLAP: Multidimensional On Line Analytical Process.

MP: Moyenne Pression.

MT : Moyenne Tension.

OLAP : On Line Analytical Process.

OLTP: On Line Transactional Process.

(11)

PDG: Président Directeur General.

PK : Primary Key.

ROLAP : Relational On Line Analytical Process.

SD : Socièté de Distribution.

SGC : Système de Gestion de la Clientèle.

SI : Systèmes d’Information.

SID: Systèmes d’Information Décisionnels.

SID : Systèmes d’information de la distribution.

SIAD : Systèmes d’Information d’Aide à la Décision SGBD : Système de Gestion de Base de Données.

SMTP : Server Mail Transfer Protocol.

SONELGAZ : Société Nationale de l’Electricité et du GAZ.

SPA : Société Par Action.

SQL : Structured Query Language.

(12)

Liste des tableaux

Partie I : Synthèse Bibliographique.

Tableau I.1 : Tableau comparatif entre les systèmes transactionnels et les systèmes

décisionnels... ... 6

Tableau I.2 : Tableau comparatif entre les tables de faits et les tables de dimensions. ... 16

Tableau I.3 : Avantages et inconvénients de l’approche « Besoins d’analyse » ... 23

Tableau I.4 : Avantages et inconvénients de l’approche « Sources de données »... 24

Partie II: Conception de la solution.

Tableau II.1 : Le groupe SONELGAZ en chiffres ... 38

Tableau II.2 : Présentation des sociétés de distribution ... 40

Tableau II.3 : Tableau présentant la population a interviewé ... 54

Tableau II.4 : Synthétisation des besoins détectés ... 56

Tableau II.5 : Tableau descriptif de la dimension « Temps » ... 63

Tableau II.6 : Tableau descriptif de la dimension « Client » ... 65

Tableau II.7 : Tableau descriptif de la dimension « Facture » ... 67

Tableau II.8 : Tableau descriptif de la dimension « Zone géographique » ... 69

Tableau II.9 : Tableau descriptif de la dimension « Activité » ... 70

Tableau II.10 : Tableau descriptif de la dimension « Tarif » ... 70

Tableau II.11 : Tableau descriptif de la dimension « Energie » ... 71

Tableau II.12 : Liste des agrégats potentiels de l’activité « Vente » ... 75

Tableau II.13 : Liste des agrégats utiles de l’activité « Vente » ... 75

Tableau II.14 : Détection des dimensions communes entre les volets « Vente » et « Recouvrement » ... 76

Tableau II.15 : Tableau descriptif de la dimension « Nature » ... 77

Tableau II.16 : Tableau descriptif des agrégats potentiel du modèle « Recouvrement » ... 79

Tableau II.17 : Tableau descriptif des agrégats utiles du modèle « Recouvrement » ... 79

Tableau II.18 : Détection des dimensions communes entre les volets « Vente », « Recouvrement » et « Suivi des affaires »………..……….………80

Tableau II.19 : Tableau descriptif de la dimension « Affaire» ... 81

Tableau II.20 : Tableau descriptif de la dimension « Type affaire » ... 8

Tableau II.21 : Tableau descriptif de la dimension « Phase » ... 83

Tableau II.22 : Tableau descriptif des agrégats potentiel du modèle « suivi des affaires » .... 85

Tableau II.23 : Tableau descriptif de des agrégats utiles du modèle « Suivi des affaires » .... 85

Tableau II.24 : Détection des dimensions communes entre les volets « Vente », « Recouvrement », « Suivi des affaires » et « suivi des abonnés ». ... 86

Tableau II.25 : Tableau descriptif de la dimension « Type abonné » ... 87

(13)

Tableau II.26 : Tableau descriptif des agrégats potentiels du modèle « Suivi abonnés » ... 89

Tableau II.27 : Tableau descriptif des agrégats utiles du modèle « Suivi abonnés » ... 89

Tableau II.28 : Tableau donnant les nivaux hiérarchiques de chaque dimension ... 10

Tableau II.29 : Listes des cubes dimensionnels ... 107

(14)

Liste des figures

Figure I.1 : Le décisionnel au sein du système d’information ... 9

Figure I.2 : Les différentes composantes du décisionnel ... 5

Figure I.3 : Historique des bases de données décisionnelles ... 8

Figure I.4 : Structure des données d’un Data Warehouse ... 9

Figure I.5 : Les Data Mart dans un entrepôt de données selon l’architecture proposée par B. Inmon dite Entreprise Data Warehouse ... 11

Figure I.6 : Les Data Mart dans un entrepôt de données selon l’architecture proposée par R. kimball dite approche bus ... 13

Figure I.7 : Architecture globale d’un Data Warehouse ... 13

Figure I.8 : Considération d’un sujet d’analyse comme un cube à plusieurs dimensions . 14 Figure I.9 : Un modèle dimensionnel typique ... 15

Figure I.10 : Principe de l’architecture MOLAP ... 18

Figure I.11 : Principe de l’architecture ROLAP ... 18

Figure I.12 : Exemple de Slicing ... 20

Figure I.13 : Exemple de Dicing ... 20

Figure I.14 : Exemple de Roll up ... 21

Figure I.15 : Exemple de Drill Down ... 21

Figure I.16 : Illustration de l’approche « Besoin d’analyse » grâce au cycle de vie dimensionnel de kimball ... 22

Figure I.17 : Illustration de l’approche « source de données » grâce au cycle de développement du Data Warehouse de Inmon ... 23

Figure I.18 : Illustration de l’approche mixte ... 24

Figure I.19 : Objectif de qualité de données dans un processus E.T.L ... 27

Figure II.1 : Planification de la conduite du projet ... 34

Figure II.2 : Organigramme représentant l’organisation du Groupe SONELGAZ ... 37

Figure II.3 : Evolution du chiffre d’affaire du groupe publiée dans le rapport d’activité de l’année 2008 ………38

Figure II.4 : Répartition du chiffre d’affaire publiée dans le rapport d’activité de l’année 2008………… ... 39

Figure II.5 : Organisation des sociétés de distribution ... 40

Figure II.6 : Organisation des directions de distribution ... 41

Figure II.7 : Organisation de la filiale ELIT ... 44

Figure II.8 : Organisation de la direction d’étude et de développement ... 44 Figure II.9 : Diagramme d’activité modélisant l’édition de rapport pour le niveau groupe48

(15)

Figure II.10 : La place de l’étape de définition des besoins dans un projet Data

Warehouse……….52

Figure II.11 : Analyse des priorités du cas de la distribution « SONELGAZ »... 60

Figure II.12 : La dimension du Temps de l’activité « Vente » ... 64

Figure II.13 : La dimension client de l’activité « Vente » ... 65

Figure II.14 : La dimension facture de l’activité « Vente » ... 68

Figure II.15 : La dimension zone de l’activité « Vente » ... 70

Figure II.16 : La dimension activité de l’activité « Vente » ... 70

Figure II.17 : La dimension Tarif de l’activité « Vente » ... 70

Figure II.18 : La dimension énergie de l’activité « Vente » ... 71

Figure II.19 : Modèle en étoile de l’activité « Vente » ... 74

Figure II.20 : La dimension Nature de l’activité « Recouvrement »... 78

Figure II.21 : Modèle en étoile de l’activité « Recouvrement » ... 79

Figure II.22 : La dimension affaire de l’activité «Suivi des affaires »... 83

Figure II.23 : La dimension type affaire de l’activité « Suivi des affaires » ... 82

Figure II.24 : La dimension phase de l’activité « suivie des affaires » ... 83

Figure II.25 : Modèle en étoile de l’activité « Suivie des affaires » ... 84

Figure II.26 : La dimension type abonné de l’activité « Suivi des abonné » ... 87

Figure II.27 : Modèle en étoile de l’activité « Suivi des abonné » ... 88

Figure II.28 : Architecture global du processus E.T.L ... 95

Figure II.29 : Diagramme d’activité du processus d’alimentation ... 94

Figure II.30 : Diagramme d’activité du processus de chargement de dimension ... 98

Figure II.31 : Diagramme d’activité du processus de chargement de fait... 99

Figure II.32 : Cube dimensionnel « Suivi des ventes ». ... 109

Figure II.33 : Cube dimensionnel « Suivi des ventes et des consommations ». ... 110

Figure II.34 : Cube dimensionnel « Suivi des abonnés ». ... 111

Figure II.35 : Cube dimensionnel « Suivi des recouvrements ». ... 111

Figure II.36 : Cube dimensionnel « Suivi des affaires ». ... 112

Figure II.37 : Diagramme de classe des métadonnées ... 115

Figure II.38 : DCU navigation dans les métadonnées et administration des MAJ utilisateurs………… ... 116

Figure II.39 : DCU de supervision. ... 117

Figure II.40 : Architecture technique de la solution. ... 121

Figure II.41 : Digramme de déploiement de la zone d’alimentation. ... 125

Figure II.42 : Diagramme de déploiement de la zone de restitution. ... 126

(16)

Introduction générale

(17)

Contexte général

C’est dans un environnement fortement complexe et hautement concurrentiel qu’évolue la majeure partie, si ce n’est la totalité, des entreprises. Ce climat de forte concurrence exige de ces entreprises une surveillance très étroite du marché afin de ne pas se laisser distancer par les concurrents et cela en répondant, le plus rapidement possible, aux attentes du marché, de leur clientèle et de leurs partenaires.

Pour se faire, les dirigeants de l’entreprise, quelque en soit d’ailleurs le domaine d’activité, doivent être en mesure de mener à bien les missions qui leur incombent en la matière. Ils devront prendre notamment les décisions les plus opportunes. Ces décisions, qui influeront grandement sur la stratégie de l’entreprise et donc sur son devenir, ne doivent pas être prises ni à la légère, ni de manière trop hâtive, compte tenu de leurs conséquences sur la survie de l’entreprise. Il s’agit de prendre des décisions fondées, basées sur des informations claires, fiables et pertinentes. Le problème est de savoir donc comment identifier et présenter ces informations à qui de droit, sachant par ailleurs que les entreprises croulent d’une part sous une masse considérable de données et que d’autre part les systèmes opérationnels

« transactionnels » s’avèrent limités, voire inaptes à fournir de telles informations et constituer par la même un support appréciable à la prise de décision.

C’est dans ce contexte que les « systèmes décisionnels » ont vu le jour. Ils offrent aux décideurs des informations de qualité sur lesquelles ils pourront s’appuyer pour arrêter leurs choix décisionnels. Pour se faire, ces systèmes utilisent un large éventail de technologies et de méthodes, dont les « entrepôts de données » (Data Warehouse) représentent l’élément principal et incontournable pour la mise en place d’un bon système décisionnel.

De part sa dimension économique et sa position sur le marché énergétique algérien, l’activité journalière de la SONELGAZ génère des données complexes et volumineuses. Ces données représentent une source précieuse d’informations, qui serait à même d’améliorer de façon significative le processus de prise de décision. Cependant, ces données ne sont pas exploitées de manière satisfaisante, hypothéquant ainsi le processus de prise de décision à tous les niveaux du groupe.

Le présent projet tend à la mise en place d’un système en mesure de consolider les données issues des systèmes transactionnels, et d’offrir des informations de qualité pour les décideurs. Il s’agit en fait de mettre à la disposition des décideurs des données à même de les éclairer et leur faciliter une prise de décision prompte en connaissance de cause. Un tel système requiert la mise en place d’un entrepôt de données fiables contenant les informations nécessaires à l’accomplissement des processus décisionnels.

(18)

1. Problématique

Le groupe SONELGAZ est l’opérateur historique et leader du domaine énergétique en Algérie, notamment dans le domaine de la distribution de l’électricité et du gaz pour les professionnels et les particuliers.

Appelé à interagir avec ses clients sur différentes phases de la distribution (demande de branchement, facturation, résiliation,…etc.), le groupe s’est doté, dans un souci de suivi de la clientèle et de gestion de la distribution, d’un « Système de Gestion de la Clientèle –S.G.C.- » constitué de 35 applications, développées en interne et exploité par plus de 2900 utilisateurs. Ce système est déployé dans chacune des 58 directions de distributions « D.D. » exploitant une base de donnée décentralisée au niveau de chaque « D.D. ».

Dans un pareil contexte, la plus simple des opérations d’analyse devient une tâche ardue. En effet, les sociétés de distributions « SD » se trouvent dans l’incapacité de faire des analyses fiables, efficaces et à des moments opportuns sans engager des moyens considérables sur des périodes plus ou moins longues. Ainsi, les principales difficultés rencontrées peuvent être résumées en :

• Difficultés dans l’élaboration des rapports d’activité :

L’élaboration des rapports d’activité fait intervenir, généralement, plusieurs intermédiaires. En effet, à chaque fois qu’il est nécessaire d’élaborer un rapport d’activité , il faudra procéder d’abord à l’ extraction les données à partir des 58 bases de données installées au niveau des directions de distribution, pour les acheminer ensuite manuellement vers une structure centralisée, qui en fera enfin la consolidation. Il s’agit là d’une procédure lourde outre les éventuelles incohérences et erreurs. Les retards enregistrés, parfois, font que le rapport d’activité est élaboré sur la base d’une consolidation antérieure, en sachant pertinemment que les données ne sont pas à jour.

• Lenteur de la procédure de Reporting : La politique de Reporting actuelle, qui du reste est quasi manuelle, connait des lenteurs qui n’arrangent pas les décideurs. Ceux ci ont besoin d’informations fiables et dans des délais raisonnables. À titre indicatif, l’édition d’un rapport national peut prendre, en moyenne, plus d’un mois ce qui est plus que pénalisant pour une bonne prise de décision.

• Coût de la procédure de Reporting¹ : la procédure de Reporting est jugé très couteuse pour l’entreprise, et cela est principalement du au nombre d’intervenant et des moyens mis en place pour cette dernière.

• Insuffisance du module « Statistique » : Afin de produire et offrir un moyen de suivi des activités de la distribution, un module « Statistique » a été développé et intégré dans le système « SGC ». Ce dernier fournit des états statistiques permettant, aux décideurs de niveau D.D., l’analyse et la prise de décision. Cependant, ce module connait quelques

1 Voir annexe A

(19)

problèmes dû au fait qu’il interroge directement la base de données en production. En effet le lancement de la production de n’importe quel rapport du module pénalise le système. Pour éviter cela le module n’est accessible qu’au chef du CTI de la DD.

2. Objectifs du projet

Afin de palier aux problèmes précédemment cités, le groupe a initié, à travers sa filiale Elit, le présent projet.

Ce projet a pour but d’introduire, en premier lieu, une informatique décisionnelle au sein du groupe, tout en conférant aux décideurs un support fiable pour une meilleure prise de décision. Ainsi, les principaux objectifs assignés au projet sont :

• La réduction de la durée globale de l’élaboration des rapports, en essayant de ramener cette durée, au moins, en dessous de la barre des 48 heures.

• La Réduction des coûts de la procédure de Reporting actuelle.

• La réduction du nombre d’intervenants lors de la production de rapports.

• Offrir aux décideurs et aux analystes la possibilité de faire des analyses appropriées.

• Offrir des informations fiables, cohérentes et pertinentes, contenant la logique business souhaitée.

(20)

Planification et conduite du projet L’initiation de tout projet

de définir les tâches à réaliser, maîtriser les risques et rendre compte de l’état d’avancement du projet.

« Planifier optimise ainsi les chances de réussite d'un projet en améliorant la productivité grâce à une meilleure maîtrise de la qualité.

Pour garantir le bon déroulement du projet, tout en respectant les délais,

élaboré une planification globale de conduite du projet. Le diagramme suivant décrit cette planification ainsi que l’ordonnancement prévu des phases du projet.

Afin de présenter notre travail, le présent mémoire est organisé en trois parties et se présente comme suit :

Après une introduction générale

projet, ainsi que la problématique et les objectifs visés.

théoriques du domaine des systèmes d’information d’aide à la décision, en évoquant leurs définitions et les concepts de bases

dimensionnelle.

Planification et conduite du projet

out projet nécessite une phase de planification. Celle

définir les tâches à réaliser, maîtriser les risques et rendre compte de l’état d’avancement

Planifier optimise ainsi les chances de réussite d'un projet en améliorant la productivité grâce à une meilleure maîtrise de la qualité. » [Soler, 2001].

Pour garantir le bon déroulement du projet, tout en respectant les délais,

élaboré une planification globale de conduite du projet. Le diagramme suivant décrit cette planification ainsi que l’ordonnancement prévu des phases du projet.

Figure : Planification et conduite du projet.

Afin de présenter notre travail, le présent mémoire est organisé en trois parties et se

Après une introduction générale dans laquelle nous présentons le contexte général du projet, ainsi que la problématique et les objectifs visés. La première partie présente

théoriques du domaine des systèmes d’information d’aide à la décision, en évoquant leurs définitions et les concepts de bases relatifs aux « entrepôts de données » et à la modélisation

Conception E.T.L

Celle-ci permet définir les tâches à réaliser, maîtriser les risques et rendre compte de l’état d’avancement

Planifier optimise ainsi les chances de réussite d'un projet en améliorant la

Pour garantir le bon déroulement du projet, tout en respectant les délais, nous avons élaboré une planification globale de conduite du projet. Le diagramme suivant décrit cette

Afin de présenter notre travail, le présent mémoire est organisé en trois parties et se

le contexte général du présente les aspects théoriques du domaine des systèmes d’information d’aide à la décision, en évoquant leurs la modélisation

Conception E.T.L

(21)

Dans la deuxième partie, nous présentons le travail réalisé au sein du Groupe SONELGAZ à travers les six suivants chapitres:

Le chapitre un, présente l’organisme d’accueil, sa structure organisationnelle, son activité et la culture de l’entreprise en matière d’utilisation des technologies de l’information.

Le chapitre deux a pour vocation de présenter l’existant décisionnel au sein de l’entreprise et selon différents niveaux de prise de décision.

Le chapitre trois présente une synthèse de la collecte des besoins des utilisateurs, ainsi que son déroulement.

Le chapitre quatre contient la conception de la partie d’entreposage de notre solution.

Il présente entre autre les modèles dimensionnels des activités recensées.

Le chapitre cinq à pour but de présenter la conception de la zone d’alimentation, ainsi que les stratégies adoptées.

Le chapitre six, quant à lui, donne la conception des cubes dimensionnels en détaillant les différentes caractéristiques de chaque cube (dimensions, mesurables et hiérarchies).

La troisième partie décrie l’architecture globale de la solution, et cela en présentant les différents outils intégrés et les volets de la solution développés. Elle décrit aussi la manière dont se passe le déploiement de la solution.

Une conclusion générale est proposée afin de synthétiser le travail réalisé et de citer les perspectives du projet.

(22)

Partie I : Synthèse bibliographique

« Un entrepôt de données ne s'achète pas, il se construit. » Bill Inmon

(23)

I. Introduction

Toutes les entreprises du monde disposent d’une masse de données plus ou moins considérable. Ces informations proviennent soit de sources internes (générées par leurs systèmes opérationnels au fil des activités journalières), ou bien de sources externes (web, partenaire, .. etc.).

Cette surabondance de données, et l’impossibilité des systèmes opérationnels de les exploiter à des fins d’analyse conduit, inévitablement, l’entreprise à se tourner vers une nouvelle informatique dite décisionnelle qui met l’accent sur la compréhension de l’environnement de l’entreprise et l’exploitation de ces données à bon escient.

En effet, les décideurs de l’entreprise ont besoin d’avoir une meilleure vision de leur environnement et de son évolution, ainsi, que des informations auxquelles ils peuvent se fier.

Cela ne peut se faire qu’en mettant en place des indicateurs « business » clairs et pertinents permettant la sauvegarde, l’utilisation de la mémoire de l’entreprise et offrant à ses décideurs la possibilité de se reporter à ces indicateurs pour une bonne prise de décision.

Le « Data Warehouse », « Entrepôt de données » en français, constitue, dans ces conditions, une structure informatique et une fondation des plus incontournables pour la mise en place d’applications décisionnelles.

Le concept de Data Warehouse, tel que connu aujourd’hui, est apparu pour la première fois en 1980 ; l’idée consistait alors à réaliser une base de données destinée exclusivement au processus décisionnel. Les nouveaux besoins de l’entreprise, les quantités importantes de données produites par les systèmes opérationnels et l’apparition des technologies aptes à sa mise en œuvre ont contribué à l’apparition du concept « Data Warehouse » comme support aux systèmes décisionnels.

I.1. Les systèmes décisionnels

La raison d’être d’un entrepôt de données, comme évoqué précédemment, est la mise en place d’une informatique décisionnelle au sein de l’entreprise. Pour cela il serait assez intéressant de définir quelques concepts clés autour du décisionnel.

Afin de mieux comprendre la finalité des systèmes décisionnels, nous nous devons de les placer dans leurs contextes et rappeler ce qu’est un système d’information.

«Le système d’information est l’ensemble des méthodes et moyens de recueil de contrôle et de distribution des informations nécessaires à l’exercice de l’activité en tout point de l’organisation. Il a pour fonction de produire et de mémoriser les informations, de l’activité du système opérant (système opérationnel), puis de les mettre à disposition du système de décision (système de pilotage)»[Le Moigne, 1977].

Les différences qui existent entre le système de pilotage et le système opérationnel, du point de vue fonctionnel ou des tâches à effectuer, conduit à l’apparition des « systèmes d’information décisionnels » (S.I.D.). Ces différences seront clairement illustrées un peu plus loin dans notre document.

(24)

Les origines des SID remontent au début de l’informatique et des systèmes d’information qui ont, tous deux, connu une grande et complexe évolution liée notamment

Cette évolution se poursuit à ce jour

Parmi les différentes définitions du décisionnel données on trouve :

• "Le Décisionnel est le processus visant à transformer les données en informations et, par l'intermédiaire d'interrogations successives, transformer ces informations en connaissances." [Dresner, 2001].

I.1.1. La place du décisionnel dans l’entreprise:

Figure I.1 : Le décisionnel au sein du Système d’information La figure ci-dessus illustre parfaitement la place qu

d’une entreprise. Cette place, comprend plusieurs fonctions clés de l’entreprise.

décisionnelles, étant différentes selon le poste et la fonction occupée d’engendrer plusieurs composantes.

2 Synthétisation à partir de la thèse de Bouzghoub A.

application au domaine de la sécurité sociale

Les origines des SID remontent au début de l’informatique et des systèmes d’information qui ont, tous deux, connu une grande et complexe évolution liée notamment à la technologie.

à ce jour².

définitions du décisionnel « business intelligence B.I. »

"Le Décisionnel est le processus visant à transformer les données en informations et, par l'intermédiaire d'interrogations successives, transformer ces informations en

[Dresner, 2001].

décisionnel dans l’entreprise:

nnel au sein du Système d’information [Goglin, 1998]

dessus illustre parfaitement la place qui revient au décisi , comprend plusieurs fonctions clés de l’entreprise.

étant différentes selon le poste et la fonction occupée, on d’engendrer plusieurs composantes.

de Bouzghoub A. « Modélisation des entrepôts de données XML:

application au domaine de la sécurité sociale » [Bouzghoub, 2008].

Les origines des SID remontent au début de l’informatique et des systèmes d’information la technologie.

» qui ont été

"Le Décisionnel est le processus visant à transformer les données en informations et, par l'intermédiaire d'interrogations successives, transformer ces informations en

[Goglin, 1998].

décisionnel au sein , comprend plusieurs fonctions clés de l’entreprise. Les finalités ont pour but

Modélisation des entrepôts de données XML:

(25)

I.1.2. Les différentes composantes du décisionnel

En relation étroite avec les nouvelles technologies de l’information et des télécommunications, le système décisionnel se manifeste à différents niveaux selon leurs utilités et leurs missions principales

Figure I.2 : Les différentes composantes du décisionnel s composantes du décisionnel

En relation étroite avec les nouvelles technologies de l’information et des e décisionnel se manifeste à différents niveaux selon leurs utilités et leurs missions principales, comme illustré dans la figure suivante :

Les différentes composantes du décisionnel [Goglin, 1998]

En relation étroite avec les nouvelles technologies de l’information et des e décisionnel se manifeste à différents niveaux selon leurs

[Goglin, 1998].

(26)

I.3. Décisionnel vs transactionnel

Le tableau suivant résume de façon non exhaustive les différences qu’il peut y avoir entre les systèmes transactionnels et les systèmes décisionnels selon les données et l’usage fait des systèmes.

Différence Systèmes transactionnels SID

par les données

Orienté applications Orienté thèmes et sujets Situation instantanée Situation historique Donnée détaillées et codées non

redondantes

Informations agrégées cohérentes souvent avec redondance

Données changeantes constamment Informations stables et synchronisées dans le temps

Pas de référentiel commun Un référentiel unique

L’usage

Assure l’activité au quotidien Permet l’analyse et la prise de décision

Pour les opérationnels Pour les décideurs

Mises à jour et requêtes simples Lecture unique et requêtes complexes transparentes

Temps de réponse immédiats Temps de réponse moins critiques Faibles volumes à chaque transaction Large volume manipulé

Conçu pour la mise à jour Conçue pour l’extraction

Usage maîtrisé Usage aléatoire

Tableau I.1 : Tableau comparatif entre les systèmes transactionnels et les systèmes décisionnels.

Ces différences font ressortir la nécessité de mettre en place un système répondant aux besoins décisionnels. Ce système n’est rien d’autre que le « Data Warehouse ».

(27)

II. Le Data Warehouse

II.1 Qu’est ce qu’un Data Warehouse

Bill Inmon définit le Data Warehouse, dans son livre considéré comme étant la référence dans le domaine “Building the Data Warehouse” [Inmon, 2002] comme suit:

« Le Data Warehouse est une collection de données orientées sujet, intégrées, non volatiles et évolutives dans le temps, organisées pour le support d’un processus d’aide à la décision. »

Les paragraphes suivants illustrent les caractéristiques citées dans la définition d’Inmon.

Orienté sujet : le Data Warehouse est organisé autour des sujets majeurs de l’entreprise, contrairement à l’approche transactionnelle utilisée dans les systèmes opérationnels, qui sont conçus autour d’applications et de fonctions telles que : cartes bancaires, solvabilité client…, les Data Warehouse sont organisés autour de sujets majeurs de l’entreprise tels que : clientèle, ventes, produits…. Cette organisation affecte forcément la conception et l’implémentation des données contenues dans le Data Warehouse. Le contenu en données et en relations entre elles diffère aussi. Dans un système opérationnel, les données sont essentiellement destinées à satisfaire un processus fonctionnel et obéit à des règles de gestion, alors que celles d’un Data Warehouse sont destinées à un processus analytique.

Intégrée : le Data Warehouse va intégrer des données en provenance de différentes sources.

Cela nécessite la gestion de toute incohérence.

Evolutives dans le temps : Dans un système décisionnel il est important de conserver les différentes valeurs d’une donnée, cela permet les comparaisons et le suivi de l’évolution des valeurs dans le temps, alors que dans un système opérationnel la valeur d’une donnée est simplement mise à jour. Dans un Data Warehouse chaque valeur est associée à un moment

« Every key structure in the data warehouse contains - implicitly or explicitly -an element of time » [Inmon, 2000].

Non volatiles : c’est ce qui est, en quelque sorte la conséquence de l’historisation décrite précédemment. Une donnée dans un environnement opérationnel peut être mise à jour ou supprimée, de telles opérations n’existent pas dans un environnement Data Warehouse.

Organisées pour le support d’un processus d’aide à la décision : Les données du Data Warehouse sont organisées de manière à permettre l’exécution des processus d’aide à la décision (Reporting, Data Mining…).

(28)

II.2 Historique des Data Warehouse

L’origine du concept « Data Warehouse » D.W (entrepôt de données en français) remonte aux années 80, durant lesquelles un intérêt croissant au système décisionnel a vu le jour, dû essentiellement à l’émergence des SGBD relationnel et la simplicité du modèle relationnel et la puissance offerte par le langage SQL,

Au début, le Data Warehouse n’était rien d’autre qu’une copie des données du système opérationnel prise de façon périodique, dédiée à un environnement de support à la prise de décision. Ainsi, les données étaient extraites du système opérationnel, stockées dans une nouvelle base de données «concept d’infocentre », le motif principal étant de répondre aux requêtes des décideurs sans pour autant altérer les performances des systèmes opérationnels.

Le Data Warehouse, tel qu’on le connaît actuellement, n’est plus vu comme une copie -ou un cumul de copies prises de façon périodique- des données du système opérationnel. Il est devenu une nouvelle source d’information, alimenté avec des données recueillies et consolidées des différentes sources internes et externes.

Figure I.3 : évolution des bases de données décisionnelles.

bases de données

opérationnelles

Infocentre

Entrepôt de données

1980

1970 1990

(29)

II.3 Structure des données d’un Data Warehouse

Le Data Warehouse a une structure bien définie, selon différents niveaux d’agrégation et de détail des données. Cette structure est définie par Inmon [Inmon, 2000] comme suit :

Figure I.4 : Structure des données d’un Data Warehouse.

Données détaillées : ce sont les données qui reflètent les événements les plus récents, fréquemment consultées, généralement volumineuses car elles sont d’un niveau détaillé.

Données détaillées archivées : anciennes données rarement sollicitées, généralement stockées dans un disque de stockage de masse, peu coûteux, à un même niveau de détail que les données détaillées.

Données agrégées : données agrégées à partir des données détaillées.

Données fortement agrégées : données agrégées à partir des données détaillées, à un niveau d’agrégation plus élevé que les données agrégées.

M E T A D O N N É E S

Données détaillées

Données détaillées archivées

Données agrégées

Données fortement agrégées

(30)

Meta données : ce sont les informations relatives à la structure des données, les méthodes d’agrégation et le lien entre les données opérationnelles et celles du Data Warehouse. Les métadonnées doivent renseigner sur :

• Le modèle de données,

• La structure des données telle qu’elle est vue par les développeurs,

• La structure des données telle qu’elle est vue par les utilisateurs,

• Les sources des données,

• Les transformations nécessaires,

• Suivi des alimentations,

II.4 Les éléments d’un Data Warehouse

L’environnement du Data Warehouse est constitué essentiellement de quatre composantes : les applications opérationnelles, la zone de préparation des données, la présentation des données et les outils d’accès aux données.

Les applications opérationnelles : ce sont les applications du système opérationnel de l’entreprise et dont la priorité est d’assurer le fonctionnement de ce dernier et sa performance.

Ces applications sont extérieures au Data Warehouse.

Préparation des données : la préparation englobe tout ce qu’il y a entre les applications opérationnelles et la présentation des données. Elle est constituée d’un ensemble de processus appelé ETL, « Extract, transform and Load », les données sont extraites et stockées pour subir les transformations nécessaires avant leur chargement.

« Un point très important, dans l’aménagement d’un entrepôt de données, est d’interdire aux utilisateurs l’accès à la zone de préparation des données, qui ne fournit aucun service de requête ou de présentation » [Kimball, 2002].

Présentation des données : c’est l’entrepôt où les données sont organisées et stockées. Si les données de la zone de préparation sont interdites aux utilisateurs, la zone de présentation est tout ce que l’utilisateur voit et touche par le biais des outils d’accès.

L’entrepôt de données est constitué d’un ensemble de Data Mart. Ce dernier est défini comme étant une miniaturisation d’un Data Warehouse, construit autour d’un sujet précis d’analyse ou consacré à un niveau départemental³.

Cette différence de construction, autour d’un sujet ou au niveau départemental, définit la façon d’implémentation du Data Mart au niveau de l’entrepôt. On distingue, en effet, deux architectures internes du Data Warehouse :

3 Synthétisation [Chuck, 1998] page 86.

(31)

1. Data Mart indépendant

Les Data Mart sont des versions miniaturisées du Data Warehouse au niveau départemental, alimentées par le Data Warehouse

informations [Inmon, 2002].

Figure I.5 : les Data Mart dans un entrepôt de données selon Warehouse (E.D.W)

Data Mart sont des versions miniaturisées du Data Warehouse au niveau s par le Data Warehouse et basées sur les besoins départementaux en

Data Mart dans un entrepôt de données selon l’architecture Entreprise Data Warehouse (E.D.W) [Inmon, 2002].

Data Mart sont des versions miniaturisées du Data Warehouse au niveau s sur les besoins départementaux en

Entreprise Data

(32)

2. Data Mart interconnectés Les Data Mart sont construi

faits contenues dans le Data Warehouse, ce dernier se compose alors des Data Mart et ces tables des faits, appelées bus⁴.

Figure I.6 : les Data Mart dans un entrepôt de données selon l’architecture

Zone d’outils d’accès : c’est l’ensemble des moyens fournis aux utilisateurs du Data Warehouse pour exploiter la zone de présentation des données en vue de

Ces outils varient des simples requêtes ad hoc aux

données plus complexes. Environ 80 à 90% des utilisateurs sont desservis par des applications d’analyses préfabriquées, consista

4 Appellation proposée par R. Kimball dans son ouvrage [Kimball, 2002].

Data Mart interconnectés

es Data Mart sont construits autour de sujets, interconnectés grâce aux tables des faits contenues dans le Data Warehouse, ce dernier se compose alors des Data Mart et ces

les Data Mart dans un entrepôt de données selon l’architecture bus de [Kimball, 2002].

l’ensemble des moyens fournis aux utilisateurs du Data Warehouse pour exploiter la zone de présentation des données en vue de la prise de décision.

Ces outils varient des simples requêtes ad hoc aux outils permettant l’application de forage de . Environ 80 à 90% des utilisateurs sont desservis par des applications

ant essentiellement en des requêtes préétablies.

Appellation proposée par R. Kimball dans son ouvrage [Kimball, 2002].

autour de sujets, interconnectés grâce aux tables des faits contenues dans le Data Warehouse, ce dernier se compose alors des Data Mart et ces

bus de données

l’ensemble des moyens fournis aux utilisateurs du Data prise de décision.

outils permettant l’application de forage de . Environ 80 à 90% des utilisateurs sont desservis par des applications

s.

(33)

II.5 Architecture d’un Data Warehouse

Après avoir exposé et défini chacun des éléments constituant l’environnement d’un Data Warehouse, il serait intéressant de connaitre le positionnement de ces éléments dans une architecture globale d’un Data Warehouse:

Figure I.7 : Architecture globale d’un Data Warehouse⁵.

5 http://www.formations-sas.fr/data-warehouse

(34)

III. Modélisation des données de l’entrepôt

III.1 La modélisation dimensionnelle et ses concepts

Les Data Warehouse sont destinés à la mise en place de systèmes décisionnels. Ces systèmes, devant répondre à des objectifs différents des systèmes transactionnels, ont fait ressortir très vite la nécessité de recourir à un modèle de données simplifié et aisément compréhensible. La modélisation dimensionnelle permet cela. Elle consiste à considérer un sujet d’analyse comme un cube à plusieurs dimensions, offrant des vues en tranches ou des analyses selon différents axes.

Figure I.8 : Considération d’un sujet d’analyse comme un cube à plusieurs dimensions.

En plus de la perception intuitive qu’offre la modélisation dimensionnelle, celle-ci est réputée pour ses performances élevées.

La nomination « schéma des jointures en étoile » a longtemps été adoptée pour décrire un modèle dimensionnel. Cette nomination est due au fait que le diagramme qui représente un modèle dimensionnel ressemble à une étoile, avec une grande table centrale et un jeu de petites tables auxiliaires disposées en étoile autour de la table centrale. Celle-ci est appelée table de faits et les autres tables sont appelées tables de dimensions. La figure suivante illustre untel modèle :

(35)

Figure I.9 : Un modèle dimensionnel typique [Kimball, 1996].

III.1.1 Concept de fait

Une table de faits est la table centrale d’un modèle dimensionnel, où les mesures de performances sont stockées. Une ligne d’une table de faits correspond à une mesure. Ces mesures sont généralement des valeurs numériques, additives ; cependant des mesures textuelles peuvent exister mais sont rares. Le concepteur doit faire son possible pour faire des mesures textuelles des dimensions, car elles peuvent êtres corrélées efficacement avec les autres attributs textuels de dimensions.

Une table de faits assure les liens plusieurs à plusieurs entre les dimensions. Elles comportent des clés étrangères, qui ne sont autres que les clés primaires des tables de dimension.

III.1.2 Concept de dimension

Les tables de dimension sont les tables qui raccompagnent une table de faits, elles contiennent les descriptions textuelles de l’activité. Une table de dimension est constituée de nombreuses colonnes qui décrivent une ligne. C’est grâce à cette table que l’entrepôt de données est compréhensible et utilisable; elles permettent des analyses en tranches et en dés.

Une dimension est généralement constituée : d’une clé artificielle, une clé naturelle et des attributs.

« Une table de dimension établit l’interface homme / entrepôt, elle comporte une clé primaire » [Kimball, 2002].

(36)

III.1.3 Comparatif entre les tables de faits et les tables de dimensions

Le tableau suivant récapitule les différences au niveau des données de ces tables : Tables de faits Tables de dimensions

Structure Peu de colonnes beaucoup de lignes Peu de lignes beaucoup de colonnes Données Mesurable, généralement numérique Descriptives généralement textuelles Référentiel Plusieurs clés étrangères Une clé primaire

Valeur Prend de nombreuses valeurs Plus ou moins constantes Manipulation Participe à des calculs Participe à des contraintes

Signification Valeurs de mesure Descriptive

Rôle Assure les relations entre les dimensions

Assure l’interface homme / entrepôt de données

Tableau I.2 : Tableau comparatif entre les tables de faits et les tables de dimensions.

III.2 Différents modèles de la modélisation dimensionnelle

Modèle en étoile : comme indiqué précédemment, ce modèle se présente comme une étoile dont le centre n’est autre que la table des faits et les branches sont les tables de dimension. La force de ce type de modélisation est sa lisibilité et sa performance.

Modèle en flocon : identique au modèle en étoile, sauf que ses branches sont éclatées en hiérarchies. Cette modélisation est généralement justifiée par l’économie d’espace de stockage, cependant elle peut s’avérer moins compréhensible pour l’utilisateur final, et très couteuse en terme de performances.

Modèle en constellation : Ce n’est rien d’autre que plusieurs modèles en étoile liés entre eux par des dimensions communes.

(37)

III.3 Le concept OLAP

III.3.1 Généralités

Le terme OLAP (On-Line Analytical Processing) désigne une classe de technologies conçue pour l’accès aux données et pour une analyse instantanée de ces dernières, dans le but de répondre aux besoins de Reporting et d’analyse.

R. Kimball définit le concept « OLAP » comme «Activité globale de requêtage et de présentation de données textuelles et numériques contenues dans l’entrepôt de données; Style d’interrogation spécifiquement dimensionnel » [Kimball, 2005].

C’est en continuant sur sa lancée, qui lui a permis de définir le model OLTP pour les bases de données relationnelles, que le concept OLAP fut introduit et défini⁶ en 1993 par E.F Codd, le père des bases de données relationnelles, dans un document technique portant le titre de « Providing OLAP (On-Line Analytical Processing) to User-Analysts : An IT Man-date »

[Codd, 1993].

III.3.2 Architectures des serveurs OLAP

Le noyau d’un système OLAP est son serveur. Ces serveurs sont classés selon la politique régissant l’architecture du serveur. Ainsi, ces architectures peuvent être distinguées comme suit:

III.3.2.1 Les systèmes à architecture MOLAP

Ces systèmes MOLAP « Multidimentional On-line Analytical Processing » sont conçus exceptionnellement pour l’analyse multidimensionnelle.

R. Kimball définit ces systèmes comme étant un « Ensemble d’interfaces utilisateur, d’applications et de technologies de bases de données propriétaire dont l’aspect dimensionnel est prépondérant » [Kimball, 2005].

Ainsi donc cette base adopte réellement la structure multidimensionnelle, exploitant de ce fait ces capacités au maximum. En effet MOLAP offre des temps d’accès optimisés et cela en prédéfinissant les opérations de manipulation et de chemin d’accès prédéfinis.

Autre caractéristique du MOLAP c’est qu’il agrège tout par défaut, pénalisant du coup le système lorsque la quantité de données à traiter augmente. On parle généralement de volume de l’ordre du giga-octet pas plus.

6 Cette définition passe par l’introduction de 12 règles. Six autres règles furent par la suite, en 1995, ajoutées aux 12 précédentes et le terme « règles » remplacé par dispositif «features » par le même auteur à savoir Codd (Voir annexe B).

(38)

Figure I.10 : Principe de l’architecture MOLAP [Nakache, 1998].

III.3.2.2 Les systèmes à architecture ROLAP

« Ensemble d’interfaces utilisateurs et d’applications qui donnent une vision dimensionnelle à des bases de données relationnelles » [Kimball, 2005].

Les systèmes ROLAP « Relationnel On-line Analytical Processing » sont en mesure de simuler le comportement d’une SGBD multidimensionnel en exploitant un SGBD relationnel. L’utilisateur aura ainsi l’impression d’interroger un cube multidimensionnel alors qu’en réalité il ne fait qu’adresser des requêtes sur une base de données relationnelles.

ROLAP n’agrège rien. Les règles d’agrégations sont crées au préalable et représentées dans une table relationnelle ce qui cause une lourdeur d’administration mais confère une certaine performance et un gage de cohérence lors de l’utilisation.

Cette structure est généralement adoptée dans le but de se dispenser de l’acquisition d’un SGBD relationnel.

Figure I.11 : Principe de l’architecture ROLAP [Nakache, 1998].

Data Warehouse Moteur MOLAP Aide à la décision

Données Traitements Présentation

Rapports Multi-Dimensionnel Stockage des

données détaillées (et agrégées)

Data Warehouse Moteur ROLAP Aide à la décision

Données Traitements Présentation

Rapports Multi-Dimensionnel Génération de plans

d'exécution SQL afin d'obtenir des fonctionnalités OLAP.

Stockage des données détaillées (et

agrégées) et des méta-données

(39)

III.2.2.3 Les systèmes à architecture HOLAP

Les systèmes HOLAP « Hybride On-line Analytical Processing » sont une sorte de compromis entre les différents systèmes précités. Cette combinaison donne à ce type de système les avantages du ROLAP et du MOLAP en utilisant tour à tour l’un ou l’autre selon le type de données.

III.2.2.4 Autres architecture OLAP

Bien que les architectures évoquées ci-dessus soient les plus répandues et les plus adoptées par les fournisseurs de solutions OLAP, d’autres systèmes se basent sur des architectures différentes telles que l’architecture OOLAP « Object On-line Analytical Processing », ou alors DOLAP « Desktop On-line Analytical Processing » qui décrit une catégorie de produits qui ne sont pas nécessairement connectés à un serveur et qui s’appuient sur une source de données (un cube) construites, stockées et exploitées en local sur la machine de l’utilisateur.

III.4 La navigation dans les données

Une fois que le serveur OLAP a construit le cube multidimensionnel « ou simulé ce cube selon l’architecture du serveur », plusieurs opérations sont possibles sur ce dernier offrant ainsi la possibilité de naviguer dans les données qui le constituent. Ces opérations de navigation « Data Surfing » doivent être, d’une part, assez complexes pour adresser l’ensemble des données et, d’autre part, assez simples afin de permettre à l’utilisateur de circuler de manière libre et intuitive dans le modèle dimensionnel.

Afin de répondre à ces attentes, un ensemble de mécanismes est exploité, permettant une navigation par rapport à la dimension et par rapport à la granularité d’une dimension.

III.4.1 Slice & Dice

Le « Slicing » et le « Dicing » sont des techniques qui offrent la possibilité de faire des tranches « trancher » dans les données par rapport à des filtres de dimension bien précis, se classant de fait comme des opérations liées à la structure « se font sur les dimensions ». La différence entre eux se manifestent dans le fait que :

Le Slicing consiste à faire une sélection de tranches du cube selon des prédicats et selon une dimension « filtrer une dimension selon une valeur » [Chouder, 2008].

(40)

Figure I

Le Dicing, quant à lui, peut être vu comme étant une extraction d’un sous cube.

Figure I

III.4.2 Drill-down & Roll-up Ces méthodes, appelées aussi «

plus répandues pour une navigation dans un entrepôt représenter les données du cube à un niveau de granularité inf down », ou un niveau supérieur, c’est le «

permettent de contrôler le niveau de détail des

Figure I.12 : Exemple de Slicing.

peut être vu comme étant une extraction d’un sous cube.

Figure I.13 : Exemple de Dicing.

up

aussi « forage vers le bas/vers le haut », sont les méthodes les navigation dans un entrepôt de données. Elles

représenter les données du cube à un niveau de granularité inférieur, dans le cas du «

», ou un niveau supérieur, c’est le « Roll-up ». En somme, ces deux permettent de contrôler le niveau de détail des données du cube.

», sont les méthodes les Elles consistent à rieur, dans le cas du « Drill -

ces deux opérations

(41)

Ces opérations ne sont pas aussi faciles à implémenter car basées sur la notion d’une bonne hiérarchisation des attributs d’une dimension et la différenciation entre tous les niveaux de hiérarchie disponibles dans les différentes dimensions.

Figure I.14 : Exemple de Roll up « moins de détails sur les années».

Figure I.15 : Exemple de Drill-Down « plus de détails sur les régions ».

(42)

IV. Démarche de Construction d’un Data Warehouse

Plusieurs chercheurs ou équipes de recherche ont essayé de proposer des démarches pour la réalisation d’un projet Data Warehouse, ces démarches se croisent essentiellement dans les étapes suivantes :

• Modélisation et conception du Data Warehouse,

• Alimentation du Data Warehouse,

• Mise en œuvre du Data Warehouse,

• Administration et maintenance du Data Warehouse,

IV.1 Modélisation et conception du Data Warehouse

Les deux approches les plus connues dans la conception des Data Warehouse sont :

• L’approche basée sur les besoins d’analyse,

• L’approche basée sur les sources de données,

Aucune des deux approches citées n’est ni parfaite, ni applicable à tous les cas. Toutes deux doivent être étudiées pour choisir celle qui s’adapte le mieux à notre cas.

Quelque soit l’approche adoptée pour la conception d’un Data Warehouse, la définition de celui-là reste la même. En étant un support d’aide à la décision, le Data Warehouse se base sur une architecture dimensionnelle.

IV.1.1 Approche « Besoins d’analyse »

Le contenu du Data Warehouse sera déterminé selon les besoins de l’utilisateur final.

Cette approche est aussi appelée « approche descendante » (Top-Down Approach) et est illustrée par R. Kimball grâce à son cycle de vie dimensionnel comme suit :

Figure I.16 : illustration de l’approche « Besoins d’analyse » grâce au cycle de vie dimensionnel de Kimball [Kimball, 2004].

(43)

Avantages Inconvénients Aucun risque de concevoir une solution

obsolète avant d’être opérationnelle Pas de prise en compte de l’évolution des besoins de l’utilisateur. Nécessite une modification de la structure du Data Warehouse en cas de nouveau besoin

Négligence du système opérationnel

Difficulté de déterminer les besoins des utilisateurs

Tableau I.3 : Avantages et inconvénients de l’approche « Besoins d’analyse ».

IV.1.2 Approche « Source de données »

Le contenu du Data Warehouse est déterminé selon les sources de données. Cette approche est appelée : Approche ascendante (Bottom-up Approach).

Figure I.17 : Illustration de l’approche « Source de données » grâce au cycle de développement du DW de Inmon [Inmon, 2002].