Les Entrepôts de Données (Data Warehouses)
2014-‐2015-‐-‐ O. Boussaid
Pr. Omar Boussaid
Département d'Informatique et de Sta5s5que Université Lyon2 -‐ France
1. Généralités, sur le décisionnel
2. L'entreposage des données (Data warehousing) 1. ETL
2. Modélisation multidimensionnelle 3. L'analyse multidimensionnelle (OLAP)
1. Différentes approches OLAP 2. Opérateurs OLAP
Les Entrepôts de Données
Les entreprises passent à l' ère de l'information .
Le décisionnel ?
Défi : Transformer une partie de leur système d'information qui avait une vocation de
production à un SI décisionnel dont la vocation de pilotage devient majeure.
2014-‐2015-‐-‐ O. Boussaid
Entrepôt de Données
S
ystème d'I
nfo. deP
roductionOrientation : Gestion
S
ystème d'I
nfo.D
écisionnelOrientation : Pilotage
BD Magasins BD Clients
BD Produits BD
Compta
BD DRH
BD Marketing
BD Fournisseurs
Flux de données
externes Flux de données externes
• Un système d'information décisionnel (S.I.D.) est un ensemble de données organisé de façon spécifique, approprié à la prise de décision .
Ø Connaître l'environnement dans lequel on évolue
Ø Finalité d'un système décisionnel :
pilotage de l'entreprise
2014-‐2015-‐-‐ O. Boussaid
Outils : Data warehouse ; OLAP
S.I.D. : pilotage de l'entreprise
Le décisionnel ?
2014-‐2015-‐-‐ O. Boussaid
2014-‐2015-‐-‐ O. Boussaid
Les données peuvent être supportées par des outils spécialisés permettant le pilotage de l'entreprise
Besoin accru de données d'horizons multiples et divers : réorganisation du SI è réactivité nécessaire
Les systèmes de gestion sont dédiés aux métiers ; tandis que les systèmes décisionnels sont dédiés au pilotage de l'entreprise
L'entreprise ne doit pas seulement avoir une vue verticale de ses métiers (Syst. de gestion) mais une vue transversale (Syst. Décisionnel)
Le décisionnel ?
2014-‐2015-‐-‐ O. Boussaid
Les bases de production : toutes les sources de données ( légales, juridiques, fiscales, politiques, techniques, marketing… )
Comment organiser ces différentes données dans un ensemble cohérent afin de procéder à toutes les analyses nécessaires pour construire les indicateurs indispensables au pilotage de l'entreprise ?
Par un processus d'entreposage de données
(Data Warehousing)
Passage des données de production aux données décisionnelles
Architecture Décisionnelle
Entrepôt de données
Méta données
Data Marts
Administrateur
OLAP
Data Mining
Analyses sta5s5ques
E T L
Bases de produc5on
OLAP Reporting 2014-‐2015-‐-‐ O. Boussaid
Qu'est ce que l'Entreposage des données ?
Data Mining
Analyses statistiques
OLAP Reporting
E T L
Bases de production
Entrepôt de données
Méta données
Administrateur
OLAP
Data Marts
Phase ETL Phase Structuration Phase OLAP
Qu'est ce que l'entreposage des données ?
Les différentes phases :
☞
Conception☞
Modélisation☞
Structuration☞
Administration☞
Extraction☞
Transformation☞
Alimentation☞
Administration☞
Analyse☞
Restitution☞
Administration2014-‐2015-‐-‐ O. Boussaid
Phase ETL Phase Structuration Phase OLAP
Travail technique.
♠ Extraction des données des différentes BD de production (internes ou externes)
♠ Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées.
♠ Techniques d'alimentation :
û Chargement des données dans l'ED ;
û Fréquences de rafraîchissement :
ü par des applications sur les sources de données et l'ED ; ü par des serveurs de réplication du SGBD ou par des outils
spécialisés.
v Phase ETL
Il s'agit de définir la finalité de l'ED :
♠ Cibler l'activité de l'entreprise à piloter ;
♠ Déterminer et recenser les données à entreposer ;
♠ Définir les aspects techniques de la réalisation ;
♠ Modèle de données ;
♠ Définir des démarches d'alimentation ;
♠ Arrêter des stratégies d'administration ;
♠ Définir des espaces d'analyse ;
♠ Choisir un mode de restitution…
v Phase Structuration
2014-‐2015-‐-‐ O. Boussaid
Elle est constituée de plusieurs tâches pour assurer :
♠ la qualité et la pérennité des données aux différents applicatifs ;
♠ la maintenance ;
♠ la gestion de configuration ;
♠ les mises à jour ;
♠ l'organisation, l'optimisation du SID ;
♠ la mise en sécurité du SID.
v Phase ( transversale ) Administration
♠ C'est le but du processus d'entreposage des données.
♠ Elle conditionne le choix de l'architecture de l'ED et de sa construction.
♠ Elle doit permettre toutes les analyses nécessaires pour la construction des indicateurs recherchés.
v Phase OLAP
2014-‐2015-‐-‐ O. Boussaid
OLAP (On-Line Analytical Processing) est défini comme étant
« ...
le nom donné à l'analyse dynamique requise pour créer, manipuler, animer et synthétiser l'information par des modèles d'analyse de données exégétiques, contemplatifs et selon des formules» (
Codd et al., 1993).
En d'autres termes, il s'agit d'applications de modélisation descriptive et d'analyse exploratoire des données, conçues à des fins de prise de décision.
v OLAP
Nigel Pendse auteur de OLAP Report (
www.olapreport.com/fasmi.htm) récapitule la définition de l'OLAP en cinq mots :
F ast A nalysis of S hared M ultidimensional I nformation (FASMI)
traduit en français comme suit :
''Analyse Rapide d'Information Multidimensionnelle Partagée''
(
http://www.linux-france.org/prj/jargonf/F/FASMI.htm)
Critères retenus pour simplifier les règles de Codd et faciliter l'évaluation des outils OLAP.
v OLAP
2014-‐2015-‐-‐ O. Boussaid
Les combinaisons possibles des dimensions, avec les mesures qui en découlent, forment les faits. Il est possible d'appliquer des fonctions agrégatives (
somme, moyenne, médiane, etc.) pour obtenir les mesures à partir des données transactionnelles ou de mesures de membres de niveau inférieur.
Ainsi, on peut calculer une valeur pour un fait caractérisé par les membres d'une dimension du niveau hiérarchique inférieur qui s'agrègent vers un membre d'un niveau supérieur (
ex. la population du Canada est la somme de la population de chacune de ses provinces).
Un jeu de données multidimensionnelles est nommé «cube» ou
«hypercube» l'organisation des faits selon des axes dimensionnels.
v Phase OLAP
q Un
ED
est une structure informatique dans laquelle est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les BDs internes) et qui est conçue de manière que les personnes intéressées aient accès rapidement à l'information stratégique dont elles ont besoin.q Dans un ED , les données sont : sélectionnées et préparées (pour répondre aux questions vitales de l'entreprise), intégrées (à partir des différentes sources de renseignements) et datées (elles gardent la trace de leur origine).
q Le terme entrepôt de données supplante ceux de dépôt de données et de centrale de données (se rapproche de magasin de données) .
v Data warehouse : Définition
(ou entrepôt de données)
2014-‐2015-‐-‐ O. Boussaid
Bill Inmon a proposé les termes de :
Entreprise Data warehouse (EDW) ou Corporate Information Factory (CIF)
Ø Le DWH est orienté sujets : les données collectées doivent être orientées ''métier'' et donc triées par thème
Ø Le DWH est composé de données intégrées : un ''nettoyage'' préalable des données est nécessaire dans un souci de rationalisation et de normalisation
Ø Les données du DWH sont non volatiles : une donnée entrée dans l'entrepôt l'est pour de bon et n'a pas vocation à être supprimée ;
Ø Les données du DWH doivent être historisées, donc datées
v Data warehouse : Définition
D'après BILL Inmon :
“Un ED est une collection de données thématiques,
intégrées, non volatiles et historisées, organisées pour la prise de décision.”
Thématiques : thèmes par activités majeures ;
Intégrées : divers sources de données ;
Non volatiles : ne pas supprimer les données du DW ;
Historisées : trace des données, suivre l'évolution des indicateurs.
Pb de volumétrie, de stockage, d'accès.
2014-‐2015-‐-‐ O. Boussaid
Evolution des unités de volumétrie des données :
Unité Symbole Valeur Observation
Octet Octet 1 o représente un caractère
d'imprimerie
KiloOctet Ko 1 000 (1024) 100 Ko : image num. basse résolution
MegaOctet Mo 10 6 500 Mo à un CD-Rom
GigaOctet Go 10 9 20 Go à un HD de PC
TeraOctet To 10 12 10 To à la bibliothèque du Congrès Américaine
PetaOctet Po 10 15 8 Po à toute l'info. sur Internet
ZettaOctet Zo 10 21 : 1 000 000 x 10 15 Pas encore d'application
v Architecture de Data warehouse
End User Presenta5on Tools Sources Data
Systems
Data staging Area (Opera5onal Data Store)
O.D.S .
Data et Metadata Storage Area
DWH DM1 DM2
DM3 DSc1
DSc2 DSc3 DSc4
DScn
2014-‐2015-‐-‐ O. Boussaid
Staging area
: C'est une zone temporaire qui sert à stocker les données extraites des systèmes sources. C'est là que s'effectuent les différentes transformations : le nettoyage des données, le merge, la standardisation, le déduplication des données. Les données dans le staging area sont détruites une fois le chargement des data-marts terminé.Data warehouse
: Les données du staging area sont transférées vers le DWH. Les métadatas sont aussi stockées dans le DWH. Ce dernier est central et devrait contenir toutes les données de l'entreprise.Zone présentation
: A partir du DWH, les utilisateurs peuvent y accéder pour exécuter leurs requêtes ad hoc, programmer les rapports, analyser et visualiser l'information...v Architecture de Data warehouse
Architecture prônée par Bill Inmon
L'ODS
: est l'acronyme pour Operational Data Store ou (Magasin de données opérationnelles).Il joue deux rôles :
1. sert à stocker les données extraites des systèmes sources.
2. intègre les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions tactiques.
L'Entreprise Data warehouse
: Les données de l'ODS sont transférées vers le DWH. Ce dernier est central (d'où son appellation Entreprise Data Warehouse (EDW)). Il contient toutes les données de l'entreprise.Les data-marts dépendants
: Ils peuvent être alimentés soit de L'EDW soit de l'ODS.La zone présentation
: Une fois les données chargées dans le Data warehouse et les data-marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information…2014-‐2015-‐-‐ O. Boussaid
Il est souvent mis en place pour répondre à au moins un des besoins suivants :
- Intégrer les données provenant de plusieurs sources. Normalement ce genre d'intégration devrait être réalisé dans les systèmes sources, mais parce que cela peut couter cher ( temps, dispo. et rentabilité) : on met en place un ODS.
- Fournir les données pour prendre des décisions tactiques (reporting) - Permettre de consolider les mises à jour communes aux systèmes sources.
Un ODS peut servir de staging area pour alimenter un DW, cependant cela ne doit pas être sa raison d'être.
v Oparational Data Storage (ODS)
v Architecture de Data warehouse
End User Presenta5on Tools Sources Data
Systems Data staging Area
(Opera5onal Data Store)
O.D.S.
Bases mul5dimensionnelles
DWH
DM1
DM2
DM3 DSc1
DSc2 DSc3 DSc4
DScn
Cubes OLAP
2014-‐2015-‐-‐ O. Boussaid
v Approches de mise en place de DW
Il existe plusieurs approches pour me>re en place un DW.
Par contre seulement trois approches sont communes. il s'agit de l'approche "Top-‐Down" prônée par Inmon, l'approche "Bo4om-‐up" de Kimball et de l'approche
"Hybride" qui dérivent des deux premières approches.
Top-‐Down
de Bill Inmon et le CIFCaractéristiques majeures Ø L'emphase est mise sur le DW.
Ø Commence par concevoir un modèle de DW au niveau de l'entreprise.
Ø Déploies une architecture multi-tiers composée de staging area, de DW et des data- marts dépendants.
Ø Le staging area est permanent.
Ø Le DW est orienté entreprise; les data-marts sont orientés processus.
Ø Le DW contient des données atomiques ; Les data-marts contiennent les données agrégées.
Ø Le DW utilise un modèle de données normalisé de toute l'entreprise ; Les data-marts utilisent des modèles multidimensionnels orientés sujet.
Ø Les utilisateurs peuvent effectuer des requêtes sur le DW et les data-marts.
2014-‐2015-‐-‐ O. Boussaid
v Approches de mise en place de DW
BoNom-‐Up
de Ralph Kimball etle Bus Architecture
Ø L'emphase est mise sur les data-marts.
Ø Commence par concevoir un modèle multidimensionnel pour un data-mart.
Ø Utilise une architecture qui consiste en un staging area et des data-marts.
Ø Le staging area est en général non permanent, mais il peut devenir permanent pour implanter l'architecture en BUS ( Dimensions et faits conformes)
Ø Les data-marts contiennent les données atomiques et les données agrégées.
Ø Les data-marts peuvent fournir une vue entreprise ou processus.
Ø Un data-mart consiste en un seul star schema physique.
Ø Les data-marts sont implantés d'une façon incrémentale et intégrée en utilisant les dimensions conformes.
Ø Les utilisateurs ne peuvent effectuer des requêtes sur le staging area .
v Approches de mise en place de DW
Hybride
Ø L'emphase est sur le DW et les data-marts ; utilise les deux approches “top-down” et
“bottom-up”
Ø Commence par concevoir un modèle de données de l'entreprise en même temps que les modèles spécifiques.
Ø Crée un modèle normalisé d'entreprise de haut niveau ; génère les modèles des premiers data-marts.
Ø Charge les data-marts avec les données atomiques en utilisant un staging area temporaire.
Ø Les modèles des data-marts sont composés d'un ou plusieurs star schémas.
Ø Utilise un outil ETL pour charger les data-marts et pour échanger les métadata avec ces derniers.
Ø Charge le DW à partir des data-marts lorsqu'il y'a besoin de faire des requêtes à travers plusieurs data-marts en même temps.
2014-‐2015-‐-‐ O. Boussaid