• Aucun résultat trouvé

Les Entrepôts de Données. (Data Warehouses)

N/A
N/A
Protected

Academic year: 2022

Partager "Les Entrepôts de Données. (Data Warehouses)"

Copied!
18
0
0

Texte intégral

(1)

Les Entrepôts de Données (Data Warehouses)

2014-­‐2015-­‐-­‐  O.  Boussaid  

Pr.  Omar  Boussaid  

Département  d'Informatique  et  de  Sta5s5que   Université  Lyon2  -­‐  France  

1.  Généralités, sur le décisionnel

2.  L'entreposage des données (Data warehousing) 1.  ETL

2.  Modélisation multidimensionnelle 3.  L'analyse multidimensionnelle (OLAP)

1.  Différentes approches OLAP 2.  Opérateurs OLAP

Les Entrepôts de Données

(2)

Les entreprises passent à l' ère de l'information .

Le décisionnel ?

Défi : Transformer une partie de leur système d'information qui avait une vocation de

production à un SI décisionnel dont la vocation de pilotage devient majeure.

2014-­‐2015-­‐-­‐  O.  Boussaid  

Entrepôt de Données

S

ystème d'

I

nfo. de

P

roduction

Orientation : Gestion

S

ystème d'

I

nfo.

D

écisionnel

Orientation : Pilotage

BD Magasins BD Clients

BD Produits BD

Compta

BD DRH

BD Marketing

BD Fournisseurs

Flux de données

externes Flux de données externes

(3)

•  Un système d'information décisionnel (S.I.D.) est un ensemble de données organisé de façon spécifique, approprié à la prise de décision .

Ø  Connaître l'environnement dans lequel on évolue

Ø  Finalité d'un système décisionnel :

pilotage de l'entreprise

2014-­‐2015-­‐-­‐  O.  Boussaid  

Outils : Data warehouse ; OLAP

S.I.D. : pilotage de l'entreprise

Le décisionnel ?

(4)

2014-­‐2015-­‐-­‐  O.  Boussaid  

(5)

2014-­‐2015-­‐-­‐  O.  Boussaid  

(6)

Les données peuvent être supportées par des outils spécialisés permettant le pilotage de l'entreprise

Besoin accru de données d'horizons multiples et divers : réorganisation du SI è réactivité nécessaire

Les systèmes de gestion sont dédiés aux métiers ; tandis que les systèmes décisionnels sont dédiés au pilotage de l'entreprise

L'entreprise ne doit pas seulement avoir une vue verticale de ses métiers (Syst. de gestion) mais une vue transversale (Syst. Décisionnel)

Le décisionnel ?

2014-­‐2015-­‐-­‐  O.  Boussaid  

Les bases de production : toutes les sources de données ( légales, juridiques, fiscales, politiques, techniques, marketing… )

Comment organiser ces différentes données dans un ensemble cohérent afin de procéder à toutes les analyses nécessaires pour construire les indicateurs indispensables au pilotage de l'entreprise ?

Par un processus d'entreposage de données

(Data Warehousing)

Passage des données de production aux données décisionnelles

(7)

Architecture Décisionnelle

Entrepôt  de  données  

Méta   données  

Data  Marts  

Administrateur  

OLAP  

Data  Mining  

Analyses     sta5s5ques  

E                   T                   L          

Bases     de     produc5on  

OLAP Reporting 2014-­‐2015-­‐-­‐  O.  Boussaid  

Qu'est ce que l'Entreposage des données ?

Data Mining

Analyses statistiques

OLAP Reporting

E T L

Bases de production

Entrepôt de données

Méta données

Administrateur

OLAP

Data Marts

Phase ETL Phase Structuration Phase OLAP

(8)

Qu'est ce que l'entreposage des données ?

Les différentes phases :

☞  

Conception

☞  

Modélisation

☞  

Structuration

☞  

Administration

☞  

Extraction

☞  

Transformation

☞  

Alimentation

☞  

Administration

☞  

Analyse

☞  

Restitution

☞  

Administration

2014-­‐2015-­‐-­‐  O.  Boussaid  

Phase ETL Phase Structuration Phase OLAP

Travail technique.

♠   Extraction des données des différentes BD de production (internes ou externes)

♠  Nettoyage des données, règles d'homogénéisation des données sous formes de métadonnées.

♠  Techniques d'alimentation :

û  Chargement des données dans l'ED ;

û  Fréquences de rafraîchissement :

ü  par des applications sur les sources de données et l'ED ; ü  par des serveurs de réplication du SGBD ou par des outils

spécialisés.

v  Phase ETL

(9)

Il s'agit de définir la finalité de l'ED :

♠  Cibler l'activité de l'entreprise à piloter ;

♠  Déterminer et recenser les données à entreposer ;

♠  Définir les aspects techniques de la réalisation ;

♠   Modèle de données ;

♠   Définir des démarches d'alimentation ;

♠  Arrêter des stratégies d'administration ;

♠  Définir des espaces d'analyse ;

♠  Choisir un mode de restitution…

v  Phase Structuration

2014-­‐2015-­‐-­‐  O.  Boussaid  

Elle est constituée de plusieurs tâches pour assurer :

♠  la qualité et la pérennité des données aux différents applicatifs ;

♠  la maintenance ;

♠   la gestion de configuration ;

♠   les mises à jour ;

♠   l'organisation, l'optimisation du SID ;

♠   la mise en sécurité du SID.

v  Phase ( transversale ) Administration

(10)

♠   C'est le but du processus d'entreposage des données.

♠  Elle conditionne le choix de l'architecture de l'ED et de sa construction.

♠   Elle doit permettre toutes les analyses nécessaires pour la construction des indicateurs recherchés.

v  Phase OLAP

2014-­‐2015-­‐-­‐  O.  Boussaid  

OLAP (On-Line Analytical Processing) est défini comme étant

« ...

le nom donné à l'analyse dynamique requise pour créer, manipuler, animer et synthétiser l'information par des modèles d'analyse de données exégétiques, contemplatifs et selon des formules

» (

Codd et al., 1993

).

En d'autres termes, il s'agit d'applications de modélisation descriptive et d'analyse exploratoire des données, conçues à des fins de prise de décision.

v  OLAP

(11)

Nigel Pendse auteur de OLAP Report (

www.olapreport.com/fasmi.htm

) récapitule la définition de l'OLAP en cinq mots :

F ast A nalysis of S hared M ultidimensional I nformation (FASMI)

traduit en français comme suit :

''Analyse Rapide d'Information Multidimensionnelle Partagée''

(

http://www.linux-france.org/prj/jargonf/F/FASMI.htm

)

Critères retenus pour simplifier les règles de Codd et faciliter l'évaluation des outils OLAP.

v  OLAP

2014-­‐2015-­‐-­‐  O.  Boussaid  

Les combinaisons possibles des dimensions, avec les mesures qui en découlent, forment les faits. Il est possible d'appliquer des fonctions agrégatives (

somme, moyenne, médiane, etc

.) pour obtenir les mesures à partir des données transactionnelles ou de mesures de membres de niveau inférieur.

Ainsi, on peut calculer une valeur pour un fait caractérisé par les membres d'une dimension du niveau hiérarchique inférieur qui s'agrègent vers un membre d'un niveau supérieur (

ex. la population du Canada est la somme de la population de chacune de ses provinces

).

Un jeu de données multidimensionnelles est nommé «cube» ou

«hypercube» l'organisation des faits selon des axes dimensionnels.

v  Phase OLAP

(12)

q Un

ED

est une structure informatique dans laquelle est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les BDs internes) et qui est conçue de manière que les personnes intéressées aient accès rapidement à l'information stratégique dont elles ont besoin.

q  Dans un ED , les données sont : sélectionnées et préparées (pour répondre aux questions vitales de l'entreprise), intégrées (à partir des différentes sources de renseignements) et datées (elles gardent la trace de leur origine).

q Le terme entrepôt de données supplante ceux de dépôt de données et de centrale de données (se rapproche de magasin de données) .

v  Data warehouse : Définition

(ou entrepôt de données)

2014-­‐2015-­‐-­‐  O.  Boussaid  

Bill Inmon a proposé les termes de :

Entreprise Data warehouse (EDW) ou Corporate Information Factory (CIF)

Ø  Le DWH est orienté sujets : les données collectées doivent être orientées ''métier'' et donc triées par thème

Ø  Le DWH est composé de données intégrées : un ''nettoyage'' préalable des données est nécessaire dans un souci de rationalisation et de normalisation

Ø  Les données du DWH sont non volatiles : une donnée entrée dans l'entrepôt l'est pour de bon et n'a pas vocation à être supprimée ;

Ø  Les données du DWH doivent être historisées, donc datées

v  Data warehouse : Définition

(13)

D'après BILL Inmon :

“Un ED est une collection de données thématiques,

intégrées, non volatiles et historisées, organisées pour la prise de décision.”

Thématiques : thèmes par activités majeures ;

Intégrées : divers sources de données ;

Non volatiles : ne pas supprimer les données du DW ;

Historisées : trace des données, suivre l'évolution des indicateurs.

Pb de volumétrie, de stockage, d'accès.

2014-­‐2015-­‐-­‐  O.  Boussaid  

Evolution des unités de volumétrie des données :

Unité Symbole Valeur Observation

Octet Octet 1 o représente un caractère

d'imprimerie

KiloOctet Ko 1 000 (1024) 100 Ko : image num. basse résolution

MegaOctet Mo 10 6 500 Mo à un CD-Rom

GigaOctet Go 10 9 20 Go à un HD de PC

TeraOctet To 10 12 10 To à la bibliothèque du Congrès Américaine

PetaOctet Po 10 15 8 Po à toute l'info. sur Internet

ZettaOctet Zo 10 21 : 1 000 000 x 10 15 Pas encore d'application

(14)

v  Architecture de Data warehouse

End  User   Presenta5on  Tools Sources  Data  

Systems

Data  staging  Area   (Opera5onal  Data  Store)

O.D.S .

Data  et  Metadata   Storage  Area

DWH DM1   DM2

DM3 DSc1  

DSc2   DSc3   DSc4  

DScn  

2014-­‐2015-­‐-­‐  O.  Boussaid  

Staging area

: C'est une zone temporaire qui sert à stocker les données extraites des systèmes sources. C'est là que s'effectuent les différentes transformations : le nettoyage des données, le merge, la standardisation, le déduplication des données. Les données dans le staging area sont détruites une fois le chargement des data-marts terminé.

Data warehouse

: Les données du staging area sont transférées vers le DWH. Les métadatas sont aussi stockées dans le DWH. Ce dernier est central et devrait contenir toutes les données de l'entreprise.

Zone présentation

: A partir du DWH, les utilisateurs peuvent y accéder pour exécuter leurs requêtes ad hoc, programmer les rapports, analyser et visualiser l'information...

v  Architecture de Data warehouse

(15)

Architecture prônée par Bill Inmon

L'ODS

: est l'acronyme pour Operational Data Store ou (Magasin de données opérationnelles).

Il joue deux rôles :

1.  sert à stocker les données extraites des systèmes sources.

2.  intègre les données sources dans le but de présenter toute l'information nécessaire à prendre des décisions tactiques.

L'Entreprise Data warehouse

: Les données de l'ODS sont transférées vers le DWH. Ce dernier est central (d'où son appellation Entreprise Data Warehouse (EDW)). Il contient toutes les données de l'entreprise.

Les data-marts dépendants

: Ils peuvent être alimentés soit de L'EDW soit de l'ODS.

La zone présentation

: Une fois les données chargées dans le Data warehouse et les data-marts dépendants, les utilisateurs peuvent y accéder pour exécuter leurs requêtes Ad hoc, programmer les rapports, analyser et visualiser l'information…

2014-­‐2015-­‐-­‐  O.  Boussaid  

Il est souvent mis en place pour répondre à au moins un des besoins suivants :

- Intégrer les données provenant de plusieurs sources. Normalement ce genre d'intégration devrait être réalisé dans les systèmes sources, mais parce que cela peut couter cher ( temps, dispo. et rentabilité) : on met en place un ODS.

- Fournir les données pour prendre des décisions tactiques (reporting) - Permettre de consolider les mises à jour communes aux systèmes sources.

Un ODS peut servir de staging area pour alimenter un DW, cependant cela ne doit pas être sa raison d'être.

v  Oparational Data Storage (ODS)

(16)

v  Architecture de Data warehouse

End  User   Presenta5on  Tools Sources  Data  

Systems Data  staging  Area  

(Opera5onal  Data  Store)

O.D.S.

Bases   mul5dimensionnelles

DWH

DM1  

DM2

DM3 DSc1  

DSc2   DSc3   DSc4  

DScn  

Cubes OLAP

2014-­‐2015-­‐-­‐  O.  Boussaid  

v  Approches   de mise en place de DW

Il   existe   plusieurs   approches   pour   me>re   en   place   un   DW.    

  Par  contre  seulement  trois  approches  sont  communes.  il   s'agit   de   l'approche   "Top-­‐Down"   prônée   par   Inmon,   l'approche   "Bo4om-­‐up"   de   Kimball   et   de   l'approche  

"Hybride"  qui  dérivent  des  deux  premières  approches.  

(17)

  Top-­‐Down  

de  Bill  Inmon  et  le  CIF

 

Caractéristiques majeures Ø L'emphase est mise sur le DW.

Ø  Commence par concevoir un modèle de DW au niveau de l'entreprise.

Ø  Déploies une architecture multi-tiers composée de staging area, de DW et des data- marts dépendants.

Ø  Le staging area est permanent.

Ø  Le DW est orienté entreprise; les data-marts sont orientés processus.

Ø  Le DW contient des données atomiques ; Les data-marts contiennent les données agrégées.

Ø  Le DW utilise un modèle de données normalisé de toute l'entreprise ; Les data-marts utilisent des modèles multidimensionnels orientés sujet.

Ø  Les utilisateurs peuvent effectuer des requêtes sur le DW et les data-marts.

2014-­‐2015-­‐-­‐  O.  Boussaid  

v  Approches de mise en place de DW

BoNom-­‐Up  

de  Ralph  Kimball  et    

le  Bus  Architecture

 

 

Ø  L'emphase est mise sur les data-marts.

Ø  Commence par concevoir un modèle multidimensionnel pour un data-mart.

Ø  Utilise une architecture qui consiste en un staging area et des data-marts.

Ø  Le staging area est en général non permanent, mais il peut devenir permanent pour implanter l'architecture en BUS ( Dimensions et faits conformes)

Ø  Les data-marts contiennent les données atomiques et les données agrégées.

Ø  Les data-marts peuvent fournir une vue entreprise ou processus.

Ø  Un data-mart consiste en un seul star schema physique.

Ø  Les data-marts sont implantés d'une façon incrémentale et intégrée en utilisant les dimensions conformes.

Ø  Les utilisateurs ne peuvent effectuer des requêtes sur le staging area .

(18)

v  Approches de mise en place de DW

  Hybride  

Ø  L'emphase est sur le DW et les data-marts ; utilise les deux approches “top-down” et

“bottom-up”

Ø  Commence par concevoir un modèle de données de l'entreprise en même temps que les modèles spécifiques.

Ø  Crée un modèle normalisé d'entreprise de haut niveau ; génère les modèles des premiers data-marts.

Ø  Charge les data-marts avec les données atomiques en utilisant un staging area temporaire.

Ø  Les modèles des data-marts sont composés d'un ou plusieurs star schémas.

Ø Utilise un outil ETL pour charger les data-marts et pour échanger les métadata avec ces derniers.

Ø Charge le DW à partir des data-marts lorsqu'il y'a besoin de faire des requêtes à travers plusieurs data-marts en même temps.

2014-­‐2015-­‐-­‐  O.  Boussaid  

Références

Documents relatifs

L’avènement des données complexes a remis en cause le processus d’entreposage et d’analyse des données ; il a induit l’émergence de nouveaux problèmes de recherche

− Exemples : méta donnée d'une colonne de table d'ED. Nom de

− Forage vers le haut (Roll-Up) : passer d'un niveau de détail à un niveau.

Pour les requêtes nécessitant d'afficher la désignation des pays des clients avec les données de la table de fait, on peut créer un index de jointure binaire sur la

c) Suppression d’un terrain (table adresses → Oui, mais on ne supprime pas, on peut ajouter un attribut dans Terrain pour savoir que le terrain n’est plus utilisé. d)

Une tâche peut être réalisée à temps (pas de dépassement de la date au plus tard) ou réalisée en retard, Aussi, un utilisateur peut reporter une tâche en changeant sa date au

L’avènement des données complexes a remis en cause le processus d’entreposage et d’analyse des données ; il a induit l’émergence de nouveaux problèmes de recherche

For example, a base star may contain orders by order line, with dimensions for day, product, salesperson, and customer. An aggregate of this star