• Aucun résultat trouvé

BI = Business Intelligence Master Data-ScienceCours 2 - ETL

N/A
N/A
Protected

Academic year: 2022

Partager "BI = Business Intelligence Master Data-ScienceCours 2 - ETL"

Copied!
31
0
0

Texte intégral

(1)

BI = Business Intelligence Master Data-Science

Cours 2 - ETL

Ludovic DENOYER - [email protected]

UPMC

1erf´evrier 2015

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(2)

Rappel

L’Informatique D´ecisionnelle (ID), en anglais Business Intelligence (BI), est l’informatique `a l’usage des d´ecideurs et des dirigeants des entreprises. Les syst`emes de ID/BI sont utilis´es par les

d´ecideurs pour obtenir une connaissance approfondie de l’entreprise et de d´efinir et de soutenir leurs strat´egies d’affaires, par exemple :

d’acqu´erir un avantage concurrentiel, d’am´eliorer la performance de l’entreprise, de r´epondre plus rapidement aux changements, d’augmenter la rentabilit´e, et

d’une fa¸con g´en´erale la cr´eation de valeur ajout´ee de l’entreprise.

(3)

Rappel

La vid´eo avec le son

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(4)

Les fonctions

Diff´erents ”m´etiers” : Data Integrator Data Analyst Data Scientist

(5)

Les fonctions de la BI

Fonction de collecte de donn´ees Fonction d’int´egration

Fonction de diffusion (ou distribution) Fonction pr´esentation

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(6)

Plan du Cours

(7)

Le projet de BI

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(8)

L’architecture classique de la BI

(9)

Int´egration de Donn´ees

Donn´ ees de l’entreprise

Les donn´ees de l’entreprise sont stock´ees dans des syst`emes transactionnels qui enregistrent les donn´ees quotidiennes.

Diff´erentes sources de donn´ees : Fichiers Excel....

ERPs

Syst`emes de CRMs Capteurs

Et aujourd’hui : Donn´ees du Web Twitter

...

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(10)

Int´egration de Donn´ees

Difficult´ es

Sources diverses et disparates ;

Sources sur diff´erentes plateformes et OS ;

Applications legacy utilisant des BDs et autres technologies obsol`etes ;

Historique de changement non-pr´eserv´e dans les sources ; Qualit´e de donn´ees douteuse et changeante dans le temps ; Structure des syst`emes sources changeante dans le temps ; Incoh´erence entre les diff´erentes sources ;

Donn´ees dans un format difficilement interpr´etable ou ambigu.

(11)

Int´egration de Donn´ees

Int´ egration de donn´ ees

D´efinition

L’int´egration de donn´ees appel´e ETL (Extraction Transfer Loading) regroupe les processus par lesquels les donn´ees provenant de diff´erentes parties du syst`eme d’information sont d´eplac´ees, combin´ees et

consolid´ees. Ces processus consistent habituellement `a extraire des donn´ees de diff´erentes sources (bases de donn´ees, fichiers, applications, Services Web, emails, etc.), `a leur appliquer des transformations

(jointures, lookups, d´eduplication, calculs, etc.), et `a envoyer les donn´ees esultantes vers les syst`emes cibles.

Source : wikiversity.org

Il existe plusieurs syst`eme d’int´egration de donn´ees : La m´ediation au service de l’int´egration de donn´ees d’entreprise (EII).

L’int´egration de donn´ees via les applications (EAI).

L’int´egration de donn´ees via les services Web (ESB, SOA).

L’int´egration de donn´ees en nuage (Data Cloud).

L’ETL (Extract - Transform - Load)Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(12)

Int´egration de Donn´ees

Int´ egration de donn´ ees

La m´ediation au service de l’int´egration de donn´ees d’entreprise (EII).

L’int´egration de donn´ees via les applications (EAI).

L’ETL (Extract - Transform - Load)

(13)

Int´egration de Donn´ees

EII - EAI - ETL

Source : IBM Software group

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(14)

Int´egration de Donn´ees

EII - Entreprise Information Int´ egration

D´efinition

Enterprise Information Integration (EII) est une approche d’architecture (voire d’urbanisme) permettant d’obtenir une vue unifi´ee des donn´ees informatiques de l’entreprise.

Source : Wikipedia

(15)

Int´egration de Donn´ees

EII - Caract´ eristiques

En fonction des choix retenus, l’utilisateur aura la possibilit´e de : modifier les donn´ees (et non pas seulement un acc`es en lecture seule) ;

agir en temps r´eel sur les donn´ees (et non pas en diff´er´e) ; acc´eder `a des donn´ees structur´ees ;

acc´eder `a des donn´ees coh´erentes ; acc´eder `a des services ;

remonter des informations jusque dans le mod`ele m´etier (objet) ;

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(16)

Int´egration de Donn´ees

EII

(17)

Int´egration de Donn´ees

EII

Source : IBM Software Group

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(18)

Int´egration de Donn´ees

EAI - Entreprise Application Integration

D´efinition

L’int´egration d’applications d’entreprise est une architecture intergicielle permettant `a des applications h´et´erog`enes de g´erer leurs ´echanges. On la place dans la cat´egorie des technologies informatiques d’int´egration m´etier (Business Integration) et d’urbanisation. Sa particularit´e est d’´echanger les donn´ees en pseudo temps r´eel.

Source : wikipedia

Logique de ”Bus” ou de ”Hub”

Messages

(19)

Int´egration de Donn´ees

Architecture EAI - Exemple

Source : Seralia

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(20)

Int´egration de Donn´ees

EAI

Source : IBM Software Group

(21)

Int´egration de Donn´ees

EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(22)

Int´egration de Donn´ees

ETL - Etract, Transform, Load

D´efinition

Extract-Transform-Load est connu sous le terme ETL, ou extracto-chargeur, (ou parfois : datapumping). Il s’agit d’une technologie informatique intergicielle (comprendre middleware) permettant d’effectuer des synchronisations massives d’information d’une source de donn´ees (le plus souvent une base de donn´ees) vers une autre. Selon le contexte, on est amen´e `a exploiter diff´erentes fonctions, souvent combin´ees entre elles : extraction

, transformation,constitution ou conversion,

alimentation.

(23)

Int´egration de Donn´ees

Architecture ETL

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(24)

Int´egration de Donn´ees

ETL

(25)

Int´egration de Donn´ees

ETL

Source : IBM Software Group

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(26)

Int´egration de Donn´ees

ETL/EII/EAI

(27)

Int´egration de Donn´ees

ETL/EII/EAI

Source : IBM Software Group

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(28)

Int´egration de Donn´ees

ETL/EII/EAI

(29)

Conception

1 Enum´erer les items cibles n´ecessaires au datawarehouse ;

2 Pour chaque item cible, trouver la source et l’item correspondant.

3 Si plusieurs sources sont trouv´ees, choisir la plus pertinente.

4 Si l’item cible exige des donn´ees de plusieurs sources, former des r`egles de consolidation.

5 Si l’item source referme plusieurs items cibles, d´efinir des r`egles de d´ecoupage.

6 Inspecter les sources pour des valeurs manquantes.

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

(30)

Conception

Le rapatriement des donn´ees peut se faire de trois fa¸cons diff´erentes :

Push :la logique de chargement est dans le syst`eme de production, il pousse les donn´ees vers le Staging quand il en a l’occasion.

Pull : le Pull tire les donn´ees de la source vers le Staging.

Push-Pull : La source pr´epare les donn´ees `a envoyer et pr´evient le Staging qu’elle est prˆete. Le Staging va r´ecup´erer les donn´ees. Si la source est occup´ee, le Staging fera une autre demande plus tard.

(31)

Conception

Trois types d’extraction de donn´ees : Extraction compl`ete :

Capture de l’ensemble des donn´ees disponibles

Pour le chargement initial, ou rafraichissement de donn´ees Extraction incr´ementale :

Capture des donn´ees qui ont chang´ees Extraction Temps-r´eel :

S’effectue au moment o`u les transactions surviennent dans les syst`emes sources

Ludovic DENOYER - [email protected] BI = Business Intelligence Master Data-ScienceCours 2 - ETL

Références

Documents relatifs

La boucle tant que est utilis ´ee lorsque le nombre d’it ´erations n’est pas connu `a l’avance: elle ex ´ecute le bloc d’instructions tant que la condition reste vraie.

Programme des enseignements – Syst` emes d’information et conception d’entrepˆ ots de donn´ ees – Les principes et la d´ emarche du Data Mining (fouille de donn´ ees)

Objectifs : Maˆıtriser les structures de base de l’informatique (tableaux, listes, files, piles) et les op´ erations ´ el´ ementaires sur ces structures et introduction au

J’observe toutefois (Figure 13.3) ` a la fin du mod` ele la formation d’une seconde paire de zones cisaillantes du cˆ ot´ e retro du mod` ele, ce qui laisse penser que la

Les deux nuages de points sont presque semblables ( voir figure 4.17 ). Sur l’axe 2 c’est le nuage de points de la lign ´ ee rfi- qui est plus bas que le deuxi` eme nuage de

Le seuil de satisfaction est le seuil au del` a duquel l’acteur est satisfait alors que la satisfaction est le niveau de satisfaction fi- nale de l’acteur ` a l’issue de la

On fixe une cat´ egorie C et on prend comme objets les couples (R, M ) d’une monade R sur C et d’un R-module M. Que peut-on prendre comme morphismes pour faire une cat´

Perdre ses photos de vacances : ¸ca n’a pas de