• Aucun résultat trouvé

Entrepôts de données

N/A
N/A
Protected

Academic year: 2022

Partager "Entrepôts de données"

Copied!
19
0
0

Texte intégral

(1)

D. Boukraâ – 2020/2021. Université de Jijel

Entrepôts de données

(2)

Chapitre 3 : Intégration de

données et processus ETL

(3)
(4)

Principe d'intégration de données :

Sources hétérogènes (différentes) → homogénéiser

Anomalies, Erreurs, Valeurs Manquantes → Corriger, Compléter

Processus continu :

Chargement initial

Rafraîchissement périodique

Intégration logique ou physique :

Physique : Architecture réelle

Logique : Architecture virtuelle

(5)

tables, informations sur les colonnes, etc)

Dans les ED : données sur les composants d'ED, sur les sources, sur le processus, etc.

Rôles des métadonnées

Permettre d'automatiser (certains) composants d'entreposage (dont l'ETC)

Assurer les liens entre sources et ED

(6)

Type des Métadonnées

Sources de données : noms, liens, propriétés…

Modèle d'ED : serveurs, bases de données, tables

Mapping source-ED : liens, transformations,

Outils d'intégration (ETL) : nom, période de rafraîchissement...

Architecture de l'ED (ED, Data Marts, …)

Règles et stratégies : indicateurs de performances, formules de calcul

Règles de sécurité: qui accède à quoi?

(7)

Exemples: méta données au niveau table

Table ED Colonne Table Source

Colonne source

Observation Produit Réference produit1 Code produit

produit2 Num Produit Nom produit Produit1 Nom

Prix unitaire Produit2 Prix Avec

décimales dans l'ED

(8)

Métadonnées

Exemples : méta donnée d'une colonne de table d'ED

Nom de colonne Réf_produit

Caption Référence

Type de données Number

Type d'index B Tree

Clé ? Oui

Format NNNNNNN

Description La référence d'un produit

(9)

Exemples : méta donnée d'une table d'ED

Nom de table D_Produit

Caption Produit

Description La tables de produits Option de clés Artificielle, avec

vesionnement Source

...

(10)

Schéma d'intégration

Dans la pratique, l'intégration des données passe par un schéma d'intégration

La base de données d'intégration (Operational Data Source) est différente des sources et de l'entrepôt

Opérationnels séparés

Opérationnel intégré

Entrepôt

(11)

stocker les données d’intégration avant de les charger.

Exemple:

Source 1: vente_nord (num_vente, montant)

Source 2: vente_sud (numero_vente, volume)

Entrepot: ventes (no_ventes: montant, id_région) region (id_region, designation_region)

(12)

Extraction

Extraire les données (nouvelles ou changées) à partir des sources.

Utilise les métadonnées (liens entre les tables de l’entrepôt et les tables sources)

Deux phases d’extraction :

Découverte de données

Correction d'anomalies

(13)

Découverte de données

Documentation des systèmes sources si elle existe.

Découvrir les point origine des données (source dans laquelle la données est enregistrée la première fois).

(14)

Extraction

Détection des anomalies

Valeurs nulles : surtout dans les clés étrangères

Mauvais types de données : dates dans des champs non dates, numérique dans des

champs non numériques, etc...

Incohérence → différents types de données, différentes longueurs, différentes

contraintes...

(15)

Valeurs nulles : remplir, assimiler à des valeurs (ex : NVL), se baser sur les

probabilités, …

Mauvais types de données : choisir le type de données le plus adéquat...

Incohérence → unifier les types de données, les longueurs, les contraintes...

(16)

Chargement

Chargement initial

Chargement incrémental

Chargement initial

Une seule fois

Consomme du temps (grand volume de données à charger)

Désactiver les contraintes d'intégrité pour

Accélérer l'alimentation

Paralléliser l'alimentation

Générer les clés artificielles

(17)

ou

À des intervalles périodiques

Que les données ayant changé

Types de changement

Ajout d'enregistrements, suppression d'enregistrement → détection facile par comparaison

Modification d'enregistrement (valeur d'attributs)

→ nécessite de détecter les changements

(18)

Chargement incrémental

Détection des changements

Comparaison colonne par colonne → coûteuse

Audit des colonnes : pour chaque colonnes, date de dernières modification

CRC : cyclic redundancy check de chaque enregistrement → moins coûteux

(19)

Quand détecter les changements?

Méthode PUSH : à chaque fois que le changement se produit, on répercute les changement → utilisation de déclencheurs (triggers)

Méthode PULL : on interroge à des intervalles

périodiques les fichiers log des CRC pour détecter les changements et on les répercute dans l'ED (dans des périodes d'inactivité des sources et de l'ED).

Références

Documents relatifs

Pour dimensionner la colonne on prendra comme hypothèse que la colonne travaille à charge pleine (3t) 100% du temps. Les liaisons sont supposées parfaites. On fera l’hypothèse que

création graphique : direction mutualisée de la communication de chambéry et grand chambéry- tc-création graphique : direction mutualisée de la communication de chambéry et

- 1 : défauts réversibles : l’arbre peut naturellement cicatriser ou le défaut peut facilement être éliminé par intervention humaine (enlèvement du bois mort).. - 2 :

L'utilisation de pièces non autorisées ou le non-respect des instructions d'entretien peut créer un risque de choc électrique ou de blessure.. Certains produits

Avec les n j cases marqu´ ees en colonne j, on peut former n j (n j − 1)/2 paires de cases ou de lignes ; aucune de ces paires de lignes ne doit se reproduire dans une autre

Pour les dérivations de branchement à puissance surveillée, le CCPI doit être à proximité immédiate du distributeur à courant assigné 400 A ou à l’origine de la

(2014) ont cultivé les deux souches dans un chémostat contenant un milieu de culture favorable pour le développement de ces dernières.. Les auteurs n’ont détecté aucune

P) Les ailes d’oiseau (destinées à vaincre la tonicité des pectoraux, et à permettre la bascule des épaules en arrière). La figure 3 montre, vue de dessus, l’amplitude