• Aucun résultat trouvé

Chapitre 3 : Les entrepôts de données (Datawarehouses)

2. Principe général

Un entrepôt de données répond aux problèmes de données surabondantes et localisées sur de multiples systèmes hétérogènes, c’est une architecture capable de servir de fondation aux applications décisionnelles. Pour être exploitables, toutes les données provenant des systèmes distribués doivent être organisées, coordonnées, intégrées et enfin stockées pour donner à l’utilisateur une vue globale des informations.

Il offre aux utilisateurs (décideurs) un accès rapide aux données et informations essentielles afin d'optimiser la prise de décisions. Un entrepôt peut être assimilé à un ensemble de vues matérialisées qui suppose une certaine anticipation des besoins des utilisateurs. Les requêtes sont traitées non pas au niveau des sources d’information mais au niveau de l’entrepôt de données. La conception d'un entrepôt de données pose plusieurs problèmes: d'abord la localisation des sources d'informations pertinentes, ensuite l'intégration des données qui demandent la connaissance des systèmes sources pour résoudre les conflits, et enfin l’extensibilité vers de nouvelles sources.

2.1 Définition d’un entrepôt de données

De nombreuses définitions ont été proposées, soit académiques, soit par des éditeurs d’outils, de bases de données ou par des constructeurs, cherchant à orienter ces définitions dans un sens mettant en valeur leur produit.

Chapitre 3 : Les entrepôts de données (Datawarehouse)

La définition la plus appropriée est : Définition :

[INMON et al 1994] définit un entrepôt de données (datawarehouse) comme une collection de données et d’informations intégrées, orientées sujet, non volatiles et historisées.

Cette collection est destinée à être utilisée dans le processus d’aide à la décision. Les utilisateurs interrogent les données à des fins d’analyse en se basant sur des données historisées, agrégées ou résumées [INMON et al 1994] [Doucet et al 2001]. Ces données peuvent provenir de différentes sources et sont regroupées dans une base unique conçue pour des analystes et des décideurs. 2.2 Approche entrepôt de données

La démarche consiste à voir cette intégration comme la construction de bases de données réelles, appelées entrepôt de données, regroupant les informations pertinentes pour les applications considérées [Gardarin 2001]. L'utilisateur pose alors ses requêtes ou lance un traitement directement sur les données stockées dans l’entrepôt. Les problèmes posés par sa construction à partir de plusieurs bases de données spécialisées concernent, la définition de son schéma, son peuplement et sa mise à jour, en fonction des différentes sources d'information à partir desquelles il est construit. La figure 3.1 illustre l’architecture générale d’un tel système.

Requête

Figure 3.1: Architecture d'un entrepôt de données Les composants de cette architecture sont:

Intégrateur

Moniteur/Adaptateur Moniteur/Adaptateur

Source Source

Chapitre 3 : Les entrepôts de données (Datawarehouse)

● Les sources

Les données de l’entrepôt sont extraites de diverses sources souvent réparties et hétérogènes, et doivent être transformées avant leur stockage dans l’entrepôt. Nous avons deux types de sources des données : internes et externes à l’organisation.

Internes : La plupart des données sont saisies à partir des différents systèmes de production qui rassemblent les divers SGBD opérationnels, ainsi que des anciens systèmes de production qui contiennent des données encore exploitées par l’entreprise.

Externes : Ils représentent des données externes à l’entreprise et qui sont souvent achetées. Par exemple, les sources de données démographiques.

● Le moniteur de source

C'est un composant capable de détecter les mises à jours effectuées sur la source et de repérer les donnés à envoyer à l’entrepôt de données.

● L'adaptateur de source

Afin de préparer l'intégration des données dans l’entrepôt de données, il est nécessaire de convertir les données à envoyer dans un format plus ou moins commun. Pour ce faire, le moniteur doit être complété par un adaptateur capable de transformer les mises à jour, les questions et les réponses associées dans le modèle de l’entrepôt.

● L’intégrateur

Avant d'être déversées dans l'entrepôt, les données en provenance de sources multiples doivent être intégrées. Cette fonction est dévolue à l’intégrateur.

● L’entrepôt de données

Le support de destination des données est l’entrepôt de données. Il s’agit d’une base de données dont la structure dimensionnelle permet de faciliter le stockage et la disposition des informations afin de les analyser ultérieurement. Il existe plusieurs types de données dans un entrepôt, qui correspondent à diverses utilisations, comme :

• Données de détail courantes : Ce sont l’ensemble des données quotidiennes et plus couramment utilisées. Ces données sont généralement stockées sur le disque pour avoir un accès rapide. Par exemple, le détail des ventes de l’année en cours, dans les différents magasins.

• Données de détail anciennes : Ce sont des données quotidiennes concernant des événements passés, comme par exemple le détail des ventes des deux dernières années. Nous les utilisons pour arriver à l’analyse des tendances ou des requêtes prévisionnelles.

Chapitre 3 : Les entrepôts de données (Datawarehouse)

Néanmoins ces données sont plus rarement utilisées que les précédentes, et elles sont souvent stockées sur des mémoires d’archives.

• Données résumées ou agrégées : Ce sont des données moins détaillées que les deux premières et elles permettent de réduire le volume des données à stocker. Le type de données, en fonction de leur niveau de détail, permet de les classifier comme des données légèrement ou fortement résumées. Par exemple, les ventes mensuelles par magasin des dix dernières années sont des données faiblement résumées, tandis que les ventes semestrielles, par région, des dix dernières années sont fortement résumées.

• Les métadonnées : Ce sont des données essentielles pour parvenir à une exploitation efficace du contenu d’un entrepôt. Elles représentent des informations nécessaires à l’accès et l’exploitation des données dans l’entrepôt comme : la sémantique (leur signification), l’origine (leur provenance), les règles d’agrégation (leur périmètre), le stockage (leur format, par exemple : francs, euro,...) et finalement l’utilisation (par quels programmes sont-elles utilisées).

Documents relatifs