Conception d‟un entrepôt de données - Cycle de vie d‟un entrepôt de données

2. Les Entrepôts de Données

2.8 Cycle de vie d‟un entrepôt de données

2.8.1 Conception d‟un entrepôt de données

Même s‟il n‟existe actuellement aucun consensus sur une méthode de conception précise, la plupart des travaux s‟accordent à distinguer les étapes suivantes pour la conception d‟un ED : analyse des besoins, modélisation conceptuelle, modélisation logique, processus ETL et modélisation physique.

2.8.1.1 Analyse des besoins

L‟analyse des besoins joue un rôle clé dans tout projet logiciel en permettant de réduire significativement le risque d‟échec du projet [9]. L‟ingénierie des besoins a été définie comme le processus de développement des besoins selon un processus itératif et coopératif d‟analyse du problème, de documentation des observations résultantes dans divers formats de représentation et de vérification des résultats obtenus [10]. La spécification des besoins d‟un projet d‟entrepôt de données permet de déterminer quelles seront les différentes fonctions de l‟entrepôt ainsi que l‟ensemble des informations requises que ce dernier doit couvrir (quelles sont les données qui doivent être accessibles, comment ces données sont transformées, organisées, calculées et agrégées) [11][12]. Deux méthodes sont utilisées pour collecter les besoins : une collecte orientée source et une collecte orientée utilisateur. Une approche orientée source se limite à identifier les besoins de l‟ED à partir de l‟ensemble des données disponibles au niveau des sources. La collecte orientée utilisateurs identifie les besoins des utilisateurs et décideurs de l‟entreprise et présente l‟avantage principal de se concentrer à fournir un modèle répondant à ce qui est exigé plutôt que ce qui est disponible. Un ED, par essence, doit être construit à partir des sources de données. Une collecte orientée sources est par conséquent indispensable. Les besoins utilisateurs n‟ont cependant pas toujours été considérés lors du développement des EDs. Ce sont généralement les travaux récents qui prennent en compte les besoins utilisateurs. Même si les méthodologies de développement d‟un ED diffèrent généralement, elles reconnaissent de plus en plus la nécessité d‟identifier et de modéliser les besoins des utilisateurs [13].

La modélisation des besoins (collectés à partir des sources et/ou des utilisateurs) passe par les activités suivantes [14] : La collecte des besoins, l‟analyse des besoins, la validation des besoins et la modélisation des besoins.

 La collecte des besoins consiste à collecter les besoins souvent selon des approches itératives. La collecte à partir des sources passe par une analyse détaillée des sources

de données. la collecte orientée utilisateur passe par des techniques de réunions, d‟étude de la documentation existante, d‟interviews et de brainstorming. Ces besoins sont ensuite documentés (généralement de manière informelle). La collecte a pour but de comprendre le domaine qui devra être modélisé.

 L’analyse des besoins consiste à étudier les besoins collectés, où des modèles initiaux peuvent être construits.

 La validation des besoins consiste à valider les modèles initiaux construits lors de l‟analyse des besoins, avec les utilisateurs ainsi qu‟avec les sources de données existantes. L‟entrepôt est ainsi construit de manière itérative, ce qui garantit selon [14] un développement rapide. L‟expérience a montré que même après implémentation de l‟entrepôt de données, un retour vers la phase d‟identification des besoins est possible. L‟utilisation et la maintenance du modèle de données est effectué continuellement durant tout le cycle de vie de l‟entrepôt.

Les travaux sur l‟analyse des besoins en ED restent assez limités. Certains travaux suggèrent l‟utilisation des techniques utilisés pour l‟analyse des besoins en BD, d‟autres estiment qu‟il faut des méthodes adaptées aux spécificités des EDs. On retrouve quelques travaux portant sur des méthodologies présentant des directives générales permettant de mener à bien l‟analyse des besoins dans un projet d‟ED. Nous présentons deux travaux (Rilston et

al., Winter et al.) souvent référencés : Rilston [15] proposent une méthodologie comprenant quatre phases :

 Phase d‟initialisation qui consiste à identifier les utilisateurs cibles ainsi que le type d‟application d‟analyse le plus dominant ce qui permettra de choisir les modèles de données à utiliser, les sources de données pertinentes et les processus de décisions devant être considérés.

 Une deuxième phase d‟analyse des sources de données existantes et les rapports utilisés régulièrement par les utilisateurs, et à développer des schémas de données agrégés.

 Une troisième phase qui consiste à établir des priorités entre les besoins en informations.

Chapitre 2 : Les Entrepôts de Données

 Une quatrième phase consistant à concevoir un modèle des besoins initiaux servant de base au modèle conceptuel.

Winter [16] proposent également une méthodologie comprenant quatre phases :

 Planning de gestion des besoins consiste à définir les objectifs du projet par les utilisateurs et les concepteurs, définir les règles d‟intégration des sources de données et à établir un planning de gestion des besoins du projet (contraintes de temps, délimiter les frontières du projet…).

 Spécification des besoins s‟effectue par un processus itératif d‟acquisition, représentation et validation des besoins. La spécification s‟effectue à travers plusieurs (sous) processus en plusieurs itérations en utilisant un modèle en spirale, où chaque itération produit un ensemble de spécifications plus raffiné.

 Validation des besoins par l‟équipe de développement, les utilisateurs, et les experts du domaine. L‟équipe de validation attache une liste d‟actions à chaque problème identifié et des retours arrière vers les phases précédentes peuvent être envisagés.

 Suivi et gestion de l’évolution des besoins la gestion doit être effectuée à deux niveaux : une gestion de l‟évolution des besoins utilisateurs, et une gestion de l‟évolution de l‟architecture des bases de données sources afin d‟étudier l‟impact d‟éventuels changements sur les modèles suivants (conceptuels, logiques et physiques).

2.8.1.2 Modélisation conceptuelle

Cette étape consiste à établir une méthode permettant de définir le schéma conceptuel d‟un entrepôt, annoté par les concepts multidimensionnels (faits, mesures et dimensions). Le but de cette modélisation est de fournir une représentation abstraite de la situation en cours d‟étude indépendamment de tout logiciel technique. Un modèle conceptuel est caractérisé par le domaine concerné, le formalisme utilisé pour modéliser le schéma conceptuel, et le point de vue correspondant aux besoins des utilisateurs [17]. Le modèle conceptuel obtenu doit se conformer à la modélisation multidimensionnelle adaptée aux modèles d‟EDs permettant d‟organiser les données entreposées de manière à faciliter leur analyse décisionnelle.

34 2.8.1.3 Modélisation logique

Cette étape consiste à dériver le schéma logique de l‟entrepôt à partir de son schéma conceptuel, et à l‟adapter aux particularités du serveur de l‟entrepôt choisi (ROLAP, MOLAP ou HOLAP). Ce passage implique la gestion de certains aspects techniques comme la fragmentation des dimensions en hiérarchies, la gestion de l‟agrégation des données, la gestion des dimensions génériques1 et des mesures non additives2.

2.8.1.4 Processus ETL (Extract-Transform-Load)

Cette étape consiste à effectuer les transformations nécessaires au chargement des données des sources au niveau du schéma logique de l‟entrepôt. Ceci se fait en trois étapes [18] :

 Extraction : consiste à récupérer les données à partir des systèmes sources. Cette étape nécessite de gérer la synchronisation des processus d‟extraction afin d‟assurer l‟intégrité des données chargées.

 Transformation : consiste en une série de règles permettant le formatage des données extraites selon le schéma cible de l‟entrepôt, comme par exemple assigner de la sémantique aux données sources et associer les champs sources aux champs cibles.

 Chargement : permet l‟alimentation de l‟entrepôt par les données en respectant les contraintes du SGBD cible. Cette étape doit être validée afin de détecter et corriger toute erreur ayant survenue durant le chargement.

2.8.1.5 Modélisation physique

Cette étape consiste à implémenter physiquement le schéma de l‟entrepôt, et à spécifier les techniques et schémas d‟optimisation de l‟entrepôt. Les techniques d‟optimisation peuvent être [7] :

 Les vues matérialisées : une vue matérialisée est une table contenant les résultats d‟une requête.

 Les techniques d’indexation : représentées par des structures permettant d'associer à une clé d‟un n-uplet l'adresse relative de ce n-uplet. Plusieurs types d‟index ont été proposés, on distingue les index définis sur une seule table ou vue (index en B-arbre,

Chapitre 2 : Les Entrepôts de Données

index de hachage et index bitmap) et les index de jointures définis sur plusieurs tables dans un schéma en étoile.

 La fragmentation : technique consistant à partitionner le schéma d‟une base en plusieurs sous schémas pour réduire le temps d‟exécution des requêtes. On distingue la fragmentation horizontale (en fonction des tuples) de la fragmentation verticale (en fonction des attributs).

Dans le document Optimisation automatique des performances dans les entrepôts de données : étude comparative (Page 40-44)