Les concepts d’entrepôt de données et de base de données

CHAPITRE 4 : QUELQUES PROPOSITIONS POUR UN SYSTEME D’INFORMATIONS

4.3. PROPOSITION D’UNE METHODOLOGIE POUR LA CONCEPTION DE SYSTEMES

4.3.1 Définitions des concepts de systèmes d’informations stratégiques

4.3.1.3 Les concepts d’entrepôt de données et de base de données

[Inmon & Hackaton, 1994] définit l’entrepôt de données de la manière suivante: « A data warehouse is a subject-oriented, integrated, time-variant and non-volatile collection of data in support of management's decision making process ».

Un entrepôt de données ou Data Warehouse est donc une base de données organisée pour répondre aux besoins spécifiques de la prise de décision. Cette base de données contient également des informations historiques sur l’activité, le fonctionnement ainsi que l’environnement de l’organisation.

L’entrepôt de données est alimenté non seulement par les bases de données dites « opérationnelles » ou bien « de production », mais aussi par des données exogènes ou externes à l’entreprise.

L’information fournie par l’entrepôt de données doit répondre à quatre exigences :

- Elle doit être thématique, c’est-à-dire relative à un thème ou un domaine

intéressant le décideur et possédant une référence temporelle ;

- Elle doit être « sûre », c’est-à-dire une information dont la qualité a été vérifiée ;

- Elle doit être facilement accessible au décideur et aux utilisateurs ;

- Enfin, elle doit être non volatile (qui n’est jamais supprimée sauf par

l’administrateur de données) du fait qu’elle est régulièrement complétée.

Le principal enjeu de l’entrepôt de données est de permettre la transformation de données brutes, contenues dans les bases de données opérationnelles, en données pertinentes ou en informations à valeur ajoutée. Cette transformation ne s’effectue pas sans poser de problèmes aussi bien niveau de l’extraction des données et de la

vérification de la qualité de ces données qu’au niveau de la personnalisation des informations délivrées.

Les données manipulées dans les systèmes décisionnels en général et dans les entrepôts de données en particulier, peuvent revêtir différentes formes ou bien se présenter sous différents états : elles peuvent être détaillées ou historisées ou agrégées ou fortement agrégées. Ces différents états sont résumés dans la Figure 22 : Etats des données dans les entrepôts de données [Ducreau, 2004] ci-dessous.

FIGURE 22:ETATS DES DONNEES DANS LES ENTREPOTS DE DONNEES [DUCREAU,2004]

Les données détaillées proviennent des bases de données opérationnelles et reflètent les événements les plus récents. Des intégrations régulières de données issues des systèmes opérationnels sont réalisées à ce niveau. C’est le cas, par exemple du montant collecté quotidiennement sur le Livret A au cours de l’année 2015 pour le Crédit agricole.

Les données historisées sont celles qui sont empilées au cours du temps. Chaque nouvelle intégration des données provenant du système opérationnel ne détruit pas les anciennes valeurs, mais créé une nouvelle occurrence de la donnée. En fait chaque donnée est référencée par rapport au temps, et donc le montant collecté sur le Livret A, dans notre exemple ci-dessus, sera muni de la date du jour. Ce qui nous permettra de connaitre les montants collectés mensuellement, par exemple.

Les données agrégées sont constituées de résultats et de synthèses d’analyses, accessibles à tous les utilisateurs, et correspondants à des éléments d’analyse représentatifs des besoins des utilisateurs du système d’informations. Ces données agrégées constituent déjà, elles-mêmes, un résultat d’analyse et une synthèse de

Niveau de synthèse Niveau d’historique Données fortement agrégées Données agrégées Données détaillées Données détaillées historisées

compréhensibles et accessibles à tous. Il s’agit, par exemple ici, du Produit Net bancaire (PNB) mensuel moyen, par trimestre, par semestre, par an et pour les trois (3) dernières années.

Enfin, les données fortement agrégées sont celles qui, en plus d’être agrégées, sont

complétées par des métas données qui explicitent les règles d’agrégation.

Etant donné le caractère particulier et surtout hétérogène des données contenues et/ou manipulées dans les systèmes d’informations stratégiques, il paraît évident que la conception de ces derniers nécessite une démarche de conception particulière et une modélisation complexe.

Les bases de données extraites des entrepôts de données sont qualifiées de bases de données multidimensionnelles car elles permettent d’observer l’organisation sous différents angles ou différentes dimensions. Il s’agit, par exemple, de l’axe temps ou bien quantité vendue de tel produit ou service, ou bien encore le chiffre d’affaires (ou PNB dans le cas d’une banque). Ce sont ces bases de données multidimensionnelles qui constituent le système d’informations stratégiques car elles ne sont constituées que de données propres à la prise de décision. Ces bases sont également dénommées bases OLAP (On Line Analytical Processing) ou « hypercubes », et peuvent être assimilées à des bases métier permettant une représentation des différentes fonctions de l’entreprise ou de l’organisation. Schéma des BDM SI de l’Entreprise Schéma de l’entrepôt relationnel Concepteurs Extraction Extraction SI-S S-IS

FIGURE 23:REPRESENTATION GRAPHIQUE DU SI-S ET DU S-IS[DAVID &THIERY,2001]

La Figure 23 : Représentation graphique du SI-S et du S-IS [David & Thiery, 2001] ci-dessus représente les deux types de système d’informations que nous avons présentés dans le paragraphe précédent, et précise la jonction réalisée entre les deux types de systèmes d’informations par l’entrepôt de données. Cette figure montre que c’est le système d’informations classique de l’entreprise qui est conçu en premier. Divers et varié, ce système d’informations comporte également des données stratégiques. Il est composé

de sources de données hétérogènes que constituent les bases de données opérationnelles ou bases de données de production de l’entreprise. De ces bases de données d’exploitation, il faut en extraire les informations nécessaires à la prise de décision ainsi que leurs structures (ou métas données) afin de constituer l’entrepôt relationnel. Enfin, les bases de données multidimensionnelles sont extraites de cet entrepôt relationnel.

Une base de données dédiée à la prise de décision et qui stocke les données sous forme de tableaux multidimensionnels peut être caractérisée de base de données multidimensionnelle. Cette structure multidimensionnelle peut être perçue comme un moyen d’analyse de la performance selon différents axes ; ce qui permet notamment :

- de définir des indicateurs correspondant à des résultats agrégés de différentes

manières,

- d’associer les indicateurs à des axes ou dimensions d’analyse. On peut ainsi

analyser le montant des crédits octroyés par la banque par exemple selon le temps, le lieu ou bien les produits,

- de construire des représentations graphiques pertinentes pour aider à la prise de

décisions.

Actuellement, les tableurs informatiques permettent déjà de répondre à ces besoins, mais seulement de manière partielle. En effet, Microsoft Excel, par exemple, qui permet des représentations graphiques de bonne qualité, se limite à des tableaux à deux dimensions, et ne permet que des analyses de données statistiques simples et ne peut être un véritable outil de fouille de données ou data mining.

Les bases de données multidimensionnelles font appel à des notions incontournables de

dimension, d’hiérarchie de dimensions, de mesure, d’hypercube et de base métier (ou data marts) qu’il convient de définir ou de préciser ici.

La dimension ou l’axe d’analyse est un indicateur voire un centre d’intérêt pour le décideur. Il s’agit, par exemple, du temps, des lieux ou des produits et services, comme indiqué sur la Figure 24 : Exemples de dimensions ci-dessous.

FIGURE 24:EXEMPLES DE DIMENSIONS Jan15 Fév15 Mar15 Avr15

Temps

Crédit Carte MRH IARD Produit

Jan15 Fév15 Mar15 Avr15 Temps

Crédit Carte MRH IARD Produit

Jan15 Fév15 Mar15 Avr15 Temps

La hiérarchie des dimensions peut être représentée par un arbre de niveaux intéressant le décideur. Il s’agit, par exemple, pour l’axe temps de la hiérarchie suivante : année, trimestre, mois, semaine, etc… Cette hiérarchie d’exploitation des données n’est pas

forcément ni toujours d’ordre sémantique ou logique. La Figure 25 : Un exemple

d'hiérarchie de dimension (le temps) ci-dessous montre un exemple de hiérarchie.

FIGURE 25:UN EXEMPLE D'HIERARCHIE DE DIMENSION (LE TEMPS)

La mesure ou le fait est une grandeur qui caractérise le domaine de la base de données multidimensionnelle par rapport aux dimensions. Concrètement, il s’agit d’une donnée que l’on peut qualifier de quantitative et qui est attachée au niveau le plus bas (à la feuille) d’une dimension. C’est, par exemple, la « quantité vendue » de tel produit, le chiffre d’affaires de tel autre produit, le PNB généré par tel service bancaire, etc.

TEMPS PRODUITS LIEU MESURES

Années Familles Réseau Quantité vendue

Trimestres Gammes Groupe d’Agences Coût

Mois Produit et service Agence

FIGURE 26:DIMENSIONS ET MESURES

La Figure 26 : Dimensions et mesures ci-dessus, exemple simple de gestion des produits, met en évidence les différentes notions évoquées précédemment, à savoir les notions de dimension (temps, produits, lieu, mesures), de hiérarchie de dimension (Réseau régional, Groupe d’Agences et Agence pour la dimension « Lieu » pour le domaine bancaire), et deux mesures que sont la quantité produite et le coût.

La notion d’hypercube permet de faire le lien entre la notion de dimension et celle de mesure. En effet, un hypercube est une structure qui permet de croiser des dimensions pour stocker des variables. L’hypercube est également appelé Base OLAP (On Line Analytical Processing) ou bien, tout simplement, Base de Données Multidimensionnelle. La Figure 27 : Exemple de vision relationnelle et multidimensionnelle d'un hypercube [Thiery, 2010] ci-dessous permet de visualiser de façon simple la différence entre les vues

Juil15 Aou15 Sep15 Oct15 Nov15 Déc15 Jan16 Fév16 Mar16

Mois

Trimestre

Année 3ème trimestre 15 4ème trimestre 15 1er trimestre 16

2016 2015

A chaque mois correspond un trimestre

relationnelle et multidimensionnelle d’un hypercube. Dans cet exemple, dans la représentation relationnelle, un point de l’hypercube correspond à un quadruplet (Date, Produit, Lieu, Quantité vendue).

Il faut préciser que la plupart du temps, les systèmes de gestion de base de données sous-jacents aux bases de données multidimensionnelles sont de type relationnel.

FIGURE 27:EXEMPLE DE VISION RELATIONNELLE ET MULTIDIMENSIONNELLE D'UN HYPERCUBE [THIERY, 2010]

Les avantages des bases de données multidimensionnelles sont nombreux car ces dernières permettent notamment :

- un « pré-calcul » des agrégats à tous les niveaux, en raison du fait que les outils d’exploitation des systèmes d’informations stratégiques (SIS) utilisent des algorithmes reposant sur des matrices creuses qui permettent de stocker puis de retrouver uniquement les résultats intéressants pour le décideur ;

- une séparation entre les données quantitatives et les éventuelles données

qualitatives ;

- une véritable souplesse dans la définition des dimensions avec tout de même la

contrainte de devoir re-générer l’hypercube pour recalculer les agrégats pré calculés en cas de rajout d’une nouvelle dimension ;

- une « navigation » facile et aisée au sein des données contenues dans cette base

multidimensionnelle. On parle ici de « data surfing », c’est-à-dire de la possibilité pour le décideur de naviguer de façon ergonomique et intuitive dans le modèle multidimensionnel.

Dans le document Dans quelle mesure une démarche d'intelligence économique permettrait-elle une réduction du risque de crédit bancaire ? (Page 161-166)