• Aucun résultat trouvé

L’ANALYSE DE DONNEES SELECTIONNEES

5. EXPLOITATION DE DONNEES DU DW

5.2 L’ANALYSE DE DONNEES SELECTIONNEES

Pour exploiter les données entreposées, nous avons plusieurs outils d’analyse, de visualisation et de découverte des données. Parmi ces outils, on cite :

5.2.1 Les requêteurs

Le requêteur sera idéal pour les données qualitatives et pour toute analyse impromptue nécessitant l'autonomie de l'utilisateur (cas rencontré fréquemment pour le marketing ou la gestion du personnel).

5.2.2 L’analyse multidimensionnelle OLAP

Les outils OLAP (On Line Analytical Process) reposent sur une base de données multidimensionnelle, destinée à exploiter rapidement les dimensions d'une population de données en utilisant le cube de données.

Deux versions d'OLAP existent actuellement. Les outils MOLAP (Multidimensionnel OLAP) d'une part qui s'appuient sur une base de données multidimensionnelle et les outils ROLAP

Data Warehouse d’une « Entreprise Commerciale » Datamart Vente Produit T em ps Produit T em ps Produit T em ps Cube Vente T em ps Produit Client Espace de Stockage

(Relationnel OLAP) d'autre part, qui représente leur équivalent sur une base de données relationnelle.

A. Les outils « MOLAP »

MOLAP est conçue exclusivement pour l'analyse multidimensionnelle, avec un mode de stockage optimisé par rapport aux chemins d'accès prédéfinis. Ainsi, toute valeur d'indicateur associée à l'axe temps sera pré-calculée au chargement pour toutes ses valeurs hebdomadaires, mensuelles,...

En effet, MOLAP repose sur un moteur spécialisé, qui stocke les données dans un format tabulaire propriétaire (cube). Pour accéder aux données de ce cube, on ne peut pas utiliser le langage de requête standard SQL, il faut utiliser une API spécifique.

Le marché des bases MOLAP étant plus réduit, il est plus difficile pour les éditeurs qui le représentent d'investir sur de telles évolutions.

Figure 26 : Architecture d’un produit MOLAP.

B. Les outils ROLAP

Les outils ROLAP superposent au dessus des SGBD/R bidimensionnels un modèle qui représente les données dans un format multidimensionnel. Ces produits diminuent sensiblement le coût lié à la mise en œuvre d'un serveur de base de données multidimensionnelle supplémentaire. Au travers des méta-données, ils permettent de transformer l’analyse multidimensionnelle demandée par l’utilisateur en requêtes SQL. Pour cela, ces outils s’appuient pour la plupart sur une modélisation particulière des données, distinguant les axes d’analyse et les faits à observer. On parlera notamment de modèle en étoile et de modèle en floconou encore des techniques de définition physique d'agrégations. Ceci nous oblige à définir le modèle en fonction de l’outil à utiliser et des analyses à mener. Mais, le ROLAP est un gage de performance et de cohérence lors de l’utilisation de ce type de produits.

Data Warehouse Moteur MOLAP Aide à la décision

Données Traitements Présentation

Rapports Multi-Dimensionnel Stockage des

données détaillées (et agrégées)

Cette contrainte exige un travail important des équipes informatiques et donc enlève beaucoup à l'intérêt d'utiliser un SGBD Relationnel comme support de stockage pour l'analyse multidimensionnelle.

Figure 27 : Architecture d’un produit ROLAP.

C. Méthodes de navigation d’OLAP

Une fois cette structure multidimensionnelle établie, l'outil OLAP propose des méthodes de navigation dans les données, comme le "Drill-down" pour aller vers les informations détaillées dans une hiérarchie, le "Slice and dice" pour changer d'axe d'analyse.

C.1 Drill-down, Drill-up

Ce mécanisme est totalement basé sur la notion de hiérarchie. Chacun des axes d’analyse se décompose en attributs reliés entre eux par des relations père/fils. Une dimension doit normalement pouvoir comporter plusieurs hiérarchies. Par exemple, la dimension " produits " peut contenir une hiérarchie " Marque-Article " et une hiérarchie « Secteur-Segment-Article ».

Figure 28 : Drill-down et Drill-up (Rollup).

Data Warehouse Moteur ROLAP Aide à la décision

Données Traitements Présentation

Rapports Multi-Dimensionnel Génération de plans

d'exécution SQL afin d'obtenir des fonctionnalités OLAP. Stockage des

données détaillées (et agrégées) et des méta-données

C.2 Rotation : CUBE

Cette méthode de navigation permet de représenter les données d’un CUBE selon les dimensions qui nous s’intéresse pour l’analyse.

Figure 29 : Rotation du CUBE.

C.3 Slice and dice

Cette méthode consiste à filtrer une dimension selon une valeur ou une plage de valeurs afin de retenir et de se concentrer sur l’analyse d’une partie de données.

Si on ne s’intéresse que pour les ventes durant l’année 1996, on fait une coupe du cube de telle sorte qu’on ne trouve dans la dimension temps que l’année 1996 (figure 29).

Figure 30 : Coupe du cube (Slice and dice).

Si on ne s’intéresse que pour les ventes du produit liquide, on fait une coupe du cube de tel sorte qu’on ne choisi que les produits liquides de la dimension Produit.

1995 1996 1997 Frais NordPdc 220 265 284 Idf 225 245 240 Liquide NordPdc 163 152 145 Idf 187 174 184 1996 Frais NordPdc 265 Idf 245 Liquide NordPdc 152 Idf 174 Produit Région Temps

C.4 Data Surfing

Le data surfing est la possibilité laissée à l’utilisateur de circuler librement, de manière intuitive et ergonomique dans un modèle dimensionnel, au delà d’un simple « Drill-down / Drill- up» ou « Slice and dice ». L’utilisateur peut alors modifier dynamiquement ses axes d’analyse ou appliquer un nouveau filtre à ses données.

5.2.3 Les tableaux de bord & Reporting

Simple visualisation des données, les outils de visualisation sont très importants dans le processus de décision et peuvent intervenir à plusieurs niveaux. Ils sont utiles pour :

- découvrir de nouvelles informations, parce qu’une représentation permet de repérer plus simplement des anomalies. Dans ce cas, ils sont intégrés dans les outils d’analyse et doivent supporter des opérations comme comparer, modifier les échelles, …

- présenter des résultats, parce qu’un graphique est plus accessible qu’un tableau de chiffres ;

5.2.4 Le data mining: (Méthodes d’analyse basées sur la découverte).

Nous avons beaucoup de définition du Data Mining, parmi ces définitions on cite:

- Fouille de données historisées pour rechercher des règles d'évolution, de comportement,… - Analyse et compréhension du passé pour la prédiction du futur.

- Exploration et analyse, par des moyens automatiques ou semi-automatiques, d’une masse

importante de données dans le but de découvrir des tendances cachées ou des règles significatives.

- Un ensemble de techniques permettant d’extraire des modèles d’une base de données

historisées afin de décrire le comportement actuel et/ou de prédire le comportement futur d’un procédé. Le Data Mining, en français la Fouille de données ou exploration de données se fait donc sur un ensemble de techniques d’extraction de connaissances appliquées aux bases de données. L’extraction s’opère par induction, c’est-à-dire que l’on généralise un peu abusivement les données afin de découvrir des propriétés générales, souvent quantifiées par des statistiques.

Les connaissances sont exprimées sous forme des modèles présentés à l’utilisateur pour examen (Figure 30). Les modèles peuvent être des modèles de calculs (des équations) ou des modèles logiques (règles d’induction et de déduction).

Figure 31 : Le processus de Data Mining.