Entreposage et Fouille de données

(1)

ENTREPOSAGE

ET FOUILLE DE DONNÉES

Kabore Kiswendsida K

(2)

Avant propos

L’Université virtuelle africaine (UVA) est fier de participer à l’amélioration de l’accès à l’éducation dans les pays africains à travers la production de matériel didactique de qualité.

Nous sommes également fiers de contribuer aux connaissances mondiales comme nos ressources pédagogiques sont pour la plupart accessibles de l’extérieur du continent africain.

Ce module a été développé dans le cadre d’un programme à un diplôme en informatique appliquée, en collaboration avec 18 institutions partenaires africaines de 16 pays. Un total de 156 modules ont été élaborés pour assurer la disponibilité ou traduit en anglais, français et

portugais. Ces modules ont également été mis à disposition en tant que ressources éducatives libres (REL) sur oer.avu.org.

Au nom de l’Université virtuelle africaine et notre patron, nos institutions partenaires, la Banque africaine de développement, je vous invite à utiliser ce module dans votre établissement, pour votre propre formation, de partager le plus largement possible et à participer activement à l’avu les communautés de pratique de votre intérêt. Nous nous engageons à être en première ligne de l’élaboration et le partage de ressources éducatives libres.

L’Université virtuelle africaine (UVA) est une organisation intergouvernementale

panafricaine créée par la location avec le mandat d’accroître sensiblement l’accès à un enseignement supérieur de qualité et de formation à l’aide de l’information technologies de la communication. Une Charte, l’établissement de l’avu en tant qu’organisation

intergouvernementale, a été signé ce jour par dix-neuf (19) Les gouvernements africains - le Kenya, le Sénégal, la Mauritanie, le Mali, la Côte d’Ivoire, Tanzanie, Mozambique, République démocratique du Congo, Bénin, Ghana, République de Guinée, Burkina Faso, Niger, Soudan du Sud, Soudan, l’Éthiopie, la Gambie, la Guinée-Bissau et le Cap-Vert.

Les institutions suivantes ont participé au programme d’informatique appliquée : (1) Université d’Abomey Calavi au Bénin ; (2) Université de Ougagadougou au Burkina Faso ; (3) l’Université Lumière de Bujumbura au Burundi ; (4) l’Université de Douala au Cameroun ; (5) Université de Nouakchott en Mauritanie ; (6) l’Université Gaston Berger au Sénégal ; (7) Université des Sciences, des Techniques et technologies de Bamako au Mali (8) Ghana Institute of Management and Public Administration ; (9) Université des Sciences et Technologies de Kwame Nkrumah au Ghana ; (10) l’Université Kenyatta au Kenya ; (11) l’Université d’Egerton au Kenya ; (12) l’Université d’Addis Abeba en Ethiopie (13) Université du Rwanda (14) ; Université de Dar es Salaam en Tanzanie ; (15) l’Université Abdou Moumouni de Niamey au Niger ; (16) l’Université Cheikh Anta Diop de Sénégal ; (17) Universidade Pedagógica au Mozambique ; et (18) l’Université de la Gambie en Gambie.

Bakary Diallo, Recteur de l’

Université virtuelle africaine

(3)

Crédits de production

Auteur

Kabore Kiswendsida K

Pair Réviseur

Dr. Cherif Diallo

UVA – Coordination Académique

Dr. Marilena Cabral

Coordinateur global Sciences Informatiques Apliquées

Prof Tim Mwololo Waema

Coordinateur du module

Robert Oboko

Concepteurs pédagogiques

Elizabeth Mbasu Benta Ochola Diana Tuel

Equipe Média

Sidney McGregor Michal Abigael Koyier

Barry Savala Mercy Tabi Ojwang

Edwin Kiprono Josiah Mutsogu

Kelvin Muriithi Kefa Murimi

Victor Oluoch Otieno Gerisson Mulongo

(4)

Droits d’auteur

Ce document est publié dans les conditions de la Creative Commons Http://fr.wikipedia.org/wiki/Creative_Commons

Attribution http://creativecommons.org/licenses/by/2.5/

Le gabarit est copyright African Virtual University sous licence Creative Commons Attribution- ShareAlike 4.0 International License. CC-BY, SA

Supporté par

Projet Multinational II de l’UVA financé par la Banque africaine de développement.

(5)

Table des matières

Avant propos 2

Crédits de production 3

Droits d’auteur 4

Supporté par 4

Aperçu du cours 8

Bienvenue à Entreposage et fouille de données . . . . 8

Prérequis . . . . 8

Matériaux . . . . 8

Objectifs du cours . . . . 9

Unités . . . . 9

Évaluation . . . . 10

Lectures et autres ressources . . . . 10

Unité 1.Introduction à l’entreposage et à la fouille de données 14

Introduction à l’unité . . . . 14

Objectifs de l’unité . . . . 17

Activités d’apprentissage . . . . 18

Activité 1: Caractéristiques des entrepôts de données . . . . 18

Introduction 18 Termes clés . . . . 18

Unité 2. Architecture d’un entrepôt de données 23

Termes clés . . . . 23

Activité 1: Architecture de l’entrepôt de données . . . . 24

Introduction 24

(6)

Unité 3. Modèle d’entrepôt de données 30

Termes clés . . . . 30

Activité 1: Modèle multidimensionnel (Cube) . . . . 31

Introduction 31 Évaluation . . . . 40

Unité 4. Association minière 41

Termes clés . . . . 42

Activité 1: Fréquent Association minière . . . . 42

Unité 5. Classification 45

Termes clés . . . . 46

Activité 1: Comment fonctionne la classification Works? . . . . 46

Unité 6. Analyse des clusters (clustering) 51

Termes clés . . . . 52

(7)

Introduction 52

Unité 7. Résultat d’exploitation de données / évaluation du modèle 55

Termes clés . . . . 55

Activité 1: Approches d’évaluation objective . . . . 56

Introduction 56 Références du cours . . . . 58

(8)

Aperçu du cours

Bienvenue à Entreposage et fouille de données

zL’entreposage et la fouille des données est l’aboutissement des avancées liées aux Bases de Données et à l’Intelligence Artificielle au sens de l’apprentissage. C’est une discipline émergente mais à fort potentiel pour les entreprises à cheval entre les mathématiques/

statistiques et l’informatique.

Ce cours a pour objets de :

• Enseigner les domaines d’applicabilité des entrepôts et de la fouille de données en comparaison avec les bases de données transactionnelles ;

• Informer du lieu, du rôle et de l’importance des entrepôts et de la fouille de données dans les systèmes de gestion des informations ;

• Initier les étudiants aux concepts de base de la théorie, de la conception et de la mise en œuvre de l’entreposage des données.

• Présenter les problèmes liés à l’analyse de projet, au processus de conception de projet, à la mise en œuvre et à l’exploitation des entrepôts de données ainsi qu’aux systèmes d’information analytiques ou de compte rendu basés sur les entrepôts de données.

• Initier les étudiants aux différents outils théoriques de la fouille de données. A travers les aspects nous nous concentrerons sur l’aspect algorithmique et logiciel, ainsi que leur utilisation

Prérequis

Principe des systèmes de Bases de données.

Matériaux

Les matériaux nécessaires pour compléter ce cours comprennent les :

• Ordinateurs portables ou Smartphones

• Une connexion à internet pour l’accès aux ressources Web.

Les matériaux conseillés pour compléter ce cours comprennent:

En Français :

• Ph. PREUX, Fouille de données Notes de cours, 26 mai 2011, Université de Lille 3 Disponible sur http://www.grappa.univ-lille3.fr/~ppreux/fouille , (consulté le 20-02-2016).

(9)

• Laetitia. Jourdan , Du Datawarehouse au Datamining Cours d’aide à la décision :, Disponible sur: http://www.lifl.fr/~jourdan/FDD/Cours/Coursm1fdd.pdf, (consulté le 20-02-2016).

• Jean Lieber, Adrien Coulet , Amedeo Napoli, Fouille de données : notes de cours 05/10/2007, Disponible sur: http://www.loria.fr/~coulet/material/fdd_cours.

pdf, (consulté le 20-02-2016) En Anglais :

• DATA WAREHOUSING FUNDAMENTALS, PAULRAJ PONNIAH 2001, John Wiley

& sons

• Data Mining , 3nd ed., Jiawei Han, Micheline Kamer and Jian Pei, 2011 , Morgan Kaufmann

Objectifs du cours

À la fin de ce cours, vous serez capable de :

• sera en mesure de choisir le type de base de données adapté au domaine de fonctionnalité du système de gestion informatisée désigné ;

• aura la capacité de préparer une étude de faisabilité pour la conception des systèmes d’information utilisant les entrepôts de données ;

• pourra participer de manière active à la conception des équipes et à la

présentation des entrepôts de données et des systèmes d’information en utilisant les entrepôts de données ;

• présenter les problèmes liés à l’analyse de projet, au processus de conception de projet, à la mise en œuvre et à l’exploitation des entrepôts de données ainsi qu’aux systèmes d’information analytiques ou de compte rendu basés sur les entrepôts de données ;

• pourra utiliser différents outils théoriques de la fouille de données, à travers à travers les algorithmes et les logiciels de fouilles.

Unités

Unité 1: Introduction à l’entreposage et à la fouille de données

Cette unité présente les domaines d ‘applicabilité des entrepôts et de la fouille de données en comparaison avec les bases de données transactionnelles. Elle informe du lieu, du rôle et de l’importance des entrepôts et de la fouille de données dans les systèmes de gestion des informations.

Unité 2: Architecture des Entrepôts de données

Cette unité présente les différents types d’architectures des entrepôts de données.

(10)

Unité 3: Les Modèles d’Entrepôts

Cette unité présente les différents modèles d’entrepôts de données.

Unité 4: Les associations

Cette unité présente la fouille associative et les algorithme y afférant.

Unité 5: La classification

Cette unité traite du fonctionnement des travaux de classification, de l’induction des arbres et celle de règles.

Unité 6: Analyse des clusters

Cette unité présente le partitionnement des données

Unité 7: Évaluation

Cette unité présente les approches objectives et subjectives pour l’évaluation.

Évaluation

Les évaluations formatives (vérification de progrès) sont incluses dans chaque unité.

Les évaluations sommatives (tests et travaux finaux) sont fournies à la fin de chaque module et traitent des connaissances et compétences du module.

Les évaluations sommatives sont gérées à la discrétion de l’établissement qui offre le cours. Le plan d’évaluation proposé est le suivant:

Lectures et autres ressources

Les lectures et autres ressources dans ce cours sont indiquées ci-dessous.

Unité 1

Lectures et autres ressources obligatoires:

(11)

pdf (consulté le 20-02-2016)

& sons

Unité 2

Lectures et autres ressources optionnelles:

& sons

Unité 3

& sons

(12)

Unité 4

& sons

Unité 5

& sons

Unité 6

(13)

• Jean Lieber, Adrien Coulet , Amedeo Napoli, Fouille de données : notes de cours 05/10/2007, Disponible sur: http://www.loria.fr/~coulet/material/fdd_cours.pdf (consulté le 20-02-2016)

& sons

Unité 7

• Jean Lieber, Adrien Coulet , Amedeo Napoli, Fouille de données : notes de cours 05/10/2007, Disponible sur: http://www.loria.fr/~coulet/material/fdd_cours.pdf (consulté le 20-02-2016)

& sons

(14)

Unité 1.Introduction à l’entreposage et à la fouille de données

Introduction à l’unité

Un entrepôt de données est un système qui récupère et consolide les données

périodiquement des systèmes sources dans un magasin de données dimensionnelles ou normalisées. Il conserve généralement sans historique et est interrogé pour le business intelligence ou d’autres activités d’analyse. Il est généralement mis à jour par lots, pas chaque fois qu’une transaction se passe dans le système source.

Image 1.1 Vue d’ensemble d’un entrepôt.

Un entrepôt de données est une base de données centrale dans laquelle les données

d’entreprise de large sont stockées pour faciliter les activités de soutien à la prise de décision par les utilisateurs. Les données provenant des bases de données opérationnelles et les sources externes sont extraites, nettoyées, intégrées, puis chargées dans un entrepôt de données. Parce que l’entrepôt de données contient des données historiques, la plupart des activités implique de récupérations de données résumées.

La figure 2 montre le système 1 de l’entrepôt de données de haut niveau présentant les différents éléments. Les systèmes sources dans l’entrepôt de données sont les systèmes de traitement des transactions en ligne (OLTP) qui contiennent les données à charger dans l’entrepôt de données. Le but du système OLTP est de capturer et de stocker les transactions commerciales. Les données des systèmes source sont examinées en utilisant un analyseur de données pour comprendre les caractéristiques des données. Un profileur de données est un outil qui a la capacité d’analyser les données, par exemple pour savoir combien de lignes sont dans chaque tableau, le nombre de lignes contiennent des valeurs NULL, et ainsi de suite.

(15)

L’extraction, la transformation, et le système de chargement (ETL) apportent des données provenant de divers systèmes sources dans une zone de transit. ETL est un système qui a la capacité de se connecter à des systèmes source, lire les données, transformer les données, et les charger dans un système cible (le système cible n’a pas besoin d’être un entrepôt de données). Le système ETL intègre ensuite, transforme et charge les données dans un magasin de données dimensionnelles (DDS). Un DDS est une base de données qui stocke les données de l’entrepôt de données dans un format différent de celui OLTP. La raison de l’obtention des données à partir du système source dans le DDS, puis l’interrogation du DDS à la place de l’interrogation du système source est directement que dans un DDS les données sont organisées dans un format tridimensionnel qui est plus appropriée pour l’analyse. La deuxième raison est parce qu’un DDS contient des données intégrées provenant de plusieurs systèmes sources.

Lorsque le système d’ETL charge les données dans la DDS, les règles de qualité de données font divers contrôles de qualité des données. Les mauvaises données sont mises dans la base de données. La qualité des données (DQ) signale et corrige les systèmes source. Les mauvaises données peuvent également être automatiquement corrigées ou tolérées si elles sont dans une certaine limite.

Le système ETL est géré et orchestré par le système de commande, sur la base de la

séquence, des règles, et la logique stockée dans les métadonnées. Les métadonnées sont une information sur la structure de données, la signification des données, l’utilisation des données, les règles de qualité de données, et d’autres informations sur base de données contenant les données.

Le système d’audit enregistre les opérations du système et l’utilisation dans la base de métadonnées. Le système d’audit fait partie du système d’ETL qui surveille les activités opérationnelles des processus ETL et enregistre leurs statistiques opérationnelles. Il est utilisé pour la compréhension de ce qui est arrivé au cours du processus ETL. Les utilisateurs utilisent différents outils frontaux tels que des feuilles de calcul, des tableaux croisés dynamiques, des outils de reporting et des outils de requête SQL pour extraire et analyser les données dans un DDS. Certaines applications fonctionnent sur un format de base de données multidimensionnelle (MDB).

Pour ces applications, les données de la DDS sont chargées dans un MDB, qui sont également connues sous forme de cubes. Un MDB est une forme de base de données où les données sont stockées dans les cellules et la position de chaque cellule est définie par un certain nombre de variables dites dimensions. Chaque cellule représente un événement d’affaires, et les valeurs des dimensions montrent quand et où cet événement est arrivé.

Imaginez un cube à trois dimensions, client, magasin et l’heure. Chaque cellule représente un événement où un client achète quelque chose dans un magasin à un moment donné et a une valeur de vente (acheté par le client), le coût et le profit.

Des outils tels que des applications d’analyse, d’extraction de données, de tableaux de bord, d’outils de reporting multidimensionnel, et d’autres outils de BI peuvent récupérer des données de manière interactive à partir de bases de données multidimensionnelles.

(16)

Par exemple, analyser les ventes dans le temps, le client et le produit, les revenus et le coût par mois, la région et le type de produit.

Figure11: l’architecture du système de haut niveau du système d’entreposage de données La liste suivante montre les principales fonctions et services des composantes de l’entrepôt de données:

Extraction de données

• Sélectionner les sources de données et déterminer les types de filtres à appliquer aux sources individuelles ;

• Générer des fichiers automatiques extraits à partir des systèmes d’exploitation en utilisant des techniques de réplication et d’autres ;

• Créer des fichiers intermédiaires pour stocker des données sélectionnées à fusionner plus tard ;

• Fichiers de transport extraits à partir de plusieurs plates-formes

• Fournir des services de contrôle des tâches automatisées pour la création de fichiers d’extraction ;

• Entrée de reformatage de sources extérieures ;

• Entrée de reformatage des fichiers de données, bases de données et feuilles de calcul ;

• Générer du code commun de demande d’extraction de données ;

• Des incohérences de Resolve pour les éléments de données communes à partir de plusieurs sources.

(17)

Transformation de données

• Données d’entrée à la base de données pour l’entrepôt de données référentiel ;

• Le nettoyage des données, la déduplication et la fusion ;

• Normaliser les structures de données extraites tel que requis par le modèle dimensionnel de l’entrepôt de données ;

• Types de données à convertir ;

• Calculer et dériver des valeurs d’attributs ;

• Vérifier l’intégrité référentielle ;

• Les données agrégées au besoin ;

• Résoudre les valeurs manquantes ;

• Consolider et intégrer des données.

Staging de données

• Fournir une sauvegarde et une restauration pour les dépôts de la zone mise en scène ;

• Trier et fusionner des fichiers ;

• Créer des fichiers comme entrée pour apporter des modifications aux tables de dimension ;

• Si le stockage intermédiaire de données est une base de données relationnelle, créer et remplir la base de données ;

• Préserver la piste de vérification pour relier chaque élément de données dans l’entrepôt de données à la source d’entrée ;

• Résoudre et créer des clés primaires et étrangères pour les tables de chargement

;

• Consolider les bases de données et créer des fichiers plats pour le chargement au moyen d’utilitaires SGBD ;

• Si le stockage de zone de transit est une base de données relationnelle, extraire des fichiers de chargement.

Objectifs de l’unité

À la fin de cette unité, vous devriez être capable de :

• expliquer une architecture du système de haut niveau du système d’entrepôt de données ;

• expliquer les différentes composantes du système d’entrepôt de données ;

• expliquer les différences conceptuelles entre les bases de données opérationnelles et les entrepôts de données ;

• expliquez les caractéristiques des entrepôts de données ;

(18)

• définir le Data Mining

• comprendre la différence entre l’exploration de données et les statistiques ;

• expliquez l’apprentissage supervisé ;

• expliquez l’apprentissage non supervisé.

Termes clés

Traitement de transaction Transaction en cours : Aide à la décision:

Orienté sujet : Thématique Intégré

L’exploration de données : Fouille de données

Activités d’apprentissage

Activité 1: Caractéristiques des entrepôts de données

Introduction

Le type de données utilisées à des fins d’aide à la décision est conceptuellement différent de celui utilisé dans le système de traitement des transactions. Les systèmes de traitement transactionnel permettent aux organisations d’effectuer des activités quotidiennes de manière efficace. Il est fondé sur les bases de données opérationnelles avec les données actuelles au niveau individuel.

Les données de ce type de base de données sont essentiellement relationnelles et elles sont hautement normalisées en utilisant la forme normale Boyce-Code. Par exemple, un système de traitement des transactions d’entrée order- nécessite des données sur les clients individuels, les commandes et les stocks.

L’aide à la décision ou dls application entrepôt de données aide dans la gestion et l’analyse à moyen terme et une orientation à long terme d’une organisation. Il est nécessaire de transformer les bases de données opérationnelles d’aide à la décision. Les bases de données opérationnelles peuvent contenir des incohérences dans les régions telless que les formats, l’identification de l’entité, et les unités de mesure.

L’entrepôt de données stocke des données historiques aux niveaux individuels et résumées;

Les données de niveau individuel fournissent la flexibilité pour répondre aux différents besoins d’aide à la décision alors que les données résumées fournissent une réponse rapide aux demandes répétitives.

(19)

Figure 1.2 : Caractéristiques d’un Entrepôt de données

L’entrepôt de données, un terme inventé par William Inmon en 1990, se réfère à une base de données centrale où les données à partir de bases de données opérationnelles et d’autres sources sont intégrées, nettoyées, et normalisées pour appuyer la prise de décision. Les activités de transformation (de nettoyage, d’intégration et de normalisation) sont essentielles pour obtenir des avantages.

Les quatre caractéristiques distinctives pour les entrepôts de données sont :

1. sous-orienté: Un entrepôt de données est organisée autour des grands sujets d’affaires ou des entités telles que les clients, les commandes et produits. Ce sujet d’orientation contraste au plus l’orientation du processus de traitement des transactions.

2. intégré: Les données opérationnelles à partir de plusieurs bases de données et sources de données externes sont intégrées dans un entrepôt de données pour fournir une seule base de données unifiée pour une aide à la décision. La consolidation des données nécessite des conventions de nommage cohérentes, des formats de données uniformes, et des échelles de mesure comparables entre les bases de données et sources de données externes.

3. variant dans le temps: les entrepôts de données utilisent des étiquettes temporelleds pour représenter des données historiques. La dimension temporelle est essentielle

pour identifier les tendances, la prévision de futures opérations, et de fixer des objectifs d’exploitation. Les entrepôts de données sont essentiellement constitués d’une longue série de clichés, dont chacun représente des données opérationnelles capturées à un point dans le temps.

4. non volatile: les nouvelles données dans un entrepôt de données sont ajoutées, plutôt que remplacées, de sorte que les données historiques soient conservées. L’acte de l’ajout de nouvelles données est connu comme l’actualisation de l’entrepôt de données. Le manque de mise à jour et les opérations de suppression qui assurent un entrepôt de données sont libres de mise à jour ou suppression des anomalies. Les données de transaction sont transférées dans un entrepôt de données que lorsque la plupart des activités de mise à jour a été effectuée.

(20)

Tableau11: Comparaison des bases de données opérationnelles et entrepôts de données

Caractéristiques Base de données opérationnelles

Entrepot de données

devise Courant Historique

Niveau de détail Individuelle Individuelle et résumée Orientation Orientation processus

d’orientation

Orientation sujet

Nombre

d’enregistrements traités

Peu mille

Niveau de normalisation Principalement normalize Violations fréquentes de BCNF

Niveau de mise à jour Volatile Non volatile (rafraichi)

Modèle donnée Relationnel Modèle relationnel avec

des schemas étoillés et le multidimensionnel avec les données en cubes

À retenir ^:

Définition de Bill Inmon (1996) «l’Entrepôt de données (le DataWarehouse) est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d’un processus d’aide à la décision.»

Définition de Data Mining

Il pourrait y avoir plusieurs définitions de l’exploration de données. Cependant l’extraction de données peut être définie simplement comme l’extraction d’informations utiles à partir des données, la découverte de relations qui ne sont pas connues pendant la réalisation du processus de découverte. Plus précisément, c’est l’application des techniques d’apprentissage automatique sur les problèmes de la vie réelle. Il fait également référence à l’application des modèles et des méthodes pour les données pour identifier les tendances.

Base de données Data Mining Vs statistique

L’exploration de données tire partie des progrès dans les domaines de l’intelligence artificielle (IA) et les statistiques. Les deux disciplines ont travaillé sur les problèmes de la reconnaissance des formes et de la classification. Les communautés des deux domaines d’études ont apporté de grandes contributions à la compréhension et l’application des réseaux de neurones et des arbres de décision. Ainsi, il est à noter que l’exploration de données ne remplace pas les techniques statistiques appliquées jusqu’ici. La littérature indique qu’elle est plutôt une extension des méthodes statistiques qui est en partie le résultat d’un changement majeur dans la communauté des statistiques.

(21)

Le développement de la plupart des techniques statistiques est basé sur la théorie bien conçu et des méthodes d’analyse qui fonctionnent bien sur les montants modestes de données en cours d’analyse. Cependant la puissance accrue des ordinateurs à moindre coût, avec la nécessité d’analyser d’énormes ensembles de données, ont permis le développement de nouvelles techniques basées sur une exploration des solutions possibles force brute.

De nouvelles techniques comprennent des algorithmes relativement récents comme les réseaux de neurones et les arbres de décision, et de nouvelles approches à des algorithmes plus anciens tels que l’analyse discriminante. Dans le but de les amener à supporter la montée en puissance de l’ordinateur sur les énormes volumes de données disponibles, ces techniques peuvent rapprocher presque toute forme fonctionnelle ou de l’interaction de leur propre chef.

L’exploration de données est l’application des autres techniques d’intelligence artificielle et de statistiques aux problèmes des entreprises communes

Motivations / raisons à l’exploitation minière

Il existe différentes motivations pour l’exploration de données. Trois plus pertinentes à mentionner comprend : le fait que beaucoup de données sont recueillies et entreposées, les ordinateurs sont devenus moins chers et plus puissants, et la pression concurrentielle qui est de plus en plus forte. Ainsi, on peut dire que l’environnement favorable créé en raison des tendances mentionnées ci-dessus crée une motivation non négligeable pour être engagé dans des tâches d’exploration de données.

Apprentissage supervisé et non supervisé

L’apprentissage peut être classé dans deux formes de base. Théoriquement, l’apprentissage supervisé et non supervisé ne diffèrent que par la structure causale du modèle.

En apprentissage supervisé, le modèle définit l’effet d’un ensemble d’observations, appelé entrées des variables, a sur un autre ensemble d’observations, appelé variable de sortie.

Les données ou les variables indépendantes sont supposées être au début et les sorties ou variables dépendantes sont à la fin de la chaîne de causalité. Les modèles peuvent inclure des variables médiatrices entre les entrées et les sorties.

Un bon exemple de l’apprentissage supervisé dans l’extraction de données est le data mining prédictif. Dans l’exploration de données prédictive comme la classification, il y a un attribut de cible appelé classe dont la valeur sera déterminée par les variables d’entrée.

Dans l’apprentissage non supervisé, toutes les observations sont supposées être provoquées par des variables latentes, autrement dit, les observations sont supposées être à la fin de la chaîne de causalité. Dans la pratique, les modèles pour l’apprentissage supervisé laissent souvent la probabilité pour les entrées non définies. Ce modèle n’est pas nécessaire tant que les entrées sont disponibles, mais si une partie de l’entrée des valeurs est manquante, il est impossible d’en déduire quoi que ce soit sur les sorties. Si les entrées sont également modélisées, alors les entrées manquantes ne causent aucun problème car elles peuvent être considérées comme des variables latentes comme dans l’apprentissage non supervisé.

Le descriptif technique de l’exploration de données comme le clustering et la règle de l’Association minière s’inscrivent dans cette catégorie.

(22)

Évaluation

1. Nommer au moins six caractéristiques ou traits d’un entrepôt de données.

2. Pourquoi l’intégration de données est nécessaire dans un entrepôt de données, d’autant plus bas que dans une application opérationnelle?

3. Pourquoi avez-vous besoin d’un composant séparé de la mise en scène de données?

4. Quels sont les trois principaux types de métadonnées dans un entrepôt de données? Mentionner brièvement l’objet de chaque type ;

5. Une base de données qui prend en charge les activités quotidiennes et donne à court terme décision d’une organisation est appelée ______

6. Identifier au moins trois définitions de l’exploration de données et discuter sur le point central de toutes les définitions?

7. Quels sont les trois motivations de base pour l’exploration de données?

8. Discuter de deux différences majeures entre l’extraction de données et de statistiques?

9. Expliquer la différence structurelle de l’apprentissage supervisé et non supervisé?

(23)

Unité 2. Architecture d’un entrepôt de données

Introduction à l’unité

L’architecture de l’entrepôt de données présente les différents composants du système et la façon dont l’interaction se fait. Dans cette unité, les principales architectures de mise en œuvre de l’entrepôt de données et des architectures de serveurs OLAP sont présentées.

Objectifs de l’unité

• faire la distinction entre les entrepôts de données et les data marts ;

• expliquez les trois types d’architectures du serveur OLAP.

Termes clés

OLAP relationnel (ROLAP): ROLAP est un modèle d’entreposage de données qui utilise des SGBD relationnels ou relationnels prolongés pour stocker et gérer les données de l’entrepôt, et OLAP middleware pour soutenir les pièces manquantes.

OLAP multidimensionnel (MOLAP) est une vue multidimensionnelle de données par le biais de

moteurs de stockage multi-dimensionnels sur les baies;

il fait correspondre des vues multidimensionnelles directement aux structures de tableaux de cube de données.

OLAP hybride (HOLAP) combine les technologies ROLAP et MOLAP ; bénéficie de la plus grande évolutivité de ROLAP et le calcul plus rapide de MOLAP.

(24)

Activités d’apprentissage

Activité 1: Architecture de l’entrepôt de données

Introduction

Un système d’entrepôt de données a deux architectures principales: l’architecture de flux de données et l’architecture du système. L’architecture de flux de données est la façon dont les magasins de données sont disposés à l’intérieur d’un entrepôt de données et la façon dont les flux de données des systèmes sources vers les utilisateurs par le biais de ces magasins de données. L’architecture du système est la configuration physique des serveurs, réseau, logiciels, stockage, et les clients. Cette partie se concentre principalement sur l’architecture de flux de données.

L’architecture la plus populaire de l’entrepôt de données est à deux et trois niveaux d’architecture de l’entrepôt de données.

Dans une architecture 2-tier de l’entrepôt de données (figure 2.1), les données opérationnelles sont transformées, puis transférées à un entrepôt de données. Une couche séparée par des serveurs peut être utilisée pour soutenir les activités complexes du processus de transformation.

Pour faciliter le processus de transformation, un modèle de données d’entreprise (EDM) est créé. L’EDM décrit la structure de l’entrepôt de données et contient les métadonnées nécessaires pour accéder à des bases de données opérationnelles et les sources de données externes. L’EDM peut également contenir des détails concernant le nettoyage et l’intégration de sources de données. La direction utilise l’entrepôt de données directement pour récupérer des données d’aide à la décision.

EDM Entrepôt de

données

Base de données opérationnelle

Applications

Figure 2 1: Architecture 2-tier du data warehouse

L’architecture 2-tier peut avoir des problèmes de performance pour les grands entrepôts de données avec des applications gourmandes en données d’aide à la décision.

Dans une architecture 3-tier, les utilisateurs trois ont généralement besoin d’accéder à de petites portions de l’entrepôt de données, au lieu de l’ensemble de l’entrepôt. Pour leur permettre d’accéder plus rapidement tout en isolant les données nécessaires pour d’autres groupes d’utilisateurs. Les petits entrepôts de données et data marts sont souvent utilisés. Les data marts servent d’interface entre les utilisateurs finaux et l’entrepôt de données d’entreprise.

Le stockage d’un sous-ensemble des données de l’entrepôt rafraîchissent ces données sur

(25)

une périodicité (par exemple, tous les jours ou toutes les semaines) de base. En général, l’entrepôt de données et les data marts résident sur des serveurs différents pour améliorer les performances et la tolérance aux pannes. Les utilisateurs gardent le contrôle sur leurs propres magasins de données, tandis que l’entrepôt de données reste sous le contrôle du personnel des systèmes d’information d’entreprise.

EDM Entrepôt de

données

Base de données opérationnelle

Applications

Magasin de données (Data

Mart)

Applications

Mart)

Applications

Mart)

Figure 2 2: Architecture 3-tier data warehouse Sources de données :

Les sources de données sont fonction du domaine d’utilisation de l’Entrepôt de données.

Enterprise ressource planning (ERP):

• Gèrent les processus opérationnels d’une entreprise (ex: ressources humaines, finances, distribution, approvisionnement, etc.).

Gestion des relations clients (CRM):

• Gèrent les interactions d’une entreprise avec ses clients (ex: marketing, ventes, après-vente, assistance technique, etc.).

Héritage de systèmes:

• Matériels et logiciels obsolètes mais difficilement remplaçables.

Point of sale (POS):

• Matériels et logiciels utilisés dans les caisses de sorties d’un magasin.

Externes^:

• Ex: données concurrentielles achetées, données démographiques.

(26)

Caractéristiques des magasins de données (datamart) : Les datamarts ont les caractéristiques suivantes :

• Contiennent une portion du contenu de l’entrepôt de données;

• Se concentre sur 1 sujet d’analyse (ex: les ventes OU les livraisons, mais pas les deux) = 1 seul schéma en étoile;

• Servent à faire des analyses simples et spécialisées (ex: fluctuations des ventes par catégorie de produits);

• Nombre de sources limitées, provenant la plupart du temps d’un même département;

• ETL simplifié par rapport à un entrepôt de données;

• Même processus de conception que les entrepôts de données, mais demande moins de ressources.

Deux approches de conception

Il existe deux approches principales en matière de conception de l’entrepôt de données: de bas en haut et de haut en bas.

• Dans une architecture de l’entrepôt de données de bas en haut (down-top), les données d’une entité sont modélisées à la fois et stockées dans des magasins de données séparés. Au fil du temps, de nouvelles données sont synthétisées, nettoyées et fusionnées dans des magasins de données existants ou construits dans de nouveaux dépôts de données. L’ensemble des dépôts de données peut se transformer en un grand entrepôt de données si l’organisation peut justifier la dépense de construction d’un modèle de données d’entreprise.

L’approche présente plusieurs avantages - plus rapide et plus facile la mise en œuvre des éléments gérables, permet le retour favorable sur investissement et une preuve de concept, conduit à moins de risque de l’échec, et permet à l’équipe de projet d’apprendre et de grandir. Toutefois, l’approche présente les désavantages suivants : le data mart a une vue étroite de données, imprègne les données redondantes dans chaque magasin de données, perpétue des données incohérentes et inconciliables, et prolifère des interfaces ingérables.

• En approche Haut vers le Bas (top-down) un seul entrepôt de données centralisé représente l’entreprise et les règles et les contrôles sont conçus à la fois. Cette approche est bonne car elle permet de fournir des résultats rapides si elles sont appliquées avec itération. Cependant, il faut plus de temps pour construire et peut provoquer une forte exposition / risque à l’échec, exige de haut niveau de compétences transversales.

(27)

Deux architecteurs des datamarts.

1. Architecture bus du datamart

Image 2.5 Vu d’ensemble d’une Architecture bus d’un datamart Caractéristiques d’une architecture en bus des datamarts:

• Approche bottom-up, où on construit l’entrepôt d’un datamart à la fois;

• Datamarts développés par sujet/processus d’affaires;

• Modélisation dimensionnelle (schéma en étoile), au lieu du diagramme entité-relation;

• Entrepôt de données conceptuel, formé de magasins de données inter-reliés à l’aide d’une couche d’intergiciels (middleware).

• Intégration des données assurée par les dimensions partagées entre les datamarts (i.e., dimensions conformes);

• Approche incrémentale qui donne des résultats rapidement (développement agile);

2. Architecture Hub-and-spoke

(28)

Cette architecture est caractérisée par l’utilisation de :

• Approche top-down, proposée par B. Inmon et al.

• Entrepôt (hub) contient les données atomiques (niveau de détail le plus fin) et normalisées (3FN);

• Les datamarts (spokes) contiennent principalement des données agrégées (pas atomique) et suivant le modèle dimensionnel;

• La plupart des requêtes analytiques sont faites sur les datamarts;

• Intégration et consolidation complète des données de l’entreprise;

• Développement plus long, dû à la complexité du processus ETL et de la modélisation;

• Meilleure qualité des données que l’architecture par bus de datamarts.

Les architectures des serveurs OLAP

Les serveurs OLAP présentent des utilisateurs d’affaires avec des données

multidimensionnelles depuis les entrepôts de données ou data marts sans préoccupations concernant comment et où les données sont stockées. Cependant, l’architecture physique et la mise en œuvre de serveurs OLAP doivent tenir compte des questions de stockage de données.

Voici les trois principales architectures de serveur:

Serveurs OLAP relationnels (ROLAP):

Les serveurs intermédiaires sont des serveurs qui se dressent entre un serveur d’arrière- relationnelle et les outils client frontal. ROLAP utilise un SGBD relationnel ou de

longues-relationnelle pour stocker et gérer les données de l’entrepôt, et OLAP middleware pour soutenir les pièces manquantes. Les serveurs ROLAP comprennent l’optimisation pour chaque SGBD back-end, la mise en œuvre de la logique de navigation de l’agrégation, et des outils et des services supplémentaires. La technologie ROLAP a tendance à avoir une plus grande évolutivité de la technologie MOLAP.

Les serveurs multidimensionnels OLAP (MOLAP) :

Les serveurs MOLAP soutiennent les vues multidimensionnelles de données par le biais de moteurs de stockage multi-dimensionnels sur les baies; il fait correspondre des vues multidimensionnelles directement aux structures de tableaux de cube de données. L’avantage d’utiliser un cube de données est qu’il permet l’indexation rapide d’effectuer un pré-calcule des données résumées. Dans MOLAP l’utilisation du stockage est faible en raison de la dispersion des données. La technique de compression libre-matrice est recommandée.

Les serveurs hybrides OLAP (HOLAP):

L’approche HOLAP combine les technologies ROLAP et MOLAP, bénéficie de la plus grande évolutivité de ROLAP et le calcul plus rapide de MOLAP. Par exemple, un serveur HOLAP peut permettre de grands volumes de données détaillées pour être stockées dans une base de données relationnelle, tandis que les concentrations sont conservées dans un magasin de MOLAP séparé. Microsoft SQL Server 2000 prend en charge un serveur hybride OLAP.

(29)

Image 1.4 : Aspect architectural d’un entrepôt de données.

Évaluation

1. Comparer les trois architectures de serveur OLAP

2. Lister au moins trois principaux avantages de l’architecture ROLAP et de l’état de deux inconvénients de la même chose.

(30)

Unité 3. Modèle d’entrepôt de données

Introduction à l’unité

Les entrepôts de données et des outils OLAP sont basés sur essentiellement un modèle de données multidimensionnel. Ce modèle de données est vu sous la forme d’un cube de données. Dans cette section, comment modéliser les données des cubes à n dimensions données est présenté. Différents modèles multidimensionnels tels que étoile, flocon de neige et fait de constellations sont présentés. La notion de hiérarchies de concepts, les mesures, les opérations de base associées à des données multidimensionnelles telles que drill-down et roll-up sont présentées aussi.

Objectifs de l’unité

• expliquer le modèle de données multidimensionnel ;

• expliquer la différence entre les trois schémas de données associées aux données multidimensionnelles ;

• utiliser différents opérateurs définis pour les données multidimensionnelles ;

• découvrir ce qui est à l’intérieur de la table de faits et à l’intérieur des tables de dimension

Termes clés

Cube de donnnées : un cube de données est un modèle multidimensionnel qui permet aux données d’être modélisées et visualisées dans de multiples dimensions. Il est défini par les dimensions et les faits.

Dimension des entités est les perspectives à l’égard desquels une organisation veut tenir des registres Le fait est les mesures numériques pour analyser les relations entre les dimensions de l’entreprise donnée.

La table de faits est reliée à toutes les dimensions avec des clés étrangères.

(31)

Activités d’apprentissage

Activité 1: Modèle multidimensionnel (Cube)

Introduction

Prenons une entreprise qui vend des produits stockés dans différents lieux de stockage pour les clients. Afin de stocker les données de ventes journalières pour chaque produit et chaque emplacement dans une base de données relationnelle, il est nécessaire d’avoir des tables ayant chacun des colonnes et des lignes, comme illustré sur la figure4.1.

La figure montre que les tables de vente contiennent des données du client (qui achète les produits), produit (article branche) et l’emplacement (banque d’informations) à partir de tables connexes et informations sur les ventes - n ° de commande, la valeur des ventes, de la quantité.

Afin de modéliser ces informations, le modèle unidimensionnel traditionnel ne suffit pas pour le système de soutien complexes / décision. Dans la préparation du rapport de vente qui inclut le montant des ventes dans différents pays au cours des années ou période de temps, il est nécessaire d’identifier les tables et leurs colonnes correspondantes pertinentes pour la requête et se joindre à eux.

Figure 3 1: Diagramme Entité-Relation d’une base de données opérationnelle de venre.

Dans le cadre de l’entrepôt de données, une donnée sera modélisée comme cube de données.

Un cube de données permet aux données d’être modélisées et visualisées dans plusieurs dimensions. Il est défini par les dimensions et les faits.

D’une manière générale, les dimensions sont les perspectives ou entités à l’égard desquels une organisation veut tenir des registres. Par exemple, pour le système opérationnel des ventes, les données de vente d’un entrepôt de données sur les ventes peuvent tenir des registres des ventes du magasin par rapport à la dimension du temps, un objet, de la branche, et l’emplacement. Ces dimensions permettent à la boutique de garder une trace des choses comme les ventes mensuelles de biens et les branches et les endroits où les articles ont été vendus. Chaque dimension peut avoir un tableau qui lui est associé, dit table de dimensions, qui décrit en outre la dimension. Par exemple, une table de dimensions pour le produit peut contenir le nom des attributs d’un objet, la marque et le type.

(32)

Les tables de dimensions peuvent être spécifiées par les utilisateurs ou experts, ou générées et ajustées automatiquement en fonction de la répartition des données. Un modèle de données multidimensionnel est généralement organisé autour d’un thème central, comme les ventes.

Ce thème est représenté par une table de faits. Les faits sont des mesures numériques pour analyser les relations entre les dimensions de l’entreprise donnée. La table de faits est reliée à toutes les dimensions avec des clés étrangères.

Habituellement, toutes les clés étrangères prises ensemble permettent d’identifier de manière unique chaque ligne de la table de faits, et donc forment collectivement un exemple de clés uniques de faits pour un entrepôt de données sur les ventes qui inclusent des dollars vendus (montant des ventes en dollars), des unités vendues (nombre d’unités vendues), et le montant budgétisé. La table de faits contient les noms des faits ou des mesures, ainsi que le stockage de clés de chacun des tableaux de dimensions liées. Le cube montre é la relation entre le fait et les tables de dimension. Le modèle de données entité-relation est couramment utilisé dans la conception de bases de données relationnelles, où un schéma de base de données se compose d’un ensemble d’entités et les relations entre eux. Un tel modèle de données est approprié pour le traitement des transactions en ligne. Un entrepôt de données, cependant, exige, un schéma d’orientation thématique concise qui facilite l’analyse de données en ligne. Le modèle de données le plus populaire pour un entrepôt de données est un modèle multidimensionnel, qui peut exister sous la forme d’un schéma en étoile, un schéma de Flocon de neige, ou un schéma fait de constellation. Regardons chacun d’eux.

Schéma étoiles:

Ceci est le paradigme de modélisation le plus commun, dans lequel l’entrepôt de données contient :

1. une grande table centrale (table de faits) contenant la majeure partie des données, sans redondance, et

2. un ensemble de tables plus petites qui en découlent (tableaux de dimensions), une pour chaque dimension. Le graphique de schéma ressemble à un starburst, avec les tableaux de dimensions affichés dans un modèle radial autour de la table de fait centrale. Par exemple, dans la figure 4 schéma 2 étoiles: les ventes sont prises en compte avec les dimensions f: clients, produits, date / heure et magasins. Le schéma contient une table de fait centrale pour les ventes qui contiennentt des clés à chacune des quatre dimensions, avec deux mesures: dollars_sold et units_sold. Pour réduire la taille de la table de faits, les identificateurs de dimension (e, g, date_key et PRODUCT_KEY) sont générés par le système d’identification.

(33)

Figure 3 2: start schema for sales data warehouse

Dans le schéma en étoile, chaque dimension est représentée par une seule table, et chaque table contient un ensemble d’attributs. Par exemple, la table de dimension du magasin contient l’ensemble d’attributs {clé de magasin, rue / store_address, ville, province ou État, pays}. Cette contrainte peut introduire une certaine redondance. Par exemple, “Debrezeit”

et “Nazreth” sont les deux villes de la région 4 (Oromia), Ethiopie. Les inscriptions pour ces villes dans le tableau emplacement de la cote permettra de créer une redondance entre la région des attributs et le pays; qui est, (..., Debrezeit, DZ, 4, Eth) et (..., Nazreth Nz, 4, Eth). En outre, les attributs avec une table de dimension peuvent former soit une hiérarchie (total de la commande) ou un réseau (d’ordre partiel).

Schéma Flocon de neige

Le schéma de flocon de neige est une variante du modèle de schéma en étoile, où certains tableaux de dimensions sont normalisés, ainsi diviser davantage les données dans des tables supplémentaires. Le graphique de schéma résultant constitue une forme similaire à un flocon de neige.

La principale différence entre les modèles du schéma en étoile et flocon de neige est que les tableaux de dimensions du modèle de flocon de neige peuvent être conservés sous forme normalisée à réduire les redondances. Une telle table est facile à entretenir et économise de l’espace de stockage. Cependant, ce gain de place est négligeable par rapport à la grandeur caractéristique de la table de faits. En outre, la structure de flocon de neige peut réduire l’efficacité de la navigation, car plusieurs jointures seront nécessaires pour exécuter une requête. Par conséquent, la performance du système peut être négativement affectée. Ainsi, bien que le schéma de flocon de neige réduit la redondance, il n’est pas aussi populaire que le schéma en étoile dans la conception de l’entrepôt de données.

(34)

Figure 3.3: schéma de flocon de neige pour l’entrepôt de données sur les ventes La figure 3.3 montre un exemple de schéma en flocon pour l’entrepôt de données de vente.

La table de faits dans flocon de neige est exactement la même que la table de faits dans un schéma en étoile. La principale différence entre les deux schémas est dans la définition de tables de dimension. Le tableau de la dimension du produit dans le schéma en étoile est normalisé dans le schéma en flocon donnant les nouveaux tableaux produits et fournisseurs.

Ainsi la table de produit contient les attributs product_key, nom, description, l’état, le prix, le coût et supplier_key où supplier_key est lié à la table de dimension de fournisseur qui contient supplier_key, Nom_fournisseur et des informations d’adresse. Da façon similaire, la table de dimension de magasin dans le schéma en étoile peut être normalisée en deux nouveaux magasins Tableaux- et la ville. Le city_key dans la nouvelle table de magasin est reliée à la dimension des villes.

Constellation de faits

Les applications sophistiquées peuvent nécessiter que plusieurs tables de faits partagent les tables de dimension. Ce type de schéma peut être considéré comme un ensemble d’étoiles, et donc est appelé un schéma de galaxie ou un fait constellation.

Figure 3.4: Schéma de fait constellation pour l’entrepôt de données sur les ventes

(35)

Le schéma de fait de constellation à la figure 3.4 spécifie deux tables de faits, la vente et l’expédition. La définition de la table de vente est identique à celle du schéma de départ.

Le tableau de fait expédition a produit, le temps, l’expéditeur, source et l’emplacement de destination que la dimension et deux mesures COST et units_shipped. Un schéma de fait constellation permet que des tables de dimension peuvent être partagées entre les tables de faits. Par exemple, les tables de dimensions pour le temps, produit, et l’emplacement sont partagées entre les ventes et les tables expédition de faits.

Dimensions: hiérarchies de concepts

Une hiérarchie concept définit une suite d’applications à partir d’un ensemble de concepts de bas niveau au haut niveau, des concepts plus généraux. Compte tenu de la dimension de l’emplacement, chaque ville peut être associée à la province ou de l’état ou de la région à laquelle elle appartient. Par exemple, Nazareth peut être mis en correspondance avec la région 4; et Addis-Abeba au fédéral; les provinces et / région peuvent être à leur tour être mises en correspondance avec le pays (par exemple, la région 4), Oromia mappé à l’Ethiopie.

Ces correspondances forment une hiérarchie de concept pour l’emplacement de la cote. La cartographie est ensemble de concepts de bas niveau (c.-à-villes) au niveau supérieur, des concepts plus généraux (à savoir les pays) comme le montre le Figure 3.5.

Figure 3.5: Un instantané d’une hiérarchie de concepts pour l’emplacement dimension Notez que de nombreuses hiérarchies de concepts sont implicites dans le schéma de base de données. Par exemple, en supposant que l’emplacement de la cote est décrit par le nombre d’attributs, rue, ville, province_or_state, zip_code et pays. Ces attributs sont liés par un ordre total formant une hiérarchie de concepts tels que “Street <Ville <province_or_state <Pays”

comme le montre la Figure 3.5.

(36)

Figure 3.6: Les structures hiérarchiques d’attributs dans les dimensions de l’entrepôt:

Une hiérarchie pour l’emplacement b) réseau de temps

Parfois, les attributs d’une dimension peuvent être organisés dans un ordre partiel, formant un réseau. Un exemple d’un ordre partiel de la dimension de temps basée sur la journée d’attributs, semaine, mois, trimestre et année est «jour <{mois <trimestre; semaine} <année “.

Une hiérarchie de concept qui est un ordre total ou partiel entre les attributs dans un schéma de base de données est appelée une hiérarchie de schéma.

Une hiérarchie de concept pourrait être définie par discrétisation ou regroupement de valeurs d’une dimension ou d’un attribut donné et résultant dans une hiérarchie de set-regroupement.

Une commande partielle ou totale peut être définie entre les groupes de valeurs. Par exemple, le prix peut être défini sur la plage / intervalle de valeurs telles que ($ x, .., $$$ y] désignant la gamme de $ x exclusive à $ y compris.

Mesures

Un point multidimensionnel dans l’espace de cube de données peut être défini par un ensemble de paires dimension-valeur. Par exemple, le total des ventes du premier trimestre de l’informatique à Vancouver (à savoir le temps = “Q1”, location = “Vancouver”, item =

“ordinateur”) est une mesure de cube de données comme le montre la Figure 3.5.

Une mesure de cube de données est une fonction numérique qui est évaluée à chaque point de l’espace de cube de données et elle est calculée pour un point donné en agrégeant les données correspondant aux paires respectives dimension-valeur pour définir le point donné. Des mesures peuvent être organisées en base holistiques sur le genre de fonctions d’agrégation utilisées dans trois catégories et de distribution, algébriques, et.

(37)

Figure 3.7: Exemple Cube de données associé à l’entrepôt de données sur les ventes Distributif

Une mesure est distributive si elle est obtenue par application d’une fonction d’agrégation distributive. Une fonction d’agrégation est distributive si elle peut être calculée d’une manière répartie. Supposons que les données sont divisées en n ensembles. Appliquer la fonction à chaque partition, se traduit par des valeurs globales de n. Si le résultat obtenu par application de la fonction aux n valeurs d’agrégats est le même que celui obtenu par application de la fonction à l’ensemble de données complet (sans séparation), la fonction peut être calculée d’une manière répartie.

Par exemple, si les ventes du produit A étaient 200,00 $ et des ventes pour le produit B étaient de 150,00 $, le total des ventes est de 350,00 $. Si les ventes d’hier étaient de 100,00 $ et les ventes pour la journée d’avant-hier étaient de 130,00 $, les ventes totales vont s’élevées à 230,00 $.

C’est-à-dire la somme () peut être calculée pour un cube de données en divisant d’abord le cube en un ensemble de sous cubes, le calcul de la somme () pour chaque sous cube, puis en additionnant les résultats obtenus pour chaque sous cube. Par conséquent, la somme () est une fonction d’agrégation distributive. De même, count (), min () et max () sont des fonctions d’agrégation de distribution.

Algébrique

Une mesure est algébrique si elle est obtenue en appliquant une fonction d’agrégation algébrique. Une fonction d’agrégation est algébrique si elle peut être calculée par une fonction algébrique avec M arguments (où M est un entier positif borné), dont chacun est obtenu par application d’une fonction d’agrégation distributive.

Par exemple, avg () (moyenne) peut être calculé comme somme () / count (), où les deux fonctions somme () et count () sont des fonctions d’agrégation de distribution. De même, min (N) et max (N) (qui retourne respectivement les valeurs minimales N et maximales N dans un ensemble donné) et l’écart type () sont des fonctions d’agrégats algébriques.

Holistique

(38)

Une mesure est holistique si elle est obtenue en appliquant une fonction d’agrégation globale.

Une fonction d’agrégation est holistique s’il n’y a pas de constante liée à la taille de stockage nécessaire pour décrire un sous agrégat. Autrement dit, il n’existe pas une fonction algébrique des arguments M (où M est une constante) qui caractérisent le calcul. Des exemples courants de fonctions globales comprennent médian (), le mode (), et le rang ().

Opérations OLAP

Dans le modèle multidimensionnel, les données sont organisées en plusieurs dimensions, et chaque dimension contient plusieurs niveaux d’abstraction définie par hiérarchies de concepts.

Cette organisation offre aux utilisateurs la souplesse pour afficher les données provenant de différents points de vueexpliqués dans cette section.

Roll-up

L’opération de roll-up (également appelée l’opération de forage-up) effectue l’agrégation sur un cube de données, soit en grimpant une hiérarchie de concept pour une dimension ou par réduction de dimension. Par exemple, roll-up sur lieu (des villes vers les pays) regroupe les produits vendus au sein d’un trimestre et dans un pays (de l’ordre total défini pour les villes / emplacement, les ventes de villes d’un même pays seront regroupées ensemble) comme montré dans le cube de données de la figure 3.5.

(39)

Figure 3 8: Cumul échantillon sur lieu appliqué à l’entrepôt de données de vente Drill-down

Drill-down: drill-down est l’inverse de roll-up. Il navigue à partir de données moins détaillées à des données plus détaillées. Drill-down peut être réalisé soit par éliminatioon d’une hiérarchie de concept pour une dimension ou introduction de dimensions supplémentaires. Par exemple, le forage vers le bas d’un cube à l’heure (de quarts de mois) utilise le concept de hiérarchie défini comme «jour <mois <trimestre <année”.

Le drill-down se produit en descendant la hiérarchie de temps à partir du niveau du trimestre au niveau plus détaillé du mois des données de détails de cube résultant des ventes totales de chaque produit par mois plutôt que de les résumer par trimestre.

Tranche

L’opération de coupe effectue une sélection sur une dimension donnée du cube, ce qui entraîne un cube secondaire. Par exemple, couper le cube pour le temps = Q1, pour obtenir des ventes de chaque produit dans le premier trimestre.

Dé

Les dés de fonctionnement définissent un cube secondaire en effectuant une sélection de deux ou plusieurs dimensions. Par exemple, les dés pour (location = “Toronto” ou “Vancouver”) et (temps = «Q1» ou «Q2») et (item = “Home Entertainment” ou “ordinateur”) sur le cube de données calculent la mesure de ceux des ventes de la maison de divertissement ou de produits informatiques menées à Toronto ou à Vancouver dans le premier ou le deuxième trimestre.