Modèle multidimensionnel (Cube) - Entreposage et Fouille de données

Introduction

Prenons une entreprise qui vend des produits stockés dans différents lieux de stockage pour les clients. Afin de stocker les données de ventes journalières pour chaque produit et chaque emplacement dans une base de données relationnelle, il est nécessaire d’avoir des tables ayant chacun des colonnes et des lignes, comme illustré sur la figure4.1.

La figure montre que les tables de vente contiennent des données du client (qui achète les produits), produit (article branche) et l’emplacement (banque d’informations) à partir de tables connexes et informations sur les ventes - n ° de commande, la valeur des ventes, de la quantité.

Afin de modéliser ces informations, le modèle unidimensionnel traditionnel ne suffit pas pour le système de soutien complexes / décision. Dans la préparation du rapport de vente qui inclut le montant des ventes dans différents pays au cours des années ou période de temps, il est nécessaire d’identifier les tables et leurs colonnes correspondantes pertinentes pour la requête et se joindre à eux.

Figure 3 1: Diagramme Entité-Relation d’une base de données opérationnelle de venre.

Dans le cadre de l’entrepôt de données, une donnée sera modélisée comme cube de données.

Un cube de données permet aux données d’être modélisées et visualisées dans plusieurs dimensions. Il est défini par les dimensions et les faits.

D’une manière générale, les dimensions sont les perspectives ou entités à l’égard desquels une organisation veut tenir des registres. Par exemple, pour le système opérationnel des ventes, les données de vente d’un entrepôt de données sur les ventes peuvent tenir des registres des ventes du magasin par rapport à la dimension du temps, un objet, de la branche, et l’emplacement. Ces dimensions permettent à la boutique de garder une trace des choses comme les ventes mensuelles de biens et les branches et les endroits où les articles ont été vendus. Chaque dimension peut avoir un tableau qui lui est associé, dit table de dimensions, qui décrit en outre la dimension. Par exemple, une table de dimensions pour le produit peut contenir le nom des attributs d’un objet, la marque et le type.

Les tables de dimensions peuvent être spécifiées par les utilisateurs ou experts, ou générées et ajustées automatiquement en fonction de la répartition des données. Un modèle de données multidimensionnel est généralement organisé autour d’un thème central, comme les ventes.

Ce thème est représenté par une table de faits. Les faits sont des mesures numériques pour analyser les relations entre les dimensions de l’entreprise donnée. La table de faits est reliée à toutes les dimensions avec des clés étrangères.

Habituellement, toutes les clés étrangères prises ensemble permettent d’identifier de manière unique chaque ligne de la table de faits, et donc forment collectivement un exemple de clés uniques de faits pour un entrepôt de données sur les ventes qui inclusent des dollars vendus (montant des ventes en dollars), des unités vendues (nombre d’unités vendues), et le montant budgétisé. La table de faits contient les noms des faits ou des mesures, ainsi que le stockage de clés de chacun des tableaux de dimensions liées. Le cube montre é la relation entre le fait et les tables de dimension. Le modèle de données entité-relation est couramment utilisé dans la conception de bases de données relationnelles, où un schéma de base de données se compose d’un ensemble d’entités et les relations entre eux. Un tel modèle de données est approprié pour le traitement des transactions en ligne. Un entrepôt de données, cependant, exige, un schéma d’orientation thématique concise qui facilite l’analyse de données en ligne. Le modèle de données le plus populaire pour un entrepôt de données est un modèle multidimensionnel, qui peut exister sous la forme d’un schéma en étoile, un schéma de Flocon de neige, ou un schéma fait de constellation. Regardons chacun d’eux.

Schéma étoiles:

Ceci est le paradigme de modélisation le plus commun, dans lequel l’entrepôt de données contient :

1. une grande table centrale (table de faits) contenant la majeure partie des données, sans redondance, et

2. un ensemble de tables plus petites qui en découlent (tableaux de dimensions), une pour chaque dimension. Le graphique de schéma ressemble à un starburst, avec les tableaux de dimensions affichés dans un modèle radial autour de la table de fait centrale. Par exemple, dans la figure 4 schéma 2 étoiles: les ventes sont prises en compte avec les dimensions f: clients, produits, date / heure et magasins. Le schéma contient une table de fait centrale pour les ventes qui contiennentt des clés à chacune des quatre dimensions, avec deux mesures: dollars_sold et units_sold. Pour réduire la taille de la table de faits, les identificateurs de dimension (e, g, date_key et PRODUCT_KEY) sont générés par le système d’identification.

Figure 3 2: start schema for sales data warehouse

Dans le schéma en étoile, chaque dimension est représentée par une seule table, et chaque table contient un ensemble d’attributs. Par exemple, la table de dimension du magasin contient l’ensemble d’attributs {clé de magasin, rue / store_address, ville, province ou État, pays}. Cette contrainte peut introduire une certaine redondance. Par exemple, “Debrezeit”

et “Nazreth” sont les deux villes de la région 4 (Oromia), Ethiopie. Les inscriptions pour ces villes dans le tableau emplacement de la cote permettra de créer une redondance entre la région des attributs et le pays; qui est, (..., Debrezeit, DZ, 4, Eth) et (..., Nazreth Nz, 4, Eth). En outre, les attributs avec une table de dimension peuvent former soit une hiérarchie (total de la commande) ou un réseau (d’ordre partiel).

Schéma Flocon de neige

Le schéma de flocon de neige est une variante du modèle de schéma en étoile, où certains tableaux de dimensions sont normalisés, ainsi diviser davantage les données dans des tables supplémentaires. Le graphique de schéma résultant constitue une forme similaire à un flocon de neige.

La principale différence entre les modèles du schéma en étoile et flocon de neige est que les tableaux de dimensions du modèle de flocon de neige peuvent être conservés sous forme normalisée à réduire les redondances. Une telle table est facile à entretenir et économise de l’espace de stockage. Cependant, ce gain de place est négligeable par rapport à la grandeur caractéristique de la table de faits. En outre, la structure de flocon de neige peut réduire l’efficacité de la navigation, car plusieurs jointures seront nécessaires pour exécuter une requête. Par conséquent, la performance du système peut être négativement affectée. Ainsi, bien que le schéma de flocon de neige réduit la redondance, il n’est pas aussi populaire que le schéma en étoile dans la conception de l’entrepôt de données.

Figure 3.3: schéma de flocon de neige pour l’entrepôt de données sur les ventes La figure 3.3 montre un exemple de schéma en flocon pour l’entrepôt de données de vente.

La table de faits dans flocon de neige est exactement la même que la table de faits dans un schéma en étoile. La principale différence entre les deux schémas est dans la définition de tables de dimension. Le tableau de la dimension du produit dans le schéma en étoile est normalisé dans le schéma en flocon donnant les nouveaux tableaux produits et fournisseurs.

Ainsi la table de produit contient les attributs product_key, nom, description, l’état, le prix, le coût et supplier_key où supplier_key est lié à la table de dimension de fournisseur qui contient supplier_key, Nom_fournisseur et des informations d’adresse. Da façon similaire, la table de dimension de magasin dans le schéma en étoile peut être normalisée en deux nouveaux magasins Tableaux- et la ville. Le city_key dans la nouvelle table de magasin est reliée à la dimension des villes.

Constellation de faits

Les applications sophistiquées peuvent nécessiter que plusieurs tables de faits partagent les tables de dimension. Ce type de schéma peut être considéré comme un ensemble d’étoiles, et donc est appelé un schéma de galaxie ou un fait constellation.

Figure 3.4: Schéma de fait constellation pour l’entrepôt de données sur les ventes

Le schéma de fait de constellation à la figure 3.4 spécifie deux tables de faits, la vente et l’expédition. La définition de la table de vente est identique à celle du schéma de départ.

Le tableau de fait expédition a produit, le temps, l’expéditeur, source et l’emplacement de destination que la dimension et deux mesures COST et units_shipped. Un schéma de fait constellation permet que des tables de dimension peuvent être partagées entre les tables de faits. Par exemple, les tables de dimensions pour le temps, produit, et l’emplacement sont partagées entre les ventes et les tables expédition de faits.

Dimensions: hiérarchies de concepts

Une hiérarchie concept définit une suite d’applications à partir d’un ensemble de concepts de bas niveau au haut niveau, des concepts plus généraux. Compte tenu de la dimension de l’emplacement, chaque ville peut être associée à la province ou de l’état ou de la région à laquelle elle appartient. Par exemple, Nazareth peut être mis en correspondance avec la région 4; et Addis-Abeba au fédéral; les provinces et / région peuvent être à leur tour être mises en correspondance avec le pays (par exemple, la région 4), Oromia mappé à l’Ethiopie.

Ces correspondances forment une hiérarchie de concept pour l’emplacement de la cote. La cartographie est ensemble de concepts de bas niveau (c.-à-villes) au niveau supérieur, des concepts plus généraux (à savoir les pays) comme le montre le Figure 3.5.

Figure 3.5: Un instantané d’une hiérarchie de concepts pour l’emplacement dimension Notez que de nombreuses hiérarchies de concepts sont implicites dans le schéma de base de données. Par exemple, en supposant que l’emplacement de la cote est décrit par le nombre d’attributs, rue, ville, province_or_state, zip_code et pays. Ces attributs sont liés par un ordre total formant une hiérarchie de concepts tels que “Street <Ville <province_or_state <Pays”

comme le montre la Figure 3.5.

Figure 3.6: Les structures hiérarchiques d’attributs dans les dimensions de l’entrepôt:

Une hiérarchie pour l’emplacement b) réseau de temps

Parfois, les attributs d’une dimension peuvent être organisés dans un ordre partiel, formant un réseau. Un exemple d’un ordre partiel de la dimension de temps basée sur la journée d’attributs, semaine, mois, trimestre et année est «jour <{mois <trimestre; semaine} <année “.

Une hiérarchie de concept qui est un ordre total ou partiel entre les attributs dans un schéma de base de données est appelée une hiérarchie de schéma.

Une hiérarchie de concept pourrait être définie par discrétisation ou regroupement de valeurs d’une dimension ou d’un attribut donné et résultant dans une hiérarchie de set-regroupement.

Une commande partielle ou totale peut être définie entre les groupes de valeurs. Par exemple, le prix peut être défini sur la plage / intervalle de valeurs telles que ($ x, .., $$$ y] désignant la gamme de $ x exclusive à $ y compris.

Mesures

Un point multidimensionnel dans l’espace de cube de données peut être défini par un ensemble de paires dimension-valeur. Par exemple, le total des ventes du premier trimestre de l’informatique à Vancouver (à savoir le temps = “Q1”, location = “Vancouver”, item =

“ordinateur”) est une mesure de cube de données comme le montre la Figure 3.5.

Une mesure de cube de données est une fonction numérique qui est évaluée à chaque point de l’espace de cube de données et elle est calculée pour un point donné en agrégeant les données correspondant aux paires respectives dimension-valeur pour définir le point donné. Des mesures peuvent être organisées en base holistiques sur le genre de fonctions d’agrégation utilisées dans trois catégories et de distribution, algébriques, et.

Figure 3.7: Exemple Cube de données associé à l’entrepôt de données sur les ventes Distributif

Une mesure est distributive si elle est obtenue par application d’une fonction d’agrégation distributive. Une fonction d’agrégation est distributive si elle peut être calculée d’une manière répartie. Supposons que les données sont divisées en n ensembles. Appliquer la fonction à chaque partition, se traduit par des valeurs globales de n. Si le résultat obtenu par application de la fonction aux n valeurs d’agrégats est le même que celui obtenu par application de la fonction à l’ensemble de données complet (sans séparation), la fonction peut être calculée d’une manière répartie.

Par exemple, si les ventes du produit A étaient 200,00 $ et des ventes pour le produit B étaient de 150,00 $, le total des ventes est de 350,00 $. Si les ventes d’hier étaient de 100,00 $ et les ventes pour la journée d’avant-hier étaient de 130,00 $, les ventes totales vont s’élevées à 230,00 $.

C’est-à-dire la somme () peut être calculée pour un cube de données en divisant d’abord le cube en un ensemble de sous cubes, le calcul de la somme () pour chaque sous cube, puis en additionnant les résultats obtenus pour chaque sous cube. Par conséquent, la somme () est une fonction d’agrégation distributive. De même, count (), min () et max () sont des fonctions d’agrégation de distribution.

Algébrique

Une mesure est algébrique si elle est obtenue en appliquant une fonction d’agrégation algébrique. Une fonction d’agrégation est algébrique si elle peut être calculée par une fonction algébrique avec M arguments (où M est un entier positif borné), dont chacun est obtenu par application d’une fonction d’agrégation distributive.

Par exemple, avg () (moyenne) peut être calculé comme somme () / count (), où les deux fonctions somme () et count () sont des fonctions d’agrégation de distribution. De même, min (N) et max (N) (qui retourne respectivement les valeurs minimales N et maximales N dans un ensemble donné) et l’écart type () sont des fonctions d’agrégats algébriques.

Holistique

Une mesure est holistique si elle est obtenue en appliquant une fonction d’agrégation globale.

Une fonction d’agrégation est holistique s’il n’y a pas de constante liée à la taille de stockage nécessaire pour décrire un sous agrégat. Autrement dit, il n’existe pas une fonction algébrique des arguments M (où M est une constante) qui caractérisent le calcul. Des exemples courants de fonctions globales comprennent médian (), le mode (), et le rang ().

Opérations OLAP

Dans le modèle multidimensionnel, les données sont organisées en plusieurs dimensions, et chaque dimension contient plusieurs niveaux d’abstraction définie par hiérarchies de concepts.

Cette organisation offre aux utilisateurs la souplesse pour afficher les données provenant de différents points de vueexpliqués dans cette section.

Roll-up

L’opération de roll-up (également appelée l’opération de forage-up) effectue l’agrégation sur un cube de données, soit en grimpant une hiérarchie de concept pour une dimension ou par réduction de dimension. Par exemple, roll-up sur lieu (des villes vers les pays) regroupe les produits vendus au sein d’un trimestre et dans un pays (de l’ordre total défini pour les villes / emplacement, les ventes de villes d’un même pays seront regroupées ensemble) comme montré dans le cube de données de la figure 3.5.

Figure 3 8: Cumul échantillon sur lieu appliqué à l’entrepôt de données de vente Drill-down

Drill-down: drill-down est l’inverse de roll-up. Il navigue à partir de données moins détaillées à des données plus détaillées. Drill-down peut être réalisé soit par éliminatioon d’une hiérarchie de concept pour une dimension ou introduction de dimensions supplémentaires. Par exemple, le forage vers le bas d’un cube à l’heure (de quarts de mois) utilise le concept de hiérarchie défini comme «jour <mois <trimestre <année”.

Le drill-down se produit en descendant la hiérarchie de temps à partir du niveau du trimestre au niveau plus détaillé du mois des données de détails de cube résultant des ventes totales de chaque produit par mois plutôt que de les résumer par trimestre.

Tranche

L’opération de coupe effectue une sélection sur une dimension donnée du cube, ce qui entraîne un cube secondaire. Par exemple, couper le cube pour le temps = Q1, pour obtenir des ventes de chaque produit dans le premier trimestre.

Dé

Les dés de fonctionnement définissent un cube secondaire en effectuant une sélection de deux ou plusieurs dimensions. Par exemple, les dés pour (location = “Toronto” ou “Vancouver”) et (temps = «Q1» ou «Q2») et (item = “Home Entertainment” ou “ordinateur”) sur le cube de données calculent la mesure de ceux des ventes de la maison de divertissement ou de produits informatiques menées à Toronto ou à Vancouver dans le premier ou le deuxième trimestre.

Pivot (rotation)

Le pivot est une opération de visualisation qui fait tourner les axes de données en vue de fournir une présentation de données de remplacement. Par exemple, faites pivoter le résultat de couper un cube de données pour le premier trimestre sur le produit et l’emplacement axes.

Évaluation

1. Pourquoi la technique de modélisation entité-relation ne convient pas pour l’entrepôt de données? Comment la modélisation dimensionnelle est-elle différente?

2. Quelles sont les hiérarchies et les catégories applicables à une table de dimension?

3. Quels sont les trois avantages du schéma en étoile? Quels sont les inconvénients susceptibles du schéma en étoile?

4. Comment un schéma en flocon diffère d’un schéma en étoile? Nommez deux avantages et deux inconvénients du schéma en flocon.

5. Expliquer pourquoi l’information à partir d’un schéma étoile est plus simple que des rapports à partir d’un schéma de traitement normalisé transactionnel en ligne (OLTP)

6. Dans un schéma en étoile, pour suivre les expéditions d’une société de distribution, nous trouvons les tables de dimension suivantes: (1) le temps, (2) client livré, (3) les navires, (4) produit, (5) de type d’accord, et (6) du mode de transport. Passez en revue ces dimensions et énumérer les attributs possibles pour chacune des tables de dimension. En outre, désigner une clé primaire pour chaque table.

Dans le document Entreposage et Fouille de données (Page 31-41)