Dimension et hiérarchie - Modèle dimensionnel contraint

Chapitre II. Proposition d’un modèle dimensionnel

2. Modèle dimensionnel contraint

2.1. Dimension et hiérarchie

Un des objectifs des systèmes décisionnels est de calculer la performance d’une entreprise ou d’une organisation. Cette performance est formalisée par des indicateurs. Chaque groupe d’indicateurs est relatif à un sujet d’analyse. Les dimensions représentent les axes d'analyse en fonction desquels sont manipulés les sujets d'analyse. Une dimension est formée d’attributs décrivant les caractéristiques des indicateurs d’analyse. Les attributs d'une dimension peuvent être organisés en hiérarchies, de la granularité la plus fine à la plus générale.

Soient :

− N un ensemble de noms, − ID un ensemble d’identifiants,

− DOM = ∪Domi où chaque Domi est un domaine (tels que entier, réel, caractère, chaîne

de caractères, …) ; tout élément de DOM est une valeur.

− (E, ≤) un ensemble muni d’une fonction d’ordre. On dit que (E, ≤) est un treillis (ou un lattis) si toute partie ayant au moins deux éléments de E admet une borne inférieure et une borne supérieure. Par exemple, l'ensemble des sous-groupes d'un groupe donné, ordonné par l'inclusion, est un treillis : la borne inférieure est donnée par l'intersection, la borne supérieure par l’union des sous-groupes engendrés.

Définition

Une dimension D est définie par (ND, AD, HD, ID) où : − ND_∈

N est le nom de la dimension, − AD

= {a1, a2,…, au} est un ensemble d’attributs,

− HD

= {hD1, hD2,…, hDv} est un ensemble de hiérarchies,

− ID

= {ID1, ID2,…} est l'ensemble des instances de D. Une instance est définie par le n-

uplet [a1:v1, …, au:vu] tel que ∀k∈[1..u], ak∈AD∧ (vk∈ DOM ∨ vk∈ID).

Parmi les attributs d'une dimension, on distingue les attributs All et Id tels que Dom(All)={'all') et Dom(Id) ∈ ID. L’attribut Id est l’identifiant de la dimension. All désigne la granularité de plus haut niveau tandis que Id représente la granularité la plus fine.

Plusieurs hiérarchies d’attributs peuvent être définies au sein d’une même dimension. Ces hiérarchies représentent les perspectives d’analyse. Elles permettent de déterminer les niveaux de granularité auxquels peuvent être manipulées les indicateurs d’analyse.

Définition

Une hiérarchie hDi, définie sur une dimension Di, est un chemin élémentaire acyclique

débutant par Id et se terminant par All. Elle est définie par (Nh, Paramh, Supplh, Condh) où :

− Nh∈

N est le nom de la hiérarchie, − Paramh

: PD /{All}→ PD /{All} (PD⊆ AD) est une application décrivant la hiérarchie des attributs (chaque attribut est appelé paramètre de la hiérarchie) avec Pi → Pj

implique que Pi est de granularité strictement plus fine que Pj,

− Supplh

: PD → AD-PD est une fonction décrivant les attributs faibles (attributs de la dimension n’appartenant pas à Paramh) associés à chaque paramètre,

− Condh

est une expression booléenne définissant la condition d'appartenance des instances de la dimension à une hiérarchie.

Nous notons : − PD⊆

AD l’ensemble des paramètres de la dimension D. − ParamD_{: P}D →

PD est une fonction qui généralise Paramh définissant l’ordre des paramètres PD_{dans la dimension D. Param}D

(pi)renvoie l’ensemble des paramètres de

granularité moins fine relié à pi; − IParamh_{: DOM(P}D

) → DOM(PD) l’extension de l’application Paramh définie sur les instances des paramètres de la hiérarchie avec DOM(PD

) l’union des domaines des paramètres de la dimension. Cette application définit un ordre partiel sur les instances des paramètres de la hiérarchie ;

− IParamD_{: DOM(P}D

) → DOM(PD) l’extension de la fonction IParamh définissant un ordre partiel sur les instances des paramètres de la dimension ;

− ID

k ∈(cond)hDi pour indiquer que l’instance k de ID satisfait la condition Condh et par

conséquent ID

k appartient à la hiérarchie hDi.

Formalisme graphique. Nous proposons un formalisme graphique des différents concepts

en adaptant le formalisme défini par (Golfarelli et al, 1998) aux spécificités de notre modèle.

Une dimension est représentée par un rectangle comportant le nom de la dimension et relié à un treillis (PD

, ParamD) représentant les hiérarchies de la dimension. Ce treillis

est défini sur l’ensemble des paramètres de la dimension, PD_{, associé à la fonction d’ordre}

des paramètres, ParamD_{. Ce treillis comporte comme racine (borne inférieure) le paramètre}

identifiant de la dimension (Id) et comme nœud final (borne supérieure) le paramètre All. Chaque hiérarchie est représentée par un chemin dans ce treillis. Chaque nœud dans ce chemin, schématisé par un cercle étiqueté, représente un paramètre de la hiérarchie. Les attributs faibles sont représentés par leurs noms et sont reliés aux paramètres qu’ils décrivent. Les différentes hiérarchies sont nommées. Le nom de chaque hiérarchie contenu dans un rectangle est placé après le dernier nœud commun de façon à mettre en relief les différents chemins du treillis représentant les hiérarchies.

Nom hiérarchie Attribut faible

Figure II.1 : Formalisme graphique d’une dimension et de ses hiérarchies

Par abus de notation et afin de simplifier les exemples d’illustration, nous désignons les objets du modèle (dimensions, hiérarchies, …) par leur nom.

Exemple 1

Une société de location de voitures désire étudier la productivité de ses différentes agences de location au travers d’une application OLAP. Elle a besoin d'effectuer l'analyse quotidienne des locations de véhicules en fonction d’une offre proposée aux clients dans les différentes agences. L’analyse des locations de véhicules doit s’effectuer selon les axes d’analyse : Agences, Clients, Véhicules et Temps.

L’agence est caractérisée par son code, sa raison sociale et sa localisation. A ce niveau, nous souhaitons définir trois perspectives d’analyse en fonction de la localisation de l’agence. La première perspective décrit les agences suivant l'organisation géographique de la France en ville, département et région. La deuxième perspective, relative à l'organisation géographique des Etats-Unis, organise les villes par état. Enfin, la troisième perspective, commune à la France et aux Etats-Unis, décrit la position géographique des villes dans leur pays selon l'indication nord, sud, est, ouest.

Pour exprimer ces besoins, nous définissons la dimension Agences comme suit : − NAgences = "Agences",

− PAgences = {CodeAg, Raison, Ville, Département, Nom_dpt, Région, Etat, Zone, Pays,

All},

− HAgences = {geo_fr, geo_us, geo_zn},

− IAgences = {IAgences1, IAgences2, IAgences3,… }.

Nous présentons trois exemples d’instances de notre dimension Agences : deux agences françaises et une agence américaine. Chaque instance est un n-uplet de la forme suivante :

− IAgences1 = [CodeAg : 1, Raison : "Agence Campus31", Ville : "Toulouse",

Departement : 31, Nom_dpt : "Hte-Garonne", Région : "Midi-Pyrénées", Etat : NULL, Zone : 'Sud-Fr', Pays : "France", All : "all"],

− IAgences2 = [CodeAg : 2, Raison : "Agence du Bouchon", Ville : "Lyon", Département :

69, Nom_dpt : "Rhône", Région : "Rhône-Alpes", Etat : NULL, Zone : 'Est-Fr', Pays : "France", All : "all"],

− IAgences3 = [CodeAg : 3, Raison : "Big Appel Agency", Ville : "New York",

Département : NULL, Nom_dpt : NULL, Région : NULL, Etat : "New York", Zone : 'Ouest-EU', Pays : "Etats-Unis", All : "all"].

Pour compléter la définition de la dimension Agences, nous définissons trois hiérarchies. La hiérarchie "geo_fr" décrit les agences suivant l'organisation

hDim 1 P1 Dim Att_fai All P4 IdDim hDim i paramètres Nom dimension Une hiérarchie P3 ….

géographique française tandis que la hiérarchie "geo_us" est relative à l'organisation géographique des Etats-Unis. Enfin, la hiérarchie "geo_zn" décrit la perspective d’analyse par zone.

La hiérarchie "geo_fr", par exemple, comporte les paramètres CodeAg, Ville, Département, Région, Pays et All. Ces paramètres sont reliés par une fonction d’ordre les organisant du niveau le plus fin (CodeAg) au niveau le moins fin d’analyse (All). Les attributs faibles Raison relié à CodeAg et Nom_dpt relié au Département, complètent la sémantique de ces paramètres. La condition d’appartenance à cette hiérarchie est définie par le prédicat Pays = "France".

− hAgences1 = ("geo_fr", {Paramgeo_fr(CodeAg) = Ville, Paramgeo_fr(Ville) = Département,

Paramgeo_fr(Département) =Région, Paramgeo_fr(Région) =Pays, Paramgeo_fr(Pays) = All}, {Supplgeo_fr(CodeAg) = {Raison}, Supplgeo_fr(Département) =

{Nom_dpt}}, Pays = "France"),

− hAgences2 = ("geo_us", {Paramgeo_us(CodeAg) = Ville, Paramgeo_us(Ville) = Etat,

Paramgeo_us(Etat) = Pays, Paramgeo_us(Pays) = All}, {Supplgeo_us(CodeAg) = {Raison}}, Pays = "Etats-Unis" ∧ Etat ≠ NULL ),

− hAgences3 = ("geo_zn", {Paramgeo_zn(CodeAg) = Ville, Paramgeo_zn(Ville) = Zone,

Paramgeo_zn(Zone) = Pays, Paramgeo_zn(Pays) = All}, {Supplgeo_zn(CodeAg) = {Raison}}, Zone ≠ NULL ).

La spécificité de multi-instanciation de notre modèle réside dans l’intégration d’une condition d’appartenance des instances de la dimension aux hiérarchies (la propriété Condh). Ainsi, les instances {IAgences1, IAgences2} appartiennent à "geo_fr" tandis que

l'instance {IAgences3} appartient à "geo_us" et les instances {IAgences1, IAgences2, IAgences3}

appartiennent à "geo_zn". Dans notre modèle, ceci est exprimé par les expressions suivantes :

− IAgneces1, IAgences2 ∈(cond) geo_fr

− IAgences3 ∈(cond) geo_us

− IAgences1, IAgences2, IAgences3 ∈(cond) geo_zn.

La figure suivante présente la représentation graphique de la dimension Agences. Zone

Figure II.2 : Représentation graphique de la dimension Agences et de ses hiérarchies

Dans le document CONCEPTION ET MANIPULATION DE BASES DE DONNEES DIMENSIONNELLES À CONTRAINTES (Page 74-77)