• Aucun résultat trouvé

2.2 Les mod` eles multidimensionnels des SID

2.2.1 Les sp´ ecificit´ es des SID

Traditionnellement, la mod´elisation des applications multidimensionnelles ´etait li´ee `a l’implantation comme l’argumente Torlone [Torlone 2003]. Cette singularit´e est li´ee `a l’importance de la prise en compte des caract´eristiques de l’information manipul´ee afin d’avoir des temps de r´eponse acceptables par les d´ecideurs. Ainsi, les premiers mod`eles qui ont ´et´e propos´es sont bas´es sur des structures ne repr´esentant pas tous les concepts exprim´es par les utilisateurs mais r´epondant aux caract´ eris-tiques de l’implantation. Ces structures sont celles de table ou celles du cube. Pour

r´epondre `a cela et, par la mˆeme, d´efinir un mod`ele multidimensionnel qui repr´ e-sente uniquement les concepts du monde r´eel ind´ependamment de toute implanta-tion physique, des listes de propri´et´es ont ´et´e d´efinies dans [Vassiliadis and Sellis 1999; Blaschka et al. 1999b; Abell´o et al. 2001a; Rafanelli 2003].

Ces listes comprennent des propri´et´es d´eriv´ees des principes g´en´eraux de mo-d´elisation des syst`emes d’information classiques et des propri´et´es sp´ecifiques aux applications d’analyses multidimensionnelles. Les propri´et´es d´eriv´ees des principes g´en´eraux qui ont fait la renomm´ee du mod`ele entit´e-association et du mod`ele rela-tionnel sont :

– un formalisme ind´ependant de l’implantation,

– le paradigme de s´eparation de la structure et des donn´ees, – un langage d´eclaratif.

Les propri´et´es sp´ecifiques aux analyses multidimensionnelles requi`erent des concepts qui se rapprochent de la vision des donn´ees par les d´ecideurs et de la s´emantique du d´ecisionnel. Les concepts introduits `a cet effet sont les concepts de mesure, de param`etre, d’hi´erarchie, d’attribut faible, de sch´ema en ´etoile et de sch´ema en constellation.

Fig. 2.3 – Les autres concepts multidimensionnels avec notre formalisme inspir´e de [Golfarelli et al. 1998b]

D´efinition 2.5 (Mesure) Elle repr´esente un indicateur de performance de l’acti-vit´e de l’organisation. C’est la propri´et´e qui caract´erise un fait.

Exemple : la mesure du fait « Immobilisations » pr´esent´e dans la figure 2.3 est la « Valeur v´enale ».

D´efinition 2.6 (Param`etre) C’est la propri´et´e constitutive d’une dimension.

Exemple : les param`etres de la dimension « Biens » pr´esent´ee dans la figure 2.3

sont « Bien », « Sous-famille » et « Famille ».

D´efinition 2.7 (Hi´erarchie) C’est une perspective d’analyse des faits. Elle d´efinit un sous ensemble ordonn´e des param`etres d’une dimension. Les param`etres organis´es en hi´erarchie sont appel´es niveaux.

Exemple : la hi´erarchie « h calendaire » de la dimension « Temps » pr´esent´ee dans la figure 2.3 organise les attributs suivant la r´eduction du niveau de d´etail Mois− >Trimestre− >Semestre− >Ann´ee.

D´efinition 2.8 (Attribut faible) C’est une information g´en´eralement textuelle qui caract´erise un param`etre.

Exemple : les attributs faibles des param`etres « Sous-famille » et « Famille » sont respectivement « NomSF » et « NomF ».

D´efinition 2.9 (Sch´ema en ´etoile) Un sch´ema en ´etoile est une repr´esentation multidimensionnelle des donn´ees propos´ee par [Kimball 1996] qui repr´esente le fait au centre et les dimensions qui rayonnent autour du fait. Cette repr´esentation est un standard de fait au sein de la communaut´e industrielle.

D´efinition 2.10 (Sch´ema en constellation) Un sch´ema en constellation est un regroupement de sch´emas en ´etoile qui partagent des dimensions communes. Il met en avant les corr´elations entre les faits et il ´evite de d´efinir plusieurs fois la mˆeme dimension au sein d’une mˆeme organisation.

Fig. 2.4 – Un sch´ema en constellation

Ces applications d’analyses multidimensionnelles requi`erent une repr´esentation singuli`ere de l’espace multidimensionnel qui supporte tout croisement pertinent des donn´ees. Les propri´et´es de ces listes sp´ecifiques aux analyses multidimensionnelles sont donc :

– la structuration complexe des dimensions afin d’exprimer les liens qui existent entre les param`etres des dimensions,

– la structuration complexe des faits et des mesures car les faits peuvent ˆetre li´es, un fait peut ˆetre compos´e de plusieurs mesures et une mesure peut d´eriver d’une ou de plusieurs autres mesures,

– la coh´erence de l’interrogation des donn´ees car une requˆete peut ˆetre construite `

a partir du r´esultat d’une pr´ec´edente avec des op´erations d’augmentation ou de r´eduction du niveau de d´etails des donn´ees suivant une hi´erarchie,

– le traitement sym´etrique des faits et des dimensions au cours des manipulations des donn´ees. Cette propri´et´e est li´ee aux alg`ebres et aux langages de d´efinition et de manipulation des donn´ees. Nous n’´evaluons donc pas celle-ci.

A cette liste, nous ajoutons la dynamique du SID car comme tout syst`eme d’in-formation, les SID ont un aspect dynamique. De plus, ils ont la particularit´e de d´eriver de sources de donn´ees et de faciliter la prise de d´ecision `a partir de donn´ees consolid´ees et ´elabor´ees.

Chacune de ces propri´et´es li´ees aux analyses multidimensionnelles s’´evalue sui-vant une ou plusieurs sp´ecificit´es multidimensionnelles. Nous pr´esentons ci-apr`es les sp´ecificit´es suivant lesquelles nous ´evaluons les mod`eles existants.

La structuration complexe des dimensions rel`eve de plusieurs concepts tels que les « hi´erarchies simples », les « hi´erarchies multiples et alternatives », les « hi´erarchies non-strictes », les « rˆoles d’une dimension », les « ´el´ements terminaux multiples » et les « dimensions d´eg´en´er´ees ».

Les hi´erarchies simples d’une dimension explicitent le chemin entre les para-m`etres d’une dimension.

Les hi´erarchies multiples et alternatives sont d´efinies en fonction des liens et des contraintes entre les param`etres d’une dimension. Dans le cas o`u, une dimension a au moins deux hi´erarchies simples dont les niveaux fins ne sont pas les mˆemes, elle poss`ede des hi´erarchies multiples. Cependant, si les niveaux fins sont les mˆemes, ces hi´erarchies sont des hi´erarchies alternatives.

Les hi´erarchies non-strictes sont d´efinies quand une instance d’un niveau fin peut appartenir `a plusieurs objets du niveau sup´erieur associ´e. Ce concept est tr`es pr´esent dans le d´ecisionnel car les perspectives d’analyse peuvent ˆetre li´ees ; il est important de l’identifier afin de traiter correctement au cours du d´eveloppement.

Exemple : un mois peut appartenir `a plusieurs saisons.

Les ´el´ements terminaux multiples indiquent qu’une dimension peut ˆetre re-li´ee aux faits par plus d’un de ses param`etres. Ce concept est important car tous les faits d’un sch´ema en constellation ne s’expriment pas n´ecessairement en fonction du mˆeme niveau de granularit´e d’une dimension. Il importe de le repr´esenter sur le sch´ema.

Exemple : le fait « Immobilisations » est au niveau de granularit´e mois alors que le fait « redevance force motrice » est niveau jour.

Les rˆoles d’une dimension permettent de repr´esenter qu’un fait peut s’exprim´e plusieurs fois en fonction d’une mˆeme dimension. Ces rˆoles sont pertinents car dans de nombreux projets une dimension intervient plus d’une fois. La conception qui en r´esulte g´en´eralement est la duplication de la dimension. C’est un abus de conception car c’est le mˆeme concept mais qui participent `a la relation avec deux rˆoles diff´erents. Exemple : dans la mod´elisation d’un SID de l’activit´e a´eroportuaire nationale, la dimension a´eroport intervient deux fois ; une premi`ere fois en tant que a´eroport de d´epart et une seconde fois en temps que a´eroport d’arriv´ee.

Une dimension d´eg´en´er´ee d´esigne un attribut d’un fait qui permet d’identifier de mani`ere unique ce fait et qui n’est pas une donn´ee qui caract´erise le fait, autrement dit qui n’est pas une mesure.

Exemple : dans le domaine des ventes, le num´ero de contrat identifie de mani`ere unique le fait « Ventes » alors que le fait est identifiable de mani`ere unique par

les dimensions en fonction desquelles s’exprime une vente telles que les dimensions « Produits », « Temps » et « Commerciaux ».

La structuration complexe des faits et des mesures repose aussi sur de nombreux concepts qui sont : les « mesures multiples », les « faits multiples » ou « sch´emas en constellation », les « mesures d´eriv´ees », les « liens entre les mesures » et les « faits d´eg´en´er´es ».

Les mesures multiples caract´erisent un fait compos´e de plusieurs mesures. Les faits multiples constituent les sch´emas en constellation. Cette sp´ecificit´e est de rigueur quand le projet d´ecisionnel est tr`es complexe et qu’il inclut un grand nombre de domaine d’activit´e.

Les mesures d´eriv´ees d´efinissent des mesures obtenues par l’application d’un calcul `a partir d’une ou de plusieurs mesures d’un fait et d’autres donn´ees. Ce calcul peut ˆetre bas´e sur un calcul arithm´etique, une fonction d’agr´egation ou une fonction analytique.

Exemple : dans le domaine des ventes, la mesure chiffre d’affaire peut ˆetre d´eduite `a partir d’un calcul arithm´etique simple `a partir de la mesure quantit´e de produits vendus. Nous notons que ce calcul requiert une donn´ee des sources qui est le prix du produit.

Les liens entre mesures explicitent les r`egles de calcul des mesures d´eriv´ees. Le calcul de mesures `a partir d’autres mesures ou d’autres donn´ees font partie de la tˆache des d´ecideurs pour pr´eciser les causes et les tendances. De plus, le fait de d´efinir les mesures d´eriv´ees d`es le d´ebut de l’ing´enierie, puis de les calculer permet aussi d’am´eliorer la qualit´e et les performances des SID.

Exemple : pour contrˆoler la fiabilit´e des donn´ees, les concepteurs d´ecisionnels d´eroulent tout le calcul `a l’origine d’une mesure. La connaissance des liens entre les mesures permet de proc´eder `a cette validation plus efficace par ´etapes et par la mˆeme de connaˆıtre les mesures qui sont concern´ees par la modification d’une mesure donn´ee. Dans le domaine de la force de vente, la prime des commerciaux se calcule `

a partir des r´esultats, des objectifs et du nombre d’absences. Si l’une de ces mesures est incorrecte, la validation s’arrˆete et le contrˆole de la prime est caduc.

Un fait d´eg´en´er´e est une mesure telle que `a une valeur de celle-ci sont associ´ees plusieurs valeurs d’une dimension pour un mˆeme rˆole [Kimball 1996; Giovinazzo 2000].

Exemple : dans le cas o`u une vente peut ˆetre r´ealis´ee par plusieurs commerciaux, la mesure « Commission » du fait « Ventes » est transform´ee en fait d´eg´en´er´e associ´e au lien entre le fait « Ventes » et la dimension « Commerciaux ».

La coh´erence de l’interrogation est li´ee `a la fiabilit´e des donn´ees du SID. En effet, une requˆete construite via des op´erations de manipulation sur les donn´ees suivant une hi´erarchie permet de r´eduire ou d’augmenter le niveau de d´etail des donn´ees. Elle se caract´erise par la pertinence des agr´egations.

La pertinence des agr´egations d´efinit les fonctions d’agr´egation valides pour le passage d’un niveau de d´etail n `a un niveau moins d´etaill´e m pour une hi´erarchie d’une dimension. Cette propri´et´e indique les consolidations de mesures qui ont un sens pour les d´ecideurs [Husemann et al. 2000].

Exemple : la fonction d’agr´egation g´en´eralement utilis´ee par d´efaut est la somme. Ainsi, dans le cas o`u la fonction somme n’a pas de sens pour une mesure, la fiabilit´e des donn´ees restitu´ees n’est pas garantie.

Les sp´ecificit´es pr´esent´ees ci-dessus caract´erisent la statique du SID. Cependant, il importe de prendre en compte la dynamique du SID pour des raisons d´ej`a ´enonc´ees. La dynamique s’´evalue en fonction des traitements que le mod`ele permet de repr´esenter. Par ailleurs les traitements du SID se rapportent `a la d´erivation des donn´ees et la pr´eparation des donn´ees.

La d´erivation des donn´ees regroupe les traitements d’extraction, de charge-ment, de suivi et de s´ecurit´e des donn´ees. Les traitements appel´es ETL (Extraction-Transformation-Load) sont donc principalement inclus dans cet ensemble.

La pr´eparation des donn´ees regroupe les traitements li´es `a la validit´e, l’his-torisation, le rafraˆıchissement, l’archivage, le calcul et la consolidation des donn´ees, autrement dit ceux li´es `a la caract´erisation des donn´ees pour la prise de d´ecision.

Une vingtaine de mod`eles ont ´et´e propos´es dans la litt´erature. Nous pr´esentons dans la section2.2.2une classification des mod`eles conceptuels. Dans la section2.2.3, nous dressons le bilan des mod`eles conceptuels.

Dans cet ´etat de l’art, nous ne traitons pas la mod´elisation au niveau physique et les langages car nos travaux de recherche ne s’y rapportent pas. En ce qui concerne les langages, c’est un th`eme de recherche connexe qui fait l’objet de propositions par notre ´equipe [Ravat and Teste 2001; Ravat et al. 2002, 2006].