• Aucun résultat trouvé

2.3 Les m´ ethodes de d´ eveloppement des SID

2.3.3 D´ emarche mixte

Dans cette section, nous pr´esentons les m´ethodes bas´ees sur une d´emarche mixte qui est caract´eris´ee par l’analyse des besoins des utilisateurs (d´emarche descendante produits des sch´emas id´eaux) et l’analyse des sources (d´emarche ascendante produits des sch´emas candidats). Cette d´emarche inclut une tˆache de confrontation g´en´ erale-ment entre un «sch´ema id´eal» produit `a partir des besoins des utilisateurs et des

«sch´emas candidats» produits `a partir des sch´emas des sources de donn´ees. De cette tˆache d´epend la fiabilit´e du SID par rapport aux besoins des utilisateurs et aux sources. Cependant, l’inconv´enient principal est que la tˆache de confrontation est longue, proportionnellement au nombre de sch´emas compar´es. Ainsi, nous ´ eva-luons aussi ces m´ethodes en fonction du nombre de sch´emas id´eaux et candidats. Le nombre et le type de sch´ema en entr´ee de la phase de confrontation permet d’´evaluer la fiabilit´e du SID et le gain de temps.

Dans [Bonifati et al. 2001], la m´ethode propos´ee d´efinit le sch´ema du SID suivant le mod`ele en ´etoile. Elle repose sur cinq ´etapes. Au cours de la d´emarche descen-dante, les auteurs utilisent le paradigme GQM (Goal/Question/Metric) [Basili et al.

1994] afin de g´en´erer manuellement un sch´ema id´eal `a partir des besoins utilisateurs.

Au cours de la d´emarche ascendante, les sch´emas candidats sont g´en´er´es automati-quement suivant un algorithme. Puis, ces n sch´emas candidats sont confront´es `a un seul sch´ema id´eal.

Dans [Cavero et al. 2001], les auteurs sugg`erent de ne pas d´efinir une m´ethode de d´eveloppement des SID distincte de celle des SI classiques mais de l’int´egrer dans celle des SI afin de ne pas rendre plus complexe le processus. La m´ethode qu’ils proposent, appel´ee MIDEA, repr´esente les besoins des utilisateurs via leur mod`ele conceptuel multidimensionnel IDEA suivant une d´emarche analogue `a celle relative

`

a la conception d’un mod`ele entit´e-association, selon les auteurs. Cette d´emarche n’est pas explicit´ee. La m´ethode autorise la cr´eation de nouveaux sch´emas entit´ e-association et la modification des sch´emas existants afin de satisfaire les besoins utilisateurs. Ce dernier point rel`eve d’un probl`eme tr`es complexe (non trait´e dans l’article) li´e `a la modification et la v´erification de sch´emas de bases de donn´ees en production qui est celui des ´evolutions de sch´emas [Blaschka et al. 1999a]. De plus, la fonction du SID n’est pas de modifier les sch´emas des sources mais de faire des acc`es en lecture pour des analyses et des recopies pour les calculs.

Cette m´ethode pr´esente d’autres inconv´enients car la phase d’analyse des besoins utilisateurs est minimis´ee. Elle se focalise sur la d´emarche ascendante ; la phase descendante est r´eduite `a la validation des sch´emas candidats par les utilisateurs.

Dans [Carneiro and Brayner 2002], les auteurs proposent une m´ethode mixte qui capitalise la connaissance d`es le d´ebut du projet via des m´eta donn´ees pour pallier au probl`eme de changement continu des employ´es d’un poste. Les auteurs proposent une m´ethode, X META, bas´ee sur un cycle de vie it´eratif incr´emental pour concevoir des magasins mais ´egalement l’entrepˆot. Cette m´ethode comprend plusieurs it´erations d´ecompos´ees en phase, sous-phase, groupe, module et activit´e dont la premi`ere est un prototypage du SID. Le SID r´esulte des trois principales phases appel´ees le prototypage, le d´eveloppement et la production.

Cette m´ethode diff`ere des autres m´ethodes car elle sugg`ere de g´erer les m´eta donn´ees en vue d’une r´eutilisation. Elle propose de construire plusieurs sch´emas id´eaux, mais le nombre de sch´ema candidat n’est ´evoqu´e. De plus, aucune des tˆaches n’est explicit´ee et elle ne repose pas sur un mod`ele.

Dans [Phipps and Davis 2002], les auteurs proposent d’obtenir un sch´ema concep-tuel multidimensionnel M/ER en d´erivant le sch´ema entit´e-association des sources de donn´ees suivant cinq ´etapes explicites. Ils utilisent un algorithme qui identifie les faits candidats en listant toutes les entit´es qui ont des attributs num´eriques.

Pour chaque entit´e, un sch´ema candidat sera cr´e´e. Les attributs du fait sont ceux de l’entit´e associ´ee qui sont cl´es primaires ou num´eriques. Les ´eventuels attributs non num´eriques sont regroup´es en une dimension. Enfin, toutes les entit´es connect´ees `a l’entit´e associ´ee au fait sont transform´ees en une dimension avec tous les attributs de l’entit´e connect´ee. Une ´evaluation des sch´emas candidats est faite suivant qu’ils r´epondent dans l’ordre `a la clause «From» et `a la clause «Select» d’une dizaine de requˆetes des utilisateurs.

Les tˆaches qui pr´ec`edent celles d’´evaluation et de raffinement des sch´emas candi-dats sont automatiques mais, celles-ci mˆeme ne le sont pas. Le principe du d´ecompte du nombre d’attributs num´eriques pour d´efinir de mani`ere quantitative le fait est pertinent.

Dans [Luj´an-Mora and Trujillo 2003], la m´ethode propos´ee est appel´ee «Data warehouse Engineering Process». Elle est bas´ee sur le paradigme objet avec le lan-gage de mod´elisation UML et le processus de d´eveloppement unifi´e UP. Les auteurs utilisent quatre types de sch´emas au cours du processus afin de mod´eliser les sources de donn´ees, les objets multidimensionnels, le stockage physique et les acc`es aux donn´ees en fonction du sch´ema physique. Cette m´ethode s’articule autour de trois grandes ´etapes qui sont l’analyse, la conception, l’implantation et les tests.

Elle d´efinit un sch´ema id´eal et un sch´ema candidat. Elle est bas´ee sur un mod`ele relativement complet d´efini suivant le profil UML adapt´e au multidimensionnel que proposent les auteurs, mais le guidage m´ethodologique n’est pas explicit´e.

Dans [Ghozzi et al. 2005], les auteurs proposent une m´ethode qui d´eroule com-pl`etement les deux d´emarches (ascendante et descendante).

La d´emarche descendante repose sur trois ´etapes. Elle d´efinit un sch´ema id´eal `a partir des besoins utilisateurs exprim´es sous forme de requˆetes-types. La d´emarche ascendante d´efinit un seul sch´ema candidat en six ´etapes (d´etermination des faits, d´ e-termination des dimensions, d´efinition de la dimension temporelle, d´efinition des gra-nularit´es, organisation des param`etres des dimensions, expression des contraintes).

Dans [Soussi et al. 2005], la m´ethode propos´ee d´efinit le sch´ema du SID `a par-tir des besoins utilisateurs exprim´es sous forme de tableaux n-dimensionnels et les sch´emas entit´e-association des sources. A partir des besoins utilisateurs, plusieurs sch´emas id´eaux. De mˆeme, plusieurs sch´emas en ´etoile sont d´eriv´es des sources afin de constituer la base de donn´ees de l’outil utilis´e pour l’expression des besoins et de confronter les besoins.

Synth`ese des m´ethodes bas´ees sur une d´emarche mixte

La d´emarche mixte cumule les avantages des d´emarches pr´ec´edentes. N´eanmoins, elle peut facilement en multiplier les inconv´enients au regard de l’avantage tr`es im-portant qu’elle procure. Les m´ethodes qui proposent de confronter un sch´ema r´ e-sultant de chacune des d´emarches limitent cet inconv´enient et elles contribuent `a garantir la fiabilit´e du SID en ´evaluant tant les besoins des utilisateurs que les sch´ e-mas des sources. [Ghozzi et al. 2005; Luj´an-Mora and Trujillo 2003] ne produisent qu’un sch´ema id´eal et un sch´ema candidat ; cela implique que le nombre de comparai-sons est invariable ind´ependamment de la taille du projet. Cependant, les m´ethodes [Bonifati et al. 2001; Phipps and Davis 2002; Soussi et al. 2005] produisent n sch´ e-mas id´eaux ou n sch´emas candidats, ils tendent vers une complexit´e croissante du processus de d´eveloppement.

Un autre inconv´enient de ces m´ethodes est qu’elles se focalisent sur la mod´ elisa-tion des donn´ees. De plus, la majorit´e de ces m´ethodes minimise la phase d’analyse des besoins des utilisateurs voire l’occultent [Cavero et al. 2001; Phipps and Davis 2002;Carneiro and Brayner 2002;Luj´an-Mora and Trujillo 2003] car elle passe direc-tement `a la mod´elisation conceptuelle du SID. De mˆeme, elle ne guide pas le choix de l’architecture du SID car elle d´efinisse un [Bonifati et al. 2001;Cavero et al. 2001;

Ghozzi et al. 2005;Soussi et al. 2005] voire deux modules du SID [Luj´an-Mora and Trujillo 2003]. Elle ne couvre donc pas le tout le processus de d´eveloppement.

Comme la tˆache du choix de l’architecture, les probl´ematiques li´ees `a l’alimen-tation du SID et plus g´en´eralement `a la dynamique du SID ne sont pas abord´ees.

Seule, la m´ethode propos´ee par [Luj´an-Mora and Trujillo 2003] permet de d´efinir des traitements d’alimentation, en l’occurrence les traitements ETL.

Tous ces travaux, sauf [Carneiro and Brayner 2002], n’abordent pas la probl´ e-matique de capitalisation et encore moins de r´eutilisation de la connaissance. Ces derniers ´evoquent la capitalisation de la connaissance, mais ils ne proposent ni de mod`ele ni d’outil. Cependant la complexit´e et le temps important requis pour la mise en place des SID sollicitent de tels m´ecanismes.

2.3.4 Bilan et positionnement par rapport aux m´ ethodes de