D´ emarche mixte - Les m´ ethodes de d´ eveloppement des SID

2.3 Les m´ ethodes de d´ eveloppement des SID

2.3.3 D´ emarche mixte

Dans cette section, nous présentons les méthodes basées sur une démarche mixte qui est caractérisée par l’analyse des besoins des utilisateurs (démarche descendante produits des schémas idéaux) et l’analyse des sources (démarche ascendante produits des schémas candidats). Cette démarche inclut une tâche de confrontation gén´ erale-ment entre un «schéma idéal» produit à partir des besoins des utilisateurs et des

«schémas candidats» produits à partir des schémas des sources de données. De cette tâche dépend la fiabilité du SID par rapport aux besoins des utilisateurs et aux sources. Cependant, l’inconvénient principal est que la tâche de confrontation est longue, proportionnellement au nombre de schémas comparés. Ainsi, nous ´ eva-luons aussi ces méthodes en fonction du nombre de schémas idéaux et candidats. Le nombre et le type de schéma en entrée de la phase de confrontation permet d’évaluer la fiabilité du SID et le gain de temps.

Dans [Bonifati et al. 2001], la méthode proposée définit le schéma du SID suivant le modèle en étoile. Elle repose sur cinq étapes. Au cours de la démarche descen-dante, les auteurs utilisent le paradigme GQM (Goal/Question/Metric) [Basili et al.

1994] afin de générer manuellement un schéma idéal à partir des besoins utilisateurs.

Au cours de la démarche ascendante, les schémas candidats sont générés automati-quement suivant un algorithme. Puis, ces n schémas candidats sont confrontés à un seul schéma idéal.

Dans [Cavero et al. 2001], les auteurs suggèrent de ne pas définir une méthode de développement des SID distincte de celle des SI classiques mais de l’intégrer dans celle des SI afin de ne pas rendre plus complexe le processus. La méthode qu’ils proposent, appelée MIDEA, représente les besoins des utilisateurs via leur modèle conceptuel multidimensionnel IDEA suivant une démarche analogue à celle relative

a la conception d’un modèle entité-association, selon les auteurs. Cette démarche n’est pas explicitée. La méthode autorise la création de nouveaux schémas entit´ e-association et la modification des schémas existants afin de satisfaire les besoins utilisateurs. Ce dernier point relève d’un problème très complexe (non traité dans l’article) lié à la modification et la vérification de schémas de bases de données en production qui est celui des évolutions de schémas [Blaschka et al. 1999a]. De plus, la fonction du SID n’est pas de modifier les schémas des sources mais de faire des accès en lecture pour des analyses et des recopies pour les calculs.

Cette méthode présente d’autres inconvénients car la phase d’analyse des besoins utilisateurs est minimisée. Elle se focalise sur la démarche ascendante ; la phase descendante est réduite à la validation des schémas candidats par les utilisateurs.

Dans [Carneiro and Brayner 2002], les auteurs proposent une méthode mixte qui capitalise la connaissance dès le début du projet via des méta données pour pallier au problème de changement continu des employés d’un poste. Les auteurs proposent une méthode, X META, basée sur un cycle de vie itératif incrémental pour concevoir des magasins mais également l’entrepôt. Cette méthode comprend plusieurs itérations décomposées en phase, sous-phase, groupe, module et activité dont la première est un prototypage du SID. Le SID résulte des trois principales phases appelées le prototypage, le développement et la production.

Cette méthode diffère des autres méthodes car elle suggère de gérer les méta données en vue d’une réutilisation. Elle propose de construire plusieurs schémas idéaux, mais le nombre de schéma candidat n’est évoqué. De plus, aucune des tâches n’est explicitée et elle ne repose pas sur un modèle.

Dans [Phipps and Davis 2002], les auteurs proposent d’obtenir un schéma concep-tuel multidimensionnel M/ER en dérivant le schéma entité-association des sources de données suivant cinq étapes explicites. Ils utilisent un algorithme qui identifie les faits candidats en listant toutes les entités qui ont des attributs numériques.

Pour chaque entité, un schéma candidat sera créé. Les attributs du fait sont ceux de l’entité associée qui sont clés primaires ou numériques. Les éventuels attributs non numériques sont regroupés en une dimension. Enfin, toutes les entités connectées à l’entité associée au fait sont transformées en une dimension avec tous les attributs de l’entité connectée. Une évaluation des schémas candidats est faite suivant qu’ils répondent dans l’ordre à la clause «From» et à la clause «Select» d’une dizaine de requêtes des utilisateurs.

Les tâches qui précèdent celles d’évaluation et de raffinement des schémas candi-dats sont automatiques mais, celles-ci même ne le sont pas. Le principe du décompte du nombre d’attributs numériques pour définir de manière quantitative le fait est pertinent.

Dans [Luján-Mora and Trujillo 2003], la méthode proposée est appelée «Data warehouse Engineering Process». Elle est basée sur le paradigme objet avec le lan-gage de modélisation UML et le processus de développement unifié UP. Les auteurs utilisent quatre types de schémas au cours du processus afin de modéliser les sources de données, les objets multidimensionnels, le stockage physique et les accès aux données en fonction du schéma physique. Cette méthode s’articule autour de trois grandes étapes qui sont l’analyse, la conception, l’implantation et les tests.

Elle définit un schéma idéal et un schéma candidat. Elle est basée sur un modèle relativement complet défini suivant le profil UML adapté au multidimensionnel que proposent les auteurs, mais le guidage méthodologique n’est pas explicité.

Dans [Ghozzi et al. 2005], les auteurs proposent une méthode qui déroule com-plètement les deux démarches (ascendante et descendante).

La démarche descendante repose sur trois étapes. Elle définit un schéma idéal à partir des besoins utilisateurs exprimés sous forme de requêtes-types. La démarche ascendante définit un seul schéma candidat en six étapes (détermination des faits, d´ e-termination des dimensions, définition de la dimension temporelle, définition des gra-nularités, organisation des paramètres des dimensions, expression des contraintes).

Dans [Soussi et al. 2005], la méthode proposée définit le schéma du SID à par-tir des besoins utilisateurs exprimés sous forme de tableaux n-dimensionnels et les schémas entité-association des sources. A partir des besoins utilisateurs, plusieurs schémas idéaux. De même, plusieurs schémas en étoile sont dérivés des sources afin de constituer la base de données de l’outil utilisé pour l’expression des besoins et de confronter les besoins.

Synthèse des méthodes basées sur une démarche mixte

La démarche mixte cumule les avantages des démarches précédentes. Néanmoins, elle peut facilement en multiplier les inconvénients au regard de l’avantage très im-portant qu’elle procure. Les méthodes qui proposent de confronter un schéma r´ e-sultant de chacune des démarches limitent cet inconvénient et elles contribuent à garantir la fiabilité du SID en évaluant tant les besoins des utilisateurs que les sch´ e-mas des sources. [Ghozzi et al. 2005; Luján-Mora and Trujillo 2003] ne produisent qu’un schéma idéal et un schéma candidat ; cela implique que le nombre de comparai-sons est invariable indépendamment de la taille du projet. Cependant, les méthodes [Bonifati et al. 2001; Phipps and Davis 2002; Soussi et al. 2005] produisent n sch´ e-mas idéaux ou n schémas candidats, ils tendent vers une complexité croissante du processus de développement.

Un autre inconvénient de ces méthodes est qu’elles se focalisent sur la mod´ elisa-tion des données. De plus, la majorité de ces méthodes minimise la phase d’analyse des besoins des utilisateurs voire l’occultent [Cavero et al. 2001; Phipps and Davis 2002;Carneiro and Brayner 2002;Luján-Mora and Trujillo 2003] car elle passe direc-tement à la modélisation conceptuelle du SID. De même, elle ne guide pas le choix de l’architecture du SID car elle définisse un [Bonifati et al. 2001;Cavero et al. 2001;

Ghozzi et al. 2005;Soussi et al. 2005] voire deux modules du SID [Luj´an-Mora and Trujillo 2003]. Elle ne couvre donc pas le tout le processus de d´eveloppement.

Comme la tâche du choix de l’architecture, les problématiques liées à l’alimen-tation du SID et plus généralement à la dynamique du SID ne sont pas abordées.

Seule, la méthode proposée par [Luján-Mora and Trujillo 2003] permet de définir des traitements d’alimentation, en l’occurrence les traitements ETL.

Tous ces travaux, sauf [Carneiro and Brayner 2002], n’abordent pas la probl´ e-matique de capitalisation et encore moins de réutilisation de la connaissance. Ces derniers évoquent la capitalisation de la connaissance, mais ils ne proposent ni de modèle ni d’outil. Cependant la complexité et le temps important requis pour la mise en place des SID sollicitent de tels mécanismes.

2.3.4 Bilan et positionnement par rapport aux m´ ethodes de

Dans le document Eléments méthodologiques pour le développement des systèmes décisionnels dans un contexte de réutilisation (Page 55-58)