• Aucun résultat trouvé

3 Chapitre 3 : Entrepôts de Données Spatiales et Spatial OLAP

3.4.1 Modèles basés sur des standards

3.4.1.1 Modèles UML

Les principaux modèles UML sont proposés dans les travaux [Glorio et Trujillo, 2008; Pinet et al., 2010; Pinet et Schneider, 2010].

[Glorio et Trujillo, 2008] étend le profil UML présenté dans [Lujan-Mora et al., 2006] (cf.

Section 2.5.1) par deux nouveaux stéréotypes : (i) SpatialMeasure pour représenter les

mesures spatiales et (ii) SpatialLevel pour représenter les niveaux d'agrégation spatiaux. Le modèle est vu comme un ensemble d'étoiles (ou d'hypercubes) pouvant partager des dimensions, des hiérarchies et des niveaux d'agrégation. Chaque étoile (stéréotype

StarPackage) contient un ensemble de dimensions (DimensionPackage) et un paquetage de

faits (FactPackage) qui à son tour contient un fait (Fact) et zéro ou plusieurs faits dégénérés

(DegenerateFact12). Chaque fait (Fact) contient un ensemble de mesures ou d'attributs de fait

(FactAttribute) et un ensemble de dimensions dégénérées (DegenerateDimension13); et

chaque niveau d'agrégation (Base) peut contenir différents types d'attributs : un identifiant (OID), un attribut particulier utilisé pour visualiser ses membres dans les outils OLAP (Descriptor), un attribut géométrique s'il est spatial et un certain nombre d'autres attributs descriptifs (DimensionAttribute). Les niveaux d'agrégation sont reliés par des relations stéréotypées Rolls-upTo (spécialisations d'associations UML) pour former les hiérarchies de dimension. Ces différents stéréotypes sont formalisés comme des spécialisations de métaclasses UML (e.g. le stéréotype Base spécialise la métaclasse UML class) sur lesquelles sont définies des contraintes OCL pour éviter leur mauvaise utilisation par les concepteurs. Un exemple de modèle spatio-multidimensionnel conceptuel, défini avec ce profil et représentant l'analyse des nombres d'oliviers selon le temps et la localisation spatiale, est représenté en Figure 3.10.

12 Le concept de fait dégénéré est introduit pour modéliser les relations fait-dimension non strictes qui possèdent des attributs.

Figure 3.10. Exemple de modèle spatio-multidimensionnel conceptuel spécifié avec le profil UML de [Glorio et Trujillo, 2008]. Issue de [Glorio et Trujillo, 2008].

L'usage des paquetages UML dans ce profil permet d'organiser les éléments multidimensionnels selon trois niveaux de détail, simplifiant ainsi la lecture des modèles complexes. Ce profil ainsi qu'un ensemble de relations QVT14 permettant la génération automatique du modèle logique sont implémentés par un module dans l'EDI (Environnement de Développement Intégré) Eclipse15 (cf. Figure 3.10).

De la même façon, [Pinet et Schneider, 2010] propose un profil UML qui étend le modèle UML présenté dans [Pinet et Schneider, 2009] (cf. Section 2.5.1) par deux concepts spatiaux : mesure spatiale (attribut UML dont le type de données est géométrique) et classe identifiée

spatiale (une classe identifiée ayant un attribut géométrique) pour représenter les niveaux

d'agrégation et faits spatiaux. Ce modèle unifie les représentations conceptuelles (i) des faits et des niveaux d'agrégation sous forme de classes identifiées (spatiales), ainsi que (ii) celles des relations d'agrégation et des relations fait-dimension sous forme d'associations

d'agrégation. Ces différents stéréotypes sont formalisés également comme des spécialisations

de métaclasses UML (e.g. l'association d'agrégation spécialise la métaclasse UML

association).

Ce modèle est enrichi par un ensemble de contraintes définies en OCL et UML pour garantir les conditions structurelles d'agrégeabilité (i.e. disjonction et complétude – voir Sections 2.3.4, 4.2.2 et 4.5.1) dans les hiérarchies de dimension. Ces contraintes sont également utilisées pour distinguer/définir les différents types de hiérarchies (e.g. onto ou non onto, etc.).

14 QVT (Query/View/Transformation lanuage) est le standard OMG pour l'expression de mappings entre

modèles, c'est l'une des spécifications les plus importantes de l'approche dirigée par les modèles MDA (Model Driven Architecture) [OMG, 2011a].

A noter également que ce travail est le seul qui utilise OCL pour modéliser les contraintes d'intégrité pour vérifier la consistance des données intégrées dans les EDS.

Un exemple de modèle conceptuel représentant l'analyse spatio-multidimensionnelle des épandages agricoles, qui est spécifié avec ce profil, est montré en Figure 3.11.

Figure 3.11. Exemple de modèle spatio-multidimensionnel conceptuel spécifié avec le profil UML de [Pinet et Schneider, 2010]. Issue de [Pinet et Schneider, 2010].

Ce profil n'a pas été implémenté.

Enfin, [Pinet et al., 2010] propose un profil UML, appelé profil SOLAP, qui représente (i) les hypercubes (spatiaux et non spatiaux) par des spécialisations de paquetages UML, (ii) les niveaux d'agrégation par des spécialisations de classes et (iii) les mesures comme des attributs UML regroupés dans une classe stéréotypée Measure. Les niveaux d'agrégation sont reliés par des relations d'agrégation UML pour former les hiérarchies. Les dimensions sont de plus spécialisées en trois types, (i) thématiques (ii) spatiales et (iii) temporelles. Des pictogrammes différents sont associés aux différents stéréotypes pour améliorer la lisibilité du modèle. Un exemple de modèle conceptuel spécifié avec ce profil et représentant l'analyse spatio-multidimensionnelle du transfert de pesticides dans des parcelles est représenté en Figure 3.12.

Figure 3.12. Exemple de modèle spatio-multidimensionnel conceptuel spécifié avec le profil UML de [Pinet et al., 2010]. Issue de [Pinet et al., 2010].

Ce profil été implémenté sous forme d'un module dans l'AGL Objecteering16. Un module permettant la transformation des instances de ce profil vers une représentation logique relationnelle en étoile a été également développé.

3.4.1.2 Modèles ER

A notre connaissance, seuls les travaux [Malinowski et Zimányi, 2004b, 2005; Malinowski et Zimányi, 2008] proposent un modèle spatio-multidimensionnel ER appelé Spatial MultiDimER. Cette extension spatiale du modèle multidimensionnel MultiDimER présenté dans [Malinowski et Zimányi, 2004a; Malinowski et Zimányi, 2006] (cf. Section 2.5.1) fournit un support spatial pour la plupart des éléments multidimensionnels (mesures, faits, niveaux d'agrégation, hiérarchies et dimensions). Le modèle (cf. Figure 3.13) est vu comme un ensemble fini de dimensions (Dimension) et de relations de fait (Fact relationship). Les dimensions sont composées d'ensembles de hiérarchies (Hierarchy), qui sont à leur tour

composées d'ensembles de niveaux d'agrégation reliés (Level). Un(e)

dimension/Hiérarchie/Niveau d'agrégation est dit(e) spatial(e) si elle (il) contient au moins un(e) hiérarchie spatiale/niveau d'agrégation spatial/attribut géométrique représentant les localisations spatiales de ses membres respectivement. Au sein d'une hiérarchie spatiale, deux niveaux d'agrégation spatiaux successifs sont reliés par une relation topologique (e.g.

coveredBy).

Figure 3.13. Métamodèle du modèle Spatial MultiDimER [Malinowski et Zimányi, 2008]. La mesure spatiale (Spatial Measure) est définie comme une mesure dont le type de données est géométrique. Le fait (Fact relationship) est formalisé comme une relation n-aire entre les niveaux d'agrégation feuille des dimensions, il est dit spatial s’il définit une relation topologique entre deux niveaux d'agrégation spatiaux feuille ou plus. Enfin ce modèle définit

la notation graphique associée à chacun des éléments proposés (cf. Figures 3.1 et 3.5). En particulier, les caractéristiques spatiales telles que les géométries de niveaux d'agrégation spatiaux et les relations topologiques sont représentées en utilisant les pictogrammes du

modèle conceptuel spatio-temporel MADS17. Des exemples de modèles spécifiés avec ce

formalisme sont représentés précédemment aux figures 3.1 et 3.5.

3.4.2Modèles ad hoc

Les modèles ad hoc nécessitent plus d'efforts de modélisation et de compréhension. Dans le contexte SOLAP, tous les modèles conceptuels ad hoc existants ne fournissent pas de notations graphiques ce qui rend leur utilisation très difficile. Les principaux modèles ad hoc sont proposés dans [Jensen et al., 2004; Ahmed et Miquel, 2005; Bimonte et al., 2005; Damiani et Spaccapietra, 2006; Salehi et al., 2010; Viswanathan et Schneider, 2010]. La plupart de ces propositions se focalisent sur des problématiques particulières de la modélisation spatio-multidimensionnelle : traitement du problème de comptage en double des valeurs de mesure dans les hiérarchies non strictes [Jensen et al., 2004]; prise en compte de la dépendance entre les agrégations numérique et spatiale [Bimonte et al., 2005], représentation de mesures spatiales à différentes échelles géographiques [Damiani et Spaccapietra, 2006], représentation des champs continus [Ahmed et Miquel, 2005].

Dans le contexte des applications de services géodépendants, [Jensen et al., 2004] étendent le modèle multidimensionnel et l'algèbre OLAP proposés dans [Pedersen et al., 2001] pour représenter et manipuler les hiérarchies non strictes; ils proposent également une méthode pour résoudre le problème du comptage en double des mesures induit par ce type de hiérarchies (cf. Section 4.5.1). La particularité de ce modèle est que les faits peuvent être reliés à des niveaux d'agrégation non feuille permettant la représentation de mesures à différents niveaux de granularité. Bien que ce travail concerne des applications géolocalisées, aucune définition et aucune notation graphique n'est proposée pour les concepts particuliers de la modélisation spatio-multidimensionnelle.

[Bimonte et al., 2005] proposent un model multidimensionnel formel, appelé GeoCube, représentant les mesures spatiales (géographiques) comme des entités complexes composées d'attributs descriptifs et d'une géométrie. Le modèle définit le concept de schéma d'entité (un tuple d'attributs) pour une modélisation symétrique des mesures et des niveaux d'agrégation; cette symétrie entre mesures et dimensions se traduit également par l’organisation des mesures en hiérarchies. En utilisant ce concept de schéma d'entité, les auteurs formalisent les concepts de mesure spatiale, de niveau d'agrégation spatial, de hiérarchie de dimension, de mode d'agrégation et d'hypercube. Le mode d'agrégation (ensemble de fonctions d'agrégation liant des mesures détaillées à des mesures agrégées) permet de représenter la façon dont les mesures spatiales sont agrégées.

[Damiani et Spaccapietra, 2006] proposent le modèle MuSD (Multi-granular Spatial Data

warehouse model) permettant la représentation de mesures spatiales à différentes échelles

géographiques. De façon similaire aux dimensions, les mesures spatiales sont organisées en plusieurs niveaux hiérarchiques représentant chacun une échelle géographique; et à chaque échelle est associée une représentation géométrique spécifique.

[Viswanathan et Schneider, 2010] propose un modèle appelé BigCube. Ce modèle définit un ensemble de types de données pour la modélisation de données multidimensionnelles (e.g. type de catégorie (niveau d’agrégation), type de hiérarchie, etc.). Excepté la considération

17

MADS est un modèle conceptuel très connu dans le domaine des bases de donnés spatio-temporelles [Parent et al., 1999].

des types de données spatiales pour les mesures et les niveaux d’agrégation, BigCube ne propose ni définitions ni notations graphiques pour les concepts particuliers de la modélisation spatio-multidimensionnelle.

[Salehi et al., 2010] propose un modèle conceptuel pour les hypercubes de données spatiales. En plus des concepts SOLAP définis dans [Rivest et al., 2005; Bédard et al., 2006] (cf. Section 3.2), ce modèle formalise les concepts suivants et leurs extensions spatiales aux deux niveaux instance et schéma : niveau d'agrégation, hypercube, hypercellule et fait. Le niveau d'agrégation spatial est défini comme un niveau d'agrégation ayant au moins un attribut spatial. L' hypercellule est définie comme le modèle commun à un certain nombre d'instances de fait; elle est spécifiée par une combinaison de niveaux d'agrégation et de mesures; elle est dite spatiale si elle inclut au moins un niveau d'agrégation ou une mesure spatiale. Le fait spatial est définit comme l'instance d'une hypercellule spatial. Les auteurs suggèrent que ce type d’hypercube doit offrir le support géométrique nécessaire pour permettre la représentation et la navigation cartographiques; en d'autres termes, il doit contenir des données géométriques en mesures ou en dimensions.

Enfin, l'évaluation de ces modèles selon un ensemble de critères concernant leur support à la définition des CI SOLAP est montrée en Section 6.6.

3.5Conclusion

Dans ce chapitre nous avons tenté de définir les principaux concepts des systèmes SOLAP en nous basant sur les définitions du chapitre 2. Les systèmes SOLAP sont alors définis comme des extensions des systèmes OLAP permettant la prise en compte la composante spatiale de l'information dans l'analyse multidimensionnelle. Le modèle spatio-multidimensionnel sur le quel se base ces systèmes est également défini comme l'extension du modèle OLAP. Les définitions adoptées pour les concepts de mesure spatiale, de niveau d'agrégation spatial, de

dimension spatiale, de hiérarchie de dimension spatiale, de fait spatial, et d'hypercube spatial, au niveau schéma et instance, sont présentées, situées par rapport aux principales

définitions existantes, et illustrées en utilisant des exemples repris de la littérature. Pour définir la spatialité de ces concepts, nous avons considéré le point de vue de la communauté informatique qui exige une représentation géométrique des données spatiales. Ce choix est fait dans le but de faciliter l'expression avec Spatial OCL (cf. Chapitres 4 et 7) et la vérification dans la base de données des contraintes d'intégrité spatiales.

L'agrégation dans le SOLAP a été ensuite décrite en soulignant la complexité de l'agrégation des mesures spatiales dont le résultat dépend de la connectivité spatiale des objets et de la distributivité des fonctions d'agrégation utilisées. Par rapport à ce dernier point (distributivité), les fonctions d'agrégation SOLAP ont été classées en trois catégories : distributives, algébriques, et holistiques. Egalement, une classification de ces fonctions par rapport aux types de données auxquels elles peuvent être appliquées est présentée. L'architecture typique des systèmes SOLAP est décrite (elle se compose de quatre couches logicielles, ETL Spatial, EDS, Serveur SOLAP et Client SOLAP), avant qu'elle ne soit présentée l'architecture effectivement choisie en termes d'outils utilisés. Ce chapitre se termine par un état de l'art décrivant les principaux modèles spatio-multidimensionnels conceptuels en détaillant les modèles basés sur les langages standards UML et ER. Le choix de détailler ces modèles est détecté par notre troisième objectif de thèse, qui consiste à proposer des solutions conceptuelles basées sur des standards (cf. Section 1.3).

Ce chapitre définit les principaux concepts liés à la modélisation, l'agrégation, l'exploration (opérateurs SOLAP) et l'architecture des systèmes SOLAP (qui constituent le contexte de nos travaux de thèse), qui sont nécessaires à la compréhension des composantes de la qualité

d'analyse SOLAP et à l'évaluation des travaux existants sur la définition des CI SOLAP décrites au chapitre suivant.

4 Chapitre 4 : Qualité d'analyse dans les