• Aucun résultat trouvé

Partie 3 Annexes

3.4 Cartographie des connaissances, fondements et mises en œuvre

3.4.5 Cartographie & carte : un problème d’adaptation

Nous avons eu l’occasion de découvrir de nombreuses cartes utilisées dans divers contextes. Un inventaire plus exhaustif a été maintenu { jour jusqu’au début de l’année 2004 par Martin Dodge, au travers du magazine Mappa•Mundi (disparu en 2001) et de son ouvrage « Atlas of CyberSpaces » [Dodge and Kitchin 2001]. Il montre le nombre de travaux qui existent dans ce domaine.

Nous avons défini la cartographie comme la discipline et l’activité de construction d’une carte. A partir de données cartographiques, on souhaite générer plusieurs cartes adaptées à des contextes différents. C’est ce qui distingue notre approche et notre définition de la cartographie des nombreux exemples précédents : les données ou la sémantique ne sont le plus souvent pas réellement utilisées, et plus rarement encore réutilisées.

La communauté des géosciences respecte cependant cette définition. Nous avons par exemple mentionné le site World Mapper permettant de déformer le monde à volonté en fonction de différents critères (le revenu national, la population et la superficie). C’est aussi le travail proposé par Google Earth et Google Maps ou encore le GéoPortail de l’IGN en France : à partir de photos satellites ou aériennes de la surface de la terre, on propose de superposer des données diverses : noms des rues, des monuments historiques, résultats des élections, etc.

En dehors de la communauté des géosciences, peu d’approches informatiques se sont focalisées sur ces aspects. Deux projets existent à notre connaissance : la cartographie sémantique de Christophe Tricot et le projet MolAge [Crampes, Ranwez et al. 2006].

▲ Figure 3.29 – Exemple de choix de représentation pour une structure donnée (ici un arbre), préalable au rendu graphique. ◄ Figure 3.30 – Découpage en quatre niveaux de la production d’une carte. Christophe Tricot s’intéresse dans sa thèse { la cartographie sémantique. Plus précisément il s’agit de cartographier la « sémantique d’un domaine », ce qu’il restreint { une hiérarchie de termes et concepts. Il décompose en quatre étapes la construction d’une carte suivant l’architecture préconisée dans [Chi and Riedl 1998] et [Mackinlay 1986] (figure 3.30):

- structuration d’un espace informationnel brut,

- représentation de cet espace informationnel structuré (figure 3.29), - visualisation de la carte représentée,

- adaptation de la carte par l’interaction de l’utilisateur.

Concernant les deux premières étapes, il propose deux formalismes : SNDF permet de structurer les données sous forme d’un réseau sémantique, MDL est un dérivé d’XML qui permet de décrire les opérations de représentation de ces données (disposition dans la fenêtre, etc.). L’introduction d’une couche « représentation » est une évolution de modèle de Chi, précédemment introduite par M. Carpendale [Carpendale 1999]. Par la suite, un outil permet de générer une visualisation soit sous forme de « fish-eye polaire » (une représentation proche de la géométrie hyperbolique palliant la difficulté de manipulation de cette visualisation), ou par une disposition radiale avancée (figure 3.31).

Visualisation radiale « Fish-eye » polaire

Figure 3.31 –Mise en œuvre de données cartographiques dans deux visualisations différentes, l’une étant plus accessible au débutant, l’autre adaptée à l’expert.

La seconde approche adoptée par [Crampes, Ranwez et al. 2006] représente dans un format propriétaire dérivé d’XML des données et des informations sur leur représentation et sur les lentilles mises en œuvre. Il est possible de combiner un graphe et des données multidimensionnelles. La visualisation est basée sur un modèle physique [Eades 1984]. L’environnement propose de multiples fonctionnalités et permet de composer de nombreuses vues différentes. L’illustration proposée (figure 3.32) montre quatre exemples d’application de l’environnement : la supervision du programme ToxNuc-E () [Anoir, Penalva et al. 2005], l’exploration d’une base musicale (), la spécification d’une visualisation en alignant une ontologie du domaine avec un métamodèle de MolAge [Crampes, Villerd et al. 2006] () et l’indexation de titre musicaux reprenant le principe des diagrammes d’Euler ().

Supervision de projet Exploration d’une CD-thèque

Spécification formelle d’une visualisation Indexation de titres musicaux

Figure 3.32 – Captures de MolAge, un environnement de visualisation appliqué dans des contextes divers.

3.5 Synthèse

Le biologiste rencontre une difficulté face à une dispersion et à une hétérogénéité des données et des outils pour les manipuler. La réponse que nous proposons reprend le principe de la cartographie : nous souhaitons mettre en œuvre de multiples vues sur les données

adaptées au contexte et à la tâche à réaliser. Les données cartographiques des connaissances biologiques sont au centre de ces vues. Notre approche a ainsi l’originalité de s’intéresser conjointement à deux domaines : l’intégration de données et la visualisation de ces données.

Nous avons pour cela conçu un environnement appelé I²DEE et présenté dans la partie suivante. Lors de la construction de cette solution, nous avons constamment dirigé nos réflexion afin d’offrir un environnement simple, souple, extensible, capable de répondre aux besoins diversifiés des utilisateurs et des développeurs.

L’informaticien peut ainsi être amené { exploiter I²DEE pour des développer des procédures de fouille de données, de produire un portail en ligne, d’accéder { des services Web, de construire un outil riche adapté à un besoin spécifique ou encore ajouter une source dans le système. Il doit pouvoir réaliser tout cela facilement, et en un temps minimum.

L’utilisateur final au contraire a d’autres préoccupations : une équipe peut souhaiter disposer d’un entrepôt pour fouiller les données, et en être propriétaire pour les nettoyer ou les annoter. Un second cas d’utilisation est le portail en ligne qui est utilisé pour accéder { une information { tout instant, sans installation d’un outil quelconque. Enfin, le troisième cas est celui de l’application métier qui nécessite de croiser l’information avec plusieurs sources, et plusieurs applications métiers. On souhaite alors apporter une réponse concrète au problème « du nombre de fenêtres qui encombrent le bureau », en minimisant les accès nécessaires à des portails externes et en mettant à disposition des techniques de visualisation avancées.

Dans la suite de ce mémoire, nous présentons l’environnement I²DEE. Après un description générale de l’architecture et du modèle qui apportent souplesse et extensibilité, nous détaillons les procédures d’intégration et de fouille de données mise en œuvre. La boîte { outil graphique est alors présentée, { l’issue de quoi nous détaillons comment { différents niveau de l’environnement, nous contribuons { l’adaptabilité du système. Enfin, nous concluons en présentant l’application d’I²DEE { deux problèmes spécifiques et distincts : la conception d’une ontologie et l’analyse de données d’expression issues de puces { ADN et provenant de plusieurs jeux de données distincts.

Partie 2

L’environnement I

2

DEE :

méthodologie, mise en œuvre

et résultats

CHAPITRE 4

Présentation générale d’I2DEE

« How can experimental protocols, descriptions of model systems, statistical criteria for data acceptability, and many other critical elements be effectively communicated between technology silos? »

TED SLATER

4.1 Introduction ... 119 4.2 Modèles des données ... 119 4.2.1 Vers une modèle de graphe ... 119 4.2.2 Modèle relationnel ... 121 4.2.3 Modèle objet ... 124 4.3 Architecture générale ... 125 4.3.1 Polyvalence ... 126 4.3.2 Principe général d’utilisation ... 127 4.3.3 Architecture logicielle ... 130 4.4 Synthèse ... 131

4.1 Introduction

Notre contribution pour répondre à la problématique posée dans la première partie consiste à reprendre une approche traditionnelle issue de la cartographie géographique : un système d’information géographique contient des données qui sont contextualisées par rapport à un besoin sous la forme d’une carte. Cette carte est visuelle, intuitive, adaptée { un besoin spécifique. Dans le contexte biomédical, l’application de cette approche nous amène { proposer un entrepôt de données biologiques et une boîte à outils de visualisation permettant la conception rapide et simple d’interfaces utilisateurs adaptées { un besoin spécifique. Notre architecture se veut avant tout souple et ouverte afin de prendre en compte les problématiques sociologiques mises en évidence par L. Stein [Stein 2003].

I²DEE1 est l’environnement que nous avons implémenté en fonction de cette architecture. Notre approche vise à respecter un compromis entre expressivité et extensibilité. Pour cela, nous proposons une approche simple à base de graphe. Le modèle peut être perçu comme un métamodèle, et positionné { l’intersection des systèmes d’intégration et des navigateurs (systèmes à base de liens et chemins) : il propose une représentation navigationnelle de l’information tout en conservant la finesse de représentation d’une base de données et le langage de requête du système d’intégration. La première partie de ce chapitre décrit ce choix de modélisation. La seconde partie montre comment en s’intégrant plus globalement dans l’architecture d’I²DEE, ce modèle permet de répondre de façon unifiée à la plupart des besoins qui motivaient jusqu’ici des approches différentes de l’intégration de données. Les principales composantes sont détaillées dans les chapitres qui suivent (procédure d’intégration, boîte { outils graphique, mécanisme d’adaptabilité).