• Aucun résultat trouvé

Légende :

données Schémas Spécifications

Sujet de thèse Étude des schémas, des données et des spécifications BD1 BD2 BD intégrée

A.4.2.1 APPROCHES METHODOLOGIQUES APPROCHE DE [DEVOGELE 1997]

L’approche méthodologique sans doute la plus complète aujourd’hui pour intégrer des BD géographiques est celle définie par [Devogele 1997, Devogele et al. 1998]. L’auteur a étendu le processus d’intégration déclaratif proposé par [Spaccapietra et al. 1992] (présenté à la section A.3.2.) pour prendre en compte la dimension spatiale des éléments à intégrer. Plusieurs efforts préalables avaient déjà été fournis pour se raccrocher à une méthodologie d’intégration existante mais sans réellement tenir compte de la spécificité des BDG [Nyerges 1989]. Le processus de [Devogele 1997] comprend les trois phases de l’intégration : la pré-intégration, la recherche des correspondances et l’intégration. Ce travail apporte plusieurs contributions au problème d’intégration des BDG. D’abord, une taxonomie des conflits spécifiques a été proposée (figure 20). Parmi ces conflits, on peut citer [Parent et al. 1996, Devogele 1997] :

• Les conflits de métadonnées géométriques : conflits de résolution, de précision et d’exactitude qui sont susceptibles de provoquer des conflits de données.

• Les conflits de définition des classes : on distingue plusieurs catégories dont les conflits de critère de spécification, qui peuvent se traduire par des contraintes de sélection ou de décomposition des objets différentes. Il existe aussi les conflits de fragmentation qui peuvent se traduire par des conflits de segmentation (découpage des objets selon des attributs différents), de granularité (découpage des objets selon le même attribut mais en prenant en compte un critère d’homogénéité différent) ou de décomposition (un objet dans une base correspond à plusieurs objets dans l’autre base). Des exemples sont fournis à la figure 20.

• Les conflits de structure : en plus des conflits classiques que l’on peut trouver entre les schémas (comme la modélisation d’un concept sous forme de classe dans l’un et sous forme d’attribut dans l’autre), on trouve les conflits de stockage de l’information. Ils font référence aux informations implicites que l’on peut déduire des BD.

• Les conflits de description sémantique et géométrique : ces conflits résultent des différences de propriétés des classes en correspondance. Ils concernent notamment le nom de la classe, les attributs (domaine de valeur, type,…) et la dimension de la géométrie retenue (point, ligne, polygone).

En plus de cette taxonomie, le langage d’assertion de correspondance inter- schémas (ACI) a été étendu pour exprimer les relations entre les éléments des BDG et déclarer les conflits spécifiques. Cette extension se traduit notamment par l’ajout de la notion de direction dans les clauses AAC, la définition d’une clause relative à l’appariement géométrique (AGD), la définition d’une clause relative aux conflits de description de la géométrie (AGC - Avec Géométrie Correspondante) et différentes solutions pour traduire les conflits de critères de spécification, de fragmentation, etc. Plusieurs réponses ont également été apportées pour résoudre ces conflits lors de la phase d’intégration proprement dite.

Figure 20. Quelques exemples de conflits d’intégration spécifiques aux bases de données géographiques. (D’après la classification de [Devogele 1997])

Un processus d’appariement géométrique automatique a enfin été défini pour mettre en correspondances les données. Il permet de relier deux réseaux routiers de BDG ayant des échelles différentes.

Cette approche méthodologique est assez détaillée et nous nous sommes beaucoup inspiré de ce travail pour réaliser notre étude. Nous avons également utilisé les algorithmes d’appariement géométrique proposés. Néanmoins, la méthodologie de [Devogele 1997] n’apporte pas de solution pour évaluer la cohérence des données une fois celles-ci appariées. Notre thèse qui porte sur ce sujet permet donc de compléter cette approche.

APPROCHE DE [BRANKI ET DEFUDE 1998]

D’autres auteurs ont également apporté leur contribution à l’intégration des schémas. Ainsi, [Branki et Defude 1998] suggèrent une méthodologie d’intégration fondée sur l’utilisation d’une logique de description. Le processus se compose des étapes suivantes :

• La pré-intégration : les schémas initiaux des BD sont transformés dans un autre langage de représentation  le modèle sémantique GeoCoopm  en traduisant les différents éléments des schémas source en termes de concepts et de rôles (modèle dérivé des logiques de description).

• L’analyse des schémas : une fois la transformation réalisée dans le modèle canonique, les attributs (rôles) sont comparés et une hiérarchie d’attributs globale est définie. Cette hiérarchie est construite manuellement, par l’expert du domaine, en déduisant les correspondances.

Conflit de critère de spécification

Saisie si longueur > 50m

Saisie si longueur > 80m

Conflit de résolution

> Longueur minimale d’un décrochement : 2m

> Inter-distance minimale : 2m

> Longueur minimale d’un décrochement : 3m

> Inter-distance minimale : 3m

Découpage selon le régime d’écoulement du cours d’eau

Conflit de segmentation

Découpage selon la largeur du cours d’eau

Conflit de décomposition

> Classe Tribune > Classe Terrain

> Classe Stade

Conflit de description géométrique

objet 2D

objet 1D

Conflit de stockage

Un objet « pont » existe au croisement d’une route et d’un cours d’eau

L’objet « pont » peut être déduit mais n’est pas stocké

BD1 BD2 BD1 BD1 BD2 BD2 BD2 BD1 BD1 BD1 BD2 BD2

• La construction d’une version préliminaire du schéma intégré : à partir de cette hiérarchie d’attributs, un graphe de concepts est construit automatiquement. Cette construction est facilitée par la fonction de subsomption propre aux logiques de description (déduction de liens ‘is-a’ : liens de généralisation-spécialisation). Le graphe conceptuel fait apparaître différentes relations entre les concepts des schémas source.

• La restructuration et l’enrichissement du schéma intégré : pour tenir compte de certains conflits spécifiques aux BDG, plusieurs opérations de restructuration sont définies. Deux catégories d’opérateurs sont proposées : les opérateurs de restructuration des schémas et les opérateurs de restructuration des représentations spatiales. Les premiers permettent de créer de nouveaux concepts à partir des concepts existants (opérateurs de généralisation, de spécialisation). Les seconds sont destinés à redéfinir les concepts appartenant à une certaine représentation spatiale dans une autre représentation spatiale. Ces restructurations sont guidées par des métadonnées assez générales qui concernent notamment la résolution, le système de référence et la dimension des instances représentées par les concepts. On aboutit finalement au schéma intégré.

La proposition de [Branki et Defude 1998] concerne principalement les schémas. Leur méthodologie d’intégration fondée sur l’utilisation d’une logique de description s’inspire des travaux réalisés dans le cadre des BD classiques. Les auteurs tiennent compte des conflits spécifiques aux bases de données spatiales. L’intégration est guidée par des métadonnées générales.

APPROCHE DE [STRAUCH ET AL.1998]

La méthodologie MMultiGIS proposée par [Strauch et al. 1998] comprend les étapes classiques d’intégration (pré-intégration, analyse des schémas, intégration) suivie de la création de schémas externes et de leur validation. Le modèle commun choisi (modèle pivot) correspond à une extension d’un format de stockage et d’échange de données (SAIF - Spatial Archive and Interchange Format). L’analyse des correspondances entre les éléments des schémas porte sur trois contextes différents : le contexte spatial (analyse des différences relatives aux systèmes de référence cartographique utilisés, à l’étendue de la région concernée), le contexte d’application (analyse des différences à partir de métadonnées décrivant le domaine d’application de la base) et le contexte sémantique (analyse de la proximité sémantique existant entre les classes et attributs des deux schémas). La résolution des conflits et la phase d’intégration sont ensuite réalisées, se traduisant par la création du schéma global et se poursuivant par la création de schémas externes.

Nous retenons de cette approche que des métadonnées sont utilisées pour décrire le domaine d’application des bases.

APPROCHE DE [PARK 2001]

La proposition de [Park 2001] montre clairement que l’intégration des BDG passe par un travail au niveau des schémas et des données. Une première étape consiste à analyser et déclarer les correspondances entre les éléments des schémas et ce, en utilisant des métadonnées sur la sémantique des éléments. Parallèlement, un processus de conversion des données permet de transformer les instances pour les rendre plus homogènes et les mettre en relation. Les fonctions de conversion incluent des méthodes d’appariement (fonctions de superposition), de transformation des

formats et des modes de représentation, d’analyse de la topologie, des réseaux, etc. Un prototype d’AGL (atelier de génie logiciel) a été défini. Il consiste en plusieurs modules : une module de conception de schémas, un module de traduction des schémas dans le modèle canonique défini (« Unifying Semantic Model »), un module permettant de définir les relations entre les éléments des schémas, et une librairie de fonctions de conversion dédiées aux données géométriques.

Cette approche est intéressante. [Park 2001] distingue l’intégration des schémas et des données, de manière analogue à la nôtre. L’auteur utilise également des métadonnées pour comprendre la sémantique des schémas. La cohérence entre les données n’est pas étudiée.

APPROCHE DE [LASSOUED ET AL.2004]

Une autre contribution récente fondée sur l’utilisation de l’apprentissage automatique multi-stratégies a récemment été proposée [Lassoued et al. 2004]8. Les

auteurs cherchent à établir les correspondances entre un schéma global défini dans un contexte de médiation et de nouveaux schémas source. Leur méthode est inspirée des travaux de [Doan et al. 2003], adaptés aux BD géographiques. Les schémas initiaux sont d’abord traduits dans le modèle de données préconisé par l’OpenGIS Consortium et enregistré dans le format GML (« Geography Markup Language »)9. Les schémas

source sont ensuite raffinés et étendus de façon à faciliter l’intégration (on peut faire l’analogie avec l’étape d’enrichissement sémantique du processus d’intégration). Ce raffinement est réalisé en se fondant sur la notion d’attribut discriminant qui permet de spécialiser certaines classes des schémas (on décompose par exemple un attribut énuméré en plusieurs sous-classes). La recherche de ces propriétés discriminantes est facilitée par l’emploi d’apprenants (algorithmes d’apprentissage automatique) : le « Name Learner » et le « Content Learner ». A partir d’un ensemble d’exemples d’apprentissage composés des noms d’attributs et de leurs valeurs (avec leur classe correspondante fournie par l’expert : attribut discriminant ou non), les apprenants permettent d’associer des notes (scores) aux attributs, reflétant le degré auquel ils considèrent ces attributs comme discriminant ou non. Ces notes sont combinées par un méta-apprenant qui détermine des coefficients de confiance sur les apprenants respectifs. Une fois ce raffinement réalisé, les correspondances entre le schéma étendu et le schéma global sont déterminées. Plusieurs apprenants sont également utilisés à cette étape dont un apprenant géométrique. Celui-ci exploite cette fois les propriétés géométriques des objets du schéma source pour les classer. Le système d’apprentissage est fondé sur un réseau de neurones : à partir de propriétés géométriques calculées, le système détermine la classe de l’objet (route, bâtiment, cours d’eau, …).

Cette contribution est donc d’ordre méthodologique, mais vise aussi à trouver des solutions pour automatiser la mise en correspondance des schémas. C’est une approche qui exploite l’apprentissage automatique, comme celle que nous proposons dans cette thèse.

8 Cette contribution s’inscrit dans le cadre du projet RNTL VirGIS. On peut trouver une description du projet

sur le site : http://www.telecom.gouv.fr/rntl/FichesA/Virgis.htm

A.4.2.2 MODELES SUPPORTANT LA REPRESENTATION MULTIPLE

La modélisation conceptuelle des BD géographiques requiert l’utilisation de formalismes10 adaptés à l’information spatiale [Pantazis et Donnay 1996, Hadzilacos et

Tryfona 1998]. Les deux propositions les plus abouties aujourd’hui à ce sujet sont celles de l’équipe de Stefano Spaccapietra de l’EPFL et Christine Parent, qui proposent le modèle MADS11 [Parent et al. 1998], et celle de l’équipe d’Yvan Bédard

de l’université Laval, fondée sur les PVL’s [Bédard 1999].

Dans un contexte d’intégration, il est nécessaire d’utiliser des modèles suffisamment riches pour exprimer la sémantique des données dans les schémas et faciliter ainsi la comparaison des concepts (classes, attributs, relations, contraintes, etc.). Par ailleurs, suivant la stratégie adoptée pour l’intégration, les modèles doivent être capables de supporter des concepts permettant la représentation multiple [Vangenot 2001]. Une base de données multi-représentations est une base dans laquelle sont stockées plusieurs représentations d’une même entité géographique, ces représentations étant liées à des niveaux de détails et des points de vue qui leur sont propres. Les modèles conceptuels de données doivent permettre de repésenter cette multiplicité. Nous détaillons ci-dessous les solutions proposées par [Vangenot et al. 2002] pour le modèle MADS et celle de [Bédard et al. 2002, Proulx et al. 2002] dans le cadre des PVL’s.