• Aucun résultat trouvé

R ECHERCHE DES CORRESPONDANCES

A.4.1 S PECIFICITE DE L ’ INTEGRATION DES BD GEOGRAPHIQUES

Les méthodologies d’intégration des bases de données traditionnelles peuvent être appliquées pour unifier les BD géographiques mais elles requièrent néanmoins une adaptation. L’existence d’une géométrie associée à chaque objet engendre des difficultés supplémentaires pour rechercher les correspondances et résoudre les conflits entre les schémas et les données. En plus des problèmes classiques d’hétérogénéité, il est nécessaire de prendre en compte les problèmes liés à la nature des données géométriques, leur précision, leurs différences d’abstraction, de représentation, de formats, etc. Nous passons en revue les différentes étapes de l’intégration et discutons des spécificités ci-dessous.

PRE-INTEGRATION

Nous avons vu dans le cadre des BD classiques que la pré-intégration avait pour objectif de préparer l’unification. Cette préparation se traduisait par l’enrichissement sémantique des schémas source, leur normalisation et leur transformation dans des schémas plus proches. Pour les BD géographiques, on retrouve les mêmes étapes mais ce travail ne se limite pas aux schémas.

Pour homogénéiser les schémas, il est nécessaire de comprendre ce que contiennent les bases de données. Cela implique une analyse des données elles-mêmes qui renferment des phénomènes géographiques implicites.

Nous considérons que l’intégration des BD géographiques passe par une étude approfondie des données en collaboration avec les schémas. C’est ce point de vue qui est adopté dans cette thèse. Ceci découle d’une particularité majeure de ce type de BD : la présence d’informations implicites. Cet aspect sera détaillé davantage dans le chapitre B mais il est nécessaire de le signaler à ce stade du mémoire. La représentation des données véhicule davantage d’informations que la base n’en stocke. Pour cette raison, l’étape d’enrichissement des BDG concerne à la fois les schémas et les données.

Prenons un exemple très simple. Considérons l’existence des classes « Route » et « Échangeur routier » dans la première BD et la classe « Route » dans la seconde. Si on compare les schémas des deux BD, il semble que celui de la première soit plus riche que la seconde et par conséquent, que le contenu des bases soit différent (figure 14). Pourtant, les échangeurs routiers existent aussi dans la seconde base. Ceux-ci ne sont pas directement stockés en tant que tels (ils sont noyés avec les instances de la classe « Route »), mais ces objets sont visibles dans les données (on peut les voir en affichant les données). Ils peuvent être extraits et individualisés si nécessaire. Sans une analyse des données géométriques, l’enrichissement dans la deuxième BD ne serait peut-être pas envisagé alors qu’il permettrait une intégration plus simple et plus juste.

Figure 14. Enrichir les données pour préparer l’intégration.

Pour les bases de données traditionnelles, l’enrichissement sémantique passe par la récolte d’informations auprès de l’administrateur et par la consultation de documents associés à la base (les métadonnées auxquelles nous avons fait référence en A.3.2.1.). Dans le cadre des bases de données géographiques, cet enrichissement peut également être guidé par des connaissances du domaine : les spécifications. Il

ROUTE ECHANGEUR ROUTE ECHANGEUR

> Création de la classe « Échangeur » > Extraction des échangeurs dans les données (instanciation de la nouvelle classe)

Avant enrichissement

Après enrichissement

ROUTE ECHANGEUR ROUTE

Schémas : Données : route42 échangeur12 route56 route66 route42 échangeur12 route56 échangeur11 BD1 BD2 Schémas : Données :

1) Créer la classe « Échangeur »

2) Extraire les échangeurs dans les données (instanciation de la nouvelle classe)

s’agit de documents qui présentent une description très détaillée du contenu de chaque classe (règles de sélection des objets et de leur modélisation). Ils sont donc particulièrement intéressants pour guider le processus d’intégration. Nous décrirons en détail ces documents dans le chapitre B. Ce sont les métadonnées que nous utilisons pour étudier la conformité des représentations.

En plus de cet enrichissement, nous avons vu que des règles de normalisation devaient être définies pour réduire les différences de modélisation. Pour les BD géographiques, ces règles sont particulièrement nécessaires car l’hétérogénéité des modélisations est plus importante que pour les bases de données classiques. Pour s’en convaincre, il suffit par exemple de comparer les différentes solutions de modélisation de la topologie des objets géographiques (modèle spaghetti, topologique) [Laurini et Milleret-Raffort 1993]. Nous donnons deux modélisations différentes en figure 15.

Figure 15. Deux exemples de solutions pour modéliser les données géographiques : le modèle spaghetti polygonal unifié (1) et le modèle de la carte topologique (2)

Ces deux modélisations pourraient constituer la couche des primitives de base pour représenter la géométrie des objets géographiques dans un modèle conceptuel de données. Les relations entre les primitives géométriques sont cependant différentes et illustrent deux modèles différents : le modèle spaghetti polygonal unifié [Ubeda 1997] et le modèle de la carte topologique [David et al. 1993a].

Ces modèles de représentation de la topologie sont souvent différents entre les bases à intégrer. Les BDG sont généralement structurées selon un modèle propriétaire (Geoconcept, MapInfo, Apic, ArcGis,…). Lors de l’intégration, il est nécessaire d’imposer une modélisation qui peut être déterminée en suivant un standard (comme la norme EDIGéO [Laurini et Milleret-Raffort 1993] ou le modèle de référence de l’OpenGIS par exemple [OpenGIS 2001]). La normalisation de la modélisation et le choix du modèle commun permettent de traiter notamment les conflits de modélisation de la topologie et les conflits de modèle (relationnel étendu, O.O.) [Devogele 1997].

Il est important de préciser que même si deux bases de données géographiques à intégrer présentent des schémas assez similaires, l’hétérogénéité entre les données sera plus importante que pour des bases traditionnelles. En effet, si les spécifications

est l’extrémité >

< a pour extrémité Polygone

Point Segment délimite >

< est délimité 0..n 2..2 3..n 0..n Première modélisation (1) Seconde modélisation (2) Face Nœud Arc

orientation < est la face droite a pour face droite > < a pour extrémité finale

est l’extrémité finale > 0..n

1..1

< a pour extrémité initiale est l’extrémité initiale > 0..n

1..1

< est la face gauche a pour face gauche > 0..1

0..1 1..n

1..n

Précédent / suivant est inclus dans >

Point intermédiaire 0..n 1..1 Polyligne 1..n 2..n

précisent les règles de saisie des objets et leur modélisation, elles laissent malgré tout une certaine part à l’interprétation. De plus, à des niveaux de qualité équivalents (même niveau de complétude, même niveau d’exactitude de position des objets, etc.), la nature même des données géographiques introduit des imprécisions. Comment fixer précisément la limite d’une forêt par exemple ? Deux personnes chargées de délimiter cet objet en suivant les mêmes spécifications produiront immanquablement un découpage différent, en raison du caractère flou de la limite de ce phénomène. Nous reviendrons sur cet aspect dans la partie consacrée aux connaissances nécessaires pour évaluer les différences de représentations (chapitre B).

Avant de rechercher les correspondances entre les schémas et les données, il faut également s’assurer que les bases possèdent le même mode de représentation et le même système de référence. Suivant le cas, une transformation pour passer en mode vectoriel ou matriciel (appelé encore image ou « raster ») sera nécessaire. Un changement de projections pourra également s’imposer. Nous ne détaillons pas davantage cet aspect car nous faisons l’hypothèse que les bases que nous utilisons sont en mode vectoriel et que leur système de référence sont identiques.