• Aucun résultat trouvé

A Appariement de données géographiques

A.2 L'appariement, un outil pour répondre à plusieurs besoins

A.2.4 Intégration de bases de données géographiques hétérogènes

L’intégration de bases de données géographiques a comme objectif d’unifier la sémantique de deux ou plusieurs bases de données, d’éliminer les objets redondants et de regrouper les objets similaires [Devogele et al., 1998]. Le processus d’intégration de bases de données géographiques se décompose en trois étapes : pré-intégration, mise en correspondance des schémas et des données et intégration des schémas et des données (voir Figure 11).

A.2.4.1 Pré-intégration

L’étape d’analyse et de préparation des bases individuelles, dite aussi de pré-intégration, a comme objectif de préparer les bases de données afin qu’elles soient intégrées le plus automatiquement possible [Devogele, 1997 ; Sheeren, 2005 ]. Elle consiste à analyser chaque base individuellement, à les transformer dans des schémas plus proches au moyen de règles de normalisation, à expliciter l’information implicite et à transformer les géométries dans une projection commune. L’enrichissement des schémas est une sous-étape primordiale lorsque l’information implicite est présente dans une base de données et qu’elle s’appuie sur les spécifications.

Par exemple, sur la Figure 12 nous pouvons remarquer la représentation d’une patte d’oie. Cependant, cette représentation est implicite, la patte d’oie étant composée de tronçons de route. Afin d’expliciter cette information, une solution est de créer une nouvelle classe appelée par exemple Patte d’oie. Chaque objet, ou instance de la classe, aura une géométrie et des attributs.

Figure 12. Explicitation de l’information implicite : cas d’une patte d’oie A.2.4.2 Appariement des schémas et des données

La deuxième étape consiste à définir les correspondances entre les schémas, processus appelé « appariement des schémas » et entre les données, processus appelé « appariement des données ». Les deux processus ne sont pas complètement indépendants, en principe ils interagissent entre eux. Ainsi, l’appariement des schémas peut s’appuyer sur les données et réciproquement l’appariement des données peut s’appuyer sur les schémas.

Concernant l’appariement des schémas, plusieurs techniques existent dans la littérature. Il y a d’une part les techniques dites simples qui s’appuient sur des informations issues directement des schémas, telles que le nom d’une classe, les attributs, le type de l’objet, les relations entre les schémas (par exemple «est un », « est composé de ») [Madhavan et al., 2001 ; Rahm et Bernstein, 2001 ; Do et al., 2002], et d’autre part les techniques fondées sur la déclaration d’Assertions de Correspondance Inter-schémas (ACI), définies initialement pour les bases de données classiques [Parent et Spaccapietra, 1996 ; Devogele, 1997 ; Sheeren et

al., 2008]. Une approche d’appariement de schémas de plus en plus privilégiée s’appuie sur une ontologie1 de domaine [Fonseca et al., 2002 ; Comber et al., 2004 ; Rodriguez et

1 D’après [Gruber, 1993], une ontologie est la spécification d'une conceptualisation d'un domaine de

Patte d’oie Géométrie Nom

Egenhofer, 2004 ; Gesbert, 2005 ; Abadie et al., 2006 ; Mostafavi, 2006 ; Mustière et al., 2007 ].

Comme nous pouvons le constater en Figure 11, dans le contexte de l’intégration des bases de données géographiques, l’appariement de données est utilisé pour apparier des schémas ou bien pour intégrer des données géographiques.

Dans le contexte de l’appariement de schémas, l’appariement de données est utilisé soit pour améliorer la qualité de l’appariement de schémas basé sur une ontologie de domaine [Uitermark, 2001], soit dans le but d’apparier les schémas (voir la Figure 13) [Voltz, 2005 ; Kieler, 2007].

Figure 13. Appariement des schémas dérivé de l’appariement des données, d’après [Voltz,

2005]

L’appariement de données peut être un outil pour comparer des classifications de l’occupation du sol. Dans ce cas, le terme le plus employé est celui de comparaison. L’objectif principal est d’une part de comparer classe par classe deux jeux de données raster pour lesquels il existe une classification préalablement définie, et d’autre part d’évaluer les résultats en utilisant une matrice de confusion dont les lignes sont les différentes classes du jeu de données de référence et les colonnes sont les classes du jeu de données à comparer [Pontius et Cheuk, 2006 ; Hagen-Zanker et al., 2004 ; Fritz et See, 2004 ; Duckham et Worboys, 2005 ; Foody, 2006 ; Vasco et Caetano, 2006 ; Comber et al., 2004].

A.2.4.3 Intégration

La troisième étape du processus est l’étape d’intégration des schémas et des données. Cette dernière étape consiste à définir les stratégies d’intégration des schémas et des données nécessaires, entre autres, pour résoudre les conflits entre les schémas et les données. Le choix de la stratégie dépend des bases de données géographiques à intégrer et des besoins auxquels la base de données géographiques intégrée doit répondre. D’une manière générale, dans la littérature, le nombre de stratégies d’intégration des schémas possibles a été réduit à deux stratégies, à savoir la stratégie multi-représentations et la stratégie mono-représentation [Devogele, 1997].

Dans le cadre de la stratégie multi-représentations, les différentes représentations du monde réel sont préservées et les éléments homologues (schémas et données) sont reliés entre

eux. Cette stratégie a de nombreux avantages, tels que la possibilité de faire des analyses multi-représentations (par exemple la simulation des phénomènes urbains ou la navigation embarquée), la réutilisation des représentations existantes, la possibilité d’intégrer les mises à jour d’une manière automatique et dans toutes les bases en même temps, etc.

La stratégie mono-représentation consiste à fusionner les informations les plus riches et à éliminer les redondances. Dans la littérature, la stratégie mono-représentation est connue également sous le nom de « conflation » [Yuan et Tao, 1999 ; Blasby et al., 2004 ; Doyster et

al., 2001]. D’une manière générale, le terme de « conflation » définit l’ensemble des opérations qui consistent, à partir de deux bases de données géographiques, à créer une nouvelle base de données géographiques rassemblant les informations contenues dans les deux autres. [Yuan et Tao, 1999] identifient deux types de conflation : la conflation verticale, c'est-à-dire la fusion de deux jeux de données qui couvrent le même territoire du monde réel, et la conflation horizontale, c'est-à-dire la conflation entre deux jeux de données adjacents. Dans la suite de cette partie, nous nous intéressons seulement à la conflation verticale, et nous l’appelons pour simplifier « conflation ».

Figure 14. Le processus de conflation proposé par [Yaun et Tao, 1999]

Le processus de conflation proposé par [Yuan et Tao, 1999], à la différence du schéma général d’intégration de données illustré sur la Figure 11, consiste d’abord à aligner2 les jeux de données (étape (b) sur la Figure 14), puis de réaliser l’appariement de données (étape (c) sur la Figure 14). L’objectif de l’alignement des deux jeux de données est de les rendre comparables pour faciliter le processus d’appariement.

L’appariement de données géographiques utilisé pour intégrer deux bases de données géographiques différentes (produites différemment) s’avère plus complexe en raison des différences qu’il peut y avoir entre les deux bases de données géographiques. En effet, les bases de données géographiques ayant été créées pour répondre à des besoins différents, la représentation des objets est différente. Par exemple, le niveau de détail de chaque base de données géographiques joue un rôle important dans la stratégie d’appariement de données. De nombreuses approches existent dans la littérature et sont souvent spécifiques aux données à apparier. Ainsi, il existe des approches qui s’appliquent aux bases de données géographiques représentant une même réalité à des niveaux de détail différents [Devogele et al., 1998 ;

Zhang et al., 2005 ; Mustière, 2006] ou au même niveau de détail [Haunert, 2005 ; Voltz, 2006].

La complexité de ce type d’appariement nécessite d’une part la définition de plusieurs critères géométriques et topologiques basés sur des mesures de distance, d’orientation, d’angle, et sur des relations topologiques [Walter et Fritsch, 1999 ; Lüscher, 2007 ; Mustière et Devogele, 2008] et d’autre part la conception d’outils spécifiques aux données qui rend difficile la mise en place d’un processus d’appariement générique [Mustière, 2006]. L’évaluation de la qualité des liens d’appariement a fait l’objet de divers travaux [Mustière et Devogele, 2008 ; Beeri et al, 2004 ; Safra et al., 2006].