• Aucun résultat trouvé

4. EXTENSIONS DE LA MÉTHODE D’INTÉGRATION POUR LES BDG

4.3.1 Les extensions préliminaires

Trois extensions préliminaires globales sont nécessaires :

• l’ajout de la notion de direction dans la syntaxe des déclarations de correspondances (4.3.1.1),

• la définition de stratégie d’intégration spécifique aux BDG (4.3.1.2),

• la définition d’une clause ou d’un mécanisme permettant de trouver dans les différentes BDG, les objets représentant les mêmes phénomènes du monde réel (4.3.1.3).

4.3.1.1 Ajout de la notion de direction

Certains éléments des BDG représentent des phénomènes de type réseau orienté (réseau routier, ferré, hydrographique, …). Pour ces éléments, les valeurs des attributs peuvent être fonction de la direction des arêtes. Celles-ci sont définies soit par des relations avec un sommet de départ et un sommet d’arrivée, soit par l’ordre des points intermédiaires formant l’arête. Par exemple, pour les tronçons routiers de la BD CARTO et de GEOROUTE, les attributs nb_voies_sens_tronçon et nb_voies_sens_inverse sont par construction fonction de la direction. Or, la direction d’une arête n’a aucune raison d’être similaire à la direction de l’arête en correspondance. Ainsi, pour l’exemple la valeur de nb_voies_sens_tronçon correspond soit à la valeur de nb_voies_sens_tronçon si la direction est semblable, soit à

nb_voies_sens_inverse si la direction est opposée. Il faut donc prendre en compte la notion de

direction dans les clauses AAC. Dans cet objectif, le prédicat Direction (X,Y) est ajouté au langage de définition. Il autorise l’égalité des attributs si deux objets linéaires orientés X et Y sont dans la même direction. L’AAC est du type :

BD1.el1.att1 = Direction(el1,el2) BD2.el2.att2 Pour l’exemple, les AAC suivantes sont obtenues :

BDC.TRONÇON.nb_voies_sens_tronçon

= Direction (BDC.TRONÇON, GEOROUTE.TRONÇON)

G.TRONÇON.nb_voies_sens_tronçon BDC.TRONÇON.nb_voies_sens_tronçon

= ¬ Direction (BDC.TRONÇON, GEOROUTE.TRONÇON)

G.TRONÇON.nb_voies_sens_inverse 4.3.1.2 Définition de stratégie d’intégration pour les BDG

Un grand nombre de techniques d’intégration très hétérogènes sont envisageables. Il est indispensable avant d’intégrer, de choisir une stratégie d’intégration afin de faciliter le choix de la technique d’intégration à appliquer en fonction du conflit et d’obtenir une base intégrée uniforme et conforme à notre objectif. Ce choix s’appuie sur un grand nombre de critères. Si nous considérons les 6 critères définis par Dupont [Dupont 95 b] comme indépendants, nous obtenons alors 64 (26) stratégies possibles. Ce qui reporte le problème du choix local des

techniques d’intégration à un choix global d'une stratégie d’intégration qui reste néanmoins complexe. Dans le cadre de l’intégration de BDG, le nombre de stratégies possibles a volontairement été réduit à 2 stratégies, très éloignées. En effet, pour constituer des BDG centralisées intégrées, deux approches semblent se dégager : la stratégie mono-représentation, ou fusion, et la stratégie multi-représentation ou préservation.

4.3.1.2.1 Stratégie mono-représentation ou fusion

La stratégie mono-représentation (ou fusion) a pour objectif de produire une unique représentation du monde réel, s’appuyant sur les informations les plus précises dans chacune des bases initiales. Cette stratégie répond donc aux critères suivants :

de non conservation : les informations les moins précises sont supprimées,

de précision : la précision initiale est conservée,

de complétude : toutes les redondances sont supprimées,

de non réversibilité : les informations initiales ne peuvent pas être déduites de la BD intégrée,

d’unification : les éléments créés dans la BD intégrée, regroupent toutes les occurrences des BD initiales.

de liberté : les techniques employées doivent être sans condition préalable.

Les techniques utilisées pour cette stratégie devront répondre aux six critères énoncés ci-dessus. De plus, une préférence est accordée aux techniques produisant le schéma optimum.

4.3.1.2.2 Stratégie multi-représentation ou préservation

L’objectif de la stratégie multi-représentation (ou préservation) est radicalement différent. Les différentes représentations du monde réel ne sont pas fusionnées, mais les éléments représentant les mêmes phénomènes du monde réel sont reliés entre eux. Cette stratégie répond aux critères suivants :

de conservation : toutes les informations sont conservées ou peuvent être calculées,

de précision : la précision initiale est conservée,

de non complétude : toutes les redondances ne sont pas supprimées, la même information est conservée à différents niveaux de détail.

de réversibilité : les informations initiales peuvent être déduites de la BD intégrée, les informations de la BD intégrée peuvent être réaffectées sur les BD initiales.

d’unification : les éléments créés dans la BD intégrée regroupent toutes les occurrences des BD initiales.

de liberté : les techniques utilisées doivent être sans condition préalable.

Les techniques utilisées pour cette stratégie doivent répondre aux six critères précédents. En outre, les techniques utilisées doivent permettre une intégration des données la plus simple possible.

4.3.1.2.3 Comparaison de ces deux stratégies

Ces deux stratégies gèrent de manière similaire les éléments prenant les mêmes valeurs pour le même phénomène du monde réel. Par contre, pour les éléments ayant la même sémantique, mais prenant des valeurs différentes pour le même phénomène du monde réel, le traitement n’est pas identique. La stratégie mono-représentation choisit la représentation la plus détaillée alors que la stratégie multi-représentation va relier les différentes représentations du même phénomène.

Une stratégie sera sélectionnée en fonction de l’objectif de la BD intégrée et des BDG à intégrer. Pour des BDG initiales « proches » (échelle, contexte,…) la stratégie mono-représentation est préférable car la concomitance des deux mono-représentations alourdit la BDG intégrée sans l’enrichir. Cette notion de proximité est détaillée dans [Brugger 94] [Brugger 95] elle est appelé cohérence. Par contre, pour des BD « éloignées », une stratégie multi-représentation doit être employée.

4.3.1.2.4 La stratégie d’intégration définie pour les BD de l’IGN

Pour intégrer les trois BDG de l’IGN, il a été décidé de procéder en deux temps et d’employer les deux stratégies successivement. Dans un premier temps, une stratégie mono-représentation est appliquée pour intégrer la BD TOPO et GEOROUTE. Le résultat est appelé la BD intégrée 1 (BDI 1). Cette stratégie est choisie, car ces deux BD ont une échelle comparable et sont complémentaires. En effet, la géométrie de la BD TOPO est plus précise, alors que les attributs sémantiques de GEOROUTE sont plus détaillés pour le thème routier.

Rue de la République

Tronçons composants : (1,2,3)

Tronçon 1

Adresse Droite Gauche Début : 10 11

Fin : 14 25

Tronçon 3

Adresse Droite Gauche Début : 16 27

Fin : 28 31

Tronçon 2

Rue de la République Tronçons composants : (A,B)

Tronçon A

Adresse Droite Gauche

Début : 10 11

Fin : 14 25

Tronçon B

Adresse Droite Gauche

Début : 16 27 Fin : 28 31 Géoroute BD Topo BD Intégrée 1 A B Appariement 1<=> A 3<=> B

figure 45 : Intégration de la BD TOPO et de GEOROUTE

La figure 45 montre l’intérêt d'une telle stratégie. Nous remarquons que la BD TOPO (en noir) possède une géométrie plus précise, le rendu du virage est plus lisse. Cependant, GEOROUTE (en rouge) bénéficie d’informations telles les adresses, les noms des rues que ne possède pas la BD TOPO. La BDI 1 résultante profite alors de la complémentarité des deux bases. En outre, elle autorise des applications nouvelles, pour lesquelles les BDG initiales prises indépendamment, sont insuffisantes. Ainsi, l’application plans de villes qui nécessite une géométrie précise afin de produire des cartes papiers au 1 : 10 000 et des informations sémantiques détaillées telles que le nom des rues et les adresses des débuts et fins de tronçons

profiterait de l’intégration de ces deux BDG (actuellement, cette application utilise uniquement le réseau routier de GEOROUTE).

Dans un deuxième temps, la BDI 1 et la BD CARTO sont intégrées. Compte tenu de la différence d’échelle, une stratégie multi-représentation est utilisée. Le résultat de cette intégration est appelé BD intégrée 2 (BDI 2).

La BD issue de l’intégration des 3 principales BDG de l’IGN dispose de deux représentations, une détaillée provenant de BDI 1 et une moins détaillée issue de la BD CARTO et de l’ensemble de l’information sémantique.

4.3.1.3 Déclaration des clauses « Appariement Géométrique des Données » ou définition d’un processus d’appariement

Pour rendre l'intégration opérationnelle, il faut pouvoir identifier dans les BDG initiales, l’ensemble des objets représentant le même phénomène du monde réel. Effectivement, toute l’information des bases initiales est disponible dans la BD intégrée si, et seulement si, ces objets sont intégrés.

Pour ce faire, chaque ACI doit comprendre une clause de spécification de la correspondance entre les instances. Le plus souvent pour les BD classiques, il existe au moins un identifiant qui peut être employé pour cette fonction : une clause « Avec Identifiants Correspondants » (AIC) est donc déclarée. Or, dans les BDG, ces identifiants communs sont rarement présents. Toutefois, par leur localisation, les BDG offrent une alternative pour identifier les objets [Laurini et Thompson 92]. La localisation permet d’avancer que deux instances se correspondent si elles sont approximativement situées au même endroit. La clause AIC est donc relâchée au profit d’une clause appariement géométrique des données (AGD) qui spécifie le prédicat d’appariement entre les instances. Ce prédicat peut être une correspondance entre :

• des attributs identifiants,

• des géométries,

• des relations topologiques.

Des correspondances complexes peuvent aussi être définies. Elles utilisent des fonctions standard ou des méthodes ad-hoc qui prennent comme paramètres les trois types de données. La fonction standard la plus employé est G INSIDE(S) qui vérifie si la géométrie G (point, ligne ou surface) est à l’intérieur d’une surface. Cette fonction peut être précédée par la fonction BUFFER(G, d) qui transforme une géométrie G en une surface S. Cette surface est définie telle que pour tout point P inclus dans S, il existe un point P2 de G à une distance inférieure ou égale à d. Le prédicat G1 INSIDE(BUFFER(G2, d)) peut être ainsi utilisé. Par exemple, pour les correspondances entre les instances de la classe NOEUD de la BD CARTO et les instances des classes NOEUD et TRONÇON de la BD TOPO (tableau 6), l’AGD est présenté dans le tableau 6 :

ACI : BDC.NOEUD ⊆ SET([1:N] BDT.NOEUD,[0:N]BDT.TRONÇON)

AGD : SET([1:N] BDT.NOEUD) = { nt / nt BDT.NOEUD ∧

nt INSIDE (BUFFER(BDC.NOEUD,2 × BDC.exactitude)}

SET([0:N] BDT.TRONÇON) = { tt/ tt ∈ BDT.TRONÇON ∧

∃ nt ∈SET([1:N] BDT.NOEUD( debut(tt,nt)) ∧ ∃ nt ∈SET([1:N] BDT.NOEUD ( fin (tt,nt)) } tableau 6 : Exemple de clause Appariement Géographique des Données (AGD)

Cette clause AGD, permet de lier les instances de la classe NOEUD de la BD CARTO aux instances de la classe NOEUD à une distance inférieure à deux fois l’exactitude de la BD CARTO, et aux instances de la classe TRONÇON de la BD TOPO ayant pour noeud initial et noeud final des noeuds appariés avec le noeud de la BD CARTO.

Cependant, les données des BDG présentent le plus souvent des différences importantes et l’appariement des données doit alors combiner un grand nombre de méthodes et s’appuyer sur des données déjà appariées. Pour l’exemple du tableau 6, cette clause AGD n’est pas suffisante. En effet, elle permet de sélectionner l’ensemble des tronçons et des noeuds s’appariant avec le noeud de la BD CARTO. Mais, elle risque aussi de relier le noeud de la BD CARTO avec des éléments « parasites » (figure 75 et figure 76), c’est-à-dire des éléments qui ne devraient pas être appariés avec ce noeud mais qui sont à une distance proche, il faudrait alors ajouter des filtres. Dans ce cas, il est difficile de déclarer de manière concise la clause AGD. Qui plus est, la distance de la zone tampon est difficile à définir. Elle devrait s’appuyer sur une erreur maximum. Cette méta-donnée n’est malheureusement pas présente dans les BDG. On dispose, le plus souvent, uniquement d’une erreur moyenne (l’exactitude). Les clauses AGD des différentes ACI doivent donc être le plus souvent remplacées par un processus d’appariement global. Celui-ci sera décrit dans le partie 5.

Pour résumer, si la spécification de la correspondance est relativement simple, une clause AGD est comprise dans chaque ACI. Par contre, si la spécification s’avère complexe (appariement interdépendant, filtrage, …) l’ensemble des clauses AGD est remplacé par un processus d’appariement. Pour les BDG de l’IGN, nous sommes dans le deuxième cas.