• Aucun résultat trouvé

A Appariement de données géographiques

A.4 Critères d’appariement de données et leur combinaison

A.4.1 Différents critères d’appariement

En raison de la complexité du processus d’appariement de données géographiques, due à la complexité des données elles-mêmes, et à la différence des niveaux de détail des bases de données géographiques, il est nécessaire de s’appuyer sur l’évaluation de l’écart entre une ou plusieurs propriétés de deux objets potentiellement homologues. L’évaluation des écarts repose sur de nombreux critères, appelés critères d’appariement. Ces derniers peuvent s’appuyer sur la géométrie des objets, sur les attributs ou sur les relations spatiales entre les objets géographiques.

A.4.1.1 Critères géométriques

Les critères d’appariement géométriques s’appuient sur la géométrie des objets. Cette dernière représente la spécificité des données géographiques par rapport aux données classiques. C’est pour cela que la géométrie peut être considérée dans certaines conditions comme un identifiant commun des objets géographiques. L’hypothèse de base dans le contexte de l’appariement de données est que les objets homologues sont les objets qui sont les plus proches. Cependant, nous avons vu dans l’introduction que cette hypothèse n’est pas toujours vraie, pour de nombreuses raisons. Par exemple, sur la Figure 20 à gauche, nous remarquons que l’objet a2 a comme homologue son plus proche voisin, l’objet b3, tandis que l’homologue de l’objet a1 n’est pas son plus proche voisin, l’objet b2, mais l’objet b1.

D’une manière générale, la géométrie des objets géographiques désigne à la fois leur localisation et des informations implicites sur leur forme (longueur, orientation…).

Pour les objets ponctuels, la localisation peut être exploitée pour comparer l’écart de position entre les objets à travers la distance euclidienne. A partir de la distance euclidienne calculée entre un objet et ses candidats à l’appariement, le candidat choisi est celui qui est le plus proche [Minami, 2000 ; Safra et al., 2006]. Pour ne pas apparier au plus proche voisin, [Beeri et al., 2004] proposent une méthode probabiliste qui consiste à analyser, pour chaque objet obj1, tous ses candidats à l’appariement Ci, i=1..N au moyen d’une mesure de confiance. Cette mesure est basée sur la probabilité que l’objet obj1 soit apparié avec le candidat Ci, et sur la probabilité que le candidat Ci soit apparié avec l’objet obj1. La probabilité est définie en utilisant la distance euclidienne entre obj1 et le candidat Ci ainsi que les distances euclidiennes entre l’objet obj1 et tous ses candidats à l’appariement.

Si pour les objets ponctuels le seul critère géométrique qui puisse être défini est basé sur la localisation, pour les objets linéaires ou surfaciques, en plus de la localisation, des critères d’appariement basés sur des informations implicites issues de la géométrie peuvent être définis et leur exploitation peut améliorer le processus d’appariement. Ainsi, des informations telles que la longueur, l’orientation et la sinuosité d’un objet linéaire, la forme ou l’aire d’un objet surfacique peuvent être utilisées pour comparer deux ou plusieurs objets géographiques. Deux lignes homologues doivent, par exemple, avoir la même longueur à une tolérance près si le découpage est réalisé de la même manière, et leurs orientations doivent être comparables. De la même manière, deux surfaces homologues doivent être proches du point de vue de la localisation, leur forme doit être similaire, etc. Sur la Figure 20 à droite, nous remarquons l’importance de l’information implicite (la forme des objets) dans le processus

d’appariement. Si seulement la localisation des objets est utilisée, les couples d’objets appariés sont (A1, B1) et (A2, B3) en raison de leur proximité et de leur pourcentage d’intersection. Or, les objets A2 et B3 ne sont pas homologues en raison de leur forme. Si la forme des objets est utilisée pour comparer les objets, cette erreur est réduite, parce que la forme porte aussi implicitement la sémantique.

Figure 20. Exemples d’appariement utilisant la géométrie

Afin d’évaluer les critères basés sur la géométrie, de nombreuses mesures sont définies dans la littérature : des distances pour mesurer l’écart de localisation (distance euclidienne, distance de Hausdorff, distance de Fréchet, distance surfacique, etc.) et des mesures pour comparer les informations implicites (signature polygonale, fonction angulaire, etc.).

Nous reviendrons plus en détail sur les mesures de distance dans la partie A.4.2.

A.4.1.2 Critères topologiques et de voisinage

La topologie décrit les relations d’inclusion et d’adhérence entre les objets et elle utilise la notion de voisinage. Les relations topologiques se traduisent par des relations du type : la forêt borde la route, deux routes sont connectées, etc. Les relations topologiques sont construites à partir de la géométrie des objets géographiques initiaux.

Un appariement basé sur la topologie ou les relations de voisinage peut être décrit globalement de la façon suivante : deux objets géographiques A et B sont appariés, c'est-à-dire se ressemblent, si l’objet A possède des relations avec son voisinage comparables ou cohérentes avec les relations de l’objet B avec son voisinage.

Les objets d’une base de données géographiques ont des relations spatiales qui sont décrites par la topologie, les mesures de distance ou d’orientation, la densité, etc. Dans le contexte de l’appariement de données, les relations spatiales peuvent être une bonne source d’information. Des critères d’appariement sont donc définis pour comparer les relations spatiales entre les objets.

Il existe des cas où l’analyse du contexte spatial peut être bénéfique pour le processus d’appariement. La Figure 21 illustre deux jeux de données représentant des points remarquables du relief. Nous observons que les objets a1, a2, a3 et les objets b1, b2, b3 forment un arrangement structuré. Si après l’analyse des objets nous déduisons que les objets a1, a2, a3

d’un jeu de données forment un arrangement structuré et que de la même manière les objets b1, b2, b3 forment un autre arrangement structuré, alors nous pouvons comparer les deux arrangements pour voir s’ils se ressemblent. Cette comparaison peut donner un meilleur

appariement qu’une analyse objet par objet. En effet, l’analyse individuelle pourrait apparier l’objet a3 avec l’objet b4, le candidat b4 étant l’objet le plus proche de l’objet a3.

Concernant les réseaux géographiques, de nombreux critères d’appariement peuvent être définis en utilisant les relations topologiques entre les objets d’un même jeu de données [Walter et Fritch, 1999 ; Mustière et Devogèle, 2008] ou entre deux objets de deux jeux de données différents [Safra et al., 2006], ou encore en utilisant les relations de voisinage [Stigmar, 2005]. Les relations topologiques permettent, d’une part de créer des critères d’appariement, exactement comme les autres propriétés le font. Par exemple, les propriétés géométriques sont comparées et filtrées par une condition topologique : pour les nœuds, le nombre d’arcs entrants et sortants d’un nœud et la valeur des angles entre les arcs incidents aux nœuds [Voltz, 2006 ; Blasby et al., 2004], et pour les arcs, l’orientation, la longueur, la sinuosité [Zhang et al., 2005 ; Lüscher et al., 2007]. D’autre part, elles peuvent guider l’appariement, c'est-à-dire nous apparions d’abord les nœuds ensuite les arcs connectés aux nœuds appariés [Mustière et Devogele, 2008].

Nous illustrons sur la Figure 21 à droite deux réseaux routiers ayant des niveaux de détail différents. Si on utilise seulement la localisation des nœuds, le nœud a1 est apparié au nœud le plus proche b1. Une analyse des arcs incidents aux nœuds permettrait de bien apparier le nœud a1 avec son homologue, le nœud b2, puisque a1 et b2 ont quatre arcs incidents et b1 a trois arcs incidents.

Figure 21. Exemples de relations spatiales entre les objets géographiques A.4.1.3 Critères attributaires

Comme l’illustre la Figure 22, les objets géographiques possèdent des attributs tels que le nom, la largeur, le nombre de voies ou la nature. Ces attributs peuvent être quantitatifs (par exemple le nombre de voies, la largeur) ou qualitatifs (par exemple le nom, la nature).

Un attribut important à employer impérativement dans le processus d’appariement est la nature des objets géographiques, connue dans la littérature sous le nom d’information sémantique [Comber et al., 2004 ; Abadie et Mustière, 2008]. La comparaison de la nature de deux objets géographiques ne consiste pas en une simple comparaison des chaînes de caractères, mais en un processus plus complexe qui analyse le sens du nom désignant la nature de l’objet à travers, par exemple, des thésaurus, des taxonomies ou des ontologies de domaine [Uitermark, 2001 ; Gesbert, 2005 ; Abadie et al., 2007], par exemple le concept

« chemin » est plus proche du concept « route » que du concept « rivière ». Nous y reviendrons dans la partie A.4.2.3.

La comparaison des noms s’avère très utile lorsque ceux-ci sont présents. De nombreuses mesures d’écart entre les chaînes de caractères existent dans la littérature. Celles-ci sont calculées à partir de distances telles que la distance de Levenshtein [Levenshtein, 1965] ou la distance de Hamming qui compare les lettres communes de deux mots ou deux séries de mots [Hamming, 1950]. Plus de détails sur les distances entre les chaînes de caractères sont présentés dans la partie A.4.2.2.

Concernant les attributs quantitatifs, la comparaison est directe, étant basée sur une simple distance entre les chiffres.

A.4.1.4 Bilan sur les critères d’appariement

Les caractéristiques d’un objet géographique sont illustrées en Figure 22. Ainsi, un objet possède une géométrie qui peut être une des primitives géométriques : le point, la ligne ou la surface, des attributs (qualitatifs et quantitatifs) et des relations spatiales avec les autres objets géographiques. La localisation d’un objet géographique et les informations implicites (la forme, la largeur, l’angle, l’orientation) sont issues de la géométrie.

Figure 22. Les caractéristiques d’un objet géographique

Comme nous l’avons vu, en fonction du type de primitive géométrique (point, ligne ou surface), un critère d’appariement peut être défini pour chaque propriété de l’objet géographique. Nous avons identifié trois principaux groupes de critères : les critères géométriques basés sur la géométrie, les critères topologiques et de voisinage basés sur les

relations spatiales, et les critères attributaires fondés sur l’information descriptive, c'est-à-dire les attributs.