• Aucun résultat trouvé

A Appariement de données géographiques

A.4 Critères d’appariement de données et leur combinaison

A.4.2 Différentes mesures utilisées dans le processus d’appariement

A.4.2.1 Mesures comparant les géométries

Nous présentons dans cette sous-partie quelques mesures qui mettent en valeur l’écart de position ou de forme entre deux géométries en fonction du type de primitive géométrique. Afin de comparer deux géométries, nous pouvons raisonner soit en distance soit en zone d’influence (zone tampon, zone epsilon).

Primitives ponctuelles

Pour les objets géographiques représentés par des points, la principale distance qui permet de mesurer l’écart de position est la distance euclidienne.

Soit deux objets géographiques O1 et O2, de coordonnées géographiques respectives (x1, y1) et (x2, y2) comme illustré sur la Figure 23.

Figure 23. Distance euclidienne entre deux objets géographiques ponctuels

La distance euclidienne dE entre les objets O1 et O2 est définie comme ci-après :

2 2 1 2 2 1 E x x y y d = ( − ) +( − ) (1) Primitives linéaires

Afin d’étudier si deux polylignes sont homologues ou pas, nous devons mesurer leur degré de ressemblance. Pour y parvenir nous pouvons comparer leur localisation, leur forme, leur longueur, etc. Contrairement aux objets ponctuels pour lesquels la distance euclidienne est suffisante pour mesurer la distance entre eux, les objets linéaires sont plus complexes et plusieurs distances existent dans la littérature. Évidemment, la première question que nous nous posons est : quelle mesure de distance devons-nous utiliser pour évaluer le plus précisément possible la ressemblance entre les polylignes ?

Nous allons décrire par la suite quelques mesures telles que la distance de Hausdorff, la distance de Fréchet et la distance moyenne.

- Distance de Hausdorff

Etant donnés deux objets géographiques représentés par deux lignes L1 et L2, la distance de Hausdorff représente l’écart maximal de position entre les deux lignes, voir l’équation suivante.

Figure 24. Distance de Hausdorff entre deux lignes

) , max( 1 2

H d d

d = (2)

où d1 et d2 sont définis de la manière suivante :

où dE représente la distance euclidienne.

Lorsque les deux lignes à comparer n’ont pas la même longueur, ce qui arrive dans le cas de deux jeux de données qui ont des niveaux de détail différents, la distance maximale porte sur les extrémités. Par conséquent, une solution est d’utiliser seulement la première composante de la distance de Hausdorff, appelée demi-distance de Hausdorff. Notons que cette dernière n’est pas une distance au sens mathématique du terme puisqu’elle n’est pas symétrique. Cette distance est en particulier utilisée pour apparier des données linéaires par [Devogele, 1997 ; Mustière et Devogele, 2008]. Cependant, elle n’est pas restreinte aux primitives linéaires, elle peut être calculée pour les primitives surfaciques.

Malgré le fait que la distance de Hausdorff soit utilisée dans de nombreuses applications, il existe des cas où elle est moins adaptée, par exemple lorsque les polylignes sont sinueuses.

[ ]

[ ]

   =     = ) , ( min max ) , ( min max 1 2 E L p L p 2 2 1 E L p L p 1 p p d d p p d d 1 1 2 2 2 2 1 1 (3)

Figure 25. Distance de Hausdorff et de Fréchet, d’après [Badard et Lemarié, 2002]

Dans l’exemple illustré en Figure 25, la distance de Hausdorff est faible mais les polylignes ne se ressemblent pas. Ceci est dû au fait que la distance de Hausdorff considère les polylignes comme des ensembles de points, l’ordre n’étant pas pris en compte. Etant basée sur la distance entre deux points les plus proches et non entre deux points homologues, elle ne permet donc pas de mettre en évidence les différences de forme. Dans ce cas, une mesure plus adaptée est la distance de Fréchet. Nous remarquons dans cet exemple que la distance de Fréchet est supérieure à la distance de Haussdorf.

- Distance de Fréchet

La distance de Fréchet dF [Alt et Godau, 1995] est basée sur la propriété que toute polyligne orientée est équivalente à une fonction continue. Elle est définie de la manière suivante.

Etant données deux polylignes f : [0, N]→V et g : [0, M]→V’ et une distance d, une distance euclidienne par exemple, la distance de Fréchet est définie comme ci-après :

)))]} ( ( )), ( ( ( [ max min ) , ( [ ,] ] , [ ] , [ :[ ,] [ , ] : { d f t g t g f d t 01 M 0 1 0 N 0 1 0 F α β β α = (4)

où N, M∈ℜ représentent le nombre de segments composant les polylignes f et g, et où V et V’ sont des espaces vectoriels.

α(t) et β(t) sont des fonctions continues et croissantes avec le temps, avec α(0)=0, β(0)=0, α(1)=N et β(0)=M.

Afin de mieux comprendre cette distance, citons l’exemple de [Devogele, 1997] d’un maître et de son chien se déplaçant chacun le long d’une ligne : « Ils avancent et ils s’arrêtent indépendamment à volonté. La distance de Fréchet entre les deux lignes est la longueur minimale de la laisse qui permet la progression simultanée ».

La distance de Fréchet est plus adaptée pour comparer les formes de deux polylignes [Mascret et Devogele, 2006 ;Bouziani et Pouliot, 2008]. Par contre elle est plus complexe à calculer donc, nécessite plus de temps de calcul que la distance de Hausdorff.

- Distance moyenne

La distance moyenne entre deux lignes a été introduite par [McMaster, 1986] afin de comparer la généralisation d’une polyligne avec la polyligne d’origine. Ainsi, l’écart moyen

entre les deux lignes est la surface formée par les deux lignes divisée par la moyenne des longueurs des polylignes (voir la Figure 26).

Figure 26. Distance moyenne entre deux lignes

La distance moyenne, par sa simplicité, est facile à mettre en oeuvre, elle permet de mettre en évidence le déplacement dû à la généralisation, mais elle est moins adaptée au processus d’appariement de données, qui consiste à comparer deux polylignes afin de décider si elles sont homologues ou non. La raison est que l’écart de position est exprimé par une valeur moyenne et non pas par une valeur maximale comme par exemple avec les distances de Haussdorf et de Fréchet. C’est pour cette raison que de nombreux auteurs ont affirmé que cette distance doit être absolument utilisée avec d’autres distances telles que la distance de Hausdorff ou la distance de Fréchet [Devogele, 1997 ; Bouziani et Pouliot, 2008].

Une extension de la distance de Hausdorff a été proposée par [Min et al., 2007]. Cette distance est caractérisée par une description statistique complexe de la distance entre deux objets géographiques à travers les distances minimale (la plus petite distance parmi toutes les distances), maximale (la distance de Hausdorff classique) et médiane (la médiane de toutes les distances). Les deux premières sont utilisées pour mesurer la dispersion et la troisième est employée pour mesurer la tendance centrale de la distribution des distances entre deux objets géographiques.

- Orientation

Une autre mesure qui permet de comparer deux polylignes est l’écart d’orientation. Ce dernier consiste par exemple à évaluer le degré de co-linéarité local des polylignes.

Etant données deux polylignes L1 et L2, le degré de co-linéarité local est défini comme l'écart entre les orientations de la tangente T1 à L1 au point le plus proche de L2, et de la tangente T2 à L2 au point le plus proche de L1 (voir la Figure 27). Afin de calculer l’écart d’orientation entre deux polylignes, nous déterminons d’abord le point de la polyligne L1 le plus proche de L2, puis nous calculons l'angle avec l’horizontale de la tangente T1 à L1 en ce point. De la même manière nous calculons pour la polyligne L2 l’angle de la tangente T2 au point le plus proche de L1. Enfin, nous déterminons l’angle θ entre les orientations des deux tangentes.

Si l’angle θ entre les deux polylignes est proche de 0, alors elles sont relativement parallèles et elles ont la même direction. Si la valeur de l’angle θ est proche de π, alors les polylignes sont parallèles et dans la direction opposée. Enfin, si la valeur de l’angle est proche de π/2, alors les polylignes sont perpendiculaires.

Figure 27. Degré de co-linéarité local θ de deux polylignes L1 et L2

Cette mesure est moins pertinente si les longueurs des polylignes sont très différentes, si les polylignes sont décalées ou si elles sont sinueuses. Une amélioration à cette méthode consiste à ne pas déterminer l’orientation localement mais sur toute la longueur des polylignes. Ainsi, nous pouvons calculer l’orientation par rapport à l'axe des x, de la droite orientée passant au mieux au milieu d'un nuage de points ordonnés des points de la polyligne, obtenue au moyen d’une régression par moindres carrés.

- La bande epsilon

Une autre mesure qui peut être appliquée à la fois aux objets ponctuels et aux objets linéaires s’appuie sur la bande epsilon. Cette mesure raisonne en termes de zone d’influence et non pas en termes de distance. La bande epsilon consiste à définir un buffer symétrique ou asymétrique autour des objets (ponctuels ou linéaires) afin de trouver leurs objets homologues.

Afin d’évaluer si deux objets sont appariés, il existe plusieurs possibilités d’utilisation de la bande epsilon. Par exemple, deux objets (point ou ligne) sont appariés si un objet se trouve à l’intérieur du buffer défini autour de l’autre objet, c'est-à-dire qu’il se trouve dans la zone de tolérance [Gabay, 1994]. Dans ce cas, la bande epsilon est une technique qui permet de définir trois types d’appariement : appariement point-point, appariement point-ligne et appariement ligne-ligne (voir la Figure 28).

[Sui et al., 2004], quant à eux, suggèrent d’évaluer si deux objets objet1 et objet2 sont appariés ou non au moyen d’une mesure qui s’appuie sur la longueur de objet2 à l’intérieur du buffer construit autour de objet 1, comme le montre la Figure 29.

Figure 29. Analyse de deux objets linéaires en utilisant la bande epsilon, [Sui et al., 2004]

Les mesures que nous avons décrites précédemment mettent surtout en évidence l’écart de position entre les lignes. Afin de comparer deux lignes, nous pouvons également comparer leur forme. De nombreuses mesures de forme, que nous ne détaillons pas, existent dans la littérature [McMaster, 1983 ; Buttenfield, 1991 ; Mitropoulos et al., 2005]. Dans le but d’automatiser le processus de généralisation, [Plazanet, 1996], par exemple, s’intéresse à la sinuosité des lignes en proposant de nombreuses mesures qui qualifient localement les formes (les virages des routes).

Primitives surfaciques

La comparaison des primitives surfaciques nécessite à la fois une comparaison des positions et une comparaison des formes. Les distances définies pour les polylignes peuvent être également utilisées pour comparer des surfaces. Cependant, des mesures spécifiques aux données ont été définies telles que la distance surfacique, la fonction à distance radiale ou la fonction angulaire.

- Distance surfacique

La distance surfacique permet de mesurer l’écart de position entre deux objets surfaciques. Elle a été initialement définie par [Vauglin, 1997] et utilisée entre autres par [Bel Hadj Ali, 2001 ; Sheeren, 2005] pour apparier des objets surfaciques.

Etant donnés deux objets surfaciques A et B, la distance surfacique est définie de la manière suivante : ) ( ) ( 1 B A S B A S dS ∪ ∩ − = (5)

où S(A∩B) représente l’aire d’intersection des objets A et B, et S(A∪B) représente l’aire d’union des deux objets. Notons que la distance surfacique est une distance au sens mathématique du terme, à valeurs dans l’intervalle [0, 1]. Si la distance est égale à 0, alors les deux objets se superposent totalement, c'est-à-dire qu’ils sont égaux, tandis que si la distance est égale à 1, les deux objets n’ont aucun point d’intersection, c'est-à-dire qu’ils sont disjoints. La comparaison de l’écart de position entre deux objets surfaciques ne suffit pas, il est nécessaire aussi de comparer leur forme. Donnons à titre d’exemple deux mesures qui permettent de comparer l’écart de forme : la fonction à distance radiale et la fonction angulaire.

- Fonction à distance radiale (ou signature polygonale)

La fonction à distance radiale décrit un objet surfacique par les mesures des distances séparant le centre de masse du polygone aux points composant son contour en le parcourant dans le sens trigonométrique [Cohen et Guibas, 1997]. Les points ainsi obtenus sont ensuite représentés graphiquement en fonction de l’abscisse curviligne s, normalisée par le périmètre de l’objet surfacique.

La fonction à distance radiale, notée SP(s), est définie de la manière suivante :

2 c 2 c x s y y s x s SP 1 0 SP:[ , ]→ℜ+, ( )= ( − ( )) +( − ( )) ( 6) où : - xc et yc représentent les coordonnées du centre de masse de l’objet surfacique,

- x(s) et y(s) représentent les coordonnées du point courant du contour d’abscisse curviligne s.

Un exemple illustrant la fonction à distance radiale d’un objet surfacique est montré en Figure 31.

- Fonction angulaire (ou fonction Turning)

La fonction angulaire décrit un objet surfacique par les mesures des angles formés par les segments composant son contour et une demi-droite horizontale orientée selon l’axe des abscisses, [Arkin et al., 1991]. Les points ainsi obtenus sont ensuite représentés graphiquement en fonction de l’abscisse curviligne normalisée par le périmètre du polygone (voir la Figure 32). Afin de comparer deux fonctions angulaires, une correction du déphasage est nécessaire. Notons que la fonction angulaire ne permet pas de décrire des polygones complexes ou ayant des trous.

Figure 32. Fonction angulaire d’un objet surfacique

D’autres mesures de forme qui permettent de comparer la concavité, l’élongation, la forme du squelette, la compacité, etc., des objets surfaciques existent dans la littérature [Vauglin, 1997 ; Bel Hadj Ali, 2001].

Dans le contexte de la généralisation cartographique, de nombreux travaux de recherche ont été menés pour évaluer la qualité des données géographiques généralisées [McMaster et Shea, 1992 ; Ruas, 2000, Bard, 2004 ; Mackaness et Ruas, 2007]. Dans ce contexte de nombreuses mesures destinées à mesurer l’écart entre deux objets surfaciques ont été définies. Nous énumérons quelques mesures sans toutefois les détailler :

- la taille : elle compare les surfaces des objets surfaciques,

- l’orientation : elle est basée sur l’orientation des murs des bâtiments [Duchêne et Cambier, 2003],

- la position : elle est basée sur la localisation du centroïde de l’objet surfacique,

- la granularité : elle donne une information relative au niveau de détail de l’objet surfacique, basée sur la longueur du plus petit côté de l’objet.