• Aucun résultat trouvé

A Appariement de données géographiques

A.5 Appariement et imperfection dans les données géographiques

Les données en général, et plus particulièrement les données géographiques présentent des imperfections [Goodchild, 1995 ; Zhang et Goodchild, 2002 ; Hunter, 1998]. Malgré ce manque d’exactitude, nous devons les analyser et prendre des décisions.

La production d’une base de données géographiques nécessite plusieurs étapes telles que l’acquisition, l’abstraction, l’archivage, l’analyse, l’affichage de l’information. L’enchaînement des étapes de production, l’étape d’acquisition en particulier, ainsi que la complexité des données géographiques font que les données sont entachées d’erreurs.

Dans le domaine de l’information géographique, il existe de nombreuses taxonomies des imperfections réalisées à partir de la nature des objets géographiques ou des phénomènes qui engendrent l’imperfection. Ainsi, différents termes sont employés tels que : l’incertitude [Fisher, 2003 ; Fisher et al., 2005], l’imprécision [Worboys, 1998 ; Virrantaus, 2003], le vague [Schneider, 1999 ; Cohn et Gotts, 1994], l’erreur [Wright, 2000], les « bona fide et fiat » [Smith et Varzi, 1997]. Ils sont employés avec des sens différents en fonction des domaines d’application, des communautés, des besoins et des points de vue, aucune définition standard n’existant.

Dans le domaine des bases de données géographiques on distingue deux concepts qui caractérisent les données géographiques et qui sont acceptés unanimement par les communautés : la précision et l’exactitude [Devogele et al., 2002].

De nombreux auteurs ont employé le terme d’incertitude comme un concept général. Des travaux de recherche s’intéressent à la caractérisation de l’incertitude et à sa modélisation en proposant des modèles d’incertitude [Heuvelink, 1998 ; Hunter, 1998 ; Zhang et Goodchild, 2002]. Bien que l’incertitude touche à la fois à la localisation des objets géographiques et à leurs attributs, la plupart des modèles sont liés à la localisation des objets géographiques et peu nombreux sont ceux qui étudient l’incertitude de l’information attributaire [Brown, 1998 ; Wang et al., 2005]. Les modèles dépendent d’une part de la nature de l’objet géographique (par exemple un bâtiment a une forme et une frontière bien définies, alors que pour une montagne la forme et la frontière ne sont pas bien définies), et d’autre part de sa représentation : point, ligne ou surface.

L’imprécision sur la localisation des points est en général mesurée et estimée en réalisant des mesures qui utilisent le modèle de l’erreur quadratique moyenne [Hunter et Goodchild, 1997].

De nombreux modèles d’incertitude liés à la localisation des objets géographiques ont été développés dans la littérature, tels que le modèle « circle normal » [Goodchild, 1991], le modèle « standard ellipse » pour estimer l’imprécision de la localisation d’un point [Mikhail et Ackerman, 1976], le modèle « epsilon-band » [Chrisman, 1982] et le modèle « error band » pour estimer l’imprécision de la localisation d’une ligne [Dutton, 1992]. Ces modèles spécifiques aux données ponctuelles et linéaires ont été également adaptés aux données surfaciques.

Lorsqu’il existe des éléments géographiques qui n’ont pas de définition claire ou de frontière bien définie, et donc pour lesquels les approches booléennes ne sont pas adaptées, il existe des modèles basés sur la théorie des ensembles flous [Schneider, 2001 ; Shi et al., 2002 ; Hansen, 2003 ; Hagen et al., 2005 ; Fritz et See, 2004 ; Fonte et Lodwick, 2004 ; Dilo

Wang et al., 2002] ou des modèles vagues [Erwig et Schneider, 1997 ; Hazarika et Cohn, 2001 ; Tøssebro, 2002].

La taxonomie la plus utilisée et reconnue dans la communauté de l’information géographique est celle de [Fisher, 2003 ; Comber et al., 2005b]. L’idée de base est que les données géographiques peuvent être accompagnées d’incertitude. Notons que Fisher utilise le concept d’incertitude comme un chapeau qui englobe tous les autres concepts, autrement dit, il s’agit de l’imperfection. Ainsi, toute analyse et tout processus qui manipulent des données géographiques doivent prendre en compte ces incertitudes afin de s’assurer que les données sont utilisées correctement et que les analyses et les décisions prises sont justes et de confiance. A partir de ces faits, [Fisher, 2003] s’intéresse à la nature de l’incertitude liée aux données, c'est-à-dire qu’il étudie quels sont les phénomènes et les éléments qui engendrent l’incertitude. Il considère que le principal facteur est le processus d’abstraction du monde réel, à travers par exemple la définition des classes et l’assignation d’un objet à une classe. A partir de la classification des objets du monde réel en objets bien définis et mal définis, Fisher distingue trois formes d'incertitude liées à la définition des classes d’objets observés et des objets individuels composant la classe : d’une part l'erreur si l’objet est bien défini (par exemple un bâtiment), et d’autre part le vague et l'ambiguïté (par exemple une vallée), qui peut être due à un désaccord ou à une non-spécificité, si l’objet est mal défini (voir Figure 37). Plus précisément :

- l’erreur est la différence entre la valeur d’un attribut d’un objet bien défini et la vraie valeur de la même propriété du même objet mesurée sans erreur,

- le caractère vague peut être dû aux spécifications floues ou encore à la nature floue d’un objet, par exemple une forêt. Quelle est la limite précise d’une forêt ?

- le caractère ambigu est dû d’une part à la non-spécificité d’une définition, et d’autre part aux désaccords entre les définitions des objets dans une base de données géographiques. Les causes d’un tel désaccord peuvent être les définitions d’un objet qui ne sont pas complètement spécifiques ou les différences de points de vue. Par conséquent, nous pouvons être confronté à la difficulté de classer une entité.

[Fisher, 2003] souligne l’importance de la prise en compte de ces incertitudes dans tout processus de prise de décision. Afin de prendre en compte et de diminuer l’effet de l’incertitude, il propose de formaliser chaque concept présent dans la taxonomie à travers des théories mathématiques faisant partie de la famille des théories de l’incertain telles que la théorie des probabilités [Cowell, 1999], la théorie des fonctions de croyance [Shafer, 1976], la théorie des ensembles flous [Zadeh, 1965], la théorie d’Endorsement [Cohen, 1985].

Nous nous sommes inspirés dans notre approche des travaux de Fisher et des solutions qu’il propose. Notre objectif est de proposer une approche d’appariement générique, c'est-à-dire capable de traiter tout genre d’objets géographiques, que ce soit des objets à caractère précis, vague ou ambigu. Nous partons de l’idée que les trois aspects qui caractérisent les données géographiques, c'est-à-dire la localisation, l’information attributaire et les relations spatiales sont soumis à des imperfections.

Afin d’améliorer la robustesse et la qualité de la décision, notre objectif est de proposer un processus d’appariement guidé par des connaissances qui doivent définir des hypothèses. Cependant, la représentation explicite des connaissances n’est pas une tâche facile, celles-ci étant aussi imparfaites, c'est-à-dire imprécises, incertaines et incomplètes.

Pour conclure, notre travail a pour finalité le processus d’appariement de données géographiques, processus guidé par des connaissances qui sont explicitement représentées. Ces idées sont illustrées en Figure 38.

Figure 38. L’imperfection au cours des processus manipulant des données géographiques

Nous reviendrons plus en détail dans le chapitre B sur le concept d’imperfection et sur la manière dont celui-ci peut être explicitement représenté à l’intérieur du processus d’appariement.