• Aucun résultat trouvé

A Appariement de données géographiques

A.6 Conclusion et définition du sujet

Dans la partie A.2, nous avons présenté quelques approches d’appariement de données géographiques classées d’une part en fonction des besoins, à savoir l’évaluation de la qualité des données géographiques, le recalage, la mise à jour et l’intégration des bases de données géographiques, et d’autre part en fonction des données géographiques, c'est-à-dire leur représentation (point, ligne ou surface) et leur niveau de détail.

Nous avons également présenté une analyse des approches d’appariement de données en nous intéressant aux critères d’appariement utilisés dans le processus d’appariement, à la manière dont ils sont combinés afin de prendre une décision, ainsi qu’aux étapes générales d’appariement de données (sélection des objets à apparier, sélection des candidats à l’appariement, définition des critères et leur combinaison, évaluation des résultats d’appariement).

Nous présentons en conclusion le bilan des approches d’appariement existantes et nous définissons plus précisément notre sujet de recherche.

Afin d’apparier des données géographiques, il est nécessaire d’évaluer l’écart entre une ou plusieurs propriétés de deux objets potentiellement homologues. L’évaluation des écarts repose sur de nombreux critères, appelés critères d’appariement. Ces derniers peuvent s’appuyer par exemple sur la géométrie des objets, sur l’information attributaire et sur les relations spatiales entre les objets géographiques.

Nous avons constaté que de nombreuses approches d’appariement de données présentées dans la partie A.2 sont basées sur la géométrie des objets géographiques. Ceci est dû au fait que l’information spatiale reste une information importante, pertinente et toujours présente dans une base de données géographiques. Cependant, la localisation des objets géographiques peut être imprécise, par exemple des objets remarquables du relief sont représentés par des points. Or, représenter une vallée par un point est évidemment très imprécis. Dans la même base de données il y a également des précisions différentes, par exemple la localisation d’un sommet est toujours plus précise que la localisation d’une plage.

En conséquence, un processus d’appariement basé uniquement sur la géométrie peut engendrer des résultats d’appariement erronés, parce qu’il ne faut pas toujours apparier à l’objet le plus proche. L’utilisation de la topologie peut améliorer le processus d’appariement. La nature des objets géographiques, qui est un attribut qualitatif et que nous appelons par la suite information sémantique, peut être également utilisée pour apparier des données. Nous remarquons que l’information attributaire et l’information sémantique sont très peu utilisées dans les approches d’appariement de données géographiques, ce qui est justifié lorsque les bases de données à apparier se ressemblent fortement.

Des auteurs affirment que l’information attributaire est incomplète, parfois imprécise et entachée d’erreurs, et qu’elle rendrait le processus d’appariement dépendant des données [Badard, 2000 ; Beeri et al., 2004]. Par exemple, pour le réseau routier, seules les routes principales possèdent un numéro. Il est vrai que, par exemple, une approche basée, en plus que sur de critères géométriques ou topologiques, sur un critère qui comparerait les numéros de route, dégraderait la qualité des résultats si elle ne savait pas gérer l’incomplétude dans les données, c'est-à-dire le cas où le numéro de route n’est pas rempli. De la même manière, la sémantique est hétérogène, différentes classifications existant en fonction de l’échelle de la base de données, des points de vue et des producteurs de bases de données géographiques. La

sémantique est alors uniquement utilisée dans quelques approches au niveau de l’étape de sélection des candidats à l’appariement.

Une autre justification donnée par des auteurs au fait qu’ils n’utilisent pas l’information attributaire et la sémantique est que de nombreuses approches se proposent comme objectif de définir un processus d’appariement de données générique. Il est évident qu’un processus d’appariement basé uniquement sur la géométrie et sur les relations topologiques entre les données pourrait être plus facilement générique.

Toutes ces raisons font que les approches d’appariement sont basées principalement sur la géométrie et la topologie. Cependant, nous avons vu que la géométrie et la topologie ne sont ni parfaites, ni suffisantes, surtout dans le cas des bases de données sensiblement différentes en contenu et en niveau de détail. Cet aspect nous amène à supposer que l’information attributaire et la sémantique peuvent être exploitables et utilisables dans le processus d’appariement, afin de remédier aux cas d’appariement où la géométrie et la topologie ne sont pas suffisantes pour prendre une décision.

Nous remarquons par ailleurs que les méthodes d’appariement, qu’elles soient appliquées sur des données ponctuelles, linéaires ou surfaciques et qu’elles soient utilisées pour apparier des jeux de données à la même échelle ou à des échelles différentes, sont basées soit sur un enchaînement de différents critères (voir Figure 39), soit sur la combinaison de critères (voir Figure 40).

Figure 39. Appariement par enchaînement des critères

Si on enchaîne les critères, d’une manière générale, pour un objet donné, on sélectionne des candidats à l’appariement puis les candidats sont filtrés au fur et à mesure pour qu’à la fin les meilleurs candidats soient choisis. L’inconvénient de ce type d’approche est qu’il est dépendant d’une part de l’ordre des critères à apparier, et d’autre part des seuils fixés pour le filtrage des candidats. Si par exemple un candidat ne respecte pas le premier critère, il sera définitivement éliminé. L’avantage est qu’il est plus rapide que l’approche basée sur la combinaison des critères.

Figure 40. Appariement par combinaison des critères en parallèle

Contrairement à l’approche par enchaînement des critères, l’approche basée sur la combinaison des candidats ne nécessite pas la définition d’un ordre pour chaque critère d’appariement. La décision est prise après avoir fait une somme pondérée ou utilisé une autre technique de combinaison des valeurs issues de chaque critère. La difficulté consiste à définir les valeurs de pondération pour chaque critère. La somme est pondérée en fonction des critères indépendamment des valeurs des mesures issues de la comparaison des différentes propriétés.

Par ailleurs, d’une part la majorité des approches ne prennent pas en compte les imperfections dans les données d’une manière formalisée et d’autre part, pour la majorité des approches les connaissances sont à l’intérieur du processus.

Dans le cadre de ce travail de thèse plusieurs objectifs ont été fixés. Les objectifs visent d’une part à réaliser un processus d’appariement basé sur une approche générique capable de s’adapter à la fois au type de données (ponctuel, linéaire, surfacique) et aux spécificités des jeux de données (le même niveau de détail ou des niveaux de détail différents), et d’autre part à prendre en compte les imperfections en s’appuyant sur une combinaison des critères définis à partir des connaissances et des données elles-mêmes.

Un objectif est de proposer une approche d’appariement générique, c'est-à-dire capable de traiter tous types d’objets géographiques, qu’ils soient définis de manière précise, vague ou ambigue. Ainsi, nous partons de l’idée que les aspects qui caractérisent les données géographiques, c'est-à-dire la localisation, la forme, l’information attributaire et les relations spatiales, peuvent être imprécis.

Afin d’améliorer la robustesse et la qualité de la décision, notre objectif est de proposer un processus d’appariement guidé par des connaissances qui proviennent des données elles-mêmes, des spécifications ou des experts, et qui doivent générer des hypothèses.

Cependant, la représentation explicite des connaissances n’est pas une tâche facile, celles-ci étant aussi imprécises, incertaines ou incomplètes. Cette représentation fait l’objet de plusieurs travaux de recherche dans le domaine de l’intelligence artificielle [Bouchon-Meunier, 1995]. Une solution, pour améliorer la robustesse et la qualité de la décision, est de fusionner les sources d’information imparfaites, appelées dans notre cas des critères d’appariement. Afin d’atteindre nos objectifs, plusieurs besoins peuvent alors être exprimés à travers les questions suivantes :

- Comment prenons-nous en compte les imperfections ?

- Quelles sont les connaissances à utiliser dans le processus d’appariement ? - Comment représenter d’une manière explicite les connaissances ?

- Comment renforcer la certitude d’une connaissance ou remédier à des connaissances imprécises, incertaines ou manquantes ?

- Quel outil utiliser pour prendre une décision ? - Quelle est la certitude de la décision prise ?

Afin de répondre aux questions que nous venons d’énumérer et d’atteindre nos objectifs, nous avons ainsi choisi de nous appuyer sur la théorie des fonctions de croyance. Le choix de la théorie des fonctions de croyance a été adopté pour de nombreuses raisons :

- elle permet de prendre en compte et de modéliser à la fois l’imprécision, l’incertitude et l’incomplétude,

- elle permet de modéliser la connaissance parfaite et l’ignorance totale,

- en termes de fusion des connaissances, elle possède des outils qui permettent de combiner plusieurs avis,

- elle permet de mettre en évidence et de gérer le conflit, c'est-à-dire le désaccord entre les connaissances,

- elle possède des outils qui permettent la prise de la décision.

Nous décrirons plus en détail la notion d’imperfection dans les connaissances et la théorie des fonctions de croyance dans le chapitre B, puis nous détaillerons notre approche d’appariement basée sur cette théorie dans le chapitre C.

CHAPITRE B

Imperfection, représentation et fusion des