Connaissances sur le voisinage - Modélisation des critères d'appariement

C Processus d'appariement de données géographiques basé sur la théorie des fonctions de croyance

C.2 Modélisation des critères d'appariement

C.2.4 Connaissances sur le voisinage

Les objets d’une base de données géographiques ont des relations spatiales qui sont décrites à travers la topologie, les mesures de distance ou d’orientation, la densité, etc. Par exemple, il est possible de décrire un objet géographique par rapport à un autre : une autoroute est à l’est de la ville, la ville de Paris se trouve à x km de Rome, etc. Ces informations sont implicites et sont utilisées dans l’analyse des données ou dans les processus qui manipulent les données.

C.2.4.1 Problématique

La topologie joue un rôle très important dans le processus d’appariement des réseaux. Les réseaux tels que le réseau routier ou le réseau hydrographique se caractérisent par la connexité de leurs éléments. Il nous semble donc utile d’exploiter cette information dans le cas des réseaux.

Un processus d’appariement basé sur la topologie et qui utilise des réseaux peut améliorer la qualité du processus. Il peut être alors efficace lorsque la topologie des bases de données géographiques est sans erreur. Cependant, un processus d’appariement basé seulement sur la topologie ne gère pas les erreurs de topologie. Par exemple, il peut y avoir d’une part des erreurs internes à une base de données, par exemple lorsque deux routes proches ne sont pas connectées entre elles ou lorsqu’une route n’est connectée à aucune autre route dans la base, et d’autre part des incohérences dans l’organisation topologique des deux bases de données géographiques : des routes connectées dans un jeu de données mais pas dans l’autre ou des routes connectées mais pas de la même manière. Les causes de ces erreurs peuvent être les rythmes différents de mise à jour, l’erreur pendant la saisie des données, une mauvaise

généralisation si une base de données est issue d’un processus de généralisation, etc. Dans ce dernier cas, la difficulté consiste à identifier la source de l’erreur et à déterminer quelle organisation topologique est juste.

Dans la suite de cette partie nous donnons à titre d’illustration un exemple d’utilisation de l’information topologique dans le processus d’appariement. Dans cet exemple nous utilisons les relations topologiques dites de voisinage (au sens de l’adjacence). Ces dernières sont issues des données géographiques sur lesquelles ont été déterminées les relations topologiques de connexion, c'est-à-dire les nœuds et les arcs adjacents. Ainsi, un arc peut avoir ou non des arcs incidents au nœud initial et des arcs incidents au nœud final.

Le principe de ce critère est le suivant : deux objets A et B se ressemblent si A a des relations topologiques avec ses voisins comparables avec les relations topologiques de l’arc B avec ses voisins.

C.2.4.2 Initialisation des masses de croyance

Afin de faire une analyse globale de la base de données avec laquelle l’appariement d’un objet dépend de l’appariement de ses voisins, et les relations entre les objets géographiques, sont prises en compte, nous avons défini un critère de voisinage. Pour y parvenir, le processus d’appariement est un peu plus complexe que celui décrit dans la partie C.1, et se décompose en deux grandes parties. Dans un premier temps, le processus d’appariement est mis en œuvre en utilisant par exemple n critères basés sur la géométrie ou les attributs des objets géographiques. Puis, dans un second temps, les résultats de la première étape sont analysés pour initialiser les masses de croyance du critère de voisinage, et le processus final est mis en œuvre avec les n+1 critères, y compris le critère de voisinage. Notons que nous pouvons boucler au besoin. Le processus est illustré sur la Figure 69.

Ce critère de voisinage est adapté surtout pour les données organisées en réseau, qui se caractérisent par le fait que les objets géographiques ont des relations spatiales entre eux. Il est de même adapté pour l’appariement 1 : n, c'est-à-dire que N objets obj1, obj2, …objN d’un jeu de données plus détaillé, appelé JD1, correspondent à un seul objet dans l’autre jeu de données moins détaillé, appelé JD2. D’autres critères de voisinage, étudiant par exemple les décalages de position systématiques [Samal et al., 2004] pourraient être définis selon le même principe.

Nous détaillons ci-dessous un exemple typique d’analyse des résultats d’appariement qui différencie d’une part les objets appariés et d’autre part ceux qui n’ont pas été appariés en première passe du processus d’appariement. Afin de mieux comprendre la manière dont nous modélisons le critère voisinage, nous reprenons l’idée de base du processus. Pour chaque objet obj1 appartenant à JD1, nous sélectionnons des candidats à l’appariement dans le jeu de données moins détaillé. Comme nous l’avons décrit auparavant, chaque candidat Ci, i=1..N, est analysé indépendamment des autres candidats. Dans le but de modéliser le critère voisinage, d’abord nous cherchons à savoir si l’objet obj1 a été apparié dans le premier processus. Si c’est le cas, nous utilisons le critère voisinage-objets appariés, sinon, nous utilisons le critère voisinage-objets non-appariés. Les deux critères sont décrits ci-après.

Critère voisinage-objets appariés

Pour les objets appariés lors de la première passe du processus, la modélisation des masses de croyance du critère voisinage est illustrée dans le Tableau 7 à gauche. Supposons que nous sommes en train d’analyser l’objet obj1 appartenant à JD1 et le candidat Ci appartenant à la base de données moins détaillée JD2.

Nous analysons également si le candidat Ci est apparié lors de la première passe. Si c’est le cas, ses n objets homologues sont groupés en groupes connexes. Nous appelons groupe connexe un ensemble d’arcs connectés entre eux. Notons que cette analyse est faite seulement si l’objet obj1 fait partie des objets homologues du candidat Ci. Si un seul groupe G1 a été identifié, le groupe est évalué comme étant sûr : cas d) de la première colonne du Tableau 7. Cela veut dire que les objets appartenant à ce groupe ont été bien appariés en première passe. Sinon, si plusieurs groupes sont trouvés, nous analysons la manière dont les voisins du candidat Ci sont appariés lors de la première étape, et surtout si ses voisins sont appariés avec les voisins des groupes connexes. Nous avons distingué quatre cas illustrés dans la deuxième colonne du Tableau 7.

- cas a) : aucun voisin du candidat Ci n’est apparié aux voisins du groupe G1. Dans ce cas, nous croyons que le candidat n’est pas l’homologue de l’objet obj1 en cours d’analyse. Nous supposons dans ce cas qu’un sur-appariement s’est produit lors du précédent processus d’appariement. Afin de corriger cette possible erreur, nous attribuons à l’hypothèse ¬appCi une masse de croyance importante, car nous croyons à travers l’information de voisinage que l’appariement réalisé en première passe est peu probable. - cas b) : un seul voisin du candidat Ci est apparié à un seul voisin du groupe G1. Dans ce

cas, nous croyons faiblement que le candidat Ci n’est pas l’homologue de l’objet obj1 en cours d’analyse. Par rapport au cas précédent, dans cette situation, nous diminuons la masse de croyance attribuée à l’hypothèse ¬appCi et nous attribuons une masse de croyance faible mais non nulle à l’hypothèse appCi,

- cas c) : plusieurs voisins du candidat Ci sont appariés à plusieurs voisins du groupe G1, mais pas tous les voisins. Dans ce cas, du fait que les niveaux de détail des deux bases de données sont différents, une comparaison fiable du nombre de voisins du groupe G1 et des voisins du candidat Ci n’est pas faisable. Nous attribuons alors une masse de croyance élevée à l’ignorance et le complément est partagé entre les hypothèses appCi et ¬appCi. - cas d) : tous les voisins de obj1 sont appariés avec tous les voisins du groupe G1. Dans ce

cas, nous sommes fermement convaincus que le candidat Ci est l’homologue de l’objet

obj1. Ainsi, nous attribuons à l’hypothèse ¬appCi une masse de croyance importante, avec un faible doute.

Tableau 7. Représentation des connaissances pour le critère voisinage-objets appariés (à

gauche) dans les quatre cas définis à droite.

Hypo-thèse ^{Critère Voisinage-}_{objets appariés}

appCi

¬appC_i

Critère voisinage, objets non-appariés

Si l’objet obj1 n’a pas été apparié lors de la première passe du processus nous utilisons le critère voisinage-objets non-appariés. Nous évaluons l’objet obj1 en analysant ses voisins pour savoir s’ils ont été appariés ou pas. Ainsi, pour l’objet obj1 nous définissons un attribut « évaluation des voisins » qui renseigne sur le nombre de voisins appariés ou non appariés. Ensuite, en fonction de la valeur de cet attribut nous initialisons les masses de croyance du critère voisinage-objets non appariés (deuxième colonne du Tableau 8). Les voisins d’un objet considérés ici sont seulement ceux qui ont la même direction que l’objet obj1 en cours d’analyse à une tolérance près. Afin de ne pas engendrer de sur-appariements, nous avons traité seulement le cas où il existe deux voisins dans la même direction.

Ainsi :

- cas a) : les deux voisins n’ont pas été appariés. Cela conforte l’idée que l’objet obj1 n’est pas apparié. Etant donné que notre processus ne permet pas d’initialiser directement l’hypothèse NA, c'est-à-dire « l’objet obj1 n’est pas apparié », nous attribuons une masse de croyance élevée à l’hypothèse ¬appCi, dont l’hypothèse NA fait partie.

- cas b) : les voisins ont été appariés à des homologues différents, et parmi eux il y a le candidat Ci que nous sommes en train d’analyser. Cela signifie qu’il existe une forte possibilité que l’objet obj1 soit aussi apparié avec le candidat Ci. Dans ce cas, nous croyons que l’objet obj1 peut être apparié soit avec le candidat Ci soit avec son voisin, le candidat Ci-1. En conséquence, nous attribuons à l’ignorance une masse de croyance importante et le complément est partagé entre les hypothèses appCi et ¬appCi,

- cas c) : seulement un voisin a été apparié et celui-ci est le candidat Ci. Dans ce cas nous croyons qu’il y a une possibilité que l’objet obj1 soit apparié aussi à l’homologue de son voisin, c'est-à-dire le candidat Ci. La masse de croyance est partagée entre l’hypothèse

appC_iet l’ignorance.

- cas d) : enfin, les deux voisins ont été appariés et avec le même homologue, et celui-ci est le candidat Ci. Ce cas conforte l’idée qu’il existe une forte possibilité que l’objet soit aussi apparié à l’homologue de ses voisins, c'est-à-dire le candidat Ci.

Tableau 8. Représentation des connaissances pour le critère voisinage-objets non-appariés (à

gauche) dans les quatre cas définis à droite. Hypo- thèse Critère voisinage objets non-appariés appC_i ¬app C_i Θ

C.3 Conclusion

Dans ce chapitre nous avons présenté notre approche d’appariement de données géographiques basée sur la théorie des fonctions de croyance, qui permet de modéliser d’une manière explicite les imperfections présentes dans les données et dans les connaissances.

Nous avons défini un processus d’appariement de données géographiques composé de cinq étapes principales : la sélection des candidats, l’analyse des candidats et l’initialisation des masses de croyance, c'est-à-dire la représentation des connaissances à travers des critères d’appariement, la fusion des critères d’appariement, la fusion des candidats et la décision.

Dans le but d’avoir une analyse plus globale et ainsi de corriger d’éventuelles erreurs d’appariement, nous pouvons introduire dans notre processus d’appariement des critères d’appariement liés à la notion de voisinage. Le critère de voisinage est instancié à partir des résultats d’une première passe du processus d’appariement, puis le processus est relancé avec ce nouveau critère. Ainsi, nous pouvons imaginer que le processus est répété jusqu’au moment où la convergence du processus est obtenue, c'est-à-dire que les résultats ne changent plus. Ce point n’a pas été étudié en détail. Il s’agit donc d’une piste qu’il faudrait approfondir et expérimenter.

Les critères d’appariement s’appuient sur des connaissances qui peuvent provenir des spécifications du contenu des bases de données géographiques à apparier (comme par exemple les seuils), des données elles-mêmes (par exemple les différentes distances calculées à partir de la géométrie ou les attributs des objets géographiques) ou encore des experts (par exemple les règles).

Nous considérons que notre processus d’appariement est adaptable et évolutif, c'est-à-dire que le processus ne se borne pas à quelques critères seulement mais qu’il est possible d’en rajouter autant que nous en avons besoin et aussi de les adapter en fonction des données utilisées. Dans ce chapitre, nous avons donné à titre d’exemple quelques critères d’appariement typiques qui peuvent être utilisés dans le processus d’appariement ainsi que la représentation explicite des connaissances spécifique à chacun d’entre eux : le critère d’écart de position, le critère d’orientation, le critère sémantique, le critère toponymique, le critère de voisinage topologique.

L’initialisation des jeux de masses, c'est-à-dire la représentation explicite des connaissances, est une étape primordiale. Comme nous avons pu le remarquer à travers des exemples typiques, les courbes représentant les jeux de masses peuvent être différentes d’un critère à l’autre. Ceci s’explique par le fait que la modélisation de chaque critère d’appariement s’appuie sur différents types de connaissance et que le degré de fiabilité est différent. Cette flexibilité, c'est-à-dire la représentation explicite de connaissances différentes, est un avantage clé de notre approche.

Cependant, il s’avère que la représentation explicite des connaissances n’est pas si immédiate et qu’à ce stade elle nécessite une bonne connaissance des spécifications et des données, ainsi que des connaissances d’experts. Afin de rendre le processus d’appariement plus générique et plus accessible aux utilisateurs, nous proposons dans le chapitre E plusieurs solutions d’aide à la modélisation des critères.

CHAPITRE D

Dans le document Fusion de connaissances imparfaites pour l'appariement de données géographiques : proposition d'une approche s'appuyant sur la théorie des fonctions de croyance (Page 134-142)