• Aucun résultat trouvé

C Processus d'appariement de données géographiques basé sur la théorie des fonctions de croyance

C.2 Modélisation des critères d'appariement

C.2.2 Connaissances sur la sémantique

Dans une base de données géographiques, les données géographiques sont regroupées dans des thèmes tels que le réseau routier, l’hydrographie, les points remarquables du relief, l’administratif, l’occupation du sol. Chaque thème peut contenir plusieurs classes d’objets. Cependant, il s’avère qu’au sein de la même classe d’objets il peut y avoir des objets géographiques qui n’ont pas exactement la même nature, en fonction du niveau de détail de la classification. Ainsi, les objets géographiques possèdent un attribut appelé par exemple nature ou type qui précise ce que nous appelons l’information sémantique.

L’information sémantique a fait ses preuves dans le processus d’appariement de schémas et elle est très souvent employée. Malgré cela, la sémantique est très peu utilisée dans le processus d’appariement de données géographiques, plusieurs auteurs affirmant que la sémantique pourrait améliorer un processus d’appariement, mais son utilisation reste très limitée à cause de la difficulté de gérer son hétérogénéité parmi les jeux de données et ses imperfections.

C.2.2.1 Problématique

Pour simplifier, nous supposons désormais que l'attribut qui désigne la sémantique des objets géographiques est l'attribut nature. De nombreux concepts géographiques existent et en fonction de leur interprétation et de leur but final, deux concepts différents peuvent désigner la même chose ou encore, un même concept peut désigner deux choses sensiblement différentes dans des applications différentes. Ce problème est souvent appelé l'hétérogénéité sémantique. Par exemple, une entité du monde réel représentant un barrage est vue par un opérateur de saisie comme un ouvrage physique, tandis que la même entité du monde réel est vue par un autre opérateur comme une zone d'eau.

L'attribut nature ne présente donc pas le même niveau de détail pour toutes les données. Par exemple, dans un jeu de données il peut y avoir un regroupement de concepts dans une même valeur de l'attribut : « sommet, crête, colline », tandis que dans l’autre jeu de données les concepts sont distingués.

De plus, les données géographiques, telles que les montagnes, les sommets, les pics, les vallées, les cols, etc. sont imprécises d’une part par définition, par exemple la limite entre une vallée et une montagne n’est pas parfaitement définie, et d’autre part parce que les différences entre les concepts utilisés dans les bases de données peuvent être floues, comme par exemple entre sommet et pic. Les concepts de sommet et de pic sont proches d'un point de vue sémantique, et dans la pratique ils sont très souvent confondus.

Cependant, l’analyse des données géographiques montre qu’il existe des objets géographiques qui ont le même toponyme, qui sont proches les uns des autres, mais qui ne sont pas de la même nature et par conséquent ne peuvent pas être mis en correspondance, comme par exemple un sommet avec un col.

Toutes ces difficultés font que la comparaison de l’attribut nature n’est pas immédiate, et qu’une simple comparaison des valeurs d’attribut sera inexploitable. C’est pour cela que nous devons évaluer plus finement le degré de ressemblance sémantique entre les concepts.

Nous considérons que la prise en compte de la nature des objets géographiques peut être utile dans le processus d’appariement. Cependant, un critère d’appariement basé sur la sémantique est moins discriminant qu’un critère d’appariement basé par exemple sur l’écart de position. Il est évident que la condition nécessaire pour qu’un objet géographique obj1soit apparié avec un candidat est que les deux objets appartiennent à la même classe ou aient une nature proche, mais tous les candidats de la même classe ne sont pas appariés avec l’objet

obj1.

Si pour certaines propriétés, telles que la géométrie, la topologie, les attributs quantitatifs ou même qualitatifs, des mesures de distance existent déjà, qui peuvent s’appliquer directement aux propriétés pour mesurer le degré de ressemblance sémantique entre deux concepts, la seule comparaison des chaînes des caractères désignant la nature des objets ne suffit pas. La question qui se pose est : Comment définir une mesure qui permette d’évaluer

cette distance sémantique ? Une solution est de demander à des experts qu’ils évaluent l’écart sémantique entre les données, puis d’exploiter leur évaluation pour pouvoir calculer une distance sémantique. Une autre solution est de s’appuyer sur d’autres sources telles qu’un dictionnaire, une taxonomie ou une ontologie de domaine afin de déterminer les distances sémantiques.

Utiliser une ontologie ou une taxonomie de domaine a l’avantage entre autres, de faciliter la mise en oeuvre et l’automatisation de l’étape de détermination de la distance sémantique. Dans notre approche, afin d’évaluer la pertinence de l’évaluation de la ressemblance sémantique à partir d’une taxonomie, nous avons comparé deux méthodes. D’une part nous avons réalisé une enquête auprès d’experts. Elle consiste à leur demander d’attribuer des notes entre 0 et 1 pour évaluer l’écart sémantique entre les concepts ou les groupes de concepts. D’autre part, nous avons utilisé une taxonomie de domaine établie au laboratoire COGIT de l’IGN [Abadie et Mustière, 2008].

A titre illustratif, nous présentons sur la Figure 68 un extrait d’une taxonomie représentant le thème « points remarquables du relief ».

Figure 68. Extrait de la taxonomie réalisée pour les points remarquables du relief par [Abadie

et Mustière, 2008]

La comparaison des deux études montre d’une part que la taxonomie est utilisable, car globalement elle est cohérente avec les experts, et d’autre part que les mesures de distance sémantique méritent cependant d’être améliorées. Nous reviendrons plus en détail sur ces deux études dans la partie expérimentation du chapitre D.

C.2.2.2 Initialisation des masses de croyance

Afin de comparer les différentes natures, nous avons utilisé la distance sémantique dS

définie par [Wu et Palmer, 1994], d’une part en raison de sa simplicité et d’autre part en raison de son unanimité dans la communauté. Par exemple, la distance sémantique entre un « pic » et un « sommet » est de 0,2, tandis que la distance sémantique entre un « pic » et un « col » est de 0,66. Cela montre qu’un pic est plus proche d’un sommet que d’un col.

La représentation des connaissances pour le critère sémantique est illustrée sur le Tableau 4. Le critère sémantique est basé sur trois types de connaissance : un seuil empirique T, les distances sémantiques calculées à partir des données comme nous l’avons décrit ci-dessus, et les règles. Nous proposons d’utiliser un seuil empirique déterminé grâce aux notes fournies par les experts qui nous ont guidés pour fixer la limite à partir de laquelle deux concepts ne peuvent plus être considérés comme ressemblants au sens sémantique du terme, conformément à l’Annexe 2. Nous appelons règles, les connaissances qui sont utilisées pour définir les masses de croyance en analysant les deux autres connaissances à savoir les distances sémantiques et le seuil T.

Le critère sémantique n’est pas le critère le plus discriminant, il nécessite la représentation de conditions nécessaires mais pas suffisantes. Etant donnée la spécificité des objets géographiques, il est souvent possible qu’il existe un grand nombre de candidats de même nature que l’objet obj1 en cours d’analyse. Nous rappelons que notre approche consiste à analyser chaque candidat indépendamment des autres. Ainsi, dans l’hypothèse où plusieurs candidats aient la même nature, c'est-à-dire une distance sémantique égale à 0, et que nous attribuons une masse de croyance importante à l’hypothèse « le candidat Ci est l’homologue de l’objet obj1 » et cela pour chacun des candidats, nous avons un fort conflit lors de la combinaison des candidats et donc aucune décision ne peut être prise. Ce conflit est tout à fait normal, puisque nous soutenons sans discrimination tous les candidats qui ont la même nature.

Afin que cela ne se produise pas, nous proposons une modélisation prudente, c'est-à-dire que même si deux objets ont la même nature, nous n’affirmons pas avec une grande certitude que les deux objets sont homologues.

La courbe illustrée sur la première ligne signifie que nous considérons que si la distance sémantique entre l’objet obj1 et le candidat Ci est égale à 0, la masse de croyance attribuée à l’hypothèse Ci : « le candidat Ci est l’homologue de l’objet obj1 » est égale à 0,5 dans notre exemple, donc nous n’attribuons pas de forte croyance à ce candidat. Plus la distance sémantique tend vers le seuil S, plus cette hypothèse devient peu plausible, et la masse de croyance diminue. Enfin, si la distance sémantique est supérieure au seuil T, nous croyons que le candidat Ci n’est pas le bon candidat, mais afin de ne pas l’éliminer en raison de l’imperfection de la distance sémantique, nous attribuons une masse de croyance très faible à l’hypothèse appCi, mais non nulle. Nous pouvons cependant donner une masse non négligeable de 0,5 dans la mesure où grâce au cadre de discernement, nous ne comparons pas tous les objets, mais le sous-ensemble des objets probables.

La courbe illustrée sur la deuxième ligne du Tableau 4 représente la masse de croyance attribuée à l’hypothèse ¬appCi : « le candidat Ci n’est pas l’homologue de l’objet obj1 ». Rappelons que l’hypothèse ¬appCi fait partie du cadre de discernement, étant composée de toutes les hypothèses du cadre de discernement sauf l’hypothèse appCi. Si la distance sémantique est égale à 0, cette hypothèse est impossible, la masse de croyance étant partagée

d’une manière égale entre l’hypothèse appCi et l’ignorance. Plus la distance sémantique s’accroît, plus l’hypothèse ¬appCi devient plausible, la masse de croyance augmentant proportionnellement avec la distance. A partir du seuil S, cette hypothèse est crédible : la masse de croyance est importante, et le doute n’est pas nul, c'est-à-dire que la masse de croyance attribuée à l’ignorance est égale à 0,1. Cette modélisation a été réalisée dans le but de prendre en compte des erreurs potentielles dans la nature des objets géographiques ou lorsque les classifications des deux jeux de données à apparier sont hétérogènes et donc difficiles à comparer et surtout afin de prendre en compte l’imperfection de la distance sémantique utilisée.

Hypothèse Critère Sémantique

appCi

¬appCi

Θ

Tableau 4. Représentation des connaissances pour le critère sémantique

Enfin, la dernière courbe représente la masse de croyance attribuée à l’ignorance. Comme nous pouvons le constater, cette courbe est similaire à celle représentant l’hypothèse appCi. L’idée de base de cette modélisation est la suivante : si deux objets sont proches du point de vue sémantique, il y a des chances qu’ils soient homologues, mais nous avons un doute, et si deux objets sont éloignés, ils ne sont pas homologues, mais nous avons également un doute, qui est plus faible que dans le cas précédent. Cela signifie que dans le processus d’appariement, nous devons représenter des conditions nécessaires mais pas suffisantes. Ainsi, pour que deux objets soient homologues il est nécessaire que les attributs « nature » des objets soient proches, c'est-à-dire qu’ils aient une distance sémantique faible, mais tous les objets ayant la même nature ne sont pas homologues.

C.2.3 Connaissances sur la toponymie ou sur les noms des objets