• Aucun résultat trouvé

3.5 Questions conceptuelles et techniques

3.5.3 L’appariement

L’appariement des données géographiques est le processus qui consiste à établir des liens de correspondance entre les objets géographiques représentant les mêmes phénomènes du monde réel mais provenant de jeux de données différents (Belhadj, 2001).

Lors de la mise en correspondance des bases de données, les différences de résolutions engendrent différents types de cardinalité pour les liens de correspondance:

 Liens de cardinalité [1-0] ou [0-1]: ce lien met en évidence l’absence d’homologues, éventuellement due à des omissions ou des actualités différentes entre les bases.  Liens de cardinalité [1-1]: ce type de lien concerne la correspondance entre objets

simples.

 Liens de cardinalité [1-n], [n-1] et [n-m] : dans ce cas, la correspondance n’est pas biunivoque; un objet ou un agrégat d'objets d'une base correspond à un agrégat d'objets simples de l'autre base dans un sens réciproque (Fig3.11).

Fig3. 11. Exemple d’un cas d’appariement [1-n]

3.5.3.1 L’appariement : un outil pour répondre à plusieurs besoins

L'appariement est une technique utilisée dans de nombreuses applications manipulant les données géographiques pour répondre à plusieurs besoins: le contrôle qualité des données géographiques (Belhadj, 2001), le recalage, la mise à jour (Gomboši et al. 2003), la détection des incohérences entre les bases de données géographiques (Sheeren et al. 2004) et l’intégration (Devogele, 1997; Mustière, 2006)

73

L’appariement dans le cas d’un contrôle qualité sert à établir des liens de correspondance entre un jeu de données, objet de l’analyse et un jeu de données pris comme référence pour contrôle de la qualité géométrique, de la sémantique et de l’exhaustivité. L’appariement des données géographiques est également un outil pour recaler des données géographiques sur un référentiel dans le but d’améliorer leur qualité géométrique. Le recalage des données consiste à superposer deux jeux de données représentant potentiellement la même réalité sur une même zone géographique et d’identifier des points homologues par appariement, en vue de réaliser une transformation géométrique (Olteanu, 2008). Dans un contexte de mise à jour, l’appariement des données est un outil qui permet de détecter les éléments homologues entre deux actualités et d’interpréter les évolutions entre deux bases de données géographiques en utilisant la cardinalité des liens d’appariement. L’appariement est aussi un processus important pour l’intégration des bases de données géographiques. La fusion des informations provenant de différentes sources permet d’une part d’enrichir les bases de données à moindre coût et d’autre part, d'élargir leurs champs d'utilisation. Dans ce contexte, l'appariement est utilisé pour identifier les objets candidats à la fusion, qui peut prendre la forme d’un transfert de l'information sémantique d'une base sur les éléments géométriques d'une autre base, ce qui permet de combiner la richesse sémantique de la première base avec la précision géométrique de la seconde (Sheeren, 2002).

3.5.3.2 Les types d’appariement

Le processus d’appariement peut porter sur la mise en correspondance entre les schémas, connu sous le nom d’«appariement des schémas» ou entre les données, processus appelé «appariement des données» (Olteanu, 2008). Les deux processus ne sont pas complètement indépendants (Fig3.12), en principe ils interagissent entre eux (Volz, 2005).

Fig3. 12. Appariement des schémas dérivé de l’appariement des données (Volz, 2005) L’appariement des données

L’appariement des données géographiques est le processus qui consiste à établir des liens de correspondance entre des instances de bases de données représentant les mêmes phénomènes du monde réel mais provenant de jeux de données différents (Belhadj, 2001; Sheeren, 2004) (Fig3.13).

74

Fig3. 13. Contexte de l’appariement des données (Olteanu, 2008)

L’appariement des schémas

L’appariement des schémas fait appel à plusieurs techniques. Il y a des techniques dites simples basées sur la mise en correspondance d’informations issues directement des schémas (le nom d’une classe, les attributs, les relations de généralisation, spécialisation, etc.) (Madhavan et al. 2001; Rahm et Bernstein, 2001) et des techniques fondées sur la déclaration d’Assertions de Correspondance Inter-schémas (ACI) (Parent et al, 1996; Devogele, 1997; Sheeren et al. 2009) qui sont basées sur l’identification de toutes les correspondances entre les schémas de données à un niveau sémantique et entre leurs instances. La déclaration des ACI répond à la question suivante : Pour chaque phénomène du monde réel, quel ensemble d’éléments de la BD1 le représente et quel ensemble d’éléments de la BD2 le représente? (Devogele, 1997). Le tableau 3.1 illustre un cas de déclaration d’ACI entre deux bases de données.

Tab3. 1. Exemple de classes à apparier (Devogele, 1997)

La correspondance entre la classe COMMUNE de la BD1 qui gère l’ensemble des communes de France et la classe COMMUNE_IDF de la BD2 qui décrit l’ensemble des communes de la région Ile de France est représentée par l’ACI suivante :

SELECTION (Région = «Ile de France») BD1. COMMUNE BD2. COMMUNE_IDF D’autres approches d’appariement de schémas proposent de se baser sur une ontologie de domaine (Fonseca et al. 2002; Gesbert, 2005; Mostafavi, 2006; Mustière et al. 2007; Abadie, 2012). Ces approches permettent de déduire les correspondances entre les éléments des schémas des bases de données à apparier à travers les similarités sémantiques entre ceux- ci et les éléments d’une ontologie de domaine.

3.5.3.3 Les critères d’appariement et les mesures associées

En raison de la complexité du processus d’appariement des données géographiques, il est nécessaire de s’appuyer sur l’évaluation de l’écart entre une ou plusieurs propriétés de deux objets potentiellement homologues, en se basant sur certains critères, appelés critères d’appariement (Olteanu, 2008). Ces critères sont définis sur base des caractéristiques qui

75

sont associées à l’objet géographique (Fig3.14) et pour lesquelles des mesures quantitatives sont définies pour évaluer la correspondance sur base d’un certain nombre de seuils. Ces critères peuvent être utilisés séparément ou conjointement en fonction des bases de données sources et de leur apport informationnel pour piloter le processus d’appariement. A titre d’exemple, l’attribut « nature géographique » d’un objet s’avère pertinent pour guider la recherche des correspondances et minimiser la cardinalité des liens entre objets potentiellement homologues.

Fig3. 14. Les caractéristiques d’un objet géographique (Olteanu, 2008)

Le critère géométrique

Le critère géométrique s’appuie sur la géométrie des objets en termes de localisation et d’informations implicites sur leur forme (longueur, orientation…). Dans le cas des objets surfaciques comme les bâtiments, trois types de mesures basées sur la localisation sont utilisées: la distance surfacique, la fonction à distance radiale ou la fonction angulaire (Olteanu, 2008). La distance surfacique (Fig3.15) permet de mesurer l’écart de position entre deux objets surfaciques. Elle a été initialement définie par (Vauglin, 1997) et utilisée entre autres par (Bel Hadj, 2001; Sheeren, 2005) pour apparier des objets surfaciques. Pour les autres mesures, nous renvoyons le lecteur vers (Olteanu, 2008; Belhadj, 2001).

Le critère topologique

Ce critère est basé sur la comparaison des relations topologiques entre les objets qui décrivent leur position relative au moyen des relations spatiales d’inclusion, d’intersection et d’adjacence (Egenhofer, 1989; Egenhofer et Herring, 1990; Clementini et al. 1993). Ces relations ont été formalisées par le modèle des 4 intersections (4I) qui a été ensuite étendu au modèle des 9 intersections (9I).

76

Fig3. 15. Distance surfacique entre deux objets (Olteanu, 2008) Le critère attributaire/sémantique

En se référant au critère attributaire, les objets sont appariés grâce à la valeur de leur identifiant commun. Il existe dans la littérature de nombreuses mesures qui permettent de comparer les noms d’attributs en termes de chaînes de caractères comme : la distance de Hamming, la distance de Levenshtein ou la distance d’édition. Nous trouvons dans (Euzenat et Shvaiko, 2007) une description détaillée des mesures de distance basées sur la comparaison des noms d’attributs.

En raison de la complexité de l’information géographique dans le contexte de l’intégration de bases de données, la sémantique basée sur l’analyse des concepts est une source de connaissance pertinente en l’absence d’identifiant unique, et lorsque les critères géométriques sont insuffisants. De nombreux auteurs s’intéressent de plus en plus à l’analyse de l’information sémantique. Celle-ci permet d’apporter un critère de décision supplémentaire aux techniques d’appariements traditionnels (Abadie, 2012). De nombreuses mesures de proximité sémantique ont été définies dans la littérature (Hirst et St Onge, 1998). Un état de l’art complet sur ces mesures est présenté dans (Patwardham, 2003). Dans ce mémoire, nous nous limitons à la présentation de la mesure de Wu-Palmer (Wu et Palmer, 1994).

La mesure de Wu-Palmer est une mesure basée sur l’utilisation d’une taxonomie de domaine. Elle est généralement choisie pour sa simplicité de mise en œuvre. Celle-ci établit la valeur de similarité entre deux concepts d’une même taxonomie grâce à la distance à leur plus petit généralisant commun (Fig3.16). En effet, si C est le plus petit généralisant commun de deux concepts C1 et C2, la distance sémantique est définie de la manière suivante :

- Prof(C): désigne la profondeur de C qui représente le nombre d’arcs qui séparent C de la racine de la taxonomie,

- Prof(Ci): le nombre d’arcs qui séparent le concept Ci de la racine de la taxonomie, en passant par C.

77

Fig3. 16. Schématisation du calcul de profondeur dans la mesure sémantique de Wu-Palmer (Adopté de Wu et Palmer, 1994)