• Aucun résultat trouvé

5. APPARIEMENT DE BDG

5.1 P ROCESSUS GÉNÉRIQUE S ’ APPUYANT SUR UNE BOÎTE À OUTILS D ’ APPARIEMENT

5.1.2 Les étapes du processus générique

Les étapes d’appariement présentées dans cette section, s'appuient sur les expériences d’appariement complexes réalisées au laboratoire COGIT :

• L’appariement de BD surfaciques (appariement surface-surface et surface-ligne) pour comparer la cohérence géométrique du Cadastre et de la BD TOPO [Lemarié 96]. Cet appariement a démontré que l’on pouvait aussi apparier des objets surfaciques.

• L’appariement de BDG routières à différentes échelles [Devogele et al. 96 a] [Devogele et al. 96 b] décrit dans le chapitre suivant. Cet appariement a montré qu’un processus d’appariement complet de BDG devait être décomposé en séries d’appariement à effectuer dans un ordre précis.

• L’appariement de BDG routières selon différents points de vue à la même échelle [Branly 97] qui a révélé que des appariements provisoires pouvaient être repris et améliorés lors de la réalisation d’autres appariements.

• L’appariement de BDG ayant la même représentation mais à différentes dates [Bucaille 97]. Cette expérience a établi que plusieurs outils d’appariement devaient être lancés parallèlement, chacun des outils étant insuffisant et ne donnant de bons résultats que pour une partie des données. En outre, une deuxième étape consistant à fusionner les résultats des différents appariements, doit être réalisée afin de conserver la meilleure part de chaque appariement.

Donc, un processus générique d’appariement doit permettre d’utiliser conjointement plusieurs outils en parallèle ou en série, il se décompose en plusieurs phases.

5.1.2.1 L’enrichissement des BDG

La première étape est l’enrichissement des BDG par des attributs virtuels (méthodes) et des caractéristiques sur la forme de l’objet (aire, distance radiale au centroïde, …). Cette phase permet la mise en conformité des informations et la matérialisation d’informations implicites. L’utilisateur dispose alors des données requises par les outils d’appariement. 5.1.2.2 La sélection d’objets candidats à l’appariement

La deuxième étape est la sélection : elle désigne dans les deux bases, les groupes d’objets candidats à l’appariement. La sélection des objets candidats permet de restreindre la recherche à une population ciblée afin de limiter le nombre d’éléments parasites et les temps de calcul. Ces sélections peuvent être :

• des populations de classes entières,

• deux ensembles d’objets répondant aux mêmes critères (ce critère peut être un appariement déjà réalisé),

• une instance d’une classe de la première base et les instances candidates à l’appariement de la deuxième base en fonction de propriétés de la première instance.

L’étape de sélection s’appuie donc sur des outils de sélection qui sont des outils d’appariement rudimentaires (rectangle englobant, distance euclidienne, …) et des appariements déjà réalisés.

De plus, un ordre sur les sélections doit être établi pour enchaîner les appariements. Les appariements les plus fiables et qui interviennent lors d’autres appariements doivent êtres exécutés les premiers. Cet ordre va conditionner la qualité du processus global.

Il faut aussi noter qu’un élément candidat à une sélection, qui n’a pas été apparié, peut être sélectionné à nouveau.

5.1.2.3 Les calculs de mesures d’appariement

Après avoir effectué une sélection, des mesures d’appariement entre des objets sélectionnés ou des objets en relation avec ces derniers sont calculées.

La difficulté de cette étape est le choix des outils à utiliser et de leurs paramètres. Tout d’abord, l’utilisateur doit rechercher s’il existe des identifiants communs (Numéro INSEE, …) aux deux bases. Dans l’affirmative, il est souhaitable d’utiliser l’outil d’égalité sémantique. Sinon, l’utilisateur doit utiliser des outils géométriques et topologiques. Le choix de l’outil se fait alors en fonction des critères suivants :

le type de l’appariement recherché (appariement 1-1, 1-n et n-m),

la proximité des objets correspondants,

la similitude des formes des objets correspondants,

les relations topologiques entre les objets à apparier et les objets déjà appariés.

Selon les réponses apportées à ces questions, l’utilisateur choisira un ou plusieurs des outils répondant à ces critères.

5.1.2.4 Le filtrage et la prolongation

Cette étape permet d’interpréter les résultats de la phase précédente et de faire évoluer les ensembles d’objets candidats à l’appariement.

Le filtrage consiste à supprimer les objets parasites parmi les éléments candidats. Ces objets sont détectés soit grâce aux mesures réalisées lors de la phase précédente, soit à l’aide de nouveaux outils (plus court chemin, …). Ainsi, les objets ne répondant pas aux critères fixés par l’utilisateur sont supprimés. Le choix des valeurs de ces critères est réalisé, soit à l’aide de méta-données, soit empiriquement par tâtonnement.

Le filtrage peut aussi être utilisé pour affiner des appariements déjà réalisés. En effet, un processus d’appariement (appelé appariement provisoire) peut être repris une fois qu’un autre processus aura été effectué. Cette consolidation d’appariement provisoire par d’autres appariements est très utile pour rendre fiable l’appariement des objets en relation. Cette méthode a été utilisée dans [Branly 97] pour apparier les tronçons et les noeuds de la BD TOPO et de GEOROUTE.

La prolongation consiste à compléter une sélection si celle-ci, aux vues des mesures d’appariement, est jugée incomplète pour en déduire un appariement fiable. Pour ces nouveaux objets sélectionnés, la phase de mesure d’appariement doit être lancée. Par exemple, pour apparier les tronçons de réseaux, si les mesures réalisées indiquent que la sélection est incomplète, le plus petit des deux chemins est prolongé en ajoutant une des arêtes suivantes, afin d’établir des liens n-m entre les deux bases.

5.1.2.5 Le regroupement d’appariements

L’utilisation d’outils d’appariement 1-1 pour des appariements de type 1-n ou l’utilisation d’outils d’appariement 1-n pour des appariements de type n-m crée des appariements

incomplets. Il est donc nécessaire de regrouper les résultats obtenus pour retrouver les appariements entre objets. Cette phase est simple et consiste à confronter les différents regroupements obtenus, afin de détecter les objets apparaissant dans plusieurs groupes. Elle est réalisée une fois que tous les objets susceptibles d’être regroupés sont appariés provisoirement.

5.1.2.6 L’analyse du résultat, le contrôle de cohérence

Durant les phases précédentes, certains contrôles de cohérence ont pu déjà être réalisés implicitement lors de l’utilisation des outils. Par exemple, l’utilisation d’un algorithme de plus court chemin permet de filtrer les sélections, mais aussi de contrôler la connexité du chemin. Cependant, toutes les contraintes de cohérence n’ont pas forcement été vérifiées. Il faut donc avant de valider les résultats obtenus, analyser les correspondances afin de vérifier la validité des contraintes non encore employées [Ousset 97]. Ces contraintes peuvent porter sur la cardinalité des appariements obtenus, la connexité, la complétude, le graphe de communication, les relations de composition, ….

Si, les objets vérifient les contraintes déterminées, l’appariement pourra être considéré comme valide. Par contre, si les objets en correspondance ne les vérifient pas un contrôle de cohérence manuel devra être appliqué.

5.1.2.7 Enchaînement des phases

Une fois toutes ces phases décrites, il est nécessaire de définir leur enchaînement (figure 60). La phase d’enrichissement est la première phase, elle est exécutée une seule fois au début du processus, tandis que, les autres phases sont exécutées en boucle.

En premier lieu, une sélection est réalisée sur les deux bases à apparier.

Puis, des mesures d’appariement sont réalisées sur les objets sélectionnés (les objets candidats à l’appariement).

Pour une stratégie par filtrage, en fonction de ces mesures et des appariements (provisoires ou consolidés) déjà réalisés, une partie des objets candidats sont supprimés. Ce filtrage et ces mesures peuvent aussi servir à filtrer à nouveau des appariements provisoires déjà établis. Pour une stratégie par prolongation, si les mesures d’appariement et les appariements (provisoires ou consolidés) montrent que les ensembles d’objets candidats sont incomplets, d’autres objets seront sélectionnés et de nouvelles mesures seront exécutées. Cette étape de filtrage ou de prolongation donne des appariements provisoires.

Une fois ces appariements provisoires réalisés, d’autres objets des deux bases peuvent être sélectionnés. Quand tous les objets faisant partie des classes impliquées dans une même ACI (Assertion de Correspondance Interschémas) ont été appariés provisoirement, les différents appariements sont confrontés pour regrouper si nécessaire, les appariements provisoires 1-1 ou 1-n.

Finalement, les appariements obtenus sont analysés pour vérifier les contraintes d’appariement définies qui n’ont pas été utilisées lors des phases précédentes. Trois issues sont alors possibles :

• l’appariement est valide,

• l’appariement est incohérent et un contrôle de cohérence manuel des données doit être réalisé,

Cette analyse étant faite, de nouvelles sélections ont lieu pour les objets des classes des autres ACI, jusqu'à ce que le processus d’appariement ait sélectionné tous les éléments susceptibles d’être appariés. (1) Enrichissement (4) Filtrage (3) Mesure (2) Sélection