LogMap

63. http://oaei.ontologymatching.org/2014/

64. http://islab.di.unimi.it/im_oaei_2014/index.html

Le projet LogMap est un système permettant la génération de correspondances entre

deux bases de connaissances. Le processus global de ce projet est présenté dans la figure18.

Ce processus est constitué de cinq étapes :

Indexation terminologique et structurelle (Lexical and Structural Indexation) : La

première étape est l’indexation terminologique des éléments constituant les

ontolo-gies en entrée. Elle indexe non seulement les chaînes de caractères associées aux

Figure 18 – Processus LogMap [Jiménez-Ruiz and Grau, 2011]

éléments mais aussi les éléments hiérarchiquement au-dessus et en-dessous de

l’élé-ment. Une représentation de type "interval labelling schema" [Agrawal et al., 1989]

permet de repérer facilement et rapidement si un élément est une spécialisation ou

une généralisation d’un autre.

Génération des ancres initiales (Compute Initial Anchors) : En utilisant une

tech-nique de comparaison de chaînes de caractères, des ancres sont générées entre les

deux ontologies. La comparaison utilisée ici est la similarité exacte des chaînes

de caractères. De cette manière, des correspondances avec une forte fiabilité sont

générées et serviront de point d’entrée pour les prochaines étapes.

Réparation des correspondances (Mapping Repair) : En utilisant un raisonneur,

Log-Map essaie de déterminer les correspondances apportant un incohérence

(particuliè-rement en utilisant les classes disjointes). De cette manière, des correspondances

sont supprimées pour éliminer ces incohérences.

Découverte des correspondances (Mapping Discovery) : S’il existe encore des

voi-sins non étudiés (condition "Expand"), alors chaque paire de voivoi-sins des éléments

déjà étudiés est étudiée à son tour afin de déterminer s’il existe une correspondance

entre-eux. Cette correspondance est définie à partir d’une comparaison

terminolo-gique des éléments, mais aussi grâce à une comparaison structurelle en utilisant la

hiérarchie de généralisation et de spécialisation associée aux éléments. S’il existe une

correspondance entre deux nouveaux éléments, alors cette correspondance est

ajou-tée dans la base des correspondances et les éléments sont ajoutés dans les éléments

à étudier. Un score de fiabilité est associé à chacune des correspondances suivant les

similarités terminologique et structurelle. L’étape de réparation des correspondances

est de nouveau effectuée avec cette nouvelle base de correspondances.

Calcul de l’intersection (Compute Overlapping) : Lorsqu’il n’existe plus de paire

d’éléments à étudier dans le voisinage des éléments actifs, alors deux sous-ensembles

(un pour chaque ontologie) sont générés. Ces sous-ensembles représentent les

élé-ments qui n’ont pas été mis en correspondance dans les étapes précédentes. De

cette manière, un expert peut intervenir uniquement sur ces sous-ensembles pour

ajouter des correspondances.

L’outil LogMap permet de répondre aux besoins de notre processus. En effet, cet

outil permet non seulement de mettre en correspondance des classes de l’ontologie mais

également des individus dans la partie assertionnelle. De plus, la participation de cet outil

à la campagne d’évaluation OAEI a permis de mettre en évidence ses bons résultats. Après

exprimentation de l’outil, nous avons pu observer qu’un seul type de correspondances

était détecté : les équivalences. Nous considérerons donc dans la suite de ce manuscrit

que les correspondances obtenues par l’outil LogMap ne sont que des équivalences.

Ces correspondances nous permettent de détecter les éléments communs à plusieurs

sources. Nous cherchons alors à fusionner ces éléments pour obtenir l’élement qui sera

présent dans la base de connaissances finale à représenter.

3. Fusion de bases de connaissances

3.1. Fusion d’ontologies

Nous considérerons dans ce manuscrit la définition de fusion telle qu’elle est définie

dans les travaux [Pottinger and Bernstein, 2003] :

En considérant deux modèles A et B et un ensemble de correspondances

M ap

, le processus de fusion génère un troisième modèle représentant l’union

sans doublon des modèles de A et B conformément aux correspondances de

M ap

.

Cette définition est suffisamment générique pour considérer comme modèle plusieurs

types de sources, telles que des bases de données, des diagrammes UML ou encore des

ontologies. La notion de "union sans doublon" est particulièrement importante dans cette

définition. Eliminer les doublons lors d’une fusion de deux modèles peut être un processus

complexe. Prenons un exemple simple de définition du nom d’une personne. Si le modèle

A définit le nom comme un seul attribut alors que le modèle B définit le nom de famille

et le prénom, la fusion naïve de ces attributs peut amener à avoir les trois attributs dans

le modèle final.

Afin d’étudier les travaux traitant de cette notion de fusion de bases de connaissances,

nous avons défini quatre critères :

Symétrique : La notion de fusion symétrique implique que les deux modèles à

fu-sionner ont la même importance. Il est possible d’utiliser une technique de fusion

asymétrique pour privilégier un modèle plutôt qu’un autre lors de choix à faire

dans la modélisation du modèle résultat.

Processus d’alignement inclus (Align.) : Certains travaux impliquent le processus

d’alignement des modèles dans leur processus alors que d’autres considèrent les

correspondances comme une entrée du système.

Conflits : Certains travaux prennent en compte la notion de conflits pouvant exister,

un conflit étant une fusion impliquant une incohérence dans le modèle.

Projet Symétrique Align. Conflits Confiance

Vanilla

oui non oui non

Table ^{11 – Travaux sur la fusion}