Opérateurs de gestion des alignements de ressources de connaissances hétérogènes

(1)

Conference Presentation

Reference

Opérateurs de gestion des alignements de ressources de connaissances hétérogènes

GHOULA, Nizar, NINDANGA, Hervé, FALQUET, Gilles

Abstract

Les applications du Web sémantique utilisent et produisent un grand nombre de ressources terminoontologiques.Malgré l'hétérogénéité de ces ressources, elles peuvent partager ou importer des mêmes entités(concepts, termes, individus, ...). Idéalement, ces ressources doivent être alignées afin de pouvoir reformuler desrequêtes pour mieux exploiter le contenu du Web sémantique. Par conséquence, il est nécessaire de créer et degérer des grandes quantités d'alignements entre des ressources de connaissances. Peu de systèmes permettentd'offrir la possibilité de gérer des alignements. De ce fait, nous abordons cette problématique indépendammentdu type des ressources alignées ou du formalisme d'alignement utilisé. Cet article présente une approche de gestionde ressources d'alignements basée sur un modèle ontologique et un ensemble d'opérateurs. Les relationsutilisées dans l'expression des correspondances dans les alignements sont soumises à des transformations et desopérations de normalisation. Une méthode d'évaluation des opérateurs proposés est décrite afin de permettre dejustifier [...]

GHOULA, Nizar, NINDANGA, Hervé, FALQUET, Gilles. Opérateurs de gestion des alignements de ressources de connaissances hétérogènes. In: IC 2014 25es journées francophones de l'Ingénierie des Connaissances - Atelier SoWeDo'2014 "Des Sources Ouvertes au Web de Données", Clermont-Ferrand (France), 13 mai 2014, 2014, p. 1-12

Available at:

http://archive-ouverte.unige.ch/unige:44898

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Opérateurs de gestion des alignements de ressources de connaissances hétérogènes

Nizar Ghoula, Hervé Nindanga, Gilles Falquet

Centre universitaire d’informatique, Université de Genève 7, route de Drize, CH-1227 Carouge, Suisse

{Nizar.Ghoula,Gilles.Falquet}@unige.ch, Herve.Nindanga@etu.unige.ch

Résumé :

Les applications du Web sémantique utilisent et produisent un grand nombre de ressources terminoontologiques. Malgré l’hétérogénéité de ces ressources, elles peuvent partager ou importer des mêmes entités (concepts, termes, individus, ...). Idéalement, ces ressources doivent être alignées afin de pouvoir reformuler des requêtes pour mieux exploiter le contenu du Web sémantique. Par conséquence, il est nécessaire de créer et de gérer des grandes quantités d’alignements entre des ressources de connaissances. Peu de systèmes permettent d’offrir la possibilité de gérer des alignements. De ce fait, nous abordons cette problématique indépendamment du type des ressources alignées ou du formalisme d’alignement utilisé. Cet article présente une approche de gestion de ressources d’alignements basée sur un modèle ontologique et un ensemble d’opérateurs. Les relations utilisées dans l’expression des correspondances dans les alignements sont soumises à des transformations et des opérations de normalisation. Une méthode d’évaluation des opérateurs proposés est décrite afin de permettre de justifier l’utilité d’un système de gestion et combinaison d’alignements.

Mots-clés: Gestion des alignements, Ontologies, Alignements, Opérateurs

1 Introduction

Pour pouvoir exploiter le grand nombre de ressources ontologiques et terminologiques dis- ponibles sur le Web, il est indispensable de disposer d’alignements entre celles-ci. La difficulté et le coût élevé de l’alignement manuel ont motivé le développement d’outils et de systèmes de construction automatique d’alignements (Shvaiko & Euzenat, 2013) entre ressources terminoontologiques (Rocheet al., 2009). L’utilisation de la majorité de ces systèmes reste relativement complexe, il est difficile de les utiliser sans les installer ou les implémenter localement. Idéale- ment, chacun de ces outil devrait être doté d’une interface Web, tel LogMap (Jiménez-Ruiz &

Grau, 2011). Cela devrait permettre à un utilisateur de charger ses propres ressources, ajuster les paramètres et déclencher un processus pour recevoir en résultat un alignement. De plus, si un alignement entre des ressources a été élaboré et validé par des experts du domaine, on sou- haite le sauvegarder pour le réutiliser. Ainsi, certains entrepôts ont été créés afin de collecter des alignements entre un grand nombre de ressources termino-ontologiques pour des ressources et domaines spécifiques comme BioPortal (Noy et al., 2008), l’API d’alignement ou le serveur d’alignement (Davidet al., 2011).

Dans cet article nous présentons un ensemble d’opérateurs génériques de gestion d’alignements et des méthodes de normalisation des correspondances. L’objectif est d’évaluer l’utilité des opérateurs de combinaison d’alignements. Les opérateurs union, intersection, composition sont déjà bien définis mais non implémentés ni testés (Euzenat, 2008). Cependant, dans le cas des relations pondérées entre deux entités, il n’y a à notre connaissance pas de travaux don- nant des définitions claires de la manière de composer ou intégrer les alignements et a fortiori aucun test. Nous présentons, dans la section 2, le contexte de ce travail de recherche ainsi que

(3)

quelques travaux similaires. Nous décrivons, dans la section 3, les opérateurs de gestion des correspondances que nous proposons en se basant sur des approches existantes. Nous proposons, dans la section 4, une méthode d’évaluation des opérateurs de combinaison et agrégation d’alignements.

2 Gestion des ressources d’alignements

De nombreux outils ont été proposés pour générer des alignements sur les ressources lexi- cales, linguistiques, terminologiques et ontologiques. Certains de ces outils combinent des alignements ontologiques ou terminologiques. D’autres systèmes comme le serveur d’alignement et l’API d’alignement (Davidet al., 2011) gèrent des alignements logiques.

(Mackenet al., 2008) proposent une méthode statistique pour générer des alignements. Les auteurs ont utilisé l’intersection et l’union afin de créer un corpus d’alignements de référence de bonne qualité pour le comparer avec les résultats de leur approche. Pour composer les alignements linguistiques dans le cas des outils de traduction automatique, (Ayan et al., 2004) proposent le framework Multi-Align pour tester la combinaison de différents algorithmes de traduction automatique. Ce framework utilise les résultats des différentes méthodes d’alignement et les combine pour avoir un alignement unique de meilleure qualité. (Euzenat, 2008), propose une algèbreA5complète pour définir la sémantique pour de nouvelles relations résul- tant de l’application de l’union, l’intersection et la composition des alignements. Cette algèbre utilise un ensembleR₅de relations simples entre deux entités sont l’équivalence (≡) ; la géné- ralisation stricte (A) ; la spécialisation stricte (@) ; le chevauchement (G) et la disjonction (⊥).

Cet ensemble s’étend ensuite à un ensemble R31 contenant 31 relations qui sont chacune un ensemble de disjonctions de relations simples (page 6 de (Euzenat, 2008)).

Nous avons utilisé cette algèbre pour implémenter les opérateurs d’union, intersection et composition. Dans le contexte de cette contribution nous limitons le périmètre aux alignements d’ontologies (l’ensembleR₃₁deA5). Nous avons implémenté ces opérateurs ainsi que d’autres opérations dans un système en ligne¹.

Ainsi dans cette contribution nous proposons une approche générique pour pouvoir considé- rer plusieurs types de ressources de connaissances et représenter et combiner des alignements hétérogènes. L’approche proposée est applicable pour tout type de ressource de connaissances.

Les propriétés des opérateurs, l’évaluation et les exemples données sont relatives aux alignements d’ontologies afin d’étudier l’influence de la notion de confiance, assignée aux correspondances par les outils automatiques qui ont permis de les générer ou par les experts qui les ont évalués.

3 Opérations sur les correspondances et les alignements

Nous avons étendu la définition d’une correspondance de (Shvaiko & Euzenat, 2013) pour pouvoir représenter plusieurs relations d’alignements ayant chacune une mesure de confiance

1. http://129.194.69.195/tokonto. Ce travail est une composante d’un entrepôt de ressources de connaissances basé sur une ontologie. Ainsi le mécanisme de stockage est une base de connaissances (base de triplets RDF) et non pas une base de données, ainsi les performances des opérateurs dépendent des performance des API Jena et Allegrograph utilisées pour l’importation et le chargement des alignements. Les alignements sont stockés en se basant sur une ontologie générique permettant de supporter la majorité de formats d’alignement.

(4)

associée. Ceci permet de couvrir le cas où un outil d’alignement (ou une opérateur) fournit des correspondances ayant plusieurs relations avec des mesures de confiance différentes.

Définition 1 (Correspondance d’alignement (extension))

Une correspondance entre deux ressources de connaissancesRsetRtest un triplethe1, e2, Reli tel que :

— e₁ ete₂ sont respectivement des entités deR_setR_t;

— Rel est un ensemble de relations (éventuellement disjonctives) d’alignement pondé- rées ayant la forme :(symb, poids)où,symbest un symbole d’une relation d’alignement etp∈[0,1]est la mesure de confiance associée à celle-ci. Chaque relation apparait exac- tement une fois dansRel, éventuellement avec un degré nul. Ces relations ne se limitent pas aux relations de l’algèbreA5.

Cette définition permet d’étendre le modèle d’alignements pour considérer toute sorte de ressource de connaissance ainsi que toute sorte d’alignement (p.ex. des alignements bitext générés par des méthodes statistiques).

3.1 combinaison des relations dans les correspondances Définition 2 (Correspondances concurrentes)

Etant donné deux correspondances c₁ = he₁, e₂, Rel₁i et c₂ = he₃, e₄, Rel₂i, les correspondances,c1etc2, sont dites concurrentes si((e1 =e3)∧(e2 =e4)).

La normalisation est en particulier nécessaire lorsque plusieurs outils d’alignements ont été utilisés, fournissant en général de nombreuses correspondances concurrentes. C’est un opéra- teur qui permet de remplacer deux correspondances concurrentes par une seule correspondance.

Plusieurs travaux de recherche ont étudié la problématique de sélection de correspondances provenant de plusieurs outils d’alignement. Certaines approches utilisent des logiques floues (Chowdhury & Dou, 2011) ou des logiques de description probabilistes (Calìet al., 2008).

Pour le cas de correspondances pondérées, (Euzenat, 2008) a proposé une règle de normalisation permettant de réduire les ensembles de relations provenant de correspondances concurrentes entre deux entités. Ainsi{(r₁, n₁); (r₂, n₂)}se réduit à(r₁, n₁)sir₁ ⊂r₂ etn₁ ≥n₂.

En cas de détection de correspondances concurrentes au sein d’un même alignement nous appliquons une procédure de normalisation basée sur la mesure de confiance attribuée à chaque relation dans l’ensemble des relations d’alignement entre les entités de ressources. L’opérateur de normalisation est associatif.

Normalisation (N orm_θ)

Une correspondance concurrente est considérée comme un ensemble floue de relations entre deux entités. L’aspect flou se manifeste par la mesure de confiance attribuée à une relation disjonctive entre les deux entités. Cette relation peut être une parmi les 31 relations de A5.

Les relation entre les mêmes entités peuvent être considérés comme des éléments appartenant à cet ensemble flou et leur poids désigne leur degré d’appartenance. Ce qui suit en termes d’opérations sur les correspondances de ce type repose sur les opérateurs classiques de logique floue en termes d’utilisation des fonctions de normalisation lors de la combinaison des relations floues :

(5)

Soit deux correspondances concurrentesc₁ =he₁, e₂, Rel₁ietc₂ =he₁, e₂, Rel₂ioùRel₁ et Rel2 sont des ensembles de couples (relation,poids).

SiRel₁ ={(r₁, α₁), ...,(r_n, α_n)}etRel₂ ={((s₁, β₁), ...,(s_m, β_m))}alors :

N orm_θ(c₁, c₂) est la correspondance (e₁, e₂, Rel_θ) où : Rel_θ = {(r_k, θ(α_i, β_j))|(r_k, α_i) ∈ Rel₁,(r_k, β_j)∈Rel₂}oùθest une fonction floue de typet-normout-conorm.

Si le symbole d’une relation ne figure que dans un seul ensemble alors le deuxième paramètre de la fonction de normalisation est égal à 0. Si la fonction θ est unet−normalorsRelθ sera une intersection floue deRel₁ etRel₂; s’il s’agit d’unet−conormalorsRel_θ sera une union floue deRel₁ etRel₂.

Rappel : Les fonctions t-norm permettent d’assigner la mesure de confiance la plus faible (appliquées pour la normalisation par intersectionNorm∧). Les fonctionst-conormepermettent d’assigner la mesure de confiance la plus élevée (appliquées pour la normalisation par union Norm_∨).

3.2 Composition de deux correspondances

Pour composer des alignements, il est donc utile d’identifier les correspondances candidates à la composition.

Définition 3 (Correspondances candidates à la composition)

Etant donné deux correspondances concurrentes c₁ = he₁, e₂, Rel₁i etc₂ = he₃, e₄, Rel₂i où Rel₁ etRel₂ sont des ensembles de couples (relation, poids). Les correspondances,c₁ etc₂, sont dites candidates à la composition si(e₂ =e₃).

Composition

Soit deux correspondancesc₁ =he₁, e₂, Rel₁ietc₂ = he₂, e₃, Rel₂icandidates à la composition avec Rel1 = {(r1, a1), . . . ,(rn, an)}etRel2 = {(s1, b1), . . . ,(sm, bm)}, la composition dec₁ etc₂est une correspondancec=Comp_θ(c₁, c₂) =he₁, e₃, Rel_◦i.

On définitc_ij = he₁, e₃, L_ijioùL_ij = ((r_i◦s_j), θ(a_i, b_j))et oùθ est une fonction floue de typet-norm.

Lesc_ij sont les correspondances obtenues en composant une à une toutes les combinaisons d’une relation pondérée de c₁ et d’une relations pondérée de c₂. La composition de c₁ et c₂ est finalement obtenue en normalisant toutes les correspondances c_ij (qui sont évidemment concurrentes).

Comp_θ(c₁, c₂) = Norm∨(c_ij), i= 1,−n, j= 1,−m

Pour résoudre la relation (r_i◦s_j), nous utilisons la table de composition selon l’algèbreA5 (voir table 1). Ainsi, la relationr_i◦r_j est l’une des relations dansR₃₁pondérée par un degré de confiance normalisé.

Exemple 1: Soit deux correspondancesc₁ = he₁, e₂, Rel₁iet c₂ = he₂, e₃, Rel₂i, Rel₁ = {(@, a)}etRel2 = {(G, b)}on produit la correspondancec1,2 = he1, e3, RelioùRel = {({@ ,G,⊥}, M in(a, b))}car@◦G={@,G,⊥}dans la table de composition.

(6)

◦ @ A ≡ ⊥ G

@ @ Γ @ ⊥ @,⊥,G A @,A,≡,G A A A,⊥,G A,G

≡ @ A ≡ ⊥ G

⊥ @,⊥,G ⊥ ⊥ Γ @,⊥,G G @,G A,⊥,G G A,⊥,G Γ

TABLE1 – Table de compositions selon l’algèbreA5(Euzenat, 2008)

Composition d’alignements

Soit un alignementA₁de ressourcesR₁ etR₂, un alignementA₂ de ressourcesR₂ etR₃. La composition deA₁ etA₂ génère un alignementA₃de ressourcesR₁ etR₃.

Soitc₁ = he₁, e₂,{(r₁, a₁), . . . ,(r_k, a_k)}i et c₂ = he₂, e₃,{(s₁, b₁), . . . ,(S_m, b_m)}i tel que c₁ ∈A₁ etc₂ ∈A₂. On définit :

— Path(e₁, e₃) = {(c₁, c₂)|∃e₂∃R∃S tel quec₁ =he₁, R, e₂i ∈A₁, c₂ =he₂, S, e₃i ∈A₂} (l’ensemble des paires de correspondances qui associente₁ àe₃) ;

— Corr_θ(e₁, e₃) ={c= Comp_θ(c_i, c_j)|(c_i, c_j)∈Path(e₁, e₃)}(l’ensemble des correspondances concurrentes obtenues par composition des paires deP ath(e₁, e₃)). SiP ath(e₁, e₃) est vide on définitCorr(e₁, e₂) =∅

Finalement on définit la composition de deux alignementsA₁(R₁, R₂)etA₂(R₂, R₃)comme :

Comp_φθ(A₁, A₂) = {N orm_φ(Corr_θ(e₁, e₃))|e₁ ∈R₁, e₃ ∈R₃}

oùNorm_φest l’une des deux normesNorm∧ouNorm∨. Il y a donc 2 compositions possibles suivant le choix des normalisations.

L’opérateur de composition est associatif : si entre deux ressources R₁ et R_n il existe un chemin {A1, ..., An} d’alignements respectifs de ressources {(R1, R2), ...,(Rn−1, Rn)}, alors il existe un alignement A entre R₁ et R_n résultant de la composition des paires consécutives d’alignements dans{A₁, ..., A_n}.

Union / Intégration d’alignements

L’union d’alignements est une opération qui devrait permettre d’obtenir un alignement glo- bal, plus complet, regroupant les correspondances de plusieurs alignements, impliquant les mêmes ressources [source et cible].

Soit un ensemble d’alignementsA={A_i}avecA_i alignant les mêmes ressourcesR_setR_t, l’union des alignements deAgénère un alignementA⁰deR_setR_tincluant les correspondances, normalisées, de tous lesAi.

M erge(Al₁, ..., Al_n)[R_s, R_t] ={(e₁, e₂,Norm∨(r₁, ..., r_n))/(e₁, e₂, r_i)∈A_i, i= 1,−n}

Exemple 2 : Soit deux correspondances c₁ = he₁, e₂, Rel₁}i où Rel₁ = {(≡,0.9),(⊂,0.5)}

et c₂ = he₁, e₂, Rel₂}i où Rel₂ = {(≡,0.5),(⊥,0.7)}, alors leur normalisation par union N orm_t(c₁, c₂) est la correspondance c = he₁, e₂, Rel_T)}i où Rel_T = {(≡,0.9),(⊂,0.5),(⊥

,0.7)}en utilisant la fonctiont-conorme(max)pour la normalisation des mesures de confiance.

(7)

Intersection d’alignements

L’intersection d’alignements est une opération qui permet d’améliorer la qualité des alignements, impliquant les mêmes ressource [source et cible] en gardant que les correspondances communes de ces alignements et obtenir ainsi un alignement plus précis (hypothèse à vérifier).

Soit un ensemble d’alignementsA={A_i}avecA_i alignant les mêmes ressourcesR_setR_t, l’intersection des alignements de A génère un alignement A⁰ de R_s et R_t incluant les correspondances communes, normalisées, de tous lesA_i.

Inter(Al₁, ..., Al_n)[R_s, R_t] ={(e₁, e₂,Norm∧(r₁, ..., r_n))/(e₁, e₂, r_i)∈A_i, i= 1,−n}

Soit deux correspondancesC₁ = (id₁, source, cible, Rel₁)oùRel₁ ={(≡,0.8),(⊂,0.5),(⊥

,0.6)} et C₂ = (id₂, source, cible, Rel₂) où Rel₂ = {(≡,0.5),(⊥,0.7)}, alors la normalisation par intersection N ormt(C1, C2)des deux correspondances est la correspondance C = (id_T, source, cible, Rel_T)oùRel_T ={(⊂,0.5)(⊥,0.6)}en utilisant la fonctiont-norme(min) pour la normalisation des mesures de confiance.

Exemple 3 :Soit deux correspondancesc₁ =he₁, e₂, Rel₁}ioùRel₁ ={(≡,0.8),(⊂,0.5),(⊥

,0.6)} et c₂ = he₁, e₂, Rel₂}i où Rel₂ = {(≡,0.5),(⊥,0.7)}, alors leur normalisation par unionN ormt(c1, c2)est la correspondancec=he1, e2, RelT)}ioùRelT ={(⊂,0.5)(⊥,0.6)}

en utilisant la fonctiont-norme(min)pour la normalisation des mesures de confiance.

Plusieurs fonctions de typet-normett-conormsont utilisables. Nous avons testé un ensemble de ses fonctions pour savoir laquelle est la plus utile. Les résultats sont présentées dans la section 4.2.

4 Evaluation des opérateurs

Nous proposons une méthodologie d’évaluation des alignements générés par les différents opérateurs (intersection, union, composition) en utilisant les mesures de précision, rappel (Eu- zenat, 2007) pour les comparer ces alignements à des alignements de référence. Vu que notre approche considère les mesures de confiance associées aux relations, la comparaison avec l’alignement de référence va prendre en considération la marge d’erreur entre la mesure de confiance générée par un outil d’alignement et la mesure associée dans l’alignement de référence.

4.1 Méthodologie d’évaluation

L’objectif est de calculer laprécision, lerappeldes opérateurs implémentés. La démarche d’évaluation consiste à :

1. construire un corpus de test contenant des ressources de connaissances provenant de plusieurs domaines ;

2. construire un corpus de d’alignements de référence des ressources collectées ;

3. sélectionner un ensemble d’outils d’alignement et les utiliser pour créer des alignements entre les ressources ;

4. comparer les résultats obtenus de l’application des opérateurs (notamment la composition) sur les alignements crées par les outils par rapport aux alignements de référence.

(8)

4.1.1 Calcul des mesures de précision et rappel

Soit c_f et c_ref deux correspondances provenant, respectivement, d’un alignement de réfé- rence et d’un alignement généré à l’aide des opérateurs de gestions ou un système donné. La comparaison des deux correspondances c_f et c_ref de la forme he_s, e_c, Reli, avec Rel_s étant un ensemble de couples (relation,degré) est possible si et seulement si : c_f.e_s ≡ c_ref.e_s et c_f.e_c≡c_ref.e_c.

Vu que les mesures de similarité ont une grande importance dans notre approche et ont une influence sur la normalisation. Nous avons effectué des tests et les résultats ont été calculés selon deux méthodes.

1. Si la méthodologie d’évaluation ne dépends pas des degrés de confiance, alors appliquer le calcul de précision et de rappel standard. Ces mesures sont celles appliquées pour l’évaluation des outils d’alignement.

2. Sinon le nombre total des correspondances correctes est un nombre réel entre 0 et 1. La valeur de ce nombre dépend de la marge d’erreur entre le degré de confiance de la relation dans la correspondance de référence et celui de la correspondance générée. Ainsi au lieu d’ajouter “1” au nombre de correspondances correctes nous ajoutons à ce nombre la valeur(1−(ABS(c_f.Rel.poids−c_ref.Rel.poids))).

4.1.2 Méthode d’évaluation

Nous avons utilisé le corpus de test de la campagne d’évaluation des systèmes d’alignements OAEI 2013. Ce corpus offre la possibilité d’avoir des alignements prêts provenant de plusieurs outils d’alignement. Nous avons utilisé les alignements générés par les systèmes AML, AML- bk, LogMap, ODGOMS1_2, GOMMA-bk et YAM++.

Évaluation de l’union et l’intersection des alignements

Pour tester ces opérateurs, il suffit de calculer les valeurs de précision, de rappel des alignements générés par l’opérateur comparé à l’alignement de référence. Nous avons utilisé les alignements des ressources mouse.owl et human.owl et provenant des systèmes AML, AML-bk, LogMap, ODGOMS1_2, GOMMA-bk et YAM++.

Évaluation de la composition des alignements

La composition est un opérateur dont le résultat dépends de la complétude et de la qualité des alignements utilisés. Ainsi pour la composition de deux alignements entre (R₁,R₂) et (R₂, R₃) afin d’avoir un alignement (R₁,R₃), nous avons défini quatre types d’évaluation.

1. Evaluation de référence: Ce type d’évaluation sert à tester la corrélation entre les résul- tats de la composition et la qualité de l’alignement de départ. Le déroulement de l’éva- luation se résume à composer les alignements de référence entre les ressources (R₁,R₂) et (R₂,R₃) ensuite à comparer l’alignement (R₁,R₃) de l’opérateur de composition avec l’alignement (R₁,R₃) de l’alignement de référence (résultats : figure 4).

(9)

2. Evaluation dans le contexte d’un seul outil (interne) : Ce type d’évaluation est utilisé pour tester l’influence du contexte sur la qualité de la composition. Nous voulons savoir s’il y a une différence entre une composition de deux alignements provenant d’un même outil d’alignement (contexte commun) et celle entre deux alignements provenant d’outils différents. Ainsi nous composons les alignements entre les ressources (R₁,R₂) et (R₂,R₃) provenant d’un outil d’alignement ensuite nous comparons l’alignement ré- sultant (R1, R3) avec l’alignement (R1, R3) de l’outil utilisé (résultats : figure 5). Les alignements utilisés sont les alignements résultant du système LogMap.

3. Evaluation dans le contexte de deux outils (croisée) : Sélectionner les alignements qui sont résultant de deux outils d’alignement différents. Comparer l’alignement (R₁,R₃) de l’opérateur de composition avec l’alignement (R₁,R₃) de l’alignement de référence (ré- sultats : figure 6). Les alignements utilisés sont ceux résultant des systèmes d’alignement YAM++ et AML-bk.

4. Evaluation dans le contexte de tous les outils(union) : Ce type d’évaluation est utile pour tester si l’union de tous les alignements avant de les composer améliore le résultat de cet opérateur. Pour effectuer cette évaluation nous calculons l’union de tous les alignements entre les ressources données (sauf celui de référence). On obtient deux alignements uni- fiés (R₁,R₂) et (R₂,R₃). Nous comparons l’alignement (R₁,R₃) de l’opérateur de composition avec l’alignement (R₁, R₃) de l’alignement de référence (résultats : figure 7).

Les alignements utilisés sont les alignements résultant des systèmes d’alignement AML, AML-bk, LogMap, ODGOMS1_2 et YAM++.

4.2 Résultat et discussions

Les résultats obtenus par l’application des opérateurs sont comparés aux résultats obtenus par le meilleur outil d’alignement selon l’OAEI 2013². Nous montrons deux sortes de résultats basés sur les deux calculs de précision et rappel (cf. section 4.1.1). Pour comparer correctement les résultats pour le cas de considération des mesures de confiance, nous avons recalculé les mesures de précision et de rappel des alignements avec lesquels nous comparons nos résultats.³. Pour l’union les résultats (figure 2) montrent que la précision diminue alors que le rappel augmente. Ceci montre que l’union des alignements apporte une amélioration de la qualité de l’alignement en termes de complétude puisque l’alignement résultant regroupe le plus grand nombre de correspondances appartenant à l’alignement de référence. Ces résultats ont été calcu- lés en utilisant plusieurs fonctions de normalisation (figure 2) et nous constatons que la fonction min(x+y,1)est la plus adaptée pour cet opérateur.

Les résultats de l’intersection montrent que la précision augmente alors que le rappel diminue. Ce qui montre que l’intersection des alignements améliore leur qualité en termes de correspondances correctes et pertinentes. Ainsi, si nous sommes à la recherche de la qualité des alignements en termes de précision il faut utiliser cet opérateur si nous avons des alignements provenant de plusieurs outils.

2. Nous remercions l’OAEI pour la mise à disposition des corpus de tests et des résultats détaillés ce qui nous a aidé à tester nos opérateurs plus rapidement.

3. Le calcul de précision et de rappel d’un alignement par rapport à un autre est effectué moyennant un opéra- teur qui implémente la méthode de calcul expliquée dans la section 4.1.1. http://129.194.69.195/tokonto/stats.php

(10)

conference.owl edas.owl ekaw.owl conference.owl

edas.owl ekaw.owl mouse.owl human.owl fly_anatomy_XP.owl

mouse.owl human.owl Ressources

utilisées

conference.owl edas.owl ekaw.owl mouse.owl human.owl

5 outils: conference_edas.rdf 5 outils: edas_ekaw.rdf yam++: conference_edas.rdf

amlbk: edas_ekaw.rdf logmap: mouse_human.rdf

human_fly.rdf 5 outils: mouse_human.rdf

Alignements impliqués

Référence:

conference_edas.rdf edas_ekaw.rdf 5 outils: mouse_human.rdf

ref_conference_ekaw.rdf ref_conference_ekaw.rdf logmap_mouse_fly.rdf ref_mouse_human.rdf Alignement de

référence

ref_conference_ekaw.rdf ref_mouse_human.rdf

25 25 97 1516

# Correspondances référence

25 1516

Composition (union) Composition (croisée) Composition (interne) Union Opérateurs

Composition (référence) Intersection

12 8 87 1726

# Correspondances trouvées

12 1193

6 4 64 1465

# Correspondances pertinentes trouvées

9 1177

FIGURE1 – Résultats d’application des opérateurs selon la méthodologie d’évaluation

Union Precision Rappel F1_mesure Union3(méthode) Precision Rappel F1_mesure

Union%d'alignements 0.849 0.966 0.904 Union%d'alignements%(max) 0.824 0.939 0.878

Alignment%comparé%(AMLBbk) 0.954 0.929 0.942 Union%d'alignements%(x+yBx*y) 0.732 0.833 0.779

Union%d'alignements%(min(x+y,%1)) 0.842 0.959 0.896

Alignment%comparé%(AMLBbk) 0.837 0.815 0.826

0%

0.1%

0.2%

0.3%

0.4%

0.5%

0.6%

0.7%

0.8%

0.9%

1%

Precision% Rappel% F1_mesure%

Union%d'alignements%

Alignment%comparé%(AMLB bk)%

0%

0.1%

0.2%

0.3%

0.4%

0.5%

0.6%

0.7%

0.8%

0.9%

1%

Precision% Rappel% F1_mesure%

Union%d'alignements%(max)%

Union%d'alignements%(x+yB x*y)%

Union%d'alignements%(min(x +y,%1))%

Alignment%comparé%(AMLB bk)%

FIGURE2 – Résultats détaillés obtenus de l’évaluation de l’union

Pour la composition utilisant des alignements de bonne qualité (référence), la précision est assez proche d’une valeur de précision de la moyenne des outils d’alignements. La précision et le rappel sont importants surtout quand il s’agit d’une composition des alignements provenant du même outil d’alignement. Une corrélation est probable entre la qualité de l’outil d’alignement et celle de la composition des alignements provenant de ce même opérateur.

Lorsqu’il s’agit de composer des alignements provenant de deux outils hétérogènes on remarque que le résultat est moins bien par rapport aux autres combinaisons. La différence n’est pas majeure et s’atténue dès que le nombre de correspondances est important. Par contre, lorsqu’il s’agit d’unifier tous les alignements provenant de différents outils avant d’effectuer la composition, on remarque que la précision et le rappel augmentent légèrement par rapport à une composition hétérogène.

Les résultats présentés sont à débattre afin de définir l’utilité des opérateurs de gestion d’alignements. Les tests prouvent que les opérateurs de composition et aggrégation d’alignements sont utiles et peuvent donner des résultats comparables à celles des outils d’alignements. Ces outils sont de plus en plus performants, ainsi, faut-il avoir des opérateurs de composition d’ali-

(11)

Intersection Precision Rappel F1_mesure Intersection4(méthode) Precision Rappel F1_mesure

intersection)d'alignements 0.987 0.776 0.869 intersection)d'alignements)(min) 0.729 0.574 0.642

Alignment)comparé)(AML@bk) 0.954 0.929 0.942 intersection)d'alignements)(x*y) 0.571 0.45 0.503

intersection)d'alignements)(max(x+y@1,)0)) 0.515 0.405 0.453

Alignment)comparé)(AML@bk) 0.837 0.815 0.826

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

Precision) Rappel) F1_mesure)

intersecOon) d'alignements) Alignment)comparé) (AML@bk))

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9)

intersecOon)d'alignements) (min))

intersecOon)d'alignements) (x*y))

intersecOon)d'alignements) (max(x+y@1,)0)))

Alignment)comparé)(AML@bk))

FIGURE3 – Résultats détaillés obtenus de l’évaluation de l’intersection

Composition)(référence) Precision Rappel F1_mesure Composition)[référence])(méthodes) Precision Rappel F1_mesure

composition)d'alignements 0.75 0.36 0.486 intersection)d'alignements 0.75 0.36 0.486

Alignment)comparé)(YAM++)&)AMLAbk) 0.87 0.69 0.74 Alignment)comparé)(YAM++)&)AMLAbk) 0.815 0.545 0.653

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

composiMon)d'alignements)

Alignment)comparé)(YAM++)

&)AMLAbk))

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9)

intersecMon)d'alignements)

&)AMLAbk))

FIGURE4 – Résultats globaux obtenus de la composition (référence)

gnement. Nous pouvons trouver un ensemble de scénarios où la composition est d’une grande utilité voir même indispensable surtout quand il s’agit de composer des alignements créés ma- nuellement avec des alignements générés par des outils d’alignement. Comme nous l’avons mentionné, les performances de l’implémentation de ces opérateurs peut être améliorée si nous utilisons des technologies autre que les entrepôts RDF. En utilisant cette technologie, le rai- sonnement sur les ressources est possible. Une idée est de créer aussi une nouvelle catégorie dans la campagne d’évaluation des outils d’alignements (OAEI) pour ce genre d’opérateurs.

Des améliorations sont possibles pour tester plus de procédés de normalisation d’alignement.

Autre que les relations définies dans l’algèbre A5 notre approche considère les relations sémantiques non incluses dansA5(p. ex.closeM atch), Le traitement des relations sémantiques tels querelatedM atchse justifie par le faite qu’un nombre considérable d’alignements utilise es relationsSKOS (BioPortal (Noyet al., 2008)). Pour inclure et traiter ce type d’alignement afin de l’agréger ou composer avec des alignement ontologique de type A5 deux possibilités sont à considérer et évaluer : (1) exprimer les relations SKOS en fonction des relations R₅ ou l’inverse ou (2) étendre l’algèbre A5pour inclure les relations sémantiques pour créer une

(12)

Composition)[interne] Precision Rappel F1_mesure Composition)[interne])(méthode) Precision Rappel F1_mesure

composition)d'alignements 0.736 0.66 0.696 composition)d'alignements 0.676 0.606 0.639

Alignment)comparé)(LogMap) 0.913 0.846 0.878 Alignment)comparé)(LogMap) 0.686 0.636 0.66

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

composiGon)d'alignements)

Alignment)comparé) (LogMap))

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

composiGon)d'alignements)

Alignment)comparé) (LogMap))

FIGURE5 – Résultats globaux obtenus de l’évaluation de la composition (interne)

Composition)[croisée] Precision Rappel F1_mesure Composition)[croisée])(méthode) Precision Rappel F1_mesure

Alignment)comparé)YAM++)&)AMLCbk) 0.87 0.69 0.74 Alignment)comparé)(YAM++)&)AMLCbk) 0.815 0.545 0.653

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

Alignment)comparé)YAM++)

&)AMLCbk))

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

&)AMLCbk))

FIGURE 6 – Résultats globaux obtenus de l’évaluation de la composition (croisée)

Composition)[union] Precision Rappel F1_mesure Composition)[union])(méthode) Precision Rappel F1_mesure

Alignment)comparé)(YAM++)&)AMLBbk) 0.87 0.69 0.74 Alignment)comparé)YAM++)&)AMLBbk) 0.815 0.545 0.653

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

1) 2) 3)

composiHon)d'alignements)

&)AMLBbk))

0) 0.1) 0.2) 0.3) 0.4) 0.5) 0.6) 0.7) 0.8) 0.9) 1)

composiHon)d'alignements)

Alignment)comparé)YAM++)

&)AMLBbk))

FIGURE7 – Résultats globaux obtenus de l’évaluation de la composition (union)

nouvelle algèbre générique. Ceci nécessite une étude plus approfondie au delà de l’étude de l’utilité des opérateurs de combinaisons d’alignements.

5 Conclusion

En effectuant une analyse de l’état de l’art des différentes solutions existantes en matière de stockage et de traitement d’alignement, nous avons remarqué que peu de systèmes sont ouvert

(13)

à l’hétérogénéité des ressources de connaissance et ne se focalisent que sur un seul type d’alignement (ontologique, terminologique ou linguistique) ou un seul format d’alignement (OLA, LOOM, etc). Cette approche est plus générale car elle aborde le problème de l’harmonisation des ressources de connaissances. Des tests ont été effectués sur les opérateurs afin d’évaluer leur utilité, efficacité, stabilité. Les résultats se sont montrés concluant pour certains opérateurs.

Notre approche peut être étendue en rajoutant de nouveaux types ou formalismes d’alignement au modèle d’alignement, de nouveaux opérateurs pour le traitement des alignements, de nouvelles relations avec des opérateurs de normalisation adaptés.

Références

AYAN N. F., BORRB. & HABASHN. (2004). Multi-align : Combining linguistic and statistical tech- niques to improve alignments for adaptable mt. InIn Proceedings of AMTA 2004, p. 17–26.

CALÌ A., LUKASIEWICZT., PREDOIU L. & STUCKENSCHMIDTH. (2008). Tightly integrated proba- bilistic description logic programs for representing ontology mappings. InFoundations of Information and Knowledge Systems, p. 178–198. Springer.

CHOWDHURY N. A. & DOU D. (2011). Improving the accuracy of ontology alignment through ensemble fuzzy clustering. InProceedings of the 2011th Confederated International Conference on On the Move to Meaningful Internet Systems - Volume Part II, OTM’11, p. 826–833, Berlin, Heidelberg : Springer-Verlag.

DAVIDJ., EUZENAT J., SCHARFFEF. &DOSSANTOSC. T. (2011). The alignment api 4.0. Semantic Web,2(1), 3–10.

EUZENAT J. (2007). Semantic precision and recall for ontology alignment evaluation. InProceedings of the 20th International Joint Conference on Artifical Intelligence, IJCAI’07, p. 348–353, San Fran- cisco, CA, USA : Morgan Kaufmann Publishers Inc.

EUZENATJ. (2008). Algebras of ontology alignment relations. InProceedings of the 7th International Conference on The Semantic Web, ISWC ’08, p. 387–402, Berlin, Heidelberg : Springer-Verlag.

JIMÉNEZ-RUIZ E. & GRAUB. C. (2011). Logmap : Logic-based and scalable ontology matching. In Proceedings of the 10th International Conference on The Semantic Web - Volume Part I, ISWC’11, p.

273–288, Berlin, Heidelberg : Springer-Verlag.

MACKENL., LEFEVER E. & HOSTE V. (2008). Linguistically-based sub-sentential alignment for terminology extraction from a bilingual automotive corpus. InProceedings of the 22nd International Conference on Computational Linguistics - Volume 1, p. 529–536, Stroudsburg, USA : Association for Computational Linguistics.

MARSHALLB., CHENH. & MADHUSUDANT. (2006). Matching knowledge elements in concept maps using a similarity flooding algorithm. Decision Support Systems,42(3), 1290 – 1306.

NOYN. F., SHAHN., DAIB., DORFM., GRIFFITHN., JONQUETC., MONTEGUTM., RUBIND. L., YOUNC. & MUSENM. A. (2008). Bioportal : A web repository for biomedical ontologies and data resources. InInternational Semantic Web Conference (Posters & Demos).

ROCHE C., CALBERG-CHALLOT M., DAMAS L. & ROUARD P. (2009). Ontoterminology - a new paradigm for terminology. In J. L. G. DIETZ, Ed.,KEOD, p. 321–326 : INSTICC Press.

SHVAIKOP. & EUZENAT J. (2013). Ontology matching : State of the art and future challenges. IEEE Trans. Knowl. Data Eng.,25(1), 158–176.