Les approches par paire - Étude des approches d’appariement

2.2 Étude des approches d’appariement

2.2.2 Les approches par paire

Les approches d’appariement par paire sont très nombreuses dans la littérature. Comme nous nous intéressons à l’optimisation combinatoire pour résoudre le problème d’appariement, nous avons sélectionné les travaux [Euzenat et Valtchev, 2004] [Yatskevich, 2008] [Niepert et al., 2010] [Melnik et al., 2002] qui ont réduit une ou plusieurs phases du processus d’appariement en un problème d’optimisation combinatoire. Nous avons aussi sélec- tionné des travaux de référence en appariement de schémas en particulier les deux approches [Aumueller et al., 2005] et [Melnik et al., 2002]. Enfin, nous avons choisi de discu- ter les travaux de thèse de [Duchateau, 2009] qui est le premier à proposer un banc d’essai orienté schémas [Duchateau et Bellahsene, 2014] pour l’évaluation des approches d’appariement de paire de schémas XML. Dans le dernier chapitre de ce manuscrit, nous présentons les résultats de notre approche sur ce banc d’essai.

2.2.2.1 Étude des travaux

[Melnik et al., 2002]ont proposé l’approche Similarity Flooding (SF), implémentée dans l’outil RONDO, pour résoudre le problème d’appariement entre deux modèles de données qui peuvent être des schémas relationnels et XML. Cette approche transforme n’importe quel modèle de données en un graphe étiqueté orienté. Ces deux graphes sont fusionnés dans un graphe de paires connectées de la façon suivante : si dans le graphe GAil y a une re-

lation r1 du noeud A vers le neoud A1 et si dans le graphe GBil y a une relation r1 du noeud

B vers le noeud B1 alors ils créent une relation r1 du noeud (A,B) vers le noeud (A1,B1) dans le graphe de paires. Pour chaque paire d’éléments, ils calculent leurs similarités élémen- taires par des mesures de préfixe et suffixe. Les similarités élémentaires est l’initialisation de l’algorithme de propagation de similarité. Cet algorithme propage itérativement, jusqu’à un certain point fixe, le poids des arcs pour augmenter la mesure de similarité des paires adja- centes à chaque paire d’éléments. Une fois ces mesures de similarité structurelles sont cal- culées, les auteurs appliquent le problème de mariage stable, sur les similarités supérieures à un certain seuil, pour sélectionner les correspondances finales. La solution retournée par l’approche SF correspond à un optimum local [Euzenat et Shvaiko, 2013].

[Euzenat et Valtchev, 2004] ont proposé l’approche OLA (OWL lite Alignment) pour l’alignement de deux ontologies en OWL. Dans cette approche, le problème est de trouver des mesures de similarité pour toutes les paires de propriétés et pour toutes les paires d’en- tités. Une fois ce problème résolu, ils appliquent le problème de couplage de poids maximal pour sélectionner les correspondances finales. La résolution du problème de calcul de mesures de similarités revient à résoudre un système d’équations. Chaque équation représente des dépendances entre les similarités d’une paire d’entités ou de propriétés. Ce système d’équations est initialisé par des similarités élémentaires et structurelles. Les similarités élé- mentaires sont calculées entre les labels des entités ou les labels des propriétés en utilisant des techniques d’appariement élémentaires. Les similarités structurelles sont calculées à par- tir des caractéristiques internes des éléments comme les domaines, les types de données et les cardinalités des propriétés. Après son initialisation, le système d’équation est soumis à

les dépendances entre ces similarités ne stabilisent pas les valeurs. Cet algorithme s’arrête à un point fixe qui correspond à des changements infimes des mesures de similarités. La sélection des correspondances finales se fait par la résolution du problème de couplage de poids maximal dans un graphe bipartie dont les noeuds sont les propriétés ou les entités et les arcs sont les correspondances potentielles avec comme poids les valeurs des mesures de similarité. La solution qu’ils proposent est un optimum global [Euzenat et Shvaiko, 2013].

[Aumueller et al., 2005]ont proposé l’outil générique COMA++(Combining Match Al- gorithms) pour l’appariement de deux modèles qui peuvent être des schémas relationnels, des fichiers XML/XSD, des graphes RDF ou des ontologies en OWL. COMA++ transforme les modèles de données en graphes orientés acycliques où les éléments sont les chemins. Avec cet outil, il est possible de : (i) combiner, évaluer et réutiliser les résultats d’appariement, (ii) fragmenter les modèles de données et appliquer les techniques d’appariement sur des fragments, (iii) appliquer des stratégies pré-définies ou définir sa stratégie ou modifier les paramètres (seuils, poids, etc). Dans cet outil, ils utilisent tout type de techniques d’appariement élémentaires, voir section 2.1.1, et des techniques structurelles qui consistent à mesurer des simialrités structurelles entre les chemins, les enfants et les feuilles.

[Duchateau et al., 2007] [Duchateau, 2009]ont proposé les deux approches BMatch et YAM. BMatch est une approche pour l’appariement d’une paire de schémas XML. Ils ont combiné les techniques élémentaires trigramme et Levensthein pour calculer une mesure de similarité élémentaire. D’autre part, ils ont calculé une mesure structurelle avec la dis- tance cosine entre les vecteurs des contextes des éléments. Un vecteur de contexte est la liste des éléments voisins et leurs distances dans l’arbre par rapport à l’élément en cours. Les auteurs combinent ces deux types de mesures et sélectionnent les correspondances de simi- larité supérieures à un seuil donné. La spécificité de l’approche BMatch est qu’elle utilise une structure b-tree pour indexer les éléments ayant des termes communs. La b-tree améliore la performance de la solution. YAM (Not Yet Another Matcher) est un générateur d’approche d’appariement sur mesure en fonction des schémas et en fonction des préférences des utili- sateurs. YAM utilise la technique d’apprentissage supervisé sur un large corpus de schémas et différentes mesures de similarités. Il permet ainsi de produire sur mesure les fonctions d’agrégations, les seuils de similarité par un arbre de décision, etc. Il peut aussi réutiliser les correspondances dans un nouveau processus d’appariement.

[Giunchiglia et al., 2004][Yatskevich, 2008] ont proposé l’approche S-Match/S- Match++ (Semantic Match) pour l’appariement de deux modèles de données de structures hiérarchiques. C’est une approche qui renvoie des relations de type équivalence ou spé- cialisation entre les correspondances. Les auteurs transforment les labels des éléments en des formules propositionnelles. Ces formules codifient la signification sémantique de chaque entité. Ils utilisent la ressource externe Wordnet pour trouver les relations entre les propositions. Dans cette approche, le problème d’appariement est réduit à la résolution du problème de staisfiabilité SAT qui est un problème NP-Complet. Les auteurs utilisent des solveurs pour résoudre ce problème.

[Niepert et al., 2010][Huber et al., 2011] ont proposé le système CODI (Combinatorial Optimisation for Data Integration) pour l’appariement de deux ontologies en format OWL. CODI implémente un framework probabiliste basé sur la logique de Markov proposé par

[Niepert et al., 2010]. Ce framework transforme le problème d’appariement en résolution du problème de maximum-a-posteriori (MAP) qui se réduit au problème d’optimisation combinatoire Max-Sat connu pour être un problème NP-difficile. Pour deux ontologies, les auteurs appliquent la technique de Levensthein pour mesurer la similarité entre les paires d’entités des deux ontologies. Puis, ils éliminent les paires d’entités qui ont une similarité inférieure à un seuil donné. Ensuite ils proposent deux types de contraintes de la logique du premier ordre qui forment le réseau logique de Markov. Le premier type de contraintes dites "contraintes strictes" correspond aux assertions existantes dans l’ontologie. Le deuxième type de contraintes dites "contraintes souples" est composé de trois sous-types : cardina- lité 1 : 1, cohérence et stabilité. Les auteurs ont utilisé le raisonneur Pellet pour générer ces contraintes. Ils utilisent aussi des poids pour les contraintes de stabilité qui sont donnés soit manuellement, soit obtenus par un processus d’apprentissage sur d’autres ontologies pour fixer ces poids. Comme les contraintes strictes sont prises comme des vérités, la recherche de correspondances correspond à satisfaire le plus de contraintes souples ce qui fait que leur problème est réduit à un problème Max-Sat. Pour résoudre ce problème, ils l’ont transformé en un programme linéaire en entiers mixtes avec l’approche TheBeast [Riedel, 2008].

2.2.2.2 Synthèse et limites des travaux

Nous avons synthétisé dans le tableau III.2, les caractéristiques des approches décrites ci-dessus. Analysons à présent les limites de ces approches par rapport à notre objectif qui est d’obtenir des correspondances formant une structure hiérarchique.

D’abord, nous allons comparer les approches [Aumueller et al., 2005], [Melnik et al., 2002] et [Euzenat et Valtchev, 2004]. [Aumueller et al., 2005] se focalisent sur la diversification des techniques de calcul de similarité, en particulier ils mettent l’accent sur la similarité élémentaire et beaucoup moins sur les similarités structurelles. De l’autre côté, [Melnik et al., 2002] utilisent une technique élémentaire très basique et se focalisent sur un algorithme itératif original (voisinage) pour calculer une similarité structurelle. Quant à [Euzenat et Valtchev, 2004], ils combinent les similarités structurelles et élémen- taires en prenant en considération la dépendance qui peut exister entre les deux. D’après [Euzenat et Shvaiko, 2013], l’algorithme itératif utilisé dans [Euzenat et Valtchev, 2004] converge alors que l’algorithme itératif utilisé dans [Melnik et al., 2002] peut ne pas conver- ger. Le point commun entre les trois approches [Aumueller et al., 2005], [Melnik et al., 2002] et [Euzenat et Valtchev, 2004] est que le calcul des similarités est très décisif dans le processus d’appariement. Pour sélectionner les correspondances, [Aumueller et al., 2005] déploie une stratégie classique qui consiste à combiner les mesures avec une fonction d’agrégation. Alors que [Melnik et al., 2002] et [Euzenat et Valtchev, 2004] résolvent le problème d’une façon plus sophistiquée en le réduisant à la résolution d’un problème connu en optimisation combinatoire. De ce point de vue, la solution de [Euzenat et Valtchev, 2004] serait meilleure que l’approche de [Melnik et al., 2002] : le premier trouve un optimum global alors que le second trouve un optimum local. Nous pouvons tirer comme conclusion sur ces approches qu’ils n’ont pas donné une importance à la structure du graphe intégré autant qu’ils l’ont donné pour les similarités des correspondances. Ce qui fait qu’elles ne sont pas adaptées à

L’approche Bmatch de [Duchateau et al., 2007] est tout à fait un cas particulier de l’approche de [Aumueller et al., 2005] avec l’originalité du b-tree qui permet d’améliorer la performance. YAM [Duchateau, 2009] rentre aussi dans le cadre d’approches qui se focalisent sur les mesures de similarités. YAM a l’originalité de pouvoir générer des approches d’appariement sur mesure avec des paramètres configurés en fonction du jeu de donnés. Néan- moins, YAM est très couteuse puisqu’elle fait de l’apprentissage supervisé. De telles approches d’apprentissage ne seront pas efficaces pour des cas isolés d’intégration de données ouvertes où l’utilisateur ne serait pas en mesure de fournir les jeux de données pour l’apprentissage.

L’approche de [Niepert et al., 2010][Huber et al., 2011] est la plus pertinente par rapport à notre contexte. Dans cette approche, les contraintes de cohérence et l’une des contraintes de stabilité ne s’appliquent pas sur les graphes de structures hiérarchiques puisqu’il n’y pas les assertions concernées par ces contraintes. La deuxième contrainte de stabilité pourrait être appliquée sur les structures hiérarchiques, par contre elle est trop générique et n’évite pas la génération de structures hiérarchiques simples. Par ailleurs, la taille du problème générée par les instances augmente la difficulté de résolution de cette approche étant donné qu’elle est réduite à un problème NP-difficile (Max-Sat). Nous pensons que ceci est parmi les raisons pour lesquelles les auteurs ont réduit la taille du problème en entrée en utilisant un seuil de similarité. Par contre dans le cas d’hétérogénéité forte entre les ontologies, notamment les données ouvertes tabulaires, le seuil de similarité ne peut être que très faible et dans ce cas la résolution de leur problème serait incertaine. Nous notons aussi que les auteurs n’ont pas proposé de modèle de programme linéaire (comme il a été généré sur les instances par une autre approche) ce qui fait qu’il est difficile de voir comment cette approche pourrait évo- luer vers une approche holistique pour traiter N ontologies par exemple. Enfin, nous avons remarqué que la contrainte de cardinalité telle qu’elle est proposée en logique génère beaucoup de contraintes dans le programme linéaire, puisqu’elle compare les correspondances deux à deux. Nous pensons qu’il est possible de proposer la même contrainte d’une façon plus optimisée.

holistique des graphes de données ou ver tes tabulaires

Tableau III.2 — Comparaison des approches d’appariement par paire

Approche Modèle donn. Modèle Re- présen.

Ress. externe Techniques d’appariement Réduction à un prob. d’optimisation combinatoire

Interne Niv. élémentaire Niv. structurel Problème Complexité Dans l’étape de [Melnik et al., 2002] relationnel, XML graphe

étiqueté orienté

non string-based propagation itéra- tive d’une similarité structurelle

Mariage stable

polynomial sélection

[Euzenat et Valtchev, 2004] OWL graphe éti- queté

non string-based, language- based internal-structure based problème de coulage de poids maximal polynomial sélection

[Aumueller et al., 2005] relationnel, XML, XSD, RDF,OWL graphe orienté acyclique oui string-based, constraint-based, resource-based, language-based

similarité entre enfants, feuilles, chemins

- - -

[Duchateau et al., 2007] XML arbre non string-based Btree - - - [Giunchiglia et al., 2004] XML graphe oui string-based, language-

based, external resource-based - SAT NP- complet appariement élémen- taire [Yatskevich, 2008]

[Niepert et al., 2010] OWL - non character-based markov logique framework

Max-SAT NP-difficile appariement structurel et sélection [Huber et al., 2011] Imen Megdiche

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 84-89)