• Aucun résultat trouvé

Linkky: Extraction de clés de liage par une adaptation de l'analyse relationnelle de concepts

N/A
N/A
Protected

Academic year: 2021

Partager "Linkky: Extraction de clés de liage par une adaptation de l'analyse relationnelle de concepts"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: hal-01839642

https://hal.archives-ouvertes.fr/hal-01839642

Submitted on 23 Jul 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Linkky: Extraction de clés de liage par une adaptation

de l’analyse relationnelle de concepts

Jérôme David, Jérôme Euzenat, Jérémy Vizzini

To cite this version:

Jérôme David, Jérôme Euzenat, Jérémy Vizzini. Linkky: Extraction de clés de liage par une adap-tation de l’analyse relationnelle de concepts. IC 2018 - 29es Journées Francophones d’Ingénierie des Connaissances, AFIA, Jul 2018, Nancy, France. pp.271-274. �hal-01839642�

(2)

adaptation de l’analyse relationnelle de concepts

Jérôme David, Jérôme Euzenat, Jérémy Vizzini

Univ. Grenoble Alpes, Inria, CNRS, Grenoble INP, LIG, F-38000 Grenoble France

Jerome.David@inria.fr, Jerome.Euzenat@inria.fr, jeremyvizzini@icloud.com

Résumé : Les clés de liage permettent de spécifier la manière d’engendrer des liens entre deux sources de données RDF. L’objet de cette démonstration est de présenter Linkky, un prototype implémentant l’extraction de familles de clés de liage dépendantes à l’aide de techniques d’analyse formelle de concept.

Mots-clés: Liage de données, clés de liage, RDF, analyse formelle de concepts, analyse relationnelle de concepts

Le besoin d’accès aux données par la société a conduit à la publication, par différents acteurs (gouvernement, universités, acteurs culturels), de vastes corpus de données exprimées dans les formalismes du web sémantique (principalement RDF).

Une part importante de la valeur ajoutée des données liées réside dans les liens identifiant la même entité dans différents jeux de données. Par exemple, cela permet d’identifier les mêmes ouvrages dans différentes sources de données bibliographiques. Les liens permettent d’exploiter conjointement les données de ces sources.

Par conséquent, la génération de tels liens est une tâche importante pour le web des don-nées. Elle est en général pilotée par une spécification de liage. Différents types de spécifica-tions sont disponibles. La plus répandue consiste à calculer une distance entre les identifiants de ressources et à estimer que plus ils sont proches, plus ils ont de chance d’identifier la même ressource.

Un autre type de spécification est ce que nous appelons clé de liage. Les clés de liage généralisent les clés de bases de données dans deux directions indépendances : elles fonc-tionnent avec des données représentés en RDF, et elles s’appliquent à deux jeux de données indépendants. Un exemple de clé de liage est :

{hauteur,creatori} {htitre,titlei} linkkey hLivre,Booki (1)

qui signifie que si deux instances des classesLivreetBookrespectivement, ont les mêmes

va-leurs pour les propriétésauteuretcreatoret au moins une valeur commune pour les propriétés titreettitle, alors elles dénotent la même ressource.

Une première méthode a été conçue pour extraire les clés de liage entre deux classes (Atencia et al., 2014). Elle commence par extraire des clés candidates puis les évalue à l’aide de mesures adaptées.

L’analyse formelle de concepts (FCA ou AFC) est une technique pour extraire des concepts entre deux ensembles ordonnés interdépendants (Ganter & Wille, 1999). L’analyse relation-nelle de concepts (RCA) en est une extension permettant d’extraire des descriptions interdé-pendantes entre différents concepts (Rouane-Hacene et al., 2013). L’AFC a déjà été utilisée pour extraire les clés dans le modèle relationnel.

L’étape d’extraction de clés candidates a été reformulée en un problème d’analyse de concepts formels pour le cas simple des bases de données (Atencia et al., 2014). Nous avons étendu ce travail pour prendre en compte les attributs non fonctionnels et les dépendances entre clés de liage (lorsque les conditions d’une clé nécessitent de déterminer l’égalité de deux instances d’autres classes, ce qui utilise une autre clé, voir Table 1). Pour prendre en compte les références circulaires, il est devenu nécessaire d’adapter les techniques de RCA au cas des clés de liage.

(3)

IC 2018 KP erson,Inhabitant ∀hl a s tn a me ,g iv e n i ∀ hl a s tn a me ,n a me i ∃ hl a s tn a me ,g iv e n i ∃ hl a s tn a me ,n a me i ∀ hh o me ,a d d r e s siC 4 ∃ hh o me ,a d d r e s siC 4 ∀ hh o me ,a d d r e s siC 5 ∃ hh o me ,a d d r e s siC 5 ∀ hh o me ,a d d r e s siC 8 ∃ hh o me ,a d d r e s siC 8 ∀ hh o me ,a d d r e s siC 1 ∃ hh o me ,a d d r e s siC 1 ∀ hh o me ,a d d r e s siC 0 ∃ hh o me ,a d d r e s siC 0 hz3, i3i × × × × × × × × × × × × hz3, i2i × × × × × × hz3, i1i × × × × hz1, i3i × × × × hz1, i2i × × × × hz1, i1i × × × × × × × × × × × × hz2, i3i × × × × × × hz2, i2i × × × × × × × × × × × × hz2, i1i × × × × KHouse,P lace ∀hc it y ,c it y i ∃ hc it y ,c it y i ∀ ho w n e r, o w n e d B y iC 6 ∃ ho w n e r, o w n e d B y iC 6 ∀ ho w n e r, o w n e d B y iC 2 ∃ ho w n e r, o w n e d B y iC 2 ∀ ho w n e r, o w n e d B y iC 9 ∃ ho w n e r, o w n e d B y iC 9 ∀ ho w n e r, o w n e d B y iC 3 ∃ ho w n e r, o w n e d B y iC 3 ∀ ho w n e r, o w n e d B y iC 7 ∃ ho w n e r, o w n e d B y iC 7 hh1, a2i × × × × hh1, a1i × × × × × × × × × × × × hh1, a3i × × × × hh3, a2i × × × × × × hh3, a1i × × × × hh3, a3i × × × × × × × × × × × × hh2, a2i × × × × × × × × × × × × hh2, a1i × × × × hh2, a3i × × × × × ×

TABLE 1 – Contexte formel étendu après six itérations d’analyse relationelle de concepts conduisant au treillis de la Figure 1.

Linkky1 est un démonstrateur de ces techniques implémenté en Python 3 (Vizzini, 2017).

Les bibliothèques RDFLib et Graphviz sont utilisées pour charger les graphes RDF et afficher les treillis de concepts respectivement (voir Figure 1). L’implémentation utilise l’algorithme de Norris (Norris, 1978) pour extraire les concepts. L’algorithme est étendu pour traiter des couples d’identifiants dans l’extant et des couples de propriétés quantifiées et qualifiées par la clé à utiliser pour la comparaison dans l’intant. Le processus d’analyse relationnelle de concepts est implémenté en appliquant itérativement deux opérateurs d’échelonnage.

Linkky prend en entrée deux jeux de données en RDF et retourne l’ensemble des clés candidates. Le système ne prend en compte aucun alignement a priori. Il utilise aussi les mesures développées dans (Atencia et al., 2014) pour déterminer les familles de clés de liage candidates compatibles.

Le processus peut donc être résumé ainsi : 1. Charger les deux jeux de données RDF ; 2. Construire la famille de contextes relationnels ; 3. Appliquer FCA aux contextes formels ;

(4)

∀∃hlastname, giveni ∀∃hhome, addressiC8 hz1, i3i, hz3, i1i ∀∃hhome, addressiC1 ∀∃hhome, addressiC0, ∀∃hlastname, namei hz3, i2i, hz2, i3i ∀∃hhome, addressiC5 hz2, i1i, hz1, i2i ∀∃hhome, addressiC4 hz3, i3i, hz2, i2i, hz1, i1i C6 C2 C9 C3 C7 ∀∃hcity, cityi, ∀∃howner, ownedByiC9 hh3, a2i, hh2, a3i ∀∃howner, ownedByiC3 ∀∃howner, ownedByiC7 hh1, a3i, hh3, a1i ∀∃howner, ownedByiC2 hh2, a1i, hh1, a2i ∀∃howner, ownedByiC6 hh2, a2i, hh1, a1i, hh3, a3i C4 C5 C8 C1 C0

FIGURE1 – Deux treillis de clés de liage candidates présentant des familles de clés interdé-pendantes (en vert et violet). Les deux clés vertes sont celles avec la meilleure évaluation (1. de couverture et de discriminabilité) et produisent le résultat espéré.

(5)

IC 2018

4. Utiliser les opérateurs d’échelonnage pour introduire les nouveaux concepts créés dans les contextes formels ;

5. Si les contextes sont différents, aller en 3 ;

6. Extraire les familles de concepts compatibles (n’utilisant que des clés de la famille) ; 7. Évaluer la couverture et la discriminabilité des familles ainsi obtenues ;

8. Afficher contextes et treillis réduits.

Les différentes originalités de Linkky, outre d’être une implémentation de l’extraction de clés de liages en RDF, sont :

— il ne nécessite pas d’alignement entre les classes à considérer ;

— il peut extraire des clés entre différentes classes et une classe commune ; — il extrait les familles de clés dépendantes ;

— il engendre directement l’affichage des treillis en LaTeX.

Remerciements

Ce travail a été financé en parti par le projet ANR Elker (ANR-17-CE23-0007-01) pour les deux premiers auteurs et par une subvention du LabEx PERSYVAL-Lab (ANR-11-LABX-0025-01) financé par le programme “Investissement d’avenir” pour Jérémy Vizzini.

Références

ATENCIAM., DAVID J. & EUZENATJ. (2014). Data interlinking through robust linkkey extraction.

In Proc. 21st European Conference on Artificial Intelligence (ECAI), p. 15–20 : IOS Press.

ATENCIAM., DAVIDJ. & EUZENATJ. (2014). What can FCA do for database linkkey extraction ? In

Proc. 3rd ECAI workshop on What can FCA do for Artificial Intelligence ? (FCA4AI), Praha (CZ), p. 85–92.

GANTERB. & WILLER. (1999). Formal Concept Analysis. Berlin : Springer.

NORRISE. (1978). An algorithm for computing the maximal rectangles in a binary relation. Revue

Roumaine de Mathématiques Pures et Appliquées, 23(2), 243–250.

ROUANE-HACENE M., HUCHARD M., NAPOLI A. & VALTCHEV P. (2013). Relational Concept

Analysis : mining concept lattices from multi-relational data. Annals of Mathematics and Artificial Intelligence, 67(1), 81–108.

VIZZINIJ. (2017). Data interlinking with relational concept analysis. Mémoire de master, Université

Références

Documents relatifs

Dans la tâche présent/proche, le son pur T suivant l'accord était ou bien identique à l'un des trois composants intermédiaires de l'accord, exactement comme dans la tâche

J'ai raconté un épisode, mais ce qui a été le plus important pour moi c'est d'avoir connu le monde de la coopération, le travail de groupe, qui m'a aidé dans mes rapports avec

Dans la présente étude, nous nous demandons si un décrochage de fusion peut se produire avec des durées de contexte incohérent plus courtes et nous évaluons la durée

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Les clés de liage étendent la notion de clé de l’algèbre relationnelle de plusieurs manières : (a) elles considèrent deux sources de données, (b) les propriétés ne sont

En ce qui concerne l’extraction d’objets dans les images et les vidéos, je propose deux outils interactifs sui- vis d’une méthode spatiale et une méthode spatio- temporelle

Titre de la présentation : « La clé d’Ecobordure : les clés pour une bonne détermination » Sujet : Outil d’aide à l’identification de la flore. Description en 5 lignes

Les séquences des mots (des sommets importants) adjacents dans le document constituent les termes- clés composés de plusieurs mots; les autres mots non adjacents dans