Un graphe RDF intégré - Construction du graphe intégré

3.4 Regroupement des correspondances et construction du graphe intégré

3.4.2 Construction du graphe intégré

3.4.2.2 Un graphe RDF intégré

Pour chaque groupe de correspondances, nous créons un nouveau noeud de type skoks : Collection qui représente un regroupement de concept, nous lui attribuons comme skoks : label le label commun à la majorité des noeuds ou bien s’il n’y pas de majorité n’importe quel label de la liste des noeuds. Ensuite, nous rajoutons des propriétés skoks : member entre ce nouveau noeud et les identifiants des noeuds qui figurent dans le groupe.

Par ailleurs, nous matérialisons la relation de correspondance entre les différents noeuds structurels (qui sont des skoks : concept dans le graphe RDF). En effet, si la Sim(NoeudSrc, NoeudTrg) = 1 alors nous ajoutons la propriété skoks : exactMatch entre le noeud source et le noeud destination sinon nous ajoutons la propriété skos : closeMatch entre ces deux noeuds.

Le graphe RDF intégré représente notre solution pour générer des données ouvertes liées à partir des données tabulaires.

4 Conclusion

Dans ce chapitre, nous avons présenté une méthode d’intégration holistique de don- nées ouvertes tabulaires. La méthode repose sur une présentation en graphes des données tabulaires (obtenus à l’issue de la phase 1 décrite au chapitre précédent). L’intégration holistique nous permet de prendre en compte simultanément N ≥ 2 graphes. L’intérêt de cette méthode est de garantir une solution unique correspondant à l’optimum global. En effet, l’intégration par paire de graphes à pour inconvénient de trouver une solution localement optimale dans l’espace des solutions formé par l’ensemble des graphes. De plus, suivant l’ordre avec lequel l’appariement par paire de graphes est effectué, la solution optimale (lo- cale) est le plus souvent différente. Notre solution est plus facilement exploitable pour un utilisateur car il dispose d’un graphe intégré unique toujours identique quelque soit l’ordre d’intégration des graphes.

Notre méthode combine plusieurs mesures de similarité. Nous avons adopté des mesures syntaxiques et sémantiques pour assurer une meilleure mise en correspondance des noeuds des graphes. Nous exploitons la complémentarité des similarités syntaxiques et sé- mantiques en maximisant les scores obtenus.

Notre méthode d’intégration adapte et étend le problème de couplage de graphes à poids maximal, connu en optimisation combinatoire. Nous avons modélisé notre méthode sous la forme d’un programme linéaire, nommé LP4HM, afin de garantir une résolution du pro- blème en temps polynomial [Almohamad et Duffuaa, 1993] [Schrijver, 2003]. Ce choix est confirmé par nos expérimentations décrites dans le chapitre 5. Un autre intérêt de la pro- grammation linéaire réside dans la possibilité de définir un ensemble de contraintes. Ces contraintes nous permettent de modéliser des appariements cohérents.

Cette approche a également la possibilité de se passer de la configuration de seuil de similarité. Fixer un seuil dans les outils d’appariement est une tâche particulièrement diffi- cile pour les utilisateurs. Elle nécessite parfois une phase d’apprentissage. Notre méthode rend possible l’appariement de plusieurs graphes sans apprentissage et sans l’utilisation du seuil. L’intérêt de ce choix est confirmé par les résultats d’expérimentations présentées au chapitre 5.

Enfin, notre méthode peut être étendue pour prendre en compte des appariements com- plexes. L’appariement complexe permet de faire correspondre plusieurs noeuds d’un graphe avec plusieurs noeuds d’un autre graphe ; on parle d’appariement n : m. Pour permettre

l’intervalle[0, 1]au lieu d’être contrainte aux valeurs binaires 0 et 1.

Ces propositions ont été publiées dans le cadre de la conférence nationale EDA’15 [Berro et al., 2015c] et les conférences internationales RCIS’15 [Berro et al., 2015b] et DEXA’15 [Berro et al., 2015d].

La méthode d’intégration définie dans ce chapitre permet d’obtenir automatiquement un graphe intégré. Le chapitre suivant montre comment un utilisateur peut définir progressivement une base de données multidimensionnelle à partir du graphe intégré.

IV

Conception de schémas

multidimensionnels

L

’ analyse OLAP repose sur un schéma multidimensionnel basé sur la dichotomie fait/dimension [Kimball, 1996] [Ravat et al., 2001] [Ravat et al., 2008], [Abello et al., 2015]. Ce schéma couramment conçu à partir de sources relationnelles [Romero et Abelló, 2009] doit être élaboré, dans notre contexte, à partir du graphe intégré de données ouvertes tabulaires. Dans ce chapitre nous répondons à deux questions. Comment faut-il simplement exploiter ce graphe pour concevoir un schéma multidimensionnel ? Est-il possible de ne pas matérialiser les données dans un entrepôt de données multidimensionnelles tout en permettant leurs analyse ?

1 Introduction

Les opérations OLAP constituent une solution pour l’analyse des données statistiques du web [Kämpgen et al., 2012]. Ces opérations reposent sur un schéma multidimensionnel qui est traditionnellement extrait de sources structurées (relationnelles) à travers les processus ETL et implanté dans un entrepôt de données. Or, les données statistiques disponibles sur le web sont des sources non-structurées, en l’occurrence les données ouvertes tabulaires, ou semi-structurées telles que des données exprimées en RDF ou XML [Ravat et al., 2010]. Ces sources exigent une adaptation des démarches de conception de schémas multidimensionnels [Romero et Abelló, 2009].

Dans la littérature, certaines approches [Romero et Abelló, 2007] [Danger et Berlanga, 2009] ont proposé de concevoir des schémas multidimensionnels à partir d’ontologies. Ces approches sont conditionnées par l’expressivité des ontologies, notamment au niveau des cardinalités entre les relations. D’autres approches de la litté- rature partent d’un schéma multidimensionnel en QB [Kämpgen et al., 2012] ou génèrent des données RDF annotées avec un vocabulaire multidimensionnel [Etcheverry et al., 2014]. Leur objectif est d’interroger directement les données du web sans passer par la matéria- lisation des données. Bien que la matérialisation est un principe fondamental favorisant la performance des requêtes OLAP [Laborie et al., 2015], elle se trouve remise en cause dans le cadre d’OLAP exploratoire ou les processus ETQ (Extract-Transform-Query) [Abello et al., 2015]. Nous constatons que les approches de la littérature divergent sur la matérialisation des données. Dans le cadre de notre étude, nous nous adressons à des utilisateurs qui ne sont pas forcément des experts en décisionnel. Nous partirons dans l’hypothèse où ces utilisateurs peuvent avoir des avis différents [Ravat et Teste, 2008] sur la matérialisation. Pour cela, nous proposons qu’un processus de conception puisse supporter les deux approches.

Après avoir extrait et intégré des données ouvertes tabulaires, nous souhaitons que l’utilisateur puisse appliquer des opérations OLAP sur ces données intégrées. Il convient alors de modéliser ces données selon la dichotomie fait/dimension. Nos données ouvertes tabulaires ont été transformées dans un graphe intégré. Ce graphe est formé de données nu- mériques liées à des données conceptuelles organisées en hiérarchies. Nous proposons un processus progressif de conception mutlidimensionnelle. Notre processus supporte la ma- térialisation et la non-matérialisation des données d’une façon complètement transparente à l’utilisateur. Ce processus se compose de deux vues :

– Une vue utilisateur dans laquelle le graphe intégré se transforme progressivement en un schéma multidimensionnel de niveau conceptuel selon le formalisme graphique du modèle conceptuel proposé par [Ravat et al., 2007b]. L’utilisateur identifie progressivement les composants multidimensionnels. En effet, il identifie d’abord les dimensions et leurs composants. Puis, il identifie les faits et leurs composants.

– Une vue système dans laquelle le système se charge d’appliquer les étapes nécessaires pour matérialiser ou non-matérialiser les données en fonction du choix de l’utilisateur. – Pour matérialiser les données, le système génère progressivement les scripts sql permettant de matérialiser un entrepôt de données dans une base de données RO- LAP. Suite à ceci, les données peuvent être interrogées par des opérations OLAP [Ravat et al., 2002].

– Pour non-matérialiser les données, le système produit progressivement des annotations multidimensionnelles dans un graphe RDF équivalent au graphe inté- gré visualisé par le concepteur. La production des annotations repose sur les correspondances entre le modèle conceptuel multidimensionnel [Ravat et al., 2007b] et le vocabulaire multidimensionnel QB4OLAP [Etcheverry et al., 2014]. Il se- rait possible d’interroger directement ce graphe avec des opérations OLAP- SPARQL [Etcheverry et al., 2014]. L’usage des graphes montre ici son intérêt puisque notre démarche ETL sans matérialisation peut devenir une démarche ETQ [Abello et al., 2015].

Ce chapitre est divisé en deux parties. La première partie est un état de l’art sur les travaux qui utilisent des sources non-relationnelles (telles que des ontologies, des schémas XML, des données liées, etc..) pour la conception d’un schéma multidimensionnel et l’alimentation d’un entrepôt de données. La deuxième partie est dédiée à la description de notre proposition pour la conception et l’annotation multidimensionnelle à partir du graphe inté- gré des données ouvertes tabulaires.

2 État de l’art

Dans cette section, nous mettons l’accent sur les travaux de la littérature qui portent sur la conception d’un schéma multidimensionnel [Ghozzi et al., 2005] et sur l’alimentation d’un entrepôt de données [Annoni et al., 2006b]. Les travaux ciblés utilisent des sources de don- nées conceptuelles [Khouri, 2013] structurées ou non-structurées telles que les ontologies ou

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 109-115)