Projet de recommandation du W3C - Transformation des tableaux annotés en graphes

3.2 Un workflow pour la détection et la reconnaissance des tableaux

3.2.5 Transformation des tableaux annotés en graphes

3.2.5.3 Projet de recommandation du W3C

Le W3C consortium travaille depuis avril 2015 sur un projet de recommandation pour décrire et produire des données RDF à partir des données tabulaires. Ce projet comporte (i) un modèle pour les tableaux http://www.w3. org/TR/2015/CR-tabular-data-model-20150716/#locating-metadata,

(ii) un vocabulaire de méta-données du tableau http://www.w3.org/TR/2015/ CR-tabular-metadata-20150716/ et son vocabulaire CSVW et (iii) un ensemble de procédures et de règles pour convertir des données tabulaires vers des données RDF, ces dernières sont synthétisées dans csv2rdf http://www.w3.org/TR/2015/ CR-csv2rdf-20150716/#bib-tabular-data-model.

Nous rappelons qu’un projet de recommandation passe chronologiquement par les étapes suivantes : (1) différentes versions de brouillons "Working draft", (2) un appel à voter "last call", (3) un candidat de recommandation "candidate recommandation" , (4) proposition de recommandation "proposed recommandation" et (5) recommandation "recommandation". En juillet 2015, le modèle du tableau, les méta-données et csv2RDF sont candidats pour une recommandation.

Un modèle de tableau est composé de groupes de tableaux, de tableaux, de colonnes, de lignes, de cellules et de types de données. Ce modèle s’applique sur les tableaux relationnels où l’entête du tableau est située à la première ligne. Les méta-données du tableau sont illus- trées dans la Figure II.18. La procédure de construction des données RDF du tableau exige qu’il y ait déjà un modèle de tableau annoté qui a été fourni.

Chronologiquement, nos propositions sont antérieures à ce projet. Toutefois, ce que nous avons proposé est tout à fait compatible mais aussi complémentaire aux propositions du

Figure II.18 — Les méta-données du tableau proposées par le W3C

W3C. La complémentarité de nos travaux réside dans la possibilité de traiter des tableaux relationnels et non-relationnels où les entêtes ne sont pas uniquement situées dans la pre- mière ligne. En outre, nous avons proposé des solutions automatiques pour le passage de données tabulaires vers des données tabulaires annotées puis vers des graphes RDF. Nos propositions sont aussi compatibles avec les propositions du W3C, il suffirait d’adapter les méta-données, vocabulaire et modèle de tableau dans nos algorithmes.

4 Conclusion

Dans ce chapitre, nous avons présenté une approche pour la détection et la reconnaissance des données ouvertes tabulaires. La détection permet de repérer l’emplacement du tableau et la reconnaissance permet d’analyser le contenu du tableau détecté. La finalité de notre approche est d’obtenir des schémas de tableaux nécessaires pour l’intégration des données provenant de différentes sources. Nous avons choisi de produire des schémas de tableaux sous forme de graphes (graphes de propriétés). Ces graphes ont la possibilité d’être étendus vers des formalismes plus spécifiques comme RDF. Dans les graphes, nous distin- guons deux types de données : les données structurelles et les données numériques (les statistiques du tableau).

Notre approche repose sur un nouveau modèle de tableau et sur un workflow d’activités. Chaque activité réalise automatiquement la détection et la reconnaissance d’un composant du tableau. La détection s’appuie sur le modèle de tableau pour identifier l’emplacement du composant concerné. La reconnaissance s’appuie également sur le modèle de tableau pour

L’utilisation du modèle de tableau pour la détection permet de pallier le problème d’hé- térogénéité structurelle qui caractérise les données ouvertes tabulaires. En effet, l’hétérogé- néité structurelle est engendrée par une organisation aléatoire des Open Data par les dif- férents fournisseurs. De même l’utilisation du modèle de tableau pour la reconnaissance permet de décrire les tableaux sans avoir besoin de ressources externes. De ce fait, notre proposition s’applique génériquement sur n’importe quelle source de données ouvertes in- dépendamment de son domaine d’étude.

Parmi les activités proposées, nous avons mis l’accent sur la découverte automatique de relations hiérarchiques entre les données structurelles. Nous avons pris en considération le problème de hiérarchies complexes [Malinowski et Zimányi, 2006] connu dans les systèmes décisionnels. Cet aspect de notre proposition à un niveau avancé de la démarche ETL vise à simplifier la découverte des hiérarchies du schéma multidimensionnel par des non-experts. Ces propositions ont été publiées dans le cadre des conférences nationales EDA’13 [Berro et al., 2013] et INFORSID’14 [Berro et al., 2014b] et internationale ADBIS’14 [Berro et al., 2014a].

L’approche proposée dans ce chapitre permet de produire automatiquement ou semi- automatiquement des schémas de tableaux sous forme de graphes. Le chapitre suivant montre une nouvelle méthode pour l’intégration simultanée et automatique de plusieurs graphes de tableaux.

III

Intégration holistique des

graphes de données ouvertes

tabulaires

L

’ intégration des données issues de multiples sources repose sur un ensemble de correspondances entre les modèles de données de ces sources. La recherche automatique des correspondances est un problème connu dans la littérature sous le nom de problème d’appariement. Notre problématique dans ce chapitre concerne la résolution automatique du problème d’appariement pour intégrer plusieurs graphes de données ouvertes tabulaires.

Nous allons présenter la difficulté du problème d’appariement, les approches proposées dans la littérature, leurs limites face à notre contexte et quelle solution nous proposons pour résoudre ce problème.

1 Introduction

Un panorama des domaines d’application est fourni par [Euzenat et Shvaiko, 2013] en fonction de la résolution du problème d’appariement tels que l’ingénierie d’ontologies, l’in- tégration d’information, la liaison des données (Linked Data), le partage d’information paire à paire, la composition de services, la communication de systèmes autonomes, l’interroga- tion du web, etc. Le problème d’appariement est connu aussi sous le nom de Matching de modèles de données. L’appariement des modèles de données consiste à déterminer les meilleures correspondances entre les éléments de ces modèles. La Figure III.1 illustre un exemple de correspondances résultantes de la résolution du problème d’appariement entre deux modèles de documents. Les modèles de données varient du moins expressif au plus expressif en termes, hiérarchies ad-hoc, thésaurus, XML, schémas de bases de données, ontologie [Euzenat et Shvaiko, 2013].

L’intégration des données tabulaires se situe dans l’un des domaines d’application cités ci-dessus en fonction de la nature du modèle de données. Par exemple, si le modèle est une ontologie alors l’intégration des données tabulaires fait partie du cadre applicatif d’ingé- nierie d’ontologies. Si les modèles sont des hiérarchies ad-hoc ou des schémas de bases de données alors l’intégration des données tabulaires fait partie du cadre applicatif d’intégra- tion des données dans un système d’information.

Le contexte de nos propositions se situe au niveau de l’intégration des données tabulaires dans un système d’information. En particulier, nous intégrons les graphes de struc- tures hiérarchiques des données structurelles extraites des tableaux. Ces graphes sont moins expressifs que les ontologies puisqu’ils contiennent uniquement des labels et des relations hiérarchiques entre ces labels. En plus, puisque les tableaux à intégrer proviennent de plusieurs fournisseurs, les données structurelles sont sémantiquement hétérogènes.

Figure III.1 — Exemple de correspondances résultantes de l’appariement du modèle 1 et

modèle 2

Notre objectif est d’obtenir automatiquement une solution, unique et optimale, d’ap- pariements holistiques (plusieurs graphes en même temps) pour des graphes de struc- tures hiérarchiques. Nous souhaitons que la solution fournie soit également de structure hiérarchique afin de faciliter la définition du schéma multidimensionnel à partir de cette dernière. Nous ambitionnons aussi de faire face à l’hétérogénéité sémantique de sources ouvertes provenant de multiples fournisseurs.

Ce chapitre est organisé en deux parties. Dans la première partie, nous expliquons le problème d’appariement et ses spécificités. Ensuite, nous décrivons et discutons les travaux de la littérature pertinents par rapport à notre contexte. Dans la deuxième partie, nous abor- dons en détail notre proposition appliquée aux graphes de données ouvertes tabulaires.

2 État de l’art : Appariement des modèles de données

Dans le document Intégration holistique et entreposage automatique des données ouvertes (Page 67-72)