• Aucun résultat trouvé

Faciliter la publication dans le Web des données

N/A
N/A
Protected

Academic year: 2022

Partager "Faciliter la publication dans le Web des données"

Copied!
18
0
0

Texte intégral

(1)

26 mars, 2013

Faciliter la publication dans le Web des données

http://datalift.org

(2)

Un e p la t e- form e de p r o ductio n et de p u b licatio n de do n n ées liées

Pr o j et o p en - source, t éléch ar geable et o p ér at ionn elle

C o fin an cé p a r l’ A N R p en da nt 3 a n s et dem i ( 09 /2 010 – 03/2 01 4)

Datalift en bref

(3)

• Beaucoup d’expertise et des outils à rassembler

Une pile technologique un peu compliquée à maîtriser

Une connaissance des vocabulaires et référentiels partagés

• Une démarche trop souvent isolée

On publie ses propres données avec ses propres vocabulaires Les données sont ouvertes, le format est partagé,

mais elles restent souvent dans un silo sémantique

« Pub-lier » des données avant Datalift

(4)

• Enseignement et recherche

EURECOM (Institut Mines-Telecom) INRIA (EXMO, WIMMICS)

LIRMM (Université de Montpellier)

• Industriels

Atos (intégrateur)

Mondeca (fournisseur de solutions sémantiques depuis 2000)

• Fournisseurs de données

IGN (données géographiques)

Insee (données statistiques, nomenclatures)

• Secteur associatif et collectivités

FING (Fondation Internet Nouvelle Génération)

Partenariat solide et crédible

(5)

Publication via SPARQL end-point (public ou non)

Visualisation, navigation, requêtage, alignements …

Transformations diverses sur les données RDF

Réconciliation et interconnexion des entités partagées (LOD)

Réconciliation avec des vocabulaires partagés (LOV)

Conversion des formats sources (CSV, SQL, XML) en RDF

Des modules pour chaque « étage de l’ascenseur »

(6)

Linked Open Vocabulaires

Catalogue de vocabulaires réutilisables pour la description des données Ontologies en RDFS/OWL

Aujourd’hui hébergé par Open Knowledge Foundation

Description innovante des vocabulaires

Détection et représentation des liens et dépendances Recherche fédérée, stockage des versions

Monitoring semi-automatique de l’écosystème des vocabulaires

Contenu intégré dans la plate-forme Datalift

Recherche de vocabulaires, alignement …

Vocabulaires qualifiés et partagés

(7)

Vocabulaires qualifiés et partagés

(8)

• Insee et IGN

Données géographiques et statistiques Codes et nomenclatures

• Cas d’école pour l’interopérabilité

Objets communs : entités géographiques Points de vue différents sur ces objets

territoire administratif, statistique, géométrique…

• Un travail coopératif entre ces deux acteurs

Politique commune sur les URI

Rapprochement des entités et des vocabulaires

Fournisseurs de données de référence

(9)

Par l’IGN

Ontologie topographique et données administratives A suivre sur data.ign.fr

• Par l’Insee

Code Officiel Géographique

Codes et Nomenclatures (NAF)

Données de population (recensement) A suivre sur data.insee.fr

Données de références déjà publiées

(10)

Un exemple : collèges de la Gironde

(11)

• Format non propriétaire (CSV)

• Un type d’objets bien défini (Collège)

• Des propriétés simples

identifiant, nom, adresse, commune …

• Des identifiants partagés

code établissement, code commune

• La transformation de ces données en RDF peut être en grande partie automatisée

Des données « mûres » pour le lifting

(12)

0333108Z INSEE_COMMUNE ‘33069’

3 cellules = un triplet RDF

(13)

• Le « triplet » extrait automatiquement …

sujet prédicat objet

0333108Z INSEE_COMMUNE ‘33069’

• Est-il utilisable en l’état? Pas vraiment …

Ce n’est pas encore tout à fait du RDF (il manque les URI) Il y a beaucoup d’implicite … à expliciter

• Ce qui reste à expliciter

Toutes les lignes décrivent un même type d’objets : des collèges Identifiés par des codes uniques définis sans doute ailleurs

La signification de chaque prédicat dans un vocabulaire partagé

… mais la syntaxe n’est pas tout!

(14)

sujet prédicat objet 0333108Z INSEE_COMMUNE ‘33069’

• Traduire le sujet en URI de publication

http://data.datalocale.fr/equipement/college/0333108Z

• Traduire le prédicat en URI de référence

http://www.w3.org/2003/01/geo/wgs84_pos#location

• Traduire l’objet en URI de référence

http://id.insee.fr/geo/commune/33069

• Expliciter le type du sujet dans un vocabulaire

http://data.datalocale.fr/org#CollegePublic

Expliciter entités et vocabulaires

(15)

Le projet dans Datalift

(16)

Notre collège « lifté »

(17)

Visualisation

(18)

Merci de votre attention !

3 Cité Nollez

75018 Paris, France +33 1 44 92 35 03

alexander.polonsky@mondeca.com www.mondeca.com

Alexander Polonsky

Directeur Marketing

Références

Documents relatifs

Rivière souterraine!. Aujourd’hui, je suis

Comme l’indique le tableau , les cultures les plus repré- sentées dans l’archive sont les grandes cultures, suivies par les cultures légumières et les cultures fruitières.. Les

Les faiblesses méthodologiques, notamment dans la définition des variables, et dans l'absence de certains éléments d'analyse s'ajoutent au risque toujours présent de tomber dans

Améliorer la qualité des données d'un catalogue avec les web services de

« On ne force pas les professeurs ou les départements à passer à la formation en ligne [...] mais, de temps en temps, on leur rappelle que s'ils veulent se faire connaître,

La seconde particularité du modèle est de résumer la forme d'une courbe particulière par la valeur d'un seul paramètre (paramétre m) ; au lieu de deux états

Jésus fut confronté à cette question tandis qu’il se préparait à mourir sur la croix puis à retourner au ciel. Quelles paroles allait-il adresser à ses disciples avant de les

Le projet Saphir faisait appel à la notion de graphe patron pour définir des modèles de description sous la forme de graphes conceptuels partiellement instanciés. C’est-à-dire