• Aucun résultat trouvé

3. Open Data et Web sémantique

3.2. Technologies du Web sémantique

Le terme "Web 2.0" a été proposé dans le cadre d’une conférence tenue en août 2004 pour désigner le Web en tant que plateforme partagée par tous les usagers, et une architecture permettant la contribution à la création des contenus , via les réseaux sociaux (blogs, wikis,…), le développement collaboratif, mais aussi le mixage ou « mashup » d’applications 46. C’est cet aspect qui nous intéresse le plus ici, appliqué à l’origine aux documents, et aujourd’hui aux données, chaque élément de la chaine d’information pouvant servir de source, et en même temps se nourrir de toute autre entité du Web. On parle fréquemment de révolution, au même titre que l’apparition de l’écriture.

Le Web sémantique s’inscrit dans ce cadre et constitue une sorte d’extension au Web, permettant de donner du sens au contenu des pages, en les structurant et les rendant ainsi interprétables par les machines (« machine readable »). Le terme « linked data » (« données liées » ou encore « Web de données ») est utilisé pour décrire les meilleurs pratiques pour mettre à disposition, partager et interconnecter les données, informations et connaissances sur le Web sémantique, en utilisant les URIs et RDF [23, BIZER et al.]. On constitue de cette manière une base de données à l’échelle du Web [22, AUSSENAC-GILLES et al.], dans laquelle les données sont reliées entre elles. L’effet obtenu est de minimiser la duplication des données (meilleure cohérence), et d’y accéder à tout moment et de partout. La question de la fréquence de mise à jour se pose d’ailleurs à ce niveau, pour être certain d’avoir à

44 ROSENBLOOM, MILLER, JOHNSON, ELKIN, BROWN. Interface terminologies: facilitating direct entry of clinical data into electronic health record systems. J Am Med Inform Assoc.

2006 May-Jun;13(3):277–88. Disponible sur :

<http://www.ncbi.nlm.nih.gov/pubmed/16501181>

45 http://www.3mtcs.com/resources/hl7cts

46 http://www.ladocumentationfrancaise.fr/dossiers/internet -monde/ web2.0.shtml

Mémoire INTD-CNAM Titre 1 2016 – STEINBERG Karine 27 disposition la donnée la plus « fraiche » possible. Il est nécessaire de réfléchir en amont s’il s’agit de données statiques (publication d’une statistique, par exemple), dynamiques (diffusion du prix du carburant) ou fluides, c’est-à-dire dans un flux ininterrompu de données (état de la circulation routière) [2, MESZAROS et al.].

Pour bien comprendre le fonctionnement du Web de données, quelques explications sont nécessaires.

Figure 3 : Le « Layer cake » du Web de données.

Le schéma du Layer cake (Figure 3) illustre l’architecture des linked data, qui se présente en couches successives de langages, chacun participant à l’ensemble des recommandations du W3C (World Wide Web Consortium) [24].

Mémoire INTD-CNAM Titre 1 2016 – STEINBERG Karine 28 Chaque ressource du Web est identifiée par son URI/IRI (Uniform Resource Identifier)/ Internationalized Resource Identifier), c’est-à-dire une adresse URL unique sur internet47.

Le modèle de description RDF (Resource Description Framework)48 de ces ressources, est un standard du W3C, qui correspond à un triplet (ressource, propriété, valeur). Ainsi la ressource décrite est le sujet, la propriété renseignée le prédicat et la valeur de cette propriété l’objet. Le sujet et le prédicat sont identifiés par des URIs/IRIs, tout comme l’objet, qui peut en plus être déterminé par une valeur littérale (nombre, chaîne de caractères). Une même ressource peut être sujet, prédicat ou objet dans plusieurs triplets.

Les formats utilisés pour RDF peuvent être XML49, Turtle50, Triples et N-Quads 51, JSON52, en fonction du besoin de simplicité, de lisibilité ou d’utilisation.

Les triplets reliés par les URIs forment un graphe (ensemble de nœuds et d’arcs), où les sujets et les objets sont des nœuds et les prédicats des arcs. Les graphes offrent un aspect visuel, et permettent également d’être manipulés par des outils informatiques, comme les ontologies. Celles-ci indiquent les classes et propriétés qui servent de support à l’expression des descriptions RDF, ce qui ouvre le champ d’exploitation ultérieur des données. Les ontologies permettent donc de spécifier les ressources via un vocabulaire exprimé en RDF Schema (RDFS)53 et OWL (Web Ontology Language)54.

En partant des classes et leur hiérarchie, RDFS donne la possibilité d’organiser les concepts, d’en indiquer les propriétés et les notions de domaine/portée. OWL complète la description de ces propriétés, des relations, et introduit la notion d’équivalence entre concepts, pour aboutir à la documentation formelle du domaine.

Le langage permettant de faire des requêtes sur des triplets RDF est SPARQL55. Ce dernier est supporté par les triplestores56, des bases de données permettant de stocker nativement des triplets RDF. Il est à RDF ce que SQL est aux bases de données relationnelles. Un triplestore est interrogeable en SPARQL sur le Web via un SPARQL endpoint57 (point d’accès, protocole http), et donne un résultat au format XML (ou JSON et bientôt JSONLD).

En conclusion, Bruno Menon [27, MENON] donne cette illustration très claire en parlant du Web de données : Les URIs/IRIs en sont les mots et les ontologies conçues en RDF Schema ou en OWL sont les dictionnaires qui permettent d’en élucider la sémantique. RDF, qui régit la construction des assertions, en est la syntaxe. Et XML est l’un des systèmes d’écriture avec lesquels cette langue peut être notée. Les jeux de données RDF sont les textes ou les ouvrages de référence rédigés dans cette langue, que SPARQL permet de consulter et de compiler.

4747 https://www.w3.org/TR/uri-clarification/

48 https://www.w3.org/RDF/

49 https://www.w3.org/XML/

50 https://www.w3.org/TR/turtle/

51 https://www.w3.org/TR/n-triples/ , https://www.w3.org/TR/n-quads/

52 http://www.w3schools.com/js/js_json_intro.asp

Mémoire INTD-CNAM Titre 1 2016 – STEINBERG Karine 29