• Aucun résultat trouvé

138 Voir ci-dessus l’encart « Les métadonnées géographiques : formats et gestion », p. ###.

139 Voir ci-dessus l’encart « data.bnf.fr : un « pivot documentaire » pour le signalement des ressources de la BnF », p. ###.

140 Voir le chapitre sur les questions juridiques. 141 http://creativecommons.fr/.

Le web de données repose sur les quatre composantes de base du web :

- le protocole HTTP, qui assure la communication entre machines sur le web, par exemple entre un navigateur web et un serveur hébergeant les données,

- un mécanisme d’identification : les URL (uniform ressource locators) sont les adresses qui désignent une ressource sur Internet (page ou fichier, par exemple),

- le principe de l’hypertexte, c’est-à-dire des liens entre ressources, - le langage HTML pour l’affichage des contenus des pages web.

A ces principes de base s’ajoutent des standards plus spécifiques au web de données143 :

- des identifiants, les URI144 (uniform ressource identifiers)

Afin de nommer précisément et uniformément les données que l’on va publier, et de pouvoir les lier entre elles et avec des données d’autres jeux de données, le web de données s’appuie sur des identifiants, que l’on appelle URI. Ces URI sont de préférence des identifiants web (commençant par http145), pour que les machines comme les usagers puissent obtenir des

informations sur ces ressources ; mais il peut aussi s’agir d’identifiants qui n’ont de sens que dans le contexte particulier d’un jeu de données. On a déjà dit toute l’importance des identifiants uniques et pérennes pour l’interopérabilité et la citabilité des ressources numériques146 ; dans le

web de données, ce ne sont plus seulement les objets numériques qui sont dotés d’identifiants mais chaque donnée, chaque information, chaque concept : par exemple l’objet physique d’origine, sa représentation numérique, son auteur, ses thèmes d’indexation, etc. Finalement, les pratiques des bibliothécaires sont souvent déjà très proches de ces objectifs, en attribuant un identifiant à l’objet physique (cote) et un à la représentation numérique, et en proposant des liens vers les identifiants des notices d’autorité (auteur, thèmes). Mais dans les catalogues, les identifiants et les liens sont enfermés dans des notices et dans des bases de données.

- un cadre de description, RDF (Ressource description Framework)

Le modèle RDF est un modèle de graphe, qui « atomise » la notice descriptive pour la diviser en un ensemble de déclarations minimales autonomes. Ces déclarations, ou « triplets », se présentent sous une forme « sujet – verbe – complément » (« sujet – prédicat – objet » dans le langage RDF), où chaque élément est désigné par une URI. Ces triplets sont reliés entre eux pour constituer un graphe, ce qui permet une très grande souplesse descriptive.

Par exemple, une notice bibliographique :

Identifiant de la notice : http://catalogue.bnf.fr/ark:/12148/cb35347035r/ Auteur : Melville, Herman (1819-1891)

Titre(s) : Moby-Dick, or The Whale

Titre d’ensemble : The Writings of Herman Melville. ; 6

Publication : Evanston, Ill. : Northwestern university press ; Chicago, Ill. : Newberry library, 1988

peut être exprimée sous forme de graphe RDF par un ensemble de triplets reliés entre eux, notamment :

143 Voir les pages consacrées au web sémantique sur le site du W3C http://www.w3.org/standards/semanticweb. 144 Le W3C fournit des recommandations sur l’utilisation et la forme des URI : Cool URIs for the Semantic Web (2008) http://www.w3.org/TR/cooluris/.

145 Les URL sont une forme d’URI.

Les différents concepts (par exemple un livre, un auteur, un titre propre, un ISBN) ainsi que les relations qualifiées entre eux (par exemple « a été écrit par », « contient », « a pour exemplaire numérisé ») doivent être définis par des ontologies pour pouvoir être compris par les machines147. Dans un souci de normalisation et pour favoriser une véritable interopérabilité

sémantique, il est recommandé d’utiliser des ontologies documentées et largement adoptées148.

Pour décrire une ressource numérisée par une bibliothèque, on pourra ainsi piocher des éléments de description dans différentes ontologies en fonction des besoins149, par exemple :

- des éléments de Dublin Core pour décrire la ressource numérique elle-même : le type de document, le format, l’identifiant du fichier,

- des éléments de l’ISBD150, qui a été publié comme ontologie du web sémantique par

l’IFLA, pour décrire le document d’origine : le titre, les mentions de responsabilité et de publication, l’ISBN, etc., avec toute leur richesse et leur précision bibliographique,

- pour décrire les personnes, auteurs ou contributeurs, on pourra utiliser une ontologie spécifiquement adaptée à ce type d’information, comme FOAF pour décrire les relations entre personnes, ou BIO151 pour des éléments biographiques plus précis (date de

naissance, date de décès), ou encore une ontologie spécifique au monde des bibliothèques comme MADS/RDF152.

- des langages de présentation et d’interrogation des données : les langages de représentation des ontologies RDFS et OWL, le langage d’interrogation SPARQL.

147 Une ontologie est un système d’organisation des connaissances qui se présente comme un ensemble structuré de concepts liés par des relations sémantiques d’inclusion ou d’héritage.

148 Le projet LOV (Linked Open Vocabularies) recense ainsi les différentes ontologies de métadonnées, publiées et documentées, utilisables sur le web de données, et leur notoriété http://labs.mondeca.com/dataset/lov/.

149 Voir aussi ci-dessus 2.C. Le cycle de vie des métadonnées. 150 http://iflastandards.info/ns/isbd/elements/

151 BIO est une ontologie pour les informations biographiques http://vocab.org/bio/0.1/.html.

152 La Bibliothèque du Congrès a publié le format MADS comme ontologie sur le web de données www.loc.gov/standards/mads/rdf/.

Pour résumer, le web de données c’est : - des ressources à décrire,

- des URI pour les identifier,

- un modèle RDF pour les représenter et les relier, - des langages pour les exprimer et les interroger.

MAIS A QUOI ÇA SERT CONCRETEMENT, POUR LES