Un langage pour les machines : la structuration des métadonnées au sein des

2.1 D’un Web de pages à un Web de données : rendre les ressources en ligne

2.1.3 Un langage pour les machines : la structuration des métadonnées au sein des

Les métadonnées sont des données sur les données dont la fonction est de qualifier un document ou une information. Cependant l’usage de ces métadonnées dépasse les traditionnelles données bibliographiques ou d’indexation. En effet elles permettent également de gérer le cycle de vie des documents, de produire et diffuser l’information par différents canaux. Or le Web sémantique s’appuie sur ces métadonnées pour augmenter d’une part la qualité des recherches et d’autre part pour offrir de nouveaux services (2, BAUDRY DE VAUX, DALBIN). Néanmoins si les métadonnées sont nécessaires au Web Sémantique, elles doivent néanmoins être encodées et intégrées dans des schémas sémantiques afin de permettre aux ordinateurs de les exploiter de façon efficace.

En effet le Web sémantique est un langage pour les machines (4, BERMES). Comme toute langue elle est composée :

 D’une grammaire : le RDF

 D’un vocabulaire : le RDFS/OWL, Ontologies

 De règles d’écriture : RDF/XML, RDFa

 De moyens de communication : SPARQL

Par ailleurs d’un point de vue technique, il est notable que le Web sémantique est structuré en plusieurs couches, que Michel Gagnon (8, GAGNON) représente comme suit :

2.1.3.1 L’URI

L’URI (Universal Ressource Identifier) identifie une entité à laquelle on se réfère sur le Web, mais qui n’est pas nécessairement une ressource disponible sur le Web. Les URI sont des identifiants web dont les exemples le plus connus sont les URL qui identifient la ressource par le moyen d’y accéder (les URL peuvent être pérennes). Cependant les URI, contrairement aux URL, n’ont pas obligation à donner accès au document car demeurent avant tout des identificateurs, à la manière de l’ISBN pour un ouvrage. La non-obligation pour les URI de donner accès à la ressource contribue à la robustesse du Web sémantique car les documents RDF peuvent être consultés hors ligne et parce que le risque de liens cassés disparaît (14, TRONCY). L’URI présente l’intérêt que l’objet référencé n’a pas besoin de se trouver ou d’être décrit dans le document lui-même. L’usage des URI permet le partage des descriptions entre plusieurs documents. Par exemple un ouvrage (défini par son URI) peut être décrit dans un fonds tandis la biographie de son auteur (auteur défini par une autre URI) peut se trouver dans un autre fonds. Le langage RDF constitue donc un graphe de relations entre les informations disséminées, entre leurs URI respectives. Une URI doit être validée par l’IANA, organisme de contrôle des URI car il est nécessaire qu’une ressource ne soit identifiée que par une URI unique.

Une URI peut se construire selon la syntaxe suivante :

<http://mondomaine.org/ressource/345>

2.1.3.2 Le XML

Le XML (eXtended Markup Language) qui est un langage de balisage extensible, un métalangage qui permet de définir des balises pour des documents. Il s’agit de la norme pour la représentation d’information structurée.

2.1.3.3 RDF

RDF (Resource Description Framework) est un langage recommandé par le W3C (World Wide Web Consortium) fondé sur les notions de ressources et de relations entre les ressources. RDF est un modèle de graphes censé représenter les diverses ressources du Web et leurs métadonnées afin d’en permettre le traitement automatique. Le modèle RDF favorise l’interopérabilité en annotant les documents ou applications non structurés sur le Web. Ce schéma RDF est représenté par un ensemble d’énoncés (statements). Chaque énoncé est un triplet <S, P, O> : S est le sujet, P est le prédicat (le type de relation entre le sujet et l’objet), O est l’objet (une ressource ou une autre donnée liée au sujet en question, la nature de ce lien étant définie par le prédicat). Le sujet est toujours une URI : toute

« chose » (sujet) sur laquelle on souhaite faire des assertions doit avoir une URI. Les

« choses » ont toujours un « type », c'est-à-dire une classe. Le prédicat est toujours une URI : il permet d’exprimer les propriétés des « choses » ou les relations des « choses » entre elles. L’objet peut être un texte (littéral) ou une URI. Les classes et les propriétés sont déclarées dans des vocabulaires pour être réutilisées.

Pour illustrer la logique de construction d’un schéma RDF, nous pouvons prendre l’exemple de l’écrivain Romain Gary qui est l’auteur de La promesse de l’aube :

La promesse de l’aube est également un sujet en plus d’être un objet lié à Romain Gary :

Ainsi l’assertion « Romain Gary est l’auteur du roman La promesse de l’aube publié en 1960 » peut être représentée dans le schéma RDF suivant :

Or Romain Gary, lauréat du Prix Goncourt en 1956, a également écrit sous des noms d’emprunt tels qu’Emile Ajar, récompensé du Prix Goncourt en 1975 pour La vie devant soi :

NB : Les termes employés pour nommer les ressources ne correspondent pas sur les schémas précédents à des URI, tel que cela devrait être le cas pour l’ensemble des « sujets », des « prédicats » et aussi pour certains « objets » (ceux susceptibles de devenir des « sujets » doivent obligatoirement être identifiés par une URI).

Le RDF est un format très ouvert et malléable car il permet d’ajouter des annotations à propos de n’importe quelle ressource. L’intérêt du RDF est de permettre à une communauté d’utilisateurs de partager les mêmes métadonnées pour des ressources mutualisées. L’un des atouts du RDF étant la souplesse dans la façon de décrire une donnée, qu’il s’agisse d’une définition standardisée au niveau mondial ou bien d’une définition interne à une entreprise.

RDF est donc le modèle qui sous-tend le Web de données. Chaque ressource, identifiée par une URI (nécessaire à l’identification par une machine), est autonome tout en étant liée à d’autres. Chaque sujet est lié à un objet, objet pouvant lui aussi être un sujet lié à un autre objet etc.

2.1.3.4 Les autres couches

Les autres couches structurant le Web sémantique sont : les ontologies ; la logique qui est le langage permettant d’exprimer des règles de raisonnement, ces règles servant à déduire de nouveaux faits à partir de faits existants ; les preuves qui sont une suite d’applications de règles qui permettent de déduire un nouveau fait ; le niveau de confiance que l’on attribue aux agents automatiques, ces derniers devant expliquer clairement comment ils arrivent à leurs conclusions (preuves) et garantir la fiabilité et l’origine des informations utilisées (signature digitale).

Grâce à cette structure le Web de données présente, selon Emmanuelle Bermes (3, BERMES), plusieurs avantages :

 Pas de conversion/ « mapping » : chacun utilise son propre format de métadonnées, ce qui n’empêche pas de rassembler des triplets <s,p,o> au format RDF

 Pas de données redondantes : chacun crée les données dont il a besoin et récupère les informations qui existent déjà

 Pas de moissonnage/collecte de métadonnées : les données sont disponibles directement sur le Web

 Pas de problème de traçabilité : grâce aux URI il est possible de revenir aux données sources, quelle que soit leur origine

 Pas de développements spécifiques : tout repose sur des standards ouverts comme RDF, SPARQL etc…aucun besoin d’apprendre de nouveaux langages et protocoles

2.2 Les ontologies comme fondement sémantique du Web

Dans le document De l'usage du Web de données pour une recherche efficace sur des ressources disséminées et hétérogènes : la mise en place d'un portail de recherche fédérée pour le Musée National du Sport (Page 96-101)