• Aucun résultat trouvé

2 Les langages documentaires

3.3 Le web de données et le web sémantique

Le web de données, en anglais linked data (données liées) allie les principes fondamentaux du web (identifiants URI26, protocole HTTP27) aux principes du web sémantique. Son but est de traiter l’infobésité de l’information sur internet (big data) et de la rendre exploitable en garantissant :

- la publication de données structurées sur le web ;

- l’interopérabilité entre les données, quels que soit leur source, système ou application d’origine ;

- la mise en relation de ces données.

C’est ainsi un moyen de mettre en relation la multitude des données produites en silos isolés et de constituer un réseau global d’information, cohérent, disponible en ligne et facilement réutilisable.

Le principe du web sémantique, appelé aussi « Web 3.0 », a été lancé en 2011 par l’anglais Tim Berners Lee, inventeur du Word Wilde Web (WWW)28 et directeur du W3C (cf. section 2.4.4) qui explique que le web a besoin de sémantique et qui cherche à relier le web au monde réel par la sémantique. Le web sémantique répond aux objectifs du web de données en rendant les données plus facilement réutilisable et interprétables automatiquement par des machines. On permet ainsi de simplifier les échanges de données entre les acteurs et de traiter le big data.

3.3.2 Nouveaux systèmes de description des données

Le web originel repose sur trois notions fondamentales :

- l’identifiant URI qui permet de nommer et d’indiquer n’importe quelle ressource sur le web et de lui donner un chemin d’accès (ex : http://www.musee-rodin.fr) ;

- le protocole HTTP qui permet de transférer les données ;

26 URI (Uniform Resource Identifier) : norme du Word Wide Web permettant d’identifier une ressource sur le web.

27 HTTP (HyperText Transfer Protocol) : protocole de communication client-serveur développé pour le web.

28 WWW : littéralement « toile » (d’araignée) mondiale et communément appelé web. Le web est un système hypertexte fonctionnant sur Internet dont il est une des applications.

- le langage HTML (Hypertext Markup Language) qui est un langage de balisage permettant de définir l’emplacement des données sur une page web et de les publier, chaque page étant reliée aux autres par des hyperliens.

Le web de données repose également sur les deux premières notions mais pour le mettre en œuvre, il a été nécessaire de faire évoluer le langage HTML. En effet, le web sémantique relie non pas des pages mais des données et s’adresse en premier lieu à des machines. Il a donc fallu travailler sur la structuration documentaire des données (séparer le contenu et la forme dans les pages) et créer un nouveau langage pour la description des données : - Le langage XML (eXtensible Markup Language) qui permet de représenter une

information structurée.

Et afin de représenter des domaines de connaissances, sous forme de modèles, et de les lier à des ressources, ceci permettant de créer des interactions entre les données, il a fallu créer encore deux autres « briques » :

- Le langage RDF (Resource Description Framework, en français Cadre de description des ressources) qui permet de décrire les données ; le triplet RDF est la norme fondamentale pour le web sémantique depuis 2004 [13, SAJUS] :

- R comme Ressources : tout type de ressources possédant un URI ;

- D comme Description : caractéristiques et concepts des ressources permettant de les catégoriser et de les relier ;

- F comme Framework : modèle et syntaxe de ces descriptions, programme qui permet de lire ces ressources ;

- SparQL (Protocol Knowledge Organization System) qui permet de retrouver les données, et qui est un langage d’interrogation s’appliquant aux données RDF.

Enfin, pour bien interpréter les données, il est nécessaire de créer des schémas qui expliquent le sens, les catégories, les relations, les contraintes des données et de leur structures tels que :

- OWL (Web Ontology Language) qui est un langage de représentation des connaissances construit sur le langage RDF et qui permet de construire des ontologies web structurées ;

- SKOS (Simple Knowledge Organization System) qui permet de représenter des vocabulaires contrôlés et structurés comme les thesaurus et de les intégrer sur le web sémantique.

Ces langages ou « vocabulaires » permettent aux machines d’appréhender le sens des concepts en les renseignant sur leurs définitions, leurs usages et les relations sémantiques

qui les lient entre eux. Le tri des données disponibles sur le web, rendu plus efficace, garantit ainsi un accès facilité et rapide à une information pertinente pour l’utilisateur29. Profitant de ces dernières normes et technologies, de nombreux projets sont menés, initiés principalement par les États ou des organismes de recherche, visant aussi bien à encourager la découverte scientifique qu’à permettre le partage de données. Nous verrons plus en détail dans notre troisième partie quels sont les enjeux du web de données pour les musées et quels sont les projets initiés par le MCC.

Cette première partie nous a permis de dresser un tableau théorique du contexte des collections muséales, des langages documentaires et des dernières avancées technologiques fondamentales pour la gestion de l’information et de la documentation. Dans notre deuxième partie, la description d’un cas pratique telle que la collection du musée Rodin va nous permettre de mesurer toute la problématique de la structuration des données et de l’utilisation des langages documentaires pour les collections muséales dans le cadre d’un projet de réinformatisation des données.

29 KELLER Loraine, INTD, promotion 43, projet Web « Antalaji ».

http://user12.plateforme06-yws.fr/ [consulté le 15/10/2013]

Deuxième partie :

Le cas du musée Rodin,

structuration des données et

élaboration d’un thésaurus dans

le cadre d’une réinformatisation

Un vaste chantier de réinformatisation est en cours actuellement au musée Rodin impliquant les collections du musée, mais aussi les ressources gravitant autour de ces collections (ouvrages, archives et images). Ma mission de stage a porté, dans le cadre de ce projet de réinformatisation et du changement d’outil de gestion des collections, sur la restructuration des données et sur l’élaboration d’un thésaurus propre aux collections du musée. Nous allons présenter dans cette partie le contexte du projet, puis nous ferons un point sur la méthode de description et d’indexation d’un objet d’art et nous terminerons en présentant la méthodologie utilisée afin d’élaborer un thésaurus propre aux collections du musée Rodin, les difficultés rencontrées et les préconisations proposées.