• Aucun résultat trouvé

Les langages documentaires comme modèles conceptuels

Les bibliothèques numériques : des nouveaux acteurs sur le web

6.1 Valoriser les pratiques documentaires

6.1.2 Les langages documentaires comme modèles conceptuels

Dans l'état de l'art, nous avons présenté le web sémantique comme une nouvelle approche de représentation des connaissances qui permet, à l'aide d'un ensemble de standards, d'identifier et de lier des données entre elles.

Cependant, le web sémantique n'est pas un outil de l'intelligence artificielle lié au traitement automatique des langues [Berners-Lee, 2006]. Au contraire, le web sémantique s'appuie sur des données structurées. Et pour pouvoir extraire du sens, le web sémantique a besoin de décrire les données de manière à ce qu'elles soient compréhensibles par les machines et par les hommes [Bernes-Lee, 2001, 2006]. De plus, les liens entre les données ne se font pas de manière automatique. Le web sémantique offre le cadre technique permettant de lier les données entre elles sur le web, mais cela nécessite une base référentielle sur laquelle s'appuyer afin de déterminer les terminologies nécessaires pour construire les liens entre les données dans le cadre du web sémantique [Dalbin et al., 2011].

Étant structurés et liés, les langages documentaires constituent un terrain intéressant pour appliquer les techniques du web sémantique. A cet égard, Abderrazak Mkadmi et Imad Saleh indiquent que l'exposition des données bibliographiques en RDF représente un élément intéressant permettant au web sémantique de travailler sur des données fiables et contrôlées par des professionnels [Saleh et

Mkadmi, 2008, p.201]. Ainsi, Madjid Ihadjhadene et Laurence Favier considèrent que le web sémantique est un exemple de conception de langages documentaires basée sur la description et le contrôle grammatical et sémantique des termes de cette description [Ihadjadène et Favier, 2008]. De leur côté, Laurence Favier et Widad Mustafa El Hadi pensent que l'avenir du web sémantique dépend de l’offre de SOC (Système d'organisation des connaissances) fondé sur des langages contrôlés et interopérables [Favier et EL-Hadi, 2013]. Pour Bruno Bachnimont, le web sémantique s'inscrit dans le travail des professionnels de l'information notamment dans l'approfondissement des notions de vocabulaires et de métadonnées [Bachimont et al., 2011].

Nous pensons que la représentation des connaissances dans le cadre du web sémantique nécessite une intervention humaine afin de fournir des modèles conceptuels fondés sur des langages contrôlés comme les langages documentaires. Autrement dit, les graphes et les ontologies du web sémantique s'appuient, d'une part, sur un cadre technique, celui qui assure l'identification et les liens entre les données sur le web (Les URIs, RDF, RDFS, OWL), et d'autre part, sur un cadre conceptuel permettant de déterminer les concepts et les liens entre eux (les langages documentaires).

L'analyse des résultats de la deuxième enquête nous a permis d'éclaircir certains points communs entre le web sémantique et les langages documentaires. Ci-dessous des extraits de l'entretien réalisé avec deux professionnels de l'information à la BnF :

« A mon avis, il faut bien voir une chose, c'est qu'un des premiers catalogues en France a été fait par le bibliothécaire Clément au 17 siècle. Ce bibliothécaire a institué ce qu'on appelle la cotation Clément. Or qu'est-ce que c'est que la cotation Clément ? C'est un petit code qui permet à la fois d'identifier et de localiser dans un ensemble scientifique de description de collection un document, et c'est spécifiquement ce que fait un URI aujourd'hui sur le web. Je pense qu'il y a quand même deux domaines qui se parlent complètement, cette tradition de catalogage qu'on a historiquement et le langage utilisé sur le web, qui est un langage finalement scientifique, et de toute façon le bibliothécaire est un scientifique, c'est un scientifique de collection mais qui est aussi un bibliothécaire en tant que tel dans cette volonté de description, de décrire et de localiser » [E3b]. «Le web, en fait, il ressuscite les pratiques de la profession, en tout cas la profession telle qu'elle a été pensée au début de l'époque moderne, et à mon avis c'est le RDF. En tous cas le web sémantique c'est un langage qui sort tout droit de la tradition scientifique du 17eme siècle » [E3b].

« Rien que la modélisation, rien que le mapping entre les formats, ça demande un travail intellectuel. Là on a deux équipes ici qui ont participé à cette modélisation, en fait deux modélisateurs, des gens qui ont fourni le travail intellectuel de modélisation et de mapping dans le RDF ça c'est sûr » [E3b].

«C'est un travail intellectuel, c'est-à-dire que c'est le catalogueur qui catalogue et qui va faire le lien avec un auteur, qui va faire le lien avec une vedette RAMEAU etc. Le lien

est fait dans la production, et même de plus en plus on commence à se demander si on ne pourrait pas leur demander de lier carrément à des url et non pas lier juste à un mot qui existe dans un référentiel ailleurs, d'aller chercher l'url qui n'est pas forcément évident d'un point de vue de pratique de catalogage. » [E3b]

L’enquêté [E3b] affirme clairement que le web sémantique réintroduit des pratiques professionnelles propres aux bibliothécaires, celles qui permettent d'identifier et de localiser les documents. Il s'agit de deux domaines (le web et les bibliothèques) qui communiquent et qui ont les mêmes objectifs : faciliter l'accès à l'information.

Ensuite, pour savoir quel rôle les langages documentaires occupent dans l'usage du web sémantique en bibliothèques, l’enquêté [E3b] a indiqué que les vocabulaires contrôlés jouent le rôle d'ontologies permettant de définir des domaines de connaissances. Par exemple, le langage

documentaire Rameau82 est maintenant exposé en format SKOS, ceci veut dire qu'il est dans un

format de représentation standardisé exprimé en XML et qu'il utilise le triplet RDF pour relier les concepts. Rappelons que Rameau est composé d'un vocabulaire de termes reliés entre eux, qui permet d'indiquer les règles de construction des vedettes matières relatives à l'indexation des documents. En exposant Rameau en format SKOS, il y a un profit mutuel entre les bibliothèques et le web sémantique. D'une part, les données de la bibliothèque gagnent plus de visibilité sur le web tout en valorisant ce langage traditionnel d'indexation. D'autre part, la représentation des connaissances dans le cadre du web sémantique devient réalisable grâce aux langages contrôlés comme celui de Rameau.

A ce propos, l’enquêté [E3b] a précisé que Rameau est en SKOS mais qu'il est produit en Intermarc :

«Rameau est déjà en SKOS, tout rameau est publié en SKOS. C'est un vocabulaire contrôlé et en même temps, il joue le rôle d'ontologie, il définit des domaines. Il est publié dans 'databnf' en SKOS, mais il continue d’être produit en Intermarc. Le format de base de production de Rameau reste l'Intermarc, et à priori, il est appelé à rester comme ça, et de fait on n'est pas dans l'idée qu'il faut reproduire nativement du RDF, c'est-à-dire on continuera à produire dans des formats autres que RDF, et il y aura toujours ce mapping qui sera fait entre ces formats de production et les formats de diffusion, ce qui est sûr c'est que la production et la diffusion d'un point de vue format sera toujours distincte, en tout cas dans notre politique » [E3b].

Cela montre qu'il y a une distinction entre les formats de production et les formats de diffusion au

82 RAMEAU (Répertoire d’autorité-matière encyclopédique et alphabétique unifié) est le langage d’indexation matière utilisé, en France, par la Bibliothèque nationale de France, les bibliothèques universitaires, de nombreuses bibliothèques de lecture publique ou de recherche ainsi que plusieurs organismes privés. Il est élaboré depuis 1980, de façon autonome, en relation avec le « Répertoire de vedettes-matière » de l’Université Laval à Québec, et avec la liste de vedettes-matière de la Bibliothèque du Congrès (Library of Congress Subject Headings). [Source BnF].

sein de la bibliothèque. Les premiers sont des formats classiques basés sur MARC ou Intermarc permettant de décrire les données, et les deuxièmes sont des formats du web sémantique comme le RDF permettant la diffusion de ces données. A ce sujet, l’enquêté [E4] de la BnF indique :

« Le rdf est un format de diffusion et non pas un format de production, d'ailleurs c'est actuellement le cas. Je pense que ce n'est pas forcement la peine de changer le format de production pour passer à quelque chose en rdf. Pour moi la valeur ajoutée du rdf c'est plutôt dans l'exposition. La valeur ajoutée de rdf est plutôt d'exposer les données de manière à ce qu'elles soient compatibles avec les standards du web » [E4]

L’enquêté [E4] signale qu'au lieu de changer les formats de production basés sur MARC, il faut plutôt les faire évoluer, parce que ces formats sont utilisés dans la plupart des bibliothèques en France, et parce qu'ils permettent aussi de créer des liens entre les données. Ci-dessous un extrait de l'entretien illustrant son point de vue :

« On peut très bien faire du linked data avec des données en MARC dans l’écosystème de production interne. Parce que depuis 87, pour être précis, les catalogueurs font déjà des liens entre les notices bibliographiques et les notices d'autorité. Ce que j'appelle du vintage linked data. Parce que les notices ont des identifiants mais pas des URIs, mais des identifiants qui sont bien gérés. Derrière il y a des données en marc, mais on a déjà des entités qui sont liées entre elles, et finalement de ce point de vue là, on a déjà une logique de production qui pense à linker en entités »[E4]

A ce propos, l’enquêté [E3b] ajoute:

« Il faut savoir que nous, quand on a commencé à frbriser le catalogue, c'est-à-dire à lier des auteurs à des œuvres ou des œuvres à des éditions, il y avait quand même une tradition de lier les identifiants dans leur production même. C'est-à-dire que dans Marc il y avait une zone qui permettait, quand vous étiez en train de cataloguer un document d’insérer l'identifiant de l'auteur, la-dessus on pouvait s’appuyer justement pour lier des auteurs à des documents » [E3b].

Les enquêtés de la BnF [E3b et E4] ont signalé que les formats de catalogage et de description basés sur MARC peuvent continuer à être des formats de production des données bibliographiques en bibliothèques. Ce sont des formats riches et bien maîtrisés par les bibliothécaires, ils permettent de structurer et de décrire les données rendant possible leur intégration dans le web sémantique. Le RDF est de son côté un format de liaison, de diffusion et d'exposition des données sur le web. Mais il semble qu'il y ait une possibilité de faire évoluer les formats de production, notamment le format MARC, pour lier les auteurs à des documents.

Cela montre la richesse des formats et des langages documentaires utilisés en bibliothèques pour structurer et lier les données bibliographiques. De ce fait, l'usage du web sémantique ne doit être introduit que dans un contexte de continuité et d'évolution des bibliothèques pour améliorer la

diffusion de leurs données et pour assurer leur présence dans le web.