• Aucun résultat trouvé

Valoriser les collections numériques

Les bibliothèques numériques : des nouveaux acteurs sur le web

6.2 Valoriser les collections numériques

Les études empiriques nous ont permis de tester les hypothèses de recherche. Nous avons constaté que la visibilité sur le web constitue un enjeu crucial pour les bibliothèques numériques. Intégrer les données des bibliothèques dans le web permet d’accroître leur visibilité ainsi que leur usage.

Dans cette section, nous abordons la question de la visibilité des bibliothèques numériques sur le web ainsi que l'interopérabilité technique et sémantique des données.

6.2.1 Améliorer la visibilité des bibliothèques numériques sur le web

Depuis les années 90, la valorisation du patrimoine culturel préoccupe les politiques publiques numériques des états. En France, le Premier ministre de l'époque Lionel Jospin a affirmé en 1997 la nécessité d'entrer dans la société de l'information, notamment, grâce à une politique de numérisation du patrimoine culturel permettant son accès libre au public.

En 2002, Bruno Ory-Lavollée indique que la diffusion du patrimoine contribue « au rayonnement international de la France » [Ory-Lavollée, 2002]. En 2009, dans son rapport intitulé « partager notre patrimoine culturel » Bruno Ory-Lavollée encourage à maximiser la présence des données publiques culturelles sur les réseaux et l’interopérabilité entre les projets de numérisation

[Ory-Lavollée, 2009].

En 2010, Marc Tessier signale dans son rapport sur la numérisation du patrimoine écrit que « rien

ne sert d’être disponible si l'on n'est pas visible » [Tessier, 2010]. Autrement dit, la numérisation et

la publication sur le web du patrimoine numérisé ne suffisent pas pour y accéder. Il ne s'agit pas d’être simplement existant sur le web, mais avant tout d’être visible.

Dans le contexte des bibliothèques numériques, la visibilité implique une réflexion sur les usages actuels du web. Selon Pauline Moirez et Dominique Stutzmann, l'outil principal de communication des bibliothèques numériques est formé par le catalogue et les métadonnées. Ces dernières sont indispensables pour le signalement et le référencement des collections numériques [Moirez et Stutzmann, 2013]. Dans le chapitre 2, nous avons indiqué qu'il y a eu un changement de paradigme conduisant les bibliothèques numériques vers une approche orientée-usager qui se manifeste par des développements au niveau des catalogues afin de prendre en compte les besoins de l'usager. Ensuite, des changements se font au niveau de la conception de modèles communs entre plusieurs communautés (bibliothèques, archives, musées …) afin de pouvoir échanger les données et les métadonnées efficacement tout en enrichissant l’expérience de recherche des utilisateurs.

Les notices bibliographiques sont structurées selon des standards spécifiques à la communauté des bibliothèques et non pas selon ceux du web. Face à ce problème, les bibliothèques ont commencé à adopter des protocoles et des formats pour échanger sur Internet des métadonnées et des données structurées en XML comme le protocole OAI-PMH et le format Dublin Core par exemple, qui permet la communication entre des institutions variées. L’objectif est d'améliorer le signalement et le référencement des collections numériques au-delà des diverses communautés, tout en restant suffisamment structuré.

Aujourd’hui, le problème majeur des bibliothèques numériques est leur visibilité. Les notices bibliographiques et les contenus des bibliothèques numériques ne sont accessibles que par un passage par le site de la bibliothèque. Il faut donc connaître le site de la bibliothèque pour pouvoir accéder à ses contenus. Or, l’internaute selon Brigitte Simonnot, n’est plus l’usager des systèmes documentaires [Simonnot, 2012]. Les utilisateurs du web, ceux qui font usage des moteurs de recherche pour accéder à l'information, ne peuvent pas accéder aux contenus des bibliothèques numériques puisqu'ils ne sont pas référencés par ces moteurs.

Adopter l’architecture du web demeure une priorité pour les bibliothèques numériques qui souhaitent valoriser leurs contenus en les rendant visibles sur le web. En se basant sur les principes du web et sur la structuration des données, le web sémantique offre aux bibliothèques numériques

une opportunité pour améliorer la visibilité de leurs données. Les identifiants URIs assurent une identification pérenne des données sur le web ainsi qu'un chemin d'accès pour obtenir une représentation de ces données en s'appuyant sur le protocole HTTP [Bachimont et al., 2011]. Une fois que les données sont identifiées et localisées sur le web, il est alors possible de les lier à d'autres données en utilisant le triplet RDF. Ce mécanisme permet de multiplier les points d'accès aux données des bibliothèques, puisqu'elles sont liées à d'autres données disponibles sur d'autres sites web. Cela a pour effet d'augmenter le nombre de liens pointant sur les ressources numériques des bibliothèques et ainsi que d'améliorer leurs référencements par les moteurs de recherche.

L'objectif est de mettre les données des bibliothèques numériques sur le chemin de l'internaute. Autrement dit, il faut que celui-ci puisse les retrouver facilement en faisant une simple recherche sur des moteurs de recherche sans passer forcément par le site web de la bibliothèque.

Les résultats de l’enquête empirique nous ont permis de tester nos hypothèses de recherche. Nous avons considéré que l'usage du web sémantique en bibliothèques numériques permet d'améliorer leur visibilité (H 3).

Les résultats du questionnaire ont montré que les bibliothèques qui utilisent le web sémantique (9 bibliothèques sur 33) ont comme objectifs : d'améliorer leur visibilité sur le web (5 réponses sur

8)83, de faire évoluer leurs catalogues (4 réponses sur 8), d'améliorer l’interopérabilité (2 réponses

sur 8) et enfin de réutiliser les données ( 1 réponse). De plus, les résultats de la question liée aux apports du web sémantique en bibliothèques ont montré que le web sémantique permet d'améliorer la visibilité des données sur le web selon 90 % des bibliothèques enquêtées (30 bibliothèques sur

33)84. Enfin, les résultats de la question : pourquoi le web sémantique est important pour le futur

des bibliothèques ?85 ont indiqué que les bibliothèques numériques peuvent se servir du web

sémantique pour proposer des services adaptés aux usages du web en améliorant leur visibilité sur

le web (9 réponses sur 24)86, pour partager les données (6 réponses), pour devenir des acteurs du

web (4 réponses) et pour améliorer la recherche d'information (4 réponses) .

De même, les résultats des entretiens ont montré que la visibilité sur le web constitue un enjeu essentiel de l'utilisation du web sémantique en bibliothèques numériques. Pour la question liée aux

enjeux du web sémantique en bibliothèques numériques87, 6 enquêtés sur 10 ont indiqué que le web

sémantique améliore le signalement et le référencement des données ainsi que leur visibilité.

83 Résultats de la question : pourquoi la bibliothèque utilise le web sémantique ? (Questionnaire : 8 réponses) 84 Voir figure 5.13 page 141

85 Voir tableau 5.7 page 143

86 Le nombre de réponses le plus élevé qui concerne cette question 87 Voir tableau 5.13 page 154

Parmi les bibliothèques interrogées, une seule (la BnF) expose ses données sur le web en utilisant les standards du web sémantique. Les autres bibliothèques ont commencé à intégrer le web sémantique, mais leurs expériences sont limitées à identifier et tester les liens entre les données. La BnF affirme que certaines données s'affichent désormais dans les résultats du moteur de recherche Google.

Ci-dessous des extraits tirés de l'entretien réalisé avec les deux enquêtés de la BnF [E3a at E3b] illustrant ce point de vue :

« il y a quand même un enjeu de signalement. Nous, en tant que responsables de databnf on se demande quel est l’intérêt du RDF, qu'est-ce qu'il fait en plus par rapport aux autres formats [...] je pense que le signalement, le fait que ça remonte dans les moteurs de recherche [...] ça répond à un grand enjeu de visibilité des données des bibliothèques, [...] Je pense que le fait que « databnf » remonte dans les résultats Google, c'est un enjeu important » [E3b].

Pourquoi certaines données sont référencées par le moteur de recherche Google et d'autres non ?

« C'est mieux que zéro, avant on était à zéro, on arrive rarement sur un contenu de la BnF depuis les moteurs de recherche» [E3b]

« surtout ce qui fait qu'on remonte, c'est qu'on a du contenu rare, c'est-à-dire qu'on a un contenu que même Wikipédia n'a pas, donc on a cette exhaustivité qui vient du fait qu'on a le dépôt légal [...] Mais le rdf en tant que tel n'est pas forcément ce que va voir le moteur, en revanche le fait d'avoir organisé et modélisé les données selon un modèle d'entités qui est plutôt un modèle rdf de graphe, oui cette organisation là parle au moteur de recherche, du moins elle parle aux usagers sur internet, parce que les usagers ont tendances à chercher par titre, par auteur, etc., donc de ce point de vue là, la modélisation rdf aide beaucoup à faire remonter même si ce n'est pas forcément la seule solution, il y a aussi d'autres formats qui utilisent le modèle d'entités » [E3a]

L'analyse de ces réponses montre que l'usage du web sémantique a permis d'afficher des résultats provenant de la BnF dans le moteur de recherche Google. Mais la question se pose sur les raisons pour lesquelles certaines données s'affichent dans Google et d'autres non. Le fait que la BnF dispose de contenus rares organisés autour d'entités selon le modèle RDF aide à améliorer leur référencement dans les moteurs de recherche. Cela veut dire que les autres données (non rares) ne seraient pas forcément référencées par le moteur de recherche.

6.2.2 Favoriser l’interopérabilité technique et sémantique

Les enjeux principaux qui conditionnent l'évolution des bibliothèques numériques sont la visibilité et l'interopérabilité qui permettent d'échanger rapidement et sans difficulté des données

sur le web.

Les bibliothèques ont une longue tradition dans l'échange et le partage des données bibliographiques avec d'autres bibliothèques. Pour pouvoir communiquer, les bibliothèques ont élaboré des protocoles et des formats qui leur sont propres et qui ne sont pas ouverts à d'autres communautés. Par la suite, les bibliothèques ont commencé à adopter des formats et des protocoles plus ouverts permettant de communiquer avec d'autres institutions comme les archives et les musées. Dans le chapitre 3 de l'état de l'art, nous avons présenté les différents langages et formats utilisés par les bibliothèques pour décrire les ressources numériques, MARC, FRBR, RDA et Dublin Core, ainsi que les protocoles pour échanger des données comme le protocole Z39.50 ou le protocole OAI-PMH.

Selon Pauline Moirez et Dominique Stutzmann, les bibliothèques doivent positionner leurs données dans un écosystème plus large permettant de communiquer avec des acteurs différents (bibliothèques, éditeurs, institutions culturelles, moteurs de recherche etc.). Cela nécessite selon elles une interopérabilité double, celle qui assure le transport des données (interopérabilité technique) et celle qui garantit la compréhension des informations échangées (interopérabilité sémantique) [Moirez et Stutzmann, 2013].

Le défi aujourd'hui est de pourvoir exposer les données des bibliothèques dans le web, ce dernier est basé sur des protocoles et des standards normalisés et interopérables. Plutôt qu'utiliser des protocoles et des formats spécifiques adaptés qu'aux bibliothèques, il faut commencer à adopter des standards ouverts pour pouvoir communiquer et échanger les données efficacement et sans barrière sur le web.

Pour Emmanuelle Bermès, le web sémantique propose une forme d’interopérabilité qui repose sur des liens permettant de naviguer de manière transparente sur le web [Bermès , 2011]. De ce fait, le web sémantique, en proposant une interopérabilité basée sur les standards du web, permet aux bibliothèques de communiquer avec d'autres communautés, d’échanger et de partager l’accès à l’information sans difficulté. L'enjeu est de proposer une interopérabilité technique et sémantique. Grâce aux données structurées et aux liens explicites établis entre les concepts des graphes et des ontologies, le web sémantique garantit la communication entre des sources et des systèmes d'information variés tout en assurant une compréhension commune de la signification des données. Cette compréhension commune est possible grâce aux graphes conceptuels et aux ontologies du web sémantique [Bachimont, 2007, 2011 ; Bouganem et Savoy, 2008]. Ainsi pour Abderrazak Mkadmi et Imad Saleh, les cadres communs offerts par OWL ou SKOS assurent une interopérabilité plus facile et compréhensible entre les concepts issus de vocabulaires contrôlés