• Aucun résultat trouvé

LE WEB DES DONNEES

Dans le document Espace-temps des sociétés du passé (Page 37-40)

L’avènement des Digital Humanities auquel on assiste, va de pair avec l’augmentation exponentielle de la documentation numérique dans toutes les disciplines des SHS. En archéologie, Il existe autant de bases de données qu’il existe d’équipes d’archéologues, voire plus. Les logiciels et les structurations sont extrêmement hétérogènes mais, une fois abandonné le débat stérile sur la possibilité de faire adopter par la communauté des archéologues un système unique, capable de répondre à toutes les situations, il faut mettre en place des solutions d’interopérabilité pour interroger les données. Les ontologies, en proposant une structuration globale par grand domaine (BACHIMONT 2000), permettent de faire communiquer des corpus hétérogènes. La publication des systèmes d’information dans le web des données constitue l’aboutissement de la démarche qui offrira l’interconnexion des données. Là encore, en archéologie ainsi que dans l’ensemble des SHS, les ontologies et le web apparaissent comme le nouvel Eldorado qui va permettre de pallier les lacunes de structuration en mettant en relation toutes les données entre elles, comme par magie. Notre approche, plus besogneuse, consiste à concevoir un outil d’interrogation des bases de données existantes sans les modifier via une ontologie avec laquelle il convient de les mettre en correspondance (LE BOEUF 2009 ; LE BOEUF 2012). Le Consortium MASA (« Mémoire des Archéologues et des Sites Archéologiques »), labellisé par la TGIR Huma-Num, réunit plusieurs acteurs de la recherche archéologique française et a pour mission, entre autres, de proposer des solutions pour pérenniser et homogénéiser l’information archéologique. Au sein de ce consortium, nous travaillons avec Olivier Marlet au LAT sur l’interopérabilité des données archéologiques à partir d’ArSol.

L’objectif est de mettre en place un accès unifié à des corpus numérisés en utilisant des procédures et des outils communs. Pour partager les données, sans modifier le système d’origine, et pour permettre leur interrogation, il est nécessaire de s’affranchir à la fois du logiciel, de la structure, du vocabulaire, de l’accessibilité et de la langue (ECKKRAMMER, FELDBACHER et ECKKRAMMER 2011 : 154). L’utilisation de l’ontologie du CIDOC-CRM (http://www.cidoc-crm.org/), norme internationale (ISO 21127:2006) en matière de structuration des données numériques pour le patrimoine culturel, s’est donc imposée comme étant le modèle le plus complet pouvant constituer un point de concordance entre diverses

bases de données archéologiques (DOERR 2003 ; LOURDI et PAPATHEODOROU 2009 ; DENTAMARO et al. 2007 ; JORDAL, ULEBERG et HAUGE 2012 ; KUMMER 2010). L’ontologie est utilisée comme une surcouche de description consensuelle par laquelle peut passer l’interrogation, ce qui permet de communiquer avec chaque base de données moyennant un système d’équivalences, ou « mapping ». Le principe est de faire correspondre les entités de l’ontologie avec les champs de la base de données (ANDREUSSI et FELICETTI 2008). Le fait de passer par la modélisation d’une ontologie permet de s’affranchir à la fois du logiciel du système de gestion de base de données, de la structure propre à la base de données source.

Pour ArSol, la première étape du mapping a consisté à sélectionner les tables contenant les informations élémentaires et communes à toute fouille archéologique : les Faits et le mobilier ([34] LE

GOFF et al. 2014 ; Annexe 8). Le mapping de la table FAIT et de la table MOBILIER vers le CIDOC-CRM offrira un accès aux données de terrain des sites fouillés enregistrés dans ArSol (datation et documentation comprises). Il a ensuite fallu s’approprier le modèle global de l’ontologie (SZABADOS et LETRICOT 2012) pour déterminer quelle est l’entité qui correspond le plus précisément au champ de la base de données. Une ontologie est un réseau sémantique, un graphe, qui met en relation les entités conceptuelles décrivant un domaine, leur relation et la nature de ces relations. Il convient alors de construire l’arborescence complète permettant de mettre en relation l’entité choisie au sein du modèle ontologique avec le contenu précis que l’on souhaite mettre en correspondance dans la base de données, en précisant toutes les propriétés et entités intermédiaires. Enfin, la dernière étape est l’écriture de l’ensemble de cette arborescence sous la forme de triplets RDF (Ressource Description Framework). Le RDF est un modèle de graphe qui permet de décrire formellement le contenu du web et le traitement automatique de ces descriptions. Les triplets RDF qui structurent un document sont des associations « sujet-prédicat-objet ». Le sujet correspond au contenu, ou la ressource, initial ; le prédicat est le type de propriété appliqué ; l’objet est la valeur de la propriété, c’est-à-dire une donnée ou une autre ressource. Pour décrire le mapping de la base de données sur l’ontologie, le triplet « sujet-prédicat-objet » devient alors « Entité source-Propriété-Entité cible ». L’entité cible de la fin d’une arborescence constitue le renvoi au champ ciblé de la base de données. L’ensemble du fichier organisant tous ces triplets constitue le fichier de mapping permettant de connecter sémantiquement l’ontologie à une base de données. Bien entendu, pour chaque base de données avec une structure spécifique, il faut faire un mapping différent. Le mapping est la clé de correspondance pour faire communiquer l’ontologie avec la base de données.

La collaboration avec Béatrice Bouchou-Markhoff du Laboratoire d’informatique de l’Université de Tours, nous a permis d’appréhender les principes des systèmes OBDA (Ontology Based Data Access), récemment introduit dans le cadre du web sémantique. L’OBDA propose de fournir l’accès à une ou plusieurs sources de données à travers une ontologie qui sert alors de médiateur entre l’utilisateur et les données. Grâce à cette couche OBDA, l’ontologie devient le point d’accès pour interroger les données, tout en laissant l’information dans les bases de données qu’utilisent les chercheurs. Un système OBDA se compose : d’une ontologie (niveau sémantique), des sources de données diverses (dans notre cas, ArSol), d’un jeu de mapping exprimant les relations entre les données de la source et l’ontologie, et d’une couche applicative pour manipuler et interroger le système. Nous avons choisi d’utiliser ontop, la solution développée par l’équipe du Professeur Calvanese à l’Université de Bozen-Bolzano (Italie) avec laquelle une collaboration s’est engagée (RODRIGUEZ-MURO et CALVANESE 2009; RODRIGUEZ-MURO, KONTCHAKOV et ZAKHARYASCHEV 2013 a ; RODRIGUEZ-MURO, KONTCHAKOV et ZAKHARYASCHEV 2013 b). Ontop se présente comme une extension de Protégé (logiciel libre dédié aux ontologies développé par l’université de Stanford), développée en langage Java et permettant d’abord de spécifier les correspondances entre l’ontologie et la base de données, pour ensuite permettre d’évaluer des requêtes sur l’ontologie dont les résultats sont recherchés dans la base de données. Le langage de requête SPAQL (SPARQL Protocol and RDF Query Language) permet d’accéder aux données du web en interrogeant des données RDF, à l’instar du SQL (Structured query language) qui permet

d’interroger les bases de données. L’interface utilisateur intégrée à Protégé, dans lequel l’ontologie est chargée sous la forme d’un fichier XML-OWL (MCGUINNESS et VAN HARMELEN 2004), aide à réaliser le fichier OBDA contenant les déclarations de correspondances entre l’ontologie et la source de données.

Un « point d’accès SPARQL » (SPARQL Endpoint) est enfin nécessaire pour pouvoir offrir une interrogation en ligne utilisable par des applications (Web service) (Fig. 12).

Fig. 12 : Principe de fonctionnement d’ArSol avec sa version Web et l’interrogation via le CIDOC CRM ([34] LE GOFF et al. 2014 ; Annexe 8).

Les premiers essais avec ArSol ont été un peu laborieux avant de donner des résultats satisfaisants. Il est maintenant nécessaire d’élargir le nombre de nos sources de données afin de donner tout son sens à l’interopérabilité. Pour cela, nous allons suivre la même démarche avec d’autres bases de données archéologiques. La seule contrainte est que ces bases contiennent la description d’entités équivalentes, Fait et Mobilier constituant tout de même un point de convergence, et qu’elles puissent être ouvertes sur le web. La méthodologie mise en œuvre pour Arsol est exploitable pour d’autres bases. Le mapping sera bien sûr différent mais le fait de rattacher chaque champ de la structure d’une base à une entité ou à une propriété de l’ontologie permet de se référer à une structure commune avec un vocabulaire unique (en anglais, donc indépendant de la langue d’origine).

Le point d’accès SPARQL est indispensable pour les applications (services web) qui interrogeront ArSol, répondant ainsi à l’objectif d’interopérabilité via la publication dans le web sémantique. L’objectif du web sémantique étant de permettre la lecture du contenu du web à la fois par des humains et par les machines elles-mêmes en assurant l’interconnexion des sources d’informations préalablement structurées. Nos efforts vont maintenant porter sur les interactions homme-machine pour permettre aux humains de bénéficier de cette interopérabilité en accédant à ce niveau sémantique via une interface adaptée. Nous développerons donc une application gérant des interfaces web pour les utilisateurs, application qui utilisera le point d’accès SPARQL. L’objectif est de permettre à un utilisateur d’interroger n’importe quelle base de données, publiée sur le web, sans se soucier du logiciel ni de la structure d’origine : l’interrogation se fait via l’ontologie, puis un moteur retranscrit la requête pour la base de données-cible en utilisant le fichier de mapping, enfin les résultats sont renvoyés à l’utilisateur en respectant la structure de l’ontologie. Avec ce procédé, il est donc possible d’interroger plusieurs bases en même temps, même si leurs formats natifs sont différents.

Dans le document Espace-temps des sociétés du passé (Page 37-40)