• Aucun résultat trouvé

Le Resource Description Framework

3.3 Le contexte de la santé

4.1.1 Le Resource Description Framework

4.1.3 SPARQL Protocol And RDF Query Language . . . 94 4.1.4 Synthèse . . . 96

4.2 Les bases de données alternatives . . . . 97

4.2.1 Le paysage des bases de données alternatives . . . 97 4.2.2 À chaque problématique son changement de paradigme . . . 100 4.2.3 Synthèse . . . 109

Le Web Sémantique [122] est une extension du Web standardisée par le World Wide Web Consortium ( ).1 Comme son nom l’indique, l’ambition première du Web Sémantique est, de donner du « sens » à l’information du Web en rendant la « connaissance » contenue dans cette dernière à la fois exploitable et accessible informatiquement via les technologies du Web. En 2001, Tim BERNERS-LEE, James HENDLER et Ora LASSILA donnaient la définition 10 du Web semantic.

Ce standard préconise l’emploi de formats de données et de protocoles d’échanges standar-disés visant avant tout à la structuration et au partage de l’information issue du Web.

Le Web Sémantique s’appuie sur des concepts théoriques et plus particulièrement sur une représentation de la connaissance rendant possible l’ interconnexion des différentes infor-mations présentes sur Internet. L’une des idées sous-jacentes au Web sémantique est en réalité de faire de cette information un véritable réseau de données structurées. Cet objectif s’inscrit dans une initiative du désignée par le terme de « Web des données » et vise à terme à faire du Web lui même un « Global Giant Graph2 ».

Les données de santé contenues dans un EDS étant par nature interconnectées, les concepts clés relatifs au domaine du Web Sémantique apparaissent donc pertinents vis à vis des problé-matiques de RI au sein de ces dernières. Bien que le Web Sémantique s’articule spécifiquement autour des technologies du Web, les problématiques auxquelles il permet de répondre en terme de données sont en effet comparables à celles rencontrées par les systèmes autonomes et indé-pendants.

Dans ce contexte, le développe depuis plusieurs années un modèle de données géné-rique inspiré des fondements théogéné-riques du Web sémantique qui sera par ailleurs décrit dans le chapitre 5 p. 111. Ce dernier est notamment compatible avec le modèle ontologique du point

1. url : https://www.w3.org/ 2. : « Graphe Global Géant »

de vue de la représentation des informations mais ne permet en revanche pas l’exploitation de mécanismes d’inférence. À titre d’exemple, cette compatibilité procure notamment à la capacité d’intégrer des ontologies formelles telles que FMA ou HPO, ou quasi formelles comme SNOMED–CT® (OWL-DL).

En plus de fournir une représentation générique de l’information, le Web sémantique s’accom-pagne également d’outils potentiellement exploitables dans le cadre de la RI. L’un des aspects fondamentaux du Web sémantique est en effet son langage de requête : le SPARQL Protocol And RDF Query Language (SPARQL). Ce dernier permet de requêter les données avec une grande expressivité exploitant pleinement le formalise de représentation de l’information.

Le Web sémantique fournit un cadre théorique et opérationnel potentiel à la RI au sein d’un EDS. Dans cette section, les fondements et outils du Web sémantique seront rappelés afin d’évaluer leur utilité dans le cadre de la problématique de cette thèse.

Comme évoqué dans la chapitre 2, les SGBDRs ne permettent pas l’obtention de perfor-mances acceptables dans le cadre d’un accès aux informations d’un EDS. Dans la section 4.2, un état de l’art des SGBDs alternatifs existants à l’heure actuelle est dressé afin d’évaluer dans quelle mesure ces derniers peuvent s’avérer exploitables dans le cadre de la mise en place d’une RI au sein d’un EDS.

Æ Définition 10 (Le Web Semantic par Berners-Lee et al. [122]) :

« The Semantic Web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out so-phisticated tasks for users. [...] The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling com-puters and people to work in cooperation. [...] For the semantic web to function, comcom-puters must have access to structured collections of information and sets of inference rules that they can use to conduct automated reasoning. [...] Two important technologies for develo-ping the Semantic Web are already in place : eXtensible Markup Language (XML) and the Resource Description Framework (RDF). [...] XML allows users to add arbitrary structure to their documents but says nothing about what the structures mean. [...] The Semantic Web will enable machines to COMPREHEND semantic documents and data, not human speech and writings. [...] Meaning is expressed by RDF, which encodes it in sets of triples, each triple being rather like the subject, verb and object of an elementary sentence. »

Le Web sémantique structurera le contenu signifiant des pages Web, en créant un environ-nement où les agents logiciels itinérants d’une page à l’autre peuvent facilement exécuter des tâches complexes pour les utilisateurs. [...] Le Web sémantique n’est pas un Web séparé mais une extension du Web actuel, dans lequel l’information reçoit un sens bien défini, permettant aux ordinateurs et aux personnes de mieux travailler en coopération. [...] Pour que le Web sémantique fonctionne, les ordinateurs doivent avoir accès à des collections structurées d’informations et à des ensembles de règles d’inférence qu’ils peuvent utiliser pour mener un raisonnement automatisé. [...] Deux technologies importantes pour le déve-loppement du Web sémantique sont déjà en place : le langage XML (eXtensible Markup Language) et le RDF (Resource Description Framework). [...] XML permet aux utilisateurs d’ajouter une structure arbitraire à leurs documents mais ne dit rien sur la signification de ces structures. [...] Le Web Sémantique permettra aux machines de COMPRENDRE des documents et des données sémantiques, et non la parole ou les écrits humains. [...] Le sens est exprimé par RDF, qui le code en triplets, chaque triplet étant un peu comme le sujet, le verbe et l’objet d’une phrase élémentaire.

4.1 Le Web de données

4.1.1 Le Resource Description Framework

Les technologies et les fondements théoriques du Web sémantique s’inscrivent dans une évo-lution de la manière de concevoir l’information, de la représenter et de l’utiliser. Elles apportent une réponse à la volontée de structuration des données et de leur disponibilité. Dans le cadre du Web sémantique, il ne s’agit plus d’adopter une vision au sein de laquelle la page Web est vue comme la ressource principale du Web mais plutôt de migrer vers une vision où le Web permet de considérer des ressources correspondant à des objets, des concepts, des personnes, des animaux et d’une manière générale à tout ce qui existe dans le réel. Pour identifier ces ressource, le Web sémantique exploite des Uniform Resource Identifier (URI) et des Internationalized Resource Identifier (IRI). Le Web Sémantique s’est donc construit autour de cette volonté de faire de l’information présente sur Internet une interconnexion d’entités symboliques multiples (i.e. un graphe de données) et non plus de ressources physiques mono-typées (i.e. une toile de pages Web). Pour cela, le Web Sémantique repose sur le modèle Resource Description Framework

( ).

est un modèle de graphe développé par la . En d’autres termes, il permet de « d’exprimer » de l’information sous forme d’un graphe de données. Une description , quant à elle, constitue une retranscription de cette modélisation dans un langage spécifique.

a été conçu avant tout dans l’objectif de décrire des ressources Web et leurs métadon-nées afin de les partager sur Internet. Cependant, les concepts fondateurs de ce modèle ainsi que de ceux qui l’accompagne n’en restent pas moins applicables et dignes d’intérêt pour d’autres domaines d’application que le Web.

Le modèle permet une modélisation d’information sous forme d’un multigraphe orienté étiqueté :

Multigraphe : Plusieurs arrêtes peuvent éventuellement coexister entre deux même nœuds du graphe.

Orienté : Les arrêtes correspondent à des arcs « orientés ». Autrement dit, les arrêtes du graphe possèdent un « sens ». L’un des deux nœuds reliés par l’arrête est clairement identifié comme le nœud source tandis que l’autre est identifié comme le nœud cible.

Étiqueté : Des libellés sont assignés aux arrêtes et aux nœuds du graphe.

D’un point de vue extérieur, un graphe possède une structure « redondante » composée simplement de nœuds, symbolisant des entités d’information, reliées par des arcs symbolisant des relations entre ces entités. Le principe de base du modèle s’appuie sur cette simplicité en décomposant l’information globale sous forme de triplets de la forme :

(sujet, pr´edicat, objet)

Un triplet constitue l’atome de connaissance de toute description ainsi que la « brique de base » à partir de laquelle ces descriptions sont construites. Visuellement, un tel triplet correspond simplement à un arc reliant un nœud source à un nœud cible. Ainsi, au sein d’un triplet :

Le sujet représente une ressource/entité/nœud du graphe que le triplet per-met de décrire.

Le pr´edicat représente un type de propriété de l’entité sujet décrite par ce triplet . Au sein d’un graphe , il identifie un arc dont le nœud source est sujet.

L’objet représente soit une donnée, soit une autre ressource (entité/nœud) qui constitue alors la valeur de la propriété pr´edicat applicable à l’entité sujet. Dans le graphe , il constitue le nœud cible de l’arc pr´edicat partant du nœud source sujet.

(sujet, pr´edicat, objet)

Développé par

“World Wide Web Consortium” Nom ( suj et, pr ´edicat, obj et ) http://cismef#rdf http://cismef#w3c http://cismef#by http://cismef#name

Figure 4.1 –Illustration de triplets . L’information représentée par ces triplets est « Le modèle est développé par la dont le nom est World Wide Web Consortium ». Cette information est représentée à l’aide de deux arcs et trois nœuds. Conformément à la convention, les nœuds de res-source/entité sont représentés sous forme d’ellipses et les donnée sous forme de rectangles.

Un document structuré en est donc constitué d’un ensemble de triplets qui dans leur ensemble définissent intégralement un graphe et l’information qu’il représente. Le modèle repose pleinement sur la notion d’URI/IRI qui est utilisée dans les descriptions comme identifiant des diverses entités, relations et propriétés référencées dans les triplets.