• Aucun résultat trouvé

1. PLONGEE AU CŒUR DES NOTIONS

1.3. Identifier numériquement, dans quel contexte et pour quel

1.3.2. Vocabulaires contrôlés et référentiels

Structurer le monde, une volonté ancienne

L’ontologie* est une branche de la philosophie qui s’attache à l’étude de l’existence, de la structure et de la nature des choses telles qu’elles sont. Aristote lui-même s’intéressait à ce domaine dans sa catégorisation du monde, la catégorie étant étymologiquement « le mode d’accusation de l’être », qui lui permet de diviser en 10 les parties constituantes de la réalité et des concepts. En effet, nous l’avons vu, structurer le monde, la connaissance et apporter un cadre de segmentation par typologies/ontologies est un moyen de faciliter son accès et son appréhension. Le savoir se doit d’être transmis non pas comme un tout mais par « paquets » bien déterminés, reliés les uns aux autres.

Les bibliothèques s’en chargent par la création de référentiels*, les archives par celle des séries de « domaines », les musées par des collections (correspondant souvent aux classifications au sein des savoirs notamment la biologie et le vivant qui en sont des exemples criants). Chacun a son organisation propre et comporte ses propres clés de compréhension du monde, son propre point de vue. Les points d’entrée peuvent ainsi être divers : thématiques, chronologiques, topographiques, subjectifs, scientifiques, alphabétique, etc. La notion d’ordre et de « cases » est consubstantielle à la notion de pensée. Le cerveau humain ne peut concevoir un concept en globalité sans en percevoir une certaine structure, une certaine organisation interne.

Ainsi, les besoins de description des entités sont également tout à fait différents : si en bibliothèque on privilégiera les titres et auteurs pour désigner un ouvrage, par exemple, en archives ce sont les contextes qui seront utilisés, et en

117 MIKOWSKI, Michael S. RESTful APIs, the big lie, Why you might benefit from letting this popular paradigm

rest in peace. Blog mmikowski.github.io, 2015. [en ligne] Disponible sur https://mmikowski.github.io/the_lie/ [consulté le 17/07/2017]

118 BERMЀS, Emmanuelle, ISAAC, Antoine, POUPEAU, Gautier. Op. Cit. 119 Ibid.

musée et dans d’autres secteurs il y aura encore d’autres objectifs et modes de fonctionnement. Sur le web de données, l’enjeu est le même.

Différencier les différentes terminologies employées

Nous retrouvons plusieurs terminologies qui distinguent des méthodes d’organisations plus ou moins différentes : les vocabulaires contrôlés, les ontologies, et les référentiels. Ce sont des notions très importantes dans l’objet qui nous concerne, et sur lesquelles il est utile de s’accorder.

Antoine Isaac, manager en recherche et développement à Europeana (et participant au LLD XG), considère qu’il peut y avoir trois types de référentiels dans la gestion de l’information 120:

 Premièrement, cela peut être des éléments de métadonnées constituées de classes et propriétés pour les descriptions que l’on va nommer ontologies. Celles-ci fournissent des règles de raisonnement, des axiomes. « Les ontologies pour le web

de données introduisent et définissent de façon formelle (utilisant les langages RDFS et OWL) les éléments nécessaires à l’expression de (méta)données.121»

 Deuxièmement, cela peut être des vocabulaires de valeurs appelés aussi vocabulaires contrôlés ou systèmes d’organisation des connaissances (KOS,

Knowledge Organisation System), tels que les thésaurus, les fichiers d’autorité,

ou encore des bases de connaissances pouvant être volumineuses (VIAF, Dewey, Rameau, GeoNames…). Ce ne sont pas des modèles de données, ils ne les structurent pas, mais ils proposent en revanche des occurrences validées et cohérentes les unes entre les autres.

 Enfin, ils peuvent prendre la forme de jeux de données de très bonne qualité, qui le seraient assez pour devenir des « références ». Tout jeu peut être réutilisé, mais certains font néanmoins de meilleurs candidats (par exemple, DBpedia, Freebase, etc.).

Pour résumer, si les ontologies régentent la structure même des données en créant des champs, les KOS eux, viennent les remplir.

Outils utilisés et exemples

Parmi les outils liés aux ontologies formalisées, on retrouvera : OWL (Web

Ontology Language) un langage d’ontologie RDF qui permet la déclaration

d’équivalence entre deux notions, la hiérarchisation et la distinction entre deux classes ; RDFS, très rigide en terme d’expressivité mais qui permet également de hiérarchiser les classes et propriétés de RDF ; et enfin SKOS (Simple Knowledge

Organization System) une recommandation du W3C censée faciliter l’échange de

données sémantiques en proposant des équivalences conceptuelles, notamment avec OWL, et qui permet d’utiliser des thésaurus via un format RDF.

Les vocabulaires contrôlés, ou KOS, sont composés d’un corpus de termes qui sont eux-mêmes des identifiants, puisqu’ils sont uniques dans leur domaine et dans leur type. Une fois exprimés en URI, ils deviennent juste des identifiants de données

120 ISAAC, Antoine. Les référentiels: typologie et interopérabilité. Séminaire IST Inria : le document numérique à l’heure du web de données, Carnac 2012. [en ligne] Disponible sur https://hal.inria.fr/hal-00740282v1 [consulté le 09/05/2017]

liées, que l’on peut utiliser tels quels moyennant une complétude dans la syntaxe.122

Ils prennent de l’intérêt et de la valeur à force d’être réutilisés. Malheureusement, ce n’est pas vraiment le cas actuellement :

« Les vocabulaires contrôlés sont comme des sous-vêtements. Tout le monde pense que c’est une bonne idée mais personne ne veut utiliser ceux des autres. »123

Le problème des vocabulaires contrôlés, c’est qu’il est difficile justement d’ajuster le niveau de contrôle. Certains peuvent clairement être trop ambitieux et rigidifier les possibilités d’utilisation mais surtout d’évolution. Ils jouent néanmoins un rôle important dans une partie des principes du web sémantique de Tim Berners - Lee : ils permettent de procurer des informations connexes à un usager qui consulte une ressource ou un concept, et il inclut d’autres liens vers d’autres URI de manière à ce qu’il puisse découvrir d’autres ressources.124 Il serait donc intéressant que ces

réutilisations se développent.

L’alignement et l’identification en vue de l’interopérabilité Cliff Morgan et Norman Paskin (notamment un des fondateurs du système DOI), quant à eux, voient les dictionnaires de données et les tables de cartographies de métadonnées comme essentielles à l’interopérabilité des différents domaines. Mais cela nécessite forcément un alignement des référentiels. Cette étape, primordiale, est très compliquée à gérer. En effet, en ce qui concerne les KOS, souvent les contenus sont trop volumineux, moins bien structurés que les ontologies et ils sont constitués de libellés très hétérogènes. L’alignement multilingue est notamment un gros problème, la langue étant ce qu’elle est : ambigüe, évolutive, insaisissable, redondante.125

De même, dans les ontologies, si la réutilisation n’est pas possible à la création du système, un alignement peut être réalisé à postériori. Le principe sera alors de faire des déclarations d’équivalence d’une classe à une autre afin de recouper les données et créer des passerelles. L’alignement de référentiel en général peut se faire par deux moyens différents : par « hub and spoke », méthode consistant à mettre en place un référentiel central qui fait le lien avec tous les autres (par exemple, le fichier virtuel d’autorité du VIAF) ; ou alors par « structures de paires », qui est plus complexe à mettre en place et dont le principe est de relier chaque référentiel à tous ses voisins. La première méthode est plus facile et plus souple, mais cependant plus risquée car il faudra rentrer dans une granularité de spécialité parfois importante.

En soi, l’objectif global est donc d’identifier au mieux les entités et les référentiels pour pouvoir permettre à d’autres de les réutiliser, de faire des liens avec eux et de publier leurs données sur le web de manière correcte. Les identifiants ont un rôle crucial à jouer, même au niveau structurel. Le conseil technologique du secteur public du Royaume-Uni préconise d’ailleurs à ses agents l’emploi de 6 types d’URI par niveau conceptuel, correspondant à 5 types de ressources 126:

122 PASKIN, Norman, RUST, Godfrey. Op. Cit.

123 VAN HOOLAND, Seth. VERBORGH, Ruben. Op. Cit. 124 Ibid.

125 ISAAC, Antoine. Op. Cit.

126 DAVIDSON, Paul, CIO Sedgemoor, District Council. Designing URI Sets for the UK Public Sector . Chief Technology Officer Council, 2009. [en ligne] Disponible sur

 Les URI « identifiant » comprenant les objets physiques et abstraits du monde réel,

Les URI « document » comprenant les web documents en tant qu’entité,

 Les URI « représentation » comprenant les occurrences de chaque format de fichier par entité,

 Les URI « liste » correspondant à l’identifiant de l’index de toutes les URI présente dans l’ensemble,

 Les URI « ontologie » qui identifient les éléments des ontologies, incluant les relations entre les choses identifiées.

Nous voyons bien ici l’importance que peuvent prendre les identifiants dans le graphe global des données liées, s’ils sont la seule vraie voie d’accès aux entités mais également aux éléments qui les structurent.