2.4 Types de sources agricoles
2.4.2 Thésaurus
Un thésaurus est un vocabulaire contrôlé qui permet de faciliter l’indexation de
documents. Bien que le terme de thésaurus soit apparu en 1532 avec l’ouvrage "Thesaurus
linguæ latinæ" de Robert Estienne, les thésaurus se développent considérablement au début
des années 1990 avec l’avènement des outils informatiques. Vue la quantité de documents
à parmi lesquels rechercher, l’usage d’un vocabulaire contrôlé s’est imposé pour améliorer
les resutats des recherches. D’après [Roussey, 2001], nous pouvons définir un thésaurus
de la manière suivante : "Lexique des termes d’indexation du langage documentaire avec
leurs relations structurant le domaine. Un thésaurus organise le vocabulaire d’un langage
documentaire contrôlé pour que des relations entre regroupement de termes (par exemple
terme générique et terme spécifique) soient explicitées." Nous pouvons observer dans cette
définition la notion de regroupement de termes. Les termes regroupés sont des synonymes,
ce qui permet de faciliter la désambiguïsation lors de l’indexation d’un document. De
plus, ces regroupements de termes sont liés entre eux pour définir, par exemple, des
relations hiérarchiques.
Il existe principalement deux modèles pour représenter les thésaurus. Le premier,
correspondant à la norme ISO 2788, ne représente pas explicitement les regroupements
de termes. Le deuxième, correspondant au SKOS, les représente explicitement.
La première norme définissant un modèle représentant un thésaurus est la norme ISO
2788 de 1986[ISO 2788, 1986]. Cette norme est fondée sur la représentation de relations
entre termes. Un thésaurus suivant la norme ISO 2788 est donc assimilable à un graphe
étiqueté et orienté comme présenté dans la figure9.
Un thésaurus suivant la norme ISO 2788 contient donc des relations entre les termes,
pouvant être étiquetées de cinq façon différentes :
NT (Narrower Term) : relation hiérarchique descendante
BT (Broader Term) : relation hiérarchique ascendante
RT (Related Term) : relation d’association
UF (Used For) : relation d’équivalence entre termes indiquant le terme préféré
USE (Use) : relation d’équivalence entre termes
Les relations font apparaître des regroupements de termes. En effet, USE étant utilisé
pour désigner les synonymes d’un terme, tous les synonymes sont regroupés autour
d’un terme préféré qui est représentatif du regroupement de terme. Ce terme préféré
est appelé un descripteur. Ces regroupements de termes peuvent être mis en relation
par l’intermédiaire de trois relations différentes (NT, BT et RT). Les relations NT
et BT représentent une notion de hiérarchie. Bien qu’un ordre hiérarchique entre les
regroupements de termes existe, ces relations restent ambiguës car le sens exact qui y est
associé n’est pas défini. En effet, les thésaurus ayant pour but, à cette époque, de n’être
utilisés que par des humains (et non des machines), une certaine liberté a été laissée dans
la modélisation de ces relations. Une relation NT (respectivement BT) peut représenter
une relation de méronymie (respectivement métonymie), une relation d’hyperonymie
(respectivement hyponymie) ou autre. Les connaissances de la personne manipulant le
thésaurus permettront de désambiguïser ces relations. La relation RT est d’autant plus
ambiguë qu’elle ne spécifie aucune autre information qu’ "une relation existe entre ces
termes". Cette relation RT peut donc avoir de nombreuses interprétations.
Dans le but de promouvoir les thésaurus à l’échelle du Web de données liées (c.f.
sec-tion1.3du chapitreI), le W3C
38a mis en place une recommandation proposant un modèle
pour les thésaurus en exploitant la syntaxe RDF : SKOS
39[Miles and Bechhofer, 2009].
Ce modèle de thésaurus propose une représentation explicite des regroupements de
termes des thésaurus sous la forme de concepts SKOS. La recommandation SKOS permet
d’exprimer les mêmes relations hiérarchiques que la nome ISO 2788 mais entre concepts
SKOS. De plus, elle propose la possibilité de définir des relations spécifiques du domaine
pouvant lier deux concepts SKOS du thésaurus. Ainsi, les ambiguités liées à l’usage de la
relation RT sont levées. Cette ambiguïté est aussi réduite pour la définition des synonymes
qui peuvent être définis comme terme préféré ou terme alternatif. Ils peuvent aussi être
représentés en plusieurs langues de façon explicite. De plus, cette recommandation permet
de rendre les thésaurus adaptés au Web de données liées. De cette manière, il est possible
de réutiliser des ressources issues d’autres sources de données publiées sur ce Web de
données liées.
Nous pouvons noter qu’il existe aussi la norme ISO 25964 [25964-1, 2011] comme modèle
possible pour la représentation de thésaurus. Néanmoins, ce modèle est particulièrement
proche de la recommandation SKOS. De plus, SKOS proposant une intégration au Web
de données liées, il est souvent privilégié par rapport à la norme ISO 25964.
Agrovoc
Dans le domaine agricole, un thésaurus particulièrement réputé est le thésaurus Agrovoc
40.
Ce thésaurus est implémenté en utilisant le format SKOS présenté précédemment.
Le développement du thésaurus Agrovoc a commencé, tout d’abord sous un format
papier, dans le début des années 1980 par la FAO
41. Le but de ce thésaurus était de
proposer un vocabulaire pour l’indexation de ressources dans le domaine de l’agriculture
et de l’alimentation. Au début des années 2000, la FAO arrêta la version papier pour
passer à une version numérique sous forme d’une base de données spécifique. En 2004, ils
38. World Wide Web Consortium -http://www.w3.org/
39. Simple Knowledge Organization System -http://www.w3.org/TR/skos-reference/
40. http://aims.fao.org/aos/agrovoc/