• Aucun résultat trouvé

2.4 Types de sources agricoles

2.4.2 Thésaurus

Un thésaurus est un vocabulaire contrôlé qui permet de faciliter l’indexation de

documents. Bien que le terme de thésaurus soit apparu en 1532 avec l’ouvrage "Thesaurus

linguæ latinæ" de Robert Estienne, les thésaurus se développent considérablement au début

des années 1990 avec l’avènement des outils informatiques. Vue la quantité de documents

à parmi lesquels rechercher, l’usage d’un vocabulaire contrôlé s’est imposé pour améliorer

les resutats des recherches. D’après [Roussey, 2001], nous pouvons définir un thésaurus

de la manière suivante : "Lexique des termes d’indexation du langage documentaire avec

leurs relations structurant le domaine. Un thésaurus organise le vocabulaire d’un langage

documentaire contrôlé pour que des relations entre regroupement de termes (par exemple

terme générique et terme spécifique) soient explicitées." Nous pouvons observer dans cette

définition la notion de regroupement de termes. Les termes regroupés sont des synonymes,

ce qui permet de faciliter la désambiguïsation lors de l’indexation d’un document. De

plus, ces regroupements de termes sont liés entre eux pour définir, par exemple, des

relations hiérarchiques.

Il existe principalement deux modèles pour représenter les thésaurus. Le premier,

correspondant à la norme ISO 2788, ne représente pas explicitement les regroupements

de termes. Le deuxième, correspondant au SKOS, les représente explicitement.

La première norme définissant un modèle représentant un thésaurus est la norme ISO

2788 de 1986[ISO 2788, 1986]. Cette norme est fondée sur la représentation de relations

entre termes. Un thésaurus suivant la norme ISO 2788 est donc assimilable à un graphe

étiqueté et orienté comme présenté dans la figure9.

Un thésaurus suivant la norme ISO 2788 contient donc des relations entre les termes,

pouvant être étiquetées de cinq façon différentes :

NT (Narrower Term) : relation hiérarchique descendante

BT (Broader Term) : relation hiérarchique ascendante

RT (Related Term) : relation d’association

UF (Used For) : relation d’équivalence entre termes indiquant le terme préféré

USE (Use) : relation d’équivalence entre termes

Les relations font apparaître des regroupements de termes. En effet, USE étant utilisé

pour désigner les synonymes d’un terme, tous les synonymes sont regroupés autour

d’un terme préféré qui est représentatif du regroupement de terme. Ce terme préféré

est appelé un descripteur. Ces regroupements de termes peuvent être mis en relation

par l’intermédiaire de trois relations différentes (NT, BT et RT). Les relations NT

et BT représentent une notion de hiérarchie. Bien qu’un ordre hiérarchique entre les

regroupements de termes existe, ces relations restent ambiguës car le sens exact qui y est

associé n’est pas défini. En effet, les thésaurus ayant pour but, à cette époque, de n’être

utilisés que par des humains (et non des machines), une certaine liberté a été laissée dans

la modélisation de ces relations. Une relation NT (respectivement BT) peut représenter

une relation de méronymie (respectivement métonymie), une relation d’hyperonymie

(respectivement hyponymie) ou autre. Les connaissances de la personne manipulant le

thésaurus permettront de désambiguïser ces relations. La relation RT est d’autant plus

ambiguë qu’elle ne spécifie aucune autre information qu’ "une relation existe entre ces

termes". Cette relation RT peut donc avoir de nombreuses interprétations.

Dans le but de promouvoir les thésaurus à l’échelle du Web de données liées (c.f.

sec-tion1.3du chapitreI), le W3C

38

a mis en place une recommandation proposant un modèle

pour les thésaurus en exploitant la syntaxe RDF : SKOS

39

[Miles and Bechhofer, 2009].

Ce modèle de thésaurus propose une représentation explicite des regroupements de

termes des thésaurus sous la forme de concepts SKOS. La recommandation SKOS permet

d’exprimer les mêmes relations hiérarchiques que la nome ISO 2788 mais entre concepts

SKOS. De plus, elle propose la possibilité de définir des relations spécifiques du domaine

pouvant lier deux concepts SKOS du thésaurus. Ainsi, les ambiguités liées à l’usage de la

relation RT sont levées. Cette ambiguïté est aussi réduite pour la définition des synonymes

qui peuvent être définis comme terme préféré ou terme alternatif. Ils peuvent aussi être

représentés en plusieurs langues de façon explicite. De plus, cette recommandation permet

de rendre les thésaurus adaptés au Web de données liées. De cette manière, il est possible

de réutiliser des ressources issues d’autres sources de données publiées sur ce Web de

données liées.

Nous pouvons noter qu’il existe aussi la norme ISO 25964 [25964-1, 2011] comme modèle

possible pour la représentation de thésaurus. Néanmoins, ce modèle est particulièrement

proche de la recommandation SKOS. De plus, SKOS proposant une intégration au Web

de données liées, il est souvent privilégié par rapport à la norme ISO 25964.

Agrovoc

Dans le domaine agricole, un thésaurus particulièrement réputé est le thésaurus Agrovoc

40

.

Ce thésaurus est implémenté en utilisant le format SKOS présenté précédemment.

Le développement du thésaurus Agrovoc a commencé, tout d’abord sous un format

papier, dans le début des années 1980 par la FAO

41

. Le but de ce thésaurus était de

proposer un vocabulaire pour l’indexation de ressources dans le domaine de l’agriculture

et de l’alimentation. Au début des années 2000, la FAO arrêta la version papier pour

passer à une version numérique sous forme d’une base de données spécifique. En 2004, ils

38. World Wide Web Consortium -http://www.w3.org/

39. Simple Knowledge Organization System -http://www.w3.org/TR/skos-reference/

40. http://aims.fao.org/aos/agrovoc/

Figure 10 – Agrovoc : nombre de termes pour chaque langue

expérimentèrent le passage à une version OWL (c.f. section 1.2.3du chapitre I) qu’ils

abandonnèrent pour passer à une version SKOS en 2009, le niveau de d’expressivité

de SKOS étant suffisant puisque l’objectif était simplement d’avoir un vocabulaire

d’indexation.

Agrovoc utilise une spécialisation du modèle SKOS présenté précédemment : le

SKOS-XL

42

. Ce modèle permet l’ajout de relations entre les termes eux-mêmes (et non

nécessai-rement par l’intermédiaire de concepts SKOS). De plus, la FAO a étendu le vocabulaire

disponible en utilisant l’ontologie Agrontology

43

, elle-même développée par la FAO.

Cette ontologie définit un certain nombre d’éléments supplémentaires pour enrichir le

vocabulaire. Nous trouvons notamment la relation "pestOf"

44

qui permet d’établir un lien

entre deux organismes vivants représentant le fait qu’un organisme peut potentiellement

en attaquer un autre. Le format d’implémentation est le RDF.

La force du thésaurus Agrovoc est le nombre de concepts répertoriés (plus de 40.000),

mais surtout le nombre de langues différentes dans lesquelles les étiquettes des concepts

sont disponibles. Nous pouvons observer sur la figure10 le nombre de termes par langue.

La maintenance du thésaurus Agrovoc se fait tout d’abord par les experts de la FAO,

mais aussi grâce à une communauté d’utilisateurs qui proposent des ajouts et autre

modifications. De plus, ce thésaurus est lié sur le Web de données liées à 16 sources

différentes

45

.

42. http://www.w3.org/TR/skos-reference/skos-xl.html 43. http://aims.fao.org/sites/default/files/uploads/file/aos/agrontology/index.htm 44. http://aims.fao.org/sites/default/files/uploads/file/aos/agrontology/index.htm# d4e1950 45. http://aims.fao.org/standards/agrovoc/linked-open-data

Agrovoc

Type de source Thésaurus

Modèle SKOS

Implémentation RDF

Table 3 – Caractéristiques d’Agrovoc