• Aucun résultat trouvé

2.4 Types de sources agricoles

2.4.2 Thésaurus

Un thésaurus est un vocabulaire contrôlé qui permet de faciliter l’indexation de documents. Bien que le terme de thésaurus soit apparu en 1532 avec l’ouvrage "Thesaurus linguæ latinæ" de Robert Estienne, les thésaurus se développent considérablement au début des années 1990 avec l’avènement des outils informatiques. Vue la quantité de documents à parmi lesquels rechercher, l’usage d’un vocabulaire contrôlé s’est imposé pour améliorer les resutats des recherches. D’après [Roussey, 2001], nous pouvons définir un thésaurus de la manière suivante : "Lexique des termes d’indexation du langage documentaire avec leurs relations structurant le domaine. Un thésaurus organise le vocabulaire d’un langage documentaire contrôlé pour que des relations entre regroupement de termes (par exemple terme générique et terme spécifique) soient explicitées." Nous pouvons observer dans cette définition la notion de regroupement de termes. Les termes regroupés sont des synonymes, ce qui permet de faciliter la désambiguïsation lors de l’indexation d’un document. De plus, ces regroupements de termes sont liés entre eux pour définir, par exemple, des relations hiérarchiques.

Il existe principalement deux modèles pour représenter les thésaurus. Le premier, correspondant à la norme ISO 2788, ne représente pas explicitement les regroupements de termes. Le deuxième, correspondant au SKOS, les représente explicitement.

La première norme définissant un modèle représentant un thésaurus est la norme ISO 2788 de 1986[ISO 2788, 1986]. Cette norme est fondée sur la représentation de relations entre termes. Un thésaurus suivant la norme ISO 2788 est donc assimilable à un graphe étiqueté et orienté comme présenté dans la figure9.

Un thésaurus suivant la norme ISO 2788 contient donc des relations entre les termes, pouvant être étiquetées de cinq façon différentes :

NT (Narrower Term) : relation hiérarchique descendante BT (Broader Term) : relation hiérarchique ascendante RT (Related Term) : relation d’association

UF (Used For) : relation d’équivalence entre termes indiquant le terme préféré USE (Use) : relation d’équivalence entre termes

Les relations font apparaître des regroupements de termes. En effet, USE étant utilisé pour désigner les synonymes d’un terme, tous les synonymes sont regroupés autour d’un terme préféré qui est représentatif du regroupement de terme. Ce terme préféré

est appelé un descripteur. Ces regroupements de termes peuvent être mis en relation par l’intermédiaire de trois relations différentes (NT, BT et RT). Les relations NT et BT représentent une notion de hiérarchie. Bien qu’un ordre hiérarchique entre les regroupements de termes existe, ces relations restent ambiguës car le sens exact qui y est associé n’est pas défini. En effet, les thésaurus ayant pour but, à cette époque, de n’être utilisés que par des humains (et non des machines), une certaine liberté a été laissée dans la modélisation de ces relations. Une relation NT (respectivement BT) peut représenter une relation de méronymie (respectivement métonymie), une relation d’hyperonymie (respectivement hyponymie) ou autre. Les connaissances de la personne manipulant le thésaurus permettront de désambiguïser ces relations. La relation RT est d’autant plus ambiguë qu’elle ne spécifie aucune autre information qu’ "une relation existe entre ces termes". Cette relation RT peut donc avoir de nombreuses interprétations.

Dans le but de promouvoir les thésaurus à l’échelle du Web de données liées (c.f. sec-tion1.3du chapitreI), le W3C38a mis en place une recommandation proposant un modèle pour les thésaurus en exploitant la syntaxe RDF : SKOS39[Miles and Bechhofer, 2009]. Ce modèle de thésaurus propose une représentation explicite des regroupements de termes des thésaurus sous la forme de concepts SKOS. La recommandation SKOS permet d’exprimer les mêmes relations hiérarchiques que la nome ISO 2788 mais entre concepts SKOS. De plus, elle propose la possibilité de définir des relations spécifiques du domaine pouvant lier deux concepts SKOS du thésaurus. Ainsi, les ambiguités liées à l’usage de la relation RT sont levées. Cette ambiguïté est aussi réduite pour la définition des synonymes qui peuvent être définis comme terme préféré ou terme alternatif. Ils peuvent aussi être représentés en plusieurs langues de façon explicite. De plus, cette recommandation permet de rendre les thésaurus adaptés au Web de données liées. De cette manière, il est possible de réutiliser des ressources issues d’autres sources de données publiées sur ce Web de données liées.

Nous pouvons noter qu’il existe aussi la norme ISO 25964 [25964-1, 2011] comme modèle possible pour la représentation de thésaurus. Néanmoins, ce modèle est particulièrement proche de la recommandation SKOS. De plus, SKOS proposant une intégration au Web de données liées, il est souvent privilégié par rapport à la norme ISO 25964.

Agrovoc

Dans le domaine agricole, un thésaurus particulièrement réputé est le thésaurus Agrovoc40. Ce thésaurus est implémenté en utilisant le format SKOS présenté précédemment.

Le développement du thésaurus Agrovoc a commencé, tout d’abord sous un format papier, dans le début des années 1980 par la FAO41. Le but de ce thésaurus était de proposer un vocabulaire pour l’indexation de ressources dans le domaine de l’agriculture et de l’alimentation. Au début des années 2000, la FAO arrêta la version papier pour passer à une version numérique sous forme d’une base de données spécifique. En 2004, ils

38. World Wide Web Consortium -http://www.w3.org/

39. Simple Knowledge Organization System -http://www.w3.org/TR/skos-reference/

40. http://aims.fao.org/aos/agrovoc/

Figure 10 – Agrovoc : nombre de termes pour chaque langue

expérimentèrent le passage à une version OWL (c.f. section 1.2.3du chapitre I) qu’ils abandonnèrent pour passer à une version SKOS en 2009, le niveau de d’expressivité de SKOS étant suffisant puisque l’objectif était simplement d’avoir un vocabulaire d’indexation.

Agrovoc utilise une spécialisation du modèle SKOS présenté précédemment : le SKOS-XL42. Ce modèle permet l’ajout de relations entre les termes eux-mêmes (et non nécessai-rement par l’intermédiaire de concepts SKOS). De plus, la FAO a étendu le vocabulaire disponible en utilisant l’ontologie Agrontology43, elle-même développée par la FAO. Cette ontologie définit un certain nombre d’éléments supplémentaires pour enrichir le vocabulaire. Nous trouvons notamment la relation "pestOf"44qui permet d’établir un lien entre deux organismes vivants représentant le fait qu’un organisme peut potentiellement en attaquer un autre. Le format d’implémentation est le RDF.

La force du thésaurus Agrovoc est le nombre de concepts répertoriés (plus de 40.000), mais surtout le nombre de langues différentes dans lesquelles les étiquettes des concepts sont disponibles. Nous pouvons observer sur la figure10 le nombre de termes par langue.

La maintenance du thésaurus Agrovoc se fait tout d’abord par les experts de la FAO, mais aussi grâce à une communauté d’utilisateurs qui proposent des ajouts et autre modifications. De plus, ce thésaurus est lié sur le Web de données liées à 16 sources différentes45. 42. http://www.w3.org/TR/skos-reference/skos-xl.html 43. http://aims.fao.org/sites/default/files/uploads/file/aos/agrontology/index.htm 44. http://aims.fao.org/sites/default/files/uploads/file/aos/agrontology/index.htm# d4e1950 45. http://aims.fao.org/standards/agrovoc/linked-open-data

Agrovoc Type de source Thésaurus

Modèle SKOS

Implémentation RDF

Table 3 – Caractéristiques d’Agrovoc