• Aucun résultat trouvé

2 Les langages de type combinatoire

2.3 Le thésaurus

2.3.1 Origine et définition

A l’origine, le terme thésaurus vient du grec ancien et signifie « trésor ». Sa forme latine est thesaurus, sans accent. Si les deux orthographes sont admises, la première semble être la plus répandue dans la littérature francophone. Les anglo-saxons privilégient la version latine et son corollaire au pluriel : thesaurus/thesauri. Le thésaurus est réellement apparu au XVIème siècle grâce à Robert Estienne22 et son thesaurus lingua latinae paru en 1531. Cet ouvrage avait pour objectif de dresser un panorama de la latinité depuis ses débuts jusqu’à Isidore de Séville. Ensuite, Au XVIIème siècle, l’évêque John Wilkins créa un type de dictionnaire amélioré constitué de relations entre les mots et destiné à organiser les objets du référentiel d’histoire naturelle de la royal Society. En 1852, Peter Mark Roget23 élabora lui aussi un thésaurus qu’il qualifia de « classification verbale », basé sur l’œuvre philosophique de Leibniz. Les thésaurus ne furent l’objet de normes qu’à partir des années 70 et connurent un certain succès dans les années 80.

Il existe plusieurs définitions du mot « thésaurus », que ce soit dans la littérature francophone ou anglophone, mais d’une manière générale toutes concordent vers le fait qu’il s’agit d’un vocabulaire contrôlé, outil d’indexation et d’aide à la recherche, comprenant des relations sémantiques entres les termes. Voici ce que nous proposent Danièle Dégez et Dominique Ménillet dans leur thésauroglossaire24, l’ouvrage que j’ai choisi comme référence en matière de définition : « Liste organisée de termes contrôlés et normalisés (descripteurs et non-descripteurs) servant à l’indexation des documents et des questions dans un système documentaire. Les descripteurs sont reliés par des relations sémantiques (génériques, associatives et d’équivalence), exprimés par des signes ou symboles conventionnels. Les synonymes (non-descripteurs ou termes interdits) sont reliés aux descripteurs par une seule

21 Professeur de langue et communication à la faculté de langue anglaise et littérature à l’université d’Oxford.

22 Michèle Hudon, Le thésaurus, conception, élaboration, gestion, p 16

23 Physicien, théologien et lexicologue britannique (1179/1869)

24 Danièle Dégez et Dominique Ménillet, Thésauroglossaire des langages documentaires,

25

relation d’équivalence. L’OED25 définit le thésaurus comme suit : « Une liste classifiée de termes, plus spécialement des mots-clés, dans un champ particulier, pour un usage d’indexation et de recherche d’information ».

Malgré l’abondance des définitions données par les uns et les autres, le terme de thésaurus demeure assez vague. Les frontières entre les différents types de langages documentaires ont tendance à s’estomper et certains professionnels des sciences de l’information ont parfois tendance à faire l’amalgame entre plusieurs notions :

Thésaurus et dictionnaire : le thésaurus est souvent perçu par les non-spécialistes comme un dictionnaire. La différence est assez simple, le thésaurus n’a pas pour vocation d’être aussi exhaustif et le dictionnaire ne comporte pas de relations entre les termes excepté la synonymie. Dans un dictionnaire, le mot est le point de départ et on en dégage plusieurs concepts, dans le cas du thésaurus, c’est l’inverse, le concept est décrit par plusieurs termes.

Thésaurus et glossaire : le but d’un glossaire est d’apporter des définitions à des termes dans un domaine donné. Même si un thésaurus est lui aussi un ensemble de vocables rattaché à une spécialité, il n’y a pas d’obligation de spécifier le sens de certains mots par une définition, même si les auteurs sont formellement invités à le faire.

Thésaurus et liste de vedettes-matière : la distinction principale entre ces deux notions réside dans le fait qu’une liste de vedettes-matière a été conçue pour cataloguer une collection documentaire et qu’un thésaurus a pour objectif d’indexer un corpus de documents. L’unité de base de la liste est la vedette, soit un sujet qui regroupe plusieurs concepts tandis que celle du thésaurus est le descripteur qui ne renvoie qu’à un seul concept. En outre, la liste de vedettes-matière est essentiellement destinée au bibliothécaire tandis que le thésaurus offre un double usage documentaliste/usager.

Thésaurus et taxonomie : la différence est bien plus ténue. L’on peut dire que le degré de précision sera l’élément clé pour distinguer les deux langages documentaires. Un thésaurus est supposé être bien plus riche qu’une taxonomie qui n’est à la base qu’une classification.

Thésaurus et ontologie : La littérature grise traite souvent les similarités entre les deux objets, ce qui est tout à fait censé, mais rarement des différences. Les ontologies sont d’abord présentées comme un prolongement du thésaurus et une manière de le rendre viable et fonctionnel sur le web. Dès lors, une ontologie serait une

25 Oxford English Dictionnary

26

version de thésaurus bien plus sophistiquée, avec une vision pluridimensionnelle des termes.

Finalement, à y regarder de plus près, il n’y a qu’une notion de granularité entre chaque langage documentaire. Le schéma récapitulatif de Fred Leise26 m’a paru assez simple pour synthétiser les nuances. Toutefois, il m’a paru possible de le compléter (partie en rouge) car il me paraissait inachevé

Cercle de synonymes

+ Termes choisis = liste d’autorité

+ Termes génériques/termes spécifiques

= taxonomie

+ Termes reliés

= thésaurus

+ Relations sémantiques entre les concepts (méronymie …)

= Ontologie

:

A l’aide à ce schéma, on réalise pourquoi le thésaurus est le langage documentaire le plus complexe à réaliser, compte tenu de toutes les relations qui le composent.

26 Fred Leise, Controlled vocabularies : an introduction, p 124

27