• Aucun résultat trouvé

1.3 Le thésaurus face à la mutualisation et à l’agrégation d’informations en ligne :

1.3.1 La nécessité d’une interopérabilité sémantique dans le cadre d’une recherche

Le problème de l’intégration de sources hétérogènes de données en une interface commune ne consiste pas seulement à résoudre le problème du protocole d’échanges et d’homogénéisation des formats documentaires, il consiste aussi à exprimer des relations entre les données des sources intégrées. De ce fait la recherche fédérée pose le problème du bon mot-clé quand il n’existe pas de thésaurus transversal permettant l’interrogation pertinente de l’ensemble des répertoires de ressources. Il est vain de donner accès à plusieurs sources de données en une interface unique s’il n’existe pas d’interopérabilité sémantique permettant de surpasser l’hétérogénéité sémantique des informations traitées par les diverses applications. Par conséquent le problème posé par la recherche multi-sources est la pertinence des résultats trouvés dans la mesure où différents répertoires de ressources peuvent utiliser différents langages d’indexation (différents thésaurus). Un même concept est susceptible d’être représenté par des descripteurs hétérogènes selon le thésaurus utilisé, et donc des documents pertinents peuvent demeurer invisibles à l’utilisateur selon le descripteur sélectionné.

La notion d’interopérabilité est une notion relativement émergente en France, sa définition la plus précise est donnée par le Grand Dictionnaire terminologique4 : « Capacité que possèdent des systèmes informatiques hétérogènes à fonctionner conjointement, grâce à l’utilisation de langages et de protocoles communs, et à donner l’accès à leurs ressources de façon réciproque ». Appliqué à la terminologie ce terme peut donner naissance à un nouveau terme : l’interopérabilité terminologique que nous pourrions définir comme suit :

« Capacité que possèdent plusieurs langages contrôlés hétérogènes à fonctionner conjointement de façon à donner l’accès, via une interface de recherche unique, à leurs ressources de façon réciproque ».

1.3.2 Exemples de mise en place de langages contrôlés communs au sein de projets pluri-institutionnels

1.3.2.1 La Banque de Données Santé Publique (BDSP)

La Banque de Données Santé Publique (BDSP) est un service d’information en ligne fondé sur une couverture multidisciplinaire de la santé publique au début des années 1990. Elle est totalement gratuite depuis 2006. La BDSP est le fruit d’un travail collaboratif dans le cadre d’un réseau de coopération documentaire constitué d’une quarantaine d’organismes. Elle propose des modalités d’échange et de partage du travail, ainsi que l’exploitation de services d’information conçus, développés et alimentés en commun.

Parmi les différents outils et services en ligne figure un élément clé, le « Thésaurus Santé Publique » (TSP) créé en 1992, sa troisième version (TSP 3) datant de 2001. Le TSP peut être gratuitement et librement utilisé, dans le cadre de services informationnels, par des centres de documentation ou des bibliothèques travaillant dans le secteur sanitaire et social.

En 2007 est sortie sa quatrième version qui voit l’adjonction de 870 descripteurs et de 856 nouvelles relations de synonymies (51, VIGNON).

La particularité du thésaurus de la BDSP, outil de travail fédérateur, est que tout nouvel acteur adhérent peut garder son propre vocabulaire pour des raisons historiques, pour des raisons de spécificités de sa couverture thématique ou pour ne pas perturber des investissements avec implications terminologiques dans d’autres projets documentaires.

Cependant, les 350.000 références bibliographiques (en 2007) constituant la base documentaire de la BDSP sont toutes indexées et interrogeables sur le champ « mot-clé »

4 Office québécois de la langue française <  >

avec les descripteurs du TSP ainsi qu’en langage Pascal (INIST-CNRS) alors qu’en amont elles sont livrées par plusieurs membres utilisant divers vocabulaires. La pertinence des recherches est alors rendue possible par l’existence d’une table de correspondances entre chaque terme du vocabulaire spécifique et les descripteurs BDSP. Grâce à des programmes informatiques conçus et développés en interne, une comparaison des vocabulaires et des propositions de correspondances entre chaque descripteur sont réalisées. Toutefois cette automatisation affiche des limites et nécessite donc une relecture humaine, des corrections, des ajouts et une validation par un professionnel. Ce type de passerelle instaure une interopérabilité des langages qui permet d’encourager la mutualisation des ressources entre institutions sanitaires et sociales dans la mesure où la livraison et l’importation de ressources documentaires sont facilitées sans qu’il y ait à changer de langage d’indexation.

1.3.2.2 Le projet OTAREN du SCEREN-CNDP

Pour rechercher une information sur l’éducation, il est nécessaire de consulter des centres de ressources proposant comme langage contrôlé le thésaurus « Motbis » (utilisé par les CDI des collèges et lycées, par le réseau du SCEREN-CNDP) ou le répertoire RAMEAU (BNF, bibliothèques universitaires) voire les deux à la fois (IUFM). Il est donc devenu nécessaire d’élaborer une interface de recherche permettant d’accéder harmonieusement aux deux langages afin que l’utilisateur puisse trouver l’information documentaire pertinente quel que soit son langage d’indexation. Par ailleurs l’utilisateur peut élargir sa recherche sur le thésaurus multilingue de l’ONU (UNBIS), celui de l’UNESCO, le « Thésaurus Européen de l’Education » (TEE) etc. Or il n’est pas viable de se limiter à des procédures de réindexation physique entre les thésaurus et donc à une compatibilité descendante/appauvrissante. C’est pourquoi il semble nécessaire d’envisager un système d’équivalences conceptuelles entre les représentations de concepts présentes dans chacun de ces langages contrôlés, sans passer par une phase de modification de l’indexation initiale. Ces interfaces doivent demeurer des outils de recherche et non d’indexation tout en étant élaborées en cohérence avec les langages d’indexation pré-existants qui demeurent les véritables outils d’indexation propres à chaque répertoire de ressources.

Les équipes du SCEREN-CNDP ont donc développé (entre 2004 et 2006) et lancé (en 2006) le prototype OTAREN (Outil Thématique d’Aide à la Recherche pour l’Education Nationale) permettant l’exploration d’une famille de langages de recherche susceptibles d’être proposés par le CNDP à diverses catégories d’utilisateurs. Fin avril 2006 OTAREN comportait 7989 notions déclarées équivalentes à 59825 autres termes parmi lesquels 29804

1.3.3 Les initiatives anglo-saxonnes pour faire évoluer les