Projet VocInra. Rapport d’analyse du besoin d’un thésaurus institutionnel

(1)

HAL Id: hal-02789202

https://hal.inrae.fr/hal-02789202

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative Commons Attribution| 4.0 International License

Projet VocInra. Rapport d’analyse du besoin d’un

thésaurus institutionnel

Sophie Aubin, Pascale Karmasyn-Veyrines

To cite this version:

Sophie Aubin, Pascale Karmasyn-Veyrines. Projet VocInra. Rapport d’analyse du besoin d’un thésaurus institutionnel. [Interne] 2019. �hal-02789202�

(2)

Projet VocInra

Rapport d’analyse du besoin d’un

thésaurus institutionnel

Sophie Aubin (DIST), Pascale Karmasyn

13/03/2019

(3)

Table des matières

Table des matières 2

Objectifs du projet 2

Utilisateurs/bénéficiaires 3

Contexte 3

Démarche Open Science à l’INRA 3

Migration de ProdInra vers HAL 3

Fusion Inra-Irstea 3

Cadre Cohérence Recherche 4

Description de l’existant 4

Une diversité de besoins 5

Méthodologie 5

Besoins exprimés 5

Conclusion 12

Remerciements 14

Ce document fait état du travail de collecte des enjeux et besoins autour de l’utilisation d’un thésaurus commun au sein de systèmes d’informations et pour différents métiers de

l’Institut. Il synthétise les échanges entre l’équipe projet et des utilisateurs potentiel du futur thésaurus en cours de construction. Il a vocation à guider sa conception et sa mise à disposition afin de répondre à des besoins et des cas d’usage divers.

Objectifs du projet

Le projet VocInra se place dans le contexte de l’évolution de ProdInra d’une part et de la généralisation des technologies du web sémantique pour la gestion des vocabulaires en agriculture (initiative Agrisemantics1_{notamment) d’autre part. Il vise à disposer d’un} thésaurus représentant les domaines de l’Inra pour permettre la recherche et l’analyse des documents, des activités et des données de l’Institut. Afin d’être

interopérable avec d’autres vocabulaires du domaine, il doit être adapté aux technologies du web sémantique et s’inscrit dans la démarche FAIR2_.

La construction du thésaurus doit s’appuyer sur la version du référentiel Mots-clés Inra figée à l’automne 2017 et le thésaurus Irstea. Nous l’appellerons Voc-Inra-Irstea dans l’attente d’un nom définitif, en cohérence avec celui du futur institut. Il est prévu d’effectuer des opérations de nettoyage et de restructuration des mots-clés Inra et alignement sur GACS. Enfin, sa représentation technique s’appuiera sur les standards en vigueur, notamment SKOS, permettant sa maintenance dans l’outil VocBench. A terme, ce vocabulaire sera publié pour une utilisation libre et gratuite.

1_{http://agrisemantics.org/}

(4)

Utilisateurs/bénéficiaires

● Les documentalistes pour indexer les documents et pour proposer les nouveaux mots-clés.

● Des systèmes d’informations de l’Inra ● Les scientifiques

● Les projets en gestion des connaissances qui souhaitent utiliser ou lier leurs vocabulaires à Voc-Inra-Irstea et les spécialistes de l’analyse de contenu

L’état des lieux ainsi que la vision s’appuient sur les tendances documentaires actuelles et sur les retours des utilisateurs et en particulier l’analyse du besoin faite pour ProdInra.

Contexte

Démarche Open Science à l’INRA

L’IST est engagée dans la politique Science Ouverte de l’Institut avec de nouveaux services autour de la gestion et du partage des données et des connaissances. C’est dans ce cadre qu’elle souhaite doter l’institut d’un référentiel terminologique qui pourra servir différents systèmes d’information à commencer par l’archive institutionnelle et le portail des données Data Inra. D’autres besoins ont d’ores et déjà été identifiés autour des métiers de la

traduction, de la bibliométrie ou encore de l’évaluation.

Migration de ProdInra vers HAL

L’institut prépare la migration de son archive de publications vers un portail HAL qui devra entrer en fonction en janvier 2020.

L’instance HAL/Inra proposera un champ ou un groupe de champ permettant une indexation des publications avec un référentiel terminologique. Le référentiel sera géré et hébergé en dehors de HAL et l'interaction se fera via un connecteur de type API Rest.

Le calendrier du projet VocInra doit s’interfacer avec celui de HAL/Inra.

Fusion Inra-Irstea

Les directions des deux instituts ont annoncé leur fusion au 1er janvier 2020. Les systèmes d’informations (documentaires, données…) seront mutualisés. Les départements

scientifiques seront redéfinis pour un certain nombre d’entre eux. Le futur thésaurus doit couvrir le nouveau périmètre de l’Institut afin d’accompagner ce changement.

Pour en savoir plus3_.

(5)

Cadre Cohérence Recherche

Piloté par Le Ministère de l'Education nationale, de l'Enseignement supérieur et de la Recherche, le CCR4_{a pour objectifs d’homogénéiser les systèmes d’information et de} mutualiser les logiciels de gestion entre les établissements.

L’Inra vise l’adoption du socle technologique de l’AMUE (Agence de mutualisation des universités et établissements) pour la gestion des structures et des personnes : Master Data Management. L’évolution des référentiels doit tenir compte de ces futurs changements.

Description de l’existant

Le référentiel des Mots-Clés Inra est un vocabulaire multidisciplinaire et centré sur les thématiques de l’Inra : agronomie, environnement, économie et impact de l’agriculture sur la société, génomique, etc. Il est bilingue français/anglais. Il est utilisé pour l’indexation des documents dans Prodinra et dans Activités. De nouveaux concepts sont proposés par les documentalistes, ce qui permet de suivre les évolutions des recherches (nouveaux thèmes de recherche, nouveaux virus, etc.). Le référentiel est géré dans un outil issu d’un

développement spécifique. L’évolution du référentiel se fait à la demande des utilisateurs au coup par coup. Lorsqu’un mot-clé semble manquer (l’utilisateur ne le trouve pas), l’utilisateur demande son ajout dans une entrée thématique particulière. Il n’existe pas d’autre source d’enrichissement. Une personne de la DIST est en charge de la maintenance du référentiel et traite les demandes d’ajout faites par les relecteurs dans ProdInra et par les personnes qui décrivent les activités (référentiel utilisé notamment dans l’annuaire Inra). Le système actuel manque de transparence. En effet, il n’existe pas de document définissant les critères d’acceptation ou de refus d’ajout de mot-clé. Les demandeurs ne savent pas toujours l’issue de leur demande.

La thésaurus Irstea contient 5825 concepts pour environ 8000 termes. Il est utilisé pour indexer les publications dans Cadic et pour indexer les jeux de données dans Sygade (mais sous forme de simple liste). Publié dans les standards du web sémantique5_{, il présente des} alignements avec Agrovoc et GEMET. Il est structuré en domaines eux-mêmes découpés en micro-thésauri. Le thésaurus est géré dans l’outil VocBench et accessible en consultation dans l’outil en ligne Skosmos. Il ne subit plus d’évolution dans l’attente de la fusion des deux Instituts.

A terme, nous envisageons la fusion des deux référentiels avec comme contrainte de conserver tous les termes du thésaurus Irstea.

4

http://www.enseignementsup-recherche.gouv.fr/cid104371/www.enseignementsup- recherche.gouv.fr/cid104371/www.enseignementsup-recherche.gouv.fr/cid104371/appel-a-commentaires-cadre-de-coherence-pour-les-systemes-d-information-recherche.html

(6)

Une diversité de besoins

Méthodologie

Les besoins ont principalement été collectés au moyen d’interviews individuelles ou collectives auprès de représentants de divers métiers au sein de l’institut, à l’occasion de réunions ou par échange de mails.

La collecte des besoins autour de l’indexation dans ProdInra a fait l’objet d’un atelier type World Café complété par un sondage en ligne.

Besoins exprimés

Indexation des publications : voir l’analyse des besoins autour de ProdInra6

Résumé : L’analyse du besoin a été réalisée au moyen d’échanges verbaux lors d’un atelier “world café” et d’un sondage en ligne auprès des relecteurs ProdInra. Les conclusions qui ressortent de cette étude sont :

● la qualité du contenu du référentiel doit être améliorée (suppression des doublons, systématisation des équivalents anglais, correction des erreurs typographiques, meilleure couverture de certaines thématiques)

● une restructuration est demandée ainsi que l’association de domaines disciplinaires aux mots-clés

● en termes d’exploitation dans ProdInra, le lien contraignant entre entrée thématique et mot-clé doit être supprimé et les utilisateurs demandent une interface de

visualisation et de navigation du référentiel. La recherche des mots-clés au moment de la saisie doit être performante (synonymes, équivalents, recherche floue) et la complétion automatique conservée.

● l’alimentation du référentiel avec de nouvelles entrées doit être repensée pour assurer une meilleure cohérence et plus de transparence. Les sources doivent être plus variées (propositions, référentiels externes, extraction automatique à partir de textes). L’organisation de campagnes de mise à jour plutôt que des ajouts au jour le jour est évoquée.

● les consignes d’indexation doivent être clarifiées, de la formation est nécessaire. Exploitation par les revues Inra

L’Inra édite ou co-édite un certain nombre de revues scientifiques, dont la liste est consultable ici.

Les pratiques sont très variables d’une revue à l’autre. Toutefois, les usages possibles d’un référentiel identifiés en réunion avec quelques éditrices de revues et édition QUAE sont les suivants :

- indiquer des mots-clés pour décrire un article soumis

- indexer des publications sur le site web de la revue (e.g. Sciences eaux et territoires) et de QUAE

- qualifier/exploiter une base de relecteurs

(7)

Certaines revues travaillent à l’aide de suites logicielles comme Editorial Manager qui

permettent la soumission en ligne des articles ou encore la gestion d’une base de relecteurs. Un outil comme celui-ci permet de proposer un référentiel aux auteurs qui indiquent alors des mots-clés de manière contrôlée. La qualification des profils de relecteurs avec le même référentiel permet alors au système de faire un appariement article-relecteur et de proposer une liste de relecteurs pertinents pour un article. Toutefois, ceci ne semble pas être une pratique répandue. Pour d’autres, ne disposant pas de tels outils, la recommandation d’un référentiel comme Agrovoc pour sélectionner des termes peut se faire (comme Cahiers Agriculture). Mais généralement, les auteurs ou les candidats relecteurs fournissent une liste de mots-clés libres.

Dans l’hypothèse de l’utilisation d’un référentiel pour sélectionner des mots-clés par les auteurs, celui-ci doit présenter des mots-clés aussi bien généralistes (niveau disciplinaire) que spécifiques comme des méthodes, outils, techniques… Il faut garder la possibilité d’indiquer des mots-clés libres pour éviter les frustrations et l’exploitation d’un référentiel doit être aussi transparente que possible pour l’utilisateur. Cela ne doit pas compliquer sa

démarche de soumission de l’article. Idéalement, l’utilisateur saisit ses mots-clés librement et c’est le système qui se charge de les rattacher au référentiel. Ou encore, le système calcule les mots-clés à partir du texte du document soumis et du référentiel (text-mining) un peu comme le fait déjà Editorial Manager en pré-remplissant les métadonnées.

L’indexation par un référentiel des ouvrages QUAE (ou des articles d’une revue) pourrait servir à constituer facilement des listes d’ouvrages sur une thématique particulière à mettre en avant sur le site.

Note : le web sémantique n’est pas une notion largement partagée dans le milieu de l’édition et il est encore difficile d’imaginer de futurs services ou des fonctionnalités d’enrichissement ou d’accès. Une information au sein du réseau sur les apports du web sémantique et d’une ressource comme Voc-Inra-Irstea serait appréciée.

Indexation des jeux de données et logiciels dans Data Inra: l’Inra partage avec d’autres organisations le souhait de voir évoluer le portail de publication Dataverse pour les données et logiciels pour permettre l’indexation des ressources au moyen d’un référentiel

hiérarchique. A moyen terme, le référentiel Voc-Inra-Irstea devrait donc permettre d’enrichir les métadonnées des jeux de données décrits dans le portail Data Inra7_{avec des mots-clés} thématiques.

Indexation des pages des sites web Inra et la médiathèque

La Direction de la Communication administre et alimente le site web institutionnel

http://www.inra.fr ainsi que la médiathèque (photos et vidéos).

A cette fin, elle dispose de deux outils interconnectés intégrant des fonctionnalités d’indexation à l’aide de mots-clés :

- le DAM (Digital Asset Management) gère les photos de la médiathèque;

- eZpublish pour gérer le contenu des pages web. Il fait appel au DAM pour insérer les photos dans les contenus.

La dernière refonte du système date de 2012-2013. A l’époque, les mots-clés ont été extraits de Texto (ancien système) et réinjectés dans les 2 outils. Ils y sont désormais gérés de manière isolée, et sans lien avec le référentiel Mots-clés. Depuis, certains mots-clés

“scientifiques” ont été retravaillés pour mieux correspondre aux usages des internautes. Par

(8)

exemple : ovin est remplacé par moutons, brebis, etc. De par leur origine (Texto) notamment, les deux listes présentent des problèmes de qualité (erreur de casse, doublons…). Par ailleurs, il n’y a pas de gestion de la langue des mots-clés. Les mots-clés sont ajoutés par les utilisateurs de la médiathèque, sans étape de

modération. Il y a potentiellement 150 contributeurs (pour insérer une photo dans un article rédigé sous eZpublish, ils doivent l’enregistrer dans le DAM d’abord) qui disposent d’un guide de bonnes pratiques.

Les moteurs de recherche intégrés au site web et au DAM sont respectivement AlgoLIA8_et Elastic search9_{. Un travail d’optimisation de ces 2 moteurs est prévu.}

L’intérêt de la Direction de la Communication est d’être en capacité de répondre à la question “Comment proposer à un internaute qui fait une recherche Google des contenus scientifiques, médias associés aux mots-clés saisis ?”. Cette Direction pourrait donc être utilisatrice du thésaurus, dans la mesure où l’enrichissement (proposition de nouveaux MC) d’une partie du thesaurus serait assurée en autonomie par ses 150 contributeurs.

Description des activités des collectifs et des agents :

1. Via le référentiel Activités (consultable dans l’annuaire Inra10₎

Le référentiel Activités permet d’identifier des structures (unités, départements) en fonction de leurs activités de recherche et/ou d’appui. Ce référentiel est utilisé notamment par l’application Annuaire qui présente les unités, départements et centres de recherche. L’onglet “Activités” de la fiche décrivant la structure montre une liste de ses domaines d’action (voir la figure ci-dessous).

Liste des activités de l’unité URGI

Chaque domaine d’action, dans l’exemple “Dynamique et expression des génomes”, est lui-même décrit dans le référentiel Activités notamment à l’aide du référentiel des mots-clés (voir la figure ci-dessous).

8_{https://www.algolia.com/}

9_{elastic.co/fr/products/elasticsearch} 10_{http ://annuaire.inra.fr/}

(9)

Description de l’activité “Dynamique et expression des génomes”

Le référentiel Activités est sous la responsabilité partagée entre Diagonal et R&M (PILS) qui porte la solution et l’administration. Sous l’impulsion des départements, les Directeurs d’Unités sont en charge de la description de leur unité dans Activités. Ils peuvent déléguer cette tâche aux responsables d’équipes scientifiques ou de soutien support. Le

renseignement des activités n’est pas égal pour toutes les structures et varie beaucoup d’un département à l’autre. Il ne semble pas y avoir d’équivalent à Irstea. Il devra évoluer à l’occasion de la fusion des deux instituts sans que nous ne sachions comment ni quand. L’application Annuaire fait appel au référentiel Activités et en expose simplement le contenu. A noter que la liste des mots-clés dans l’onglet “Descriptif” d’une unité, département ou centre n’est que la concaténation des mots-clés associés à chacune de ses activités. Perspectives : bien que l’application Annuaire ainsi que le référentiel Activités nécessitent une action pour les redynamiser et les moderniser, ils ne font pas partie des priorités en vue de la fusion des 2 instituts. Il est plus que probable qu’Activités continue pendant quelques temps à exploiter l’ancienne version du référentiel Mots-clés dans son environnement technique actuel.

2. Dans le cadre de l’évaluation

Il s’agit ici d’être en mesure d’identifier, voire d’analyser les champs de compétences et les disciplines des agents, ingénieurs et chercheurs. Ainsi, dans le cadre de l’évaluation, les agents remplissent une fiche d’activité dans laquelle on leur demande d’indiquer quelques mots-clés. Cette liste sert notamment à identifier les évaluateurs potentiels pour leur dossier. Pour faciliter la mise en correspondance des évalués et des évaluateurs, l’utilisation d’un référentiel peut s’avérer judicieuse : les mots-clés sont harmonisés ; une description

générique fournie par un évaluateur par exemple peut être plus facilement rapprochée d’une description de grain plus fin fournie par un agent évalué, ceci grâce à la représentation hiérarchique. L’analyse des mots-clés issus de Voc-Inra-Irstea pourrait permettre également de produire des indicateurs de la couverture et des recouvrements thématiques de

personnes, d’équipes, d’unités, et de département par l’exploitation conjointe des mots-clés des dossiers d’évaluation individuels et Hcéres par exemple. Ceci ne sera possible qu’à la condition que les mots-clés soient stockés dans une base de données et non seulement dans les fiches d’activités rédigées sous Word comme c’est le cas actuellement.

(10)

En termes de contenu, il faut s’assurer que les activités d’appui soient également bien décrites. En termes de structuration, une structuration par domaines d’activités et disciplines scientifiques serait préférable. Le référentiel des disciplines scientifiques11_{peut être une} source d’inspiration. A noter qu’il est utilisé pour les fiches de postes et apparaît dans HR pour les nouveaux entrants.

D’un point de vue utilisateur, le recours au référentiel doit être proposé mais il faut garder la possibilité pour les agents d’indiquer des mots-clés libres.

Dans la limite des droits d’accès aux informations confidentielles, les mots-clés indiqués dans les dossiers d’évaluation individuels et d’unités (Hcéres) peuvent être une source pour Voc-Inra-Irstea, pour des concepts de haut niveau en particulier.

Deux scénarios d’exploitation de Voc-Inra-Irstea sont envisageables dans le cadre informatique actuel

- Scénario 1 : les agents renseignent une liste de mots-clés de leurs

activités/domaines dans une base de données (interne DEv ou plus large) qui

alimenterait les fiches d’activités Word pour l’évaluation (et permettrait par ailleurs de produire des analyses thématiques)

- Scénario 2 : lors de la rédaction de la fiche Activités, les agents ont accès à Voc-Inra-Irstea via une interface de navigation/interrogation, identifient les mots-clés et les copient/collent dans la fiche (le seul bénéfice est la réduction de la variation des mots-clés, aucune exploitation pour de l’analyse n’est possible puisqu’il s’agit de simples chaînes de caractères)

3. Autres usages

L’annuaire des unités est utilisé notamment par les équipes de sécurité et en particulier de sécurité biologique pour identifier les activités pratiquées dans les unités qui pourraient nécessiter une action de prévention. Pour répondre à leurs besoins, ils demandent à R&M une extraction de la base.

Dans le cadre du développement de l‘Expertise et de l’Appui aux politiques publiques apporté par la fusion avec Irstea, se posera nécessairement le problème de savoir qui contribue déjà et qui il est possible de mobiliser sur telle ou telle question.

Les schémas stratégiques de Départements et de Centres devraient pouvoir être indexés pour permettre d’identifier facilement les disciplines couvertes, utile par exemple pour construire des collaborations régionales (note : les identifiants thématiques des centres ont été définis sans l’aide de référentiel)

Dans le cadre du Partenariat, indexer les contrats de recherche et les brevets serait utile pour avoir des indicateurs sur les disciplines couvertes (outil XCRM).

Plusieurs référentiels disciplinaires cohabitent actuellement au sein de l’Inra, gérés et utilisés par des directions différentes (RH, DEv et DIST par exemple). A Irstea, on dispose d’une liste de domaines d’activités, utilisée dans le cadre des évaluations.

Une harmonisation et une mutualisation serait nécessaire pour améliorer l’interopérabilité des systèmes d’informations et des données elles-mêmes. Une concertation doit être engagée, dans le cadre de la fusion Inra/Irstea.

Composante thématique des études bibliométriques

(11)

Le recueil des besoins liés aux études bibliométriques a été réalisé auprès des membres du pôle bibliométrie lors d’une réunion avec les animateurs puis au cours d’une discussion lors d’une réunion du pôle à l’automne 2018.

Au-delà de la recherche et de l’analyse des informations factuelles des notices bibliographiques, (Auteurs, Dates, Pays…), il est souvent demandé aux équipes de bibliométrie d’identifier et de qualifier les thématiques abordées dans les corpus de publications scientifiques. Les informations utilisées comme les mots-clés auteurs ou les domaines indiqués par les éditeurs sont alors souvent insuffisantes pour produire des analyses de qualité. Par exemple, les mots-clés auteurs ne sont pas normalisés et les WoS categories qualifient la revue plutôt que la publication et sont donc imprécises.

2 étapes clés d’une étude bibliométrique nécessitent un travail terminologique : 1. lors de la constitution de la requête pour délimiter et couvrir un ou des champs

thématiques, et

2. lors de l’analyse pour identifier et normaliser les sujets d’intérêt.

Les listes de mots-clés constituées lors de ces deux étapes ne sont généralement pas identiques, car à des niveaux de détail différents.

En fonction du commanditaire et/ou du contexte, les études réalisées par les membres du pôle Bibliométrie induisent un travail terminologique plus ou moins complexe à réaliser. Pour une étude autour d’une structure, ex. unité, un département, un centre, il n’y a pas de difficulté liée à la définition du périmètre puisqu’il découle de l’affiliation. C’est au moment de l’analyse qu’il est important d’identifier et d’organiser les sujets de recherche pour répondre à des questions du type “Quels sont les principaux sujets de recherche de l’unité ?”,

“Comment évoluent les sujets de recherche au cours du temps”, “Sur quels sujets le

département a-t-il des collaborations internationales”, etc.

Une étude sur une thématique comme sur les légumes à graine va demander quant à elle un travail préliminaire de recensement des objets à regarder (ici les légumes à graine en anglais, en latin) avec éventuellement une restriction sur un certain périmètre (pour

l’alimentation humaine par exemple). Des études comme “Que fait l’Inra en agroécologie ?”, “Quelles recherches en agriculture tropicale” ou “Quelle évolution des recherches en

biologie intégrative ?” seront plus difficiles encore à délimiter car ces thématiques sont

rarement mentionnées comme mots-clés ou catégories dans les publications. Il faut dans ce cas lister les objets étudiés, les méthodes, les sous-domaines et faire un travail sur la synonymie, les regroupements… A un niveau de difficulté supérieur, on retrouve les questions comme “quelles recherches à l’Inra dans le périmètre du métaprogramme MEM

?”. Si le métaprogramme et les publications qui lui sont attribuées étaient eux-mêmes décrits

à l’aide d’un référentiel partagé, le travail de constitution du corpus élargi au reste de l’Inra serait facilité. C’est dans des cas comme ceux-ci que des ressources terminologiques sont particulièrement utiles pour 1) sélectionner les thèmes et 2) constituer une requête

exhaustive 3) constituer les variables pertinentes pour l’analyse du corpus.

Apports possibles de Voc-Inra-Irstea

1. pour la constitution des requêtes (avec les experts)

Les sources utilisées sont principalement le Web of Science, Scopus (Irstea) et ProdInra. Irstea traite en plus les sources brevet.

A partir de connaissance du domaine ou d’un corpus “coeur”, une première liste de termes est dressée et proposée pour validation aux experts qui la filtrent et la complètent. Cette liste

(12)

subit plusieurs enrichissements (synonymes par exemples) et phases de validation pour aboutir à une requête combinant les termes de manière pertinente. Aucun travail de hiérarchisation des termes collectés n’est nécessaire.

Pour cette collecte, il est assez rare qu’une ressource sémantique existante soit utilisée (1 cas mentionné où une analyse a déjà été faite sur un sujet proche). Cependant, avoir à disposition un référentiel dans lequel chercher des termes et leurs synonymes est perçu comme utile.

En retour, la validation par les experts des termes extraits du référentiel permettrait d'affirmer leur pertinence pour l’Institut, avec un marqueur “taggé expert” par exemple.

2. pour analyse du corpus

Les sources principales peuvent fournir des éléments décrivant la ou les thématiques (ex : les WoS Categories, les mots-clés auteurs) plus ou moins pertinents ou utilisables12_{. Il est} souvent nécessaire de compléter ces informations par des variables créées manuellement ou à l’aide d’un logiciel de fouille de texte (comme Cortext), sur la base des éléments textuels (titre, résumé) des notices bibliographiques. Ces nouvelles variables utilisées lors de l’analyse peuvent être génériques ou spécifiques (espèces, méthodes, échelle d’étude...). C’est leur croisement entre elles ou avec d’autres variables (Dates, Pays…) qui permettront de répondre aux questions de l’étude. Il est donc primordial que les listes soient aussi complètes que possible, ce qui peut représenter un énorme travail de recherche terminologique. Voc-Inra-Irstea pourrait faciliter ce travail à condition d’être structuré et présenté de manière à pouvoir extraire et réutiliser de telles listes.

Une question récurrente est celle de la qualification de l’interdisciplinarité et de la transdisciplinarité des travaux de recherche. Le pôle Bibliométrie travaille sur la création d’un indicateur pour les articles. Ce nouvel indicateur nécessite une bonne qualification disciplinaire des publications (aujourd’hui héritée de la revue) et des publications qu’elle cite (idem). Idéalement, il faudrait pouvoir disposer de la (ou des) discipline(s) de la publication elle-même et de ses auteurs. Le référentiel actuellement utilisé pour l’indicateur

d’interdisciplinarité est Science Metrics. Cette information renforce la nécessité d’un travail particulier sur les disciplines dans Voc-Inra-Irstea.

3. Cas particulier : Projet BBI

A l’horizon 2020 ce projet prévoit la fourniture d’indicateurs bibliométriques avancés présentés sous forme de tableaux de bord pour les publications Inra.

Les sources de données envisagées sont HAL et le WoS (corpus indicateurs). Parmi les fonctionnalités plébiscitées de la future plateforme, on retrouve l’analyse sémantique, via des mots-clés d’indexation ou mieux, par une analyse automatique des champs textuels. Le projet BBI prévoit une utilisation du référentiel Voc-Inra-Irstea. Il faut donc prévoir des échanges entre nos deux projets pour l’année 2019.

Aide à la traduction : le service traduction (pour l’anglais et l’espagnol) de l’Inra, coordonné par Christine Young, s’appuie sur des prestataires externes. Ceux-ci ne disposent à ce jour d’aucune base terminologique partagée qui réduirait leur travail de recherche terminologique et assurerait une meilleure harmonisation des emplois au sein et entre projets de traduction. La mise à disposition de Voc-Inra-Irstea (en téléchargement pour intégration dans leurs outils respectifs et en consultation en ligne) répondrait à ce double besoin. Elle aurait un

(13)

impact sur des ouvrages, des rapports, ainsi que sur le site internet de l’Inra auxquels les traducteurs contribuent. De façon annexe, la rédaction de tweets en anglais sur le compte Inra_International pourrait être facilitée par l’accès à Voc-Inra-Irstea.

Le référentiel pourrait en retour bénéficier des apports des traducteurs (signalisation d’erreurs et ajouts de nouvelles entrées) et de la contribution directe de Christine Young pour l’ajout d’équivalents en anglais pour les entrées qui n’en disposent pas.

Constitution de ressources sémantiques et vocabulaires contrôlés : le pôle Digitalist offre aux scientifiques de l’Institut un accompagnement méthodologique et technologique pour créer des thésaurus, ontologies et autres vocabulaires pouvant être de simples listes. La mise à disposition de Voc-Inra-Irstea dans un format ouvert et standard (SKOS) leur permettrait de réutiliser tout ou partie du référentiel comme base de travail ou encore de créer des alignements depuis leur ressource vers Inra-Irstea. Plus généralement, Voc-Inra-Irstea pourrait servir de référence pour la constitution de vocabulaires contrôlés pour les bases de données. Ce service participerait à la mise en oeuvre des principes Linked Data à l’Inra et une meilleure interopérabilité des systèmes et données exploitant ces ressources sémantiques.

Ce besoin implique que le référentiel soit exposé dans une interface navigable avec idéalement une notion de panier permettant de sélectionner et d’exporter une partie du référentiel. Une exposition type SPARQL endpoint ou API permettrait de réaliser ces mêmes opérations depuis un logiciel tiers.

Le travail de sélection, de structuration et d’enrichissement pour des besoins spécifiques pourrait en retour contribuer à l’amélioration de Voc-Inra-Irstea (définition de microthésaurus thématiques par exemple, ajout de traductions, de synonymes…).

Conclusion

Cette étude des besoins auprès de divers acteurs a permis de dégager deux grands champs d’application d’un référentiel thématique :

1. la recherche d’information : permettre à un public varié et pas nécessairement

expert d’identifier l’information ou la donnée pertinente au sein d’un grand ensemble ; 2. l’analyse de l’information : produire des indicateurs sur les thématiques de recherche

des personnes et des collectifs, identifier des corrélations entre des sources de données hétérogènes...

Nous avons pu identifier des pratiques variées au sein de l’Inra pour indexer ou analyser l’information. Le premier constat est que les personnes interrogées, plébiscitent l’existence d’un thésaurus partagé décrivant les domaines de recherche et les activités de l’institut. Le second constat est qu’il n’y a actuellement pas de mutualisation des ressources et des pratiques entre les différents acteurs. Des référentiels concurrents sont développés et maintenus de manière indépendante avec les conséquences suivantes : des efforts dupliqués ; des choix méthodologiques et techniques ad hoc ; une (quasi) impossibilité d’exploiter conjointement les données de différents systèmes (manque d’interopérabilité). Le contexte de la fusion Inra/Irstea et des évolutions technologiques de certains systèmes d’information est une opportunité de faire évoluer les pratiques vers plus de mutualisation.

(14)

Cette transition sera progressive et doit faire l’objet d’une communication importante autour du thésaurus en construction. Cette phase d’échanges autour des besoins a été une première étape de sensibilisation des différents agents impliqués dans l’usage de telles ressources. Elle doit également guider le groupe projet vers la conception d’une ressource et d’un environnement informatique qui répondent aux besoins du plus grand nombre. Faire de Voc-Inra-Irstea une ressource commune de la gestion des contenus textuels et des données à l’Inra doit s’appuyer sur une architecture logicielle plus ouverte et une

organisation plus collective. Son contenu et sa structure doivent mieux répondre aux

besoins des applications et de leurs utilisateurs. Pour cela, il est important de construire une ressource légère et flexible et de permettre son utilisation de manière intégrale ou partielle en fonction des besoins. Les formats et outils du web sémantique répondent à ces deux besoins et seront mis en oeuvre pour la gestion et l’exploitation du thésaurus.

Une vision du futur référentiel Pour assurer un service efficace et pérenne, il est nécessaire de :

● Améliorer la qualité du référentiel lui-même pour en permettre une meilleure

appropriation par les utilisateurs et améliorer les performances et les résultats lors de son exploitation

● Faciliter son utilisation par d’autres SI, Inra ou extérieurs par l’application de standards pour la représentation et l’échange des données

● Faciliter et mieux encadrer son évolution par l’intégration de référentiels existants aussi bien que par des propositions d’utilisateurs

(15)

● Permettre une maintenance (plus) collective de ce référentiel

Les spécifications de la ressource et de l’environnement technique permettant sa maintenance et son exposition font l’objet d’un document à part13_.

Remerciements

Merci aux nombreuses personnes qui ont consacré de leur temps pour prendre

connaissance de ce projet, réfléchir à leurs besoins éventuels, nous recevoir, participer à l’atelier World Café, répondre au questionnaire en ligne, etc. Par ordre chronologique, un grand merci aux membres du réseau IST ; aux relecteurs dans ProdInra, à Clotilde Nicol, Diane Le Hénaff ; Christine Young pour les traducteurs ; Edith Legouy et Françoise Boudet-Bône pour la Délégation à l'Évaluation ; Aurore Coince, Sylvie Zasser, Caroline Dandurant pour l’édition ; les membres du pôle Bibliométrie, en particulier Hugues Leiser et Marie-Violaine Tatry ; Isabelle Blanc et Bruno Koechlin pour Diagonal.

Merci également à Agnès Girard, Emilie Bernard, Colette Cadiou et Vincent Rappeneau pour leur relecture attentive et leurs contributions.