• Aucun résultat trouvé

Projet VocInra. Spécifications fonctionnelles pour le référentiel, sa diffusion, sa maintenance et son utilisation dans HAL/Inra

N/A
N/A
Protected

Academic year: 2021

Partager "Projet VocInra. Spécifications fonctionnelles pour le référentiel, sa diffusion, sa maintenance et son utilisation dans HAL/Inra"

Copied!
22
0
0

Texte intégral

(1)

HAL Id: hal-02789198

https://hal.inrae.fr/hal-02789198

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Projet VocInra. Spécifications fonctionnelles pour le

référentiel, sa diffusion, sa maintenance et son utilisation

dans HAL/Inra

Pascale Karmasyn-Veyrines, Sophie Aubin

To cite this version:

Pascale Karmasyn-Veyrines, Sophie Aubin. Projet VocInra. Spécifications fonctionnelles pour le référentiel, sa diffusion, sa maintenance et son utilisation dans HAL/Inra. [Interne] 2019. �hal-02789198�

(2)

Projet VocInra

Spécifications fonctionnelles pour le

référentiel, sa diffusion, sa maintenance et

son utilisation dans HAL/Inra

Pascale Karmasyn (DIST), Sophie Aubin (DIST)

13/03/2019

(3)

Table des matières

Table des matières 2

Introduction 4

Spécifications de référentiel et de son environnement technique 4

Contenu du référentiel 4

Couverture 4

Qualité des entrées 5

Synonymie 5

Multilinguisme étendu 5

Structuration du référentiel 5

Organisation thématique du référentiel 5 Hiérarchie (générique-spécifique / partie-tout...) 5 Alignements avec des ressources externes 6

Identifiants 6

Modèle de représentation 6

Interfaces 7

Consultation sous forme graphique (pour l’oeil humain) 7

Une boîte de recherche 7

Un index alphabétique 8

Une vue hiérarchique 8

Fiche concept 9

Panier et export 9

Interface dans HAL 9

Outil de maintenance du référentiel 10

Accès sous forme programmatique (pour la machine) 11

Solution de stockage du référentiel 11

Maintenance et évolution du référentiel 11

Gouvernance 11

Sources 12

Modalités 12

Profils d’utilisateurs et cas d’usage 13

Grand public 13

Contributeur 13

Membre du bureau éditorial (éditeur) 14

(4)

Contenu du référentiel 15

Structuration du référentiel 15

Identifiants 16

Représentation du référentiel 16

Interfaces 17

Consultation sous forme graphique (pour l’oeil humain) 17

Interface dans HAL 18

Outil de maintenance du référentiel 19

Exposition des données et import de sources 20

Web services 20

Solution de stockage du référentiel 21

(5)

Introduction

Le projet VocInra vise à doter l’INRA d’un thésaurus représentant les domaines de l’Inra pour permettre l’indexation et l’analyse des documents, des activités et des données de l’Institut. Ce document a pour objectif de décrire ce que devra être le référentiel Voc-Inra-Irstea, comment les humains et les applications (en particulier HAL) pourront y accéder et l’exploiter, et comment il sera maintenu.

Ces spécifications fonctionnelles s’appuient sur l’analyse du besoin1 réalisée dans le cadre

du projet auprès de diverses communautés métiers, certaines déjà utilisatrices du référentiel mots-clés (ProdInra, Activités), d’autres intéressées par une telle ressource.

Elles s’adressent aux membres du projet qui organisent le chantier de refonte ainsi qu’aux informaticiens qui interviendront pour la mise à disposition des outils nécessaires et des connecteurs vers et depuis les applications exploitant le référentiel (en particulier l’équipe projet en charge de la migration de ProdInra vers HAL).

Une première partie décrit de manière détaillée les attendus. Ils sont résumés dans un tableau en seconde partie de ce document.

Spécifications de référentiel et de son

environnement technique

Contenu du référentiel

Couverture

Le référentiel contiendra les mots-clés Inra indexant au moins 2 notices ProdInra pour la période 2007-2018 ou 1 fiche Activités [S1] en date du démarrage du chantier. Un filtrage sera donc opéré sur le contenu actuel du référentiel pour tous les mots-clés n’ayant indexé qu’une seule ressource ou présent uniquement dans Prodinra avant 2007.

Le référentiel cible contiendra également tous les concepts du thésaurus Irstea [S2]. Il présentera une partie décrivant les domaines disciplinaires et activités de l’Institut,

notamment les activités d’appui. Ces domaines et activités seront issus de référentiels gérés par d’autres acteurs de l’Institut (DRH, DEv, diagonal par exemple) et seront simplement intégrés à Voc-Inra-Irstea sans possibilité de les éditer. Les mots-clés dénotant des

localisations géographiques ne seront pas repris [S3] ainsi que les disciplines (le référentiel HAL sera utilisé).

Au-delà du chantier de nettoyage, le référentiel sera complété pour couvrir au plus près les thématiques du futur institut Inra/Irstea [S4], avec des termes du MeSH par exemple2. Les

domaines suivants seront à considérer en particulier : ophtalmologie, nutrition, santé, activité physique, agronomie technique, bactéries végétales, variétés.

1Aubin, S., KARMASYN-VEYRINES, P. (2019). Projet VocInra. Rapport d’analyse du besoin d’un thésaurus institutionnel . https://prodinra.inra.fr/record/464796

(6)

Qualité des entrées

Les majuscules et les accents seront respectés [S5]. A cette fin, un chantier de réécriture des termes préférentiels et alternatifs est nécessaire.

Synonymie

Autant que possible, le référentiel ne doit contenir qu’un concept par élément de

connaissance du domaine [S6]. Un travail de regroupement des synonymes et des variantes typographiques (ou doublons) doit être fait pour :

1) améliorer les résultats de recherche des outils exploitant le référentiel 2) réduire la taille et rendre le référentiel plus cohérent pour les utilisateurs

Il faudra se limiter à des synonymes stricts. A cette fin, certains concepts regroupant des termes non synonymes devront être scindés.

Multilinguisme étendu

Autant que possible, un terme en anglais sera indiqué pour chaque concept du thésaurus [S7]. Ce chantier de traduction n’est pas prioritaire mais c’est un objectif à atteindre à moyen terme. Des ressources externes pourront être mobilisées par des techniques d’alignement.

Structuration du référentiel

Organisation thématique du référentiel

A une structuration purement hiérarchique, risquant de figer certains champs de

connaissance, on préférera une organisation des concepts dans des micro-thésauri ou des collections permettant de délimiter des ensembles thématiques. Un concept pourra

appartenir à plusieurs micro-thésauri si cela est jugé pertinent [S8]. Plusieurs micro-thésauri pourront être regroupés en domaines, comme c’est le cas actuellement dans le thésaurus Irstea [S9]. La structuration du thésaurus Irstea sera utilisée comme base et complétée avec de nouveaux domaines et micro-thésauri propres aux domaines de l’Inra [S10]. Les champs thématiques du référentiel Inra seront abandonnés [S11].

Il faut définir un premier ensemble de micro-thesauri permettant de regrouper les concepts les plus utilisés pour l’indexation des publications et des activités.

Hiérarchie (générique-spécifique / partie-tout...)

Lors de l’exploitation du thésaurus en recherche documentaire, une structuration

hiérarchique des concepts permet de retrouver tous les termes spécifiques (carotte, chou, petit pois) à partir d’une requête plus générique (plantes cultivées). Cependant, l’introduction de hiérarchies induit souvent un point de vue particulier (e.g. les plantes peuvent être

organisées selon leurs caractéristiques ou selon leurs usages) en fonction des

communautés. Dans le cas d’un thésaurus partagé, il est donc important de limiter ces hiérarchies.

Les relations hiérarchiques des mots-clés Inra ne seront pas transférées dans Voc-Inra-Irstea [S12], sa qualité n’étant pas suffisante (incohérences, déséquilibres).

(7)

Quand cela s’avèrera pertinent, certains éléments (formant un ensemble systématique, e.g. vache, veau, taureau, génisse...) pourront être regroupés sous un concept plus générique (ici bovins) et une relation hiérarchique entre eux et ce dernier sera créée [S13].

La partie du référentiel décrivant les disciplines (ou domaines) pourra plus logiquement présenter une structuration hiérarchique (systématique) puisqu’il s’agit d’une classification.

Alignements avec des ressources externes

Dans l’objectif de faire du référentiel un outil de la démarche Open Science de l’Institut et pour améliorer la visibilité et l’interopérabilité des ressources annotées à l’aide du référentiel [S14], les alignements vers des ressources externes comme Agrovoc et GEMET déjà présents dans le référentiel Irstea seront étendus aux concepts nouvellement introduits, notamment vers GACS3.

Identifiants

Le référentiel sera identifié au moyen d’un DOI (Digital Object Identifier) [S15] et chaque concept et micro-thésaurus sera identifié au moyen d’une URI (Uniform Resources Identifier) [S16]. Selon le modèle de représentation choisi, les termes pourront recevoir un identifiant de type URI également [S17]. Ces identifiants devront être pérennes : aucun concept ou micro-thésaurus ne pourra être supprimé, seulement rendu obsolète (deprecated) [S18].

Modèle de représentation

Le référentiel est un ensemble de concepts des domaines de l’Inra/Irstea : agriculture, nutrition et environnement. Ces concepts sont dénotés par des termes préférentiels ou alternatifs dans au moins une langue - le français -, et si possible dans d’autres langues dont l’anglais. Les concepts sont organisés de manière thématique et quand cela est pertinent, de manière hiérarchique.

Le vocabulaire (schéma) de représentation retenu est RDF/SKOS (Simple Knowledge Organisation Systems) [S19], très répandu et parfaitement adapté aux besoins

documentaires et à l’indexation en particulier. SKOS est décrit dans un document de référence du W3C traduit en français4.

SKOS permet d’organiser le référentiel en concepts auxquels s’attachent des termes préférentiels ou alternatifs et ceci pour chaque langue. Il permet aussi de représenter des hiérarchies sous la forme de relation “père-fils” non formelles (elles peuvent être de type générique-spécifique, partie-tout, etc.), ainsi que des regroupements thématiques en micro-thésauri. Des relations transversales de type associatives sont aussi possibles au sein du référentiel lui-même ainsi que des alignements (équivalences) avec des concepts dans d’autres référentiels.

3 https://agrisemantics.org/GACS/ http://browser.agrisemantics.org/gacs/en/

(8)

Source: https://www.seegrid.csiro.au/wiki/pub/CGIModel/SKOSEncodingForVocabulary/SKOS_conceptual__model.png

Interfaces

Consultation sous forme graphique (pour l’oeil humain)

Les concepts valides du thésaurus seront consultables via une interface web. L’outil de consultation devra être accessible librement et gratuitement, sans authentification [S20]. Il présentera les fonctionnalités suivantes :

Une boîte de recherche

De type “google” la boîte de recherche proposera l’auto-complétion à partir de 3 ou 4 lettres tapées [S21]. La liste présentée en retour devra proposer les termes correspondants sur la base des 3 premières lettres des mots des termes du concept recherché [S22] (voir

(9)

Pour chaque langue, la recherche s’effectue sur le terme préférentiel et ses synonymes [S23]. La recherche ne pourra pas s’effectuer sur d’autres champs (ex: définition) [S24].

Un index alphabétique

Les concepts seront présentés selon l’ordre alphabétique qui respectera les règles historiques pour chaque langue [S25]. Par exemple, en français, on respectera l’ordre suivant : e,é,è,ê, ë.

Une vue hiérarchique

Un onglet permettra de rendre compte de la structuration thématique et hiérarchique des concepts [S26]. Les relations génériques/spécifiques entre concepts seront aussi

matérialisées comme dans la figure “Vue thématique et hiérarchique”. L’utilisateur pourra plier et déplier les branches de chaque sous-arbre de la structure [S26].

(10)

Vue thématique et hiérarchique

Fiche concept

Les informations relatives à chaque concept seront consultables sous la forme d’une fiche structurée [S27] en champs dont les valeurs pourront être cliquables si elles sont des références à d’autres constituants du référentiel ou à des ressources externes consultables en ligne.

Les contenus multimédias éventuellement liés à un concept devront pouvoir être consultables directement dans la fiche.

Panier et export

L’outil de consultation doit offrir la possibilité d’exporter le contenu du thésaurus ou une collection sans demander à l’utilisateur de s’authentifier [S28]. Les formats d’export seront RDF/XML, CSV, Excel, freemind [S29].

Idéalement, l’interface doit permettre de collecter des concepts, en les mettant dans un “panier” [S30], constituant ainsi une liste originale que l’utilisateur pourra exporter. Une option pourra permettre d’exporter chaque concept avec ou sans ses hyponymes (narrower).

Interface dans HAL

Un travail de spécification de l’interface d’exploitation du référentiel dans HAL a été mené conjointement avec l’équipe du projet de migration de ProdInra vers HAL. Les spécifications se limitent à la fonctionnalité d’indexation des publications et doit permettre 2 actions :

1) insérer des concepts dans une notice

(11)

Par “utilisateur”, on entend ici toute personne saisissant une notice dans HAL et procédant à son indexation au moyen du thésaurus.

Dans l’interface de saisie de HAL, ces actions seront possibles depuis le champ appelé “Indexation contrôlée” [S31]. L’utilisateur disposera d’une boîte de recherche à la “google” avec auto-complétion à partir de 3 ou 4 lettres tapées [S32]. La recherche s’effectuera dans une langue (sans la préciser) et ramène les fiches correspondantes dans toutes les langues [S33]. La recherche s’effectuera sur le terme préférentiel et ses synonymes [S34] et aucun autre champ [S35]. La liste des concepts répondant à la requête s’affiche sous la boîte de recherche de manière dynamique avec comme information minimale, le micro-thésaurus auquel il appartient [S36]. Une étape intermédiaire pourra permettre de visualiser la fiche complète d’un concept avec sa place dans l’arborescence [S37]. S’il convient, on le sélectionne pour indexer, sinon, retour à la liste 1 ou à la boîte de recherche. L’ajout d’un concept à la fiche d’indexation se fait en cliquant sur ce concept dans la liste proposée [S38]. Si l’option de l’étape intermédiaire (S37) est retenue, un bouton Ajouter ou Indexer sera présent sur la fiche [S39]. Les informations exploitables par le moteur de recherche de HAL ainsi que l’identifiant (URI) du concept seront insérés dans le code de la notice [S39bis]. L’interface d’indexation de HAL permettra de renseigner plusieurs concepts sur une notice [S40]. Lorsque l’utilisateur a cliqué sur entrée/ajouter, la valeur s’inscrit avec un séparateur "injecté" automatiquement. Une croix ou une poubelle à côté du concept permettra de le supprimer de la fiche [S41]. Afin de faciliter et d’améliorer l’indexation, nous souhaiterions la mise en oeuvre d’un outil de suggestions de concepts à partir du texte de la notice (ou du texte intégral déposé) [S42]. L’utilisateur peut supprimer des propositions et faire de nouveaux ajouts avec le module de recherche.

L’intégralité du thésaurus sera facilement accessible depuis l’interface HAL soit au travers d’un widget [S43A] soit par un simple lien hypertexte [S43B]. La première option est préférable puisque l’utilisateur reste dans l’interface HAL, ce qui est moins perturbant. L’utilisateur HAL doit avoir la possibilité de proposer de nouveaux termes ou concepts à l’équipe de maintenance du référentiel. L’interface HAL devra intégrer cette possibilité [S44] par un bouton “Proposer” positionné au bout de la boîte de recherche. Le terme proposé sera alors ajouté à la liste de concepts, et matérialisé autrement (italique, couleur). Il sera sous forme textuelle (contrairement à un concept, il n’aura ni synonyme ni équivalent dans une autre langue). Toutefois, il pourra déjà servir à l’indexation. Le terme, le numéro de la notice ProdInra/HAL et l’identité du relecteur sera envoyé à l’outil de maintenance du référentiel pour validation et intégration comme nouveau concept ou synonyme.

Outil de maintenance du référentiel

L’outil de maintenance doit permettre un travail collectif : il sera accessible en ligne [S45] via un navigateur internet ; chaque utilisateur s’authentifiera de manière individuelle [S46] de préférence via son LDAP sinon par un compte local.

La maintenance et l’évolution du référentiel nécessite d’avoir accès à une interface

permettant d’agir sur le contenu et la structuration du référentiel pour : proposer la création ou la modification d’un concept, d’un micro-thésaurus ou d’un domaine [S47]; commenter un concept [S48]; rendre un concept ou un micro-thésaurus obsolète [S49]; déclarer une

correspondance avec un concept d’un autre référentiel [S50]; accepter/refuser une proposition [S48] faite par un contributeur depuis une application utilisatrice du référentiel [S51]. Les utilisateurs ayant fait une demande de modification devront être informés de l’ajout ou du refus de leur proposition [S52]. Les administrateurs des applications utilisant le

(12)

référentiel devront être notifiés d’ajouts ou de modifications dans le référentiel [S53]. Plus généralement, l’outil intégrera des outils de gestion de workflow (assignation de tâches, validation, vote, commentaires, etc.) [S54].

L’outil de maintenance sera ergonomique et intuitif [S55] en proposant des fonctionnalités comme le glisser-déposer, des actions sur plusieurs éléments en même temps (bulk edit), toute représentation graphique du contenu et de la structure du référentiel (hiérarchie, tri alphabétique…), un outil de recherche au sein du référentiel, le chargement de listes de concepts, l’export dans divers formats dont le tabulé…

L’outil de maintenance devra être sous licence libre [S56].

Accès sous forme programmatique (pour la machine)

Le référentiel pourra aussi être consulté et exploité par des logiciels ou des services de l’Inra ou extérieurs. Le contenu du référentiel pourra être interrogé, extrait par tout programme informatique via des web services (API) [S57] et si possible via un serveur SPARQL permettant de faire des interrogations plus fines [S58].

Les programmes autorisés (internes Inra) pourront interagir avec l’outil de maintenance/la base de données du référentiel [S59], pour transmettre des demandes de modification faites par leurs utilisateurs par exemple. Le contrôle d’accès se fera par un des moyens suivants : IP, LDAP, et/ou clé API [S60].

Une documentation en anglais (et si possible en français) de ces web services doit être disponible [S61].

Cette exposition doit être assurée 24/7 pour assurer la continuité des services exploitant le référentiel [S62].

Les données qui devront être exposées sont : - les identifiants des concepts [S63]

- les informations relatives aux concepts [S64]: termes préférentiels et alternatifs avec information sur la langue, définitions et notes éventuelles, statut, appartenance éventuelle à un/des micro-thésaurus, liens hiérarchiques et associatifs éventuels - les informations relatives aux micro-thésaurus : description, contenu…

- les informations relatives au référentiel lui-même

Solution de stockage du référentiel

La solution de stockage choisie devra être sous licence libre [S65].

Les données devront être stockées dans un format compatible avec des outils du web sémantique. [S66]

Les données devront être accessibles 24/7 [S67].

Une sauvegarde de la base devra être assurée régulièrement [S68].

Maintenance et évolution du référentiel

Gouvernance

La gouvernance du référentiel sera collective [S69]: un comité éditorial définira les critères d’ajout et de modification d’une entrée qui permettront de traiter les demandes des

(13)

contributeurs. Le responsable scientifique du référentiel sera le/la Directeur de la Direction pour la Science Ouverte (DipSO).

Nous rédigerons une « charte thésaurus » qui rappellera les règles d’écriture et de

construction des concepts, de leurs termes et des relations à l’œuvre dans le thésaurus afin de garantir l’homogénéité structurelle du thésaurus.

Nous rédigerons et diffuserons un guide des bonnes pratiques pour l’exploitation et en particulier l’indexation à l’aide du thésaurus. Les recommandations permettront de limiter les demandes d’ajouts non justifiées, par exemple de concepts très spécifiques quand la

composition à partir de 2 termes existants répond au besoin.

Sources

Prenons l’exemple de l’alimentation de RAMEAU. Elle est de deux origines :

- la BNF fournit les mises à jour trimestrielles, à partir de son fichier d’autorité matières - le réseau des utilisateurs Rameau, habilités à proposer des créations, des

modifications... des notices d’autorité

De la même façon, nous souhaitons exploiter des ressources comme ProdInra ou les analyses bibliométriques, porteuses d’une forte expertise sur les sujets de recherche de l’Inra pour intégrer de nouveaux concepts au référentiel [S70]. Une analyse régulière de tels fonds permet de détecter des nouveautés. L’exploitation d’autres ressources sémantiques comme le MeSH pourra être envisagée pour compléter certaines parties du référentiel, en fonction des besoins et de la disponibilité de telles ressources.

Parallèlement, les utilisateurs des services exploitant le référentiel pourront proposer directement l’ajout des entrées qui leur manquent pour réaliser une tâche, par exemple une indexation [S71]. Ces services ou logiciels doivent prévoir les interfaces permettant à leurs utilisateurs d’envoyer des demandes de modification du référentiel. En retour, la décision de prendre ou non en compte une demande de modification doit être notifiée au demandeur [S72].

Modalités

La maintenance du référentiel sera collective : plusieurs personnes formeront un bureau éditorial qui assurera le support auprès des utilisateurs et l’évolution du référentiel en fonction des demandes de modifications ou d’actions initiées par le bureau lui-même. Nous privilégierons des campagnes de mise à jour [S73] plutôt que des ajouts ponctuels au fil des demandes sans exclure a priori ce mode. A l’image du thésaurus Eau et Biodiversité, le bureau éditorial se réunira une à deux fois par an pour une réunion téléphonique d’une durée de trois heures. Y seront décidés l’entrée ou la suppression de termes dans le thésaurus, ou encore le remaniement de certaines branches avec le concours d’experts si besoin.

Le groupe de maintenance pourra si nécessaire s’organiser en sous-groupes thématiques ce qui pourrait aider à solliciter des experts. Un effort particulier sur une branche thématique (ou un micro-thésaurus) pourra être initié par le bureau éditorial.

Les aspects collaboratifs de l’outil de maintenance faciliteront l’intervention asynchrone des différents intervenants sur le référentiel.

(14)

Profils d’utilisateurs et cas d’usage

Dans cette section, nous présentons les profils des utilisateurs qui interagiront avec le référentiel soit directement, soit via une application tierce. Le profil définit entre autres les droits qu’un utilisateur particulier a, vis à vis de la ressource.

La description des profils est accompagnée d’un diagramme UML. La relation d’association (flèche verticale vide) représente l’héritage des droits entre acteurs.

Grand public

Toute personne a accès au référentiel pour le visualiser et le consulter. Cet utilisateur peut afficher le référentiel, naviguer dans sa structure, faire des recherches et exporter tout ou partie de son contenu. Il a accès à ces fonctionnalités via l’interface de consultation mise à disposition sur le web ou via une interface programmatique type API. En cas de réutilisation de tout ou partie du contenu du référentiel, l’utilisateur devra citer sa source, selon les termes prévus par la Licence Ouverte (équivalente à la CC-BY) sous laquelle sera diffusé le référentiel.

Figure 1: cas du grand public

Contributeur

C’est un agent Inra, authentifié par son compte LDAP [S46]. Il est compétent dans un ou plusieurs domaines thématiques couverts par le référentiel. Il interagit avec le référentiel soit directement, soit au travers d’une application tierce comme ProdInra.

Cet utilisateur peut, en plus des actions autorisées pour le grand public, proposer des

modifications du contenu et de la structuration du référentiel [S47]. Il peut donc proposer des modifications au niveau :

- du concept (création, déplacement) - des termes (synonyme, traduction)

(15)

Figure 2: cas du contributeur

Membre du bureau éditorial (éditeur)

C’est une personne en charge de la maintenance et de l’évolution du référentiel. Il peut accepter ou refuser les propositions des contributeurs, et dans le cas où il les accepte, les intègre dans le référentiel au moyen de l’interface d’administration. Il peut créer ou modifier un concept, le déplacer et le déprécier (mais ne peut pas le supprimer). Il peut donc intervenir au niveau :

- du concept (création, déplacement, dépréciation) - des termes (synonyme, traduction, suppression)

- des microthésaurus (création, modification, dépréciation)

Figure 3: cas du membre du comité éditorial

Résumé des spécifications

L’identifiant (Id) de chaque spécification permet un renvoi au texte. La valeur M/m indique l’importance majeure (M) ou mineure (m) de la fonctionnalité.

(16)

Fonctionnalités principales attendues

Contenu du référentiel

Description Id M /m

Couverture 1 Le référentiel contiendra les mots-clés Inra indexant au moins 2 notices ProdInra sur la période 2007-2018 ou 1 fiche Activités en date du démarrage du chantier.

1 M

Couverture 2 Le référentiel contiendra également tous les concepts du thésaurus Irstea.

2 M

Couverture 4 Les mots-clés dénotant des localisations

géographiques ne seront pas repris ainsi que les disciplines HAL.

Les localisations géographiques pourront être indiquées dans un champ à part de HAL en utilisant un référentiel dédié type Geonames.

Les disciplines sont déjà gérées dans un champ spécifique dans HAL

3 M

Couverture 5 Au-delà du chantier de refonte, le référentiel sera complété pour couvrir au plus près les thématiques du futur institut Inra/Irstea, avec des termes du MeSH par exemple5. Les domaines suivants seront

à considérer en particulier: ophtalmologie, nutrition, santé, activité physique, agronomie technique, bactéries végétales, variétés.

4 m

Qualité des entrées

Les majuscules et les accents seront respectés. 5 M Synonymie Autant que possible, le référentiel ne doit contenir

qu’un concept par élément de connaissance du domaine. Il faudra se limiter à des synonymes stricts.

6 M

Multilinguisme Autant que possible, chaque concept du thésaurus présentera au moins un terme en anglais.

7 m

Structuration du référentiel

Description Id M /m

Organisation thématique 2

On préférera une organisation des concepts dans des micro-thésauri ou des collections permettant de délimiter des ensembles thématiques. Un concept pourra appartenir à plusieurs micro-thésauri si cela est jugé pertinent.

8 M

Organisation Plusieurs micro-thésauri pourront être regroupés en 9 M

(17)

thématique 1 domaines, comme c’est le cas actuellement dans le thésaurus Irstea

Organisation thématique 3

La structuration du thésaurus Irstea sera utilisée comme base et complétée avec de nouveaux domaines et micro-thésauri propres aux domaines de l’Inra.

10 M

Organisation thématique 4

Les entrées thématiques du référentiel Inra seront abandonnées.

11 M Relations

hiérarchiques

Les relations hiérarchiques des mots-clés Inra ne seront pas transférées dans Voc-Inra-Irstea

12 M Relations

hiérarchiques

Quand cela s’avèrera pertinent, certains éléments systématiques (ex. animaux d’élevage, pesticides) pourront être regroupés sous un concept plus générique et une relation hiérarchique entre eux et ce dernier sera créée en s’assurant de ne pas introduire de point de vue particulier.

13 m

Relation d’équivalence

Les alignements vers des ressources externes comme Agrovoc et GEMET déjà présents dans le référentiel Irstea seront étendus aux concepts nouvellement introduits et vers d’autres référentiels

14 m

Identifiants

Description Id M /m

Identifiant 1 Le référentiel sera identifié au moyen d’un DOI (Digital Object Identifier)

15 M Identifiant 2 Chaque concept et micro-thésaurus sera identifié

au moyen d’une URI (Uniform Resources Identifier)

16 M Identifiant 3 Selon le modèle de représentation choisi (si

SKOS-XL), les termes pourront recevoir un identifiant de type URI également.

17 m Identifiant 4 Ces identifiants devront être pérennes : aucun

concept ou micro-thésaurus ou terme ne pourra être supprimé, seulement rendu obsolète (deprecated).

18 M

Représentation du référentiel

Description Id M /m

Modèle Le vocabulaire (schéma) de représentation retenu est RDF/SKOS (Simple Knowledge Organisation Systems), très répandu et parfaitement adapté aux besoins documentaires et à l’indexation en

particulier.

Document de référence de SKOS :

(18)

http://www.sparna.fr/skos/SKOS-traduction-francais.html

Interfaces

Consultation sous forme graphique (pour l’oeil humain)

Description Id M /m

Droits d’accès L’outil de consultation devra être accessible librement et gratuitement, sans authentification.

20 M Rechercher 1 Rechercher via une boîte de recherche (type

google).

L'auto-complétion se déclenche après les 3 ou 4 premières lettres du terme.

21 M

Rechercher 2 La liste de résultats présentée en retour devra proposer les termes correspondants sur la base des 3 premières lettres de chaque mot des termes du concept recherché.

22 M

Rechercher 3 Pour chaque langue, la recherche s’effectue sur le terme préférentiel et ses synonymes

23 M Rechercher 4 La recherche ne pourra pas s’effectuer sur d’autres

champs (ex: définition)

24 M Parcourir le

référentiel 1

Les concepts seront présentés selon l’ordre alphabétique

qui respectera les règles historiques pour chaque langue (Par exemple, en français, on respectera l’ordre suivant: e,é,è,ê, ë).

25 M

Parcourir le référentiel 2

Un onglet permettra de rendre compte de la structuration thématique et hiérarchique des concepts.

Les relations génériques/spécifiques entre concepts seront aussi matérialisées sous forme de

“branches” que l’utilisateur pourra plier et déplier.

26 M

Fiche concept Les informations relatives à chaque concept seront consultables sous la forme d’une fiche structurée. Les champs faisant référence à d’autres concepts du thésaurus ou à des ressources accessibles en ligne présenteront des liens hypertextuels.

27 M

Export 1 Un bouton doit permettre d’exporter le contenu du thésaurus, sans demander à l’utilisateur de s’authentifier

28 M

Export 2 Les formats d’export seront RDF/XML, CSV, Excel, freemind

29 m Export 3 L’outil de consultation doit permettre de collecter 30 m

(19)

des concepts pour les mettre dans un “panier” exportable. Une option pourra permettre d’exporter chaque concept avec ou sans ses hyponymes (narrower)

Interface dans HAL

Description Id M /m

Boîte de

recherche HAL : nom

Nommer le champ de la boîte de recherche “Indexation contrôlée”

31 M Rechercher 1 Rechercher via une boîte de recherche (type

google) avec auto-complétion à partir de 3/4 lettres tapées. La liste de résultats présentée en retour devra proposer les termes correspondants aux 3 premières lettres de chaque mot des termes du concept recherché.

32 M

Rechercher 2 La recherche s’effectuera dans une langue (sans la préciser) et ramène les fiches correspondantes dans toutes les langues

33 M

Rechercher 3 La recherche s’effectuera sur le terme préférentiel et ses synonymes.

34 M Rechercher 4 La recherche ne pourra pas s’effectuer sur d’autres

champs (ex: définition)

35 M Résultat de la

recherche 1

La liste des concepts répondant à la requête s’affiche sous la boîte de recherche de manière dynamique avec comme information minimale, le micro-thésaurus 36 M Résultat de la recherche 2 (option compromise)

Etape intermédiaire de visualisation de la fiche d’un concept avec sa place dans l’arborescence.

37 m

Sélection du concept retenu 1

Cliquer sur le concept retenu pour l'injecter dans la zone de saisie ou sur le bouton.

38 M Sélection du

concept retenu 2

Bouton Ajouter/Indexer sur la fiche concept si on a l’étape intermédiaire

39 m Insertion du

concept

Les informations exploitables par le moteur de recherche de HAL ainsi que l’identifiant (URI) du concept seront insérés dans le code de la notice

39bis M

Ajout de plusieurs concepts

Le système permet également de saisir plusieurs valeurs.

40 M Supprimer un

concept

Cliquer sur la croix, une poubelle... à côté du concept sur la fiche

41 M Suggestion

automatique de concepts

A partir du contenu textuel (titre, résumé, mots-clés auteur), le système propose une liste de concepts du référentiel. L’utilisateur peut supprimer des

(20)

(I have dream) propositions et faire de nouveaux ajouts avec le module de recherche

Parcourir le référentiel 1A

Afficher un widget permettant de naviguer dans le thésaurus en restant dans l’interface HAL

43A m Parcourir le

référentiel 1B

Afficher un lien vers tout le thesaurus (pointe vers l’interface skosmos)

43B m Proposer un terme

candidat 1

Si le terme recherché n’existe pas dans le thésaurus, le déposant/relecteur clique sur le bouton “Proposer” positionné au bout de la boîte de recherche. Le terme est ajouté à la liste de

concepts, et matérialisé autrement (italique, couleur). Il est sous forme textuelle et peut déjà servir à l’indexation. Le terme, le numéro de la notice ProdInra/HAL et l’identité du relecteur est envoyé à Voc-Inra-Irstea pour validation et

intégration comme nouveau concept ou synonyme.

44 M

Outil de maintenance du référentiel

Description Id M /m

Clients L’outil de maintenance doit être accessible en ligne via un navigateur internet afin de permettre un travail collectif

45 M

Authentification Chaque utilisateur de l’outil de maintenance (profil éditeur) s’authentifie de manière individuelle de préférence via son LDAP sinon par un compte local

46 M

Créer/modifier Chaque éditeur pourra proposer une création ou une modification d’un concept, d’un micro-thésaurus ou d’un domaine

47 M

Commenter Chaque éditeur pourra commenter un concept 48 m Déprécier Chaque éditeur pourra rendre un concept ou un

micro-thésaurus obsolète

49 M Correspondance

avec un autre référentiel

Chaque éditeur pourra déclarer une

correspondance avec un concept d’un autre référentiel

50 M

Workflow 1 Chaque éditeur pourra accepter/refuser une proposition faite par un contributeur depuis une application utilisatrice du référentiel

51 M

Workflow 2 Les contributeurs ayant fait une demande de modification devront être informés de l’ajout ou du refus de leur proposition.

52 M

Workflow 3 Les administrateurs des applications utilisant le référentiel devront être notifiés d’ajouts ou de

(21)

Workflow 4 Plus généralement, l’outil intégrera des outils de gestion de workflow (assignation de tâches, validation, vote, commentaires, etc.)

54 M

Ergonomie L’outil de maintenance sera ergonomique et intuitif en proposant des fonctionnalités comme le glisser-déposer, des actions sur plusieurs éléments en même temps (bulk edit), toute représentation graphique du contenu et de la structure du

référentiel (hiérarchie, tri alphabétique…), un outil de recherche au sein du référentiel, le chargement de listes de concepts, l’export dans divers formats dont le tabulé

55 M

Licence logicielle L’outil de maintenance devra être sous licence libre 56 M

Exposition des données et import de sources

Le référentiel pourra aussi être consulté et exploité par des logiciels ou des services de l’Inra ou extérieurs.

Web services

Description Id M /m

API 1 Le contenu du référentiel pourra être interrogé, extrait par tout programme informatique via des web services (API)

57 M

API 2 Si possible via un serveur SPARQL permettant de faire des interrogations plus fines.

58 m API 3 Les programmes autorisés (internes Inra) pourront

interagir avec l’outil de maintenance/la base de données du référentiel, pour transmettre des demandes de modification faites par leurs utilisateurs par exemple

59 M

Accès Le contrôle d’accès se fera par un des moyens suivants: IP, LDAP, et/ou clé API.

60 M Documentation Une documentation en anglais et si possible en

français de ces web services doit être disponible

61 M Continuité de

service

Cette exposition doit être assurée 24/7 pour assurer la continuité des services exploitant le référentiel

62 M Type de données

1

Les données exposées sont les identifiants des concepts

63 M Type de données

2

Les données exposées sont les informations relatives aux concepts : termes préférentiels et alternatifs avec information sur la langue, définitions et notes éventuelles, statut, appartenance

éventuelle à un/des micro-thésaurus, liens

(22)

hiérarchiques et associatifs éventuels

Solution de stockage du référentiel

Description Id M /m

Droits d’accès La solution de stockage choisie devra être sous licence libre

65 M Format Les données devront être stockées dans un format

compatible avec des outils du web sémantique

66 M Continuité de

service

Les données devront être accessibles 24/7 67 M Sauvegarde Une sauvegarde de la base devra être assurée

régulièrement

68 M

Maintenance et évolution du référentiel

Description Id M /m

Gouvernance La gouvernance du référentiel sera collective, sur la base d’une charte rappelant les règles d’écriture et critères relatifs au contenu et à la structuration pour en garantir l’homogénéité

69 M

Sources 1 Nous exploiterons des ressources comme ProdInra ou les analyses bibliométriques, porteuses d’une forte expertise sur les sujets de recherche de l’Inra pour intégrer de nouveaux concepts au référentiel

70 m

Sources 2 Les utilisateurs des services exploitant le référentiel pourront proposer directement l’ajout des entrées

71 M Interactions La décision de prendre ou non en compte une

demande de modification doit être notifiée au demandeur

72 m

Evolution L’évolution du référentiel se fera principalement par des campagnes de mise à jour

Figure

Figure 1: cas du grand public
Figure 2: cas du contributeur

Références

Documents relatifs

Se présenter Une commande par téléphone Dans la chambre Un autographe, s'il vous plaît!. Faire les courses Faites de

L'option de gestion de la chaleur HEAT-ZONE ® -GAZ optionnel est offerte pour être utilisée avec les appareils COSMO- IFT-B et doit être utilisée avec la

Après l’installation d’une télécommande, d’un contrôle mural ou d’un interrupteur mural par un technicien qualifié, suivez les instructions fournies avec le contrôle

Le kick-off proprement dit est organisé au plus tard 1 (un) mois après la date mentionnée dans le courrier notifiant l’approbation de l’offre. La période de deux ans

• La localisation et le fuseau horaire peuvent également être définis lorsque l’enregistreur Song Meter Micro est couplé pour la première fois à l’application Configurator

RAPPELEZ-VOUS QU'IL EST INTERDIT DE JETER L'ÉQUIPEMENT USAGÉ AVEC D'AUTRES DÉCHETS Pour plus d'informations sur le système de collecte des déchets d'équipements

Ce réservoir doit être rempli avec de l’eau claire ; il permet de rincer tout le circuit d’aspiration, de refoulement, la pompe, le régulateur de pression, les jets et les buses,

Pendant l’opération d’extraction de la glace, Ne jamais mettre la machine sur STOP pour passer d’une touche à l’autre: si vous êtes en turbinage et que vous souhaitez