• Aucun résultat trouvé

Le plan de gestion de données de la recherche : contexte, enjeux et études de cas | Unité Régionale de Formation à l'Information Scientifique et Technique

N/A
N/A
Protected

Academic year: 2021

Partager "Le plan de gestion de données de la recherche : contexte, enjeux et études de cas | Unité Régionale de Formation à l'Information Scientifique et Technique"

Copied!
46
0
0

Texte intégral

(1)

Le plan de gestion de données :

contexte, enjeux et structure

Toulouse, 19 mai 2017

Magalie MOYSAN, Bureau des archives, Université Paris Diderot

Nathalie REYMONET, Direction d’Appui à la Recherche, Université Paris Diderot

En collaboration avec Aurore CARTIER, et Renaud DELEMONTEZ, Service Commun de Documentation, Université Paris Descartes

(2)
(3)

BIG DATA

RESEARCH DATA

OPEN DATA

OPEN RESEARCH DATA

(4)

BIG DATA

Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.

Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse, visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.

Exemples de projets concernés :

 séquençage haut débit

 observatoire virtuel en astronomie  simulation en physique et énergie  imagerie médicale

 données environnementales biotiques /abiotiques

 données économiques (e-commerce, systèmes décisionnels)  données sociales (réseaux sociaux, bibliothèques

numériques, patrimoines culturels)

Open data, open research data, big data

OPEN DATA

Mouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et exploitables.

Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques.

En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.

•Directive 2003/98/CE

•Ordonnance n°2005-650 du 6 juin 2005 •Directive 2013/37/UE

RESEARCH DATA

Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche

scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Définition de l’OCDE

(5)

Définition de la donnée de recherche

« Les données, ou unités d’information, qui sont créées au cours d’une recherche, subventionnée ou non, et qui sont organisées ou formatées de telle sorte qu’elles soient communicables, interprétables et adaptées à un traitement souvent informatisé ».

Université de Bristol

« Les données de la recherche sont des enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires à la validation des résultats de recherche »

Organisation de Coopération et de Développement Économiques (OCDE) « Les données de la recherche sont l’ensemble des

informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche. »

Association des archivistes français. Section « Aurore »

« 1) the data, including associated metadata (i.e. the metadata describing the research data deposited), needed to validate the results presented in scientific publications ;

2) other data (i.e. curated data not directly attributable to a publication, or raw data), including associated metadata.»

Commission européenne pour Horizon 2020

« Les données de la recherche sont un ensemble d’informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d’un processus de recherche »

(6)

POURQUOI GÉRER LES DONNÉES

DE LA RECHERCHE ?

(7)

Données exploitées pour l’élaboration des résultats

Données analysées, agrégées, compilées, transformées Données primaires produites ou collectées au cours de la recherche INVISIBLES VISIBLES

Améliorer la visibilité des résultats

Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne. Perte d’information importante au cours du processus de publication INVISIBLES

(8)

Enjeux du partage des données

Nouvelles sources pour la recherche

Economies dans les coûts de production Valoriser la production

scientifique de l’établissement

Fiabiliser les résultats de recherche

anticiper les besoins de gestion, protection et partage Mieux diffuser les résultats Conditions de production non reproductibles Fouille de données data mining

(9)

Gestion, partage et archivage des données

Gestion des données Data management Partage des données Open data

Données en appui des publications ou OK pour diffusion. Autres données produites au cours du projet. Pas de diffusion.

Archivage Long term preservation

Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement les besoins de la recherche sur tout au long du cycle de vie

des données

Diffusion de manière structurée selon une méthode et une licence ouverte des données pour leur libre accès et leur réutilisation par tous, sans restriction technique,

juridique ou financière

Conservation à long terme des données qui présentent un intérêt scientifique, juridique ou historique.

Dépôt en archives ou entrepôts ouverts

Archivage auprès d’un organisme agréé Données en appui des publications ou OK pour diffusion.

(10)

Création Description : métadonnées Stockage Diffusion Archivage Traitement Rédaction d’un DMP

Le cycle de vie de la donnée

Protection

Réutilisation

(11)

Archivage : enjeux de stockage et de conservation

Planification de la préservation Sélectionner Entrée Eliminer les données inutiles 1 2 Vérifier la possibilité d’archivage Accès Gestion des données Stockage Administration Consulter 3 4

Déposer dans une plateforme d’archivage

Autres donnés produites au cours du projet. Pas de diffusion.

Les étapes

Conserver des preuves

Assurer la continuité des activités de recherche Conserver le patrimoine de l’établissement

(12)

Les exigences des financeurs

A l’international : US National Science Foundation, UK Research Councils, Wellcome Trust, The Netherlands Organisation for Scientific Research…

« Open research data pilot » demande au chercheur :

1) produire un plan de gestion des données: Data Management Plan (DMP) 2) déposer leurs données et métadonnées dans un entrepôt de données.

Plan d’action de l’ANR et appel à projets générique 2016 : les chercheurs sont encouragés à tirer parti des infrastructures et des grandes bases de données existantes ; à promouvoir leurs résultats en open access

(13)

Données de recherche

Contrat édition

Loi Num, Art. 30 : Réutilisation des données Loi Num, Art. 38 : fouille de texte /

data mining

Données de recherche OPEN Protection données perso / PI CLOSE Fouille de texte Protection données perso / PI CLOSE publi publi OPEN

« II.-Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations [publiques] (…) ne

sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur,

l'établissement ou l'organisme de recherche, leur réutilisation est

libre.

« III.-L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la

réutilisation des données de la recherche rendues publiques dans le cadre de sa publication

Loi Numérique, Article 30

Les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits

scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale.

(14)

Loi Num, Art.6 : ouverture des informations publiques

produites par les établissements ESR

Loi Valter 2015 Loi Numérique 2016 datagouv.fr Open Data 2011 Dérogation ESR Open data par défaut Dérogation ESR Protection données perso / PI Pack conformité CNIL Données de la recherche ? OPEN OPEN CLOSE

(15)
(16)

• décrire le cycle de vie des données produites ou collectées au cours du projet de recherche.

• anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une diffusion et d’une conservation futures des données.

Plan de gestion de données /data management plan (DMP)

Document formel précisant la manière dont les données seront produites, traitées, décrites, partagées ou protégées et conservées au cours et à

l’issue du projet.

(17)

http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_ pilot/h2020-hi-oa-data-mgt_en.pdf

Ce qui change en 2017 :

- Le pilote ORD est étendu à toutes les thématiques => Art.29.3 => open data par défaut

- Les chercheurs peuvent se retirer du pilote : - au moment de l’appel à projets,

- pendant la préparation du grant agreement - après la signature du grant agreement

et

- réaliser un DMP facultatif

v2 P5/P7 :

- Intégrer la notion FAIR - Conserver le cycle de vie - Préparer l’informatisation

Le pilote H2020 – ce qui change en 2017

(18)

Horizon 2020 FAIR data management template

1. Data Summary 2. FAIR data

2.1. Making data findable, including provisions for metadata 2.2. Making data openly accessible

2.3. Making data interoperable

2.4. Increase data re-use (through clarifying licences) 3. Allocation of resources

4. Data security 5. Ethical aspects 6. Other issues

(19)

FAIR Data Principles

Enjeu : faciliter la découverte de connaissances Moyen : aider les humains et les machines à :

- découvrir - accéder - intégrer

(20)
(21)
(22)

Le DMP Tool de la California Digital Library de

l’Université de Californie

(23)
(24)
(25)

Les principaux champs d’un DMP

Section 1-2 : Informations générales sur le projet

Section 3 : Informations générales sur les données

Section 4 : Sécurité, gestion des risques et éthique

Section 5 : Jeux de données

Section 6 : Principes de dissémination et protection

Section 7 : Archivage des données

Section 8 : Ressources nécessaires

Propre à chaque jeu de données sauf si valable à l’échelle du projet

(26)

Data management plan

Section 1 : En-tête

Objectif : identifier le document et son contenu Principaux champs : version ; historique

Section 2 : Informations générales sur le projet Objectif : identifier le projet

Principaux champs :

- Financeur

- Référence de la convention de financement - Mots-clés

(27)

Data management plan

Section 3 : Informations générales sur les données Objectif : préciser comment les données ont été

produites ou collectées, à qui elles appartiennent, comment y accéder

Principaux champs :

- Méthode de production - Propriété

(28)

Data management plan

Section 4 : Sécurité, gestion des risques et éthique Objectif : Evaluer les risques et menaces qui

pèsent sur les données tout au long du projet, prendre les mesures nécessaires pour leur

protection.

Principaux champs :

- Risques et menaces - Mesures de protection - Ethique

(29)

Data management plan

Section 5 : Jeux de données

Objectif : Décrire pour chaque jeu de données sa

nature, ses caractéristiques techniques et ses modalités de diffusion.

Principaux champs :

- Identifiant du jeu de données - Formats

(30)

Data management plan

Section 6 : Dissémination et protection

Objectif : identifier les données sensibles, leur

besoin de protection, le potentiel d’ouverture des données

Principaux champs :

- Exceptions au principe de diffusion - Embargo

- Licence

- Modalités de diffusion

”as open as possible, as closed as necessary“

Ces éléments sont décrits pour le projet dans la première version du DMP, puis par jeu de données dans les versions suivantes.

(31)

Data management plan

Section 7 : Archivage des données

Objectif : Sélectionner et prévoir l’archivage à long

terme des données ayant vocations à être conservées

Principaux champs :

Sort

 Sélection  Volume

(32)

Data management plan

Section 8 : Ressources nécessaires

Objectif : contribuer au budget prévisionnel du

projet en anticipant les coûts, dont ceux éligibles

Principaux champs :

- Matériel - Personnels - Formation - Archivage

(33)

Préparation du DMP Accompagnement par les professionnels IST

Révision(s) du DMP

Periodic Review

Outils de gestion

Dépôt des données à

partager dans un entrepôt Dépôt des une plateforme d’archivagedonnées à conserver sur

Dans les 6 premiers mois A la fin du projet Au cours du projet Engagement dans H2020 Finalisation du DMP – VF Final Review

Réponse à l’appel à projets

Envoi à la Commission européenne Envoi à la Commission européenne Envoi à la Commission européenne DMP – V1 Evolutions du consortium Nouvelles données

Engagement dans le pilote : opt-in opt-out

(34)
(35)
(36)

ERC

L’ERC soutien le principe de l’open access aux données de la recherche dans ses programmes de travail :

- ERC 2016 : si le bénéficiaire « opt-in » (sur une base volontaire)  le bénéficiaire doit faire un DMP, i.e. l'article 29.3 s’applique

- ERC 2017 : par défaut, le bénéficiaire doit faire un DMP, i.e. l'article 29.3 s’applique

36

DMP (2017)

Aucun financement supplémentaire pour les activités de gestion de données en cas de « opt-in ».

Les coûts liés à l'accès libre aux données de recherche sont éligibles dans la subvention, dans le cadre des conditions générales d'admissibilité.

(37)

LES COMPÉTENCES ATTENDUES

(38)

DMP : un workflow de compétences

Chercheur : processus de production et domaine scientifique

IST : métadonnées, entrepôts, archivage

Informatique : sécurité des données

Juridique : PI des données

Ingénieur-projet : agreement, éligibilité des coûts

Données scientifiques : DMP

(39)

Les compétences attendues côté services documentaires

 Gestion de bases de données

 Métadonnée et documentation

 Indexation, ontologies, gestion de

vocabulaires

 Data visualisation

 Licences et propriété intellectuelle

 Protection des données et enjeux

éthiques

(40)

Enjeux, obstacles et compétences pour l’archivage

Enjeux

Conserver le patrimoine numérique

Positionner l’archivage en tant que service

Assurer un continuum entre gestion et conservation

Obstacles

Profession encore récente dans l’ESR

Méconnaissance des compétences par les chercheursMoyens mis à disposition

Compétences

Vision sur l’ensemble du cycle de vie

Expertise en conservation de contenu contextualisé

Expertise en gestion de l’information

(41)

QUELLES

RÉALISATIONS ?

QUELLES INTERROGATIONS ?

(42)

1. Explicitation des exigences H2020 en matière publications et de données : analyse des guidelines, périmètre de l’ORD pilot, aide au montage, impact/plan de dissémination.

Réseau

recherche Europe

2. Elaboration d’un guide de rédaction d’un plan de gestion de

données et mise au point d’un modèle conforme aux exigences H2020 mais transposable à d’autres projets.

3. Intervention dans le cadre du cycle de formations mis au point par le Réseau recherche Europe d’USPC à destination des ingénieurs projets et chargés de mission Europe des établissements de la ComUE

Accompagner les réponses aux

appels à projets d’ H2020

Télécharger

le guide Télécharger le template

(43)

Développer des formations à destination des

doctorants et jeunes chercheurs d’USPC

1. Publications scientifiques et Open Access

2. Trouver et réutiliser des jeux de données

3. Gérer, conserver et valoriser les données de la recherche

4. Rédiger son DMP

2015-2016

→ 2 sessions de formation (une quarantaine de participants)

« + de liens concrets vers des sources de données existantes »

« + de manipulations d’outils » « développer les enjeux de propriétés intellectuels et le choix des licences »

« des approches plus disciplinaires et méthodologiques »

(44)

Partager et confronter nos pratiques avec nos

collègues et différentes communautés métiers

ANF-CNRS - 6-8 juillet 2016

ANF sur les données sur la recherche

Atelier autour de la rédaction d’un DMP

Public cible : documentalistes et personnels de laboratoire en SHS

ENSSIB - 10 mars 2015

Gestion et diffusion des données de la recherche : enjeux et perspectives

Public cible : personnels de bibliothèque en formation continue

AAF - 6 janvier 2016

Présentation sur le DMP auprès de l’Association des archivistes français

Public cible: membres du groupe de travail Archives scientifiques

29 mars 2016

-

CNRS Site Pouchet

Matinée d’information sur Horizon 2020

Public cible: chercheurs, ingénieurs projet Europe, doctorants, professionnels de l’IST

MATE SHS - 26 novembre 2015

Gérer les données de la recherche : enjeux, challenges et perspectives

Public cible: chercheurs en SHS

Journées FOSTER – 29/30 juin 2015

Open Access et gestion des données dans Horizon 2020: intégrer les nouveaux attendus dans vos projets de recherche

Public cible: ingénieur projet Europe, chargés de valorisation, chercheurs, pressionnels IST

(45)

Formation URFIST de Strasbourg - 2 décembre 2016

Gérer les données de la recherche

Public cible: professionnels de l’IST, doctorants

Open Access Week de Saclay - 24 octobre 2016

Atelier autour de la rédaction d’un DMP

Public cible: chercheurs et ingénieurs projet Europe

Avril 2016 –

bourse de mobilité

professionnelle

Des infrastructures locales plus développées mais globalement des moyens comparables en matière de sensibilation, de formation et d’accompagnement à la rédaction des DMP et à la gestion des données.

(46)

Contacts

Aurore CARTIER - aurore.cartier@parisdescartes.fr

Magalie MOYSAN - magalie.moysan@univ-paris-diderot.fr

Références

Documents relatifs

• Dfposer les donnfes dans un entrepôt pour diffsion avec objectf de partage et de pfblicaton  ouverture des donnfes pour le peer review (fvaluaton et validaton par les pairs)

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

Afin d’évaluer la qualité chimique et d’apprécier le degré de potabilité de cinq marques d’eaux minérales commercialisées sur le marché algérien, nous

elaborée orthologues, paralogues, familles de gènes elaborée cartes (génétiques, QTLs, physiques) elaborée données passeport populations/souches elaborée

Dans une institution fortement marquée par les partenariats au Sud et au Nord, publics et privés, l’usage du Dataverse contribue à l’émergence d’une culture d’entreprise

Formation « Plan de Gestion des Données » • 5 et 6 avril 2018 26.. Par

In this work, we model the spectrum selection process as a multi-arm bandit problem and apply Thompson sampling, a fast and efficient algorithm, to find the best channel in the

Parmi les procédures obligatoires, il est est une qui réclame la rédaction de la part de l’équipe de recherche qui candidate sur un projet financé sur fonds publics d’envoyer