Le plan de gestion de données :
contexte, enjeux et structure
Toulouse, 19 mai 2017
Magalie MOYSAN, Bureau des archives, Université Paris Diderot
Nathalie REYMONET, Direction d’Appui à la Recherche, Université Paris Diderot
En collaboration avec Aurore CARTIER, et Renaud DELEMONTEZ, Service Commun de Documentation, Université Paris Descartes
BIG DATA
RESEARCH DATA
OPEN DATA
OPEN RESEARCH DATA
BIG DATA
Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.
Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse, visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.
Exemples de projets concernés :
séquençage haut débit
observatoire virtuel en astronomie simulation en physique et énergie imagerie médicale
données environnementales biotiques /abiotiques
données économiques (e-commerce, systèmes décisionnels) données sociales (réseaux sociaux, bibliothèques
numériques, patrimoines culturels)
Open data, open research data, big data
OPEN DATA
Mouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et exploitables.
Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques.
En Europe et dans certains pays, des directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.
•Directive 2003/98/CE
•Ordonnance n°2005-650 du 6 juin 2005 •Directive 2013/37/UE
RESEARCH DATA
Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche
scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Définition de l’OCDE
Définition de la donnée de recherche
« Les données, ou unités d’information, qui sont créées au cours d’une recherche, subventionnée ou non, et qui sont organisées ou formatées de telle sorte qu’elles soient communicables, interprétables et adaptées à un traitement souvent informatisé ».
Université de Bristol
« Les données de la recherche sont des enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires à la validation des résultats de recherche »
Organisation de Coopération et de Développement Économiques (OCDE) « Les données de la recherche sont l’ensemble des
informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche. »
Association des archivistes français. Section « Aurore »
« 1) the data, including associated metadata (i.e. the metadata describing the research data deposited), needed to validate the results presented in scientific publications ;
2) other data (i.e. curated data not directly attributable to a publication, or raw data), including associated metadata.»
Commission européenne pour Horizon 2020
« Les données de la recherche sont un ensemble d’informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d’un processus de recherche »
POURQUOI GÉRER LES DONNÉES
DE LA RECHERCHE ?
Données exploitées pour l’élaboration des résultats
Données analysées, agrégées, compilées, transformées Données primaires produites ou collectées au cours de la recherche INVISIBLES VISIBLES
Améliorer la visibilité des résultats
Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne. Perte d’information importante au cours du processus de publication INVISIBLES
Enjeux du partage des données
Nouvelles sources pour la recherche
Economies dans les coûts de production Valoriser la production
scientifique de l’établissement
Fiabiliser les résultats de recherche
anticiper les besoins de gestion, protection et partage Mieux diffuser les résultats Conditions de production non reproductibles Fouille de données data mining
Gestion, partage et archivage des données
Gestion des données Data management Partage des données Open dataDonnées en appui des publications ou OK pour diffusion. Autres données produites au cours du projet. Pas de diffusion.
Archivage Long term preservation
Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement les besoins de la recherche sur tout au long du cycle de vie
des données
Diffusion de manière structurée selon une méthode et une licence ouverte des données pour leur libre accès et leur réutilisation par tous, sans restriction technique,
juridique ou financière
Conservation à long terme des données qui présentent un intérêt scientifique, juridique ou historique.
Dépôt en archives ou entrepôts ouverts
Archivage auprès d’un organisme agréé Données en appui des publications ou OK pour diffusion.
Création Description : métadonnées Stockage Diffusion Archivage Traitement Rédaction d’un DMP
Le cycle de vie de la donnée
Protection
Réutilisation
Archivage : enjeux de stockage et de conservation
Planification de la préservation Sélectionner Entrée Eliminer les données inutiles 1 2 Vérifier la possibilité d’archivage Accès Gestion des données Stockage Administration Consulter 3 4Déposer dans une plateforme d’archivage
Autres donnés produites au cours du projet. Pas de diffusion.
Les étapes
Conserver des preuves
Assurer la continuité des activités de recherche Conserver le patrimoine de l’établissement
Les exigences des financeurs
A l’international : US National Science Foundation, UK Research Councils, Wellcome Trust, The Netherlands Organisation for Scientific Research…
« Open research data pilot » demande au chercheur :
1) produire un plan de gestion des données: Data Management Plan (DMP) 2) déposer leurs données et métadonnées dans un entrepôt de données.
Plan d’action de l’ANR et appel à projets générique 2016 : les chercheurs sont encouragés à tirer parti des infrastructures et des grandes bases de données existantes ; à promouvoir leurs résultats en open access
Données de recherche
Contrat édition
Loi Num, Art. 30 : Réutilisation des données Loi Num, Art. 38 : fouille de texte /
data mining
Données de recherche OPEN Protection données perso / PI CLOSE Fouille de texte Protection données perso / PI CLOSE publi publi OPEN« II.-Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations [publiques] (…) ne
sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur,
l'établissement ou l'organisme de recherche, leur réutilisation est
libre.
« III.-L'éditeur d'un écrit scientifique mentionné au I ne peut limiter la
réutilisation des données de la recherche rendues publiques dans le cadre de sa publication
Loi Numérique, Article 30
Les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits
scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale.
Loi Num, Art.6 : ouverture des informations publiques
produites par les établissements ESR
Loi Valter 2015 Loi Numérique 2016 datagouv.fr Open Data 2011 Dérogation ESR Open data par défaut Dérogation ESR Protection données perso / PI Pack conformité CNIL Données de la recherche ? OPEN OPEN CLOSE
• décrire le cycle de vie des données produites ou collectées au cours du projet de recherche.
• anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une diffusion et d’une conservation futures des données.
Plan de gestion de données /data management plan (DMP)
Document formel précisant la manière dont les données seront produites, traitées, décrites, partagées ou protégées et conservées au cours et à
l’issue du projet.
http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa_ pilot/h2020-hi-oa-data-mgt_en.pdf
Ce qui change en 2017 :
- Le pilote ORD est étendu à toutes les thématiques => Art.29.3 => open data par défaut
- Les chercheurs peuvent se retirer du pilote : - au moment de l’appel à projets,
- pendant la préparation du grant agreement - après la signature du grant agreement
et
- réaliser un DMP facultatif
v2 P5/P7 :
- Intégrer la notion FAIR - Conserver le cycle de vie - Préparer l’informatisation
Le pilote H2020 – ce qui change en 2017
Horizon 2020 FAIR data management template
1. Data Summary 2. FAIR data
2.1. Making data findable, including provisions for metadata 2.2. Making data openly accessible
2.3. Making data interoperable
2.4. Increase data re-use (through clarifying licences) 3. Allocation of resources
4. Data security 5. Ethical aspects 6. Other issues
FAIR Data Principles
Enjeu : faciliter la découverte de connaissances Moyen : aider les humains et les machines à :
- découvrir - accéder - intégrer
Le DMP Tool de la California Digital Library de
l’Université de Californie
Les principaux champs d’un DMP
Section 1-2 : Informations générales sur le projet
Section 3 : Informations générales sur les données
Section 4 : Sécurité, gestion des risques et éthique
Section 5 : Jeux de données
Section 6 : Principes de dissémination et protection
Section 7 : Archivage des données
Section 8 : Ressources nécessaires
Propre à chaque jeu de données sauf si valable à l’échelle du projet
Data management plan
Section 1 : En-tête
Objectif : identifier le document et son contenu Principaux champs : version ; historique
Section 2 : Informations générales sur le projet Objectif : identifier le projet
Principaux champs :
- Financeur
- Référence de la convention de financement - Mots-clés
Data management plan
Section 3 : Informations générales sur les données Objectif : préciser comment les données ont été
produites ou collectées, à qui elles appartiennent, comment y accéder
Principaux champs :
- Méthode de production - Propriété
Data management plan
Section 4 : Sécurité, gestion des risques et éthique Objectif : Evaluer les risques et menaces qui
pèsent sur les données tout au long du projet, prendre les mesures nécessaires pour leur
protection.
Principaux champs :
- Risques et menaces - Mesures de protection - Ethique
Data management plan
Section 5 : Jeux de données
Objectif : Décrire pour chaque jeu de données sa
nature, ses caractéristiques techniques et ses modalités de diffusion.
Principaux champs :
- Identifiant du jeu de données - Formats
Data management plan
Section 6 : Dissémination et protection
Objectif : identifier les données sensibles, leur
besoin de protection, le potentiel d’ouverture des données
Principaux champs :
- Exceptions au principe de diffusion - Embargo
- Licence
- Modalités de diffusion
”as open as possible, as closed as necessary“
Ces éléments sont décrits pour le projet dans la première version du DMP, puis par jeu de données dans les versions suivantes.
Data management plan
Section 7 : Archivage des données
Objectif : Sélectionner et prévoir l’archivage à long
terme des données ayant vocations à être conservées
Principaux champs :
Sort
Sélection Volume
Data management plan
Section 8 : Ressources nécessaires
Objectif : contribuer au budget prévisionnel du
projet en anticipant les coûts, dont ceux éligibles
Principaux champs :
- Matériel - Personnels - Formation - Archivage
Préparation du DMP Accompagnement par les professionnels IST
Révision(s) du DMP
Periodic Review
Outils de gestion
Dépôt des données à
partager dans un entrepôt Dépôt des une plateforme d’archivagedonnées à conserver sur
Dans les 6 premiers mois A la fin du projet Au cours du projet Engagement dans H2020 Finalisation du DMP – VF Final Review
Réponse à l’appel à projets
Envoi à la Commission européenne Envoi à la Commission européenne Envoi à la Commission européenne DMP – V1 Evolutions du consortium Nouvelles données
Engagement dans le pilote : opt-in opt-out
ERC
L’ERC soutien le principe de l’open access aux données de la recherche dans ses programmes de travail :
- ERC 2016 : si le bénéficiaire « opt-in » (sur une base volontaire) le bénéficiaire doit faire un DMP, i.e. l'article 29.3 s’applique
- ERC 2017 : par défaut, le bénéficiaire doit faire un DMP, i.e. l'article 29.3 s’applique
36
DMP (2017)
Aucun financement supplémentaire pour les activités de gestion de données en cas de « opt-in ».
Les coûts liés à l'accès libre aux données de recherche sont éligibles dans la subvention, dans le cadre des conditions générales d'admissibilité.
LES COMPÉTENCES ATTENDUES
DMP : un workflow de compétences
Chercheur : processus de production et domaine scientifique
IST : métadonnées, entrepôts, archivage
Informatique : sécurité des données
Juridique : PI des données
Ingénieur-projet : agreement, éligibilité des coûts
Données scientifiques : DMP
Les compétences attendues côté services documentaires
Gestion de bases de données
Métadonnée et documentation
Indexation, ontologies, gestion de
vocabulaires
Data visualisation
Licences et propriété intellectuelle
Protection des données et enjeux
éthiques
Enjeux, obstacles et compétences pour l’archivage
Enjeux
Conserver le patrimoine numérique
Positionner l’archivage en tant que service
Assurer un continuum entre gestion et conservation
Obstacles
Profession encore récente dans l’ESR
Méconnaissance des compétences par les chercheurs Moyens mis à disposition
Compétences
Vision sur l’ensemble du cycle de vie
Expertise en conservation de contenu contextualisé
Expertise en gestion de l’information
QUELLES
RÉALISATIONS ?
QUELLES INTERROGATIONS ?
1. Explicitation des exigences H2020 en matière publications et de données : analyse des guidelines, périmètre de l’ORD pilot, aide au montage, impact/plan de dissémination.
Réseau
recherche Europe
2. Elaboration d’un guide de rédaction d’un plan de gestion de
données et mise au point d’un modèle conforme aux exigences H2020 mais transposable à d’autres projets.
3. Intervention dans le cadre du cycle de formations mis au point par le Réseau recherche Europe d’USPC à destination des ingénieurs projets et chargés de mission Europe des établissements de la ComUE
Accompagner les réponses aux
appels à projets d’ H2020
Télécharger
le guide Télécharger le template
Développer des formations à destination des
doctorants et jeunes chercheurs d’USPC
1. Publications scientifiques et Open Access
2. Trouver et réutiliser des jeux de données
3. Gérer, conserver et valoriser les données de la recherche
4. Rédiger son DMP
2015-2016
→ 2 sessions de formation (une quarantaine de participants)
« + de liens concrets vers des sources de données existantes »
« + de manipulations d’outils » « développer les enjeux de propriétés intellectuels et le choix des licences »
« des approches plus disciplinaires et méthodologiques »
Partager et confronter nos pratiques avec nos
collègues et différentes communautés métiers
ANF-CNRS - 6-8 juillet 2016
ANF sur les données sur la recherche
Atelier autour de la rédaction d’un DMP
Public cible : documentalistes et personnels de laboratoire en SHS
ENSSIB - 10 mars 2015
Gestion et diffusion des données de la recherche : enjeux et perspectives
Public cible : personnels de bibliothèque en formation continue
AAF - 6 janvier 2016
Présentation sur le DMP auprès de l’Association des archivistes français
Public cible: membres du groupe de travail Archives scientifiques
29 mars 2016
-
CNRS Site PouchetMatinée d’information sur Horizon 2020
Public cible: chercheurs, ingénieurs projet Europe, doctorants, professionnels de l’IST
MATE SHS - 26 novembre 2015
Gérer les données de la recherche : enjeux, challenges et perspectives
Public cible: chercheurs en SHS
Journées FOSTER – 29/30 juin 2015
Open Access et gestion des données dans Horizon 2020: intégrer les nouveaux attendus dans vos projets de recherche
Public cible: ingénieur projet Europe, chargés de valorisation, chercheurs, pressionnels IST
Formation URFIST de Strasbourg - 2 décembre 2016
Gérer les données de la recherche
Public cible: professionnels de l’IST, doctorants
Open Access Week de Saclay - 24 octobre 2016
Atelier autour de la rédaction d’un DMP
Public cible: chercheurs et ingénieurs projet Europe
Avril 2016 –
bourse de mobilité
professionnelle
Des infrastructures locales plus développées mais globalement des moyens comparables en matière de sensibilation, de formation et d’accompagnement à la rédaction des DMP et à la gestion des données.