Gestion et diffusion
des données de la
recherche
Chloée Fabre URFIST Toulouse - 02 et 03 mars 2020
Roche DG, Lanfear R, Binning SA, Haff TM, Schwanz LE, Cain KE, et al. (2014) Troubleshooting Public Data Archiving: Suggestions to Increase Participation. PLoS Biol 12(1): e1001779. https://doi.org/10.1371/journal.pbio.1001779
Les données de la recherche : une
définition?
• Définition de l’OCDE :
« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. »
(Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics - 2006)
• Définition de la Royal Society de Londres :
« Des informations qualitatives ou quantitatives […] qui sont factuelles. Ces données peuvent être brutes ou primaires (directement issue d’une mesure), ou dérivée de
données primaires, mais ne sont pas encore le produit d’analyse ou d’interprétation autres que le calculs. »
• Définition de l’Association des archivistes français :
« Les données de la recherche sont des informations, spécimens et matériaux produits, recueillis et documentés. Elles sont collectées ou exploitées à des fins de recherche et de preuve par les chercheurs et leurs équipes. A ce titre, elles constituent une partie des archives de la recherche. »
Les données de la recherche : une
définition?
• Loi pour une République Numérique :
Article 38 : « Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale. Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en œuvre, ainsi que les modalités de conservation et de communication des fichiers
produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche. »
(LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique)
• Définition de la Commission Européenne pour Horizon 2020 :
« Les données de la recherche désignent les informations, et en particulier les faits ou chiffres collectés pour être analysés et traités pour alimenter des réflexions, discussions ou calculs. Dans un contexte de recherche, ces données sont, par exemple, des statistiques, des résultats d’expériences, des mesures, des observations sur le terrain, des résultats d’enquêtes, des enregistrements d’entretiens ou des images. Il s'agit plus spécifiquement de données disponibles sous forme numérique . »
(Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour le libre accès aux données de la recherche dans Horizon 2020)
• Définition Plan pour la Science Ouverte:
« Enregistrements factuels (chiffres, textes, images, son, vidéo) utilisés comme sources primaires pour la recherche et qui sont habituellement acceptés pas la communauté scientifique comme étant nécessaire pour valider les résultats de la recherche. »
Les données de la recherche : une
définition?
• Ensemble d’informations factuelles
• Produites ou collectées
• Au cours d’un processus de recherche
On parle le plus souvent de « jeux de données » (Dataset) : « agrégation,
sous une forme lisible, de données brutes ou dérivées présentant une
certaine unité, rassemblées pour former un ensemble cohérent » (Gaillard,
R. – 2014)
Les données de la recherche : une
seule nature?
Données ayant en général été publiées. Données extraites, triées et agrégées. Données de références Générées à partir de modèle, reproductibles si le modèle est bien documenté Données de simulation Capturées ou collectée en temps réels, uniques et impossibles à reproduire Données d’observation Données expérimentales Données dérivées Résultats d’un traitement, d’une combinaison ou d’une sélection de données brutes, reproductibles Créées en laboratoire suivant une méthodologie définie, reproductiblesLes données de la recherche : oui
mais lesquelles?
Données collectées, non organisées, non mises en forme
Données brutes
Données collectées, réorganisées, calculées
Données traitées
Données produites en tant que résultats de recherche
Données analysées
Une attention particulière doit être portée aux :
• Données à caractère personnel
• Données relevant de la propriété intellectuelle et industrielle
• Données dites sensibles
Les données de la recherche : oui
mais toutes?
Les données de la recherche :
pourquoi les gérer?
Evolution des pratiques de recherche
Nouvelle façon de faire de la science
Accroissement du nombre de données
Les données de la recherche :
pourquoi les gérer?
Vers la Science Ouverte
« L’Open Science est une nouvelle approche transversale de l’accès au
travail scientifique, des visées et du partage des résultats de la science
mais aussi une nouvelle façon de FAIRE de la science, en ouvrant les
processus, les codes et les méthodes. »
(Direction de l’Information Scientifique et Technique - CNRS. Livre blanc
— Une Science ouverte dans une République numérique.)
Les données de la recherche :
pourquoi les gérer?
Les données de la recherche :
pourquoi les gérer?
Loi pour une République numérique 2016 Initiative de Budapest 2002 Loi Cada Accès aux documents administratifs 1978 Loi Valter Gratuité et réutilisation des informations du secteur publique 2015 Directive INSPIRE 2007 Révision Directive PSI – Charte du G8
Pour l’ouverture des données publiques 2013 Initiative de Berlin 2003 Déclaration De l’OCDE 2006 Pilote H2020 2013 Plan national pour la Science Ouverte 2018
Open Access
Open Data
Open Science
Déclaration de la Sorbonne sur le droitdes données de la recherche
Les données de la recherche :
pourquoi les gérer?
Focus : Open Research Data pilot
Quels appels à projet ?
Tous les projets H2020 financés par la Commission Européenne à l’exception des instruments « co-fund » et « prix »; des subvention « ERC Preuve de concept », des « ERA-Nets » qui ne produisent pas de données et l’instrument PME phase 1
Quels projets?
Par défaut : tous les projets H2020 financés dans le cadre des appels à projets mentionnés ci-dessus.
Exception : les projets pour lesquels le consortium aura explicitement choisi de ne pas participer( « d’opt out » ). Ce choix peut être fait au ou en cours de projet, totalement ou partiellement, sur justification (ces raisons doivent être explicitées dans le plan de gestion des données). Quelles données?
Données, et métadonnées associées, nécessaires à la validation des résultats présentés dans les publications
+ les autres données et métadonnées (exemple : données brutes) : au choix du bénéficiaire, dans les conditions spécifiées dans le plan de gestion des données.
Si certaines données ne sont pas rendues accessibles, cela devra être justifié dans le DMP. Six raisons sont prévues par la Commission européenne :
- incompatibilité avec l’obligation de protéger les résultats ; - incompatibilité avec les obligations de sécurité ;
- incompatibilité avec les règles de protection des données à caractère personnel ; - incompatibilité avec l’atteinte de l’objectif principal du projet ;
- le projet ne génère pas de données de recherche ; - autres raisons légitimes de ne pas participer. Quand déposer ?
Les données validant les résultats présentés dans une publication doivent être déposées dès que possible sur la base de données de recherche choisie. Les autres données doivent être déposées ou non, selon ce qui est prévu dans le DMP (conditions, justifications).
Où conserver?
Dans une base de données de recherche - "research data repository" - permettant de garantir gratuitement à tout tiers au projet : un accès, une extraction, une exploitation, une reproduction, et une dissémination.
Les données de la recherche : quels
enjeux?
Les enjeux d’une bonne gestion
Eviter la perte de données au cours du processus de publication
Les données de la recherche : quels
enjeux?
Les enjeux d’une bonne gestion
Les données de la recherche : quels
enjeux?
Les enjeux d’une bonne conservation
Protéger les données
Se prémunir de la perte de données ou de leur altération
Permettre une réutilisation dans un nouveau projet de recherche
Conserver une trace de la recherche
Les données de la recherche : quels
enjeux?
Les enjeux d’une bonne diffusion
Permettre l’accès le plus large possible
Eviter le phénomène d’appropriation des données
Contribuer à la qualité et la visibilité de la recherche
Favoriser les collaborations scientifiques
Les données de la recherche : quels
enjeux?
Et plus concrètement…
Pour les chercheurs
Les bénéficiaires d’un financement H2020 doivent planifier le dépôt de
leurs données
Reconnaissance de la paternité
Pour la science
Utilisation de bases de données de référence
Approcher de différentes façons un même jeu de données
Amélioration des conditions de validation des articles
Réutilisation de données par d’autres chercheurs
Pour la société
Implication des citoyens dans le cadre des sciences participatives
DORANum. Enjeux et bénéfices : fiche synthétique (mise à jour : 08/08/2018)
Gestion des données de la
recherche
Cycle de vie des données de la
recherche
Suivant un calendrier
Le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent
être définis selon le financeur et/ou projets.
Au moyen d’outils
Des outils existent pour aider dans la production de PGD.
Un PGD peut être établi aussi bien dans une optique de partage des données que
pour des données en accès restreint ou fermé, total ou partiel. Le PGD mentionnera
dans ce cas les raisons de non partage.
Les plans de gestion de données
(PGD)
Le Data Management Plan ou Plan de gestion de données est un document
synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la
donnée. Il explique pour chaque jeu de données comment son gérées les données d’un
projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.
Se poser les bonnes questions
Les plans de gestion de données
(PGD) : pourquoi?
Les plans de gestion de données - S. Cocaud et D. L'Hostis, INRA. URFIST Paris - 05 avril 2019 • En quoi consiste le projet ?
• Qui sont les partenaires ? • Quelle est la politique de
gestion des données ? • Qui est responsable de la
gestion des données ?
Responsabilités dans le projet
• Quelles données seront produites/utilisées au cours du projet ? (type, format, volume et accroissement…). • Comment seront-elles
produites ou transformées ?
Collecte des données
• Comment, où, par qui, seront stockées, sauvegardées et sécurisées les données ?
Sauvegarde des données
• Comment les données seront elles identifiées, décrites ? • Quels standards de
métadonnées utilisera t’on ? • Comment seront générées les
métadonnées ?
Documentation des données
• Qui sera propriétaire des données produites ?
• Des données externes seront-elles utilisées ?
Propriété intellectuelle
• Qui pourra accéder aux données ? • Les données seront-elles publiées
?
• Comment ? • Dans quel délai ? • Sous quelle licence ?
Accès et partage des données
• Comment la gestion et le partage des données sont-ils financés, en particulier à long terme ?
Ressources
• Quel est le plan d’archivage et de préservation à long terme ?
Archivage et préservation des données
Ethique
• Des données sensibles seront-elles produites ou utilisées ? • Comment sera assurée leur
Adopter de bonnes pratiques dans sa recherche
Les plans de gestion de données
(PGD) : pourquoi?
PGD
Formaliser sa manière de travailler Anticiper son investissement Gagner du temps Rendre réutilisable ses donnéesPour répondre aux exigences de financeurs : la Commission Européenne
Modèles de conventions de subvention pour le programme-cadre «Horizon 2020»: H2020 MGA EJP Cofund — Multi: v5.0 –18.10.2017
Article 29.3 Accès ouvert aux données de la recherche :
Pour les actions participant au projet pilote sur le libre accès aux données de recherche(…), les bénéficiaires doivent:
(a) déposer les éléments suivants dans une banque de données de la recherche et prendre des mesures afin de permettre aux tiers d'y accéder et de les explorer, exploiter, reproduire et diffuser, gratuitement pour tout utilisateur:
(i) les données, y compris les métadonnées, nécessaires pour valider dès que possible les résultats présentés dans des publications scientifiques;
(ii) d'autres données, y compris les métadonnées associées, spécifiées dans le «plan de gestion de données» et dans les délais qui y sont fixés (voir annexe 1);
(b) fournir des informations, par la banque de données, sur les outils et les instruments à la disposition des bénéficiaires et nécessaires pour la validation des résultats (et, si possible, fournir les outils et instruments eux-mêmes).
Les plans de gestion de données
(PGD) : pourquoi?
Les plans de gestion de données : pourquoi?
Pour répondre aux exigences de financeurs : la Commission Européenne
Plus d'ouverture. Le principe de «science ouverte» deviendra le
mode opératoire d'Horizon Europe, exigera un accès ouvert aux publications et aux données, ce qui favorisera la commercialisation et accroîtra le potentiel d'innovation des résultats obtenus grâce aux financements de l'Union.
COMMISSIONEUROPÉENNE. Budget de l'Union : La Commission propose le programme de recherche et d'innovation le plus ambitieux à ce jour. Communiqué de presse, 7 juin 2018, Bruxelles. https://europa.eu/rapid/press-release_IP-18-4041_fr.htm (consulté le 01 mars 2020)
Pour répondre aux exigences de financeurs
• Plan d’action ANR 2019 : « Afin de favoriser la diffusion
ouverte des données de recherche, l’ANR attire
l’attention des déposants sur l’importance de considérer
la question des données de recherche au moment du
montage et tout au long du projet. Elle imposera un plan
de gestion des données (DMP) pour les projets financés
à partir de 2019. »
• Dans le respect des obligations relatives à la loi « Pour
une république numérique » et en lien avec le plan
national en faveur des archives ouvertes, le déposant
s’engage (…) en cas de financement à déposer les
publications scientifiques (texte intégral) issues du projet
de recherche dans une archive ouverte, soit directement
dans HAL soit par l'intermédiaire d'une archive
institutionnelle locale ; à fournir au démarrage du projet
un plan de gestion des données (DMP) selon des
modalités communiquées lors du conventionnement.
Les plans de gestion de données
(PGD) : pourquoi?
Les plans de gestion de données
(PGD) : pourquoi?
Les plans de gestion de données
(PGD) : pourquoi?
Focus : Programme H2020 – Les principes FAIR Data
Reusable
Findable
Interoperable
Focus : Programme H2020
« Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour le libre accès aux données de la recherche dans Horizon 2020 » (Version 3.2 - 21 mars 2017)
« Lignes directrices pour la gestion des données FAIR dans Horizon 2020 » (Version 3.0 - 26 juillet 2016)
Les plans de gestion de données
(PGD) : pourquoi?
Findable Accessible
Reusable Interoperable
Focus : Programme H2020
Les plans de gestion de données
(PGD) : pourquoi?
Programme financé par Horizon
Début: Janvier 2018
Durée: 36 mois
Partenaires: 100 partenaires provenant de 53 pays
Coordinateur:
EGI
Réunit plusieurs fournisseurs de services pour créer un Hub
Mobilise des fournisseurs tels que la EGI federation, EUDD CDI, INDIGO-dataCloud et
d’autres infrastructures de recherche européennes afin de créer un catalogue commun
de données de recherche, de services et de logiciels de recherche.
Collabore étroitement avec les projets eInfraCentral, EOSCpilot, GEANT 4.2,
OpenAIRE-Advance et RDA Europe 4.0 afin de fournir une offre de service cohérente aux
Connaissances et compétences nécessaires à l’élaboration d’un PGD :
• Connaître la réglementation concernant la production et la diffusion des données
• Connaître les principaux formats de métadonnées selon sa discipline pour la
description des données
• Connaître les entrepôts pour la diffusion en libre accès des données
• Savoir déterminer les besoins en matière de gestion et de stockage des données
• Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données
Les plans de gestion de données
(PGD)
Il existe différents modèles de PGD…
• Selon financeur (H2020, ERC, ANR, …)
• Selon l’organisme de recherche
Les plans de gestion de données
(PGD) : structuration
…qui comportent cependant les même grandes rubriques :
Les plans de gestion de données
(PGD) : structuration
Valable pour
l’ensemble du projet
• Renseignements sur le projet
Pour chaque jeux de
données
• Description des jeux de données
Pour chaque jeux de
données
• Documentation et métadonnées
Pour chaque jeux de
données
• Le partage de données
Pour chaque jeux de données
• L’archivage et la conservation des
données
Ensemble des informations administratives et scientifiques du projet :
• Identifiant de l’appel à projet
• Nom du projet
• Description du projet
• Responsable(s) du projet
• Responsable(s) de la gestion des données
Les plans de gestion de données
(PGD) : structuration
Précisions sur les types de données collectées ou générées dans le cadre
du projet :
• Identifiant
• Description du jeu de données
• Format des données
• Origine des données (réutilisation de données existantes/création)
Les plans de gestion de données
(PGD) : structuration
Précisions sur la manière dont sont décrites et organisées les données :
• Standards et formats des métadonnées utilisées
• Mode de production (procédures, outils, logiciels)
• Règle de nommage
• Documentation associée
Les plans de gestion de données
(PGD) : structuration
Les plans de gestion de données
(PGD) : structuration
Focus sur les standards et métadonnées
Un peu de vocabulaire…
• Le standard de métadonnées : il a pour objectif de fournir un ensemble d’éléments
caractéristiques qui permettent de décrire les productions scientifiques. Le
standard est choisi en fonction de la destination des données, dépôt, publication,
archivage, etc. Il peut aussi être spécialisé par discipline, par type de données, etc.,
ainsi que son vocabulaire.
• Exemple : Dublin Core (interdisciplinaire), description des ressources
numériques
• Le format d’échange : est une représentation sous forme numérique du standard
et des métadonnées associées. Il permet l’utilisation de logiciels de représentation
et de traitement des métadonnées, et autorise des protocoles d’échanges. Deux
formats courants sont le XML et le CSV.
DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)
Les plans de gestion de données
(PGD) : structuration
Focus sur les standards et métadonnées
Où sont les métadonnées…
Les métadonnées sont présentes :
• soit de manière embarquée, exemple dans un fichier informatique (photo,
logiciel, document, …).
• soit de manière externe, exemple dans un catalogue d’accompagnement
d’un jeu de données ou dans un annuaire d’entrepôts.
A noter : les métadonnées sont embarquées dans un grand nombre d’objets
numériques. Elles existent nativement et on peut les enrichir manuellement. La
vérification intégrale de l’ensemble des métadonnées est importante pour
partager uniquement les données souhaitées.
DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)
Les plans de gestion de données
(PGD) : structuration
Focus sur les standards et métadonnées
Pourquoi?
QUI à créé les données?
QUE contiennent-elles?
OÙ sont-elles?
QUAND ont-elles été crées?
COMMENT ont-elles été crées?
POURQUOI ont-elles été crées?
DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)
Les plans de gestion de données
(PGD) : structuration
Focus sur les standards et métadonnées
Plus concrètement:
• Faciliter la découverte des données
• Identification de la ressource
• Description de la ressource
• Faciliter la gestion
• Gestion des droits (droits de la propriété intellectuelle, droits d’accès
et d’utilisation)
• Réutilisation (informations sur le contenu, sur la structure du jeu de
données)
• Interopérabilité (formats d’échange, vocabulaires contrôlés, syntaxe
définie)
DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)
Les plans de gestion de données
(PGD) : structuration
Focus sur les standards et métadonnées
• Dans un plan de gestion, le choix d'un standard peut être conditionné par les
recommandations ou les exigences des entrepôts dans lequel vous envisagez
de déposer vos données de la recherche.
• Il est conseillé de produire les métadonnées au moment de la collecte ou de la
création des données plutôt qu’à posteriori. Ainsi, les métadonnées seront
complétées tout au long du cycle de vie des données
DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)
Les plans de gestion de données
(PGD) : structuration
Précisions des modalités de diffusion des données :
• Principes de diffusion
• Choix du dépôt de diffusion
• Licence et possibilités de réutilisation
• Les exceptions avec justification
Les plans de gestion de données
(PGD) : structuration
Focus sur les identifiants pérennes
•
Les identifiants contributeur (pour les auteurs et institutions)
•
identifier de manière fiable un auteur ou une institution
•
désambiguïser les noms et résoudre les problèmes d’homonymie,
translittération, etc.
•
augmenter la visibilité académique.
ORCID (Open Researcher and Contributor ID), identifiants du monde des
bibliothèques (ISNI, IdRef…), d’archives ouvertes (IdHAL, ArXiv Author ID)…
•
Les identifiants objet (pour les publications et les données)
•
identifier de manière fiable les productions scientifiques
•
établir le lien entre les articles publiés et les jeux de données
DOI (Identifiant numérique d’objet), ARK (Archive Resource Key), PURL
(persistent URL)…
DORANum. Identifiants pérennes : fiche synthétique (mise à jour : 10/07/2018)
Les plans de gestion de données
(PGD) : structuration
Précisions des modalités de conservation des données à long terme :
•
Critères de sélection des données à archiver
•
Durée
•
Lieu d’archivage
• L’archivage et la conservation des
données
Les plans de gestion de données
(PGD) : outils
- Créé par le Digital Curation Center (DCC)
- Prend en compte les recommandations de la Commission
Européenne (H2020)
- Instance française de DMPonline du Digital Curation Centre
(DCC) qui est mis à disposition de l’Enseignement Supérieur
et de la Recherche
- Hébergé et géré par l’Inist-CNRS
- Créé par l’Université de Californie
- Modèles simplifié de DMP
Aspects juridiques
Le partage des données
• Le cadre juridique de l’Open Data
• Loi initiale dite CADA (Commission d’Accès aux Documents Administratifs) • La loi Valter
• Loi pour une République Numérique
codifiées dans le code des relations entre le public et l’administration
• La dimension éthique
• Respect de la vie privée • Propriété intellectuelle
• Qualité et intégrité des données sont des dimensions éthiques de la gestion des données.
Être informé de l’évolution des règles juridiques est très important pour un partage
responsable des données utilisées :
Guide d’analyse du cadre juridique en France
sur l’ouverture des données de la recherche
Aspects juridiques
Les droits d’auteur et la diffusion
• Code de la propriété intellectuelle
• Les licences
" Art. D. 323-2-1.-I.-L'administration peut soumettre la réutilisation à titre
gratuit des informations publiques qu'elle détient aux licences suivantes
[…] . Les licences susmentionnées sont accessibles sur
Concrètement: H2020
Renseignement
sur le projet
Pourquoi
Comment
Exemple
Titre du projet Identifier le projet auquel se rapporte le PDG
Indiquer le nom du projet et son acronyme
Indiquer l’identifiant du projet
Science and Innovation with thunderstorms - SAINT Project ID: 722337 Financeur et subvention Identifier le financeur et le cadre de la subvention Indiquer le nom du financeur, Le numéro de convention ou du financement Cf. CORDIS
Grant agreement ID: 722337
Résumé du projet Explication du
projet
Texte Lightning is an extremely
energetic electric discharge...
Chargé de projet Indiquer le
responsable scientifique Nom Prénom + identifiant ORCID Martin Füllekrug ORCID iD : 0000-0003-4588-3591
Contact pour les données Indiquer le responsable des données et du PGD Nom Prénom + identifiant ORCID Martin Füllekrug ORCID iD : 0000-0003-4588-3591
Concrètement: H2020
Descriptif des
données
Pourquoi
Comment
Exemple
Objectifs de la
collecte/génération de données
+ lien avec les objectifs du projet
Contextualiser Texte libre Les données recueillies
permettra de vérifier les hypothèses…
Préciser les types et formats de données générées et/ou collectées
- Fournir les premiers
renseignements permettant d'orienter les besoins en
stockage, en outils de traitement et de visualisation, les options de standards de métadonnées,
d'outils de diffusion ainsi que les solutions de pérennisation.
- Recenser les outils, logiciels et matériels nécessaires à la lecture des données produites, pour faciliter la réutilisation des
données ainsi que leur archivage et leur consultation à long terme.
Texte libre - Données d’enquêtes…
- Les données d’enquête sont diffusées en format SPSS (Statistical Package for the Social Sciences).
Concrètement: H2020
Descriptif des
données
Pourquoi
Comment
Exemple
Préciser si des données existantes sont réutilisées (le cas échéant)
- Garantir l’intégrité des données produites en établissant des filiations. - Eviter les plagiats en citant proprement ses sources.
- Repérer les jeux de données de référence et s’assurer de leur archivage
- Permettre l’établissement de liens entre jeux de données si signalement et mise en libre accès des données
Texte libre Ce projet s’appuie sur
des enquêtes préexistantes… (préciser références, DOI,…) Préciser l’origine des données
- Préciser si les données sont collectées et/ou générées dans le cadre du projet
-Préciser les méthodes de production
Texte libre - Données recueillies
par questionnaire… suivant la norme ISO…
Concrètement: H2020
Descriptif des
données
Pourquoi
Comment
Exemple
Indiquer une estimation du volume des données (si possible)
Anticiper les coûts et
problématiques de stockage Texte libre x Go Mettre en évidence le potentiel de réutilisation des données : à qui seront-elles utiles ?
-Encourager à la réutilisation des données
-Valoriser le potentiel des données
-Identifier un public cible
Texte libre Les données peuvent
servir de sources pour des travaux de
Concrètement: H2020
Données FAIR
« Trouvable »
Pourquoi
Comment
Exemple
Indiquer les standards de métadonnées
Mieux gérer, signaler et
conserver les jeux de données au cours du projet comme à son issue. http://www.dcc .ac.uk/resource s/metadata-standards http://rd-alliance.github.i o/metadata-directory/tools/ https://fairshari ng.org/ Federal Geographic Data Committee Content Standard for Digital Geospatial Metadata Indiquer si vous utiliser des identifiants uniques et pérennes
Identifier les procédures d’identification des données
Concrètement: H2020
Données FAIR
« Trouvable »
Pourquoi
Comment
Exemple
Définir les conventions de nommage utilisées
- Retrouver plus rapidement les données produites
- Faciliter la sélection et le tri des données en vue de leur exploitation et de leur archivage
Un document commun peut préciser les règles de nommage envisagées, le système adopté pour gérer les versions et l’arborescence de classement https://doranu m.fr/stockage-archivage/com ment-nommer-fichiers/ 20181220_CR
Concrètement: H2020
Données FAIR
« Accessible »
Pourquoi
Comment
Exemple
Préciser quelles données seront accessible
-Indiquer les jeux de données qui seront diffusables
-Justifier les exceptions
Texte libre Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche - Données 1 et 2 : Accessibles à la fin du projet… - Données 3 : Accessibles après anonymisation à la fin du projet…. Préciser les modalités de diffusion envisagées
-Intégrer les exigences des financeurs en matière de dépôt et de diffusion
-Anticiper le choix des journaux et entrepôts afin de pouvoir prévoir les coûts éligibles -Orienter le choix des métadonnées Texte libre Guides H2020 (en français) Re3data.org Fairsharing.org DataCite.org OpenDOAR Réseau Quetelet Les données de recherche seront déposées dans Zenodo.
Concrètement: H2020
Données FAIR
«Intéropérable»
Pourquoi
Comment
Exemple
Préciser quels vocabulaires décrivant les données et métadonnées, quels standards ou quelles méthodologies seront appliqués pour faciliter l'interopérabilité.
Respecter les formats standards, compatibles autant que possible avec des logiciels libres,
facilitant ainsi la recombinaison de jeux de données provenant de sources diverses.
Texte libre Utilisation du
standard
interdisciplinaire : Dublin Core
Concrètement: H2020
Données FAIR
« Réutilisation »
Pourquoi
Comment
Exemple
Préciser la licence attribuée
-Clarifier le statut juridique -Préciser l’usage qui peut en être fait, dans quel cadre et par qui.
Texte libre
www.data.gouv .fr/fr/licences
Les données seront diffusées sous la
licence Open Database License (ODbL)
Préciser s’il y aura un embargo sur les données et quelle est sa durée?
Préciser l’existence éventuelle d’un embargo et sa durée.
Texte libre Les données sont
diffusées après une période d’embargo de 12 mois.
Concrètement: H2020
Allocations de
ressources
Pourquoi
Comment
Exemple
Estimer les coûts pour rendre vos données
conformes aux principes FAIR
-Identifier les manques dans les infrastructures à disposition -Anticiper les coûts pour les investissements permettant de les pallier
Texte libre En termes de
ressources humaines : recrutement d’un ingénieur de recherche…. En termes de matériel: achat de X PC, X PC portables, X tablettes...
Concrètement: H2020
Sécurité des
données
Pourquoi
Comment
Exemple
Examiner la
récupération des données ainsi que le stockage
sécurisé et le transfert de
données sensibles.
-Identifier les supports
-Analyser les forces et faiblesses des moyens choisis
-Evaluer les risques pesant sur la conservation à court, moyen et long terme
Texte libre Les données sont
stockées sur des serveurs virtuelles hébergés dans les locaux sécurisés de la DSI de
l’établissement(avec dispositif de
Concrètement: H2020
Aspects
éthiques
Pourquoi
Comment
Exemple
Le projet pose-t-il des questions éthiques ? Quels sont les moyens mis en œuvre pour y répondre?
-Détailler ce qui est mis en œuvre pour une production et une gestion éthique des
données
Texte libre Un accord de
confidentialité sera signé par tous les participants…
Concrètement: H2020
Autres
Pourquoi
Comment
Exemple
Mentionner les autres procédures nationales, sectorielles, départementales ou issues de financeurs utilisées pour la gestion des données (le cas échéant).
Préciser si vous devez prendre en compte une politique en matière de gestion des données, de partage et de sécurité des données (institutionnelle, relative à une agence de financement)
Texte libre Pour ce projet, les
recommandations concernant les publications, les affiliations, la gestion des données et la sécurité informatique de la Commission Européenne seront appliquées.
Diffuser des
données de la recherche
"As open as possible, as
closed as necessary"
Dépôt lié à une
publication
Diffusion des données : préalables
Diffusion des données : préalables
Préparer les données pour une réutilisation
• Fichiers dans des formats pérennes et ouverts
• Fichiers organisés et nommés de façon explicite
Diffusion des données : préalables
Vérifier les aspects juridiques et éthiques
• Les droits de diffusion sont vérifiés
• Les principes éthiques sont vérifiés
Diffusion des données : comment?
Il existe différents modes de diffusion pour les données :
Les publier
Diffusion des données : la publication
Intégrer les données dans un article scientifique :
lorsqu’un article est publié dans une revue, les
données qui y sont intégrées le sont aussi.
Avantages :
• Intégration maximale des données et de l’article : citable,
recherchable ;
• Paternité des données / crédits aux auteurs.
Limites :
• Données difficiles à trouver indépendamment de l’article et dans une
forme peu ou pas réutilisable.
DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)
Diffusion des données : la publication
Joindre les données en matériel supplémentaire
Les données sous-jacentes d’un article peuvent être jointes
dans un fichier en tant que matériel supplémentaire. Ces
données, qui vont plus loin que les données intégrées dans
l’article, sont de plus en plus demandées aux auteurs pour
des questions de validation.
Avantages :
• Format des données libéré des contraintes de rédaction de l’article ;
• Paternité des données / crédits aux auteurs.
Limites :
• Taille souvent limitée ;
• Peu de standardisation sur le signalement des fichiers « supplémentaires » ;
• Identification des données indépendamment de l’article possible mais rare ;
• Données difficiles à trouver indépendamment de l’article et dans une forme
peu ou pas réutilisable.
DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)
Diffusion des données : la publication
Publier les données dans un data paper
Les data papers sont des articles qui ont pour but de rendre les données accessibles,
interprétables et réutilisables. Ils fournissent une voie formalisée au
partage des données. Les data papers peuvent paraître dans des revues
classiques ou dans des revues spécialisées, appelées data journals.
Avantages :
• Paternité des données / crédits aux auteurs ;
• Citation aisée ;
• Réutilisation des données facilitée ;
• Données normalisées, standardisées, conservées de façon pérenne ;
• Pas de restriction en volume ;
• Liens vers les données déposées réciproques et sécurisés.
Limites :
• Interrogation possible sur la qualité du peer-review ;
• Données déposées de préférence dans un entrepôt, impliquant la recherche et le choix de
l’entrepôt adapté.
DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)
Diffusion des données : la publication
Publier les données dans un data paper
• Revue classique avec des articles de type data paper :
• Ecology
• Genomics Data
• Data journal :
• Multidiscilinaire : Scientific Data ;
Gigascience
• Ecologie, environnement : Biodiversity Data Journal
• Chimie : Chemical Data Collections
• SHS et sciences économiques : Research Data Journal for the Humanities
and Social Sciences ; Journal of Open Archaelogy Data
• Informatique : Journal of Open Research Software
DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)
Diffusion des données : le dépôt dans
un entrepôt
Déposer les données dans un entrepôt
Un entrepôt de données (Data repository, digital repository) est
un
réservoir constitué majoritairement de données de
recherche, brutes ou
élaborées, qui sont décrites par des
métadonnées de façon à pouvoir être retrouvées.
Entrepôt de confiance (trusted repository)
Un
entrepôt de confiance
se définit comme un entrepôt
répondant aux
critères de qualité exigés pour obtenir une
certification (format des données, qualité des métadonnées,
conditions d'accès et de
réutilisation, identifiant pérenne,
archivage à long terme, ...).
Dans ces entrepôts de données, il est attribué un identifiant ou
un numéro d'accès à chaque jeu de données déposé.
Diffusion des données : le dépôt dans
un entrepôt
Déposer les données dans un entrepôt : comment choisir?
Suivre les recommandations : Un entrepôt vous est-il recommandé par l’une des parties prenantes de votre
projet (votre financeur, éditeur, institution, etc.) ?
• Vos travaux de recherche rentrent-ils dans le cadre d’un projet national ou international ?
• Exemple : la politique de données du programme de recherche international MERMeX stipule que les données collectées seront recueillies dans MISTRALS database pour améliorer, faciliter et sécuriser leur disponibilité.
• Comment votre institution s’organise-t-elle en ce qui concerne le dépôt des données ?
• Exemple : l’Institut Laue-Langevin a mis en place une politique de partage des données et dispose d’un portail dans lequel les chercheurs de l’institut peuvent déposer leurs données.
• Existe-t-il des pratiques spécifiques à votre domaine scientifique ?
• Exemple: en génomique, les bases de données comme Uniprot, GenBank sont aujourd’hui des bases de référence.
• Votre éditeur a-t-il une politique concernant le partage des données ?
• Exemple: l’éditeur PLOS ONE oblige les auteurs d’un article à rendre accessibles toutes les données sous-jacentes aux résultats rapportés dans l’article soumis.
• Votre financeur vous donne-t-il des recommandations ?
• Exemple : la Commission Européenne donne des lignes directrices aux chercheurs bénéficiant de financement dans le cadre d’Horizon 2020. Les bénéficiaires doivent déposer les données
nécessaires à la validation des résultats présentés dans les publications et les autres données citées dans le plan de gestion des données. Le choix de l’entrepôt reste du ressort du déposant (l’annuaire re3data est recommandé et l’entrepôt Zenodo est également cité).
Diffusion des données : le dépôt dans
un entrepôt
DORANum – Dépôt et entrepôts (mise à jour : 17/08/2018)
Déposer les données dans un entrepôt : comment choisir?
Filtrez par critères : Si aucun entrepôt ne vous est recommandé, il
vous faut en trouver un adapté à vos besoins. Vous pouvez utiliser des
annuaires d’entrepôts et/ou rechercher des entrepôts certifiés.
• Il existe des annuaires qui peuvent vous aider à filtrer votre recherche
d’entrepôt : re3data, OAD, OpenDOAR, etc.
Diffusion des données : le dépôt dans
un entrepôt
Déposer les données dans un entrepôt :
• Pratiques disciplinaires :
• GenBank (séquence ADN)
•
PANGAEA
(sciences de l’environnement)
• Organises de financement :
•
Zenodo
(Commission européenne)
• Etablissements de recherche :
•
IRSTEA
• Editeurs :
• Plos
• GigaDB
Ré-utiliser des données de la
recherche
Ré-utiliser des données de la
recherche : Rechercher
Où trouver les jeux de données ?
• Entrepôts multidisciplinaires
• Entrepôts thématiques
• Annuaires d’entrepôts
• Moteurs de recherche
Ré-utiliser des données de la
recherche : Rechercher
Où trouver les jeux de données : Entrepôts multidisciplinaires
•
Zenodo
: entrepôt de jeu de données de recherche, issu du projet
européen OpenAIREplus et du CERN ; il est possible de recherche un jeu
de données ou d’en déposer. Plus de 2000 sont référencés.
•
Figshare
: entrepôt de jeu de données de recherche multidisciplinaire.
•
Dataverse Project
: entrepôt de jeu de données de recherche
Ré-utiliser des données de la
recherche : Rechercher
Où trouver les jeux de données : Entrepôts thématiques
• Dryad Digital Repository : plateforme de données de la recherche dans les
domaines de la médecine et de la biologie
• PANGAEA : plateforme de données de la recherche dans les domaines des
sciences de la terre et de l’environnement
• International Virtual Observatory Alliance (IVOA) : entrepôt de jeu de
données de recherche dans le domaine de l’astronomie
• Interuniversity Consortium for Political and Social Research (ICPSR) :
entrepôt de jeu de données de recherche dans le domaine des sciences
sociales
Ré-utiliser des données de la
recherche : Rechercher
Où trouver les jeux de données : Annuaires d'entrepôts de données
•
Re3data.org
En février 2018, le re3data.org recensait pus de 2000 entrepôts de données de toutes disciplines.
•
BioSharing.org
En septembre 2018, BioSharing recensait 1148 entrepôts de données, 1269 standards de métadonnées pour la description des données en sciences de la vie et 115 politiques de dépôts
•
DataCite.org
En septembre 2018, DataCite recense e 1694 sites de stockage de données.
• OpenDOAR
Ré-utiliser des données de la
recherche : Rechercher
Où trouver les jeux de données : Moteur de recherche
•
Elsevier DataSearch
•
DataCite Metadata Search
•
OpenAire
•
Base
(Bielefield Academy Search Engine)
Ré-utiliser des données de la
recherche : Ré-utiliser
Les utilisateurs de données doivent appliquer les conditions
d’utilisation mentionnées dans ces licences
Ré-utiliser des données de la
recherche : Citer
La référence d’un jeu de données doit qualifier de manière univoque le
jeu de données :
• Elle doit permettre d’identifier le (ou les) auteur(s) ;
• elle doit permettre de localiser le jeu de données ;
Ré-utiliser des données de la
recherche : Citer
La référence bibliographique complète d’un jeu de données comporte les éléments suivants : • Auteur : créateur du jeu de données
• Date de publication : date de mise en ligne du jeu de données ou date de fin d’embargo à l’issue duquel le jeu de données devient accessible
• Titre : titre du jeu de données, et éventuellement titre de la collection ou de la sous-collection dont le jeu de données fait partie
• Edition : niveau de traitement (par exemple 1e édition, édition révisée, etc.) du jeu de données, selon une nomenclature si possible appropriée au type de données concernées
• Version : numéro croissant au fur et à mesure des modifications apportées aux données ou au processus de traitement
• Nom de la norme, du standard, ou du modèle de référence des données et son identifiant sur internet ou URI : par exemple ISO 19101-1:2014 (https://www.iso.org/obp/ui/#iso:std:iso:19101:-1:ed-1:v1:en) si cette norme est utilisée pour référencer l’information géographique relative au jeu de données
• Type de ressource : base de données, jeu de données , logiciel, image, vidéo, etc. • Editeur : organisation produisant ou rendant accessible le jeu de données
• Identifiant : code identifiant le jeu de données de façon pérenne et univoque, par exemple un DOI • Localisation : Adresse URL où le jeu de données est accessible.
Ré-utiliser des données de la
recherche : Citer
Le format minimal d’une référence bibliographique d’un jeu de données
comporte 5 éléments (recommandation de DataCite, consortium international
dont l’objectif est de faciliter l’accès aux données de la recherche et leur
réutilisation) :
Auteur (Année de publication) : Titre. Editeur. Identifiant
Ce format minimal peut être complété, si besoin, par la version et le type de
ressource :
Auteur (Année de publication) : Titre. Version. Editeur. Type de ressource.
Identifiant
Exemple (DataCite) : Irino, T; Tada, R (2009): Chemical and mineral
compositions of sediments from ODP Site 127‐797. Geological Institute,
University of Tokyo. https://doi.org/10.1594/PANGAEA.726855.
Ré-utiliser des données de la
recherche : Citer
Quels logiciels gèrent les références bibliographiques de jeux de données ?
• EndNote (version X4) propose le type de référence Data Set
• Zotero ne propose pas de type de document spécifique pour décrire les jeux de
données. Les références de jeux de données importées dans une bibliothèque
Zotero apparaissent sous le type Document.
• Mendeley ne propose pas de type de document spécifique pour décrire les jeux de
données. Le type Generic peut être choisi comme substitut.
Actions 2020 collège Données de la recherche = une réflexion sur la pertinence de développer un entrepôt de données mutualisé
• Piloté par l’IRD (coordinateur de l’étude), l’INRAE, Sorbonne Université et le CNRS
accompagné par le cabinet Datactivist, coopérative spécialiste de l’ouverture des données • Résultats attendus à l’automne
Réunion de lancement a eu lieu début février et a fixé les objectifs du groupe de travail
• Enjeu = envisager la mise à disposition d’un service qui puisse stocker, préserver, et le cas échéant ouvrir et diffuser des données de recherche, tout en garantissant leur maîtrise et leur gestion (contrôle de la propriété intellectuelle par ses détenteurs, licence, curation, citabilité, etc.) aux établissements
producteurs qui le souhaiteraient. Il s’agit également d’offrir une solution contrôlée par les acteurs publics de diffusion de données liées aux articles.
• Une étude répondant à deux objectifs du Plan national pour la science ouverte : • « Développer un service générique d’accueil et de diffusion des données simples »
• « Créer les conditions et promouvoir l’adoption d’une politique de données ouvertes associées aux articles publiés par les chercheurs »
Des ateliers seront organisés au printemps afin de recueillir les besoins des utilisateurs.
• Un 1er atelier organisé le 6 mars avec un groupe composé de gestionnaires d’entrepôts existants pour disposer des retours d’expérience d’établissements ou de structures pilotes.
• D’autres ateliers suivront, dans plusieurs régions, afin de recueillir les besoins des utilisateurs qui produisent et qui gèrent des données au quotidien.
L’étude dressera également une analyse comparative des différentes offres logicielles existant sous licence libre.
• À l’issue de ces deux premières phases, plusieurs scénarios de mise en œuvre, portant sur des solutions techniques comme sur la gouvernance, seront soumis concernant la pertinence de mettre en place un dispositif mutualisé, qui permettrait le dépôt et la diffusion de données au niveau national, ainsi que leur stockage et leur préservation à long terme. Les résultats de ces travaux seront présentés à l’automne 2020.
Billet complet : https://www.ouvrirlascience.fr/etude-de-faisabilite-pour-un-service-dentrepot-de-donnees-simples/