• Aucun résultat trouvé

Gestion et diffusion des données de la recherche | Unité Régionale de Formation à l'Information Scientifique et Technique

N/A
N/A
Protected

Academic year: 2021

Partager "Gestion et diffusion des données de la recherche | Unité Régionale de Formation à l'Information Scientifique et Technique"

Copied!
85
0
0

Texte intégral

(1)

Gestion et diffusion

des données de la

recherche

Chloée Fabre URFIST Toulouse - 02 et 03 mars 2020

Roche DG, Lanfear R, Binning SA, Haff TM, Schwanz LE, Cain KE, et al. (2014) Troubleshooting Public Data Archiving: Suggestions to Increase Participation. PLoS Biol 12(1): e1001779. https://doi.org/10.1371/journal.pbio.1001779

(2)
(3)

Les données de la recherche : une

définition?

• Définition de l’OCDE :

« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. »

(Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics - 2006)

• Définition de la Royal Society de Londres :

« Des informations qualitatives ou quantitatives […] qui sont factuelles. Ces données peuvent être brutes ou primaires (directement issue d’une mesure), ou dérivée de

données primaires, mais ne sont pas encore le produit d’analyse ou d’interprétation autres que le calculs. »

• Définition de l’Association des archivistes français :

« Les données de la recherche sont des informations, spécimens et matériaux produits, recueillis et documentés. Elles sont collectées ou exploitées à des fins de recherche et de preuve par les chercheurs et leurs équipes. A ce titre, elles constituent une partie des archives de la recherche. »

(4)

Les données de la recherche : une

définition?

• Loi pour une République Numérique :

Article 38 : « Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale. Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en œuvre, ainsi que les modalités de conservation et de communication des fichiers

produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche. »

(LOI n° 2016-1321 du 7 octobre 2016 pour une République numérique)

• Définition de la Commission Européenne pour Horizon 2020 :

« Les données de la recherche désignent les informations, et en particulier les faits ou chiffres collectés pour être analysés et traités pour alimenter des réflexions, discussions ou calculs. Dans un contexte de recherche, ces données sont, par exemple, des statistiques, des résultats d’expériences, des mesures, des observations sur le terrain, des résultats d’enquêtes, des enregistrements d’entretiens ou des images. Il s'agit plus spécifiquement de données disponibles sous forme numérique . »

(Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour le libre accès aux données de la recherche dans Horizon 2020)

• Définition Plan pour la Science Ouverte:

« Enregistrements factuels (chiffres, textes, images, son, vidéo) utilisés comme sources primaires pour la recherche et qui sont habituellement acceptés pas la communauté scientifique comme étant nécessaire pour valider les résultats de la recherche. »

(5)

Les données de la recherche : une

définition?

• Ensemble d’informations factuelles

• Produites ou collectées

• Au cours d’un processus de recherche

On parle le plus souvent de « jeux de données » (Dataset) : « agrégation,

sous une forme lisible, de données brutes ou dérivées présentant une

certaine unité, rassemblées pour former un ensemble cohérent » (Gaillard,

R. – 2014)

(6)

Les données de la recherche : une

seule nature?

Données ayant en général été publiées. Données extraites, triées et agrégées. Données de références Générées à partir de modèle, reproductibles si le modèle est bien documenté Données de simulation Capturées ou collectée en temps réels, uniques et impossibles à reproduire Données d’observation Données expérimentales Données dérivées Résultats d’un traitement, d’une combinaison ou d’une sélection de données brutes, reproductibles Créées en laboratoire suivant une méthodologie définie, reproductibles

(7)

Les données de la recherche : oui

mais lesquelles?

Données collectées, non organisées, non mises en forme

Données brutes

Données collectées, réorganisées, calculées

Données traitées

Données produites en tant que résultats de recherche

Données analysées

(8)

Une attention particulière doit être portée aux :

• Données à caractère personnel

• Données relevant de la propriété intellectuelle et industrielle

• Données dites sensibles

Les données de la recherche : oui

mais toutes?

(9)

Les données de la recherche :

pourquoi les gérer?

Evolution des pratiques de recherche

Nouvelle façon de faire de la science

Accroissement du nombre de données

(10)

Les données de la recherche :

pourquoi les gérer?

Vers la Science Ouverte

« L’Open Science est une nouvelle approche transversale de l’accès au

travail scientifique, des visées et du partage des résultats de la science

mais aussi une nouvelle façon de FAIRE de la science, en ouvrant les

processus, les codes et les méthodes. »

(Direction de l’Information Scientifique et Technique - CNRS. Livre blanc

— Une Science ouverte dans une République numérique.)

(11)

Les données de la recherche :

pourquoi les gérer?

(12)

Les données de la recherche :

pourquoi les gérer?

Loi pour une République numérique 2016 Initiative de Budapest 2002 Loi Cada Accès aux documents administratifs 1978 Loi Valter Gratuité et réutilisation des informations du secteur publique 2015 Directive INSPIRE 2007 Révision Directive PSI – Charte du G8

Pour l’ouverture des données publiques 2013 Initiative de Berlin 2003 Déclaration De l’OCDE 2006 Pilote H2020 2013 Plan national pour la Science Ouverte 2018

Open Access

Open Data

Open Science

Déclaration de la Sorbonne sur le droit

des données de la recherche

(13)

Les données de la recherche :

pourquoi les gérer?

Focus : Open Research Data pilot

 Quels appels à projet ?

Tous les projets H2020 financés par la Commission Européenne à l’exception des instruments « co-fund » et « prix »; des subvention « ERC Preuve de concept », des « ERA-Nets » qui ne produisent pas de données et l’instrument PME phase 1

Quels projets?

Par défaut : tous les projets H2020 financés dans le cadre des appels à projets mentionnés ci-dessus.

Exception : les projets pour lesquels le consortium aura explicitement choisi de ne pas participer( « d’opt out » ). Ce choix peut être fait au ou en cours de projet, totalement ou partiellement, sur justification (ces raisons doivent être explicitées dans le plan de gestion des données).  Quelles données?

Données, et métadonnées associées, nécessaires à la validation des résultats présentés dans les publications

+ les autres données et métadonnées (exemple : données brutes) : au choix du bénéficiaire, dans les conditions spécifiées dans le plan de gestion des données.

Si certaines données ne sont pas rendues accessibles, cela devra être justifié dans le DMP. Six raisons sont prévues par la Commission européenne :

- incompatibilité avec l’obligation de protéger les résultats ; - incompatibilité avec les obligations de sécurité ;

- incompatibilité avec les règles de protection des données à caractère personnel ; - incompatibilité avec l’atteinte de l’objectif principal du projet ;

- le projet ne génère pas de données de recherche ; - autres raisons légitimes de ne pas participer. Quand déposer ?

Les données validant les résultats présentés dans une publication doivent être déposées dès que possible sur la base de données de recherche choisie. Les autres données doivent être déposées ou non, selon ce qui est prévu dans le DMP (conditions, justifications).

Où conserver?

Dans une base de données de recherche - "research data repository" - permettant de garantir gratuitement à tout tiers au projet : un accès, une extraction, une exploitation, une reproduction, et une dissémination.

(14)

Les données de la recherche : quels

enjeux?

Les enjeux d’une bonne gestion

 Eviter la perte de données au cours du processus de publication

(15)

Les données de la recherche : quels

enjeux?

Les enjeux d’une bonne gestion

(16)

Les données de la recherche : quels

enjeux?

Les enjeux d’une bonne conservation

 Protéger les données

 Se prémunir de la perte de données ou de leur altération

 Permettre une réutilisation dans un nouveau projet de recherche

 Conserver une trace de la recherche

(17)

Les données de la recherche : quels

enjeux?

Les enjeux d’une bonne diffusion

 Permettre l’accès le plus large possible

 Eviter le phénomène d’appropriation des données

 Contribuer à la qualité et la visibilité de la recherche

 Favoriser les collaborations scientifiques

(18)

Les données de la recherche : quels

enjeux?

Et plus concrètement…

 Pour les chercheurs

Les bénéficiaires d’un financement H2020 doivent planifier le dépôt de

leurs données

Reconnaissance de la paternité

Pour la science

Utilisation de bases de données de référence

Approcher de différentes façons un même jeu de données

Amélioration des conditions de validation des articles

Réutilisation de données par d’autres chercheurs

Pour la société

Implication des citoyens dans le cadre des sciences participatives

DORANum. Enjeux et bénéfices : fiche synthétique (mise à jour : 08/08/2018)

(19)

Gestion des données de la

recherche

(20)

Cycle de vie des données de la

recherche

(21)

Suivant un calendrier

Le PGD est un document évolutif. Des mises à jour et des livrables précis peuvent

être définis selon le financeur et/ou projets.

Au moyen d’outils

Des outils existent pour aider dans la production de PGD.

Un PGD peut être établi aussi bien dans une optique de partage des données que

pour des données en accès restreint ou fermé, total ou partiel. Le PGD mentionnera

dans ce cas les raisons de non partage.

Les plans de gestion de données

(PGD)

Le Data Management Plan ou Plan de gestion de données est un document

synthétique qui aide à organiser et anticiper toutes les étapes du cycle de vie de la

donnée. Il explique pour chaque jeu de données comment son gérées les données d’un

projet, depuis leur création ou collecte jusqu’à leur partage et leur archivage.

(22)

Se poser les bonnes questions

Les plans de gestion de données

(PGD) : pourquoi?

Les plans de gestion de données - S. Cocaud et D. L'Hostis, INRA. URFIST Paris - 05 avril 2019 • En quoi consiste le projet ?

• Qui sont les partenaires ? • Quelle est la politique de

gestion des données ? • Qui est responsable de la

gestion des données ?

Responsabilités dans le projet

• Quelles données seront produites/utilisées au cours du projet ? (type, format, volume et accroissement…). • Comment seront-elles

produites ou transformées ?

Collecte des données

• Comment, où, par qui, seront stockées, sauvegardées et sécurisées les données ?

Sauvegarde des données

• Comment les données seront elles identifiées, décrites ? • Quels standards de

métadonnées utilisera t’on ? • Comment seront générées les

métadonnées ?

Documentation des données

• Qui sera propriétaire des données produites ?

• Des données externes seront-elles utilisées ?

Propriété intellectuelle

• Qui pourra accéder aux données ? • Les données seront-elles publiées

?

• Comment ? • Dans quel délai ? • Sous quelle licence ?

Accès et partage des données

• Comment la gestion et le partage des données sont-ils financés, en particulier à long terme ?

Ressources

• Quel est le plan d’archivage et de préservation à long terme ?

Archivage et préservation des données

Ethique

• Des données sensibles seront-elles produites ou utilisées ? • Comment sera assurée leur

(23)

Adopter de bonnes pratiques dans sa recherche

Les plans de gestion de données

(PGD) : pourquoi?

PGD

Formaliser sa manière de travailler Anticiper son investissement Gagner du temps Rendre réutilisable ses données

(24)

Pour répondre aux exigences de financeurs : la Commission Européenne

Modèles de conventions de subvention pour le programme-cadre «Horizon 2020»: H2020 MGA EJP Cofund — Multi: v5.0 –18.10.2017

Article 29.3 Accès ouvert aux données de la recherche :

Pour les actions participant au projet pilote sur le libre accès aux données de recherche(…), les bénéficiaires doivent:

(a) déposer les éléments suivants dans une banque de données de la recherche et prendre des mesures afin de permettre aux tiers d'y accéder et de les explorer, exploiter, reproduire et diffuser, gratuitement pour tout utilisateur:

(i) les données, y compris les métadonnées, nécessaires pour valider dès que possible les résultats présentés dans des publications scientifiques;

(ii) d'autres données, y compris les métadonnées associées, spécifiées dans le «plan de gestion de données» et dans les délais qui y sont fixés (voir annexe 1);

(b) fournir des informations, par la banque de données, sur les outils et les instruments à la disposition des bénéficiaires et nécessaires pour la validation des résultats (et, si possible, fournir les outils et instruments eux-mêmes).

Les plans de gestion de données

(PGD) : pourquoi?

(25)

Les plans de gestion de données : pourquoi?

Pour répondre aux exigences de financeurs : la Commission Européenne

Plus d'ouverture. Le principe de «science ouverte» deviendra le

mode opératoire d'Horizon Europe, exigera un accès ouvert aux publications et aux données, ce qui favorisera la commercialisation et accroîtra le potentiel d'innovation des résultats obtenus grâce aux financements de l'Union.

COMMISSIONEUROPÉENNE. Budget de l'Union : La Commission propose le programme de recherche et d'innovation le plus ambitieux à ce jour. Communiqué de presse, 7 juin 2018, Bruxelles. https://europa.eu/rapid/press-release_IP-18-4041_fr.htm (consulté le 01 mars 2020)

(26)

Pour répondre aux exigences de financeurs

• Plan d’action ANR 2019 : « Afin de favoriser la diffusion

ouverte des données de recherche, l’ANR attire

l’attention des déposants sur l’importance de considérer

la question des données de recherche au moment du

montage et tout au long du projet. Elle imposera un plan

de gestion des données (DMP) pour les projets financés

à partir de 2019. »

• Dans le respect des obligations relatives à la loi « Pour

une république numérique » et en lien avec le plan

national en faveur des archives ouvertes, le déposant

s’engage (…) en cas de financement à déposer les

publications scientifiques (texte intégral) issues du projet

de recherche dans une archive ouverte, soit directement

dans HAL soit par l'intermédiaire d'une archive

institutionnelle locale ; à fournir au démarrage du projet

un plan de gestion des données (DMP) selon des

modalités communiquées lors du conventionnement.

Les plans de gestion de données

(PGD) : pourquoi?

(27)

Les plans de gestion de données

(PGD) : pourquoi?

(28)

Les plans de gestion de données

(PGD) : pourquoi?

Focus : Programme H2020 – Les principes FAIR Data

Reusable

Findable

Interoperable

(29)

Focus : Programme H2020

« Lignes directrices sur les règles pour le libre accès aux publications scientifiques et pour le libre accès aux données de la recherche dans Horizon 2020 » (Version 3.2 - 21 mars 2017)

« Lignes directrices pour la gestion des données FAIR dans Horizon 2020 » (Version 3.0 - 26 juillet 2016)

Les plans de gestion de données

(PGD) : pourquoi?

Findable Accessible

Reusable Interoperable

(30)

Focus : Programme H2020

Les plans de gestion de données

(PGD) : pourquoi?

Programme financé par Horizon

Début: Janvier 2018

Durée: 36 mois

Partenaires: 100 partenaires provenant de 53 pays

Coordinateur:

EGI

Réunit plusieurs fournisseurs de services pour créer un Hub

Mobilise des fournisseurs tels que la EGI federation, EUDD CDI, INDIGO-dataCloud et

d’autres infrastructures de recherche européennes afin de créer un catalogue commun

de données de recherche, de services et de logiciels de recherche.

Collabore étroitement avec les projets eInfraCentral, EOSCpilot, GEANT 4.2,

OpenAIRE-Advance et RDA Europe 4.0 afin de fournir une offre de service cohérente aux

(31)

Connaissances et compétences nécessaires à l’élaboration d’un PGD :

• Connaître la réglementation concernant la production et la diffusion des données

• Connaître les principaux formats de métadonnées selon sa discipline pour la

description des données

• Connaître les entrepôts pour la diffusion en libre accès des données

• Savoir déterminer les besoins en matière de gestion et de stockage des données

• Savoir prévoir les coûts et besoins pour la conservation et la diffusion des données

Les plans de gestion de données

(PGD)

(32)

Il existe différents modèles de PGD…

• Selon financeur (H2020, ERC, ANR, …)

• Selon l’organisme de recherche

Les plans de gestion de données

(PGD) : structuration

(33)

…qui comportent cependant les même grandes rubriques :

Les plans de gestion de données

(PGD) : structuration

Valable pour

l’ensemble du projet

• Renseignements sur le projet

Pour chaque jeux de

données

• Description des jeux de données

Pour chaque jeux de

données

• Documentation et métadonnées

Pour chaque jeux de

données

• Le partage de données

Pour chaque jeux de données

• L’archivage et la conservation des

données

(34)

Ensemble des informations administratives et scientifiques du projet :

• Identifiant de l’appel à projet

• Nom du projet

• Description du projet

• Responsable(s) du projet

• Responsable(s) de la gestion des données

Les plans de gestion de données

(PGD) : structuration

(35)

Précisions sur les types de données collectées ou générées dans le cadre

du projet :

• Identifiant

• Description du jeu de données

• Format des données

• Origine des données (réutilisation de données existantes/création)

Les plans de gestion de données

(PGD) : structuration

(36)

Précisions sur la manière dont sont décrites et organisées les données :

• Standards et formats des métadonnées utilisées

• Mode de production (procédures, outils, logiciels)

• Règle de nommage

• Documentation associée

Les plans de gestion de données

(PGD) : structuration

(37)

Les plans de gestion de données

(PGD) : structuration

Focus sur les standards et métadonnées

Un peu de vocabulaire…

• Le standard de métadonnées : il a pour objectif de fournir un ensemble d’éléments

caractéristiques qui permettent de décrire les productions scientifiques. Le

standard est choisi en fonction de la destination des données, dépôt, publication,

archivage, etc. Il peut aussi être spécialisé par discipline, par type de données, etc.,

ainsi que son vocabulaire.

• Exemple : Dublin Core (interdisciplinaire), description des ressources

numériques

• Le format d’échange : est une représentation sous forme numérique du standard

et des métadonnées associées. Il permet l’utilisation de logiciels de représentation

et de traitement des métadonnées, et autorise des protocoles d’échanges. Deux

formats courants sont le XML et le CSV.

DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)

(38)

Les plans de gestion de données

(PGD) : structuration

Focus sur les standards et métadonnées

Où sont les métadonnées…

Les métadonnées sont présentes :

• soit de manière embarquée, exemple dans un fichier informatique (photo,

logiciel, document, …).

• soit de manière externe, exemple dans un catalogue d’accompagnement

d’un jeu de données ou dans un annuaire d’entrepôts.

A noter : les métadonnées sont embarquées dans un grand nombre d’objets

numériques. Elles existent nativement et on peut les enrichir manuellement. La

vérification intégrale de l’ensemble des métadonnées est importante pour

partager uniquement les données souhaitées.

DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)

(39)

Les plans de gestion de données

(PGD) : structuration

Focus sur les standards et métadonnées

Pourquoi?

QUI à créé les données?

QUE contiennent-elles?

OÙ sont-elles?

QUAND ont-elles été crées?

COMMENT ont-elles été crées?

POURQUOI ont-elles été crées?

DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)

(40)

Les plans de gestion de données

(PGD) : structuration

Focus sur les standards et métadonnées

Plus concrètement:

• Faciliter la découverte des données

• Identification de la ressource

• Description de la ressource

• Faciliter la gestion

• Gestion des droits (droits de la propriété intellectuelle, droits d’accès

et d’utilisation)

• Réutilisation (informations sur le contenu, sur la structure du jeu de

données)

• Interopérabilité (formats d’échange, vocabulaires contrôlés, syntaxe

définie)

DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)

(41)

Les plans de gestion de données

(PGD) : structuration

Focus sur les standards et métadonnées

• Dans un plan de gestion, le choix d'un standard peut être conditionné par les

recommandations ou les exigences des entrepôts dans lequel vous envisagez

de déposer vos données de la recherche.

• Il est conseillé de produire les métadonnées au moment de la collecte ou de la

création des données plutôt qu’à posteriori. Ainsi, les métadonnées seront

complétées tout au long du cycle de vie des données

DORANum. Métadonnées, standards, formats : fiche synthétique (mise à jour : 27/11/2017)

(42)

Les plans de gestion de données

(PGD) : structuration

Précisions des modalités de diffusion des données :

• Principes de diffusion

• Choix du dépôt de diffusion

• Licence et possibilités de réutilisation

• Les exceptions avec justification

(43)

Les plans de gestion de données

(PGD) : structuration

Focus sur les identifiants pérennes

Les identifiants contributeur (pour les auteurs et institutions)

identifier de manière fiable un auteur ou une institution

désambiguïser les noms et résoudre les problèmes d’homonymie,

translittération, etc.

augmenter la visibilité académique.

ORCID (Open Researcher and Contributor ID), identifiants du monde des

bibliothèques (ISNI, IdRef…), d’archives ouvertes (IdHAL, ArXiv Author ID)…

Les identifiants objet (pour les publications et les données)

identifier de manière fiable les productions scientifiques

établir le lien entre les articles publiés et les jeux de données

DOI (Identifiant numérique d’objet), ARK (Archive Resource Key), PURL

(persistent URL)…

DORANum. Identifiants pérennes : fiche synthétique (mise à jour : 10/07/2018)

(44)

Les plans de gestion de données

(PGD) : structuration

Précisions des modalités de conservation des données à long terme :

Critères de sélection des données à archiver

Durée

Lieu d’archivage

• L’archivage et la conservation des

données

(45)

Les plans de gestion de données

(PGD) : outils

- Créé par le Digital Curation Center (DCC)

- Prend en compte les recommandations de la Commission

Européenne (H2020)

- Instance française de DMPonline du Digital Curation Centre

(DCC) qui est mis à disposition de l’Enseignement Supérieur

et de la Recherche

- Hébergé et géré par l’Inist-CNRS

- Créé par l’Université de Californie

- Modèles simplifié de DMP

(46)

Aspects juridiques

Le partage des données

• Le cadre juridique de l’Open Data

• Loi initiale dite CADA (Commission d’Accès aux Documents Administratifs) • La loi Valter

• Loi pour une République Numérique

 codifiées dans le code des relations entre le public et l’administration

• La dimension éthique

• Respect de la vie privée • Propriété intellectuelle

• Qualité et intégrité des données sont des dimensions éthiques de la gestion des données.

Être informé de l’évolution des règles juridiques est très important pour un partage

responsable des données utilisées :

Guide d’analyse du cadre juridique en France

sur l’ouverture des données de la recherche

(47)

Aspects juridiques

Les droits d’auteur et la diffusion

• Code de la propriété intellectuelle

• Les licences

" Art. D. 323-2-1.-I.-L'administration peut soumettre la réutilisation à titre

gratuit des informations publiques qu'elle détient aux licences suivantes

[…] . Les licences susmentionnées sont accessibles sur

(48)

Concrètement: H2020

Renseignement

sur le projet

Pourquoi

Comment

Exemple

Titre du projet Identifier le projet auquel se rapporte le PDG

Indiquer le nom du projet et son acronyme

Indiquer l’identifiant du projet

Science and Innovation with thunderstorms - SAINT Project ID: 722337 Financeur et subvention Identifier le financeur et le cadre de la subvention Indiquer le nom du financeur, Le numéro de convention ou du financement Cf. CORDIS

Grant agreement ID: 722337

Résumé du projet Explication du

projet

Texte Lightning is an extremely

energetic electric discharge...

Chargé de projet Indiquer le

responsable scientifique Nom Prénom + identifiant ORCID Martin Füllekrug ORCID iD : 0000-0003-4588-3591

Contact pour les données Indiquer le responsable des données et du PGD Nom Prénom + identifiant ORCID Martin Füllekrug ORCID iD : 0000-0003-4588-3591

(49)

Concrètement: H2020

Descriptif des

données

Pourquoi

Comment

Exemple

Objectifs de la

collecte/génération de données

+ lien avec les objectifs du projet

Contextualiser Texte libre Les données recueillies

permettra de vérifier les hypothèses…

Préciser les types et formats de données générées et/ou collectées

- Fournir les premiers

renseignements permettant d'orienter les besoins en

stockage, en outils de traitement et de visualisation, les options de standards de métadonnées,

d'outils de diffusion ainsi que les solutions de pérennisation.

- Recenser les outils, logiciels et matériels nécessaires à la lecture des données produites, pour faciliter la réutilisation des

données ainsi que leur archivage et leur consultation à long terme.

Texte libre - Données d’enquêtes…

- Les données d’enquête sont diffusées en format SPSS (Statistical Package for the Social Sciences).

(50)

Concrètement: H2020

Descriptif des

données

Pourquoi

Comment

Exemple

Préciser si des données existantes sont réutilisées (le cas échéant)

- Garantir l’intégrité des données produites en établissant des filiations. - Eviter les plagiats en citant proprement ses sources.

- Repérer les jeux de données de référence et s’assurer de leur archivage

- Permettre l’établissement de liens entre jeux de données si signalement et mise en libre accès des données

Texte libre Ce projet s’appuie sur

des enquêtes préexistantes… (préciser références, DOI,…) Préciser l’origine des données

- Préciser si les données sont collectées et/ou générées dans le cadre du projet

-Préciser les méthodes de production

Texte libre - Données recueillies

par questionnaire… suivant la norme ISO…

(51)

Concrètement: H2020

Descriptif des

données

Pourquoi

Comment

Exemple

Indiquer une estimation du volume des données (si possible)

Anticiper les coûts et

problématiques de stockage Texte libre x Go Mettre en évidence le potentiel de réutilisation des données : à qui seront-elles utiles ?

-Encourager à la réutilisation des données

-Valoriser le potentiel des données

-Identifier un public cible

Texte libre Les données peuvent

servir de sources pour des travaux de

(52)

Concrètement: H2020

Données FAIR

« Trouvable »

Pourquoi

Comment

Exemple

Indiquer les standards de métadonnées

Mieux gérer, signaler et

conserver les jeux de données au cours du projet comme à son issue. http://www.dcc .ac.uk/resource s/metadata-standards http://rd-alliance.github.i o/metadata-directory/tools/ https://fairshari ng.org/ Federal Geographic Data Committee Content Standard for Digital Geospatial Metadata Indiquer si vous utiliser des identifiants uniques et pérennes

Identifier les procédures d’identification des données

(53)

Concrètement: H2020

Données FAIR

« Trouvable »

Pourquoi

Comment

Exemple

Définir les conventions de nommage utilisées

- Retrouver plus rapidement les données produites

- Faciliter la sélection et le tri des données en vue de leur exploitation et de leur archivage

Un document commun peut préciser les règles de nommage envisagées, le système adopté pour gérer les versions et l’arborescence de classement https://doranu m.fr/stockage-archivage/com ment-nommer-fichiers/ 20181220_CR

(54)

Concrètement: H2020

Données FAIR

« Accessible »

Pourquoi

Comment

Exemple

Préciser quelles données seront accessible

-Indiquer les jeux de données qui seront diffusables

-Justifier les exceptions

Texte libre Guide d’analyse du cadre juridique en France sur l’ouverture des données de la recherche - Données 1 et 2 : Accessibles à la fin du projet… - Données 3 : Accessibles après anonymisation à la fin du projet…. Préciser les modalités de diffusion envisagées

-Intégrer les exigences des financeurs en matière de dépôt et de diffusion

-Anticiper le choix des journaux et entrepôts afin de pouvoir prévoir les coûts éligibles -Orienter le choix des métadonnées Texte libre Guides H2020 (en français) Re3data.org Fairsharing.org DataCite.org OpenDOAR Réseau Quetelet Les données de recherche seront déposées dans Zenodo.

(55)

Concrètement: H2020

Données FAIR

«Intéropérable»

Pourquoi

Comment

Exemple

Préciser quels vocabulaires décrivant les données et métadonnées, quels standards ou quelles méthodologies seront appliqués pour faciliter l'interopérabilité.

Respecter les formats standards, compatibles autant que possible avec des logiciels libres,

facilitant ainsi la recombinaison de jeux de données provenant de sources diverses.

Texte libre Utilisation du

standard

interdisciplinaire : Dublin Core

(56)

Concrètement: H2020

Données FAIR

« Réutilisation »

Pourquoi

Comment

Exemple

Préciser la licence attribuée

-Clarifier le statut juridique -Préciser l’usage qui peut en être fait, dans quel cadre et par qui.

Texte libre

www.data.gouv .fr/fr/licences

Les données seront diffusées sous la

licence Open Database License (ODbL)

Préciser s’il y aura un embargo sur les données et quelle est sa durée?

Préciser l’existence éventuelle d’un embargo et sa durée.

Texte libre Les données sont

diffusées après une période d’embargo de 12 mois.

(57)

Concrètement: H2020

Allocations de

ressources

Pourquoi

Comment

Exemple

Estimer les coûts pour rendre vos données

conformes aux principes FAIR

-Identifier les manques dans les infrastructures à disposition -Anticiper les coûts pour les investissements permettant de les pallier

Texte libre En termes de

ressources humaines : recrutement d’un ingénieur de recherche…. En termes de matériel: achat de X PC, X PC portables, X tablettes...

(58)

Concrètement: H2020

Sécurité des

données

Pourquoi

Comment

Exemple

Examiner la

récupération des données ainsi que le stockage

sécurisé et le transfert de

données sensibles.

-Identifier les supports

-Analyser les forces et faiblesses des moyens choisis

-Evaluer les risques pesant sur la conservation à court, moyen et long terme

Texte libre Les données sont

stockées sur des serveurs virtuelles hébergés dans les locaux sécurisés de la DSI de

l’établissement(avec dispositif de

(59)

Concrètement: H2020

Aspects

éthiques

Pourquoi

Comment

Exemple

Le projet pose-t-il des questions éthiques ? Quels sont les moyens mis en œuvre pour y répondre?

-Détailler ce qui est mis en œuvre pour une production et une gestion éthique des

données

Texte libre Un accord de

confidentialité sera signé par tous les participants…

(60)

Concrètement: H2020

Autres

Pourquoi

Comment

Exemple

Mentionner les autres procédures nationales, sectorielles, départementales ou issues de financeurs utilisées pour la gestion des données (le cas échéant).

Préciser si vous devez prendre en compte une politique en matière de gestion des données, de partage et de sécurité des données (institutionnelle, relative à une agence de financement)

Texte libre Pour ce projet, les

recommandations concernant les publications, les affiliations, la gestion des données et la sécurité informatique de la Commission Européenne seront appliquées.

(61)

Diffuser des

données de la recherche

(62)

"As open as possible, as

closed as necessary"

Dépôt lié à une

publication

Diffusion des données : préalables

(63)

Diffusion des données : préalables

Préparer les données pour une réutilisation

• Fichiers dans des formats pérennes et ouverts

• Fichiers organisés et nommés de façon explicite

(64)

Diffusion des données : préalables

Vérifier les aspects juridiques et éthiques

• Les droits de diffusion sont vérifiés

• Les principes éthiques sont vérifiés

(65)

Diffusion des données : comment?

Il existe différents modes de diffusion pour les données :

Les publier

(66)

Diffusion des données : la publication

Intégrer les données dans un article scientifique :

lorsqu’un article est publié dans une revue, les

données qui y sont intégrées le sont aussi.

Avantages :

• Intégration maximale des données et de l’article : citable,

recherchable ;

• Paternité des données / crédits aux auteurs.

Limites :

• Données difficiles à trouver indépendamment de l’article et dans une

forme peu ou pas réutilisable.

DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)

(67)

Diffusion des données : la publication

Joindre les données en matériel supplémentaire

Les données sous-jacentes d’un article peuvent être jointes

dans un fichier en tant que matériel supplémentaire. Ces

données, qui vont plus loin que les données intégrées dans

l’article, sont de plus en plus demandées aux auteurs pour

des questions de validation.

Avantages :

• Format des données libéré des contraintes de rédaction de l’article ;

• Paternité des données / crédits aux auteurs.

Limites :

• Taille souvent limitée ;

• Peu de standardisation sur le signalement des fichiers « supplémentaires » ;

• Identification des données indépendamment de l’article possible mais rare ;

• Données difficiles à trouver indépendamment de l’article et dans une forme

peu ou pas réutilisable.

DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)

(68)

Diffusion des données : la publication

Publier les données dans un data paper

Les data papers sont des articles qui ont pour but de rendre les données accessibles,

interprétables et réutilisables. Ils fournissent une voie formalisée au

partage des données. Les data papers peuvent paraître dans des revues

classiques ou dans des revues spécialisées, appelées data journals.

Avantages :

• Paternité des données / crédits aux auteurs ;

• Citation aisée ;

• Réutilisation des données facilitée ;

• Données normalisées, standardisées, conservées de façon pérenne ;

• Pas de restriction en volume ;

• Liens vers les données déposées réciproques et sécurisés.

Limites :

• Interrogation possible sur la qualité du peer-review ;

• Données déposées de préférence dans un entrepôt, impliquant la recherche et le choix de

l’entrepôt adapté.

DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)

(69)

Diffusion des données : la publication

Publier les données dans un data paper

• Revue classique avec des articles de type data paper :

• Ecology

• Genomics Data

• Data journal :

• Multidiscilinaire : Scientific Data ;

Gigascience

• Ecologie, environnement : Biodiversity Data Journal

• Chimie : Chemical Data Collections

• SHS et sciences économiques : Research Data Journal for the Humanities

and Social Sciences ; Journal of Open Archaelogy Data

• Informatique : Journal of Open Research Software

DORANum – Comment publier des données de la recherche (mise à jour : 28/05/2018)

(70)

Diffusion des données : le dépôt dans

un entrepôt

Déposer les données dans un entrepôt

Un entrepôt de données (Data repository, digital repository) est

un

réservoir constitué majoritairement de données de

recherche, brutes ou

élaborées, qui sont décrites par des

métadonnées de façon à pouvoir être retrouvées.

Entrepôt de confiance (trusted repository)

Un

entrepôt de confiance

se définit comme un entrepôt

répondant aux

critères de qualité exigés pour obtenir une

certification (format des données, qualité des métadonnées,

conditions d'accès et de

réutilisation, identifiant pérenne,

archivage à long terme, ...).

Dans ces entrepôts de données, il est attribué un identifiant ou

un numéro d'accès à chaque jeu de données déposé.

(71)

Diffusion des données : le dépôt dans

un entrepôt

Déposer les données dans un entrepôt : comment choisir?

Suivre les recommandations : Un entrepôt vous est-il recommandé par l’une des parties prenantes de votre

projet (votre financeur, éditeur, institution, etc.) ?

• Vos travaux de recherche rentrent-ils dans le cadre d’un projet national ou international ?

• Exemple : la politique de données du programme de recherche international MERMeX stipule que les données collectées seront recueillies dans MISTRALS database pour améliorer, faciliter et sécuriser leur disponibilité.

• Comment votre institution s’organise-t-elle en ce qui concerne le dépôt des données ?

• Exemple : l’Institut Laue-Langevin a mis en place une politique de partage des données et dispose d’un portail dans lequel les chercheurs de l’institut peuvent déposer leurs données.

• Existe-t-il des pratiques spécifiques à votre domaine scientifique ?

• Exemple: en génomique, les bases de données comme Uniprot, GenBank sont aujourd’hui des bases de référence.

• Votre éditeur a-t-il une politique concernant le partage des données ?

• Exemple: l’éditeur PLOS ONE oblige les auteurs d’un article à rendre accessibles toutes les données sous-jacentes aux résultats rapportés dans l’article soumis.

• Votre financeur vous donne-t-il des recommandations ?

• Exemple : la Commission Européenne donne des lignes directrices aux chercheurs bénéficiant de financement dans le cadre d’Horizon 2020. Les bénéficiaires doivent déposer les données

nécessaires à la validation des résultats présentés dans les publications et les autres données citées dans le plan de gestion des données. Le choix de l’entrepôt reste du ressort du déposant (l’annuaire re3data est recommandé et l’entrepôt Zenodo est également cité).

(72)

Diffusion des données : le dépôt dans

un entrepôt

DORANum – Dépôt et entrepôts (mise à jour : 17/08/2018)

Déposer les données dans un entrepôt : comment choisir?

Filtrez par critères : Si aucun entrepôt ne vous est recommandé, il

vous faut en trouver un adapté à vos besoins. Vous pouvez utiliser des

annuaires d’entrepôts et/ou rechercher des entrepôts certifiés.

• Il existe des annuaires qui peuvent vous aider à filtrer votre recherche

d’entrepôt : re3data, OAD, OpenDOAR, etc.

(73)

Diffusion des données : le dépôt dans

un entrepôt

Déposer les données dans un entrepôt :

• Pratiques disciplinaires :

• GenBank (séquence ADN)

PANGAEA

(sciences de l’environnement)

• Organises de financement :

Zenodo

(Commission européenne)

• Etablissements de recherche :

IRSTEA

• Editeurs :

• Plos

• GigaDB

(74)

Ré-utiliser des données de la

recherche

(75)

Ré-utiliser des données de la

recherche : Rechercher

Où trouver les jeux de données ?

• Entrepôts multidisciplinaires

• Entrepôts thématiques

• Annuaires d’entrepôts

• Moteurs de recherche

(76)

Ré-utiliser des données de la

recherche : Rechercher

Où trouver les jeux de données : Entrepôts multidisciplinaires

Zenodo

: entrepôt de jeu de données de recherche, issu du projet

européen OpenAIREplus et du CERN ; il est possible de recherche un jeu

de données ou d’en déposer. Plus de 2000 sont référencés.

Figshare

: entrepôt de jeu de données de recherche multidisciplinaire.

Dataverse Project

: entrepôt de jeu de données de recherche

(77)

Ré-utiliser des données de la

recherche : Rechercher

Où trouver les jeux de données : Entrepôts thématiques

• Dryad Digital Repository : plateforme de données de la recherche dans les

domaines de la médecine et de la biologie

• PANGAEA : plateforme de données de la recherche dans les domaines des

sciences de la terre et de l’environnement

• International Virtual Observatory Alliance (IVOA) : entrepôt de jeu de

données de recherche dans le domaine de l’astronomie

• Interuniversity Consortium for Political and Social Research (ICPSR) :

entrepôt de jeu de données de recherche dans le domaine des sciences

sociales

(78)

Ré-utiliser des données de la

recherche : Rechercher

Où trouver les jeux de données : Annuaires d'entrepôts de données

Re3data.org

En février 2018, le re3data.org recensait pus de 2000 entrepôts de données de toutes disciplines.

BioSharing.org

En septembre 2018, BioSharing recensait 1148 entrepôts de données, 1269 standards de métadonnées pour la description des données en sciences de la vie et 115 politiques de dépôts

DataCite.org

En septembre 2018, DataCite recense e 1694 sites de stockage de données.

• OpenDOAR

(79)

Ré-utiliser des données de la

recherche : Rechercher

Où trouver les jeux de données : Moteur de recherche

Elsevier DataSearch

DataCite Metadata Search

OpenAire

Base

(Bielefield Academy Search Engine)

(80)

Ré-utiliser des données de la

recherche : Ré-utiliser

Les utilisateurs de données doivent appliquer les conditions

d’utilisation mentionnées dans ces licences

(81)

Ré-utiliser des données de la

recherche : Citer

La référence d’un jeu de données doit qualifier de manière univoque le

jeu de données :

• Elle doit permettre d’identifier le (ou les) auteur(s) ;

• elle doit permettre de localiser le jeu de données ;

(82)

Ré-utiliser des données de la

recherche : Citer

La référence bibliographique complète d’un jeu de données comporte les éléments suivants : • Auteur : créateur du jeu de données

• Date de publication : date de mise en ligne du jeu de données ou date de fin d’embargo à l’issue duquel le jeu de données devient accessible

• Titre : titre du jeu de données, et éventuellement titre de la collection ou de la sous-collection dont le jeu de données fait partie

• Edition : niveau de traitement (par exemple 1e édition, édition révisée, etc.) du jeu de données, selon une nomenclature si possible appropriée au type de données concernées

• Version : numéro croissant au fur et à mesure des modifications apportées aux données ou au processus de traitement

• Nom de la norme, du standard, ou du modèle de référence des données et son identifiant sur internet ou URI : par exemple ISO 19101-1:2014 (https://www.iso.org/obp/ui/#iso:std:iso:19101:-1:ed-1:v1:en) si cette norme est utilisée pour référencer l’information géographique relative au jeu de données

• Type de ressource : base de données, jeu de données , logiciel, image, vidéo, etc. • Editeur : organisation produisant ou rendant accessible le jeu de données

• Identifiant : code identifiant le jeu de données de façon pérenne et univoque, par exemple un DOI • Localisation : Adresse URL où le jeu de données est accessible.

(83)

Ré-utiliser des données de la

recherche : Citer

Le format minimal d’une référence bibliographique d’un jeu de données

comporte 5 éléments (recommandation de DataCite, consortium international

dont l’objectif est de faciliter l’accès aux données de la recherche et leur

réutilisation) :

Auteur (Année de publication) : Titre. Editeur. Identifiant

Ce format minimal peut être complété, si besoin, par la version et le type de

ressource :

Auteur (Année de publication) : Titre. Version. Editeur. Type de ressource.

Identifiant

Exemple (DataCite) : Irino, T; Tada, R (2009): Chemical and mineral

compositions of sediments from ODP Site 127‐797. Geological Institute,

University of Tokyo. https://doi.org/10.1594/PANGAEA.726855.

(84)

Ré-utiliser des données de la

recherche : Citer

Quels logiciels gèrent les références bibliographiques de jeux de données ?

• EndNote (version X4) propose le type de référence Data Set

• Zotero ne propose pas de type de document spécifique pour décrire les jeux de

données. Les références de jeux de données importées dans une bibliothèque

Zotero apparaissent sous le type Document.

• Mendeley ne propose pas de type de document spécifique pour décrire les jeux de

données. Le type Generic peut être choisi comme substitut.

(85)

Actions 2020 collège Données de la recherche = une réflexion sur la pertinence de développer un entrepôt de données mutualisé

• Piloté par l’IRD (coordinateur de l’étude), l’INRAE, Sorbonne Université et le CNRS

accompagné par le cabinet Datactivist, coopérative spécialiste de l’ouverture des données • Résultats attendus à l’automne

Réunion de lancement a eu lieu début février et a fixé les objectifs du groupe de travail

• Enjeu = envisager la mise à disposition d’un service qui puisse stocker, préserver, et le cas échéant ouvrir et diffuser des données de recherche, tout en garantissant leur maîtrise et leur gestion (contrôle de la propriété intellectuelle par ses détenteurs, licence, curation, citabilité, etc.) aux établissements

producteurs qui le souhaiteraient. Il s’agit également d’offrir une solution contrôlée par les acteurs publics de diffusion de données liées aux articles.

• Une étude répondant à deux objectifs du Plan national pour la science ouverte : • « Développer un service générique d’accueil et de diffusion des données simples »

• « Créer les conditions et promouvoir l’adoption d’une politique de données ouvertes associées aux articles publiés par les chercheurs »

Des ateliers seront organisés au printemps afin de recueillir les besoins des utilisateurs.

• Un 1er atelier organisé le 6 mars avec un groupe composé de gestionnaires d’entrepôts existants pour disposer des retours d’expérience d’établissements ou de structures pilotes.

• D’autres ateliers suivront, dans plusieurs régions, afin de recueillir les besoins des utilisateurs qui produisent et qui gèrent des données au quotidien.

L’étude dressera également une analyse comparative des différentes offres logicielles existant sous licence libre.

• À l’issue de ces deux premières phases, plusieurs scénarios de mise en œuvre, portant sur des solutions techniques comme sur la gouvernance, seront soumis concernant la pertinence de mettre en place un dispositif mutualisé, qui permettrait le dépôt et la diffusion de données au niveau national, ainsi que leur stockage et leur préservation à long terme. Les résultats de ces travaux seront présentés à l’automne 2020.

Billet complet : https://www.ouvrirlascience.fr/etude-de-faisabilite-pour-un-service-dentrepot-de-donnees-simples/

Références

Documents relatifs

le texte ne révèle pas les conséquences tant pour l’entité prophète que pour l’ED, nous pouvons en déduire au terme de cette analyse que ces oracles du prophète contribuent

de même, ce sont dans leurs fondements que sont interrogées nos écoles d’architecture plus traditionnellement portées sur le « projet » lui-même (ses formes et ses fonctions,

La majeure partie des sociétés du Sud sont restée à l’écart du progrès économique et social tel qu’on l’a vu se faire au Nord (régimes collectifs de retraite,

Quelques hypothèses de travail nous permettront d'aborder l'analyse de cette question, à savoir la relation entre l'Initiative pour les Amériques (EAI) et la doctrine Monroe dans

Les résidus miniers contenant des minéraux sulfureux peuvent produire du drainage minier acide (DMA) lorsqu'ils sont en contact avec l'oxygène de l'air et l'eau et que

Figure 1 : Schéma du Jumelage Eolien — Diesel avec Stockage d'Energie sous forme d'Air Comprimé L'hybridation pneumatique d'un moteur Diesel consiste à introduire l'air comprimé à

Dans ses ouvrages sur Spinoza, Deleuze, sans aucune exception, déploie donc toute son intelligence et tous ses efforts intellectuels pour « protéger », non pas seulement

Rappelant la conceptualité aristotélicienne de la catharsis, Tosel observe en effet qu’« il y aurait à s’interroger sur la dimension pédagogique (et esthétique