Qu’est-ce qu’une donnée ?
Qu’est-ce qu’un jeu de données ?
Que sont les métadonnées ? (voir sur le site du DRS)
Qu’entend-t-on par gestion des données ?
« Les données, ou unitésd’information,qui sont créées au coursd’unerecherche, subventionnée ou non, et qui sont organisées ou formatées de telle sorte qu’elles soient communicables, interprétables et adaptées à un traitement souvent informatisé».
Université de Bristol
« Les données de la recherche sont des enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires à la validation des résultats de recherche »
Organisation de Coopération et de Développement Économiques (OCDE)
« Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche. »
Association des archivistes français. Section « Aurore »
« 1) the data, including associated metadata (i.e. the metadata describing the research data deposited), needed to validate the results presented in scientific publications ;
2) other data (i.e. curated data not directly attributable to a publication, or raw data), including associated metadata.»
Commission européenne pour Horizon 2020
« Les données de la recherche sont un ensemble d’informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d’unprocessus de recherche »
Définition du groupe de travail P5/P7
Le jeu de données
Selon le projet, un jeu de données peut recouvrir des réalités différentes. Un ou plusieurs jeu(x) de données peuvent être lié(s) au projet de recherche, et désigner :
i) un lot techniquement homogène,
ii) un lot intellectuellement cohérent même si celui-ci est composé de lots techniquement hétérogènes.
Définition du groupe de travail P5/P7
BIG DATA
Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.
Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse,
visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.
Exemples de projets concernés : séquençage haut débit
observatoire virtuel en astronomie simulation en physique et énergie imagerie médicale
données environnementales biotiques /abiotiques données économiques (e-commerce, systèmes décisionnels)
données sociales (réseaux sociaux, bibliothèques numériques, patrimoines culturels)
2012 : lancement des appels à projets « Grandes masses de données scientifiques » - MASTODONS
OPEN DATA
Mouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et
exploitables.
Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques.
En Europe et dans certains pays, des
directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.
• Directive 2003/98/CE
• Ordonnance n°2005-650 du 6 juin 2005
• Directive 2013/37/UE
RESEARCH DATA
Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche
scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.
Définition de l’OCDE
BIG DATA
RESEARCH DATA
OPEN DATA
OPEN RESEARCH
DATA
Data management VS. Open data
Diffusion de manière structurée selon une méthode et une licence ouverte des données pour leur libre accès et leur réutilisation par tous, sans restriction
technique, juridique ou financière.
Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement les besoins de la recherche sur tout au
long du cycle de vie des données
Début du projet Fin du projet
Enjeux juridiques,
économiques, scientifiques …
Brevets, CNIL, secret défense, concurrences, droit d’auteurs …
Dépôt en archives ou entrepôts ouverts
Archivage auprès d’un organisme agréé Données en appui des publications ou OK pour diffusion.
Autres données produites au cours du projet. Pas de diffusion.
Données publiées
Données retenues
Données traitées Données
produites
Données exploitées pour l’élaboration des résultats
Données analysées, agrégées, compilées, transformées
Données primaires
produites ou collectées au cours de la recherche
Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne.
Perte d’information
importante au cours
du processus de
publication
Publications fréquentes de résultats erronés dans de grandes revues à comité de lecture et fort facteur d’impact
Affaire Hendrick Schön – Chimie de la matière condensée - 2001
Affaire Diederik Stapel – Psychologie sociale – 2011 Affaire Yoshiki Sasai (cellule STAP) – 2014
Les corrélation abusives etc.
Le libre accès aux publications et aux données associées facilite : Une vérification des résultats obtenus grâce à la possibilité de rejouer les données
Un meilleur recensement par les logiciels de détection anti-plagiat type Compilatio (utilisé pour les thèses à Paris Descartes)
Une meilleure diffusion auprès des pairs par une visibilité accrue
auprès des moteurs de recherche
Lancement d’un Open research data pilot : 1) Produire un plan de gestion des données, 2) Déposer les données et métadonnées dans un entrepôt de données. Pour les ERC : recommandations
“Open research data represents a revolution in the way research is conducted and LERU both notes and endorses this development. […]
Universities need to note the move to data- driven research and take appropriate actions”
Motion adoptée par la CP2U du 1er Octobre 2015 : La CPU tient à réaffirmer que […] les données de la science doivent être érigées en données d’intérêt général. […] science ouverte se fonde sur l’accès ouvert aux publications (open access), l’accès ouvert aux données de la recherche (open data) et à la libre réutilisation des publications et des données à des fins de
recherche.
Plan d’action 2016 de l’ANR et appels à projet générique
Les chercheurs sont encouragés à tirer parti, lorsque cela est possible, des infrastructures et des grandes bases de données existantes, et de
promouvoir leurs résultats en « open access »
SHERPA / JULIET : Research funders' open access policies
SHERPA/FACT : Funders and authors compliance tool
« linked open data »
Financement public de la recherche (locaux, crédits,
bourses, matériels etc.)
Jeux de données
Université
ROI négatif ROI positif Chercheur(se)
Editeurs commerciaux
Archives ouvertes 1x
2x 2x
Développement et revente de produits et services commerciaux à partir de données évaluées et mises à disposition gratuitement ou à leur frais par les chercheurs et leurs institutions.
• Concevoir de nouvelles infrastructures et de nouvelles méthodes de traitement
• Obtenir les financements
• Disposer des espaces de stockage à moyen terme
• Garantir l’archivage à long terme (sélection)
• Développer des outils de visualisation
• Identifier les besoins de formations et les nouvelles compétences
• Gérer les données personnelles et les questions
juridiques associées
• décrire le cycle de gestion et de vie des données produites, collectées ou générées tout au long du projet de recherche.
• anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une conservation et diffusion future des données.
Un plan de gestion de données est un document formel précisant la manière dont seront produites, traitées, décrites, diffuser et conserver les données au cours et à l’issue du projet.
Il permet de :
Section 1 : Informations relatives au projet
Section 2 : Responsabilité des données : répartition des rôles
Section 3 : Ressources nécessaires à la mise en œuvre du PGD
Section 4 : Jeux de données
4.1 Description du jeu de données
4.2 Stockage, accès et sécurité des données – au cours du projet 4.3 Métadonnées : documentation et organisation des données 4.4 Dissémination des jeux de données – à l’issue du projet
Section 5 : Sélection et archivage – obligatoire que les données soient diffusées ou non
Valable pour l’ensemble
du projet
Valable pour l’ensemble
du projet Propre à chaque jeu de données
Un jeu de données est un ensemble de données techniquement
homogènes ou intellectuellement cohérentes.
Le DMP est un document
prospectif et évolutif destiné à être enrichi à mesure de
l'avancement du projet.
17
Formation aux correspondants Europe -SPC
Télécharger le guide
S’inscrire S’inscrire
Télécharger le template
Le DMP, un livrable pour les projets pilote H2020
:• attendu dans les 6 premiers mois de la vie du projet (des améliorations du DMP peuvent également faire l’objet de livrables subséquents) ;
• obligatoire dans les projets inscrit au piloteOpen Research Data
• pas contenu dans la proposition de projetsoumise et ne fait pas partie de l’évaluation.
En revanche, dans les actions de recherche et d’innovation (RIA) et etles actions d’innovation (IA) le "template proposal"
inclut une section management des données de recherches, évaluée sous le critère "impact".
• Coordination (projet collaboratif)
• Analyse et gestion des risques (informatique, juridique, économique, scientifique, humain etc.)
• Prise en compte du cycle de vie de la donnée
• Anticipation et optimisation des coûts (éligibilité)
• Monitoring des besoins et activités
Plannifier
Produire/
Collecter
Stocker
Décrire Préserver /
Archiver Intégrer
Analyser
Rédaction d’un DMP
Mise en place d’espaces
serveur sécurisés pour accéder au document.
Ajout des métadonnées de gestion
Documenter les
données pour permettre leur réutilisation. Ajout des métadonnées descriptives (diffusion) normées et structurées Recherche de données , procédés semblables ou complémentaires.
Métadonnées d’observation
Archiver pour garantir la pérennité de l’accès et de la compréhension des données.
Ajout de métadonnées de préservation
Réutilisation
Diffusion
Idée de la recherche
Demande de financement
Projet financé Données de
la recherche Publications
scientifiques Rapport final
Identifiant pérenne (DOI, Handle) Indexées
En ligne sur le web Gratuites
Validées
Décrites , documentées Normalisées (ontologie)
Entrepôts ouverts
Protocoles moissonnables
Licence libres
Formats non propriétaires Archivage pérenne
Métadonnées
Jérémy Lasbleiz. Utilisation des ontologies dans le contexte de l'Imagerie par Résonance Magnétique. Ingénierie biomédicale. Université Rennes 1, 2013. Français. <NNT : 2013REN1B017>. <tel-00950357>
(appariable à SNOMED-CT et DICOM)
Un ontologie est un ensemble structuré des termes et concepts représentant le sens d'un champ d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances. Les ontologies sont employées dans Web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation normalisée de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde.
Types de données Définitions Valeur et spécificité Exemples Données d’observation
(Observational datas)
Données obtenues en temps réel
Souvent uniques et irremplaçables
Données
atmosphériques,
d’enquêtes, échantillons, neuro-image
Données expérimentales (Experimental datas)
Données obtenues en laboratoire à partir d’équipements spécifiques
Reproductibles mais à des coûts dissuasifs
Séquence de génome, chromatographie, spectres RMN
Données de simulation (Simulation datas)
Données générées à partir de modèles test
Métadonnées et modèles ont une valeur supérieure aux résultats
Modèles climatiques, modèles économiques
Données dérivées ou compilées
(Derived or compiled data)
Données obtenues par compilations ou
traitement des données brutes
Reproductibles mais à des coûts dissuasifs
Texte et data mining, bases de données compilées, modèles 3D Données de référence ou
données canoniques (Reference or canonical datas)
Collections statiques ou organiques de jeux de données validées
Données publiées ou qui ont fait l’objet d’une curation
Banque de données sur
le génome, structures
chimiques, portail de
données spatiales
Pratiques disciplinaires
Organismes de financement
Établissements de recherche
Éditeurs
Partage des données inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement)
Financements conditionnés par le
respect de certaines règles relatives à la gestion et au partage des données
Politiques institutionnelles définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données
Obligation de dépôt dans une archive ouverte des données sur lesquelles reposent les conclusions d’un article + data journals
Chercheurs
Initiatives personnelles de mise à disposition de la communauté
scientifique de ses données (site web, page perso, réseaux socio.)
Motivations Exemples d’entrepôts
Entrepôts disciplinaires
Entrepôts communautaires / réseaux sociaux
Entrepôts institutionnels
Entrepôts d’éditeurs, partenaires ou recommandés
AustralianNational Data Service Scientific Data(Nature)
• to expose datasets
• fulfil funder requirements to make research data outputs publically available
• provide accessible, resolvable and permanent access to research data
• provide citable references to data outputs that can be added to your professional profile including CVs
• enable the generation of citation metrics for research data by services
such as the recently established Thomson Reuters Data Citation Index
Titre journal Éditeur Référenc ement
Beall list
OA Coût APC
Date début Journal of Physical and
Chemical Research Data
AIP WoS non - - 1972-
Genomics Data Elsevier WoS non OA €
448.6
2013- Journal of Open
Psychology Data
Ubiquity Press
- non OA € 130 2013-
Scientific Data Nature PubMed non OA € 1 050
2014- Geoscience Data
Journal
Wiley WoS non OA € 1
200
2014- Research Data Journal
for the Humanities and Social Sciences
Brill - non OA - 2016-
Instructions aux auteurs
thèmes / langage(s) / longueur / style de références liste d’entrepôts recommandés
Titre, résumé, mots-clé, références Texte :
Contexte de la recherche
Méthode : échantillon, materiel, procédures, contrôle qualité, questions éthiques
Description du/des jeu(x) de données Bibliographie
Article : texte + un lien vers le jeu de données décrit + matériaux
supplémentaires (illustrations, tableaux , vidéos, sons , etc.)
Un identifiant unique et pérenne est mécanisme d'identification de ressources ayant vocation à faciliter la gestion numérique sur le long terme de toute chose en associant des métadonnées. Les métadonnées peuvent évoluer au cours du temps, mais l'identifiant reste invariant.
Depuis 2012, le système d'identifiant numérique d'objet a été normalisé sous la forme de la norme ISO 26324.
Ex. : URI, Handle, ARK etc.
Point de contact France INIST-CNRS
Irino, T; Tada, R (2009): Chemical and mineral compositions of sediments from ODP Site 127‐797. Geological Institute, University of
Tokyo.http://dx.doi.org/10.1594/PANGAEA.726855
Geofon operator (2009): GEFON event gfz2009kciu (NW Balkan Region).
GeoForschungsZentrum Potsdam
(GFZ).http://dx.doi.org/10.1594/GFZ.GEOFON.gfz2009kciu
Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF‐Ensemble run by DWD for the MAP D‐PHASE project. World Data Center for
Climate.http://dx.doi.org/10.1594/WDCC/dphase_mpeps
Consortium international opérant comme agence d’enregistrement de DOI.
Objectifs
Promouvoir des normes et bonnes pratiques relatives à la citation des données
Soutenir l’archivage de données pour
rendre possible le contrôle des résultats de la recherche et leur réutilisation.
L’Inist-CNRS est l’institution membre de
DataCite pour la France.
Garantir la récupération, l’intégrité et la compréhension des données préservées.
Documenter autant que possible la démarche de recherche, le contexte de production des données et leur mode de traitement. Cela implique de préserver également les :
- Outils de mesure, paramétrage
- Algorithmes de traitement, modélisation etc.
- Formats des données
- Programme et outils de visualisation
- Ontologie et éléments de vocabulaire ou d’indexation
http://esante.gouv.fr/services/referentiels/securite/hebergeurs-agrees Code de la santé publique : articles L1111-8, R1111-9 à R1111-15-1 et R1111-16 (relatifs à l’hébergement des données de santé à caractère personnel par des personnes physiques ou morales agréées à cet effet). Arrêté ministériel du 4 décembre 2009précisant les normes relatives aux prestations en archivage et gestion externalisée.
Données papier
En application de l’article R.1111-16 du Code de la santé publique, les prestataires agréés par le ministère de la culture pour la conservation d'archives publiques courantes et intermédiaires sur support papier le sont également, ipso facto, pour l'hébergement de données de santé à caractère personnel sur support papier (et ce quel que soit le statut des archives sur support papier, publiques ou privées, qui contiennent ces données de santé à caractère personnel).
Données numériques
En revanche, l’hébergement de données de santé à caractère personnel sur support informatique nécessite un autre agrément, accordé par le ministre de la santé (articles L.1111-8 et R.1111-9 à R.1111-15-1 du Code de la santé publique) – pour tout renseignement à ce sujet, on consultera le site de l’Agencedes systèmesd’information partagés de santé (ASIP Santé).
Libérer ses données ne signifie pas renoncer à toute forme de droit, de contrôle ou de protection sur les données.
Les licences
- Creative Commons : publications.
- Licence ouverte Etalab (Open Licence) : données et publications.
- Open Database Licence (ODbl) : base de données.
- Open Data Commons Attribution License (ODC –By) : données et bases de données.
- GNU General Public License : logiciels et programmes informatiques
L’embargo
L’embargo est une protection temporaire permettant de remettre à un délai ultérieur la libre diffusion et/ou réutilisation des données ou des publications. Sous réserve d’obligation extérieure, le choix et les durée de l’embargo reviennent à l’auteur. Ex:
les subventions H2020 impose un délai maximum de 6 mois d’embargo pour les publications en sciences et 12 mois pour les SHS.
12/09/2014 Formation aux correspondants Europe SPC 45
Penser un projet structurant sur le long terme Susciter une dynamique de coopération en s’appuyant sur les compétences existantes
Intégrer la gestion des données de la production à la mise à disposition
Renforcer l’identité numérique de la ComUE à
travers la valorisation des données de recherche
Planifier
Gérer &
analyser
Disséminer
Découvrir
& mesurer
Préserver &
réutiliser
DMP
PLATEFORME NUMERIQUE
DATA REPOSRITORY
DISCOVERY ALTMETRICS
PORTAIL
CINES PRESTATAIRE
Calculs intensifs traitement de données chaudes
Signalement indexation et mesures
Données administratives Données descriptives
Données juridiques Données de gestion etc.
Dépôt des jeux de données Enrichissement des métadonnées
Plateforme d’accès
Exposition des métadonnées Répertoire de données Exposition des données
Enrichissement Dépôt des articles
Gestion des accès
données
métadonnées
Préservation des données
Accès ponctuel
Comment initier une réflexion institutionnelle en l’absence d’infrastructures et de volonté politique soutenue ?
Propositions
Privilégier une approche pragmatique par projets Concevoir une approche collaborative
Consolider, documenter et communiquer sur les
initiatives de réflexion
Aurore CARTIER
Université Paris Descartes
Service commun de la documentation aurore.cartier@parisdescartes.fr
01.44.41.22.87
51