DataCite au service des données – identifier pour valoriser
Herbert Grüttemeier INIST-CNRS
Université d’été GFII,
12/9/2013
Digital Object Identifier (DOI) offre une alternative
Identifiant largement utilisé pour les articles scientifiques
Chercheurs, auteurs, éditeurs savent comment l’utiliser
Place les jeux de données sur le même plan que les articles
Jeu de données
Yancheva et al (2007). Analyses on sediment of Lake Maar. PANGAEA.
doi:10.1594/PANGAEA.587840
URL n’est pas persistant
(ex. Wren JD: URL decay in MEDLINE- a 4-year follow-up study. Bioinformatics. 2008, Jun 1;24(11):1381-5).
DOI pour l‘accès et la citation
Un DOI pourquoi ?
DOI (Digital Object Identifier): identifiant persistant qui permet la citation et fournit un lien stable vers
des ressources numériques, comme les données de la recherche
constitué de deux parties:
10.5072 /datacenter.123xy
Préfixe Suffixe
http://www.doi.org
Au niveau infrastructure, les noms DOI sont des handles.
http://www.handle.net
From KE workshop presentation, The Hague, June 2011 (L. Lannom)
DataCite
• Consortium international porté par des institutions locales
• Centré sur la valorisation des jeux de données et autres données non textuelles dans les services d‘information
• Collaboration avec les centres de données et organismes gérant des données
• Fournit des standards, workflows et bonnes pratiques
• Initialement, mais pas exclusivement, basé sur le système DOI
• Protocole d‘accord, Paris, février 2009
• Créé officiellement le 1er décembre 2009 à Londres
Membres DataCite
• Technische Informationsbibliothek (TIB), Germany
• Canada Institute for Scientific and Technical Information (CISTI)
• California Digital Library, USA
• Purdue University, USA
• Office of Scientific and Technical Information (OSTI), USA
• The British Library
• Technical Information Center of Denmark (DTU)
• Library of TU Delft, The Netherlands
• ZBMed, Germany
• ZBW, Germany
• GESIS, Germany
• Library of ETH Zürich, Switzerland
• Institut de l’Information Scientifique et Technique (INIST-CNRS), France
• Swedish National Data Service (SND)
• Australian National Data Service (ANDS)
• Conferenza dei Rettori delle Università Italiane (CRUI)
• National Research Council of Thailand (NRCT)
Affiliated members:
• Digital Curation Center, UK
• Microsoft Research
• Interuniversity Consortium for Political and Social Research (ICPSR), USA
• Institute of Electrical and Electronics Engineers (IEEE), USA
• Korea Institute of Science and Technology Information (KISTI)
• Bejiing Genomic Institute (BGI)
• Harvard University Library, USA
Actuellement 24 membres
dont 7 membres affiliés
Structure DataCite
Fondation Internationale DOI
DataCite
Institution membre
Data Centre Data Centre Centre données
Institution membre
Data Centre Data Centre Centre données
… Collaboration
Administrateur général
(TIB) Membre
Membre associé
DataCite – les différents rôles
Agence d’attribution de DOI – Maintenance infrastructure
– Maintenance d’une base de métadonnées interrogeable – Gestion des identifiants à long terme
– Etablissement et partage de bonnes pratiques
Agences de données (centres de données, institutions de recherche, producteurs de données, bibliothèques)
– Assurance qualité
– Stockage et accès au contenu – Création des identifiants
– Création et mise à jour des métadonnées
Bridging the gap
Publishers Data centres
DOIs in Use: DataCite
CrossRef has registered more than 51 million DOIs on behalf of scholarly publishers.
But CrossRef DOIs are not the only DOIs available in the scholarly community. DOIs for datasets associated with scholarly research are being registered by institutions in the DataCite network. DataCite and CrossRef have committed to the
interoperability of their DOIs. Ideally, scholarly content like journals will cite related data by the appropriate DataCite DOI, and in return, the data record will cite the
relevant article’s CrossRef DOI . (from CrossRef Quarterly, January 2012)
Bridging the gap
Relier l‘article et les données sous-jacentes via les DOI:
The dataset:
Storz, D et al. (2009):
Planktic foraminiferal flux and faunal composition of sediment trap L1_K276 in the northeastern Atlantic.
http://dx.doi.org/10.1594/PANGAEA.724325
Is supplement to the article:
Storz, David; Schulz, Hartmut; Waniek, Joanna J; Schulz-Bull, Detlef; Kucera, Michal (2009): Seasonal and interannual
variability of the planktic foraminiferal flux in the vicinity of the Azores Current.
Deep-Sea Research Part I-Oceanographic Research Papers, 56(1), 107-124,
http://dx.doi.org/10.1016/j.dsr.2008.08.009
Citation de données
IRD ( gr av /1 0 cm 3 ) San d ( % )
CaCO3 ( % ) T OC ( % ) Rad io ( % / san d) Smec t ( % / cl ay) IRD ( gr av /1 0 cm 3 ) San d ( % )
CaCO3 ( % ) T OC ( % ) Rad io ( % / san d) Smec t ( % / cl ay) IRD ( gr av /1 0 cm 3 ) San d ( % ) CaCO3 ( % )
T OC ( % ) Rad io ( % / san d) Smec t ( % / cl ay) IRD ( gr av /1 0 cm 3 ) San d ( % ) CaCO3 ( % )
T OC ( % ) Rad io ( % / san d) Smec t ( % / cl ay) IRD ( gr av /1 0 cm 3 ) San d ( % ) CaCO3 ( % )
T OC ( % ) Rad io ( % / san d) Smec t ( % / cl ay)
PS1 3 89 -3 PS1 3 90 -3 PS1 4 31 -1 PS1 6 40 -1 PS1 6 48 -1
Age(kyr)max. : 233.55 kyr PS1389-3f f
0.0
100.0
200.0
0 200 10 00 150 0. 50 500 10 00 200 10 00 150 0. 50 500 10 00 200 10 00 150 0. 50 500 10 00 200 10 00 150 0. 50 500 10 00 200 10 00 150 0. 50 500 10 0
54° 0' 54° 0'
54°30' 54°30'
55° 0' 55° 0'
55°30' 55°30'
11°
11°
12°
12°
13°
13°
14°
14°
15°
15°
World vector shore line Grain size class KOLP A Grain size class KOEHN2 Grain size class KOEHN Geochemistry Grain size class KOLP B Grain size class KOLP DIN 20 m Scale: 1:2695194 at Latitude 0°
Source: Baltic Sea Research Institute, Warnemünde.
• Earth quake events =>
doi:10.1594/GFZ.GEOFON.gfz2009kciu
• Climate models => doi:10.1594/WDCC/dphase_mpeps
• Sea bed photos => doi:10.1594/PANGAEA.757741
• Videos => doi:10.3207/2959859860
• Digitized ancient documents => doi:10.12763/L401-06
• Computational models =>
doi:10.4225/02/4E9F69C011BC8
• Audio records => doi:10.1594/PANGAEA.339110
• Grey Literature => doi:10.2314/GBV:489185967
• Medical case studies =>
doi:10.1594/eaacinet2007/CR/5-270407
De quels types de données parlons-nous?
Anything that is the foundation of further research
is research data Data is evidence
• Dataset
• Text
• Collection
• Event
• Film
• Audiovisual
• Image
• InteractiveResource
• Model
• PhysicalObject
• Service
• Software
• Sound
• Workflow
• Other
Actuellement Dataset largement majoritaire > Text > Image > Collection dans MDS DataCite
Type de ressources DataCite
(propriété resourceTypeGeneral)
Services DataCite
• DataCite Metadata Store (MDS)
Création DOI et enregistrement des métadonnées associées
https://mds.datacite.org
• DataCite Metadata Search
Recherche des métadonnées associées aux jeux de données enregistrées dans
DataCite http://search.datacite.org
• DataCite OAI Provider
Exposition des métadonnées de DataCite en OAI-PMH
http://oai.datacite.org
• DataCite Statistics
Statistiques enregistrement DOI et résolution DOI http://stats.datacite.org
Services DataCite
• DOI Citation Formatter
En collaboration avec CrossRef – Création différents formats de citation pour les
DOI DataCite et CrossRef http://crosscite.org/citeproc
• Content Negotiation
Exposition des métadonnées stockées dans MDS en choisissant parmi un large éventail de formats. Possibilité d’accéder
directement aux données grâce à un type différent de résolution de DOI
http://data.datacite.org
• DataCite Metadata Schema
Schéma de métadonnées DataCite http://schema.datacite.org
• DataCite Test Environment http://test.datacite.org
Champs métadonnées
Table 1: DataCite Mandatory Properties
Organisme recherche international CEA /CNRS Institut Laue-Langevin ILL Datasets Données de la recherche X Organisme recherche
Institut Français de Recherche pour
l'Exploitation de la Mer IFREMER Datasets Données de la recherche X Editeur / Organisme de Recherche
Office National d'Etudes et de Recherches
Aérospatiales ONERA Text Articles X
Structure fédérative recherche Université /CNRS /IRD Observatoire Midi-Pyrénées OMP Datasets Données de la recherche X Organisme recherche Centre National de Recherche Scientifique CNRS Datasets Données de la recherche X
Université Université Lorraine UL Text Manuscrits anciens X
Université Université Nouvelle-Calédonie UNC Text Thèses X
Université /CNRS Maison René Ginouvès MAE Film Films X
Organisme recherche
Observatoire Mammifères Echantillonneurs
Milieu Océanique MEMO Datasets Données de la recherche X
Structure fédérative recherche Institut Pierre-Simon Laplace IPSL Datasets Données de la recherche X
Structure fédérative recherche /CNRS Archives données issues statistiques publiques ADISP Text Enquêtes X
Organisme recherche Centre National de Recherche Scientifique CNRS Images Image Images
Organisme recherche
Institut National de la Santé et de la Recherche
Médicale INSERM Datasets Cohortes
Enseignement Supérieur et Recherche Ecole Normale Supérieure Lyon ENS Text Articles dictionnaire
Editeur Cercle de Recherche et d' Action Pédagogique CRAP Text Articles
Structure fédérative Université /CNRS Observatoire océanologique Villefranche OBS-VLFR Datasets Données de la recherche
Structure fédérative Université / CNRS / IRD Observatoire océanologique Banyuls sur Mer OBS-BANYULS Datasets Données de la recherche
Editeur Editeur Nouveau Monde Text Articles
Structure fédérative recherche Université / CNRS / INP
Grenoble Grenoble Images Parole Signal Automatique GIPSA-lab Text Articles, Rapports
Organisme recherche Institut national de la Recherche Agronomique INRA Datasets Données de la recherche Organisme international
Organisation des Nations Unies pour
l'Education, la Science et la Culture UNESCO Datasets, Service
Données de la recherche,
Services
Organisme recherche / Filiale CNES Collecte Localisation Satellites CLS Datasets Données de la recherche
Enseignement Supérieur et Recherche Ecole Nationale Aviation Civile ENAC Event, Text Actes colloque
Structure fédérative recherche CEA / CNRS Observatoire des Micro & Nano Technologies OMNT Text Commentaires articles Structure fédérative recherche Université / IRISA
Institut de Recherche en Informatique et
Systèmes Aléatoires IRISA Datasets Données de la recherche
Organisme recherche Centre National de Recherche Scientifique CNRS Text Articles
Université Université Pierre et Marie Curie UPMC Text Résumés livres
Université Université Paris Diderot Paris VII Text, Audiovisual Articles, Vidéos
Type organisme Nom organisme Acronyme Caractéristique
objet Type objet
(General Resource Type)