• Aucun résultat trouvé

Citer un jeu de données 20171207

N/A
N/A
Protected

Academic year: 2021

Partager "Citer un jeu de données 20171207"

Copied!
5
0
0

Texte intégral

(1)

1

Citer un jeu de données scientifiques

en 5 points

1. Comprendre l’intérêt de publier et de citer un jeu de données scientifiques 2. Comment libeller la référence bibliographique d’un jeu de données ? 3. Exemples de formats de références bibliographiques de jeux de données 4. Quels logiciels gèrent les références bibliographiques de jeux de données ? 5. Rechercher des jeux de données

Ouvrages et sites utiles

1.

Comprendre l’intérêt de publier et de citer un jeu de données scientifiques

Les résultats de recherche décrits dans une publication sont toujours étayés par un ou plusieurs

jeux de données scientifiques (data set).

Du fait de sa complexité ou de son volume, le jeu de données accompagne rarement la publication, que ce soit un article de recherche (original paper), un article de synthèse confrontant des jeux de données d’origines diverses (review paper, meta-analysis), ou un article décrivant le jeu de données (data paper ; voir fiche CoopIST Rédiger et publier un data paper dans une revue scientifique).

Le jeu de données scientifiques est alors déposé sur internet dans un entrepôt de données (data repository) institutionnel, thématique, national ou international (voir fiche CoopIST Rendre publics ses jeux de données scientifiques).

Le jeu de données publié ou déposé doit être cité dans les publications auxquelles il est lié. Citer un jeu de données permet d’identifier ses auteurs, connaître sa localisation, le relier à la publication à laquelle il peut être associé, le rendre visible et encourager sa réutilisation.

2.

Comment libeller la référence bibliographique d’un jeu de données ?

Citer un jeu de données consiste à construire sa référence bibliographique et à utiliser cette

référence sous la forme d’une citation dans une publication. La référence qualifie de manière univoque le jeu de données :

• elle en identifie le (ou les) auteur(s) ;

• elle permet de rechercher et de localiser le jeu de données sur internet ;

• elle facilite l’exploitation et la réutilisation des données par d’autres équipes de recherche que celles des auteurs.

La référence bibliographique complète d’un jeu de données comporte les éléments suivants : • Auteur (Author) : créateur (Creator) du jeu de données

• Date de publication (Publication Year) : selon les situations, date de mise en ligne du jeu de données ou date de fin d’embargo à l’issue duquel le jeu de données devient accessible • Titre (Title) : titre du jeu de données, et éventuellement titre de la collection ou de la

(2)

2

• Edition : niveau de traitement (par exemple 1e édition, édition révisée, etc.) du jeu de données, selon une nomenclature si possible appropriée au type de données concernées • Version : numéro croissant au fur et à mesure des modifications apportées aux données ou

au processus de traitement

• Nom de la norme, du standard, ou du modèle de référence des données (Feature Name) et son identifiant sur internet ou URI (Uniform Resource Identifier) : par exemple ISO 19101-1:2014 (https://www.iso.org/obp/ui/#iso:std:iso:19101:-1:ed-1:v1:en) si cette norme est utilisée pour référencer l’information géographique relative au jeu de données

• Type de ressource (Resource Type) : base de données (database, voir fiche CoopIST Rendre

public ses jeux de données scientifiques), jeu de données (data set), logiciel (software), image, vidéo, etc.

• Editeur (Publisher) : organisation produisant (Producer) ou rendant accessible (Distributor) le jeu de données

• Identifiant (Identifier) : code identifiant le jeu de données de façon pérenne et univoque, par exemple un DOI (Digital Object Identifier, identifiant numérique d’objet – voir fiche CoopIST Identifier et retrouver une publication ou un jeu de données par son DOI)

• Localisation (Location) : Adresse URL où le jeu de données est accessible.

Le format minimal d’une référence bibliographique d’un jeu de données comporte 5 éléments (recommandation de DataCite, consortium international dont l’objectif est de faciliter l’accès aux données de la recherche et leur réutilisation) :

• Auteur (Année de publication) : Titre. Editeur. Identifiant Creator (PublicationYear): Title. Publisher. Identifier

Ce format minimal peut être complété, si besoin, par la version et le type de ressource :

• Auteur (Année de publication) : Titre. Version. Editeur. Type de ressource. Identifiant Creator (PublicationYear): Title. Version. Publisher. ResourceType. Identifier

La granularité d’un jeu de données complique son référencement et sa citation. Un grain correspond à un ou plusieurs fichiers, un fichier contenant un ou plusieurs tableaux, et un tableau contenant plusieurs données. Vous pouvez référencer le jeu de données au niveau de granularité auquel a été attribué l’identifiant par l’entrepôt. Si vous devez citer un grain plus fin, vous indiquerez dans le texte de votre publication les informations permettant au lecteur de retrouver le sous-ensemble concerné. La dynamique d’un flux de données et la fugacité d’une donnée compliquent également le référencement (données météorologiques par exemple). L’auteur du jeu de données définira des versions successives de ce jeu, mémorisera et affichera la date et l’heure auxquelles les données observées correspondent afin que l’utilisateur puisse y faire référence dans sa publication.

3.

Exemples de formats de références bibliographiques de jeux de données

Les instructions aux auteurs (Guide for Authors) de revues scientifiques proposent un format de citation de jeux de données. Si ce n’est pas encore le cas, vous pouvez suivre les exemples ci-après.

Exemples issus de DataCite (https://www.datacite.org/services/cite-your-data.html) :

• Irino, T; Tada, R (2009): Chemical and mineral compositions of sediments from ODP Site 127-797. Geological Institute, University of Tokyo. https://doi.org/10.1594/PANGAEA.726855.

(3)

3

• Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF-Ensemble run by DWD for the MAP D-PHASE project. World Data Center for Climate.

https://doi.org/10.1594/WDCC/dphase_mpeps.

Référence créée à partir du DOI du jeu de données :

A partir de la saisie du DOI d’un jeu de données (Digital Object Identifier), l’application en ligne DOI Citation Formatter (https://citation.crosscite.org/) développée par DataCite et CrossRef affiche la référence bibliographique du jeu de données dans un format à choisir parmi 500 formats de revues

scientifiques.

A noter que certains formats bibliographiques ne respectent pas encore les recommandations de mars 2017 de Crossref (https://www.crossref.org/display-guidelines/#full) pour écrire un DOI dans une référence bibliographique sous la forme d’un lien commençant par https://doi.org/.

Formats de références proposées par des revues scientifiques :

• Exemple de la revue Alternatives to Animal Experimentation :

Garza, K., Goble, C., Brooke, J. et al. (2015). Framing the community data system interface. In Proceedings of the 2015 British HCI Conference on - British HCI ’15. ACM Press.

https://doi.org/10.1145/2783446.2783605.

• Exemple de la revue international Journal of Occupational Medicine and Environmental Health :

1. Garza K, Goble C, Brooke J, Jay C. Framing the community data system interface. Proceedings of the 2015 British HCI Conference on - British HCI ’15 [Internet] ACM Press; 2015. Available from: http://dx.doi.org/10.1145/2783446.2783605.

Formats de références proposés par des entrepôts de données :

• Entrepôt biologie et écologie Dryad :

Rito KF, Arroyo-Rodríguez V, de Queiroz RT, Leal IR, Tabarelli M (2016) Data from: Precipitation mediates the effect of human disturbance on the Brazilian Caatinga vegetation. Dryad Digital Repository. https://doi.org/10.5061/dryad.8r8sj.

• Entrepôt sciences de la terre et environnementales PANGAEA :

Mercier, Herlé (2005): Shipboard acoustic doppler current profiling during cruise

35A3CITHER3_2 (SAC ID 00273). PANGAEA, https://doi.org/10.1594/PANGAEA.319621.

• Entrepôts de données gérés par le logiciel Dataverse :

Balinga, Michael; Binam, Joachim; Abdoulay, Rabdo; Adama, Diakite, 2014, "West Africa Sentinel Landscape", doi:10.7910/DVN/24118, Harvard Dataverse, V4.

• Entrepôt multidisciplinaire Zenodo :

Federman, S., Dornburg, A., Downie, A., Richard, A. F., Daly, D. C., & Donoghue, M. J. (2015). Supporting data: The biogeographic origin of a radiation of trees in Madagascar: Implications for the assembly of a tropical forest biome [Data set]. BMC Evolutionary Biology. Zenodo.

http://doi.org/10.5281/zenodo.31503.

4.

Quels logiciels gèrent les références bibliographiques de jeux de données ?

Le logiciel bibliographique commercial EndNote (version X4) propose le type de référence Data Set avec les champs spécifiques suivants : Investigators (équivalent du champ Author des publications), Producer, Distributor, Study Number, Original Release Date, Series Title, Version, Date of Collection, Version History, Geographic Coverage, Time Period, Unit of Observation, Data Type, Dataset(s). Les références de jeux de données peuvent être exportées et insérées dans un article selon le format de la revue.

(4)

4

Le logiciel libre Zotero (version 5.0.4) n’a pas de type de référence pour décrire les jeux de données. Les références de jeux de données importées dans une bibliothèque Zotero apparaissent sous le type Document.

Le logiciel gratuit Mendeley (version en ligne 1.17.12) n’a pas de type de document spécifique pour gérer les références de jeux de données. Le type Generic peut être choisi comme substitut.

5.

Rechercher des jeux de données

En 2017, Google Scholar et Microsoft Academic, moteurs de recherche spécialistes de la littérature scientifique, n’avaient pas encore de recherche spécifique sur les jeux de données.

DataCite Metadata Search beta, moteur gratuit de recherche de DataCite, permet de rechercher un jeu de données à partir de ses métadonnées : mots-clés, date de publication, DOI, etc.

re3data.org (Registry of Research Data Repositories), répertoire mondial des entrepôts de données de la recherche propose sur sa page d’accueil un formulaire de recherche simple par mots-clés, type de ressources, pays, et d’y accéder via le répertoire mondial

Data Citation Index (DCI), base de données payante (Clarivate Analytics), indexe plus de 3 millions d’enregistrements issus de 300 entrepôts de données scientifiques accessibles en ligne. Les données indexées sont réparties en 3 types : entrepôts de données (Repositories), jeux de données (Data Sets), données issues d’études (Data Studies).

Dans Data Citation Index, une recherche peut se faire par type de document, auteur, affiliation (adresse), titre, année de publication, langue, sujet, source de financement, DOI. Chaque résultat affiché est associé à un résumé, au lien internet (Source URL) vers le jeu ou l’entrepôt de données référencé, et à sa référence bibliographique (How to cite this Resource).

Exemple de référence dans Data Citation Index (How to cite this Resource) :

Feller, Ilka C.; Lovelock, Catherine E.; Ball, Marilyn C.; Ellis, Joanne I.; Reef, Ruth (2016): Dataset: influences of climate and nutrient enrichment on herbivory and herbivore diversity in mangrove forests. Smithsonian Research Online. https://hdl.handle.net/10088/30209.

Chaque résultat est accompagné du nombre de citations reçues à partir d’autres jeux de données et des publications indexées dans les bases de données de Clarivate Analytics (Data Citation Index, Web of Science Core Collection, BIOSIS Citation Index, SciELO Citation Index).

Ouvrages et sites utiles

Ball A., Duke M. 2015. How to cite datasets and link to publications. Edinburgh (UK): Digital Curation Centre (DDC), 15 p. http://www.dcc.ac.uk/resources/how-guides/cite-datasets.

Corti L., Van den Eynden V., Bishop L., Woollard M. 2014. Managing and sharing research data: a guide to good practice. Los Angeles: SAGE Publications Ltd, 222 p.

DataCite. Cite your Data. https://www.datacite.org/services/cite-your-data.html.

(5)

5

DataOne [Data Observation Network for Earth]. Data Citation and Attribution.

https://www.dataone.org/citing-dataone.

Lawrence B., Jones C., Matthews B., Pepler S., Callaghan S. 2011. Citation and peer review of data: Moving towards formal data publication. International Journal of Digital Curation, 6(2), 4-37.

https://doi.org/10.2218/ijdc.v6i2.205.

Martone M. (ed.). 2014. Joint Declaration of Data Citation Principles. San Diego CA Data Citation Synthesis Group: FORCE11 (The Future of Research Communication and e-Scholarship).

https://www.force11.org/datacitation.

Rauber A., Asmi A., van Uytvanck D., Pröll S. 2015. Data Citation of Evolving Data: Recommendations of the Working Group on Data Citation (WGDC).

https://www.rd-alliance.org/groups/data-citation-wg.html.

Ray J. M. 2014. Research data management: practical strategies for information professionals. West Lafayette: Purdue University Press, 436 p.

Marie-Claude Deboin

Délégation à l’information scientifique et technique, Cirad 12 janvier 2016, mises à jour 3 octobre 2016, 7 décembre 2017

Informations Comment citer ce document :

Deboin, M.C.. 2017. Citer un jeu de données scientifiques en 5 points. Montpellier (FRA) : CIRAD, 5 p. http://coop-ist.cirad.fr/citer-jeu-donnees.

Cette œuvre est mise à disposition selon les termes de la Licence Creative Commons : Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International, disponible en ligne : http://creativecommons.org/licenses/by-nc-sa/4.0/deed.fr

ou par courrier postal à : Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.

Cette licence vous permet de remixer, arranger, et adapter cette œuvre à des fins non commerciales tant que vous créditez l’auteur en citant son nom et que les nouvelles œuvres sont diffusées selon les mêmes conditions.

Références

Documents relatifs

La base de données (données primaires) est la matière première à partir de laquelle la bioinformatique va produire d'autres données (données secondaires) et

• dans le cas particulier d’une entité faible, la clé primaire de la relation correspondant à l’entité faible sera le couple constitué de la clé de l’entité forte et de

Compétences d'un utilisateur averti de BD relationnelles disposant de notions de base sur la conception et l'administration d'une BD. • Bases de données relationnelles:

Système de Gestion de Bases de Données SGBD Rappel sur les niveaux d’abstraction MySQL Principaux types de données disponibles Créer une BD phpMyAdmin Pour finir... Système de

Country : Name, Code, Capital, Province, Area, Population ; (Province est la région de la capitale) City : Name, Country, Province, Population, Longitude, Latitude ; (Country est

Pour identifier le type de relation entre ces deux tables, on se posera les deux questions suivantes :  Pour un enregistrement de la 1ère table, combien peut-on avoir

Une agence de location de voiture veut gérer ses contrats de location afin d’en faire le suivi, on vous procure donc les informations suivantes :. Pour chaque client, on a

 niveau logique : structure des données, langage de description de données (LDD), mise à jour des données, langage de requêtes (LR), langage de manipulation de données (LMD),