• Aucun résultat trouvé

Qu’est-ce qu’un jeu de données ?

N/A
N/A
Protected

Academic year: 2022

Partager "Qu’est-ce qu’un jeu de données ?"

Copied!
67
0
0

Texte intégral

(1)
(2)

Qu’est-ce qu’une donnée ?

Qu’est-ce qu’un jeu de données ?

Que sont les métadonnées ? (voir sur le site du DRS)

Qu’entend-t-on par gestion des données ?

(3)

« Les données, ou unitésd’information,qui sont créées au coursd’unerecherche, subventionnée ou non, et qui sont organisées ou formatées de telle sorte qu’elles soient communicables, interprétables et adaptées à un traitement souvent informatisé».

Université de Bristol

« Les données de la recherche sont des enregistrements factuels (chiffres, textes, images et sons) utilisés comme sources principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires à la validation des résultats de recherche »

Organisation de Coopération et de Développement Économiques (OCDE)

« Les données de la recherche sont l’ensemble des informations et matériaux produits et reçus par des équipes de recherche et des chercheurs. Elles sont collectées et documentées à des fins de recherche scientifique. A ce titre, elles constituent une partie des archives de la recherche. »

Association des archivistes français. Section « Aurore »

« 1) the data, including associated metadata (i.e. the metadata describing the research data deposited), needed to validate the results presented in scientific publications ;

2) other data (i.e. curated data not directly attributable to a publication, or raw data), including associated metadata.»

Commission européenne pour Horizon 2020

« Les données de la recherche sont un ensemble d’informations factuelles enregistrées sur des supports, produites ou collectées, selon divers procédés au cours d’unprocessus de recherche »

Définition du groupe de travail P5/P7

Le jeu de données

Selon le projet, un jeu de données peut recouvrir des réalités différentes. Un ou plusieurs jeu(x) de données peuvent être lié(s) au projet de recherche, et désigner :

i) un lot techniquement homogène,

ii) un lot intellectuellement cohérent même si celui-ci est composé de lots techniquement hétérogènes.

Définition du groupe de travail P5/P7

(4)

BIG DATA

Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.

Mise en place de nouveaux outils, méthodes et applications de gestion, traitement, analyse,

visualisation et conservation des données : Big Analitics, calcul distribué, supercalculateurs, cloud-computing etc.

Exemples de projets concernés : séquençage haut débit

observatoire virtuel en astronomie simulation en physique et énergie imagerie médicale

données environnementales biotiques /abiotiques données économiques (e-commerce, systèmes décisionnels)

données sociales (réseaux sociaux, bibliothèques numériques, patrimoines culturels)

2012 : lancement des appels à projets « Grandes masses de données scientifiques » - MASTODONS

OPEN DATA

Mouvement et philosophie d'accès à l'information et pratique de publication de données librement accessibles et

exploitables.

Considère l'information publique comme un bien commun dont la diffusion est d'intérêt public et général : enjeux démocratiques, politiques et économiques.

En Europe et dans certains pays, des

directives et lois imposent aux collectivités de publier certaines données publiques sous forme numérique.

• Directive 2003/98/CE

• Ordonnance n°2005-650 du 6 juin 2005

• Directive 2013/37/UE

RESEARCH DATA

Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche

scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche.

Définition de l’OCDE

(5)

BIG DATA

RESEARCH DATA

OPEN DATA

OPEN RESEARCH

DATA

(6)

Data management VS. Open data

Diffusion de manière structurée selon une méthode et une licence ouverte des données pour leur libre accès et leur réutilisation par tous, sans restriction

technique, juridique ou financière.

Mise en place d'architectures, de réglementations, de pratiques et de procédures pour gérer correctement les besoins de la recherche sur tout au

long du cycle de vie des données

Début du projet Fin du projet

Enjeux juridiques,

économiques, scientifiques …

Brevets, CNIL, secret défense, concurrences, droit d’auteurs …

Dépôt en archives ou entrepôts ouverts

Archivage auprès d’un organisme agréé Données en appui des publications ou OK pour diffusion.

Autres données produites au cours du projet. Pas de diffusion.

(7)
(8)

Données publiées

Données retenues

Données traitées Données

produites

Données exploitées pour l’élaboration des résultats

Données analysées, agrégées, compilées, transformées

Données primaires

produites ou collectées au cours de la recherche

Données intégrées à titre d’illustrations ou de résultats dans une publication papier ou en ligne.

Perte d’information

importante au cours

du processus de

publication

(9)

Publications fréquentes de résultats erronés dans de grandes revues à comité de lecture et fort facteur d’impact

Affaire Hendrick Schön – Chimie de la matière condensée - 2001

Affaire Diederik Stapel – Psychologie sociale – 2011 Affaire Yoshiki Sasai (cellule STAP) – 2014

Les corrélation abusives etc.

Le libre accès aux publications et aux données associées facilite : Une vérification des résultats obtenus grâce à la possibilité de rejouer les données

Un meilleur recensement par les logiciels de détection anti-plagiat type Compilatio (utilisé pour les thèses à Paris Descartes)

Une meilleure diffusion auprès des pairs par une visibilité accrue

auprès des moteurs de recherche

(10)

Lancement d’un Open research data pilot : 1) Produire un plan de gestion des données, 2) Déposer les données et métadonnées dans un entrepôt de données. Pour les ERC : recommandations

“Open research data represents a revolution in the way research is conducted and LERU both notes and endorses this development. […]

Universities need to note the move to data- driven research and take appropriate actions”

Motion adoptée par la CP2U du 1er Octobre 2015 : La CPU tient à réaffirmer que […] les données de la science doivent être érigées en données d’intérêt général. […] science ouverte se fonde sur l’accès ouvert aux publications (open access), l’accès ouvert aux données de la recherche (open data) et à la libre réutilisation des publications et des données à des fins de

recherche.

Plan d’action 2016 de l’ANR et appels à projet générique

Les chercheurs sont encouragés à tirer parti, lorsque cela est possible, des infrastructures et des grandes bases de données existantes, et de

promouvoir leurs résultats en « open access »

SHERPA / JULIET : Research funders' open access policies

SHERPA/FACT : Funders and authors compliance tool

(11)

« linked open data »

(12)

Financement public de la recherche (locaux, crédits,

bourses, matériels etc.)

Jeux de données

Université

ROI négatif ROI positif Chercheur(se)

Editeurs commerciaux

Archives ouvertes 1x

2x 2x

Développement et revente de produits et services commerciaux à partir de données évaluées et mises à disposition gratuitement ou à leur frais par les chercheurs et leurs institutions.

(13)
(14)

• Concevoir de nouvelles infrastructures et de nouvelles méthodes de traitement

• Obtenir les financements

• Disposer des espaces de stockage à moyen terme

• Garantir l’archivage à long terme (sélection)

• Développer des outils de visualisation

• Identifier les besoins de formations et les nouvelles compétences

• Gérer les données personnelles et les questions

juridiques associées

(15)

décrire le cycle de gestion et de vie des données produites, collectées ou générées tout au long du projet de recherche.

anticiper les questions de gestion qui surviennent au cours d’une recherche et les conditions d’une conservation et diffusion future des données.

Un plan de gestion de données est un document formel précisant la manière dont seront produites, traitées, décrites, diffuser et conserver les données au cours et à l’issue du projet.

Il permet de :

(16)

Section 1 : Informations relatives au projet

Section 2 : Responsabilité des données : répartition des rôles

Section 3 : Ressources nécessaires à la mise en œuvre du PGD

Section 4 : Jeux de données

4.1 Description du jeu de données

4.2 Stockage, accès et sécurité des données – au cours du projet 4.3 Métadonnées : documentation et organisation des données 4.4 Dissémination des jeux de données – à l’issue du projet

Section 5 : Sélection et archivage – obligatoire que les données soient diffusées ou non

Valable pour l’ensemble

du projet

Valable pour l’ensemble

du projet Propre à chaque jeu de données

Un jeu de données est un ensemble de données techniquement

homogènes ou intellectuellement cohérentes.

(17)

Le DMP est un document

prospectif et évolutif destiné à être enrichi à mesure de

l'avancement du projet.

17

Formation aux correspondants Europe -SPC

(18)

Télécharger le guide

S’inscrire S’inscrire

Télécharger le template

Le DMP, un livrable pour les projets pilote H2020

:

attendu dans les 6 premiers mois de la vie du projet (des améliorations du DMP peuvent également faire l’objet de livrables subséquents) ;

obligatoire dans les projets inscrit au piloteOpen Research Data

pas contenu dans la proposition de projetsoumise et ne fait pas partie de l’évaluation.

En revanche, dans les actions de recherche et d’innovation (RIA) et etles actions d’innovation (IA) le "template proposal"

inclut une section management des données de recherches, évaluée sous le critère "impact".

(19)

• Coordination (projet collaboratif)

• Analyse et gestion des risques (informatique, juridique, économique, scientifique, humain etc.)

• Prise en compte du cycle de vie de la donnée

• Anticipation et optimisation des coûts (éligibilité)

• Monitoring des besoins et activités

(20)

Plannifier

Produire/

Collecter

Stocker

Décrire Préserver /

Archiver Intégrer

Analyser

Rédaction d’un DMP

Mise en place d’espaces

serveur sécurisés pour accéder au document.

Ajout des métadonnées de gestion

Documenter les

données pour permettre leur réutilisation. Ajout des métadonnées descriptives (diffusion) normées et structurées Recherche de données , procédés semblables ou complémentaires.

Métadonnées d’observation

Archiver pour garantir la pérennité de l’accès et de la compréhension des données.

Ajout de métadonnées de préservation

Réutilisation

Diffusion

Idée de la recherche

Demande de financement

Projet financé Données de

la recherche Publications

scientifiques Rapport final

(21)

Identifiant pérenne (DOI, Handle) Indexées

En ligne sur le web Gratuites

Validées

Décrites , documentées Normalisées (ontologie)

Entrepôts ouverts

Protocoles moissonnables

Licence libres

Formats non propriétaires Archivage pérenne

Métadonnées

(22)
(23)

Jérémy Lasbleiz. Utilisation des ontologies dans le contexte de l'Imagerie par Résonance Magnétique. Ingénierie biomédicale. Université Rennes 1, 2013. Français. <NNT : 2013REN1B017>. <tel-00950357>

(appariable à SNOMED-CT et DICOM)

Un ontologie est un ensemble structuré des termes et concepts représentant le sens d'un champ d'informations, que ce soit par les métadonnées d'un espace de noms, ou les éléments d'un domaine de connaissances. Les ontologies sont employées dans Web sémantique, le génie logiciel, l'informatique biomédicale ou encore l'architecture de l'information comme une forme de représentation normalisée de la connaissance au sujet d'un monde ou d'une certaine partie de ce monde.

(24)
(25)

Types de données Définitions Valeur et spécificité Exemples Données d’observation

(Observational datas)

Données obtenues en temps réel

Souvent uniques et irremplaçables

Données

atmosphériques,

d’enquêtes, échantillons, neuro-image

Données expérimentales (Experimental datas)

Données obtenues en laboratoire à partir d’équipements spécifiques

Reproductibles mais à des coûts dissuasifs

Séquence de génome, chromatographie, spectres RMN

Données de simulation (Simulation datas)

Données générées à partir de modèles test

Métadonnées et modèles ont une valeur supérieure aux résultats

Modèles climatiques, modèles économiques

Données dérivées ou compilées

(Derived or compiled data)

Données obtenues par compilations ou

traitement des données brutes

Reproductibles mais à des coûts dissuasifs

Texte et data mining, bases de données compilées, modèles 3D Données de référence ou

données canoniques (Reference or canonical datas)

Collections statiques ou organiques de jeux de données validées

Données publiées ou qui ont fait l’objet d’une curation

Banque de données sur

le génome, structures

chimiques, portail de

données spatiales

(26)

Pratiques disciplinaires

Organismes de financement

Établissements de recherche

Éditeurs

Partage des données inscrit dans les pratiques de recherche dans certaines disciplines (ex. : astronomie, génétique, environnement)

Financements conditionnés par le

respect de certaines règles relatives à la gestion et au partage des données

Politiques institutionnelles définissant les conditions dans lesquelles doivent être conservées et rendues accessibles les données

Obligation de dépôt dans une archive ouverte des données sur lesquelles reposent les conclusions d’un article + data journals

Chercheurs

Initiatives personnelles de mise à disposition de la communauté

scientifique de ses données (site web, page perso, réseaux socio.)

Motivations Exemples d’entrepôts

(27)

Entrepôts disciplinaires

(28)

Entrepôts communautaires / réseaux sociaux

(29)

Entrepôts institutionnels

(30)
(31)

Entrepôts d’éditeurs, partenaires ou recommandés

(32)
(33)

AustralianNational Data Service Scientific Data(Nature)

• to expose datasets

• fulfil funder requirements to make research data outputs publically available

• provide accessible, resolvable and permanent access to research data

• provide citable references to data outputs that can be added to your professional profile including CVs

• enable the generation of citation metrics for research data by services

such as the recently established Thomson Reuters Data Citation Index

(34)

Titre journal Éditeur Référenc ement

Beall list

OA Coût APC

Date début Journal of Physical and

Chemical Research Data

AIP WoS non - - 1972-

Genomics Data Elsevier WoS non OA €

448.6

2013- Journal of Open

Psychology Data

Ubiquity Press

- non OA € 130 2013-

Scientific Data Nature PubMed non OA € 1 050

2014- Geoscience Data

Journal

Wiley WoS non OA € 1

200

2014- Research Data Journal

for the Humanities and Social Sciences

Brill - non OA - 2016-

(35)
(36)

Instructions aux auteurs

thèmes / langage(s) / longueur / style de références liste d’entrepôts recommandés

Titre, résumé, mots-clé, références Texte :

Contexte de la recherche

Méthode : échantillon, materiel, procédures, contrôle qualité, questions éthiques

Description du/des jeu(x) de données Bibliographie

Article : texte + un lien vers le jeu de données décrit + matériaux

supplémentaires (illustrations, tableaux , vidéos, sons , etc.)

(37)

Un identifiant unique et pérenne est mécanisme d'identification de ressources ayant vocation à faciliter la gestion numérique sur le long terme de toute chose en associant des métadonnées. Les métadonnées peuvent évoluer au cours du temps, mais l'identifiant reste invariant.

Depuis 2012, le système d'identifiant numérique d'objet a été normalisé sous la forme de la norme ISO 26324.

Ex. : URI, Handle, ARK etc.

Point de contact France INIST-CNRS

Irino, T; Tada, R (2009): Chemical and mineral compositions of sediments from ODP Site 127‐797. Geological Institute, University of

Tokyo.http://dx.doi.org/10.1594/PANGAEA.726855

Geofon operator (2009): GEFON event gfz2009kciu (NW Balkan Region).

GeoForschungsZentrum Potsdam

(GFZ).http://dx.doi.org/10.1594/GFZ.GEOFON.gfz2009kciu

Denhard, Michael (2009): dphase_mpeps: MicroPEPS LAF‐Ensemble run by DWD for the MAP D‐PHASE project. World Data Center for

Climate.http://dx.doi.org/10.1594/WDCC/dphase_mpeps

(38)

Consortium international opérant comme agence d’enregistrement de DOI.

Objectifs

Promouvoir des normes et bonnes pratiques relatives à la citation des données

Soutenir l’archivage de données pour

rendre possible le contrôle des résultats de la recherche et leur réutilisation.

L’Inist-CNRS est l’institution membre de

DataCite pour la France.

(39)
(40)
(41)
(42)

Garantir la récupération, l’intégrité et la compréhension des données préservées.

Documenter autant que possible la démarche de recherche, le contexte de production des données et leur mode de traitement. Cela implique de préserver également les :

- Outils de mesure, paramétrage

- Algorithmes de traitement, modélisation etc.

- Formats des données

- Programme et outils de visualisation

- Ontologie et éléments de vocabulaire ou d’indexation

(43)
(44)

http://esante.gouv.fr/services/referentiels/securite/hebergeurs-agrees Code de la santé publique : articles L1111-8, R1111-9 à R1111-15-1 et R1111-16 (relatifs à l’hébergement des données de santé à caractère personnel par des personnes physiques ou morales agréées à cet effet). Arrêté ministériel du 4 décembre 2009précisant les normes relatives aux prestations en archivage et gestion externalisée.

Données papier

En application de l’article R.1111-16 du Code de la santé publique, les prestataires agréés par le ministère de la culture pour la conservation d'archives publiques courantes et intermédiaires sur support papier le sont également, ipso facto, pour l'hébergement de données de santé à caractère personnel sur support papier (et ce quel que soit le statut des archives sur support papier, publiques ou privées, qui contiennent ces données de santé à caractère personnel).

Données numériques

En revanche, l’hébergement de données de santé à caractère personnel sur support informatique nécessite un autre agrément, accordé par le ministre de la santé (articles L.1111-8 et R.1111-9 à R.1111-15-1 du Code de la santé publique) – pour tout renseignement à ce sujet, on consultera le site de l’Agencedes systèmesd’information partagés de santé (ASIP Santé).

(45)

Libérer ses données ne signifie pas renoncer à toute forme de droit, de contrôle ou de protection sur les données.

Les licences

- Creative Commons : publications.

- Licence ouverte Etalab (Open Licence) : données et publications.

- Open Database Licence (ODbl) : base de données.

- Open Data Commons Attribution License (ODC –By) : données et bases de données.

- GNU General Public License : logiciels et programmes informatiques

L’embargo

L’embargo est une protection temporaire permettant de remettre à un délai ultérieur la libre diffusion et/ou réutilisation des données ou des publications. Sous réserve d’obligation extérieure, le choix et les durée de l’embargo reviennent à l’auteur. Ex:

les subventions H2020 impose un délai maximum de 6 mois d’embargo pour les publications en sciences et 12 mois pour les SHS.

12/09/2014 Formation aux correspondants Europe SPC 45

(46)

Penser un projet structurant sur le long terme Susciter une dynamique de coopération en s’appuyant sur les compétences existantes

Intégrer la gestion des données de la production à la mise à disposition

Renforcer l’identité numérique de la ComUE à

travers la valorisation des données de recherche

(47)

Planifier

Gérer &

analyser

Disséminer

Découvrir

& mesurer

Préserver &

réutiliser

DMP

PLATEFORME NUMERIQUE

DATA REPOSRITORY

DISCOVERY ALTMETRICS

PORTAIL

CINES PRESTATAIRE

Calculs intensifs traitement de données chaudes

Signalement indexation et mesures

(48)
(49)

Données administratives Données descriptives

Données juridiques Données de gestion etc.

Dépôt des jeux de données Enrichissement des métadonnées

Plateforme d’accès

Exposition des métadonnées Répertoire de données Exposition des données

Enrichissement Dépôt des articles

Gestion des accès

données

métadonnées

Préservation des données

Accès ponctuel

(50)

Comment initier une réflexion institutionnelle en l’absence d’infrastructures et de volonté politique soutenue ?

Propositions

Privilégier une approche pragmatique par projets Concevoir une approche collaborative

Consolider, documenter et communiquer sur les

initiatives de réflexion

(51)

Aurore CARTIER

Université Paris Descartes

Service commun de la documentation aurore.cartier@parisdescartes.fr

01.44.41.22.87

51

Mentions légales :

http://fr.creativecommons.org/contrats.htm

(52)

Un exemple de plan de gestion de données

Présentation du projet : depuis mars 2011, le Centre de données socio- politiques (CDSP) est fortement impliqué dans la mise en place de l'équipement d'excellence DIME‐SHS, lauréat de l'appel à projets 2010 des

"investissements d'avenir". Cet équipement vise à doter la France d'une nouvelle structure en matière de collecte, d’enrichissement et de diffusion des données quantitatives, qualitatives et web. En particulier, il s’agit de mettre en place le panel internet ELIPSS (Étude longitudinale par internet pour les sciences sociales) constitué à partir d’un échantillon aléatoire de la population résidant en France. Les propositions d'enquête se font lors d’appels à projets. Ce sont les membres du Comité scientifique et technique (CST) qui sont chargés de sélectionner les enquêtes administrées aux panélistes.

projet « ELIPSS »

(53)
(54)
(55)
(56)
(57)
(58)
(59)
(60)
(61)
(62)
(63)
(64)
(65)
(66)
(67)

Définition : Open Data / Data management / Big Data

Le DMP : qu’est ce que c’est / à quoi ça sert. Les questions à se poser.

Documenter / Préserver / Disséminer

Qu’est ce que peuvent vous apportez le BU et les archives :

Signaler l’existence de votre projet Préparer la préservation de ces données (versement CINES)

Disséminer les données : penser à la

licence

Références

Documents relatifs

Ce document présente une liste, non exhaustive, de jeux sérieux (serious game) et de vidéos utilisables en classe de seconde (série STHR) dans des séquences ou séances

Pour vérifier que l'activité se déroule dans les conditions optimales de réussite, il est indispensable de mettre en place l'outil de suivi de la trésorerie que

1 but : «A partir de 2021, toutes les publications scientifiques sur les résultats de la recherche financée sur fonds publics accordés par des agences de financement nationaux

Bousculé, apostrophé, harcelé, l'auditeur ne sait plus si le bulletin météorologique qui annonce la neige a trait à la journée d'hier ou à celle de demain ; et il se retrouve en

Pour repérer la thèse défendue, il convient tout d'abord de trouver le thème du texte.. On peut ensuite chercher le jugement ou le sentiment du locuteur à propos de

Ex 13 : Ecrire une équation de

Trouver tous les nombres pour lesquels la puce atteint de nouveau son point de départ en ayant effectué deux tours. Adapté d'un sujet de recherche proposé par MATh.en.JEANS

Trouver tous les nombres pour lesquels la puce atteint de nouveau son point de départ en ayant effectué deux tours. Adapté d'un sujet de recherche proposé par MATh.en.JEANS