• Aucun résultat trouvé

Rendre ses données "FAIR" - Contexte et Infrastructures

N/A
N/A
Protected

Academic year: 2021

Partager "Rendre ses données "FAIR" - Contexte et Infrastructures"

Copied!
29
0
0

Texte intégral

(1)

HAL Id: hal-02786578

https://hal.inrae.fr/hal-02786578

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Distributed under a Creative Commons Attribution| 4.0 International License

Rendre ses données ”FAIR” - Contexte et Infrastructures

Anne-Francoise Adam-Blondon

To cite this version:

Anne-Francoise Adam-Blondon. Rendre ses données ”FAIR” - Contexte et Infrastructures. Colloque

Etude du Polymorphisme des Génomes Végétaux (EPGV), Oct 2018, Evry, France. pp.28. �hal-

02786578�

(2)

Rendre ses données « FAIR »- contexte et infrastructures

Anne-Françoise Adam-Blondon

Colloque EPGV, 4 octobre 2018

(3)

Contexte actuel des sciences de la vie

(4)

GeneBank

& EMBL archives

GLIS/DOI BioSample

TAIR, MaizeGDB

SolBase,

GnpIS GRIN

Crop Ontology

France Genomique

CRB

Laboratoire de

recherche Standards de

communautés

Données et métadonnées Systèmes

d’information de communautés

Production de données

Archives

internationales

Identifiants, données de

référence Données

standardisées, identifiants

Données curées

Bioportal Biosharing

Intégration de données, connaissances,…

KnetMiner InterPRO…

Les données sont dispersées dans un “écosystème” de

systèmes d’information

Données et métadonnées

(5)

Les données sont dispersées dans de nombreux systèmes d’information

=> Aller vers des fédérations de systèmes d’information

interopérables qui permettent aux chercheurs de les trouver

(6)

Organisation de ces fédérations

Noeuds  Ressources

Hub Portail Services access

 Un réseau de nœuds (stables)

 Un portail central offrant des services (a minima: trouver et

accéder aux données)

(7)

Enjeux clefs des E-infrastructures

Interoperability

Share Find Reuse

Semantics Standards

Recommandations développées par un collectif de

bibliothécaires, établissement d’enseignement et de recherche pour l’Open Data en sciences

Wilkinson et al (2016) SCIENTIFIC DATA, 3:160018, DOI:

10.1038/sdata.2016.18

(8)

Organisation des e-Infrastructures européennes

• European Open Science Cloud (EOSC)

• European Infrastructure of Bioinformatics for Life-sciences: ELIXIR

D’après N. Blomberg

(9)

8

ELIXIR, a distributed pan-European infrastructure

• 23 pays impliqués

• Le Nœud Français est porté par l’IFB

D’après N. Blomberg

(10)

Objectifs d’ELIXIR

Communauté Plante d’ELIXIR coordonnée par C. Pommier (URGI) et C.

Miguel (IBET, PT) Plants

Marine

metagenomics

Rare diseases

Human data

Metabolomics

Proteomics Galaxy

D’après N. Blomberg

(11)

Objectifs d’ELIXIR

D’après N. Blomberg

(12)

Findable

F1. (meta)data are assigned a globally unique and eternally persistent identifier.

F2. data are described with rich metadata.

F3. (meta)data are registered or indexed in a searchable resource.

F4. metadata specify the data identifier.

Producteurs de données:

• dépôt de données dans des archives avec des métadonnées riches

Informaticiens/curateurs de données:

• développement de services/catalogues de PUID ou persistent Identifiers (ex: DOI pour les accessions, ORCID ID pour les personnes, …)

• développement de portails qui indexent les métadonnées et d’outils de recherche associés

Modèles de données et sémantique pour améliorer la

performance des

recherches

(13)

Plusieurs preuves de concept de portail de

fédérations « plantes »

(14)

Ex: fédération internationale WheatIS

CerealsDB

UCW

(15)

Basé sur un modèle de données très gros grain

Full text search

Facettes / Aggregations

(16)

Un portail: wheatis.org

(17)

Accessible

A1 (meta)data are retrievable by their identifier using a standardized communications protocol.

A1.1 the protocol is open, free, and universally implementable.

A1.2 the protocol allows for an authentication and authorization procedure, where necessary.

A2 metadata are accessible, even when the data are no longer available.

Producteurs de données: dépôt de données et métadonnées sous PUID/DOI dans des archives/bases de données accessibles par le web (stables dans le temps) + licence d’accès définie dans les DOI, base de données

Informaticiens: développement de web services (= Application

Programing Interface: API)

(18)

Ex: 16 ans d’expérimentations du réseau Céréales à Pailles

(19)

http://www.brapi.org/

• Développement d’une API (web service) standard pour les données dans le champ de la génétique et amélioration des plantes

• Materiel génétique, expériences de phénotypage, de génotypage, ….

• Alignement de l’API BrAPI avec les standards pour les données RG (MCPD) et pour les expériences de

phénotypage (MIAPPE)

Breeding API initiative

Bill & Melinda Gates Foundation

CassavaBase

T3

IBP

JHI

Bioversity

CIRAD

INRA

IRRI

GOBII

Wageningen WUR

CIP

DaRT

Cornell

iPlant

(20)

Federation of Plant Information systems

Data end points

INRA

VIB

WUR

...

Data Cache

Data Harvester Web

Service Web User

interface

Batch Download

BrAPI-based improved plant portal

• Easier to maintain

• Easier to improve the central services

(21)

Interoperable

I1. (meta)data use a formal, accessible, shared, and broadly applicable language for knowledge representation.

I2. (meta)data use vocabularies that follow FAIR principles.

I3. (meta)data include qualified references to other (meta)data.

• Développeurs

• Spécialistes des ontologies et standards

• Curateurs de données

• Producteurs de données Projets focalisés espèces, objets de recherche

Infrastructures (internationales)

Animation de différentes communautés (et de leurs interactions)

En clarifiant

• ce qui est de la responsabilité de chacun dans le processus

• les concepts pivots pour faire de l’interopérabilité

• les standards existants

(22)

A L I M E N T A T I O N A G R I C U L T U R E

E N V I R O N N E M E N T

Interopérabilité des données

Phenotype 1 = measurement on a cultivar in an environment-GPS1-time1 Phenotype 2 = measurement on a cultivar in an environment-GPS2-time2 Genotype = observed marker’s alleles on a cultivar

Climate 1 = climatic data at GPS1-time1

Crop Ontology

Variable=trait + method + scale

Identification : MultiCrop Passport Data

Standard

Inspire EU directive

(23)

A L I M E N T A T I O N A G R I C U L T U R E

E N V I R O N N E M E N T

Différents niveaux de standardisation possible

Check list d’informations décrivant le comment, par qui et pourquoi du jeu de données : standard de métadonnées

• Dictionnaires de vocabulaires contrôlés, ontologies, échelles standards: Crop Ontology, Gene Ontology, BBCH scales…

• Identifiant uniques (idéalement persistents): gene ID, accessions ID, Trait ID, pubmed ID, DOI,…

• Formats de fichiers: VCF, IsaTab, GnpIS excel submission format,

Domaine foisonnant et complexe: nécessité de développer des guides, catalogues et formations ciblées sur les différentes

communautés

(24)

wheatis.org

(25)

Reusable

R1. meta(data) have a plurality of accurate and relevant attributes.

R1.1. (meta)data are released with a clear and accessible data usage license.

R1.2. (meta)data are associated with their provenance.

R1.3. (meta)data meet domain-relevant community

Producteurs de données:

• Contribution à la définition des standards de métadonnées cohérents avec le domaine

• Publication des jeux de données sous DOI permet de spécifier l’ensemble des contributeurs et leurs rôles et les droits et conditions de réutilisation des données Informaticiens/ bibliothécaires:

• Développement d’outils d’aide à la publication des jeux de données

(26)

A L I M E N T A T I O N A G R I C U L T U R E

E N V I R O N N E M E N T

Developpement d’un standard de métadonnées pour les données de phénotypage

• MIAPPE: Minimum Information About Phenotyping Experiment

• Developpé et maintenu par une communauté internationale:

maintained by an international community interested in plant

phenotyping: large community of breeders and biologists, European infrastructure for Plant Phenotyping (EPPN/EMPHASIS), European infrastructure of Bioinformatics (ELIXIR), Planteome, Excellence in Breeding Plateform…

• www.miappe.org

• Steering committee avec des représentants de Emphasis, Elixir,

CGIARs

(27)

Remerciements

Financial supports

H. Quesneville C. Pommier M. Alaux

International infrastructures/

initiatives

National and international crop projects

E. Dzale-Yeumo S. Aubin

Pas que les plantes

cultivées!

(28)

Merci!

(29)

Catalogue (FAIR et durable) de

recommandations et standards

Références

Documents relatifs

La base de données (données primaires) est la matière première à partir de laquelle la bioinformatique va produire d'autres données (données secondaires) et

Avec cette modélisation, nous savons qu'un professeur enseigne certaines matières et travaillent dans certains établissements.. Exemple: Le professeur Dupont enseigne les

Les vues peuvent être utilisées comme des tables dans des requêtes. On les appelle aussi des

•Extraction des caractéristiques de l’image : couleur, texture, forme, contraintes spatiales, régions.. Recherche d’images basée sur

Remarques : les classes accédant aux bases de données faisant partie du framework sont des classes managées ; il en découle les corollaires suivants :.. • Pour créer un objet

• dans le cas particulier d’une entité faible, la clé primaire de la relation correspondant à l’entité faible sera le couple constitué de la clé de l’entité forte et de

Compétences d'un utilisateur averti de BD relationnelles disposant de notions de base sur la conception et l'administration d'une BD. • Bases de données relationnelles:

Système de Gestion de Bases de Données SGBD Rappel sur les niveaux d’abstraction MySQL Principaux types de données disponibles Créer une BD phpMyAdmin Pour finir... Système de