• Aucun résultat trouvé

Recherche reproductible et calcul scientifique

N/A
N/A
Protected

Academic year: 2021

Partager "Recherche reproductible et calcul scientifique"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-02799596

https://hal.inrae.fr/hal-02799596

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Recherche reproductible et calcul scientifique

Marie-Josee Cros

To cite this version:

Marie-Josee Cros. Recherche reproductible et calcul scientifique. Journées des math-info de l’INRA - Assemblée générale du département Mathématiques et Informatique Appliquées (MIA), Mar 2014, Lyon, France. 1 p., 2014. �hal-02799596�

(2)

Recherche reproductible et calcul scientifique

CONTEXTE

E

ENJEUX

E

Marie-Josée Cros, MIAT, INRA Toulousee

DES PRATIQUES DANS LE LABO

UN ENVIRONNEMENT DE RECHERCHE

E

Garder la trace de la manière dont les résultats sont produits

Eviter les manipulations manuelles de données

Archiver les programmes externes utilisés

Stocker les données primaires (raw data)

Utiliser un contrôle de version

Tester le code (automatiquement)

Des normes de citation d'auteurs et de produits digitaux : DataCite (DOI), ORCID

Des normes de citation et attribution au producteurs de données, développeurs de logiciels, data curators

Des journaux qui n'ignorent pas ce qui n'est pas du papier : produits digitaux

Des revues de publication prenant en compte la reproductibilité

Des agences de financements qui intègrent la reproductibilité

Des institutions qui se préoccupent et reconnaissent l'investissement dans la reproductibilité

Des formations, tutoriels qui aident à se former et progresser sur développement logiciel, outils, propriété intellectuelle (licences ...)

Pas facile à améliorer mais gain

pour ses travaux et la communauté scientifique

Un mouvement pour faire prendre conscience du problème et fournir des outils

La reproductibilité des calculs nécessite les entrées, les codes, la méthode et l'environnement de calcul

La reproductibilité est un spectre, sur lequel on peut progresser

Le calcul scientifique central dans la recherche

Des scandales : climategate (2009), en économie (2013) + un haut pourcentage de rétractation en publication

Dans les faits très peu de reproductibilité en calcul scientifique

Peu d'incitation même si un mouvement se dessine pour le partage de données

Reproductibilité difficile dans le cas de big data, calcul de précision, calcul parallèle, systèmes complexes ...

Améliorer la fiabilité des résultats de recherche

Améliorer la traçabilité et la pérennité des travaux

Favoriser l'effet cumulatif des recherches (appliquer à de nouvelles données ou réutiliser)

Faire du code robuste

Maintenir un environnement de calcul consistant et répétable

Partager son code

Documenter

Rendre public les scripts, les exécutions réalisées, les résultats

DES OUTILS

E

Gestionnaire de version de fichiers : Git, Mercurial et code repositories : Github, Bitbucket, Forge logiciel, Google code

Programmation lettrée (Literate Programming), cahier de laboratoire électronique (Electronic lab notebook) :

Sweave, knitr, emacs org mode, IPython, Matlab, Mathematica, Sage

Provenance tracker : Sumatra, VisTrails

Workflow management system : Vistrail, Taverna, Galaxy

Capture d'environnement : virtual machine, Linux package

Sites de publication : FigShare, Zenodo, Dryad, RunMyCode, MyExperiment, recomputation, SHARE

Mars 2014E

Références

Documents relatifs

Le principe de la méthode est que, étant donnée une architecture de type complexe (comprenant plusieurs dépendances), on peut toujours décrire cette architecture

La directive ORDERED permet, à l'intérieur d'une boucle parallélisée, d'exécuter une zone séquentiellement, c'est à dire thread par thread, dans l'ordre des indices croissant. -

Programmer une m´ ethode de diff´ erences finies pour l’´ equation des ondes coupl´ ee ` a une marche en temps de type ”saute-mouton”.. Valider sur la solution exacte `

N’attendez pas qu’il soit trop tard pour poser des questions.. Objectifs/compétences à acquérir rappeler au début de chaque

Le calcul parallèle : non-déterminisme Pacte avec le Diable espoir d’un gain de temps perte de contrôle sur l’ordre des opération −→ perte de reproductibilité pour les

[r]

Une bonne organi- sation du développement peut pourtant apporter des gains en temps, en énergie et en sérénité, que l’on soit développeur « isolé » (personne implémentant un

Les différents centres, selon leur niveau dans l’architecture de la grille de calcul, s’engagent par le biais de l’accord de collaboration ou MoU signé entre le CERN et les