HAL Id: hal-02799596
https://hal.inrae.fr/hal-02799596
Submitted on 5 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Recherche reproductible et calcul scientifique
Marie-Josee Cros
To cite this version:
Marie-Josee Cros. Recherche reproductible et calcul scientifique. Journées des math-info de l’INRA - Assemblée générale du département Mathématiques et Informatique Appliquées (MIA), Mar 2014, Lyon, France. 1 p., 2014. �hal-02799596�
Recherche reproductible et calcul scientifique
CONTEXTE
EENJEUX
EMarie-Josée Cros, MIAT, INRA Toulousee
DES PRATIQUES DANS LE LABO
UN ENVIRONNEMENT DE RECHERCHE
E● Garder la trace de la manière dont les résultats sont produits
● Eviter les manipulations manuelles de données
● Archiver les programmes externes utilisés
● Stocker les données primaires (raw data)
● Utiliser un contrôle de version
● Tester le code (automatiquement)
● Des normes de citation d'auteurs et de produits digitaux : DataCite (DOI), ORCID
● Des normes de citation et attribution au producteurs de données, développeurs de logiciels, data curators
● Des journaux qui n'ignorent pas ce qui n'est pas du papier : produits digitaux
● Des revues de publication prenant en compte la reproductibilité
● Des agences de financements qui intègrent la reproductibilité
● Des institutions qui se préoccupent et reconnaissent l'investissement dans la reproductibilité
● Des formations, tutoriels qui aident à se former et progresser sur développement logiciel, outils, propriété intellectuelle (licences ...)
Pas facile à améliorer mais gain
pour ses travaux et la communauté scientifique
● Un mouvement pour faire prendre conscience du problème et fournir des outils
● La reproductibilité des calculs nécessite les entrées, les codes, la méthode et l'environnement de calcul
● La reproductibilité est un spectre, sur lequel on peut progresser
● Le calcul scientifique central dans la recherche
● Des scandales : climategate (2009), en économie (2013) + un haut pourcentage de rétractation en publication
● Dans les faits très peu de reproductibilité en calcul scientifique
● Peu d'incitation même si un mouvement se dessine pour le partage de données
● Reproductibilité difficile dans le cas de big data, calcul de précision, calcul parallèle, systèmes complexes ...
●
Améliorer la fiabilité des résultats de recherche
●
Améliorer la traçabilité et la pérennité des travaux
●
Favoriser l'effet cumulatif des recherches (appliquer à de nouvelles données ou réutiliser)
● Faire du code robuste
● Maintenir un environnement de calcul consistant et répétable
● Partager son code
● Documenter
● Rendre public les scripts, les exécutions réalisées, les résultats
DES OUTILS
EGestionnaire de version de fichiers : Git, Mercurial et code repositories : Github, Bitbucket, Forge logiciel, Google code
Programmation lettrée (Literate Programming), cahier de laboratoire électronique (Electronic lab notebook) :
Sweave, knitr, emacs org mode, IPython, Matlab, Mathematica, Sage
Provenance tracker : Sumatra, VisTrails
Workflow management system : Vistrail, Taverna, Galaxy
Capture d'environnement : virtual machine, Linux package
Sites de publication : FigShare, Zenodo, Dryad, RunMyCode, MyExperiment, recomputation, SHARE
Mars 2014E