Environnements de stockage Sauvegarder les données

Dès la phase de collecte, il convient de se préoccuper des aspects de stockage et de sauvegarde qui seront plus large- ment abordés dans la phase 6 du cycle de vie des données. En effet, dès le début d’un projet, il est nécessaire, d’une part, d’estimer le stockage nécessaire à la collecte de données et d’autre part, de mettre en place les moyens de sauvegarde des données récoltées. La duplication des données par stockage redondant sur des supports différents de ceux de l’équipement utilisé (poste de travail fixe, mobile, serveur, . . . ) est un des principes de base d’une bonne conservation. Il convient de préférer un archivage centralisé conformément à la règle du 3-2-1 généralement recommandée (3 copies sur 2 supports différents dont 1 sur un lieu déporté). À cet effet, il conviendra de travailler en amont avec une équipe informatique afin que les dispositifs de stockage soient disponibles.

Rappels théoriques concernant les architectures de stockage traditionnel Sylvain MaurinANF « Stockage Distribué », 2016

Outils algorithmiques et logiciels pour le stockage distribué

Benoit ParreinANF « Des données au BigData : exploitez le stockage distribué ! », 2016

Divers outils de sauvegarde des données sont fréquemment utilisés dans les milieux informatiques commebackuppc,

bacula,rdiff-backup

Un nouveau paradigme dans la sauvegarde consiste à introduire et utiliser des fonctionnalités de déduplication. Cette technologie consistant à réduire les volumes sauvegardés et les durées de sauvegarde en découpant les gros fichiers en fragments (blocs) et en ne sauvegardant qu’une seule fois les fragments identiques.

Un retour d’expérience sur lelogiciel borgbackupdonne des résultats intéressants et prend tout son sens quand on a beaucoup de fichiers volumineux peu différents.

Sauvegardes dédupliquées avec BorgBackup : retour d’expérience Maurice Libes - Didier Mallarino, OSU PytheasJRES 2017, Nantes

Respecter le RGPD !

Enfin n’oublions pas que, dès lors que l’on collecte des données personnelles (données permettant l’identification directe ou indirecte d’une personne), il est important de respecter des principes essentiels sur la durée de conservation des données, le droit à l’information et l’obligation de sécuriser les données. Il ne faut pas hésiter à se rapprocher du correspondant du Délégué à la protection des données (DPD) de votre délégation (pour le CNRS) ou du Délégué à la protection des données de votre établissement.

CHAPITRE

4

Traiter

Cette phase du cycle de vie des données correspond au prétraitement des données brutes issues des acquisitions et des collectes. Il s’agit souvent de regrouper, choisir, qualifier les données pertinentes parmi celles qui ont été collectées, puis les reformater dans des formats standards interopérables, et les préparer en vue de leur analyse ultérieure. Cette partie est donc structurée en différentes sections décrivant cette préparation des données :

— Préparer les fichiers de données, en vue de leur analyse, en utilisant des formats interopérables.

— Utiliser des infrastructures logicielles « framework » d’intégration de données, lorsqu’elles sont hétérogènes. — Mettre en place et utiliser des plateformes de gestion de données locales, en vue de leur analyse.

— Vérifier et s’assurer de la qualité des données.

4.1 Préparer les fichiers de données en vue de leur analyse

Bien souvent, les données « brutes » sont issues de capteurs ou divers instruments de collecte sur le terrain. Ils se présentent fréquemment sous la forme de fichiers dans des formats propriétaires, peu exploitables et peu interopérables directement tels quels.

Dans une optique de gestion FAIR, il est donc important de se préoccuper du format des données afin de les rendre « ouverts » et interopérables. La notion de format « ouvert » est importante pour que les données puissent être parta- gées, interopéables et préservées sur le long terme. A cet effet, le site Doranum propose uneintroduction à la définition de formats ouverts ou fermés.

De plus, si l’objectif est le traitement massif des données, il est important de choisir des formats capables de supporter des entrées / sorties intensives sur des infrastructures de calcul.

4.1.1 Utiliser des formats standards

Parmi les premiers traitements opérés sur des données brutes provenant du terrain, les données issues de capteurs environnementaux sont souvent illisibles et peu exploitables par un être humain. Il convient alors de traiter les fichiers bruts de manière à en extraire les données utiles, et de les réécrire dans des formats standards utilisables par un grand nombre de logiciels, et une communauté d’utilisateurs.

Chaque discipline utilise, voire définit un certain nombre de formats standards, et il est bon de les connaitre et de s’y référer.

On ne pourra pas tous les citer, mais à titre d’exemple dans les domaines Océan, Atmosphère par exemple,

— Le formatNetCDFest un format ouvert, autodocumenté et très utilisé en particulier dans les communautés sciences de l’environnement. Il est très bien adapté et utilisé, par exemple pour représenter et formater des données qui sont des profils verticaux, des séries temporelles, des trajectoires, ou encore des surfaces maillées en 2D. Ce format est dit « auto-descriptif » en ce sens qu’il permet de ne pas avoir besoin d’un fichier de description complémentaire. Les métadonnées sont en effet insérées dans l’entête du fichier, avec les données elles-mêmes. On peut ainsi décrire de manière assez précise les données du fichier, par exemple en insérant les unités de mesure des paramètres mesurés, la licence de diffusion, les propriétaires, etc., ainsi que l’organisation des données.

Toutefois dans son format originel NetCDF n’a pas imposé de directives particulieres pour inscrire les métadonnées dans l’entete du fichier. De ce fait, il était possible d’inscrire n’importe quel libellé de variables, unités, etc. Une standardisation a été nécessaire pour obtenir des fichiers compréhensibles et interopérables. C’est le but de laconvention CF (climate forecast)qui fournit unetable de standardisation des variables et unités de mesuresà inscrire dans l’entete d’un fichier NetCDF.

Ce format standard, la convention « CF », et l’interface de programmation (API) en Python pour créer des fichiers NetCDF par programme ont été présentés auséminaire SIST19 à l’OMPde Toulouse, par Joël Sudre, Maurice Libes et Didier Mallarino :

Présentation du format NetCDF

Joël Sudre, LEGOSSéminaire SIST19 Toulouse

La convention CF (climate forecast) pour les fichiers NetCDF

Joël Sudre, LEGOS et Maurice Libes, Institut PytheasSéminaire SIST19 Toulouse

Utilisation de l’API de programmation Python pour NetCDF

Maurice Libes, Didier Mallarino, Institut PhyteasSéminaire SIST19 Toulouse

— Le format ODV(ocean data view) est également un format standard ouvert intéressant. C’est un format de type « tableur », ensemble de lignes comportant un nombre fixe de colonnes qui se rapproche d’un format CSV, composé de colonnes de données séparées par des virgules (ou tout autre séparateur), à cette différence près que le format ODV permet l’insertion d’un entête assez riche permettant de placer des métadonnées en début de fichier. On trouvera un exemple sur lePortail des données marines.

Le format de données ODV permet un stockage dense et un accès très rapide aux données. De grandes collections de données comprenant des millions de stations peuvent être facilement entretenues et explorées sur des ordinateurs de bureau.

Un explorateur et extracteur de données webODV est disponible sur le portailEMODnet Chemistry.. L’outil webODV Data Explorer and Extractor, développé à l’Institut Alfred Wegener en Allemagne, permet aux utilisateurs d’explorer, de visualiser et d’extraire des sous-ensembles de données validées simplement en utilisant leur navigateur web.

Guide de Bonnes Pratiques sur la gestion des données de la Recherche

Les formats NetCDF et ODV sont les formats recommandés et utilisés par lepôle de données Odatiset par le projet européenSeadatanet.

— Le format HDF5

Le formatHDF5(Hierarchical Data Format, version 5) est un format de fichier de type conteneur, c’est-à-dire assimi- lable à une arborescence de dossiers / fichiers contenus dans un même fichier.

C’est un format très utilisé lorsqu’on veut traiter ou simuler des données grâce au calcul intensif, car il offre des possibilités de compression et d’écriture/lecture parallèles très efficaces.

Des supports de formation sur ce format sont de ce fait disponibles via les infrastructures et réseaux en lien avec le calcul intensif :

Formations PRACE

HDF5 : theory & practice1et2

Prace Advanced Training Centers,Course: Parallel I/O and management of large scientific data, 2014

Dans le document Guide de bonnes pratiques sur la gestion des données de la Recherche (Page 38-42)