• Aucun résultat trouvé

4.2.1 Développer les procédures d’intégration des données dans les bases de don-

nées

Les nouveaux mécanismes de collecte de données ont souvent simplifiés la mise en base de données comme c’est le cas avec la boite à outils ODK (cf partieCollecter) qui envoie directement les données collectées sur tablette dans un schéma d’une base de données PostgreSQL. Mais, pour sécuriser les données, elles doivent être ensuite transférées dans la base de données métier. Cette opération est souvent réalisée à l’aide de déclencheur comme on levoit dans la présentation suivante

Intégrer les données dans sa base métier

Marie-Claude Quidoz, CEFEANF « Interfacer les outils mobiles avec son système d’information », Réseau rBDD, Sète, 2019

4.2.2 Utiliser un cadre d’applications d’agrégation de données

Lorsque les données à traiter sont hétérogènes et que les technologies qui permettent de les fournir sont également différentes, une solution est d’utiliser un « framework » d’agrégation de données. Un « framework » est un cadre d’applications d’agrégation de données, autrement dit un outil qui va permettre de traiter des données de formats différents de façon transparente pour l’utilisateur final.

Lelogiciel « Lavoisier »développé au Centre de Calcul de l’IN2P3 (CC-IN2P3), permet de récupérer, transformer, fusionner, et requêter des données de sources différentes. Il est utilisé dans plusieurs contextes pour fournir une vue unifiée des données collectées à partir de multiples sources hétérogènes

Lavoisier : un cadre d’applications d’agrégation de données, vidéo de la présentation Cyril L’Orphelin, Sylvain Reynaud, CC-IN2P3, CNRSJCAD 2018, Lyon.

D’autres outils logiciels existent, permettant l’intégration de données. Dans la catégorie des logiciels « ETL » (Extract, Transform, Load, le logiciel «Talend Open Studio» par exemple, a été abordé lors d’une session de formation du réseau RBDD :

« Utilisation et maîtrise d’un ETL : intégrations de données avec Talend Open Studio » Eric QuintonRéseau RBDD, 2017. Paris.

Ce logiciel « Talend » a été également utilisé par Soumaya Lahbib pour traiter les fichiers de données issues des capteurs duprojet EMSO Ligure-ouestet les transformer en fichiers CSV utilisables facilement.

Gestion des données du projet EMSO avec Talend et ERDDAP Maurice Libes, Soumaya LahbibSéminaire SIST18 OVSQ, Guyancourt.

4.2.3 Déposer et structurer dans des plateformes de gestion de données locales

Après la phase de collecte de données que nous avons vue dans l’étape précédente du cycle de vie des données, il est nécessaire de se préoccuper du dépôt, de la facilité d’accès et de la réutilisation des données localement dans une unité de recherche.

Un certain nombre de logiciels font office de plateforme d’accès et de gestion des données. Ils permettent de présenter les données avec leurs métadonnées, de fournir des interfaces de recherche, de géolocaliser les données, et parfois de visualisation des données avec des graphes. Cette organisation des données facilite grandement leur analyse ultérieure. Des logiciels sont particulièrement adaptés dans la diffusion et l’affichage des données scientifiques d’observation par le fait qu’ils utilisent les standards interopérables de l’Open Geospatial Consortium (OGC), comme leprotocole DAP (Data Access Protocol)

— Les plateformes de dépôt et de diffusion de données commeTHREDDSetERDDAPsont intéressantes par le fait qu’elles mettent en oeuvre le protocole DAP, et sont des solutions très bien adaptées pour rendre les données FAIR et faciliter la diffusion des données.

La plateforme d’accès ERDDAP se présente comme étant un « accès facile aux données scientifiques » (« Easier access to scientific data ») et fournit un ensemble complet de fonctionnalités pour la gestion des jeux de données. Il permet :

— déposer des jeux de données dans différents formats interopérables — de fournir un catalogue des jeux de données gérés par le serveur — d’afficher les métadonnées inscrites dans les fichiers

— de lire et convertir des jeux de données dans de nombreux formats standards interopérables différents, — d’interroger et filtrer les données au travers de formulaires,

— de créer des graphiques et des cartes simples pour visualiser le jeu de données analysé — de normaliser le format des unités de temps présentes dans les fichiers.

Une des fonctionnalités intéressantes est qu’ERDDAP agrège automatiquement les données nouvelles répondant a un format donné, qui sont déposées dans un répertoire. Ainsi pour les séries temporelles cette fonctionnalité est intéres- sante puisqu’il suffit de déposer des fichiers dans un répertoire pour que la série soit automatiquement enrichie et mise à jour.

Dans le projet scientifiqueEMSO, le logiciel ERDDAP permet de constituer unréseau de serveurs permettant de rassembler et fournir toutes les données d’un même projet sur plusieurs sites .

Utilisation de ERDDAP - Installation, configuration et mise à disposition de jeux de données Maurice Libes, Didier MallarinoANF SIST 17 Fréjus

Guide de Bonnes Pratiques sur la gestion des données de la Recherche

Lorsque les données sont géoréférencées, on peut aussi déposer et faire gérer des données de terrain via des serveurs cartographiques comme :

— le serveur cartographiqueGeoserverpermet d’afficher et d’échanger des données géospatiales sur le web selon les standards (WMS, WFS, . . . ) de l’OGC ;

Geoserver - Installation, configuration, affichage et diffusion de jeux de données géospatialisés Juliette Fabre, Olivier LobryANF SIST 2018, Toulouse.

— l’application GeoCMS permettent la visualisation de données géospatiales sur le web et de mettre en place une Infrastructure de Données Géographique (IDG). on peut voir un exemple de l’interet de cette application sur unportail comme celui de Indigeo

TP GeoCMS - Installation, configuration, visualisation et interrogation de jeux de données géospatialisés Mathias Rouan, Jonathan SchaefferANF SIST 2018, Toulouse.

Exemple de mise en oeuvre de plateformes de données

Des exemples d’utilisation des plateformes logicielles ERDDAP et THREDDS ont été présentés lors de différentes sessions des journées du réseau SIST :

G. Brissebrat nous montre comment sont diffusées des données maillées NetCDF du SEDOO avec la plateforme logicielle THREDDS. Les avantages évoqués sont nombreux :

— Consulter les métadonnées sans avoir à télécharger le jeu de données — Accéder uniquement à une partie d’un jeu de données

— Télécharger un seul fichier même si les données originales sont réparties dans plusieurs fichiers — Avoir le choix entre plusieurs moyens d’accéder aux données

— Accéder aux données dans des format compatibles avec les outils communs d’analyse ou de visualisation de données

— Offrir plusieurs formats et protocoles d’accès aux données- — Fournir une prévisualisation des données

— Pouvoir moissonner des données d’un autre serveur THREDDS

Distribution et visualisation de données avec THREDDS, exemples d’utilisation au SEDOO Guillaume Brissebrat, Service de données de l’OMPSéminaire SIST 2015 OSU Pytheas Marseille

Eccad, un exemple de mise en oeuvre de THREDDS

Sabine Darras, Observatoire Midi-PyrénéesSéminaire SIST 2019 OMP Toulouse

Dans cette présentation les auteurs montrent un workflow complexe depuis l’acquisition de données a 2500m de profondeur, jusqu’à l’affichage et la diffusion sur un serveur ERDDAP. Les données de capteurs sont traitées avec l’ETL Talend pour produire des fichiers CSV et NetCDF qui sont diffusées via la plateforme ERDDAP. Dans le cas de séries temporelles qui s’enrichissent quotidiennement, erddap permet d’aggréger automatiquement les données journalières qui sont déposées par programme dans un répertoire, sans intervention humaine.

Gestion des données du projet EMSO avec Talend et ERDDAP

Soumaya Lahbib, Maurice Libes, OSU PytheasSéminaire SIST 2018 OVSQ, Guyancourt.

La plateforme de gestion de données ERDDAP est utilisée dans le projet Européen EMSO et permet de constituer un réseau de serveurs qui regroupe les données d’un même projet avec des données issues de sites différents1.

Dans cette présentation, les auteurs avaient pour objectif de diffuser des données dans un environnement tropical et ont utilisé et comparés les platformes logicielles THREDDS et ERDDAP

Copier les succès et rester simple (AMEO) : mise à disposition de sorties de modèles climatiques avec un NAS, THREDDS et ERDDAP.

Thierry Valéro, Institut de Recherche pour le Développement, Laboratoire d’Océanographie et du ClimatSéminaire SIST 2016 OSU OREME Montpellier

Les présentations suivantes fournissent un certain nombre de connaissances sur l’utilisation d’infrastructure de données géographiques (IDS, IDG) et de différentes plateforme logicielle de gestion des données

Infrastructure de données spatiales et de traitements GEOSUD : des standards à la réalité Jean-Christophe Desconnets, UMR Espace-Dev, IRDSéminaire SIST 2016 OSU OREME Montpellier

Publication automatique de données et de métadonnées dans geOrchestra

Ernest Chiarello, Théoriser et modéliser pour aménager, MSHESéminaire SIST 2018, Guyancourt.

Loic Salaun nous montre un exemple de consultation des données à partir d’un visualiseur cartographique (visualiseur d’INDIGEO), utilisant les services web géographiques (WMS, WFS, WCS, CSW)

Mise en place d’une IDS pour le programme de recherche Réseau de Suivi et de Surveillance de l’Environne- ment.

Loïc Salaun, Observatoire des Sciences de l’Univers Nantes AtlantiqueSéminaire SIST 2016, Montpellier.