Mettre en place un contrôle qualité des données

Par nature, la recherche n’est pas répétitive, mais riche en incertitudes contrairement à un processus industriel. La confiance dans la qualité d’une recherche consiste donc à établir et vérifier que les différentes étapes d’une étude peuvent être répétées en obtenant le même résultat par des chercheurs différents à des moments différents. Ainsi, une donnée est fiable si, dans des conditions données, aucune déviation n’est constatée en fonction du temps, durant un laps de temps donné. Il est donc essentiel de s’assurer que l’ensemble des activités de recherche soit maîtrisé. Le contrôle sur les équipements est le premier pas vers la traçabilité des données comme l’illustre l’exposé suivant : En sciences environnementales, la qualification des données est importante pour estimer et fournir un degré de qualité de la donnée. On utilise pour cela des codes qui renseignent sur la qualité de la donnée : bonne, mauvaise, manquante, modifiée etc. . . Dans ce domaine bien souvent chacun utilise une codification personnelle, cependant une standardisa- tion des codes qualité est bienvenue.

L’infrastructure de données européenne Seadatanet utilise par exemple une table « L20 » standardisant les codes qualitéà placer sur les données

1. http://erddap.emso.eu:8080/erddap/info/index.html?page=1&itemsPerPage=1000

Guide de Bonnes Pratiques sur la gestion des données de la Recherche

Traçabilité des données de la recherche. Confirmation métrologique des équipements

Virginie JAN LOGASSI, Université de LorraineRencontres du réseau Qualité en Recherche, 2019, Nancy.

Le réseau rBDD a consacré un atelier à la qualité des données pour apporter des éclairages sur les questions suivantes : — Quelles sont les différentes notions de qualité des données ?

— Comment contrôler la qualité des données dans la BDD : avant ou pendant l’insertion de données — Faut-il automatiser le contrôle de la qualité dans les bases de données ?

— Quels sont les outils disponibles et comment les utiliser ?

Le programme de l’atelier s’appuie sur les travaux deLaure Berti Equillequi « classe les travaux autour de la problé- matique de la qualité des données selon quatres grands types d’approches complémentaires : prévenir / diagnostiquer / corriger / adapter ».

Dans la première partie de la présentation, après avoir explicité les notions autour de la qualité des données, Christine Plumejeaud nous donne de bonnes pratiques comme celle d’attribuer un code standard (suivant une norme choisie et citée) décrivant l’état de la valeur. Elle cite comme exemple le standardSDMX, qui est une initiative internationale, utilisée entre autre par Eurostat et l’INSEE. Elle cite aussi les travaux faits par le Service d’Observation en Milieu LittoralSOMLITqui a défini sa propre classification2.

Sa présentation se poursuit sur l’utilisation de contraintes SQL pour éviter l’insertion en base de données de valeurs incohérentes ou impossibles. Ces contraintes sont la transcription des régles de gestion définies lors de la modélisation de la base de données. Une fois la structure de la base de données définie, il reste une étape, celle du nettoyage des données, a réaliser avant l’intégration des données en base. Le réseau rBDD conseille pour cela le logicielOpenRefine

très simple à prendre en main et très puissant.

Qualité des données

Christine Plumejeaud, LIENSs & Nadine Mandran, LIG ANF « Sciences des données : un nouveau challenge pour les métiers liés aux bases de données », réseau rBDD, Sète, 2018

Une présentation autour de l’outil OpenRefine de nettoyage et mise en forme des données. Mathieu SABY, BU Université de Nice Sophia-Antipolis

Dans cette intervention, Christine Plumejeaud se place dans le cadre de l’utilisation d’outils nomades qui envoient directement les données collectées sur tablette dans une base de données. La problèmatique est sensiblement différente. Partant du principe que sur le terrain, il est communément recommandé de laisser la saisie la plus libre possible pour permettre une prise en compte des aléas plus faciles, la détection des choses non conformes aux régles métier est à traiter a posteriori.

Outils nomades : validation des données

Christine Plumejeaud-Perreau, CNRS, U.M.R 7266 LIENSs, la RochelleANF « Interfacer les outils mobiles avec son système d’information », réseau RBDD, 2019

Certains logiciels commeODV (Ocean Data View) permettent de qualifier les données et d’attribuer un code qualité a des données après analyse par un expert du domaine. ODV est un format de fichiers, et un logiciel utilisés par le projet européenSeadataNet.

Cependant peu de logiciels de traitement de données propose d’associer des codes qualités aux données, aussi on retrouve souvent de nombreuses méthodes et implémentations personnelles pour essayer de qualifier les données,

2. Codes qualité SOMLIT

illustrées par les exposés suivants donnés lors des journées de séminaires SIST (Séries Interopérables et Systèmes de Traitement) :

P. Téchiné présente les méthodes de suivi de la qualité de diverses mesures comme le niveau de la mer ou la salinité de surface (SSS : Sea Surface Salinity ) dans différents projets. On peut constater la diversité des solutions mises en place.

Suivi de la qualité des mesures de réseaux d’observation océanographique

Philippe Téchiné, B. Buisson, L. Testut, T. Delcroix, G. Alory, Laboratoire d’études en Géophysique et océanographie spatialesSéminaire SIST 2016 OSU OREME Montpellier

Dans cette présentation Lynn Hazan décrit son processus d’attribution de code qualité. Comme nous l’avons indiqué précédemment dans la phase de traitement, les données sont obtenues en temps quasi-réel et sont transformées en don- nées consolidées par un traitement qui permet d’en augmenter la précision et la confiance. Les étapes de consolidation incluent une expertise humaine avec une inspection visuelle afin de détecter des problèmes potentiels difficilement dé- tectables automatiquement. L’outil ATCQc a été développé afin de permettre aux scientifiques de visualiser et qualifier rapidement leurs données issues des instruments de mesures du réseau.

ATCQc : Un outil pour le QA/QC de mesures atmosphériques du TGIR ICOS, vidéo

Lynn Hazan, Laboratoire des Sciences du Climat et de l’EnvironnementSéminaire SIST 2018 OVSQ, Guyancourt.

Dans cette présentation, les auteurs abordent la qualité des données sous l’angle utilisation de référentiels pour décrire finement les données et les rendre interopérables

La qualité des données à l’OSU OREME

Juliette Fabre, Olivier Lobry, Observatoire de REcherche Méditerranéen de l’EnvironnementSéminaire SIST 2018 OVSQ, Guyancourt.

La qualité des données à l’OSU OREME

Juliette Fabre, Olivier Lobry, Observatoire de REcherche Méditerranéen de l’EnvironnementSéminaire SIST 2018 OVSQ, Guyancourt.

Dans cette présentation, les auteurs proposent un développement graphique avec la librairie «DyGraphs» pour visualiser et valider des données de séries temporelles.

Outil web interactif de visualisation et validation de séries temporelles Olivier Lobry, Juliette FabreSéminaire SIST 2015 OSU Pytheas Marseille.

Dans son projet A. Campos utilise un ensemble de scripts Python pour convertir les fichiers « xls » en fichier « ascii », puis effectue un nettoyage avec la commande « awk » de Unix. Enfin des scripts en langage R permet de faire des moyennes glissantes, des graphes et des exports des fichiers au format NetCDF.

Site Web de diffusion des données « Sahelian Dust Transect »

André CAMPOS, Laboratoire interuniversitaire des systèmes atmosphériquesSIST 2016 OSU OREME Montpellier

Guide de Bonnes Pratiques sur la gestion des données de la Recherche

CHAPITRE

5

Analyser

Derrière le terme « analyser » s’entend l’extraction de l’information des données le plus souvent par l’utilisation de puissance de calcul. Cela recouvre de nombreux types de techniques (calcul intensif, traitement statistique, machine learning, visualisation . . . ), et nécessite également des plateformes adaptées.

Cette étape du cycle de vie de nombreuses données impose que ces données soient exploitables, c’est-à-dire bien orga- nisées, dans des formats adaptés à l’analyse envisagée, de façon à pouvoir leur appliquer des traitements automatisés. Plusieurs évènements récurrents, annuels ou bisannuels, auxquels participent activement les réseaux métiers, comme lesJCAD (Journées Calcul et Données), les JDEV (Journées du DEVeloppement logiciel)par exemple, intègrent de nombreuses interventions sur ces différentes thématiques, allant de la description des plateformes aux outils disponibles, en passant par l’organisation des développements et la reproductibilité, détaillée dans la sectionReproductibilité

de ce guide. Ils incluent aussi très souvent des retours d’expérience particulièrement riches.

5.1 Plateformes de traitement de données

De nombreuses ressources sont disponibles, à différentes échelles, pour analyser et traiter des données. De façon générale, on distingue :

— Les ressources de type calcul intensif ou HPC (High Performance Computing) organisée à l’échelle européenne (EuroHPC ou Tier 0), nationale (GENCI et les centres nationaux ou Tier 1) et régionale (mésocentres ou Tier 2). Ces ressources sont adaptées aux simulations massives.

— Les ressources de type cloud (par exemple le cloud distribué de France Grilles : FG-Cloud). Ces ressources souples répondent aux besoins de calcul à la demande ou lorsque la maîtrise de l’ensemble du système est nécessaire.

— les ressources de type grille de calcul ou HTC (High Throughput Computing), par exemple l’infrastructure France Grilles ou le Centre de Calcul de l’IN2P3. Ces ressources sont utilisées pour faire du traitement massif de données.

Elles sont décrites dans la sectionInfrastructuresde ce guide. Le choix du type d’infrastructures adapté au besoin n’est pas forcément trivial. Il est souvent plus pertinent de s’adresser à des spécialistes qui sauront vous orienter. En général, les mésocentres de calcul, grâce à leur proximité et à leur connaissance du domaine, sont de bons conseils. Une liste est disponible sur lesite du réseau Calcul.

Dans le document Guide de bonnes pratiques sur la gestion des données de la Recherche (Page 45-51)