• Aucun résultat trouvé

Outils pour l’analyse des données

Il existe de très nombreux outils permettant d’analyser ses données, allant du langage de programmation au workflow de traitement en passant par les logiciels de visualisation.

5.2.1 Langages de programmation

Certains langages de programmation sont plus particulièrement utilisés pour l’analyse de données. En dehors du lan- gage R spécifique aux statistiques et à la science des données, l’écosystème s’enrichit très rapidement :

— Python devient de plus en plus utilisé en science des données. Une introduction sur le sujet a été réalisée en décembre 2017 par Francis Wolinski (Société Yotta Conseil) dans le cadre d’une journée organisée par le réseau Calcul.

Présentation et illustration de l’écosystème Python pour la data science

Francis Wolinski (Société Yotta Conseil) Journée Python et Data Science IRMAR Rennes - 2017

— Juliaest un des langages qui prend de l’importance sur ce sujet. Plusieurs présentations, lors d’unejournée d’introduction au langageorganisée par le réseau Calcul en janvier 2019, apportent un éclairage intéressant, en particulier le cadre des algorithmes Map/Reduce, ainsi que les performances du langage sous forme de benchmarks.

Map/Reduce operations for scientific computing in Julia Xavier Vasseur (ISAE-SUPAERO)Journée Julia - Lyon 2019

Julia : benchmark et bonnes pratiques

Benoît Fabrèges (Institut Camille Jordan, Lyon)Journée Julia - Lyon 2019

Des retours d’expérience illustrent l’utilisation de ces outils.

Concernant les outils Python, l’utilisation de Dask à la place de job array a été présentée lors des JCAD 2019 par Guillaume Eynard-Bontemps, CNES. Dask est une bibliothèque parallèle Python qui facilite l’exécution massive de calculs sur des données distribuées.

Simulation paramétrique : Passez d’un job array à Dask Guillaume Eynard-Bontemps (CNES),JCAD 2019, Toulouse.

Guide de Bonnes Pratiques sur la gestion des données de la Recherche

5.2.2 Approches méthodologiques

L’analyse des données ne concerne pas uniquement les modèles statistiques. De nombreux domaines appliqués re- posent sur l’analyse de données géométriques : médecine, neurosciences, sismique, météorologie, vision par ordina- teur, apprentissage statistique. Cette variété d’applications se retrouve dans la forme, la qualité et la sémantique des données ainsi que dans la nature des problèmes mathématiques qu’elles posent. Uneécole thématique a été consacrée à ce sujet en 2018, à destination des non spécialistes. Elle l’a abordé sous plusieurs angles :

— Analyse topologique de données, — Anatomie computationnelle,

— Méthode d’évolution de front et fast marching, — Méthodes variationnelles pour l’imagerie

Outre les présentations, de nombreux exercices encadrés ont été proposés avec la mise en œuvre pratique des algo- rithmes, dans le langage Python.

Un des enjeux de l’analyse de volumes de données de grandes tailles, multidimensionnelles concerne les méthodes de réduction de la dimension (classiques comme ACP, AFC, MDS, . . . ) ou issues du « machine learning » (kernel PCA, . . . ). Cette approche a été abordée lors d’uneécole thématique qui a eu lieu en 2017. Cette formation, nécessitant des connaissances de base en calcul matriciel, a permis d’approfondir certaines des techniques matricielles (recherche de valeurs propres, décomposition en valeurs singulières), sur le plan à la fois théorique et pratique.

On peut trouver un exemple d’utilisation concrète de ce type de technique présenté lors des JCAD 2018 par Alain Franc, INRA, appliqué à la biologie.

L’exploration de la diversité des protistes : l’apport du calcul intensif

J.-M. Frigerio, P. Chaumeil, F. Rué, S. Thérond, V. Louvet, O.Coulaud & A. FrancJCAD 2018 - Lyon

De façon un peu générale, toutes ces approches conduisent ou sont la base de certains pans de l’Intelligence Artificielle. De plus en plus d’évènements sont consacrés à ces technologies.

Une introduction sur cette thématique a été réalisée en 2018 dans le cadre des « Journées Système » du réseau ResInfo.

Intelligence artificielle : une longue histoire . . . et demain ?

Pierre Gançarski (Université de Strasbourg)Josy Intelligence Artificielle - Strasbourg 2018

De même, le réseau SARI grenoblois a organisé une journée sur le sujet, avec une présentation de Jean-Luc Parouty particulièrement didactique.

AI Machine Learning & Deep Learning Jean-Luc Parouty (SIMAP)Séminaire SARI 2019

Compte tenu de l’engouement engendré autour de l’IA, de nombreuses journées et conférences sont organisées sur le sujet. En particulier, il fait l’objet de sessions spéciales lors des Journées Développement (Jdev) de2020et2017.

5.2.3 Visualisation des données numériques

Un des outils d’analyse les plus utilisés est la visualisation des données. Cependant cette visualisation peut s’avérer particulièrement délicate dans le cadre de très gros volumes de données, et nécessite de s’appuyer sur des solutions techniques spécifiques.

Dans le domaine des données numériques, plusieurs bibliothèques sont particulièrement adaptées aux données de grande taille, ainsi qu’à la visualisation in situ, c’est-à-dire en cours de calcul en ce qui concerne les données de simulation :VisItetParaView. Plusieurs interventions sur ce sujet ont été réalisées dans le cadre d’unejournée dédiée organisée en 2017 par le réseau Calcul.

De même, uneaction de formationa été complètement consacrée à ce sujet en 2016 par le réseau Calcul. Elle a en par- ticulier abordé les bonnes pratiques concernant la production de données : formats d’archivage, technique d’analyse, cycle de vie ainsi que les outils de visualisation avancés (visualisation in situ, temps réel, web).

La visualisation des données est également au coeur des problématiques des utilisateurs du calcul intensif. Le projet européen PRACE sur le calcul intensif propose des formations spécifiques, en particulier sur les outils de lavisualisa- tion scientifique.

5.3 Mettre en place des méthodes d’analyse et des chaînes logi-