• Aucun résultat trouvé

PLATES-FORMES UNIVERSITAIRES DE DONNÉES

2.8. INSTITUT DES SCIENCES DE L’UNIVERS ( INSU )

2.8.3. Conclusions et éléments de réflexion

De nouvelles découvertes scientifiques en sciences de l’Univers, ainsi que de grands enjeux sociaux et économiques ( p. ex. changement climatique, aléas naturels et environnementaux, ressources énergétiques et développement durable ) requièrent une grande diversité de données dont les résolutions intègrent un très large spectre d’échelles ( temps, espace, fréquence ), ainsi que des méthodes d’analyse et de modélisation pour en extraire et intégrer de nouvelles informations sur la formation des structures et l’évolution des systèmes Terre-planètes-univers, ainsi que leurs événements transitoires et extrêmes.

Avec les nouvelles générations d’instruments et de systèmes d’observation ( sol, air, mer, spatial ), et de simulations numériques, les flux de données explosent aujourd’hui à la fois dans des edge-environments, globalement distribués, et des environnements centralisés ( HPC, Cloud ). Ce changement de paradigme constitue un défi pour la logistique des données tout au long de workflows qui traversent la diversité de ces systèmes d’acquisition, et un continuum de bandes passantes et de plateformes technologiques.

Un enjeu concomitant, commun à ces deux environnements, est la réduction « intelligente » des données en continu au cours de leur transport.

La stratégie à suivre est incertaine dans un paysage national ( enseignement-recherche, infrastructures ) et européen ( EOSC : European Open Science Cloud ) et des technologies en pleine évolution. Elle tend à se formuler comme la co-conception d’un instrument scientifique, pilotée par la logistique des données et les caractéristiques des workflows, qui au travers d’un modèle d’architecture de type sablier ( c.-à-d. hourglass architecture ) permettrait d’accommoder la grande diversité de ces workflows et de leurs implémentations. Avec l’idée, qu’au centre de ce modèle, une interface commune ou spanning layer, peut être étroitement conçue et implantée afin d’abstraire ces workflows et leur flux de données et les instancier ( via des technologies de virtualisation ) au travers d’une variété croissante et des configurations complexes de ressources ( stockage, calcul, communication ), de plateformes technologiques et d’environnements comprenant en particulier :

• Edge-infrastructures qui, via une diversité croissante

de edge-technologies ( p. ex. cache, buffer, stockage, calcul, communication ), permettent de traiter, agréger, réduire les flux ( volumes, vitesses ) de données générées par les nouveaux grands instruments et systèmes d’observation, de plus en plus complexes ( multi-capteurs, multifréquences ), ainsi que de piloter leurs systèmes d’acquisition ( antenne, optique ), au plus proche et dans des environnements reculés.

• Plateformes de services, de calcul et d’analyse de

données qui fédèrent et mutualisent des services flexibles de stockage, de calcul ( HTC, HPC ), de communication et de logiciel permettant des flux de traitement proches des vitesses d’accès aux données. Ces infrastructures de type edge-computing supportent des utilisateurs et des applications multiples ( p. ex. le service labellisé Terapix à l’IAP pour l’exploitation des données MegaCAM du CFHT ou encore l’ARC node ALMA à l’IRAM pour la réduction des données de l’interféromètre millimétrique ALMA de l’ESO ) dans un environnement collaboratif, réactif et résilient qui intègre des éléments de HPC et HDA avec des services Cloud de traitement en flux, des technologies de virtualisation ( conteneurs ) et d’exécution adaptés au Big Data ( p. ex. Spark, Storm ). Adossées à des OSU ou fédérations de recherche, elles peuvent être fédérées ( p. ex., ESGF ).

• Plateformes centralisées ( HPC ) qui concentrent

des ressources de très haute performance, et par définition rares, dont l’utilisation est maximisée pour servir des communautés multiples. Si l’optimisation des applications en sciences de l’Univers pour l’exploitation des nouvelles architectures hybrides et massivement parallèles demeure un enjeu important, ces applications ( ensembles de simulations numériques, inférence/inversion, assimilation de données ), ainsi que l’utilisation croissante de méthodes type « apprentissage machine », requièrent une convergence toujours plus fine entre HPC et HDA, avec de meilleurs support et interopérabilité de leurs modèles d’exploitation ( batch et streaming processing ), des technologies de virtualisation, ainsi qu’une gestion des ressources avec des systèmes centralisés intelligents, pilotés par la provenance des flux de données, permettant le contrôle de workflows complexes. L’ingestion d’énormes flux de données, depuis la périphérie, reste un enjeu qui défie leurs capacités.

• Plateformes d’archivages, curation et distribution des données. Ces plateformes, adossées aux OSU,

fédèrent et mutualisent les ressources, services et expertises pour le stockage, la curation et la mise à disposition d’une grande diversité de données ( tels que événements, objets, images, séries temporelles ), dont le cycle de vie en sciences de l’Univers est bien plus long que la durée de vie des instruments et systèmes d’observation. Les volumes et la diversité de ces données impliquent des capacités croissantes de calcul pour leur traitement et leur curation.

Le mouvement des données et des informations a un coût d’autant plus important que ces transferts doivent être rapides et traverser des frontières : d’un site à l’autre, d’un système HPC vers des plateformes d’analyse au sein d’un même site, entre nœuds d’un même système, d’un système de stockage à un autre.

Un enjeu commun est l’efficience énergétique, la réduction des coûts de fonctionnement et la durabilité, ce qui passe entre autres par ( i ) utiliser des plateformes ( HPC, calcul et analyse ) adaptées à chacune des étapes de ces workflows, ( ii ) éviter des répétitions inutiles de transferts ( caching/bufferisation ) et réduire leurs vitesses ( pre-fetching ) et leurs volumes ( compression ), ( iii ) réduire les distances et mutualiser les environnements d’hébergement ( colocalisation des plateformes HPC et des services d’analyse, des plateformes d’archivage et de curation de données et

des plateformes de calcul et d’analyse ), ( iv ) faciliter la réutilisation des calculs et des données au sein et entre domaines ( observations et résultats de simulations, métadonnées, catalogues ).

L’organisation territoriale de l’INSU, structurée autour des OSU et les ANO, permet de répondre aux points soulevés précédemment : ( i ) centraliser logiquement l’accès et l’utilisation de données, via les observatoires virtuels et les pôles de données associant plateformes de services et fédération de plateformes d’archivage et de curation de données, en liaison avec d’autres organismes ( CNES, Ifremer, Météo-France, CEA… ), ( ii ) rapprocher plateformes d’archivage et de curation de données, plateformes de calcul et d’analyse et centres nationaux ( CC-IN2P3, IDRIS ) et mésocentres régionaux ( Gricad, Calmip… ), ( iii ) rapprocher plateformes HPC et services d’analyse dans le cadre de GENCI ( p. ex. IDRIS, TGCC, CINES ), ( iv ) faciliter l’accès sécurisé, le partage, l’exploitation de résultats de simulations et d’observations par une large communauté ( p. ex. CLIMERI, IPGP ).

Un autre aspect concerne les très grands instruments et systèmes d’observation ( sol, air, mer, spatial ) portés par des projets et des organisations internationaux. Dans ce cadre, explorer avec d’autres instituts du CNRS ( p. ex. IN2P3 ) et organismes ( CNES, CEA… ), les niveaux de fédération et de mutualisation possibles des plateformes scientifiques et d’archivage en leur sein ( Euclid, Gaia… ) et entre ces projets ( CTA, SKA… ) est un nouvel enjeu.

Une telle stratégie doit être en phase avec les pratiques et les applications scientifiques. Elle s’accompagne d’enjeux procéduraux et humains, associés à l’organisation et la mutualisation des expertises scientifiques, méthodologiques et technologiques, nécessaires pour le stewardship des données et des plateformes de ressources et de services dans ce nouveau contexte. Elle implique également une évolution des politiques d’accès, d’utilisation et d’exploitation des centres nationaux et régionaux qui doivent offrir les services nécessaires à ces environnements data-centric.

Il y a des limites à ce qui peut en être obtenu en sciences de l’Univers où les efforts d’observation sont fondamentalement globalement distribués, internationalement structurés et financés par différents projets et organisations.

Par exemple, les instituts de recherche en charge de services de réponse rapide, de surveillance et d’évaluation d’aléas naturels, ainsi que les grandes universités de recherche, ont besoin de démontrer des ressources qui leur permettent d’attirer des chercheurs et des ingénieurs de premier plan, ainsi que des contrats et des financements. Il y a donc des pressions pour maintenir la visibilité et une diversité de ressources indépendantes. Une stratégie recouvrant des ressources autonomes doit minimiser les coûts tout en respectant ces problèmes organisationnels et sociologiques.

Pour relever ces nouveaux défis, le dispositif des OSU, ANO et SNO, ainsi que les expertises scientifiques, méthodologiques et technologiques qu’il fédère et mutualise, constitue un atout original majeur. Ces expertises, de plus en plus interdisciplinaires, doivent évoluer en phase avec les technologies de plus en plus complexes des grands instruments et des systèmes d’observation, de la logistique des données, de nouvelles méthodes et technologies de calcul et d’analyse de données. Les communautés de l’INSU collaborent aujourd’hui activement, à l’échelle nationale et internationale, avec d’autres disciplines ( sciences des données, mathématiques appliquées, statistiques, physique des particules et physique statistique,

écologie, biologie, santé, recherche informatique ) et avec les fournisseurs et les développeurs d’infrastructures de communication, de calcul et de données. Ces collaborations sont favorisées au sein du CNRS par la Mission pour l’Interdisciplinarité et se traduisent aux niveaux national et européen par de nombreux projets ANR et H2020. Les communautés de l’INSU contribuent également activement à des ONG en lien avec les données ( p. ex. RDA, GEO/GEOSS, Belmont Forum ).

En comparaison avec les pratiques internationales ( p. ex. aux Etats-Unis ) où le développement de codes et de bibliothèques ( traitement, analyse ) communautaires est structuré sous forme de projets depuis plus d’une dizaine d’années, avec un support ingénieur important et spécialisé, il reste des efforts importants à accomplir et à reconnaître aux niveaux national et européen. Un enjeu concomitant et important reste encore aujourd’hui une meilleure reconnaissance de ces expertises scientifiques, méthodologiques et technologiques, souvent interdisciplinaires, et des nouvelles tâches d’observation, au niveau des recrutements et des promotions des personnels chercheurs, astronomes et physiciens du CNAP23,

ingénieurs et techniciens.

23 http://www.cnap.obspm.fr/