Contribution `a la simulation haute-performance et aux m´ethodes de calcul tr`es extensibles Contribution to high performance simulation
and highly scalable numerical scheme
R´esum´e en vue du diplˆome d’Habilitation `a diriger les Recherches Guillaume Latu
September 12, 2017
Resum´e
De nombreux domaines scientifiques expriment un besoin de calcul haute-performance (HPC) qui s’est in- tensifi´e durant ces derni`eres d´ecennies. Dans le mˆeme temps, la taille des super-calculateurs disponibles `a la communaut´e acad´emique n’a cess´e de croˆıtre. L’augmentation de la puissance de calcul et le d´eveloppement des outils algorithmiques et m´ethodologiques se sont combin´es pour faire de la simulation num´erique une dis- cipline `a part enti`ere. Bien que toujours en pleine ´evolution, les technologies des machines mono-processeurs sont insuffisantes. Le parall´elisme est une solution naturelle pour pallier aux besoins des applications de simulation HPC. Ainsi, le d´eveloppement de m´ethodes et de solutions parall`eles logicielles et mat´erielles est devenu un axe de recherche de premi`ere importance. Bien que de nombreux domaines b´en´eficient des retomb´ees des innovations en simulation num´erique, cette discipline est `a la fronti`ere de nombreux domaines et par cons´equent peu structur´ee et insuffisamment identifi´ee.
A ses d´ebuts, la simulation num´erique avait principalement pour objet de r´eduire les coˆuts et les d´elais, en suppl´eant `a des exp´eriences dont la mod´elisation ´etait bien maˆıtris´ee. Dans une deuxi`eme ´etape, elle a contribu´e `a l’innovation technique, en permettant de prendre en compte des mod`eles physiques de plus en plus complets et d’acc´eder `a des informations difficiles `a obtenir par des mesures. Aujourd’hui, elle aide
´egalement `a l’´elaboration de nouveaux mod`eles physiques, par exemple en int´egrant par le calcul les effets combin´es de ph´enom`enes simples. De nombreux projets scientifiques et techniques sont d´evelopp´es dans le cadre d’une d´emarche collaborative entre th´eorie, simulation et exp´erimentation (c’est par exemple le cas au CEA). La confrontation de la simulation versus l’exp´erimentation peut conduire `a une remise en cause aussi bien du mod`ele physique que des m´ethodes num´eriques. Il est aussi possible de mettre au point par le calcul certains dispositifs ou exp´eriences num´eriques sans proc´eder `a des exp´eriences globales en vraie grandeur dont les coˆuts sont souvent prohibitifs.
C’est dans un tel cadre, en interaction avec plusieurs domaines scientifiques, que j’ai r´ealis´e une grande partie de mes travaux de recherche. Mes contributions portent sur l’am´elioration des m´ethodes de calcul du point de vue de la parall´elisation, sur la mise en place d’optimisation pour des machines sp´ecifiques, mais aussi sur le perfectionnement de sch´emas num´eriques. Dans les diff´erents codes de simulation sur lesquels je suis intervenu, il a fallu adapter ou r´enover des sch´emas de calcul en vue d’une ex´ecution efficace sur des machines ayant un grand nombre de cœurs. Mes apports contribuent sur toute la chaˆıne allant de la mod´elisation `a l’impl´ementation performante sur de larges supercalculateurs. Les ´etudes que j’ai men´ees ont ´et´e faites en interaction ´etroite avec les concepteurs des codes de simulation afin que les apports soient effectifs et utilisables en production. Cela n’aurait pas ´et´e possible sans des efforts mutuels de compr´ehension et d’adaptation avec mes collaborateurs physiciens, math´ematiciens, et informaticiens.
1
Le document comporte trois parties et une conclusion. Bien que mes travaux scientifiques ne portent pas uniquement surGysela, j’ai choisi ici de focaliser une grand partie du document sur cette application afin de simplifier la mise en contexte. La premi`ere partie porte sur diff´erentes ´etudes r´ealis´ees pour exploiter au mieux les supercalculateurs d’aujourd’hui. Apr`es une courte description de la probl´ematique physique de Gysela, les m´ethodes num´eriques sont d´ecrites, puis j’aborde les am´eliorations qui ont permis d’exploiter les plus gros calculateurs acad´emiques europ´eens. A ses d´ebuts, le codeGyselatraitait l’´equation de Vlasov gyrocin´etique coupl´ee `a un solveur de Poisson sans op´erateur suppl´ementaire. Il s’agissait d’une ´equation de Vlasov 5D en g´eom´etrie cylindrique avec (r, θ, ϕ) les variables d’espaces et (vk, µ) les variables de vitesse.
La m´ethode semi-Lagrangienne fut choisie pour r´esoudre Vlasov. A l’´epoque, ce choix ´etait original car il se distingue des approches Eul´eriennes et Lagrangiennes habituellement utilis´ees dans ce type de code. Ce sont les collaborations entre plusieurs ´equipes INRIA, le LPMIA `a Nancy et le CEA IRFM qui ont clairement aiguill´e ce choix. Depuis 2005, par ´etapes successives, les principaux goulots d’´etranglement num´eriques ont
´et´e r´esorb´es et l’extensibilit´e sur les plus grandes machines parall`eles accessibles a ´et´e consolid´ee. En 2006, la version r´eduite 4D du code r´ealisait de bonnes performances sur 128 processeurs. La d´efinition de la m´ethode des splines locales [9, 14, 34] a permis d’avancer sur la scalabilit´e parall`ele tout en pr´eservant la qualit´e num´erique dans plusieurs applications dont Gysela. En 2007, grˆace `a une parall´elisation MPI+OpenMP adapt´ee, c’est une efficacit´e relative de 82% sur 4096 cœurs que j’obtenais pour un Strong Scaling d’un casGysela5D cylindrique sur une machine BULL/INTEL itanium2. Plus r´ecemment, ces splines ont ´et´e concurrenc´ees par des interpolateurs de Lagrange de degr´e ´elev´e [75] qui sont utilis´es `a l’heure actuelle dans les simulations. En 2010, c’est un Grand Challenge1sur une machine SGI (18`eme rang mondial2) au centre de calcul CINES qui permettait d’atteindre 81% d’efficacit´e relative sur 8192 cœurs. D’autre part, une simulation proche des param`etres adimensionnels du Tokamak ITER ´etait r´ealis´ee, utilisant 272 milliards de points de grille dans l’espace `a 5 dimensions. La version du code int´egrait alors de nombreuses nouveaut´es en terme de physique (source de chaleur, collisionalit´e, g´eom´etrie torique). Une source de puissance de 60MW for¸cait le plasma hors ´equilibre thermodynamique, g´en´erant de la turbulence et de l’auto-organisation que nous avons pu suivre pendant 1 ms. Cette simulation n´ecessita 6.1 millions d’heures CPU, soit 31 jours sur 8192 cœurs. En introduisant deux nouvelles d´ecompositions de domaine et des algorithmes parall`eles suppl´ementaires, il a ´et´e possible de r´eduire globalement le volume des communications en sortie du solveur de Poisson. Ce frein majeur `a l’extensibilit´e au-del`a de 8k cœurs a alors ´et´e repouss´e jusqu’au-del`a des 65k cœurs [25, 28, 85, 86]. Ensuite, un obstacle diff´erent pour r´ealiser de gros cas physiques fut que la scalabilit´e m´emoire n’´etait pas excellente. Lorsque l’on doublait le nombre de cœurs pour un cas donn´e, l’empreinte m´emoire ´etait loin d’ˆetre divis´ee par deux. En introduisant des algorithmes plus complexes, en ajoutant des communications, il a ´et´e possible de rendre les coˆuts m´emoires associ´es aux structures 3D, extensibles en fonction du nombre de cœurs. En 2013, la scalabilit´e m´emoire a ´et´e nettement am´elior´ee [4, 25, 21, 28, 77].
L’adaptation `a la machine IBM BlueGene/Q a conduit `a repousser les limites d’extensibilit´e. Avec 91%
d’efficacit´e relative sur 458752 cœurs (Weak scaling) sur la quasi-totalit´e du super-calculateur Blue Gene Juqueen (Juelich, Allemagne),Gyselaest membre du Hi-Q club (Highest Scaling Codes on JUQUEEN) qui a ´et´e cr´e´e pour promouvoir le d´eveloppement du calcul pour l’exascale. Des travaux sur la reproductibilit´e et visant `a am´eliorer la validation et la robustesse du code ont ´et´e men´es [18]. L’optimisation des proc´edures de checkpoint-restart et mise en œuvre d’´ecritures asynchrones sur le syst`eme de fichier parall`ele furent l’objet d’´etudes [24, 25, 73]. Grˆace `a sa tr`es bonne scalabilit´e et sa portabilit´e (le code est d´eploy´e sur une dizaine de calculateurs en permanence), Gysela utilise fr´equemment de 8k `a 32k cœurs. De plus, une simulation s’´etale souvent sur plusieurs semaines. La consommation annuelle de temps de calcul ne cesse d’augmenter et elle est rendu `a plus de 110 millions d’heures mono-processeur par an (chiffres pour 2016).
R´ecemment, pour utiliser au mieux les derni`eres architectures INTEL et IBM, j’ai ´et´e amen´e `a optimiser plusieurs parties du code afin que plusieurs threads puissent s’ex´ecuter sur chaque cœur de calcul. Bien que Gyselasoit tr`es ´equilibr´e en terme de r´epartition des calculs entre les unit´es d’ex´ecution, il semblerait que les ressources de calcul soient moins homog`enes qu’auparavant, et cela `a cause d’une concurrence sur les ressources : du partage des caches entre cœurs, du partage d’unit´es de calcul par les threads qui s’ex´ecutent sur un mˆeme cœur, des ph´enom`enes NUMA [17]. Ceci implique qu’il faudra prochainement r´eviser la structure du code pour s’adapter `a ces changements, la programmation par tˆache est une voie que j’examine actuellement. D’autre part, les synchronisations li´ees la gestion du parall´elisme (mod`ele BSP) p`esent de plus en plus lourd sur des larges plate-formes et l’approche par tˆache devrait aussi rem´edier en partie au
1https://www.cines.fr/wp-content/uploads/2014/02/GazetteGD2010.pdf
2https://www.top500.org/system/176897
2
probl`eme. Quoi qu’il en soit, les codes gyrocin´etiques sont de bons candidats pour tester, d`es leur apparition, les puissances de calcul exaflopiques. En outre, l’op´erateur de gyromoyenne est un ´el´ement central de la th´eorie gyrocin´etique et repr´esente un coˆut non n´egligeable dansGysela. Il est primordial pour le passage
`a l’´echelle sur les prochaines g´en´erations de machines que la gyromoyenne soit scalable. Plusieurs travaux avec de multiples collaborateurs ont conduit `a de larges progr`es sur l’exactitude et la rapidit´e de calcul de cet op´erateur [5,16,74,77], le recouvrement des communications par les calculs en est un ingr´edient essentiel.
Accompagnant les efforts de parall´elisation, j’ai aussi contribu´e aux m´ethodes num´eriques dans plusieurs applications `a la fois afin d’am´eliorer la pr´ecision ou le r´ealisme des simulations, mais aussi pour acc´el´erer les calculs. Dans une deuxi`eme partie, je r´esume des travaux en lien plus ´etroit avec le domaine des math´ematiques appliqu´es. La mise en place de cas tests sp´ecifiques au sein de Gysela et l’adaptation de certaines m´ethodes num´eriques dans les solveurs de Vlasov et Poisson permettent de mieux pr´eserver certains invariants et am´eliorent la pr´ecision du code [7,83]. Incidemment, j’ai contribu´e `a la mise en place d’une plate-forme d’int´egration continue afin d’assurer des tests syst´ematiques conduisant `a une meilleure robustesse du code pour les utilisateurs [18]. Une s´erie d’´etudes amonts ont permis d’´etablir que l’on peut tirer parti de l’alignement des structures physiques autour des lignes de champs magn´etiques pour r´eduire le nombre de points de maillage n´ecessaire dans la direction parall`ele `a ces lignes de champs. J’ai mis en œuvre une nouvelle m´ethode num´erique avec interpolation align´ee dans Gysela en collaboration ´etroite avec les concepteurs de la biblioth`eque Selalib (con¸cue par des math´ematiciens). Cela ´economise effective- ment un grand nombre de points de maillage et r´eduit ainsi le coˆut des simulations [1, 79]. Une hypoth`ese avait ´et´e prise initialement dans le codeGyselaconcernant la g´eom´etrie du plan polo¨ıdal (plan transverse aux lignes de champs) : le syst`eme de coordonn´ee polaire fut choisi pour repr´esenter un plasma circulaire.
Cela convenait il y a quelques ann´ees pour mod´eliser le Tokamak Tore Supra de l’IRFM. Ce n’est plus le cas actuellement, les Tokamaks actuel ont une g´eom´etrie plus sophistiqu´ee: avec point-X, double point-X, snowflake. D’autre part, Gysela a longtemps pris comme hypoth`ese simplificatrice (pour une meilleure robustesse des m´ethodes num´eriques) de l’existence d’un trou central dans le plan polo¨ıdal autour du point r = 0 (axe magn´etique). Des avanc´ees ont conduit `a une bien meilleure mod´elisation du plan polo¨ıdal et am´eliore le r´ealisme des simulations, le trou central a ajourd’hui disparu de la plupart des simulations [26,75].
De plus, des m´ethodes permettant de mod´eliser des plasmas non-circulaires sont en cours d’´evaluation.
La troisi`eme partie du document se focalise sur des travaux de mise au point d’algorithmes parall`eles et de mise en œuvre de techniques d’optimisation d´edi´ees aux nouvelles architectures. Une solution parall`ele pour l’exploitation p´etroli`ere a ´et´e mise au point sur cluster de GPUs (m´ethodes de type RTM -Reverse Time Migration). Les motifs d’acc`es m´emoire et la gestion des communications CPU-GPU et MPI sont partic- uli`erement importants, ils constituent des goulots d’´etranglement [8,30,81]. N´eanmoins, les acc´el´erations sont substantielles des GPUs par rapport aux architectures classiques pour cette application. Mais l’adaptation du code initial et la maintenance de plusieurs versions (versions CPU et GPU) repr´esentent un coˆut en ressources humaines que l’on ne peut n´egliger. Par ailleurs, un mod`ele Vlasov-Poisson a fait l’objet d’une
´etude sur une seule carte GPGPU. L’organisation des acc`es m´emoire et la mise au point d’algorithmes `a grain tr`es fin sont primordiaux pour extraire de la performance de ce dispositif de calcul [29]. La refonte du code initial fut in´evitable. De ces exp´eriences, on d´eduit qu’envisager une solution utilisant du GPU dans une ap- plication de la mˆeme taille queGyselan´ecessiterait une r´e´ecriture en profondeur. Il est difficile d’envisager autre chose qu’une impl´ementation d´edi´ee. J’ai r´ealis´e des travaux d’optimisation de certains noyaux deGy- selasur le coprocesseur Intel KNC apparu en 2012 (appel´e aussi Xeon Phi). Une probl´ematique majeure est ici de vectoriser ad´equatement, car c’est une conditionsine qua non pour obtenir des temps d’ex´ecution r´eduits. Certains noyaux memory-bound et compute-bound ont pu ˆetre acc´el´er´es par un facteur deux sur le coprocesseur par rapport `a l’architecture INTEL Sandy Bridge [19]. L`a encore, les motifs d’acc`es `a la m´emoire repr´esentent une vraie gageure [2], bien plus que sur une architecture classique, ainsi que la gestion fine de la localit´e des donn´ees en cache. A cause de nombreuses difficult´es, il est malais´e d’atteindre de bons niveaux de performance dans un grand nombre de routines d’une application de production tel queGysela.
Plus r´ecemment, l’apparition de plateformes de production utilisant des processeurs Intel KNL, ´evolution des KNC, ont modifi´e le paysage du HPC. Ces dispositifs de calcul sont `a la fois proches des architectures traditionnelles (ils n’ont pas besoin de machines hˆotes comme les GPU et KNC), avec toutefois des perfor- mances crˆetes plus importantes et un rendement ´energ´etique int´eressant. Des techniques d’auto-tuning ont permis de relever certains des d´efis pos´es par ces machines [76].
Une derni`ere partie donne une conclusion des travaux r´ealis´es et esquisse certains des projets de recherche que je pr´evois pour les ann´ees `a venir. Un des probl`emes constant qui se pr´esente au d´eveloppeur d’application
3
parall`ele est de trouver un compromis entre efficacit´e, portabilit´e et lisibilit´e du code. Les complexit´es du mat´eriel, des applications et la difficult´e `a choisir un mod`ele de programmation induisent des soucis suppl´ementaires. Mon but est d’aiderGysela`a surmonter ces obstacles et `a rapidement ˆetre en mesure de r´ealiser des simulations sur une machine Exascale.
Abstract
Numerous scientific domains express a need for high-performance computing (HPC), which has intensified in recent decades. At the same time, the size of supercomputers available to the academic community has grown steadily. The increase in computational power and the development of algorithmic and methodological tools have combined to make numerical simulation a discipline in its own right. While still evolving, the technologies of single-processor machines are insufficient. Parallelism is a natural solution to meet the needs of HPC simulation applications. Thus, the development of parallel software and hardware methods and solutions has become a major focus of academic and industrial research. Although many domains benefit from the spin-offs of numerical simulation innovations, this field is at the crossroads of many domains and therefore not very structured and insufficiently identified.
In its early stages, numerical simulation was mainly aimed at reducing costs and delays, supplementing experiments whose modeling was well controlled. In a second step, it has contributed to technical innovation, allowing to take into account increasingly complete physical models and to access information that is difficult to obtain by measurements. Today, it also helps to develop new physical models, for example by integrating the combined effects of simple phenomena by calculation. Many scientific and technical projects are developed within the framework of a collaborative approach between theory, simulation and experimentation (for example, CEA, my company, implements this approach). The comparison of the simulation versus the experimentation can lead to a questioning of the physical model as well as the numerical methods. It is also possible to develop numerical devices or experiments numerically without carrying out full-scale real-world experiments whose costs are often prohibitive.
It was in this context, in interaction with several scientific fields, that I realized much of my research work. My contributions concern the improvement of computational methods from the point of view of parallelization, the design of optimized algorithms and implementations for specific machines, but also on the upgrade of numerical schemes. In the various simulation codes on which I have been involved, it has been required to adapt or renovate calculation schemes for efficient execution on machines with a large number of cores. My inputs contribute throughout the entire chain, from modeling, to efficient implementation on large supercomputers. The studies I carried out were done in close interaction with the designers of the simulation codes so that the results are effective and usable in production. This would not have been possible without mutual efforts of understanding and adaptation with my collaborators: physicists, mathematicians, and computer scientists.
The document is composed of three parts plus a Section enclosing conclusions and perspectives. Although my scientific work is not limited to Gysela, I chose here to focus a large part of the document on this application in order to simplify the contextual setting. The first part concerns various studies carried out to make the best use of the today’s supercomputers. After a short description of the physical problem in Gysela, the numerical methods are described, and then I discuss the improvements required to exploit the biggest academic calculators in Europe. In its beginnings, theGyselacode treated the Gyrokinetic Vlasov equation coupled to a Poisson solver without any additional operator. This was a 5D-Vlasov equation using cylindrical geometry with (r, θ, ϕ) the space variables and (vk, µ) the velocity variables. The semi-Lagrangian method was chosen to solve Vlasov. At that time, this choice was original because it differs from the Eulerian and Lagrangian approaches that were quite standard for this kind of code. It was the collaborations between several INRIA teams, the LPMIA at Nancy and the CEA IRFM that clearly spurred this choice. Since 2005, the major digital bottlenecks have been cleared step by step and the scalability on the largest accessible parallel machines has been consolidated. In 2006, the reduced 4D version of the code performed well on 128 processors. The definition of the local splines method [9, 14, 34] allowed to enhance the parallel scalability while preserving the numerical quality in a set of applications among whichGysela. In 2007, thanks to an adapted MPI+OpenMP parallelism, it is a relative efficiency of 82% on 4096 cores that I obtained for a strong scaling of a cylindricalGysela-5D case on a BULL/INTEL itanium2 machine. More recently, these splines have been challenged by high-order Lagrange interpolators [75] which are currently used in simulations. In
4
2010, it was a Grand Challenge3on a SGI machine (18th position at top500 list4) at the CINES computing facility that achieved 81 % of relative efficiency on 8192 cores. On the other hand, a simulation close to the non-dimensional parameters of the ITER Tokamak was carried out, using 272 billion grid points in 5- dimensional space. The code version, available then, incorporated many novelties in terms of physics: heat source, collisionality, toroidal geometry. A 60MW power source forced the plasma out of thermodynamic equilibrium, generating turbulence and self-organization that we could follow during 1 ms. This simulation required 6.1 million CPU hours, which was performed during 31 days on 8192 cores. By introducing two new domain decompositions and additional parallel algorithms, it has been possible to globally reduce the volume of communications within and at the end of the Poisson solver. The major issue for achieving good scalability beyond 8k was then pushed back beyond 65k cores [25, 28, 85, 86]. Then, a different bottleneck to perform big physical cases was that the memory scalability was not excellent. When doubling the number of cores for a given case, the memory footprint was far from halved. Many very large physical cases were impossible to run because of memory exhaust. By introducing more complex algorithms, by adding communications, it has been possible to make the memory costs associated with the 3D structures, scalable along with the number of cores. In 2013, the memory scalability was significantly improved [4, 25, 21, 28, 77]. The adaptation to the IBM BlueGene/Q machine has also led to extending the scalability limits. Gysela is a member of the Hi-Q club (Highest Scaling Codes on JUQUEEN) with 91% relative efficiency on 458 752 cores (Weak scaling) on the whole super-calculator Blue Gene Juqueen (Juelich, Germany). Works to get better reproducibility and to improve the validation and robustness of the code have been conducted [18].
The optimization of the checkpoint-restart procedures and the implementation of asynchronous writes on the parallel file system were studied [24, 25,73]. Thanks to its very good scalability and its portability (the code is deployed on ten computers permanently), Gysela frequently uses 8k to 32k cores. In addition, a simulation often takes several weeks. The annual consumption of computing time is steadily increasing and is currently over 110 million mono-processor hours per year (figures for 2016). Recently, in order to make the best use of the latest INTEL and IBM architectures, I was able to optimize several parts of the code so that several threads could be executed on each computing core. AlthoughGyselais very balanced in terms of distributing calculations between execution units, it seems that computing resources are less homogeneous than before, due to competition over resources: caches, sharing of computational units by the threads running on the same core, NUMA effects [17]. This implies that the structure of the code will have to be revised in the near future to adapt to these changes. Task-based programming is a way that I am currently investigating. Also, synchronizations induced by the management of parallelism (BSP model) weigh more and more on large platforms and the task-based approach should partially remedy the problem.
In any case, the gyrokinetic codes are good candidates to test, as soon as they appear, the exaflopic machines.
Moreover, the gyroaverage operator is a cornerstone of the gyrokinetic theory and represents a significant cost in Gysela. It is essential to adapt the code to the next generations of machines that the gyroaverage is scalable. Several works with multiple collaborators have led to great progress on the accuracy and speed of calculation of this operator [5,16,74,77], overlaping communications by calculations is a key component.
Along with the efforts for achieving good parallelization, I also contributed to the numerical methods in several applications to improve the precision or the realism of the simulations, but also to accelerate the calculations. In a second part of the document, I summarize works in closer connection with the field of applied mathematics. The implementation of specific test cases within Gysela and the adaptation of numerical methods in the Vlasov and Poisson solvers make it possible to better preserve certain invariants and improve the precision of the code [7, 83]. Incidentally, I contributed to the implementation of a continuous integration platform to ensure systematic tests leading to better code robustness for users [18]. A series of theoretical studies have established that the alignment of physical structures around the magnetic field lines can be used to reduce the number of mesh points necessary in the direction which is parallel to the field lines.
I implemented a new numerical method with aligned interpolation for Gyselain close collaboration with the designers of the Selalib library (designed by Mathematicians). This effectively saves a lot of meshing points and thus reduces the cost of simulations [1, 79]. A hypothesis was originally made in the Gysela code concerning the geometry of the poloidal plane (plane which is transverse to the field lines): the polar coordinate system was chosen to represent a circular plasma. This was appropriate a few years ago to model the Tokamak Tore Supra of CEA IRFM. This is no longer the case today, the current Tokamaks have a more sophisticated geometry: with X-point, double X-point, snowflake configuration. On the other hand,Gysela
3https://www.cines.fr/wp-content/uploads/2014/02/GazetteGD2010.pdf
4https://www.top500.org/system/176897
5
has long taken as a simplifying hypothesis (for a better robustness of numerical methods) the existence of a central hole in the poloidal plane around the point r = 0 (at magnetic axis). Advances have led to a much better modeling of the poloidal plane and improves the realism of the simulations, the central hole has now disappeared from most simulations [26,75]. In addition, methods for modeling non-circular plasma are being evaluated.
The third part of the paper focuses on work on the development of parallel algorithms and the im- plementation of optimization techniques dedicated to new architectures. A parallel solution for petroleum exploitation was developed on cluster of GPUs (RTM methods - textit Reverse Time Migration). The memory access patterns and the management of CPU-GPU and MPI communications play a major role, they are the main bottlenecks [8, 30, 81]. Nevertheless, speedups are substantial on GPUs compared to the conventional architectures for this application. But the adaptation of the initial code and the maintenance of several versions (CPU cluster + GPU cluster) remain a cost in human resources that can not be neglected.
In addition, a Vlasov-Poisson model, not so far fromGyselaequations, was studied on a single GPU card.
The organization of memory access and the development of very fine-grained algorithms are important to focus on from the performance point of view [29]. The overhaul of the original code was inevitable. From these experiments, we deduce that considering a solution using GPU in an application of the same size as Gyselawould require rewriting the code in depth. It is difficult to foresee anything else than a dedicated im- plementation. I realized some optimization work on some of theGyselacores on the Intel KNC coprocessor that appeared in 2012 (also called Xeon Phi). A major problem here is to adequately vectorize, because it is an essential condition to obtain reduced execution times. Somememory-bound andcompute-bound kernels were accelerated by a factor of two on the coprocessor compared to the INTEL Sandy Bridge [2,19], which was a good result. Again, the access patterns to the memory represent a real challenge, a lot more than for a standard CPU architecture, as well as the fine management of the data locality within the cache. Because of many difficulties, it is not easy to achieve good performance levels in a large number of routines in a production application such asGysela. More recently, the appearance of production platforms using Intel KNL processors, the next generation after KNCs, have changed the landscape of the HPC. These computing devices are quite close to traditional architectures (they do not need a host device as KNC and GPU do), but with higher peak performance and noticeable energy efficiency. Auto-tuning techniques have also helped to address some of the challenges that these machines offer for theGyselacode [76].
The very last part gives a conclusion of the work carried out and outlines some of the research projects I plan for the years to come. One of the constant problems facing the parallel application developer is to find a compromise between efficiency, portability and code readability. The complexities of hardware, of applications and the difficulty to choose a programming model do not help much. My aim is to helpGysela cross over the obstacles and to end up soon running on an Exascale machine.
6
Peer-reviewed works published after PhD
Computer Science and Applied Math. journal papers
[1] G. Latu, M. Mehrenberger, Y. G¨u¸cl¨u, M. Ottaviani, and E. Sonnendr¨ucker. Field-aligned interpolation for semi-Lagrangian gyrokinetic simulations.Journal of Scientific Computing, 2017. Accepted -https:
//hal.archives-ouvertes.fr/hal-01315889.
[2] Y. Asahi, G. Latu, Takuya Ina, Yasuhiro Idomura, V. Grandgirard, and X. Garbet. Optimization of fusion kernels on accelerators with indirect or strided memory access patterns. IEEE Trans. Parallel Distrib. Syst., 28(7):1974–1988, 2017. http://doi.ieeecomputersociety.org/10.1109/TPDS.2016.
2633349.
[3] V. Grandgirard, J. Abiteboul, J. Bigot, Th. Cartier-Michaud, N. Crouseilles, G. Dif-Pradalier, Ch.
Ehrlacher, D. Esteve, X. Garbet, Ph. Ghendrih, G. Latu, M. Mehrenberger, Cl. Norscini, Ch. Passeron, F. Rozar, Y. Sarazin, E., A. Strugarek, and D. Zarzoso. A 5D gyrokinetic full-f global semi-Lagrangian code for flux-driven ion turbulence simulations. Computer Physics Communications, 207:35–68, 2016.
https://doi.org/10.1016/j.cpc.2016.05.007.
[4] F. Rozar, G. Latu, J. Roman, and V. Grandgirard. Toward memory scalability of Gysela code for extreme scale computers. Concurrency and Computation: Practice and Experience, 27(4):994–1009, 2015. https://doi.org/10.1002/cpe.3429.
[5] C. Steiner, M. Mehrenberger, N. Crouseilles, V. Grandgirard, G. Latu, and F. Rozar. Gyroaver- age operator for a polar mesh. Eur. Phys. J. D, 69(1):18, 2015. https://doi.org/10.1140/epjd/
e2014-50211-7.
[6] N. Crouseilles, M. Kuhn, and G. Latu. Comparison of numerical solvers for anisotropic diffusion equa- tions arising in plasma physics. J. Sci. Comput., 65(3):1091–1128, 2015. https://doi.org/10.1007/
s10915-015-9999-1.
[7] G. Latu, V. Grandgirard V., J. Abiteboul, N. Crouseilles, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, M. Mehrenberger, Y. Sarazin, and E. Sonnendr¨ucker. Improving conservation properties of a 5D gy- rokinetic semi-Lagrangian code. Eur. Phys. J. D, 68(11):345, 2014. https://doi.org/10.1140/epjd/
e2014-50209-1.
[8] R. Abdelkhalek, H. Calandra, O. Coulaud, G. Latu, and J. Roman. Fast seismic modeling and reverse time migration on a graphics processing unit cluster. Concurrency and Computation: Practice and Experience, 24(7):739–750, 2012. http://dx.doi.org/10.1002/cpe.1875.
[9] N. Crouseilles, G. Latu, and E. Sonnendr¨ucker. A parallel Vlasov solver based on local cubic spline interpolation on patches. J. Comput. Physics, 228(5):1429–1446, 2009. http://dx.doi.org/10.1016/
j.jcp.2008.10.041.
[10] V. Grandgirard, Y. Sarazin, X. Garbet, G. Dif-Pradalier, Ph. Ghendrih, N. Crouseilles, G. Latu, E. Son- nendr¨ucker, N. Besse, and P. Bertrand. Computing ITG turbulence with a full-f semi-Lagrangian code.Communications in Nonlinear Science and Numerical Simulation, 13(1):81 – 87, 2008. ”Vlasovia 2006: The Second International Workshop on the Theory and Applications of the Vlasov Equation”, https://doi.org/10.1016/j.cnsns.2007.05.016.
[11] N. Crouseilles, M. Gutnic, G. Latu, and E. Sonnendr¨uker. Comparison of two Eulerian solvers for the four-dimensional Vlasov equation: Part I and II. Communications in Nonlinear Science and Numerical Simulation, 13(1):88 – 99, 2008. Vlasovia 2006: The Second International Workshop on the Theory and Applications of the Vlasov Equation,http://dx.doi.org/10.1016/j.cnsns.2007.03.017.
[12] N. Besse, G. Latu, A. Ghizzo, E. Sonnendr¨ucker, and P. Bertrand. A wavelet-MRA-based adaptive semi- Lagrangian method for the relativistic Vlasov-Maxwell system.J. Comput. Physics, 227(16):7889–7916, 2008. https://doi.org/10.1016/j.jcp.2008.04.031.
7
[13] S. Genaud, P. Gan¸carski, G. Latu, A. Blansch´e, C. Rattanapoka, and D. Vouriot. Exploitation of a parallel clustering algorithm on commodity hardware with P2P-MPI. The Journal of Supercomputing, 43(1):21–41, 2008. https://doi.org/10.1007/s11227-007-0136-2.
[14] N. Crouseilles, G. Latu, and Eric Sonnendr¨ucker. Hermite spline interpolation on patches for parallelly solving the Vlasov-Poisson equation.Applied Mathematics and Computer Science, 17(3):335–349, 2007.
http://dx.doi.org/10.2478/v10006-007-0028-x.
Computer Science and Applied Math. conf. proceedings
[15] N. Bouzat, F. Rozar, G. Latu, and J. Roman. A new parallelization scheme for the Hermite interpolation based gyroaverage operator. In16th International Symposium on Parallel and Distributed Computing, ISPDC-2017 proceedings, July 2017. To appear, https://hal.inria.fr/hal-01502513.
[16] F. Rozar, C; Steiner, G. Latu, M. Mehrenberger, V. Grandgirard, J. Bigot, Th. Cartier-Michaud, and J. Roman. Optimization of the gyroaverage operator based on hermite interpolation. ESAIM: Proc., 53:191–210, 2016. https://doi.org/10.1051/proc/201653012.
[17] G. Latu, J. Bigot, N. Bouzat, J. Gim´enez, and V. Grandgirard. Benefits of SMT and of parallel transpose algorithm for the large-scale Gysela application. InProceedings of the Platform for Advanced Scientific Computing Conference, PASC 2016, Lausanne, Switzerland, June 8-10, 2016, page 10, 2016.
http://dl.acm.org/citation.cfm?id=2929912.
[18] J. Bigot, G. Latu, Th. Cartier-Michaud, V. Grandgirard, Ch. Passeron, and F. Rozar. An approach to increase reliability of HPC simulation, application to the Gysela5D. ESAIM: Proc., 53:248–270, 2016.
https://doi.org/10.1051/proc/201653015.
[19] G. Latu, M. Haefele, J. Bigot, V. Grandgirard, Th. Cartier-Michaud, and F. Rozar. Evaluating kernels on Xeon Phi to accelerate Gysela application.ESAIM: Proc., 53:211–231, 2016. https://doi.org/10.
1051/proc/201653013.
[20] M. Kuhn, G. Latu, N. Crouseilles, and S. Genaud. Parallelization of an advection-diffusion problem aris- ing in edge plasma physics using hybrid MPI/OpenMP programming. InEuro-Par 2015: Parallel Pro- cessing - 21st International Conference on Parallel and Distributed Computing, Vienna, Austria, August 24-28, 2015, Proceedings, pages 545–557, 2015. https://doi.org/10.1007/978-3-662-48096-0_42.
[21] F. Rozar, G. Latu, and J. Roman. Achieving memory scalability in the Gysela code to fit exascale constraints. In Parallel Processing and Applied Mathematics - 10th International Conference, PPAM 2013, Warsaw, Poland, September 8-11, 2013, Revised Selected Papers, Part II, pages 185–195, 2013.
https://doi.org/10.1007/978-3-642-55195-6_17.
[22] M. Kuhn, G. Latu, S. Genaud, and N. Crouseilles. Optimization and parallelization of Emedge3D on shared memory architecture. In15th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing, SYNASC 2013, Timisoara, Romania, September 23-26, 2013, pages 503–510, 2013. https://doi.org/10.1109/SYNASC.2013.72.
[23] Th. Cartier-Michaud, Ph. Ghendrih, V. Grandgirard, and G. Latu. Optimizing the parallel scheme of the Poisson solver for the reduced kinetic code TERESA. ESAIM: Proc., 43:274–294, 2013. https:
//doi.org/10.1051/proc/201343017.
[24] O. Thomine, J. Bigot, V. Grandgirard, G. Latu, Ch. Passeron, and F. Rozar. An asynchronous writing method for restart files in the Gysela code in prevision of exascale systems. ESAIM: Proc., 43:108–116, 2013. https://doi.org/10.1051/proc/201343007.
[25] J. Bigot, V. Grandgirard, G. Latu, Ch. Passeron, F. Rozar, and O. Thomine. Scaling Gysela code beyond 32K-cores on Bluegene/Q. ESAIM: Proc., 43:117–135, 2013. https://doi.org/10.1051/
proc/201343008.
[26] J. Abiteboul, G. Latu, V. Grandgirard, A. Ratnani, E. Sonnendr¨ucker, and A. Strugarek. Solving the Vlasov equation in complex geometries. ESAIM: Proc., 32:103–117, 2011.https://doi.org/10.1051/
proc/2011015.
8
[27] G. Latu. Sparse data structure design for wavelet-based methods. ESAIM: Proc., 34:240–276, 2011. A course available athttps://doi.org/10.1051/proc/201134005.
[28] G. Latu, V. Grandgirard, N. Crouseilles, and G. Dif-Pradalier. Scalable quasineutral solver for gyrokinetic simulation. In PPAM (2), pages 221–231, 2011. http://dx.doi.org/10.1007/
978-3-642-31500-8_23.
[29] G. Latu. Fine-grained parallelization of a Vlasov-Poisson application on GPU. InEuro-Par Workshops, pages 127–135, 2010. http://dx.doi.org/10.1007/978-3-642-21878-1_16.
[30] R. Abdelkhalek, H. Calandra, O. Coulaud, J. Roman, and G. Latu. Fast seismic modeling and reverse time migration on a GPU cluster. In2009 International Conference on High Performance Computing
& Simulation, HPCS 2009, Leipzig, Germany, June 21-24, 2009, pages 36–43, 2009. https://doi.
org/10.1109/HPCSIM.2009.5192786.
[31] R. Abdelkhalek, H. Calandra, O. Coulaud, G. Latu, and J. Roman. FDTD Based Seismic Modeling and Reverse Time Migration on a GPU Cluster. In9th International Conference on Mathematical and Numerical Aspects of Waves Propagation - Waves 2009, Pau, France, 2009. https://hal.inria.fr/
inria-00407782.
[32] M. Campos Pinto, S. Jund, G. Latu, S. Salmon, and E. Sonnendr¨ucker. Exact Charge Conservation in a High-Order Conforming Maxwell Solver coupled with Particles. In9th International Conference on Mathematical and Numerical Aspects of Waves Propagation - Waves 2009, Pau, France, 2009. https:
//hal.inria.fr/inria-00591052.
[33] M. Haefele, F. Zara, G. Latu, and J.-M. Dischler. A dedicated compression scheme for large multidi- mensional functions visualization. In1st International Workshop on Super Visualization (IWSV08), Ile de Kos, Greece, June 2008. https://hal.inria.fr/inria-00591076.
[34] G. Latu, N. Crouseilles, V. Grandgirard, and E. Sonnendr¨ucker. Gyrokinetic semi-Lagrangian parallel simulation using a hybrid OpenMP/MPI programming. In PVM/MPI, pages 356–364, 2007. http:
//dx.doi.org/10.1007/978-3-540-75416-9_48.
[35] V. Grandgirard, Y. Sarazin, X. Garbet, G. Dif-Praladier, Ph. Ghendrih, N. Crouseilles, G. Latu, E. Son- nendr¨ucker, N. Besse, and P. Bertrand. Gysela, a full-f global gyrokinetic semi-Lagrangian code for ITG turbulence simulations. InProceedings of Theory of Fusion Plasmas, Varenna, 2006.
[36] M. Gutnic, M. Mehrenberger, E. Sonnendr¨ucker, O. Hoenen, G. Latu, and E. Violard. Adaptive 2D Vlasov simulation of particle beams. In Proceedings of ICAP 2006, 2006. epaper.kek.jp/ICAP06/
PAPERS/THMPMP02.PDF.
[37] G. Tessier, J. Roman, and G. Latu. Hybrid MPI-Thread implementation on a cluster of SMP nodes of a parallel simulator for the propagation of powdery mildew in a vineyard. In High Performance Computing and Communications, Second International Conference, HPCC 2006, Munich, Germany, September 13-15, 2006, Proceedings, pages 833–842, 2006. https://doi.org/10.1007/11847366_86.
[38] A. Calonnec, G. Latu, J.-Marc Naulin, J. Roman, and G. Tessier. Parallel simulation of the propagation of powdery mildew in a vineyard. InEuro-Par 2005, Parallel Processing, 11th International Euro-Par Conference, Lisbon, Portugal, August 30 - September 2, 2005, Proceedings, volume 3648 ofLecture Notes in Computer Science, pages 1254–1264, 2005. https://doi.org/10.1007/11549468_137.
[39] E. Sonnendr¨ucker, M. Gutnic, M. Haefele, G. Latu, and J.L. Lemaire. Vlasov Simulation of Beams and HALO. InProceedings of the Particle Accelerator Conference, 2005, pages 581–585, 2005.
[40] M. Haefele, G. Latu, and M. Gutnic. A parallel Vlasov solver using a wavelet based adaptive mesh re- finement. In34th International Conference on Parallel Processing Workshops (ICPP 2005 Workshops), 14-17 June 2005, Oslo, Norway, pages 181–188, 2005. https://doi.org/10.1109/ICPPW.2005.13.
9
Plasma Physics journal papers
[41] D. Esteve, Y. Sarazin, X. Garbet, V. Grandgirard, S. Breton, P. Donnel, Y. Asahi, C. Bourdelle, G. Dif-Pradalier, Ch. Ehrlacher, C. Emeriau, Ph. Ghendrih, C. Gillot, G. Latu, and Ch. Passeron.
Self-consistent gyrokinetic modeling of neoclassical and turbulent impurity transport. Nuclear Fusion, 2017.
[42] D. Zarzoso, P. Migliano, V. Grandgirard, G. Latu, and Ch. Passeron. Nonlinear interaction between energetic particles and turbulence in gyro-kinetic simulations and impact on turbulence properties.
Nuclear Fusion, 57(7):072011, 2017.
[43] J. A. Morales, M. Becoulet, X. Garbet, F. Orain, G. Dif-Pradalier, M. Hoelzl, S. Pamela, G. T. A.
Huijsmans, P. Cahyna, A. Fil, E. Nardon, Ch. Passeron, and G. Latu. Edge localized mode rotation and the nonlinear dynamics of filaments. Physics of Plasmas, 23(4):042513, 2016.
[44] Th. Cartier-Michaud, Ph. Ghendrih, Y. Sarazin, J. Abiteboul, H. Bufferand, G. Dif-Pradalier, X. Gar- bet, V. Grandgirard, G. Latu, Cl. Norscini, Ch. Passeron, and P. Tamain. Projection on proper elements for code control: Verification, numerical convergence, and reduced models. application to plasma tur- bulence simulations. Physics of Plasmas, 23(2):020702, 2016.
[45] D. Est`eve, X. Garbet, Y. Sarazin, V. Grandgirard, T. Cartier-Michaud, G. Dif-Pradalier, Ph. Ghendrih, G. Latu, and Cl. Norscini. A multi-species collisional operator for full-f gyrokinetics.Physics of Plasmas, 22(12):122506, 2015. http://dx.doi.org/10.1063/1.4937373.
[46] G. Dif-Pradalier, G. Hornung, Ph. Ghendrih, Y. Sarazin, F. Clairet, L. Vermare, P.-H. Diamond, J. Abiteboul, T. Cartier-Michaud, C. Ehrlacher, D. Est`eve, X. Garbet, V. Grandgirard, O.-D. G¨urcan, P. Hennequin, Y. Kosuga, G. Latu, P. Maget, P. Morel, C. Norscini, R. Sabot, and A. Storelli. Finding the Elusive ExB Staircase in Magnetized Plasmas. Physical Review Letters, 114:085004, 2015.
[47] F. Orain, M. B´ecoulet, G. T. A. Huijsmans, G. Dif-Pradalier, M. Hoelzl, J. Morales, X. Garbet, E. Nar- don, S. Pamela, Ch. Passeron, G. Latu, A. Fil, and P. Cahyna. Resistive reduced MHD modeling of multi-edge-localized-mode cycles in tokamak X-Point plasmas. Phys. Rev. Lett., 114:035001, Jan 2015.
[48] Ph. Ghendrih, Cl. Norscini, Th. Cartier-Michaud, G. Dif-Pradalier, J. Abiteboul, Y. Dong, X. Garbet, O. G¨urcan, P. Hennequin, V. Grandgirard, G. Latu, P. Morel, Y. Sarazin, A. Storelli, and L. Vermare.
Phase space structures in gyrokinetic simulations of fusion plasma turbulence. The European Physical Journal D, 68(10):303, 2014.
[49] M. B´ecoulet, F. Orain, G. T. A. Huijsmans, S. Pamela, P. Cahyna, M. Hoelzl, X. Garbet, E. Franck, E. Sonnendr¨ucker, G. Dif-Pradalier, Ch. Passeron, G. Latu, J. Morales, E. Nardon, A. Fil, B. Nkonga, A. Ratnani, and V. Grandgirard. Mechanism of edge localized mode mitigation by resonant magnetic perturbations. Phys. Rev. Lett., 113:115001, Sep 2014.
[50] Ph. Ghendrih, G. Dif-Pradalier, Cl. Norscini, Th. Cartier-Michaud, D. Est`eve, X. Garbet, V. Grandgi- rard, G. Latu, Ch. Passeron, and Y. Sarazin. Self organisation of plasma turbulence: impact on radial correlation lengths. Journal of Physics: Conference Series, 561(1):012008, 2014.
[51] J. Abiteboul, Ph. Ghendrih, V. Grandgirard, Th. Cartier-Michaud, G. Dif-Pradalier, X. Garbet, G. Latu, Ch. Passeron, Y. Sarazin, A. Strugarek, O. Thomine, and D. Zarzoso. Turbulent momen- tum transport in core tokamak plasmas and penetration of scrape-off layer flows. Plasma Physics and Controlled Fusion, 55(7):074001, 2013.
[52] A. Strugarek, Y. Sarazin, D. Zarzoso, J. Abiteboul, A. S. Brun, Th. Cartier-Michaud, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, V. Grandgirard, G. Latu, Ch. Passeron, and O. Thomine. Unraveling quasiperiodic relaxations of transport barriers with gyrokinetic simulations of tokamak plasmas. Phys.
Rev. Lett., 111:145001, Oct 2013.
[53] A. Strugarek, Y. Sarazin, D. Zarzoso, J. Abiteboul, A. S. Brun, Th. Cartier-Michaud, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, V. Grandgirard, G. Latu, Ch. Passeron, and O. Thomine. Ion transport barriers triggered by plasma polarization in gyrokinetic simulations. Plasma Physics and Controlled Fusion, 55(7):074013, 2013.
10
[54] F. Orain, M. Becoulet, G. Dif-Pradalier, G. Huijsmans, S. Pamela, E. Nardon, Ch. Passeron, G. Latu, V. Grandgirard, A. Fil, A. Ratnani, I. Chapman, A. Kirk, A. Thornton, M. Hoelzl, and P. Cahyna.
Non-linear magnetohydrodynamic modeling of plasma response to resonant magnetic perturbations.
Physics of Plasmas, 20(10):102510, 2013.
[55] D. Zarzoso, Y. Sarazin, X. Garbet, R. Dumont, A. Strugarek, J. Abiteboul, Th. Cartier-Michaud, G. Dif-Pradalier, Ph. Ghendrih, V. Grandgirard, G. Latu, Ch. Passeron, and O. Thomine. Impact of energetic-particle-driven geodesic acoustic modes on turbulence. Phys. Rev. Lett., 110:125002, Mar 2013.
[56] X. Garbet, D. Esteve, Y. Sarazin, J. Abiteboul, C. Bourdelle, G. Dif-Pradalier, Ph. Ghendrih, V. Grand- girard, G. Latu, and A. Smolyakov. Turbulent acceleration and heating in toroidal magnetized plasmas.
Physics of Plasmas, 20(7):072502, 2013.
[57] R. J. Dumont, D. Zarzoso, Y. Sarazin, X. Garbet, A. Strugarek, J. Abiteboul, Th. Cartier-Michaud, G. Dif-Pradalier, Ph. Ghendrih, J-B. Girardo, V .Grandgirard, G. Latu, Ch. Passeron, and O. Thomine.
Interplay between fast ions and turbulence in magnetic fusion plasmas. Plasma Physics and Controlled Fusion, 55(12):124012, 2013.
[58] S. Ku, J. Abiteboul, P.H. Diamond, G. Dif-Pradalier, J.M. Kwon, Y. Sarazin, T.S. Hahm, X. Garbet, C.S. Chang, G. Latu, E.S. Yoon, Ph. Ghendrih, S. Yi, A. Strugarek, W. Solomon, and V. Grandgirard.
Physics of intrinsic rotation in flux-driven ITG turbulence. Nuclear Fusion, 52(6):063013, 2012.
[59] X. Garbet, J. Abiteboul, A. Strugarek, Y. Sarazin, G. Dif-Pradalier, Ph. Ghendrih, V. Grandgirard, C. Bourdelle, G. Latu, and A. Smolyakov. Thermodynamics of neoclassical and turbulent transport.
Plasma Physics and Controlled Fusion, 54(5):055007, 2012.
[60] G. Dif-Pradalier, P. H. Diamond, V. Grandgirard, Y. Sarazin, J. Abiteboul, X. Garbet, Ph. Ghendrih, G. Latu, A. Strugarek, S. Ku, and C. S. Chang. Neoclassical physics in full distribution function gyrokinetics. Physics of Plasmas, 18(6):062309, 2011.
[61] J. Abiteboul, X. Garbet, V. Grandgirard, S. J. Allfrey, Ph. Ghendrih, G. Latu, Y. Sarazin, and A. Stru- garek. Conservation equations and calculation of mean flows in gyrokinetics. Physics of Plasmas, 18(8):082503, 2011.
[62] Y. Sarazin, V. Grandgirard, J. Abiteboul, S. Allfrey, X. Garbet, Ph. Ghendrih, G. Latu, A. Strugarek, G. Dif-Pradalier, P.H. Diamond, S. Ku, C.S. Chang, B.F. McMillan, T.M. Tran, L. Villard, S. Jolliet, A. Bottino, and P. Angelino. Predictions on heat transport and plasma rotation from global gyrokinetic simulations. Nuclear Fusion, 51(10):103023, 2011.
[63] L. Villard, A. Bottino, S. Brunner, A. Casati, J. Chowdhury, T. Dannert, R. Ganesh, X. Garbet, T. Goler, V. Grandgirard, R. Hatzky, Y. Idomura, F. Jenko, S. Jolliet, S. Khosh Aghdam, X. Lapillonne, G. Latu, B. F. McMillan, F. Merz, Y. Sarazin, T. M. Tran, and T. Vernay. Gyrokinetic simulations of turbulent transport: size scaling and chaotic behaviour. Plasma Physics and Controlled Fusion, 52(12):124038, 2010.
[64] Y. Sarazin, A. Strugarek, G. Dif-Pradalier, J. Abiteboul, S. Allfrey, X. Garbet, Ph. Ghendrih, V. Grand- girard, and G. Latu. Flux-driven gyrokinetic simulations of ion turbulent transport at low mag- netic shear. Journal of Physics: Conference Series, 260(1):012017, 2010. http://stacks.iop.org/
1742-6596/260/i=1/a=012017.
[65] Y. Sarazin, V. Grandgirard, J. Abiteboul, S. Allfrey, X. Garbet, Ph. Ghendrih, G. Latu, A. Strugarek, and G. Dif-Pradalier. Large scale dynamics in flux driven gyrokinetic turbulence. Nuclear Fusion, 50(5):054004, 2010.
[66] X. Garbet, J. Abiteboul, Y. Sarazin, A. Smolyakov, S. Allfrey, V. Grandgirard, Ph. Ghendrih, G. Latu, and A. Strugarek. Entropy production rate in tokamak plasmas with helical magnetic perturbations.
Journal of Physics: Conference Series, 260(1):012010, 2010.
11
[67] V. Grandgirard, Y. Sarazin, P. Angelino, A. Bottino, N. Crouseilles, G. Darmet, G. Dif-Pradalier, X. Garbet, Ph. Ghendrih, S. Jolliet, G. Latu, E. Sonnendrucker, and L. Villard. Global full-f gyrokinetic simulations of plasma turbulence. Plasma Physics and Controlled Fusion, 49(12B):B173, 2007.
[68] Y. Sarazin, V. Grandgirad, G. Dif-Praladier, E. Fleurance, X. Garbet, Ph. Ghendrih, P. Bertrand, N. Besse, N. Crouseilles, E. Sonnendr¨ucker, G. Latu, and E. Violard. Impact of large scale flows on turbulent transport. Plasma Phys. Control Fusion, 48:B179–B188, december 2006.
Plasma Physics conference proceedings
[69] Ph. Ghendrih, Th. Cartier-Michaud, G. Dif-Pradalier, D. Esteve, X. Garbet, V. Grandgirard, G. Latu, Cl. Norscini, and Y. Sarazin. Collisions in magnetised plasmas. ESAIM: Proc., 50:81–112, 2015.
[70] G. Dif-Pradalier, G. Hornung, Ph. Ghendrih, Yanick. Sarazin, F. Clairet, L. Vermare, P H. Diamond, J. Abiteboul, Th. Cartier-Michaud, Ch. Ehrlacher, A. Est`eve, Xavier. Garbet, Virginie. Grandgirard, O D. G¨urcan, P. Hennequin, A. Kosuga, Guillaume. Latu, Paul. Morel, C. Norscini, R. Sabot, and A. Storelli. Further details on the plasma ExB staircase. In7th IAEA Technical Meeting on Theory of Plasmas Instabilities, Frascati, Italy, France, 2015.
[71] Y. Sarazin, J. Abiteboul, G. Dif-Praladier, B. McMillan, C. Bourdelle, T. Cartier-Michaud, P. Cottier, D. Esteve, X. Garbet, J.-B. Girardo, V. Grandgirard, Ph. Ghendrih, F. Hariri, G. Latu, D. Newman, Cl. Norscini, Ch. Passeron, J. Reynolds-Barredo, R. Sanchez, F. Sipeanu, M. Vlad., and L. Villard.
Understanding momentum transport in tokamak plasmas. In IAEA Fusion Energy Conference, Saint Petersburg, october 2014.
[72] X. Garbet, Y. Sarazin, V. Grandgirard, G. Dif-Praladier, G. Darmet, Ph. Ghendrih, P. Bertrand, N. Besse, E. Gravier, P. Morel, E. Sonnendr¨ucker, N. Crouseilles, J.-M. Dischler, G. Latu, E. Vio- lard, M. Brunetti, S. Brunner, X. Lapillonne, T.-M. Tran, and L. Villard. Beyond scale separation in gyrokinetic turbulence. In21st IAEA Fusion Energy Conference, Chengdu, China, october 2006.
Submitted papers - reports - documents I contributed to
[73] M. Thevenin, O. Thomine, and G. Latu. Compression de donn´ees num´eriques, 2017. WO Patent App.
PCT/EP2016/081,284, Brevet -https://www.google.com/patents/WO2017103002A1?cl=fr.
[74] N. Bouzat, F. Rozar, G. Latu, and J. Roman. A new parallelization scheme for the Hermite interpolation based gyroaverage operator. Research Report RR-9054, Inria, April 2017. https://hal.inria.fr/
hal-01502513.
[75] N. Bouzat, C. Bressan, V. Grandgirard, G. Latu, and M. Mehrenberger. Targeting realistic geometry in Tokamak code Gysela. Submitted to - ESAIM: Proc., 2017.
[76] J. Bigot, V. Grandgirard, G. Latu, J.-F. Mehaut, L.-F. Millani, Ch. Passeron, S. Quinito Masnada, J. Richard, and B. Videau. Building and auto-tuning a kernel: an experiment with Boast and StarPU in the Gysela code. Submitted to - ESAIM: Proc., 2017.
[77] Fabien Rozar. Towards highly scalable parallel simulations for turbulent plasma physics. Theses, Uni- versit´e de Bordeaux, November 2015. https://tel.archives-ouvertes.fr/tel-01271032.
[78] Xavier Lacoste. Scheduling and memory optimizations for sparse direct solver on multi-core/multi-gpu duster systems. Theses, Universit´e de Bordeaux, February 2015. https://tel.archives-ouvertes.
fr/tel-01222565/file/LACOSTE_XAVIER_2015.pdf.
[79] G. Latu, M. Mehrenberger, M. Ottaviani, and E. Sonnendr¨ucker. Aligned interpolation and applica- tion to drift kinetic semi-Lagrangian simulations with oblique magnetic field in cylindrical geometry.
Research report, IRMA, December 2014. https://hal.inria.fr/hal-01098373.
[80] Matthieu Kuhn. Parallel computing and numerical methods for boundary plasma simulations. The- ses, Universit´e de Strasbourg, September 2014.https://tel.archives-ouvertes.fr/tel-01272267/
file/Kuhn_Matthieu_2014_ED269.pdf.
12
[81] Rached Abdelkhalek. Hardware acceleration for seismic imaging : modeling, migration and inter- pretation. PhD thesis, Universit´e Sciences et Technologies - Bordeaux I, December 2013. https:
//tel.archives-ouvertes.fr/tel-01159517/file/ABDELKHALEK_RACHED_2013.pdf.
[82] G. Latu, M. Becoulet, G. Dif-Pradalier, V. Grandgirard, M. Hoelzl, G. Huysmans, X. Lacoste, E. Nar- don, F. Orain, Ch. Passeron, P. Ramet, and A. Ratnani. Non regression testing for the Jorek code.
Research Report RR-8134, INRIA, November 2012. https://hal.inria.fr/hal-00752270.
[83] G. Latu, V. Grandgirard, J. Abiteboul, M. Bergot, N. Crouseilles, X. Garbet, Ph. Ghendrih, M. Mehren- berger, Y. Sarazin, H. Sellama, E. Sonnendr¨ucker, and D. Zarzoso. Accuracy of unperturbed motion of particles in a gyrokinetic semi-Lagrangian code. Rapport de recherche RR-8054, INRIA, September 2012. http://hal.inria.fr/hal-00727118.
[84] M. Sauget and G. Latu. Dynamic Load Balancing for PIC codes using Eulerian/Lagrangian partitioning.
Research report, University of Strasbourg, 2011. http://arxiv.org/abs/1706.08362.
[85] G. Latu, V. Grandgirard, N. Crouseilles, R. Belaouar, and E. Sonnendr¨ucker. Some parallel algorithms for the Quasineutrality solver of Gysela. Research Report RR-7591, INRIA, April 2011.https://hal.
inria.fr/inria-00583521.
[86] G. Latu, N. Crouseilles, and V. Grandgirard. Parallel bottleneck in the Quasineutrality solver embedded in Gysela. Research Report RR-7595, INRIA, April 2011. https://hal.inria.fr/inria-00583689.
[87] G. Latu, V. Grandgirard, N. Crouseilles, and G. Dif-Pradalier. Scalable Quasineutral solver for gy- rokinetic simulation. Rapport de recherche RR-7611, INRIA, May 2011. http://hal.inria.fr/
inria-00590561/PDF/RR-7611.pdf.
[88] J. Guterl, J.-P. Braeunig, N. Crouseilles, V. Grandgirard, G. Latu, M. Mehrenberger, and E. Son- nendr¨ucker. Test of some numerical limiters for the conservative PSM scheme for 4D Drift-Kinetic simu- lations. Research Report RR-7467, INRIA, November 2010.https://hal.inria.fr/inria-00540948.
[89] J.-P. Braeunig, N. Crouseilles, V. Grandgirard, G. Latu, M. Mehrenberger, and E. Sonnendr¨ucker. Some numerical aspects of the conservative PSM scheme in a 4D drift-kinetic code. Research report, INRIA, 2011. https://hal.archives-ouvertes.fr/hal-00650343.
[90] Matthieu Haefele. Simulation adaptative et visualisation haute performance de plasmas et de faisceaux de particules. PhD thesis, Universit´e de Strasbourg, 2007.http://www.haefele.fr/matthieu/publis/
2007_haefele_phd_A4.pdf.
13
Curriculum Vitae
Chercheur-Ing´enieur en Informatique sp´ecialit´e calcul parall`ele
Nom :Latu Pr´enom :Guillaume
Date et lieu de naissance :01/06/1975,Saint Germain en Laye (France)
Nationalit´e :Fran¸caise Sexe :M
Situation familiale :Mari´e, 1 enfant
Adresse postale :mont´ee de Manenc, 8 Lot. des sarments 04100 Manosque
N◦ de t´el´ephone :(+33) 06 51 25 75 55
Adresse ´electronique :guillaume.latu @ cea.fr
Langues : fran¸cais (langue maternelle), anglais (tr`es bon niveau)
SITUATION PROFESSIONNELLE ACTUELLE Statut et fonction : Chercheur-Ing´enieur (Echelon 4) Etablissement : CEA/DRF/IRFM
Date d’entr´ee en fonction : 4 septembre 2009
FORMATION ET PARCOURS PROFESSIONNEL
Etablissements Fonctions et statuts Dates Observations fran¸cais ou ´etrangers (salari´e, boursier, etc.)
CEA (CDI) Chercheur-Ing´enieur 01/10/2010 pr´esent CEA (dispo U. Strasbourg) Chercheur-Ing´enieur 04/09/2009 01/10/2010
Universit´e Strasbourg Maˆıtre de conf´erences 01/09/2003 04/09/2009
ENSEIRB demi ATER 01/09/2002 31/08/2003
Universit´e Bordeaux 1 Diplˆome de doctorat 12/2002 Informatique Universit´e Bordeaux 1 Bourse MENRT 01/06/2001 30/06/2002 monitorat `a l’IUT Centre militaire CROSAT Scientifique du contingent 01/08/2000 31/05/2001
Universit´e Bordeaux 1 Bourse MENRT 01/09/1998 31/07/2000 vacataire Universit´e Bordeaux 1 DEA 01/09/1997 31/08/1998 mention TB
ENSEIRB ´el`eve ing´enieur 01/09/1995 31/08/1998 ´ecole d’ing´enieur
COMPETENCES
Expertise : Calcul haute performance, algorithmique parall`ele, parall´elisation large ´echelle Programmation : Fortran, C, C++, ...
Programmation parall`ele : OpenMP, MPI, OpenMP+MPI, CUDA, ´equilibrage statique/dynamique Connaissances transversales :
Equation de Vlasov, Equations de Maxwell et Poisson, Physique des Plasmas (confinement inertiel, magn´etique), Dynamique des populations
Connaissances sur les m´ethodes num´eriques :
R´esolution grands syst`emes creux, Alg`ebre lin´eaire, Monte-Carlo, m´ethodes explicites/implicites, ...
ENSEIGNEMENTS
Univ. Bordeaux 1 (98-99) DEUG 2`emeann´ee : TP initiation `a la prog., TP Fondements de l’informatique.
IUT Bordeaux 1 (99-02) : Cours/TP utilisation des syst`emes informatiques, Cours/TD langage Java, Cours/TD syst`emes d’exploitation, Cours/TD r´eseaux, Cours/TD admin. bases de donn´ees.
ENSEIRB (02-03) 2`eme& 3`emeann´ees : TP parall´elisme, TD prog. syst`eme, Cours/TP grilles de calculs.
ENSEIRB (05-09) 3eme` ann´ees : Cours/TP grilles de calculs.
Univ. Strasbourg 1 (03-04) DEUG 2eme` ann´ee : Cours archi. des ordinateurs, TP prog. syst`eme.
Univ. Strasbourg 1 (03-06) L3 & M1 & IUP3 : Cours/TP prog. distribu´ee, TD syst`emes distribu´es.
Univ. Strasbourg 3 (03-06) Licence Pro. : Cours/TP programmation distribu´ee.
Univ. Strasbourg 1 (05-06) M2 : Cours adaptation de programmes pour les grilles.
Univ. Strasbourg (08-09) M2 : Cours/TP Applications Distribu´ees, Cours/TP MPI, Cours/TP Fortran.
Univ. Strasbourg (08-09) L2 : Cours Prog. Syst`eme et R´eseau, TP Pratique et Admin. des syst`emes.
Univ. Strasbourg (08-09) L3 : TD Prog. orient´ee objet.
Fr´ejus (10) : Ecole d’´et´e du groupe Calcul-CNRS : Structures de donn´ee pour les m´ethodes adaptatives Volume total : 1150h
ENCADREMENT
-Nicolas Bouzat- Stage de fin d’´etude puis th`ese (2015 - 2018) financ´ee par IPL INRIA C2S@Exa Parall´elisation de l’op´erateur de gyromoyenne dans GYSELA afin de r´eduire l’empreinte m´emoire de l’application et les surcoˆuts en communication en vue des machines Exascale. Mise en œuvre d’une strat´egie d’interpolation de type Lagrange pour une prise en compte d’une g´eom´etrie plus r´ealiste (D- shaped plasma) grˆace `a un une fonction de mapping dans le plan polo¨ıdal. D´efinition d’un prototype utilisant la programmation par tˆaches afin de r´eduire les coˆuts de synchronisation parall`ele et am´eliorer la localit´e temporelle dans GYSELA.
Le co-encadrement de ce travail s’effectue sous la direction conjointe de Michel Mehrenberger (MdC, HDR) et Jean Roman (Professeur, DR INRIA).
-Yuuichi Asahi- Postdoc (2014-2018)
Collaboration Franco-Japonaise. Portage et optimisation de noyaux de calculs issus de GYSELA et GT5D sur des architectures de type GPGPU, Intel KNC et Fujitsu FX100. Analyse des patrons d’acc`es m´emoire favorables en fonction du noyau.
-Julien Bigot- Postdoc (2012-2014) partiellement financ´e par G8 Exascale NuFuse
Optimisation et parall´elisation `a grande ´echelle sur calculateur BlueGene/Q de GYSELA. Mise en place d’une strat´egie de checkpoint/restart bas´ee sur la biblioth`eque FTI (d´evelopp´ee par INRIA+Universit´e d’Argonne).
-Fabien Rozar- Stage de fin d’´etude puis th`ese [77] (2012 - 2015)
Identification de pics dans l’empreinte m´emoire d’applications parall`eles qui limitent la scalabilit´e m´emoire (analyse du code GYSELA). Mise en œuvre de la biblioth`eque MTM pour tracer finement la consommation m´emoire et de strat´egies visant `a r´eduire cette consommation, mais aussi permet- tant d’am´eliorer la scalabilit´e m´emoire en vue des plateformes Exascale. R´eduction des coˆuts associ´es `a l’op´erateur de gyromoyenne dans GYSELA.
Le co-encadrement de ce travail s’est effectu´e sous la direction de Jean Roman (Professeur, DR INRIA).
-Xavier Lacoste- Th`ese [78] (2011 - 2015) financ´ee par ANR ANEMOS
Mise en place au sein du solveur creux Pastix et dans JOREK d’une solution permettant de r´eduire l’empreinte m´emoire et am´eliorer la scalabilit´e de JOREK. Evaluation du b´en´efice des ordonnanceurs StarPU et Parsec afin d’am´eliorer les performances de Pastix, benchmarks sur plate-formes h´et´erog`enes et acc´el´erateurs de calcul GPGPU.
J’ai collabor´e avec Xavier sur ce travail qui fut r´ealis´e sous la direction conjointe de Fran¸cois Pellegrini (Professeur) et Pierre Ramet (MdC).
-Rached Abdelkhalek- Stage de fin d’´etude puis th`ese CIFRE [81] (2008 - 2013)
Algorithmique parall`ele et impl´ementation efficace sur GPGPU d’une application de type RTM (Reverse Time Migration). Analyse de l’impact des acc`es m´emoire sur les performances. D´emonstration que l’uti- lisation d’acc´el´erateurs mat´eriels ´elargit consid´erablement le champ du possible. Etude, dans le cadre de l’´equation des ondes, des sch´emas num´eriques et m´ethodes d’optimisation `a mettre en place pour une
ex´ecution de probl`emes de grande taille sur un dispositif de calcul GPGPU. Ce travail ´etait co-encadr´e sous la direction de Jean Roman (Professeur, DR INRIA), mais aussi avec la contribution de Olivier Coulaud (DR INRIA) et Henri Calandra (Expert HPC, TOTAL).
-Olivier Thomine- Postdoc financ´e par G8-Exascale NuFuse (Novembre 2011 - Septembre 2013) Mise au point de strat´egies de checkpoint/restart asynchrones dans l’application GYSELA. Dans les plateformes comportant de nombreux coeurs, la probabilit´e ´elev´ee de fautes durant l’ex´ecution n´ecessite d’´elaborer des algorithmes r´esiliants aux pannes. Mise en place d’algorithmes originaux de compression de donn´ees.
-Matthieu Kuhn- Th`ese [80] financ´ee sur cr´edits ANR E2T2 (2011-2014)
Parall´elisation haute-performance pour la simulation de plasmas de bord. Le code EMEDGE3D permet de comprendre les m´ecanismes non-lin´eaires `a la base des relaxations de la barri`ere de transport dans un Tokamak, ainsi que la formation des ˆılots magn´etiques. L’objet de cette th`ese ´etait de r´ealiser des simulations haute-performance pour avoir acc`es `a toutes les ´echelles de temps et d’espace mises en oeuvre par la physique de plasmas de bord. Les travaux portent sur la mise au point de sch´emas num´eriques performants, associ´es `a une optimisation des acc`es aux donn´ees en m´emoire, ainsi que la mise au point d’algorithmes parall`eles, analyse de performance grˆace au mod`eleroofline.
Le co-encadrement de ce travail s’est effectu´e sous la direction de St´ephane Genaud (Maˆıtre de conf´erence, HDR) et Nicolas Crouseilles (CR INRIA, HDR).
-Marius Craciun- Ing´enieur et Marc Sauget- Postdoc (2008-2009), financement ANR HOUPIC Mise au point d’un simulateur parall`ele Particle in Cell 4D et 6D pour des dispositifs de Physique des hautes ´energies. Strat´egie de r´egulation dynamique de la charge et de remaillage dynamique.
-Matthieu Haefele- Th`ese [90] (2003-2007)
L’objet de son travail ´etait double et concerne `a la fois le calcul scientifique (mise au point de sch´emas num´eriques adaptatifs), mais aussi la visualisation de gros volumes de donn´ees compress´ees issus de la simulation de plasmas. Je travaillais avec lui sur ces deux aspects. Le simulateur OBIWAN sur lequel nous avons travaill´e ensemble consomme relativement peu de m´emoire et r´eduit asymptotiquement le nombre d’op´erations par rapport `a un codenon-adaptatif ´equivalent. Cette th`ese a ´et´e dirig´ee par Jean- Michel Dischler (Prof. Univ. Louis Pasteur - LSIIT) et Eric Sonnendr¨ucker (Prof. Univ. Louis Pasteur - IRMA).
-Ga¨el Tessier- Master Recherche puis Th`ese (2003-2006, abandon de la th`ese en 2006)
Le cadre scientifique de ce travail est celui des grandes applications complexes qui engendrent des calculs et des donn´ees de grandes tailles. La th`ese portait sur la mod´elisation et la simulation de la propagation spatio-temporelle de l’o¨ıdium, parasite de la vigne (collaboration avec l’INRA). Un simulateur num´erique parall`ele haute performance a ´et´e d´evelopp´e. Une ´etude algorithmique envisageait des distributions pos- sibles des donn´ees/calculs et leurs coˆuts (plate-forme ´eventuellement h´et´erog`ene). Je co-encadrais G¨ael Tessier sur ce travail sous la direction de Jean Roman (Prof. ENSEIRB - LaBRI).
-Constantinos Makassikis- Master Recherche (Janvier-Juin 2006)
Il s’agissait ici de mod´eliser le coˆut des communications TCP `a un niveau applicatif. La cadre est ce- lui d’une grille de calcul reliant des sites diff´erents reli´es par un r´eseau rapide. Pour d´eterminer un bon d´eploiement, il est n´ecessaire de pouvoir pr´edire les coˆuts de communication. L’objectif a ´et´e de d´eterminer quelles simplifications peuvent ˆetre apport´ees aux mod`eles de r´eseau existants afin d’obtenir une approximation des temps des communications TCP au niveau applicatif (tests sur Grid5000). Ce DEA a ´et´e co-encadr´e par S. Genaud (Mcf IECS - LSIIT), J-J Pansiot (Prof. Univ. Louis Pasteur - LSIIT) et moi-mˆeme.
-Ouldbatty Lemrabott- Stage de maˆıtrise (F´evrier-Mai 2005)
L’objectif de ce stage fut de r´ealiser une visualisation de sorties 4D repr´esent´ees sur une base hi´erarchique d’´el´ements finis. Il nous a ´et´e possible d’obtenir un algorithme d’extraction rapide de tranches 2D depuis des donn´ees 4D volumineuses. Ce sujet fut co-encadr´e par M. Haefele (Doctorant) et moi-mˆeme.
ACTIVITES DE RECHERCHE
Mes th´ematiques de recherche portent sur la conception de mod`eles, de sch´emas num´eriques et d’algorithmes efficaces conduisant `a des simulations num´eriques performantes sur de tr`es larges plate- formes. Ces activit´es se d´ecomposent en plusieurs types de travaux. Tout d’abord, j’ai collabor´e avec des
chercheurs d’autres disciplines sur des simulateurs haute-performance issus de plusieurs domaines appli- catifs : l’´epid´emiologie (CNRS [Montpellier-S`ete] et INRA [Villenave d’Ornon]), la physique des plasmas et des hautes ´energies (CEA Cadarache-IRFM [St Paul-lez-Durance] , LPMIA [Nancy], PIIM [Marseille]), l’imagerie en profondeur (TOTAL [Pau]). J’ai aussi men´e de nombreux travaux avec des chercheurs en Math´ematique appliqu´ees (MAB [Bordeaux], IRMA [Strasbourg], IPP [Garching]) pour mettre au point des mod`eles et des sch´emas num´eriques. Les mod`eles que j’ai consid´er´es ´etaient : multi-´echelle, multi- dimensionnel, ou int´egraient un niveau de r´ealisme ´elev´e. D’autre part, mon cœur de comp´etence concerne l’algorithmique haute performance et l’optimisation d’applications parall`eles de grandes tailles (collabo- rations LABRI [Bordeaux], LSIIT [Strasbourg], CEA/MdS [Saclay], INRIA). Les recherches que je m`ene visent g´en´eralement le d´eploiement de simulateurs num´eriquement coˆuteux sur de grandes plate-formes comportant plusieurs centaines ou plusieurs milliers de processeurs.
Une des mes ambitions est de tirer pleinement partie de nouveaux sch´emas num´eriques d´evelopp´es en Math´ematiques Appliqu´ees d’un cˆot´e, et des nouvelles abstractions et technologies adapt´ees aux grandes plate-formes de calcul de l’autre. Cette approche mixte et interdisciplinaire est n´ecessaire pour endiguer le cloisonnement qui existe entre les communaut´es du calcul scientifique. Cela me permet de mettre en oeuvre concr`etement des outils passant `a l’´echelle qui sont indispensables aux chercheurs travaillant sur la physique des plasmas et des hautes ´energies, comme `a d’autres domaines.
J’ai toujours eu `a cœur de travailler les aspects m´ethodologiques, mais aussi et surtout sur la mise en pratique en visant des codes de production. Je me suis int´eress´e `a la fois `a la mise au point de sch´emas, d’algorithmes mais aussi `a leur validation par la r´ealisation d’applications g´en´eralement coˆuteuses en calcul comme en m´emoire. J’ai aussi investi du temps `a mieux comprendre les domaines applicatifs pour lesquels j’ai travaill´e : dynamique des populations, g´eophysique, physique des plasmas avec confinement inertiel et confinement magn´etique.
PROJETS FINANC´ES, RECHERCHE DE FINANCEMENTS
Durant les douze derni`eres ann´ees, j’ai men´e mes activit´es de recherche dans diff´erents lieux. J’ai notamment effectu´e deux ann´ees de d´el´egation `a l’INRIA Bordeaux - Sud-Ouest dans l’´equipe Scalapplix (de septembre 2006 `a aoˆut 2008). Ceci m’a permis de poursuivre des collaborations avec le LABRI et d’en initier de nouvelles. Cette ouverture a conduit `a mon implication forte dans une action soutenue par l’ANR : le projet MASSIM concernant la simulation et la visualisation utilisant des structures de donn´ees adaptatives et hi´erarchiques. A la suite de cette d´el´egation, je me suis engag´e sur d’autres actions. L’ANR HOUPIC a d´emarr´e en 2007 et avait, en autre, pour objet la simulation parall`ele des ´equations Vlasov-Maxwell pour la physique des plasmas en utilisant la m´ethode Particle-In-Cell. Au sein du LSIIT (mon laboratoire de rattachement lorsque j’´etais `a l’Universit´e de Strasbourg), nous avons fourni un effort de d´eveloppement et de recherche pour mener cette op´eration `a bien (j’´etais coordinateur scientifique pour le LSIIT). J’ai demand´e et obtenu un budget dans cette action HOUPIC pour recruter et encadrer deux ing´enieurs afin de r´ealiser une application parall`ele scalable et des recherches dans ce domaine. Ensuite, l’ANR EGYPT (´etude de techniques de simulation Gyrocin´etique pour les plasmas de Tokamak en collaboration avec le CEA Cadarache) a d´ebut´e en 2008. Le projet ANR GYPSI qui a d´ebut´e fin 2010 en est le prolongement. La poursuite des travaux de parall´elisation et de d´eveloppement de GYSELA (code du CEA Cadarache) ´etaient au cœur de ces 2 projets ; j’y ai contribu´e tr`es activement.
J’ai aussi particip´e (en tant que que coordinateur scientifique pour le LSIIT) `a un appel ANR blanche qui a d´ebut´e en d´ecembre 2010 (nom du projet E2T2). Cette action de recherche abordait les effets ´electromagn´etiques sur le transport turbulent dans les plasmas chauds magn´etis´es. Pour ce faire, j’ai aid´e `a la parall´elisation du code EMEDGE3D dans une collaboration entre le CEA Cadarache, le laboratoire de Physique th´eorique PIIM de Marseille et le LSIIT de Strasbourg. Cette collaboration fut utile : la puissance disponible sur les super-calculateurs d’aujourd’hui, combin´ee `a une comp´etition internationale forte en physique, n´ecessitent de consid´erer des solutions de calcul haute performance pour mener des simulations de grande envergure qui se veulent tr`es r´ealistes.
L’ANR ANEMOS `a laquelle je participais a d´ebut´e en octobre 2011. Elle avait pour but l’am´elioration du code JOREK qui mod´elise certains effets et instabilit´es MHD en g´eom´etrie r´ealiste.
Mon implication dans ce projet concernait l’am´elioration des performances parall`eles de ce code et le couplage avec la biblioth`eque Pastix en collaboration ´etroite avec INRIA Bordeaux.
J’ai aussi ´et´e tr`es impliqu´e dans le projet financ´e par le G8 portant sur les applications Exascale (http ://www.nu-fuse.com/ - financ´e sur 2011-2014). Ce projetinternational de 3 ans rassem-