• Aucun résultat trouvé

CHAPITRE 3. MISE EN ŒUVRE DU RESEAU SENTINELLE CANCER AUVERGNE

3.2. L ES TECHNOLOGIES INNOVANTES DE GRILLES POUR RSCA

3.2.1. La grille EGEE-EGI

Le projet EGEE [46] (Enabling Grids for E-SciencE) fédère une communauté de chercheurs issus de plus de 30 pays différents. L’objectif est de proposer une infrastructure commune de grille informatique pour les scientifiques. Succédant au projet Datagrid en 2004 [44], EGEE a duré 6ans (2004-2010) sous forme de 3 projets successifs (EGEE I, II et III) financés par l’UE à hauteur de 30M€, voir [Figure 20]. Depuis 2010, EGI [47] a maintenant repris le flambeau, recadrant la gestion à une échelle nationale en assurant la maintenance, le développement et la promotion de l’outil.

Figure 20 - Chronologie DataGrid - EGEE - EGI

La grille EGI est maintenant l’infrastructure de grille de production à l’usage de la communauté scientifique la plus large au monde. Selon Gstat [111], au début du projet EGI en 2010, on estime à 155000 le nombre de CPU logiques (disponibles 24/7) couplés à un espace de stockage de 64PB1 dans la grille EGEE.

3.2.1.1. Fonctionnement, organisation

Le fonctionnement d’EGEE a quelque peu changé avec la transition vers EGI. Là où EGEE centralisait la gouvernance à un niveau global, EGI a mis en place une hiérarchie plus subtile. Techniquement, plusieurs NGIs2 sont rattachées à EGI. Les NGIs ont pour mission de tenir en état de fonctionnement une grille nationale tout en se conformant à la politique globale EGI.

En France, la NGI a été créée sous la forme du Groupement d’Interêt Scienfique (GIS) France-Grilles [112]. Il est piloté par l’institut des grilles du CNRS dont l’actuel directeur est Vincent Breton. Il est formé d’un consortium public regroupant le CEA, la Conférence des Présidents d’Universités (CPU), le CNRS, l’INRA, l’INRIA, l’INSERM et l’infrastructure RENATER.

1 1PetaByte=1015 bytes

2

3.2. Les technologies innovantes de grilles pour RSCA 103 La [Figure 21] montre l’organisation adoptée entre EGI et les diverses grilles nationales dans les différents pays. EGI proposera une liste de tâches qui devront être réalisées par chaque NGI. Par ailleurs, chaque grille nationale sera administrée de façon locale, avec les tâches qui lui sont propres.

Cette infrastructure a l’avantage de laisser les pays membres maîtres de leur infrastructure et de leur maintenance. Le rôle d’EGI, bien que non-technique, est primordial pour assurer la cohésion de l’ensemble.

Figure 21 - Organisation des tâches EGI-NGI

EGI a apporté à la grille EGEE un modèle organisationnel géré au niveau national, ce qui, jusque là pouvait lui faire défaut sur la gouvernance. La pérennité de l’infrastructure est davantage garantie avec ce modèle.

3.2.1.2. Développement et intergiciel

La grille EGI s’appuie naturellement sur l’intergiciel gLite, qui a été en grande partie développé lors des successifs projets EGEE. L’ensemble des technologies présentées en [3.2.1] sont donc représentées largement au sein des différents services et sites d’EGEE.

Le développement de la grille EGI, grâce à son modèle ouvert, permet à tout organisme de recherche de rejoindre, collaborer et contribuer aux différents projets de la grille. Ainsi, chaque utilisateur des pays membres peut s’adresser à une structure tutelle de son pays pour accéder aux ressources de la grille.

3.2.1.3. Grilles dérivées : grilles privées, dédiées, réutilisation des technologies

Toujours grâce au modèle de développement open-source de l’intergiciel gLite, les réutilisations des couches logicielles issues du développement d’EGEE sont nombreuses.

Les technologies de grilles ont de nombreux avantages pour résoudre les problèmes d’accès aux données ou de calcul distribué. La prise de conscience de ces possibilités a soulevé un intérêt grandissant pour ces technologies. Cependant les développements nécessaires à la réalisation d’une telle infrastructure pouvaient rebuter les personnes intéressées.

104 Chapitre 3 : Mise en œuvre du Réseau Sentinelle Cancer Auvergne Ce n’est qu’avec l’avènement de la grille EGEE et de son intergiciel gLite, diffusé sous licence libre, que les développements de grilles privées ont débuté. En effet, les technologies issues d’EGEE, qui fournissent un ensemble de services d’information, de monitoring, de gestion des tâches, le tout librement réutilisables, a permis de les démocratiser.

C’est ainsi que des grilles privées, souvent couplées à une problématique précise sont nées de la réutilisation des technologies gLite. Le plus souvent ces grilles dédiées sont liées au domaine biomédical, qui a plus particulièrement besoin d’un espace plus confidentiel. Le projet pionnier dans ce domaine été MammoGrid [73]. Ont suivi Health-e-child [89], neuGRID [113] ou encore e-nmr [114].

3.2.1.4. Limitations

L’intergiciel gLite propose une infrastructure logicielle adaptée pour les scientifiques qui veulent accéder à un grand nombre de ressources matérielles sans se soucier des problèmes liés à la distribution géographique des sites. Cependant, certaines applications ne sont pas du tout adaptées à ces technologies car elles présentent trop de couplage entre les tâches. Une succession de tâches courtes mais nombreuses n’aura pas l’effet escompté sur la réduction du temps global d’exécution. C’est en partie expliqué par les délais des files d’attente sur les nœuds de calcul qui sont souvent supérieurs au temps d’exécution pour de petites tâches. Un juste équilibre est à trouver entre nombre de tâches parallèles et durée de ces tâches.

Le projet HOPE [85] a justement étudié l’impact du nombre de jobs par rapport au temps total de simulation d’une tâche de simulation Monte Carlo utilisant le logiciel GATE a été montré [115, 116]. On voit, sur la [Figure 22] que le temps total d’exécution diminue fortement entre 1 et 20 jobs mais que cette tendance s’inverse lorsque l’on passe au-delà des 20 jobs.

Figure 22 - Evolution du temps de calcul d'une simulation par rapport au nombre de jobs sur grille - source [116]

Une modélisation plus détaillée de ce phénomène de latence des grilles a été présentée en [117] sur la grille EGEE, notamment grâce à une modélisation poussée des lois qui régissaient ces délais, avec une validation sur des mesures expérimentales.

Il s’agit alors, d’adapter le plus précisément possible la durée de ses jobs par rapport à leur nombre si le processus calculé permet cette flexibilité.

3.2. Les technologies innovantes de grilles pour RSCA 105 Les limitations de gLite sont clairement indiquées ici, car tous les programmes ne sont pas « gridifiables » avec un gain1 proportionnel au nombre de nœuds.

Dans un autre registre, l’intergiciel gLite reste complexe à utiliser pour une personne sans compétences en informatique. Il y a donc besoin de services de haut-niveau s’appuyant sur la grille pour fournir aux utilisateurs une réponse claire à leurs besoins.