Synth` ese - Services et protocoles pour l'exécution fiable d'applications distribuées dans les

Une grille de calcul est un système distribué regroupant un grand nombre de ressources hétérogènes appartenant à différents domaines d’administration et partagées au sein

d’or-ganisations virtuelles. Plusieurs architectures de grilles existent. Pour notre étude, nous considérons l’architecture la plus générique : une grille hétérogène. Ce type d’architec-ture permet de répondre aux besoins en ressource de calcul des applications de calcul scientifique. Cependant exploiter les ressources d’une grille de calcul n’est pas simple car le nombre d’utilisateurs de la grille et donc d’applications s’exécutant sur celle-ci peut être très grand. De plus, il faut être capable de prendre en compte l’hétérogénéité et la volatilité des nœuds de la grille, conséquences de sa taille. C’est pourquoi un système de grille est utilisé. Son rôle est de simplifier l’exploitation de la grille par les utilisateurs tout en optimisant les performances.

Nous nous intéressons aux problèmes liés à la volatilité des nœuds de la grille. Cette volatilité peut être due à des connections et des déconnections volontaires ou à des défaillances. Le cas problématique est celui des défaillances. Étant donné la taille d’une grille de calcul, les risques de défaillances y sont élevés. La défaillance d’un nœud de la grille peut entraˆıner la défaillance d’applications et/ou de services du système de grille.

Comme les applications de calcul scientifique peuvent avoir un temps d’exécution très grand et être distribuées sur un grand nombre de ressources, la probabilité qu’elles subis-sent une défaillance au cours de leur exécution sur la grille est très élevée, compromettant leur bonne terminaison. De même, la défaillance d’un service du système de grille peut empêcher les applications de fonctionner correctement, dans le cas d’un service de gestion de données, voir même empêcher les utilisateurs de la grille de soumettre son applica-tion, dans le cas d’un service de gestion des applications. Traiter les conséquences des défaillances de nœuds est donc indispensable pour qu’une grille ne soit pas qu’un grand ensemble de ressources inexploitables. C’est pourquoi ce document s’intéresse aux solutions permettant d’exécuter de manière fiable des applications dans les grilles de calcul.

Les techniques de tolérance aux fautes ont pour objectif de traiter les conséquences d’une défaillance. Les trois familles de technique de tolérance aux fautes existantes sont les techniques de retour arrière, la duplication passive et la duplication active. Chacune de ses techniques offre des niveaux de disponibilité différents. Plus le niveau de disponi-bilité offert est élevé, plus le coût de mise œuvre de la solution, en terme de consomma-tion de ressources, est élevé. Cependant, plus la quantité de ressources nécessaires à la tolérance aux fautes est élevée, moins celle disponible pour l’exécution des applications est grande. Dans le domaine du calcul haute performance, c’est donc un enjeu important. C’est pourquoi il est indispensable de spécifier correctement les besoins en tolérance aux fautes pour être capable de fournir la solution la plus appropriée.

Travailler sur des techniques de tolérance aux fautes nécessite préalablement de définir le modèle de faute considéré. Nous considérons que dans une grille les garanties en terme de sécurité offertes par les organisations virtuelles permettent d’écarter les fautes byzantines. Nous choisissons donc un modèle de faute par arrêt total. Ces fautes, conséquences de défaillances matérielles, peuvent être indépendantes, comme dans le cas de la défaillance d’un disque sur une machine physique, ou corrélées, comme dans le cas d’une défaillance d’un système de refroidissement affectant tous les nœuds d’une grappe de calcul. Nous considérons des canaux de communications fiables et FIFO. La défaillance d’un lien d’in-terconnexion est vue comme la défaillance des nœuds dépendant de ce lien. Enfin nous supposons disposer de mécanismes de détection de défaillances répondant au moins à la spécification du détecteur de défaillance non fiable⋄S.

Nous voulons fournir des solutions pour assurer une utilisation simple et optimisée des ressources de la grille en dépit de l’occurrence de défaillances. Cette optimisation passe par la mise en œuvre de solutions adaptées au contexte des grilles de calcul, c’est-à-dire prenant en compte la taille de la grille et son hétérogénéité. La simplicité des solutions

proposées doit être jugée du point de vue des utilisateurs. C’est une condition indispensable pour rendre les grilles de calcul attractives. En dépit de l’occurrence de défaillances sur la grille, nous voulons être capable d’assurer aux utilisateurs la bonne terminaison de leur application et l’obtention des résultats associés et ce, le plus rapidement possible.

Si les travaux présentés dans ce document sont menés dans le contexte des grilles de calcul, la problématique de la gestion de la volatilité des ressources dans un environnement distribué de grande taille et hétérogène peut être considérée comme une problématique commune à d’autres types de systèmes distribués. Aussi, les solutions proposées dans ce document peuvent être applicables à d’autres systèmes distribués dont le modèle de fautes est le même que celui utilisé ici.

Chapitre 2

Ex´ecution fiable d’applications sur

Dans le document Services et protocoles pour l'exécution fiable d'applications distribuées dans les grilles de calcul (Page 38-42)