Gestion de données dans les NES

(1)

Gestion de donn´ ees dans les NES

E. Caron, F. Desprez, A. Vernois B. Del-Fabbro

LIP/ENS-Lyon LIFC

{Eddy.Caron,Frederic.Desprez}@ens-lyon.fr [email protected] [email protected]

1 Introduction

Les problèmes de très grande taille issus de la simulation numérique peuvent désormais être résolus via Internet grâce aux environnements de type Grilles [6]. De nombreuses approches coexistent qui ont chacune leurs avantages et leurs inconvénients. Par ailleurs, l’approche ASP (Application Service Provider) permet d’accéder à des applications à distance grâce à des intergiciels adaptés. Dans ce paradigme, un client peut demander l’exécution de requêtes à un agent chargé de trouver le serveur le plus adapté en terme de performance ou de fonctionnalité. Les requêtes peuvent alors être exécutées par des serveurs séquentiels ou parallèles. Ce paradigme est proche du modèle RPC (Remote Procedure Call ou appel de procédure à distance). L’approche GridRPC [8] est la forme “grille” du RPC Unix classique. On appelle généralement ces environnements qui les réalisent des serveurs de calculs ou NES (Network Enabled Servers). Plusieurs outils offrant cette fonctionnalité comme NetSolve¹, NINF², DIET³, NEOS⁴, ou RCS [2] sont déjà disponibles.

Le GridRPC implique que les données sont envoyées du client vers le serveur qui réalise le calcul et le résultat revient du serveur vers le client. Si des dépendances existent entre les requêtes, des transferts de données inutiles sont effectués et ce coût prohibitif diminue l’intérêt d’une telle approche. Il convient donc de gérer au mieux ces dépendances en laissant tant que possible les données sur les serveurs sur lesquels elles ont été utilisées (ou calculées). Ceci nécessite une gestion de données efficace et surtout extensible vu le nombre de serveurs et de clients généralement traités par ce type d’environnement. Cet article présente donc l’architecture de plusieurs NES (NetSolve, Ninf et DIET) ainsi que les problèmes de gestion de données qui leurs sont propres.

Dans une première section, nous présentons l’API GridRPC proposée dans le cadre du Global Grid Forum pour permettre de gérer la persistance des données au niveau du client. Dans une seconde section, nous présentons l’architecture des trois environnements de type NES disponibles actuellement et qui implémentent le standard GridRPC. Enfin, dans la troisième section et avant une conclusion et une description de nos travaux futurs, nous présentons les solutions choisies par Ninf, NetSolve et DIET pour gérer les données.

2 L’approche GRID-RPC et la gestion de la persistance

Dans le cadre du Global Grid Forum, les chercheurs des projets NetSolve, Ninf et DIET ont proposé une interface standard pour l’API client. Cette API permettra d’avoir une bonne portabilité entre les différents systèmes. Nous allons nous focaliser sur la partie “gestion de données” de cette interface qui est en cours de discussion au sein du GGF. L’interface générale pour les demandes d’exécution de requêtes peut être trouvée sur le site du GGF. Un aspect naturellement important de la définition d’une telle interface est la définition

1http://www.cs.utk.edu/netsolve/

2http://ninf.etl.go.jp/

3http://graal.ens-lyon.fr/DIET

4http://www-neos.mcs.anl.gov/

(2)

de la possibilité de laisser les données calculées sur les serveurs afin de réduire le coût des communications.

Il va de soit que ceci doit ˆetre le plus transparent possible pour les clients finaux mais un ordonnanceur

“intelligent” devra être capable de dire au système si telle donnée doit être laissée ou pas sur tel ou tel serveur en fonction des dépendances entre les requêtes.

Cette proposition part du postulat que chaque donnée doit être identifiée au sein de la plate-forme. Nous définissons donc le data handle (DH) comme étant une référence à une donnée qui peut être stockée à n’importe quel endroit. Ainsi, cette définition du data handlepermet de gérer la lecture et l’écriture des données sans avoir à se préoccuper d’où elles proviennent ni d’où elles seront stockées. L’opération de création dudata handleest réalisée par la fonctioncreate(data handle t *dh) ;

Une fois que la référence à la donnée est créée, il est possible de lier ou pas cette référence à une donnée.

Si on lie la donnée, elle peut être soit présente chez le client, soit présente sur un serveur de dépôt. Sinon cela signifie que la donnée est déjà présente dans la plate-forme. L’opération de liaison d’une donnée à une référence permet aussi de préciser si la donnée doit être conservée ou non. Cette opération est réalisée par la fonctionbind(data handle t dh, data loc t loc, data site t site) ;

– data loc t loc: permet de connaˆıtre la localisation de la donnée (machine locale ou serveur de dépôt), – data site t site : la localisation de la machine où l’on veut stocker la donnée, sachant que si cette

valeur est nulle la donnée sera stockée sur le dernier serveur d’exécution l’ayant utilisé.

Ainsi, du coté du serveur de calcul, si ledata handlecontient unsiteidentique auloc, la donnée doit être retournée au client ou au serveur de stockage référencé. En revanche, si le data handle contient un site différent duloc, la donnée sera déplacée du locvers le site référencé par site.

La Figure 1 montre un exemple d’utilisation de l’interface de gestion de donn´ees dans l’API GridRPC.

Dans cette figure, un client exécute un premier calcul sur un serveur capable d’exécuter le service demandé et un second calcul sur un autre serveur plus performant. Pour ce second calcul, le client n’a pas à renvoyer sa donnée puisqu’elle se trouve déjà sur le réseau.

Note : output_DH is unbound call(input_DH, output_DH)

return bound output_DH

call(output_DH, output2_DH)

read output_DH data sent

data sent

write data on output2_DH read input_DH

(output data still available on this server)

CLIENT SERVICE A SERVICE B

bind input_DH to input data bind input_DH to input data

create input data create input_DH create output_DH

EXECUTE SERVICE bind out. data to output_DH

create output2_DH bind output2_DH to client

EXECUTE SERVICE create output data

Fig.1 – Exemple d’utilisation de l’API GridRPC avec gestion de données intégrée.

3 Architecture de trois environnements de type NES

3.1 Ninf et NetSolve

NetSolve est un NES développé au laboratoire ICL de l’Université du Tennessee. Ninf quant à lui est développé au Tokyo Institute of Technology. Ces deux NES sont très similaires dans leur conception. Ils sont

(3)

bas´es tous deux sur trois composants principaux : les clients, l’agent et les serveurs de calcul.

Clients : Ils sont construits en utilisant des bibliothèques qui offrent une API (basée sur le GridRPC) permettant d’accéder aux ressources de calculs gérées par l’agent. Actuellement, il est possible d’interfacer NetSolve dans du code C, FORTRAN, Matlab et Mathematica et Ninf avec du C, du FORTRAN et du Java.

Agent :Composant central qui maintient à jour les informations concernant les serveurs, leurs possibilités ainsi que les statistiques d’utilisation. C’est lui qui re¸coit les requêtes des clients et alloue au mieux les ressources de calcul des serveurs à ces requêtes pour que celles-ci soient exécutées le plus rapidement possible.

Serveurs :Les serveurs de calcul sont la puissance de traitement de NetSolve ou de Ninf. Ils sont gérés par l’agent et sont en mesure de résoudre un certain nombre de problèmes. La liste des problèmes qu’un serveur sait résoudre est maintenue par l’agent.

Les communications entre les composants se font via un protocole de communication sp´ecifique au niveau applicatif construit au dessus de TCP/IP.

3.2 DIET

Client

MA

MA MA

MA

LA LA

LA LA LA LA

MA

000000 000000 111111 111111 000000 111111 000000 111111

000000 000000 111111 111111 000000 111111 000000 111111 000000 000000 111111 111111 000000 111111 000000 111111

00 00 00 00 0

11 11 11 11 1

00 00 00 00 0

11 11 11 11 1

00 00 00 00 0

11 11 11 11 0 1 00 00 00 00

11 11 11 11 1

Fig. 2 – Vue g´en´erale de DIET.

Dans cette section, nous donnons des détails sur l’architecture de DIET et nous présentons les différents composants impliqués dans sa hiérarchie. Dans [8], les au- teurs donnent un état de l’art des environnements basés sur des NES qui permettent d’accéder à des serveurs de calcul via le réseau. Si l’on rentre dans les détails, de tels environnements sont composés de cinq types de composants différents : lesclientsqui soumettent les problèmes aux serveurs, lesserveursqui résolvent les problèmes soumis par les clients, desmoniteursqui récupèrent des informations sur l’état des ressources de calcul et les stockent dans unebase de donnéesqui contient aussi des informations concernant les ressources matérielles et logicielles, et enfin unordonnanceur(appelé agentdans notre architecture) qui choisit un serveur approprié en fonction du problème soumis et des informations contenues dans la base de données.

Les projets NetSolve ou Ninf suivent cette approche. Malheureusement, il n’est possible de lancer qu’un seul agent chargé de l’ordonnancement pour un groupe de serveurs de calculs donnés ⁵. Cela crée un goulot d’étranglement des performances empêchant le déploiement de NetSolve pour de grands groupes de serveurs, et rend le système peu résistant aux erreurs. En effet, la mort du processus agent rend inutilisable la plate-forme toute entière.

Pour résoudre ces problèmes, DIET se propose de répartir le travail de l’agent selon une nouvelle organisation. Il est ainsi remplacé par un ensemble d’agents organisés selon deux approches : une approche multi-agents de type pair-à-pair améliorant la robustesse du système associé et une approche hiérarchique favorisant l’efficacité de l’ordonnancement. Cette répartition du rôle de l’agent offre divers avantages. Tout d’abord, on a une meilleure répartition de la charge entre les différents agents et une plus grande stabilité du système (si un des éléments venait à s’arrêter, les autres éléments pourraient se réorganiser pour le remplacer). Enfin, on obtient également une gestion simplifiée en cas de passage à l’échelle (l’administration de chaque groupe de serveurs et des agents associés peut être déléguée).

3.2.1 Les composants de DIET

Unclient est une application qui utilise DIET pour résoudre des problèmes. Plusieurs types de clients doivent être capables de se connecter à DIET. Un problème peut être soumis depuis une page web, un environnement de résolution de problèmes tel que Scilab [4] ou Matlab ou depuis un programme compilé.

Un Master Agent (MA) MA est directement relié aux clients. Il re¸coit des requêtes de calcul des clients et choisit un (ou plusieurs) SeDs qui sont capables de résoudre le problème en un temps raisonnable.

Un MA possède les mêmes informations qu’un LA, mais il a une vue globale (et de haut niveau) de tous les problèmes qui peuvent être résolus et de toutes les données qui sont distribuées dans tous ses sous-arbres.

5A part pour une version de Ninf qui possède plusieurs agents (Metaserver) mais ceux-ci ont une connaissance globale de tout l’environnement grâce à des diffusions des informations.

(4)

Un Leader Agent (LA)LA compose un niveau hiérarchique dans les agents DIET. Il peut être le lien entre un Master Agent et un SeD, entre un autre LA et un SeD ou entre deux LAs. Son but est de diffuser les requêtes et les informations entre les MAs et les SeDs. Il tient à jour une liste des requêtes en cours de traitement et, pour chacun de ses sous-arbres, le nombre de serveurs pouvant résoudre un problème donné, ainsi que des informations à propos des données.

UnServer Daemon (SeD)est le point d’entrée d’un serveur de calcul. Il se trouve sous la responsabilité d’un LA. Il tient à jour une liste des données disponibles sur un serveur (éventuellement avec leur distribution et le moyen d’y accéder), une liste des problèmes qui peuvent y être résolus, et toutes les informations concernant sa charge. Sur une machine parallèle, un SeD sera donc installé sur le frontal de cette machine.

La plate-forme cible actuelle de DIET est le réseau rapide connectant les grappes et les machines parallèles des différentes unités de recherche de l’INRIA (projet RNRT VTHD⁶). Cette architecture est donc fortement hiérarchique puisque le réseau VTHD connecte les UR INRIA entre elles, qui elles-mêmes possèdent dans leurs réseaux propres des grappes de machines connectées par des réseaux plus ou moins rapides. Les machines d’où sont lancées les calculs sont soit directement connectées au réseau VTHD ou simplement connectées par les réseaux internes des laboratoires ayant accès à cette plate-forme.

3.2.2 Mode de fonctionnement

Un nouveau client de DIET doit d’abord contacter un Master Agent (le plus approprié : en distance réseau par exemple) et lui soumettre un problème. Pour choisir le serveur le plus approprié pour résoudre ce problème, le Master Agent propage une requête dans ses sous-arbres⁷ afin de trouver à la fois les données impliquées (parfois issues de calculs précédents et donc déjà présentes sur certains serveurs lorsque la persistance est activée) et les serveurs capables de résoudre l’opération demandée. Lorsque la requête arrive au niveau des LAs, ces derniers interrogent les SeD capables de résoudre le problème afin de récupérer l’évaluation des temps de calcul et de communication via notre outil de prédiction de performance FAST [9].

Si le serveur, dispose d’une donn´ee utile au calcul il en informe ´egalement le LA.

Les choix d’ordonnancement se font alors à chaque niveau de l’arbre lors de la remontée de la réponse au MA. Lors de cette remontée, notons que les agents attendent les réponses de leurs fils pendant un certain laps de temps au delà duquel elles sont ignorées. Cet état de fait ne permet pas de tirer des conséquences quant à une panne éventuelle d’un agent qui ne répond pas ou pas assez vite.

Lorsque la réponse revient au Master Agent, il renvoie l’adresse du serveur choisi au client (il est également possible de renvoyer une liste bornée des meilleurs serveurs au client). Le MA envoie ensuite l’ordre de migrer les données. Le transfert des données s’effectue alors en deux phases pouvant être exécutées en parallèle : transfert des données issues du client et éventuellement le transfert des données persistantes localisées sur un autre serveur. Une fois les données récupérées la résolution du calcul peut être effectuée. Les résultats pourront être renvoyés au client. Pour des questions de performances, DIET essaye autant que possible de laisser les données sur place.

4 Gestion de donn´ ees dans les NES

4.1 NetSolve et Ninf

Plusieurs approches ont été utilisées pour la gestion de données dans NetSolve. Dans un premier temps, en collaboration avec E. Jeannot, nous avons intégré un certain nombre de fonctions permettant de laisser les données sur place puis de les déplacer [7]. Ces fonctions, appelables depuis le client permettaient d’envoyer une ou plusieurs données depuis un serveur vers un client ou de redistribuer les données entre des serveurs séquentiels. Dans le cas d’une séquence de requêtes [3] (comprises entre deux appels de fonctions spéciales), les données en entrées seront toutes envoyées au serveur qui effectuera la première requête. Ensuite, ne seront

6http ://www.vthd.org

7Une extension dans le cadre du multi-MA est possible en diffusant les requˆetes de calcul aux autres MAs et en les traitant comme des LAs

(5)

transférées aux serveurs qui auront la charge des requêtes suivantes, que les données dont ils auront besoin, sans repasser par le client. Cette technique permet d’éviter des transferts redondant d’une même donnée entre le client et le système. Dans la même optique, l’utilisateur pourra préciser que certaines données de sortie des requêtes ne sont que des données intermédiaires. Dans ce cas, celles-ci ne seront pas rapatriées sur le client en fin de séquence.

Dans une dernière version de NetSolve, les données utilisées peuvent soit être locales au client (sur disque ou en mémoire), soit être présentes dans une infrastructure de stockage distribué (Distributed Storage Infrastructure ou DSI). Pour pouvoir être utilisée dans NetSolve, une donnée présente dans une DSI aura dû y être insérée via l’API fournie. Cette API est prévue pour pouvoir accéder à différents DSI de la même fa¸con, même si, actuellement, seul IBP (Internet Backplane Protocol ou IBP) est supporté. Pour une donnée DSI, c’est à l’utilisateur (client) qu’incombe la tâche de connaˆıtre et choisir le serveur qui va héberger sa donnée. Dans tous les cas, la localité des données n’est pas prise en compte dans le choix du serveur qui exécutera la requête. NetSolve maintient une table d’allocation des fichiers qui recense le statut de tous les fichiers présents dans les DSI, ce qui impose l’utilisation de l’API NetSolve pour gérer les données distantes.

Lors de la réception d’une requête, le serveur NetSolve récupère les informations concernant les données en entrées et regarde dans sa table d’allocation s’il y est fait référence. Si c’est le cas, alors il s’agit d’une donnée présente dans un DSI, sinon, la donnée est supposée locale au client et devra être récupérée par le serveur en charge de l’exécution de la requête. Ninf ne possède pas de mécanisme sophistiqué de gestion de données.

Il utilise juste une technique de gestion des s´equences de requˆetes comme NetSolve.

4.2 L’approche DIET

La gestion des données dans DIET a été pensée de manière modulaire. Cette particularité permet d’envi- sager de connecter plusieurs types de systèmes de gestion de données. Dans cette section nous allons décrire deux infrastructures ayant des fonctionnalités complémentaires et pouvant être utilisées dans une même plate-forme. Le DTM (Data Tree Manager) pour une gestion des données adaptée à l’architecture de DIET et JUXMEM pour une gestion de données de très grande taille.

4.2.1 Gestion des donn´ees dans un environnement hi´erarchique : DTM

L’idée de gérer des données sur une plate-forme hiérarchique est soumise à deux contraintes fortes. Être capable de définir quelles sont les données que l’on veut conserver dans la plate-forme, et être capable d’identifier de manière unique cette donnée en son sein. Nous avons donc défini le mode de persistance et l’identifiantde la donnée.

Le mode de persistance Afin de rendre la plate-forme persistante, il a été défini une API cliente permettant au client de soumettre les données avec certaines caractéristiques. Lors de la première émission de la donnée, le client (ou unproxy “intelligent”) fournit la donnée, son rôle (in, in out, out) au sein de l’infrastructure ainsi que son mode (volatile, sticky, sticky return pour la session courante etpersistent, persistent return valide entre session).

– Une donnéevolatile ne sera pas conservée sur le serveur après son utilisation, elle sera détruite, – Une donnéesticky est conservée sur le serveur mais non dépla¸cable. Ce mode est utile dans le cas de

données de très grande taille pour lesquelles le coût de déplacement est trop pénalisant,

– Une donnéesticky return est une donnéesticky pour laquelle l’utilisateur désire obtenir une copie, – Une donnéepersistentest conservée dans l’infrastructure pendant une session ou à travers plusieurs

sessions, elle est dépla¸cable et susceptible d’être copiée,

– Une donnée persistent return est une donnéepersistent pour laquelle l’utilisateur désire obtenir une copie (c’est le mode le plus adapté pour les donnéesin out).

La gestion de la persistance que nous proposons est à mettre en corrélation avec la proposition de standard faite dans le cadre du GridRPC Working Group du GGF. NotreDTM gère de manière explicite le mode de persistance des données alors qu’il est implicitement déterminé dans l’API GridRPC proposée. Cette différence s’explique par la standardisation et le fait que les autres plates-formesNinf, NetSolvene gèrent

(6)

pas explicitement ce mode. Cependant, à partir de la définition et de l’utilisation des fonctions de l’API, nous constatons une relation directe avec le GridRPC. En effet, les modesvolatile, sticky, sticky return persistent, persistent returnsont gérés par l’utilisation de la méthodebind().

Architecture L’idée est donc que l’architecture DIET puisse conserver les données éventuellement réutilisables et les déplacer d’un serveur à un autre suivant les besoins de calcul. De plus, afin de ne pas alourdir la gestion des calculs en entrela¸cant des messages liés aux calculs et des messages liés à la gestion des données, le choix a été fait de dissocier la partie calcul de la partie gestion des données en agrégeant deux objets : leDataManageret leLocManagerrespectivement liés aux SeD et LA/MA, comme présenté figure 3.

LocMgr1

Cli1

LA1 LocMgr2

LA2 LocMgr3

SeD1 SeD2 SeD3

F() F()

A B

idA, DataMgr1

idB, LocMgr2 idA, LocMgr2

idB, DataMgr2

DataMgr1

MA

DataMgr2 DataMgr3

F(B,C)=D

Fig.3 – Les ObjetsDataManager et LocManager

La structure des objetsLocManager (respectivement Data- Manager) est initialisée parallèlement à celle des objets LA et MA (respectivement des SeD). Les fonctionnalités des objetsDataMa- nageret LocManagersont les suivantes :

L’objet LocManager est situé sur chaque agent avec lequel il communique localement. L’objet LocManager gère une liste de références aux données présentes dans sa branche (couple identifiant donnée/possesseur). Sur l’exemple présenté en Figure 3, l’objet LocMgr2 possède les couples ((idA,DataMrg1),(idB,DataMrg2)) et l’objet LocMgr1 possède les couples((idA,LocMrg2),(idB,LocMgr2)). Ainsi, la hiérarchie des objets LocManagerpermet de connaˆıtre la localisation d’une donnée. Les objetsDataManagerayant uniquement la connaissance des données qu’ils possèdent localement.

L’objet DataManagerest situé sur chaque SeD avec lequel il communique localement. Il contient la liste des données de mode sticky, sticky return, persistent ou persistent return. Il est par ailleurs chargé des opérations de déplacement ou de copie de données et également de fournir les données nécessaires au ser-

veur pour ses calculs. Enfin, il informe son objetLocManager père, de mises à jour (ajout, suppression) concernant sa liste de données. La mise à jour des branches concernées au sein de l’architecture se faisant hiérarchiquement. Qui plus est, afin de gérer simplement, dans un premier temps, la cohérence des données, si une donnée est copiée d’un serveur à un autre, la copie obtenue est de type volatile et par conséquent détruite après son utilisation. Ceci implique que la hiérarchie n’est pas informée de l’existence et de la localisation de cette copie.

Exemple Considérons l’architecture DIET présentée Figure 3. Supposons qu’un client cli1 sollicite le produit matriciel D =B ×C. Supposons de plus que seuls les serveurs SeD1 et SeD2 offrent le service de produit matriciel. Soient X =tpsCalcSeD²+tpsCommC et Y =tpsCalcSeD¹+P

i=B,CtpsComi où tpsCalcSeDi représente le temps de calcul du produit matriciel sur un serveur SeDi (pour i = 1,2) et tpsCommi représente le temps de communication d’une donnéei (pour i=B, C). Ces temps proviennent d’estimations fournies par le service de prédiction de performances [9]. Deux cas sont alors possibles :

LeCas 1 : X < Y. Dans ce cas le serveurSeD2est choisi. Le client envoie la donnéeC et l’identifiant de la donnéeB car celle-ci est déjà présente au sein de l’infrastructure. L’objetDataMgr2 met à jour sa liste de données avec la donnée C et propage cette mise à jour sur sa branche père. Le serveur demande ensuite à l’objetDataMgr2de lui fournir les donnéesB etCpuis calcule le produitB×C. Si la donnéeD est de typepersistentoupersistent return, elle est conservée sur leSeD2et DataMgr2propage cette mise à jour sur sa branche père (une copie est également retournée au client). SiD est de type sticky, elle est enregistrée sur l’objetDataMgr2qui ne propage pas cette mise à jour. SiD est de typevolatile,D est retourné au client puis immédiatement détruite sur le serveur.

LeCas 2 : X > Y. Dans ce cas le serveurSeD1est choisi. Le client envoie la donn´eeC et l’identifiant

(7)

de B (car B est présente au sein de l’architecture). L’objet DataMgr1 met à jour sa liste de données avec la donnée C et propage cette mise à jour sur sa branche père. Le serveur demande ensuite à l’objet DataMgr1de lui fournir les donnéesBetC.Bn’étant pas présente localement, l’objetDataMgr1interroge sa hiérarchie. Une fois l’objetDataManagergérantB trouvé (iciDataMgr2), celui-ci transmet la donnée

à l’objet requérant (iciDataMgr1). L’ensemble des branches, pour lesquelles la localisation de la donnée est connue, est mise à jour. Le serveurSeD1 peut maintenant calculer le produit B×C. Si la donnéeD est de typepersistentoupersistent return, elle est émise au client, conservée sur l’objetDataMgr1qui propage cette mise à jour sur sa branche père.

Résultats expérimentaux Afin de valider notre modèle, nous avons mené deux séries de tests sur une plate-forme composée d’un client distant, d’un Master Agent, de deux Leader Agents et de quatre SeDs.

Le client et le Master Agent sont connectés via un réseau de débit 16Mbits/s alors que le réseau local a un débit de 100Mbits/s. Nous avons ainsi une arborescence LA-SeD locale, un serveur étant plus proche d’un autre serveur que du client. La plate-forme est composée de serveurs (de 0.5 Ghz à 1.8 Ghz) hétérogènes, fonctionnant sous Linux.

Dans la première série de tests, un client soumet un produit de matrices selon les trois scénarios suivants : – les données ne sont pas persistantes et sont présentes uniquement chez le client (without persistency), – les données sont persistantes et sont présentes sur le serveur choisi pour réaliser le calcul (local data), – les données sont présentes et stockées quelque part sur la plate-forme mais pas sur le serveur choisi

pour le calcul (data inside the platform).

0 50 100 150 200 250 300 350 400 450 500

0 5 10 15 20 25 30 35

Computation time (s)

Matrix size (MO) without persistency

local data data inside the platform

(a)C=A∗B.

0 100 200 300 400 500 600 700 800 900 1000

0 10 20 30 40 50 60 70

Computation time (s)

Matrix size (MO) without persistency

first call further calls

(b)C=A∗B,D=E+C,A=^tA.

Fig. 4 – Comparaison donn´ees persistantes avec donn´ees non persistantes

Les résultats présentés Figure 4(a) confirment la faisabilité de notre approche. Logiquement, nous notons que la meilleure solution apparaˆıt lorsque la donnée est proche du serveur choisi pour les calculs. Quand les données sont présentes dans l’infrastructure mais pas sur le serveur choisi, les temps d’exécution sont toujours meilleurs que lorsque la donnée est émise par le client. En considérant la bande passante des réseaux locaux et distants, il est aisé de conclure que plus les données sont près des serveurs, plus les temps de calculs sont bons. Quel est le coût de l’ajout de notre service à la plate-forme DIET ? CORBA permet la non recopie de données mémoire, nous pouvons donc récupérer des valeurs sans faire de copie. De plus, nous soulignons que la mise à jour de la hiérarchie est réalisée de manière asynchrone, son coût est donc faible et n’influe pas sur le temps de calcul global.

La deuxième expérience⁸ (Figure 4(b)) est une séquence d’appels à l’intérieur d’une session :C=A∗B puisD=C+E puisA=^tA, A, B, C, D, E étant des matrices. Là encore trois scénarios sont étudiés :

8Les temps de calcul des différentes courbes doivent être comparées dans la même figure car les conditions d’expérimentations ont changé.

(8)

– données non persistantesChaque donnée est envoyée chaque fois que cela est nécessaire (par exemple la matriceAest transmise deux fois),

– données persistantes (premier appel)Chaque donnée est envoyée uniquement au premier appel, pour les autres appels seul son identifiant est envoyé. Dans ce cas,A,BetCsont définies comme étant persistantes.Cdoit être persistante parce qu’elle est utilisée dans le deuxième appel.D peut être non persistante parce qu’elle n’est pas utilisée ailleurs. Dans ce cas, A, B, E sont émises une fois,C n’est pas émise,

– données persistantes (appels suivants) seulement les identifiants des données sont émis car les données sont déjà présentes dans l’infrastructure.

Les résultats de cette série de tests sont exposés Figure 4(b). Comme nous l’avons déjà expliqué, si nous pouvons éviter les transmissions multiples d’une même donnée, le temps de calcul global est égal à la sommation des temps de transfert de la donnée (en entrée depuis le client vers le serveur, en sortie depuis le serveur vers le client) avec le temps d’exécution du problème. Logiquement encore, le dernier scénario apparaˆıt comme étant le meilleur et confirme la faisabilité et le faible coût de notre approche dans le cas de séquence d’appels.

4.2.2 Gestion des données de grande taille dans un environnement pair-à-pair : JUXMEM JUXMEM [1] (Juxtaposed Memory) est une architecture pair-à-pair de service de partage de données en mémoire. Pour DIET, cette architecture se présente comme un système de gestion de données à la fois alternatif à DTM et complémentaire. En effet, il peut être intégré afin d’offrir une solution adaptée à la gestion des données de grande taille. Dans cette section, nous allons décrire l’architecture que propose JUXMEM, puis nous proposerons deux types d’intégrations à DIET, une version en mode partagé et une version en mode concurrent.

L’architecture de JUXMEM Les données stockées dans la plate-forme pair-à-pair JUXMEM sont par- tagées et modifiables. Le système offre la persistance ainsi que la localisation transparente des données, il assure la cohérence et prend en compte la volatilité de la plate-forme. Tout comme DIET, l’architecture mise en place se base sur un modèle hiérarchique afin de tirer partie de la plate-forme sous-jacente.

Il existe trois types de pairs, les pairs fournisseurs (PF) qui stockent les données, les pairs gestionnaires (PG) qui gèrent l’espace mémoire, les pairs clients (PC) qui représentent l’interface d’accès au service.

L’infrastructure pair-`a-pair permet `a chaque nœud de fournir et d’utiliser un service.

La structure hiérarchique est mise en place par la gestion de groupes. En effet, un groupe a pour objectif de rassembler un ensemble de pairs. Il existe trois types de groupe. Le groupejuxmemcontenant l’ensemble des pairs et deux sous-groupes : le groupe clusteret le groupe data. Le premier regroupe un ensemble de pairs fournisseurs, en général appartenant à la même grappe mais il peut également s’agir d’une fédération de grappes. Le second groupe fédère les pairs fournisseurs partageant un même bloc de données.

DIET et JUXMEM sont deux outils utilisant les ressources de la grille, l’un pour les calculs l’autre pour la gestion des données. Cependant leur mécanisme d’allocation mémoire est distinct. Une première approche consiste à faire cohabiter les deux systèmes, cette solution implique alors des recopies mémoires entre les deux systèmes. Lors du calcul DIET nécessite d’avoir une localité des données, contrainte qui n’affecte pas JUXMEM, la distribution des données n’est donc pas équivalente. Inévitablement une recopie mémoire des données, et donc une consommation mémoire importante est à prendre en compte dans la mise en place de cette cohabitation. Dans cette optique, nous donnons ici deux types de cohabitation : le mode partagé et le mode concurrent.

Cohabitation DIET/JUXMEM : mode partagé La première solution évoquée part du principe que la grille offre un grand nombre de ressources, ces ressources sont alors attribuées soit à un composant DIET (Figure 5 cadre du haut) soit à un composant JUXMEM (Figure 5 cadre du bas).

La Figure 5, montre un exemple de cette cohabitation. La Figure 5(a) montre les liens de communications de l’architecture DIET et la Figure 5(b) illustre les liens représentant la dépendance entre les pairs gestionnaires et les pairs clients-fournisseurs dans JUXMEM (il ne s’agit pas des liens réseaux puisque chaque pair

(9)

PC/PF

MA

SeD SeD SeD SeD

Client

LA

SeD SeD SeD PG

PG

PG PC/PF

PC/PF

(a)Connectivit´es DIET

PC/PF

PC/PF PC/PF

PC/PF

MA

SeD SeD SeD SeD

Client

LA

SeD SeD SeD PG

PG

PC PC PC

(b)Connectivit´es JUXMEM

Fig. 5 – Int´egration DIET/JUXMEM version partag´ee.

peut communiquer avec un autre pair). Ainsi dans l’exemple fourni on identifie clairement les grappes DIET et les grappes JUXMEM. La connectivit´e entre les deux s’effectuant via les pairs MA/PG ou LA/PG.

Cette version a l’avantage de limiter les interférences entre les deux systèmes liées à l’utilisation de la mémoire l’un pour le stockage l’autre pour le calcul. Par contre le nombre de ressources pour chaque système est diminué. Le déploiement des différents composants devient alors crucial pour les performances globales de la plate-forme. Ce déploiement n’est plus limité au déploiement de la plate-forme DIET [5] mais doit

´egalement prendre en compte le d´eploiement de JUXMEM.

Cohabitation DIET/JUXMEM : mode concurrent Dans cette cohabitation les composants DIET et les pairs JUXMEM partagent les mêmes ressources en étant déployés sur les mêmes nœuds (Figure 6). Dans cette architecture chaque nœud de calcul (ici assimilé à un SeD) dispose d’un pair client afin de récupérer les données en contactant le pair gestionnaire correspondant à son groupe. De la même fa¸con la mémoire de ces nœuds peut être utilisée pour stocker les données. Cette approche signifie qu’une partie de la mémoire doit être allouée à JUXMEM pour le stockage des données et une autre partie de la mémoire doit être réservée pour les données utilisées pour le calcul.

PC/PF

PC/PF PC/PF PC/PF

PC/PF PC/PF

PC/PF

PC/PF PC/PF PC/PF MA

SeD SeD SeD SeD

Client

SeD

LA

SeD SeD SeD LA SeD

SeD PG

PG

PG MA

(a)Connectivit´es DIET

PC/PF

PC/PF PC/PF PC/PF

PC/PF PC/PF

PC/PF

PC/PF PC/PF PC/PF MA

SeD SeD SeD SeD

Client

SeD

SeD LA

LA

SeD SeD SeD LA SeD

SeD PG

PG

(b)Connectivit´es JUXMEM

Fig. 6 – Int´egration DIET/JUXMEM version concurrente.

Pour faire cohabiter physiquement les composants des deux logiciels, deux gestions m´emoires sont pos-

(10)

sibles. Soit via un espace d’adressage mémoire protégé pour chaque composant, ce qui implique une allocation statique de la mémoire. Soit par un espace d’adressage partagé qui demande alors une gestion dynamique de la mémoire. Cette solution demande alors un suivi en temps réel de l’état de la mémoire disponible.

5 Conclusion

Dans cet article, nous avons présenté les différents problèmes liés à la gestion de données dans lesNetwork Enabled Servers. Plusieurs approches sont possibles avec plus ou moins de transparence et des performances différentes selon les applications et les architectures cibles. Une bonne gestion des données est indispensable si l’on veut obtenir les meilleurs performances et tirer partie au mieux des bandes-passantes et des latences réseau. Nous avons détaillé les approches complémentaires choisies dans le cadre du développement de notre boˆıte-à-outils pour la mise en place d’applications utilisant le paradigme du GridRPC, DIET. Ces approches génériques nous permettront d’offrir aux applicatifs les meilleures performances et des niveaux de transparence adaptés aux besoins. De nombreux travaux sont en cours et notamment autour de l’ordonnancement conjoint des calculs et de la gestion des communications. Par ailleurs, nous travaillons également sur la gestion de réplicas pour une application de bioinformatique. Enfin, des développements sont en cours de finalisation autour de la connexion dynamique des agents d’ordonnancement dans DIET grâce à l’environnement JXTA de Sun Microsystems.

R´ ef´ erences

[1] Gabriel Antoniu, Luc Boug´e, and Mathieu Jan. JuxMem : An Adaptive Supportive Platform for Data Sharing on the Grid. InIEEE/ACM Workshop on Adaptive Grid Middleware, held in conjunction with 12th Intl. Conf.

on Parallel Architectures and Compilation Techniques (PACT 2003), New Orleans, September 2003.

[2] P. Arbenz, W. Gander, and J. Mori. The Remote Computational System.Parallel Computing, 23(10) :1421–1428, 1997.

[3] D.C. Arnold, D. Bachmann, and J. Dongarra. Request Sequencing : Optimizing Communication for the Grid. In Euro-Par 2000 Parallel Processing, 6th International Euro-Par Conference, volume volume 1900 of Lecture Notes in Computer Science, pages 1213–1222. Springer Verlag, August 2000.

[4] E. Caron, S. Chaumette, S. Contassot-Vivier, F. Desprez, E. Fleury, C. Gomez, M. Goursat, E. Jeannot, D. Lazure, F. Lombard, J.-M. Nicod, L. Philippe, M. Quinson, P. Ramet, J. Roman, F. Rubi, S. Steer, F. Suter, and G. Utard.

Scilab to Scilab//, the OURAGAN Project. Parallel Computing, 11(27) :1497–1519, OCT 2001.

[5] Eddy Caron, Pushpinder Kaur Chouhan, and Arnaud Legrand. Automatic Deployment for Hierarchical Network Enabled Server. In The 13th Heterogeneous Computing Workshop (HCW 2004), Santa Fe. New Mexico, April 2004.

[6] I. Foster and C. Kesselman (Eds.). The Grid : Blueprint for a New Computing Infrastructure, 2nd Edition.

Morgan-Kaufmann, 2004.

[7] E. Jeannot and F. Desprez. Adding Data Persistence and Redistribution to NetSolve. Technical Report RR2001- 39, LIP ENS Lyon, December 2001.

[8] S. Matsuoka, H. Nakada, M. Sato, , and S. Sekiguchi. Design Issues of Network Enabled Server Systems for the Grid. http://www.eece.unm.edu/^∼dbader/grid/WhitePapers/satoshi.pdf, 2000. Grid Forum, Advanced Programming Models Working Group whitepaper.

[9] Martin Quinson. Dynamic performance forecasting for network-enabled servers in a metacomputing environment.

InInternational Workshop on Performance Modeling, Evaluation, and Optimization of Parallel and Distributed Systems (PMEO-PDS’02), in conjunction with IPDPS’02, April 15-19 2002.