Architecture - Gestion dynamique des tâches dans les grappes, une approche à base de machines v

de machines virtuelles. Le changement de contexte dans Entropy consiste à exécuter une transition entre deux configurations qui peut impliquer la migration de machines virtuelles en cours d’exécution, mais

également le démarrage, la suspension, la reprise et l’arrêt des machines virtuelles d’une tâche. Ce concept reprend le principe de la reconfiguration décrit dans le Chapitre 8 en considérant cette fois des actions sur des tâches composées de plusieurs machines virtuelles. Cette approche permet aux administrateurs de développer des stratégies d’ordonnancement pour grappes complexes en indiquant à un module de déci-sion dédié à l’ordonnancement des tâches à exécuter pour la prochaine itération de la boucle de contrôle.

Le module de planiﬁcation assure alors le changement de contexte le plus rapidement possible.

Nous présentons dans une première section de ce chapitre le principe général de notre approche et son implémentation dans Entropy puis dans une deuxième section, nous présentons un premier algorithme d’ordonnancement exécutant les tâches d’une file d’attente au plus tôt. Nous discutons dans une troisième partie des travaux apparentés. Finalement, nous concluons ce chapitre en présentant les limites de notre approche et les extensions possibles.

9.1. Architecture 79

D e c i s i o n M o d u l e dm = . . . ;

C o n f i g u r a t i o n sample = dm . compute ( ) ;

C h o c o S o l v e r model = new C h o c o S o l v e r ( c u r r e n t ) ;

f o r ( V i r t u a l M a c h i n e vm : sample . getR unnings ( ) ) { model . mustBeRunning (vm) ;

}

f o r ( V i r t u a l M a c h i n e vm : sample . g e t W a i t i n g s ( ) ) {

15 model . mustBeOnFarm (vm) ; }

f o r ( V i r t u a l M a c h i n e vm : sample . g e t S l e e p i n g s ( ) ) { model . mustBeOnFarm (vm) ;

}

20 f o r ( V i r t u a l M a c h i n e vm : model . g e t I n i t i a l C o n f i g u r a t i o n ( ) . getR unnings ( ) ) { i f ( ! sample . getR unnings ( ) . c o n t a i n s (vm) &&

! sample . g e t W a i t i n g s ( ) . c o n t a i n s (vm) &&

! sample . g e t S l e e p i n g s ( ) . c o n t a i n s (vm) ) { model . mustBeStopped (vm) ;

25 }

}

f o r ( Node node : sample . g e t O n l i n e s ( ) ) { model . setKnapSackOnNode ( node ,

30 Node .MEMORY TOTAL,

V i r t u a l M a c h i n e .MEMORY) ; model . setKnapSackOnNode ( node ,

Node . CPU CAPACITY,

V i r t u a l M a c h i n e .CPU CONSUMPTION) ;

35 }

i f ( sample . getR unnings ( ) . s i z e ( ) > 0 ) {

model . a d d C o n s t r a i n t (new SymetryBreakingVMPP ( model ) ) ; }

V i r t u a l M a c h i n e S e l e c t o r s = new B i g g e s t V i r t u a l M a c h i n e s F i r s t ( model ,

40 V i r t u a l M a c h i n e .MEMORY) ;

model . s e t V i r t u a l M a c h i n e S e l e c t o r ( s ) ;

model . s e t N o d e S e l e c t o r (new S t a y F i r s t N o d e S e l e c t o r ( model ) ) ; i f ( model . s o l v e (t h i s. getTimeout ( ) ) ) {

return model . g e t R e s u l t i n g C o n f i g u r a t i o n ( ) ;

45 }

return model . g e t R e s u l t i n g C o n f i g u r a t i o n ( ) ; }

}

Listing 9.1 – Extrait de l’impl´ementation de RJAP dans Entropy

9.1.2 Impl´ ementation du changement de contexte de tˆ aches

Réaliser un changement de contexte de tâches à base de machines virtuelles implique de changer l’état d’un ensemble de machines virtuelles appartenant à une même tâche de manière cohérente. Lorsqu’une tâche exécute une application distribuée, chaque composant de celle-ci est embarqué dans une machine virtuelle et communique avec les autres au travers d’un réseau par un protocole tel que TCP. Ce dernier tolère la perte de paquets et leur déséquencement et autorise un délai maximum d’attente avant de considérer la connexion perdue.

Nous avons considéré dans le Chapitre 6, lors de la définition d’une configuration, que toutes les machines virtuelles d’une même tâche devaient être dans le même état. Cependant, il n’existe pas d’actions

permettant de changer l’état de l’ensemble des machines virtuelles d’une tâche de manière atomique : les actions de lancement, d’arrêt, de suspension et de reprise permettent de changer uniquement l’état d’une seule machine virtuelle. Durant la reconfiguration, les configurations transitoires résultantes de l’application d’une étape peuvent donc décrire des tâches où les machines virtuelles seront potentiellement dans des états différents pendant un temps supérieur à celui toléré par le protocole de transport. Cette situation met les applications distribuées en faute. Si l’on souhaite empêcher ces erreurs, nous devons nous assurer que la suspension et la reprise des machines virtuelles d’une même tâche n’entraˆınent pas une perte de paquets non absorbable par le protocole de transport, mais également que le délai maximum entre l’exécution de la première et de la dernière action est inférieur au délai maximal toléré par le protocole.

Différentes expériences tel que celles conduites par Emenekeret al.[ES06] montrent que les applications distribuées ne sont pas mises en faute lorsque les actions de suspension et la reprise des machines virtuelles sont réalisées toujours dans le même ordre et au même moment ou dans un intervalle de temps court.

L’algorithme de création de plan décrit dans le Chapitre 8 ne permet pas de réunir ces conditions car il considère chaque machine virtuelle indépendamment.

Nous proposons ainsi de modifier le plan de reconfiguration pour regrouper les actions manipulant une même tâche afin de toutes les exécuter dans une courte période. Les actions de suspension de tâches sont naturellement regroupées dans la première étape (elles sont par principe toujours faisables). Les actions de reprise sont quant à elles regroupées dans la dernière étape contenant une de ces actions. Il n’est en effet pas possible de les regrouper dans une étape antérieure sans se heurter à des problèmes de dépendances entre actions. Afin de maintenir l’ordre d’exécution des actions, celles-ci sont triées selon l’identifiant de la machine virtuelle. Pour assurer un délai d’exécution des actions inférieur au délai maximal d’attente du protocole de transport, les actions de suspension et de reprise sont toutes décomposées en deux sous-actions. Dans le cas de la suspension, nous réalisons d’abord une pause de la machine virtuelle, cette opération, d’une durée très courte, suspend l’activité de la machine virtuelle mais laisse son état dans la mémoire vive. Ensuite, la deuxième sous-action sauvegarde l’état de la machine virtuelle dans un fichier.

L’action de reprise réalise ces deux actions dans le sens inverse. La suspension des machines virtuelles d’une tâche consiste alors à exécuter séquentiellement toutes les actions de pause, puis d’exécuter en parallèle toutes les actions de sauvegarde d’état. La reprise quant à elle réalise d’abord une restauration de toutes les machines virtuelles en parallèle puis relance toutes les machines virtuelles séquentiellement.

Ce processus assure la fiabilité de l’opération, tout en exécutant en parallèle les opérations d’écriture et de lecture de la mémoire qui sont coûteuses en temps et en performance.

Les Figures 9.1 et 9.2 décrivent respectivement un plan de reconfiguration basique et sa version modifiée qui maintient la cohérence des états de 3 tâches j1, j2 et j3. La tâche j1 est composée des machines virtuellesvm1,vm2 etvm3, la tâchej2 est composée des machines virtuellesvm4 etvm5et la tâchej3est composée des machines virtuellesvm6,vm7 et vm8.

s1: suspension(vm1) & suspension(vm2) & suspension(vm3) & migration(vm6) s2: reprise(vm4)

s3: migration(vm7)

s4: reprise(vm5) & migration(vm8)

Figure 9.1 – Plan de reconfiguration initiale en 4 étapes exécutées séquentiellement. L’opérateur ’ & ’ indique le parallélisme

s1: pause(vm1); pause(vm2); pause(vm3);

(sauvegarde(vm1) & sauvegarde(vm2) & sauvegarde(vm3) & migration(vm6)) s2: migration(vm7)

s3: (restaure(vm4) & restaure(vm5));

((relance(vm4); relance(vm5)) & migration(vm8))

Figure 9.2 – Plan de reconfiguration, modifié depuis la Figure 9.1, maintenant la cohérence des états dans les tâchesj1,j2 etj3. L’opérateur ’; ’ indique la séquentialité.

L’implémentation du changement de contexte est réalisée en modifiant l’implémentation du VMRP

Dans le document Gestion dynamique des tâches dans les grappes, une approche à base de machines virtuelles (Page 90-93)