Correction des limitations - Vers une gestion coopérative des infrastructures virtualisées à la

Une fois l’évaluation de DVMS terminée, plusieurs possibilités s’offrent à nous pour venir à bout des limitations actuelles du prototype.

9.2.1 Gestion de la tolérance aux pannes

Réparation de l’anneau

Rendre DVMS tolérant aux pannes implique tout d’abord de rendre l’anneau tolérant aux pannes. À l’heure actuelle, si un nœud Ni tombe, un événement transi-tant par le nœud N_i−1ne peut plus arriver jusqu’au nœud Ni+1, à moins que N_i−1 connaisse un raccourci vers un nœud Nj (j 6= i).

Pour préserver l’intégrité de l’anneau, nous pouvons par exemple utiliser les al-gorithmes proposés pour Chord [SMLN+03]. L’idée principale est de faire en sorte que chaque nœud connaisse non seulement son voisin, mais également son 21 ème successeur, son 22 ème successeur, et ainsi de suite jusqu’au 2i ème successeur, i étant fixé par l’administrateur ; lorsqu’une partie de l’anneau tombe, la commu-nication est toujours possible en passant par un successeur connu qui est encore fonctionnel.

Poursuite du traitement d’un événement

Rendre l’anneau tolérant aux pannes n’est cependant pas suffisant : il faut éga-lement rendre tout le processus de traitement d’un événement tolérant aux pannes.

Cela implique notamment que :

– le meneur d’une partition vérifie la bonne santé de l’initiateur avant de tenter de résoudre un événement ; si l’initiateur est défaillant, la partition peut être détruite, sous réserve qu’il n’y ait aucun problème sur un des autres nœuds de la partition ;

– l’initiateur d’un événement s’assure que le meneur est bien fonctionnel ; au-trement, il faut relancer l’événement afin de poursuivre le traitement ;

– tout nœud défectueux soit exclus de la partition dont il faisait parti.

9.2.2 Amélioration de la gestion des événements

Outre la gestion de la tolérance aux pannes, il serait intéressant d’affiner la ges-tion des événements.

Construction pertinente des partitions

Afin d’améliorer la gestion des événements, il est tout d’abord envisageable de réviser la manière d’agrandir les partitions : plutôt que d’intégrer dans une partition le premier nœud libre rencontré, il faudrait sélectionner un nœud qui est susceptible de faire avancer la résolution du problème.

Une première approche pourrait consister à ce que les nœuds qui sont proches sur l’anneau s’échangent régulièrement des informations sur l’état de leurs res-sources ; plutôt que de transférer un événement au premier nœud situé en dehors de la partition, il serait alors possible de sélectionner un nœud plus approprié en utilisant les informations d’état connues. Cette approche présente cependant deux inconvénients : (i) elle génère des communications réseau supplémentaires et (ii) les informations d’état peuvent devenir rapidement obsolètes, ce qui annule l’intérêt de l’approche.

Une autre possibilité serait de parcourir l’anneau normalement, mais de n’in-tégrer un nœud libre dans une partition que si l’état de ses ressources satisfait certaines conditions ; un exemple de condition serait, dans le cas d’un événement

« surutilisation », que le nœud visité puisse accueillir au moins une des machines virtuelles de l’initiateur.

Enfin, une dernière possibilité serait de fusionner/combiner les partitions qui sont associées à des événements complémentaires, par exemple un événement « su-rutilisation » et un événement « sous-utilisation ».

Limitation de la taille des partitions

Une fois les partitions construites de manière plus pertinente, il serait possible d’en limiter la taille afin de garantir la réactivité de DVMS ; nous avons en effet vu au chapitre précédent que quelques nœuds étaient suffisants dans la grande majorité des cas pour résoudre un événement.

La limitation de la taille des partitions ne doit cependant par être systématique ; elle est par exemple à éviter dans le cas d’un événement « surutilisation » car elle peut empêcher sa résolution ; en revanche, elle est particulièrement intéressante dans le cas d’un événement « sous-utilisation » pour éviter que la partition asso-ciée n’absorbe tous les nœuds libres de l’infrastructure.

Discrimination et priorité

La section précédente introduit la notion de discrimination entre (i) des événe-ments de haute priorité, comme les événeévéne-ments liés à la surutilisation d’un nœud, qui doivent absolument être résolus pour éviter de pénaliser les utilisateurs, et (ii) des événements de basse priorité, comme les événements liés à la sous-utilisation d’un nœud, qui ne sont pas critiques dans la mesure où ils visent à optimiser l’utilisation de l’infrastructure.

Il est alors envisageable de faciliter l’agrandissement des partitions associées à des événements liés à la surutilisation d’un nœud. Par exemple, une partition blo-quée associée à un événement « surutilisation » pourrait être autorisée à s’approprier les nœuds d’une partition en croissance liée à un événement « sous-utilisation ». Traitement de nouveaux types d’événements

Une dernière amélioration de DVMS en matière de gestion des événements se-rait de le rendre capable de tse-raiter de nouveaux types d’événements, comme l’arri-vée de machines virtuelles dans le système ou encore la mise en maintenance d’un nœud.

L’arrivée d’une machine virtuelle pourrait être traitée comme un événement « surutilisation »: en considérant que la machine virtuelle est hébergée sur un nœud virtuel n’ayant aucune ressource, il faudrait alors démarrer (et non migrer) cette machine virtuelle sur un nœud réel ayant la capacité de l’accueillir.

La mise en maintenance d’un nœud pourrait également être mise en place au tra-vers d’un événement « surutilisation »: il suffirait de spécifier que le nœud à mettre en maintenance ne dispose d’aucune ressource pour que ses machines virtuelles soient réparties sur d’autres nœuds.

9.2.3 Prise en compte des liens entre les machines virtuelles

Jusqu’à présent, nous avons toujours considéré les machines virtuelles de ma-nière indépendante les unes des autres ; or, les algorithmes d’ordonnancement

d’Entropy permettent de gérer des groupes de machines virtuelles qui sont liées les unes aux autres, fonctionnalité qui a été perdue lors de l’intégration avec DVMS et qu’il serait intéressant de récupérer.

Spécification d’affinités et de répulsions

Les liens entre les machines virtuelles peuvent passer par la définition d’affi-nités et de répulsions (i) entre les machines virtuelles d’un même groupe, ou bien (ii) entre un groupe de machines virtuelles et un ensemble de nœuds.

Ces affinités et répulsions doivent être définies sur le nœud chargé de l’ordon-nancement ; dans le cas de DVMS, cela implique que le meneur de chaque partition ait connaissance des contraintes de placement associées aux machines virtuelles dont il a la charge avant de débuter le calcul d’un plan de reconfiguration. Il est alors envisageable que chaque nœud connaisse les contraintes de placement rela-tives à chacune des machines virtuelles qu’il héberge et transmette ces informations au meneur sur demande de ce dernier.

Exécution d’une action sur un groupe de machines virtuelles

En dehors de la définition d’affinités et de répulsions, l’intérêt de définir des groupes de machines virtuelles réside dans la possibilité d’appliquer une même ac-tion sur l’ensemble des machines virtuelles d’un groupe, par exemple pour sus-pendre ou reprendre leur exécution, ou pour prendre un instantané.

La gestion des groupes de machines virtuelles pourrait être répartie entre les agents DVMS au moyen d’une table de hachage distribuée [RD01,RFH+01,MM02, SMLN+03,DHJ+07] ; notons que les actions effectuées sur un groupe de machines virtuelles ne doivent pas être incompatibles avec les migrations qu’un meneur est susceptible de réaliser, sous peine de générer des conflits d’ordonnancement.

Dans le document Vers une gestion coopérative des infrastructures virtualisées à large échelle : le cas de l'ordonnancement (Page 133-136)