Analyse et perspectives du passage `a grande ´echelle

Exp´erimentation

6.6 Analyse et perspectives du passage `a grande ´echelle

Dans les sections précédentes, nous avons présenté une implémentation de DREAMqui fournit la possibilité d’exécuter des applications respectant l’API Agent A3. Nous avons démontré la faisabilité d’un intergiciel asynchrone adaptable avec notre modèle. Mais nous n’avons pas abordé la notion de déploiement et de configuration distribuée à grande échelle. En effet, le processus proposé dans la section 5.6 n’a pas pu être mis en oeuvre par manque de temps. Et bien que les concepts proposés soient très prometteurs, ils nous semblent incomplets et mériteraient d’être plus approfondis.

Cette section tente donc de dresser une étude qualitative de notre proposition de processus. Nous abordons les points qui mériteraient d’être plus aboutis et nous proposons des pistes pour le futur.

6.6.1 Initialisation (bootstrap)

Dans notre proposition, nous partons d’une hypoth`ese simple qui est l’omnipr´esence des LA.

Ainsi, il est n´ecessaire que tous les sites qui veulent recevoir un«bout»d’intergiciel poss`edent un LA.

Minimalité Cette hypothèse peut paraˆıtre très restrictive car elle impose la présence d’un«bout de code»avant tout déploiement. Cela pose deux problèmes :

1. Comment le LA est-t-il lui-mˆeme mis en place sur ce site ?

2. La complexité du processus rend le LA relativement coûteux en termes de place mémoire et de temps processeur.

Le premier point est clairement un problème récurrent qui n’a pas de solution évidente et idéale.

On pourrait, par exemple, imaginer qu’il y a un processus léger présent comme service système qui permettrait de charger en mémoire des LA. Mais se pose alors la question du déploiement des LA qui nécessiterait un processus de déploiement, etc. ! Il est évident que l’on peut toujours aller plus loin dans la minimalité des mécanismes présents mais cela ne fait que reporter le problème. C’est pourquoi nous pensons que notre solution à base de LA sur chaque site est un bon compromis entre minimalité de service de déploiement (c’est-à-dire un service permettant, au moins, d’instancier un

6 Des travaux sur la hiérarchisation du nommage, en corrélation avec les domaines de configuration, sont en cours d’élaboration mais ne sont pas assez aboutis pour être exposés ici.

6.6. ANALYSE ET PERSPECTIVES DU PASSAGE À GRANDE ÉCHELLE 133 intergiciel localement) et support scalable de déploiement (c’est-à-dire un service qui peut répondre aux problèmes de grande échelle, de gestion de pannes, etc.).

Le deuxième point soulevé est le coût d’un tel processus sur les performances du site de déploiement. La réponse la plus simple à cette question est qu’il n’est pas possible de fournir une solution qui soit à la fois fiable, performante et«légère». Il est donc nécessaire de faire un choix sur l’importance d’un processus de déploiement de l’intergiciel et ce choix doit être fait par l’administra-teur du système.

LA, domaines et connaissance globale L’initialisation des LA est réalisée avec l’hypothèse qu’ils se connaissent tous, c’est-à-dire que chaque LA est capable d’envoyer un message à n’importe quel LA. Il est évident que cette hypothèse nuit grandement à la dynamicité du processus de déploiement.

Il est en effet impossible de rajouter un site, dans l’ensemble des sites déjà présents, qui n’aurait pas

été préalablement déclarés.

La solution pourrait être d’utiliser les domaines comme groupes de sites dynamiques. Au lieu de découper arbitrairement les domaines comme c’est le cas actuellement, il serait plus pertinent d’utiliser la topologie du réseau en déléguant la connaissance à une tête de pont par exemple. Il serait intéressant de réaliser ce découpage à l’aide d’un algorithme automatisé qui prendrait en paramètre la répartition géographique des sites ou les propriétés des sites par exemple. De la même manière, le LA-maˆıtre est choisi de façon arbitraire, il s’agit du premier LA rencontré dans la description globale.

Mais le choix du LA-maˆıtre pourrait tout à fait être dicté par des choix topologiques (architecture du réseau par exemple), physiques (puissance de la machine par exemple) ou logiques (en fonction des applications par exemple) et définis par l’initiateur.

6.6.2 Liaisons

Dans notre processus, les liaisons sont décrites dans un fichier MDL global défini (et donné) par l’initiateur. Cette description permet au LA maˆıtre de chaque domaine de connaˆıtre précisément quel site communique avec quel autre. L’information permet un meilleur traitement des pannes car il est possible de savoir quelles sont les liaisons manquantes en cas de problème et laisse la décision à l’ini-tiateur de prendre une décision (activation avec des liaisons partielles, activation locale de certains domaines, etc.). De plus, il est possible d’envoyer un ordre d’activation même si toutes les liaisons n’ont pas été réalisées, permettant une disponibilité rapide de l’intergiciel. Mais cette fonctionna-lité peut créer des problèmes de cohérence de l’intergiciel, si une liaison est manquante alors que l’intergiciel en avait absolument besoin pour fonctionner correctement.

La description de configuration pourrait donc être étoffée d’une notion de liaisons requises,

c’est-à-dire des liaisons qui sont indispensables au bon fonctionnement de l’intergiciel. Cette notion permet d’ajouter une sorte de connaissance sémantique de l’intergiciel en imposant des liaisons qui sont sémantiquement indispensables à l’exécution globale.

Liaisons complexes Une restriction qui serait intéressante de lever est la liaison entre les différents intergiciels. Actuellement, notre processus se limite à l’utilisation du protocole TCP pour lier deux sites. Cela a l’avantage de simplifier la gestion des liaisons car il suffit de donner le port de connexion TCP auNetworkclient pour qu’il se lie auNetworkserveur.

L’utilisation de liaisons ´elabor´ees comme celles fournies par le canevas logiciel Jonathan [88]

permettrait de décrire non seulement les liens entre les participants mais aussi le type de protocole de communication utilisé. Par exemple, on pourrait signifier que la liaison entre deux sites est sécurisée par tel ou tel protocole. Cela est réalisé dans les descriptions d’applications comme nous l’avons

vu dans le chapitre 3 et mis en oeuvre dans le déploiement applicatif de la société Scalagent (voir section 2.3.2.1).

6.6.3 Gestion des pannes

Le processus de déploiement à grande échelle est une tâche complexe qui est sujette à des pannes,

à des sites déconnectés, des blocages, etc. Il est donc essentiel de pouvoir détecter les pannes et de pouvoir y réagir pour éviter un blocage total et complet de l’ensemble des sites. Dans cette section nous présentons des débuts de réponses à la gestion des pannes en nous basant sur les travaux réalisés par la société Scalagent.

Détection Dans le processus proposé par Scalagent, la détection des pannes agit comme un contrôle de workflow qui traite les éventuelles erreurs durant le processus de déploiement. Ces erreurs sont alors notifiées à l’initiateur du déploiement.

Nous considérons qu’il existe deux pannes possibles. Soit une activité est bloquée comme par exemple lorsqu’une création ne se réalise pas ou lorsqu’une liaison ne parvient pas à son terme. Soit un LA tombe en panne, parce que son site d’exécution a subi une panne fatale par exemple.

Il existe deux possibilités de détection de pannes. La première consiste à borner le temps d’exécution d’une activité et à déclencher des erreurs lorsque le temps s’est écoulé. Il est évident que cette solution n’est pas viable dans le cadre de déploiement à très grande échelle. Le nombre d’activités à surveiller, les temps de latence des réseaux, la cohérence du bornage, etc. autant de paramètres qui rendent cette solution non applicable à grande échelle.

Une autre solution consiste à se baser sur une stratégie optimiste. Elle consiste à ne pas remonter de messages d’erreur mais à agréger et à remonter les événements d’observation permettant d’avoir, au niveau de l’initiateur, une connaissance détaillée de l’état du déploiement. Cette connaissance peut être utilisée par l’initiateur pour traiter ces pannes.

Traitement des pannes Le traitement des pannes par l’initiateur consiste à réaliser des reconfigura-tions de la configuration d’intergiciels déployée. L’initiateur peut prendre la décision d’arrêter certains groupes de sites afin de leur envoyer une nouvelle configuration. De plus, les possibilités de reconfi-guration partielle de DREAMpermettraient de mettre à jour le MOM sans pour autant empêcher les services de s’exécuter. La possibilité d’activation des sites avant configuration complète favorise la disponibilité des services.

Perspectives Nous pensons que la configuration et le déploiement à grande échelle doit se tourner vers une hiérarchisation, non seulement des mécanismes comme c’est le cas dans notre solution, mais aussi de« l’intelligence ». Ainsi, il serait plus rapide et plus efficace que les LA-maˆıtres de domaine prennent des décisions de reconfiguration sans pour autant faire nécessairement remonter des informations et attendre une décision « d’en haut ». Néanmoins, de nombreux problèmes se posent quant à la reconfiguration des sites, car un changement sur un site peut avoir des conséquences tout un ensemble de sites et les décisions locales peuvent se révéler catastrophiques pour l’ensemble des sites. Cette hiérarchisation de l’intelligence de traitement nous semble donc une des grandes voies

`a suivre dans la continuit´e de ce travail.

Conclusion

Dans le document INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE (Page 148-151)