M´ ethodologie - Exp´ erimentations - Communicationscollectivesetordonnancementenr´egimepermane

5.3 Exp´ erimentations

5.3.1 M´ ethodologie

Pour tester ces différentes stratégies pour la diffusion pipelinée de messages, nous avons d´ e-veloppé une implantation distribuée générique, qui permet d’effectuer une diffusion de messages selon un ou plusieurs arbres pondérés. Le contrôle de cette application distribuée s’apparente à une application maˆıtre-esclaves : un processus maˆıtre contrôle l’exécution de plusieurs esclaves, ou agents. Chaque agent possède donc un processus léger (outhread) qui dialogue avec le maˆıtre, pour recevoir les consignes d’exécutions et renvoyer les résultats obtenus (le débit de réception qu’il a observé).

En fonction des consignes re¸cues du maˆıtre, un agent cr´ee pour chaque arbre de diffusion, les processus l´eger suivants :

– si l’agent n’est pas la source de la diffusion, un processus de réception est créé, qui stocke les messages re¸cus pour cet arbre dans une mémoire tampon,

– si l’agent n’est pas une feuille de l’arbre, un processus léger d’émission est créé pour chaque fils du nœud dans l’arbre : c’est lui qui se charge de transmettre les messages stockés dans la mémoire tampon à ce fils.

processus maˆıtre

E R

C M

Fig. 5.1 – Structure d’un agent communiquant, pour deux arbres de diffusions. Les processus légers E,R et C sont respectivement les émetteurs, récepteurs et le coordinateur qui re¸coit les consignes du maˆıtre et lui renvoie le débit de réception. M désigne la mémoire tampon pour chaque arbre de diffusion.

La figure5.1 repr´esente l’architecture du programme obtenu.

Une mémoire tampon est donc créée pour stocker les messages re¸cus qui doivent être retrans-mis. Cette mémoire est de taille fixe (capable de contenir 20 messages dans nos expériences) et elle est utilisée de fa¸con circulaire (du typeround-robin). Avant de réutiliser une case de cette mémoire pour stocker un nouveau message arrivé, il faut s’assurer que tous les agents émetteurs ont bien réémis le message qui s’y trouvait. Ceci est fait à l’aide de sémaphores, en utilisant un mécanisme classique de producteurs/consommateurs.

Plusieurs arbres peuvent être utilisés simultanément. Pour éviter que les messages de diff´ e-rents arbres ne s’interchangent, chaque arbre utilise un port de communication TCP différent : lors de l’établissement des connexions, un processus récepteur qui vient d’être créé signifie au maˆıtre son adresse IP et le port sur lequel il écoute. Ces informations sont ensuite transmises au processus émetteur qui doit lui envoyer les messages de cet arbre, qui peut alors initialiser la connexion. De plus, les messages sont étiquetés avec leur numéro dans la série et l’arbre sur lequel ils sont diffusés, ce qui permet de vérifier la cohérence de ces informations à chaque réception d’un nouveau message. Lorsque plusieurs arbres sont créés, le nombre de messages à diffuser sur chaque arbre est calculé pour être proportionnel au débit qu’on désire lui affecter.

On fournit au processus maˆıtre un fichier de description de la plate-forme à utiliser, qui lui permet de contacter chaque agent, et un fichier détaillant les tests à effectuer. C’est lui qui exécute les algorithmes des différentes heuristiques présentées ci-dessus, qui détermine et distri-bue aux agents les consignes permettant d’effectuer la stratégie voulue. Pour chaque diffusion,

nous utilisons une série de 10 000 messages de taille 20 000 octets, ce qui conduit à des tests de quelques minutes. Ces messages sont générés de fa¸con aléatoire par le nœud qui se trouve à la source de la diffusion. À la fin d’une opération de diffusion, le maˆıtre re¸coit le débit de réception de chaque nœud et calcule le minimum de ces débits, qui est considéré comme le débit de la diffusion. Il est ensuite possible de redémarrer une autre opération de diffusion, avec d’autres paramètres, sans déployer à nouveau toute l’application.

Topologie de tests

Le projet Grid5000 vise à construire une grille de calcul fran¸caise pour la recherche, en rassemblant des machines localisées dans neuf sites en France. Le nombre de processeurs, qui doit atteindre 5000 à terme, est à l’heure actuel de près de 2500. Les sites et leur réseau d’in-terconnexion par Renater 4 sont représentées sur la figure 5.2(a). Dans la période où nous avons conduit nos simulations, nous avons pu avoir accès à 75 machines, réparties sur huit sites (Rennes, Nancy, Orsay, Lyon, Grenoble, Lille, Sophia-Antipolis et Bordeaux). Ces machines sont réparties comme illustré sur la figure 5.2(b). Chaque ensemble de machines dans un même site est modélisé comme un graphe complètement connecté, et nous ajoutons des liens distants en nous inspirant de la topologie réseau de Grid5000. Le choix de ces liens longue distance est un peu arbitraire, car rien ne nous empêcherait d’ouvrir une connexion entre par exemple Rennes et Sophia-Antipolis, mais nous tentons de prendre en compte les informations sur la topologie du réseau de la figure 5.2(a). Le graphe d’interconnexion de ces sites utilisé par la suite est décrit à la figure 5.2(b).

(a) Le r´eseau Renater 4 reliant les sites de Grid5000.

9 10

10 10

7 5

(b) Topologie utilis´ee pour les tests

Fig. 5.2 – Plate-forme de test, avec le nombre de machines utilisées sur chaque site. Les deux cercles pour Rennes représentent deux grappes de calcul situées sur un même site géographique, mais considérées comme deux sites distincts.

Pour pouvoir utiliser les différentes stratégies de diffusion, nous devons instancier les para-mètres de la plate-forme. Pour le modèle de communication un-port, nous devons par exemple connaˆıtre le coût d’envoi d’un message de taille unité sur chaque arête, c’est-à-dire mesurer ces

valeurs sur la plate-forme. Ces mesures sont effectuées par l’application elle-même, en utilisant un petit arbre de diffusion : pour tester la capacité de l’arête (i, j), nous créons un arbre avec P_source=P_iet comportant une seule arête (i, j). Une fois le débit de réception mesuré et renvoyé au maˆıtre par Pj, le maˆıtre connaˆıt la bande-passante de l’arête (i, j). Ainsi que nous l’avons

enoncé dans la présentation du modèle multi-port (partie 5.1), nous supposons que le coût de transmission d’un message de taille unité est l’inverse de la bande-passante.

Pour le modèle multi-port borné, le maˆıtre doit connaˆıtre la bande-passante de chaque lien, déjà mesurée, et la bande-passante total en sortie et en entrée de chaque processeur. Pour calculer la bande-passante en sortie d’un processeurPi, nous créons également des petits arbres de diffusion, enracinés en Pi. Un arbre est créé pour chaque arête sortante (i, j) de Pi, qui ne comporte que cette arête. Nous mesurons le débit total en sortie deP_i et considérons qu’il s’agit de la bande-passante Bout(Pi). Remarquons qu’il aurait été tentant d’utiliser un seul arbre de diffusion, dont la source serait Pi et qui aurait comme arêtes toutes les arêtes sortantes de Pi

dans G. Cependant, à cause de la taille limitée de la mémoire tampon contenant les messages

a envoyer, toutes les connexions sortantes verraient rapidement leur débit aligné sur le débit minimal d’une connexion. Nous préférons donc créer des arbres différents pour chaque arête, qui ont chacun leur propre mémoire tampon, et ne sont donc pas limités par les autres arêtes.

Nous procédons de même pour la bande-passanteB_in(P_i) en entrée d’un processeur P_i.

Toutes ces mesures préliminaires de bande-passante sont effectuées en diffusant 1000 mes-sages de tailles 20 000 octets, ce qui prend quelques secondes pour chaque test. On peut se permettre d’utiliser un nombre de messages plus petit que pour mesurer le débit d’une diffu-sion, car l’obtention du régime permanent est beaucoup plus rapide sur une seule arête, ou un petit nombre d’arêtes entrant ou sortant d’un nœud, que sur un ou plusieurs arbres de diffusion couvrant tous les nœuds.

Dans le document Communicationscollectivesetordonnancementenrégimepermanentsurplates-formeshétérogènes parMonsieurLorisMARCHAL THÈSE (Page 114-117)