• Aucun résultat trouvé

Dans cette partie, nous ´etudions les diff´erents mod´elisations de plates-formes qui ont d´ej`a ´et´e propos´ees, en discutant leurs avantages et leurs inconv´enients, puis nous d´ecrivons les mod`eles que nous utiliserons dans ce manuscrit.

1.2.1 Mod`eles homog`enes

Dans le mod`ele utilis´e par Bertsimas et Gamarnik pour ´etudier le routage de messages, le transfert d’un message sur une arˆete du graphe de communication prend un temps unit´e, et toutes les arˆetes peuvent ˆetre utilis´ees simultan´ement. Au contraire, dans le mod`ele du

t´el´ephone(outelephone call model), un processeur ne peut participer qu’`a une seule communi-cation, soit en tant qu’´emetteur, soit en tant que r´ecepteur. Ce mod`ele est homog`ene car toutes les communications prennent un temps unit´e. ´Elaborer un ordonnancement pour un ensemble de communications dans ce mod`ele revient `a trouver un ensemble de couplages entre les nœuds du graphe. C’est par exemple ce que font Khuller et al. [67] pour des probl`emes de communications collectives.

Des mod`eles plus ´elabor´es ont ´et´e imagin´es pour prendre en compte les diff´erents param`etres intervenant dans la mod´elisation des machines parall`eles. On peut citer le mod`ele LogP [46,45], et son extension LogGP au messages de grande taille [3].

Ces mod`eles homog`enes ont permis d’´etudier l’ordonnancement de communication sur des topologies structur´ees, comme les grilles ou les tores `andimensions, et les hypercubes [97,59].

Les algorithmes de communications collectives de l’implantation MPICH du standard MPI s’appuient ´egalement sur une mod´elisation homog`ene des grappes de calcul, prenant en compte latence et bande-passante et faisant une distinction entre les messages de petite taille (pour lesquels la latence est pr´epond´erante) et les messages de grande taille [95].

1.2.2 Mod`eles h´et´erog`enes

Les mod`eles homog`enes ont ensuite ´et´e adapt´es pour prendre en compte l’h´et´erog´en´eit´e des r´eseaux d’interconnexion. Une variante h´et´erog`ene du mod`ele LogP a ´et´e propos´ee : le mod`ele LogP param´etr´e [68], qui poss`ede de nombreux param`etres difficiles `a mesurer.

Banikazemi et al. [8] introduisent un mod`ele simple dans lequel l’h´et´erog´en´eit´e est caract´ e-ris´ee par des temps d’envoi de messages diff´erents pour chaque processeurs. Dans ce mod`ele, le r´eseau d’interconnexion est un graphe complet, chaque processeur Pi envoie un message en un temps ti `a n’importe quel autre processeur. Les auteurs expliquent que ce mod`ele simple d’h´et´erog´en´eit´e suffit `a d´ecrire les diff´erents coˆuts de communication dans une grappe h´et´ e-rog`ene. Les communications collectives, et en particulier la diffusion, ont ´et´e ´etudi´ees avec ce mod`ele [58,77,76].

Ce mod`ele de coˆut de communication a aussi ´et´e utilis´e pour ´etudier des r´eseaux constitu´e de deux types de nœuds : les commutateurs du r´eseau (ou switch) et les processeurs. Dans ce cas, on suppose qu’une communication entre deux processeurs occupe tous les liens sur la route entre ces processeurs (routagewormhole). Des r´esultats ont ´et´e obtenus pour les communications collectives sous ce mod`ele [74,75].

Un autre mod`ele de communication est encore introduit dans [31, 30] pour les communi-cations collectives : le temps n´ecessaire au transfert d’un message entre Pi et Pj est compos´e d’une latence fixe Ti,j et d’une partie d´ependant de la taille m du message Bm

i,j. Dans le cas de la diffusion et de nombreuses autres communications collectives, la taille des messages est la mˆeme, le temps de communication d’un message dePi `a Pj est donc Ci,j =Ti,j+Bm

i,j. 1.2.3 Mod`eles multi-port

Les mod`eles pr´ec´edents sont une g´en´eralisation au cas h´et´erog`ene du mod`ele du t´el´ephone, en ce qu’ils n’autorisent un processeur `a communiquer qu’avec un seul autre processeur `a un instant donn´e. On leur donne la caract´eristique de mod`ele un-port, en consid´erant qu’une machine

poss`ede un seul port pour g´erer les communications. Il existe ´egalement des mod`eles multi-port qui supposent que plusieurs communications peuvent avoir lieu simultan´ement sur le mˆeme processeur, sous certaines contraintes.

Dans le mod`ele propos´e par Banikazemi et al. [9], le coˆut d’une communication d’un message de taille Ldu processeur Pi au processeurPj ˆetre d´ecompos´e en trois parties cons´ecutives :

sendi,j +Ti,j(L) +recvi,j

L’occupation du processeur ´emetteur, du lien de communication, et du processeur r´ecepteur est repr´esent´ee sur la figure1.1(a). Le processeur ´emetteurPi est en particulier occup´e pendant sendi,j unit´es de temps, mais peut ensuite commencer une autre ´emission de message alors que le premier transfert n’est pas termin´e.

Bar-Noy propose un mod`ele tr`es proche de celui de Banikazemi dans [11]. La seule diff´erence est le recouvrement entre les diff´erentes parties du temps de transfert du message, qui correspond

`

a la figure 1.1(b) : ici, le lien de communication est occup´e pendant tous le transfert, alors que dans le mod`ele pr´ec´edent, il n’´etait occup´e qu’apr`es le temps d’initialisation sendi,j par le processeur ´emetteur et avant le temps de finalisationrecvi,j par le r´ecepteur.

temps recv2,3

T2,3(L) send2,3

P3

liene2,3

P2

(a) Mod`ele de Banikazemi [9]

temps recvv

Pv

Tu,v(L) lieneu,v

sendu

Pu

(b) Mod`ele de Bar-Noy [11]

Fig. 1.1 – D´ecomposition du transfert d’un message pour des mod`eles multi-port.

A. Rosenberg propose ´egalement un mod`ele d´ecomposant l’envoi d’un message en plusieurs partie, prenant en compte le processeur ´emetteur, les interfaces de communication et le pro-cesseur r´ecepteur dans [85,1]. Cependant, la complexit´e d’un tel mod`ele rend d´elicat l’analyse d’ordonnancements.

B. Hong et V. Prasanna proposent dans [63] un mod`ele beaucoup plus simple pour le multi-port : dans leur mod`elemulti-port born´e, un nombre illimit´e de transferts de messages peuvent coexister sur un mˆeme lien, ou ˆetre initi´es par un mˆeme processeur, pourvu que des contraintes de capacit´es soient respect´ees : la bande-passante totale sur un lien est limit´ee, de mˆeme que la bande-passante totale en entr´ee ou en sortie d’un processeur, ce qui correspond `a la limitation de l’interface r´eseau de chaque machine.

1.2.4 Autres travaux pr´ec´edents

Les principaux travaux th´eoriques d’optimisation de communications collectives sur les mo-d`eles homog`enes, h´et´erog`enes et multi-port ont ´et´e cit´es dans les parties pr´ec´edentes. Il convient n´eanmoins de citer quelques autres travaux se rapportant `a notre ´etude.

Techniques d’optimisation. Les techniques d’optimisation par programmation lin´eaire que nous utilisons sont principalement inspir´ees par l’´etude de Bertsimas et Gamarnik pr´esent´e dans la partie pr´ec´edente. Nous utilisons ´egalement au chapitre7une technique d’arrondi d’une solution rationnelle d’un programme lin´eaire vers une solution enti`ere qui s’inspire des travaux de Coudert et Rivano [44]. Bar-Noy et al.[12] proposent ´egalement une technique d’arrondi vers une solution enti`ere pour l’ordonnancement de tˆaches avec date d’arriv´ee et date limite d’ex´ecution.

L’utilisation concurrente de plusieurs arbres afin d’optimiser le d´ebit d’une diffusion a d’abord ´et´e ´etudi´ee sur les topologies homog`enes. On peut par exemple citer le cas de l’hyper-cube de dimensionn, dans lequel on peut construirenarbres couvrant arˆetes-disjoints enracin´es en un processeur, ce qui permet une diffusion tr`es efficace. Plus r´ecemment dans le contexte des r´eseaux pair-`a-pair, ce principe a ´et´e utilis´e dans Splitstream [38], en cherchant `a minimiser l’occupation des nœuds et leur degr´e sortant, afin de maximiser le d´ebit de la diffusion. L’´etude utilisant ce principe d’arbres de diffusion concurrents qui est la plus proche de la notre est sans doute celle de den Burger et al.[32], qui utilise plusieurs arbres pour effectuer une diffusion sur des grilles de calcul. Remarquant que le nombre d’arbres de diffusion `a consid´erer est exponen-tiel, les auteurs de cette ´etude commencent par s´electionner un ensemble d’arbres int´eressants, g´en´er´es par plusieurs heuristiques de recherche d’arbre de meilleur d´ebit. Ils utilisent ensuite cet ensemble restreint d’arbres d’une fa¸con tr`es proche de la notre, en ´ecrivant un programme lin´eaire qui a pour variables les d´ebits des diff´erents arbres, et pour contraintes les limitations de bande-passante mesur´ees dans le r´eseau. Ces travaux sont valid´es par des exp´erimentations, montrant que le d´ebit total obtenu par leur implantation est sup´erieur `a celui des biblioth`eques de communication actuelles.

Biblioth`eques de communication. Il existe de nombreuses biblioth`eques de communication implantant des primitives de communications collectives, plus ou moins adapt´ees `a un environ-nement h´et´erog`ene.

PVM est une biblioth`eque de communication populaire [52], mais elle ne comprend que peu de communications collectives. Leur impl´ementation est laiss´ee `a la charge du programmeur, qui peut ainsi les adapter `a l’environnement de calcul qu’il vise, mais ceci repr´esente une grosse charge de travail.

Standard MPI Il d´efinit pr´ecis´ement de nombreuses primitives de communications. Une im-pl´ementation r´ecente, nomm´ee MPICH-G2 [64] est adapt´ee `a un environnement de calcul distribu´e, de type grille : on commence par regrouper les nœuds de calcul qui sont sur les mˆemes sous-r´eseaux en se basant sur leurs possibilit´es de communication, puis on utilise ce d´ecoupage en niveaux pour une effectuer les communications de fa¸con hi´erarchique, d’abord entre les sous-r´eseaux diff´erents, puis ensuite `a l’int´erieur d’un mˆeme sous-r´eseau.

Cependant la segmentation des messages en vue d’un pipeline des op´erations est toujours en projet pour une prochaine version.

ECO est une biblioth`eque d´edi´ee aux communications collectives sur environnement h´et´erog`ene [78]. Comme la pr´ec´edente, elle commence par regrouper les machines en sous-r´eseaux (proches des r´eseaux locaux) en mesurant la latence entre deux machines, puis effectue

´egalement un traitement hi´erarchique sur ces deux niveaux. `A l’int´erieur des sous-r´eseaux, le traitement est diff´erenci´e selon les caract´eristiques de ceux-ci, ce qui conduit par exemple

`

a des arbres de diffusion de largeur diff´erente selon le type de r´eseau.

MagPIe est une autre biblioth`eque qui impl´emente des communications collectives pour MPI sur un environnement h´et´erog`ene [69]. De la mˆeme fa¸con que les pr´ec´edentes, elle utilise un traitement en couches. La limitation `a deux couches est justifi´ee par le fait que les communications longue-distance apportent toujours une latence importance et que le gain d’une approche avec plus de couches, par exemple dans le cas d’un ensemble de grappes de machines parall`eles (donc `a 3 niveaux), est n´egligeable devant la latence incompres-sible d’un transfert sur un lien longue-distance. Les auteurs cherchent donc `a effectuer le minimum de transferts sur ce type de lien, et obtiennent ainsi des gains significatifs par rapport `a l’impl´ementation commune MPICH.

1.2.5 Choix d’un mod`ele

Le choix d’un mod`ele de communication r´esulte d’un compromis entre r´ealisme, instanciabi-lit´e et maniabilit´e pour la conception d’algorithmes. Le mod`ele de Rosenberg est probablement tr`es proche de la r´ealit´e, mais tr`es difficile `a instancier, et concevoir des algorithmes pour des sch´emas de communications complexes parait extrˆemement difficile dans ce mod`ele. En re-vanche, le mod`ele homog`ene du t´el´ephone, sans difficult´e d’instanciation, manque cruellement de r´ealisme pour les plates-formes que nous voulons ´etudier. Cependant, le fait que l’optimisa-tion du temps de diffusion d’un message soit NP-complet dans ce mod`ele met en ´evidence le caract`ere intrins`equement difficile de cette op´eration.

Le mod`ele multi-port born´e utilis´e par Hong et Prasanna [63] paraˆıt int´eressant car tr`es simple, mais ne nous semble pas assez r´ealiste en ce qui concerne l’existence de plusieurs trans-ferts simultan´es : Saif et Parashar [86] ont montr´e que les envois asynchrones de MPI ´etaient effectu´es de fa¸con s´erialis´ee d`es que la taille des donn´ees exc´edait quelque m´ega-octets, et ce pour deux impl´ementations populaire deMPI :MPICH et le MPI d’IBM sur le SP2. Nous pr´ e-f´ererons donc utiliser des mod`eles un-port, mais nous utiliserons occasionnellement ce mod`ele multi-port.

Mod`eles utilis´es dans ce manuscrit

Nous utiliserons par la suite principalement deux variantes du mod`eles un-port h´et´erog`ene, sans latence : les mod`eles un-port bidirectionnel avec recouvrement, et un-port unidirectionnel avec recouvrement.

Nous consid´erons que la plate-forme est mod´elis´ee par un graphe G = (V, E) dont les sommets sont des machines, assimil´ees `a des processeurs. Nous notons Pi les sommets de V, et nous pr´ef´ererons souvent la notation (i, j) `a la place de (Pi, Pj) pour d´esigner les arˆetes du graphe, afin de ne pas alourdir les notations.

Dans tous les cas, nous choisissons de mod´eliser la dur´ee du transfert d’un message de taille N entre les processeurs Pi etPj par

N ×ci,j,

o`u ci,j repr´esente l’inverse de la bande passante du lien de communication (i, j), c’est-`a-dire le temps n´ecessaire `a la transmission d’un message de taille unit´e sur le lien (i, j)

Dans le mod`eleun-port bidirectionnel avec recouvrement, l’interaction entre diff´erentes com-munications simultan´ees est mod´elis´ee comme suit :

– Si le processeurPi commence au temps t`a envoyer un message de tailleN au processeur Pj, alors il ne peut initier une autre ´emission avant la fin de la communication, c’est-`a-dire avant t+N ×ci,j, et le processeur Pj ne peut commencer `a recevoir un autre message avant cette date (mod`eleun-port).

– Par contre, pendant ce temps, le processeur Pi peut tout `a fait recevoir un message d’un autre processeur, etPj peut ´egalement envoyer un message `a un autre processeur (mod`ele bidirectionnel). On peut imaginer que cela repr´esente un processeur muni de deux ports de communication, un pour les envois et un pour les r´eceptions.

– Pendant la dur´ee de la communication, Pi et Pj peuvent continuer leur activit´e de cal-cul sans ˆetre ralenti par la communication (recouvrement total entre les calculs et les communications).

Dans le mod`ele un-port unidirectionnel avec recouvrement, on consid`ere qu’il n’y a qu’une seule interface de communication pour chaque processeur, en charge des communications sor-tantes et entrantes. Ainsi un processeur Pi ne peut pas simultan´ement envoyer un message `a un processeur Pj et recevoir un message d’un processeur Pk, mais ces communications doivent ˆ

etre s´erialis´ees.

Calculs Pour ´etudier des probl`emes mˆelant communications et calculs, nous mod´elisons le temps d’ex´ecution d’une tˆache T sur un processeur Pi par

zi×δT,

o`u zi est le temps de calcul d’une tˆache de taille unitaire sur le processeurPi, etδt est la taille de la tˆache T.

Latence Bien que la latence puisse ˆetre un param`etre important sur les r´eseaux de commu-nication, notre mod`ele ne la prend pas en compte. Nous faisons ce choix principalement afin de pouvoir concevoir des algorithmes de communication de d´ebit optimal. Cependant, pour des s´eries d’un grand nombre de mˆeme op´erations, tous les messages ont une mˆeme taille, qui est fix´ee par l’application, et non par l’ordonnancement : par exemple dans le cas de tˆaches ind´ e-pendantes, si un ordonnancement d´ecide d’envoyer trois tˆaches sur un mˆeme lien, ces envois seront effectu´es de mani`ere s´equentielle, et la latence devra elle aussi ˆetre compt´ee trois fois.

Dans ce cas, nous supposons que le coˆutci,j de transmission d’un message sur cette arˆete prend d´ej`a en compte cette latence. Comme nous supposons que la granularit´e des messages est fix´ee par l’application, nous pouvons rassembler les diff´erents composants du coˆut de communication (latence, bande-passante) dans ce seul param`etre ci,j.

Autres mod`eles utilis´es Nous utiliserons ´egalement le mod`ele multi-port born´e dans le cha-pitre 5, que nous pr´esenterons `a cette occasion. D’autre part, nous ´etudierons au chapitre 7 l’ordonnancement d’applications sur une plate-forme distribu´ee organis´ee comme une collection de grappes de calcul, et nous ´elaborerons `a cette occasion un mod`ele plus sp´ecifique.