Définition et propriétés

Send I1,I2,I3,I4 Recv I

H = HISTO(I) H = HISTO(I) H = HISTO(I) H = HISTO(I)

H = SUMHISTO(H1,H2,H3,H4) I1,I2,I3,I4 = ROWBLOCK(I) Recv H1,H2,H3,H4 Send H Send H Recv I Send H Recv I Send H Recv I Send H

D’un point de vue très général, une application parallèle est décomposable

en deux entit´es distinctes mais intimement li´ees. On trouve d’une part les

fonctions séquentielles de calcul liées aux différentes étapes algorithmiques de

l’application et d’autre part divers m´ecanismes de coordination regroupant

et liant ces fonctions de calcul. Une application parall`ele est donc un

ensem-ble constitu´e de fonctions de calcul s´equentielles et d’un harnais de

communication. C’est généralement dans cette deuxième partie de code

que l’on prend en compte les caract´eristiques de la machine cible (allocation

des ressources, synchronisation, communication, etc.).

Figure 2.1: Exemple de harnais de communication

L’examen a posteriori d’applications parallélisées “à la main”

montre

que l’exploitation du parallélisme (à travers la mise en œuvre des mécanismes

de coordination des calculs) n’utilise qu’un ensemble limit´e de techniques

et de schémas de parallélisation récurrents. Cette constatation est

partic-uli`erement ´evidente dans le cas d’algorithmes deTIbas niveau pour lesquels

le résultat final est obtenu par fusion de résultats intermédiaires calculés sur

un ensemble de domaines issus d’une partition initiale. Le harnais de

com-munication utilisé possède alors toujours la même structure illustrée sur la

Par exemple, dans le corpus d’applications d´evelopp´ees pour la plate-forme Transvision

au LASMEA.

figure 2.1. Cet exemple d´ecrit succinctement la parall´elisation d’un

algo-rithme de calcul d’histogramme des niveaux de gris de l’image o`u rowblock

est la fonction g´erant la partition des images en bandes,seqhisto une fonction

s´equentielle de calcul d’histogramme et sum histo somme les histogrammes

calcul´es sur chaque bande.

A partir de là, on peut être tenté de franchir un niveau d’abstraction

et d’encapsuler ce couple (fonctions s´equentielles-harnais de

communica-tion) sous la forme d’un constructeur générique réutilisable et paramétrable

par les fonctions de calcul spécifiques à une application donnée.

For-malis´ee par Cole[Col89] et Skillicorn[Ski90], cette approche d´ebouche sur

la notion de squelettes de parall´elisation. Un squelette est donc une

spécification incomplète d’une forme de parallélisme commune à un grand

nombre d’applications, que le programmeur va sp´ecialiser avec ses fonctions

de calcul s´equentiel. Pour ce programmeur, l’implantation du squelette sur

une plate-forme est compl`etement cach´ee : les squelettes encapsulent tous

les aspects — placement, communications, synchronisations — relatifs `a

l’expression d’une forme de parall´elisme. En un sens, ils sont `a la

program-mation parallèle ce que la programprogram-mation structurée est à celle reposant sur

l’utilisation de instructions goto/label[BDP93].

Cette encapsulation des détails relatifs au parallélisme offre des propriétés

extrêmement intéressantes. Premièrement, le programmeur d’applications

voit son travail de parall´elisation fortement s’amoindrir puisqu’il n’a plus `a

traiter les aspects bas niveau d’implantation. Le travail de parall´elisation

est dès lors limité auchoixet à l’instanciation des squelettes en dehors de

toutes consid´erations sur les caract´eristiques de la machine.

Deuxi`emement, l’implantation d’un squelette sur une architecture

donnée, étant réalisée une fois pour toute, peut être précisément étudiée

et optimis´ee par le programmeur syst`eme garantissant ainsi une grande

effi-cacit´e.

Troisièmement, étant donné que le programmeur d’applications voit son

travail réduit au développement de fonctions de calcul séquentiel (par

exem-ple dans un langage imp´eratif classique comme le C), une plus grande

porta-bilit´e des applications est garantie. En cas de changement architectural,

voire de migration vers une autre plate-forme, le travail de r´eimplantation est

limit´e au portage des squelettes par le programmeur syst`eme

, la sp´ecification

des applications demeurant inchang´ee.

Quatri`emement, l’implantation d’un squelette sur une architecture ´etant

Notons tout de mˆeme que ce portage n’est pas forc´ement trivial mais qu’au moins,

celui-ci n’est effectu´e qu’une seule fois.

parfaitement connue, il est envisageable de mod´eliser son comportement et

d’en déduire un modèle analytique de performances paramétré à la fois par

les caract´eristiques mat´erielles (nombre de processeurs, vitesse des liens, etc.)

et par les caract´eristiques algorithmiques (temps d’ex´ecution des fonctions

de calcul, type et taille des donn´ees, etc.).

En résumé, les squelettes de parallélisation offrent des propriétés

de sp´ecification haut niveau permettant de concilier des exigences

d’abstraction et d’efficacité du code. Ils répondent à la plupart des

exi-gences d’un modèle idéal de programmation parallèle énoncées au chapitre

précédent à savoir facilité de programmation, indépendance vis à vis de

l’architecture, efficacit´e des implantations et pr´ediction des performances. Un

outil de développement basé sur ces constructeurs génériques semble donc

na-turellement bien plac´e pour satisfaire nos objectifs deprototypage rapide

d’applications sur architecture d´edi´ee.

Toutefois, malgré ces qualités, il subsiste une restriction majeure à leur

utilisation en tant que modèle de référence en programmation parallèle. Ils

imposent en effet au programmeur de construire ses applications `a partir

d’une collection finie de constructeurs et rien ne peut garantir que cette