Le squelette SCM (Split, Compute and Merge)

code SML

Chapitre 2 Le projet SKiPPER : SKiPPER-I

2.2 Le jeu de squelettes

2.2.2.1 Le squelette SCM (Split, Compute and Merge)

Ce squelette regroupe les schémas de parallélisme dédiés au traitement géométrique des données. Son fonctionnement est le suivant.

La donnée d’entrée (typiquement une image) est tout d’abord divisée en un nombre fixe d’éléments par la fonction utilisateur affectée à la phase split du squelette. Chaque élément ainsi obtenu est alors traité de manière totalement indépendante par une fonction utilisateur réalisant la phase compute du squelette. L’ensemble des résultats des traitements sont alors ensuite regroupés pour former un résultat définitif de l’application de ce squelette. Ce résultat est une combinaison des résultats intermédiaires. La nature de la combinaison est laissée à la discrétion de l’utilisateur par l’intermédiaire de la fonction assignée à la phase merge du squelette.

Ce squelette est dit statique, c’est-à-dire que son schéma de communication est entiè-rement connu à la compilation. On notera aussi que, si chaque fonction compute doit être placée sur un processeur différent pour obtenir une parallélisation réelle des traitements, la sé-quentialité dans l’enchaˆınement des fonctions split, compute et merge permet de placer sur un même processeur ces trois fonctions (une seule instance de la fonction compute en l’occurence).

Il faut bien noter que, du fait de sa nature mˆeme, ce squelette impose :

– qu’une même fonction utilisateur joue le rôle de la phase compute (plusieurs fonctions distinctes ne peuvent être utilisées simultanément),

– que les durées des traitements ne soient pas (trop) dépendantes des données afin de ga-rantir que toutes les processeurs finiront leurs traitements au même moment.

Ce dernier point est primordial pour garantir l’efficacité du squelette SCM. Dans le cas contraire des processeurs consommeraient du temps à attendre la fin des traitements sur d’autres processeurs. Le schéma de parallélisation ne serait alors plus adéquat, le déséquilibre de charge devenant trop important.

La figure 2.1 est un synoptique du squelette SCM auquel correspond la s´emantique

décla-rative (en Caml) ci-dessous2. Nous entendons par sémantique déclarative, celle utilisée pour permettre au programmeur de comprendre le rôle d’un squelette en dehors de toute considéra-tion architecturale. Elle peut être considérée comme l’interface du squelette.

> let scm split compute merge x =

merge ( map compute ( split x ) )

A cette sémantique déclarative correspond la signature suivante (qui établit notamment le type des fonctions qui seront passées en arguments du squelette) :

# val scm :

(’a -> ’b list) (* fonction de division *)

-> (’b -> ’c) (* fonction de traitement *)

-> (’c list -> ’d) (* fonction de fusion *)

-> ’a (* donnee *)

-> ’d (* resultat *)

La figure 2.2 donne quant `a elle un exemple d’ex´ecution (placement et ordonnancement) du squelette SCM sur une architecture a quatre processeurs.

Les algorithmes vis´es par ce squelette sont donc, dans le domaine du traitement d’images, les algorithmes bas niveau de pr´e-traitement tels que :

- convolutions, - filtres,

- histogrammes.

Se reporter à l’annexe A page 177 pour un complément d’information sur la syntaxe Caml de la sémantique présentée.

Y3 SPLIT(X)=(X1,...,Xn) Yi=COMPUTE(Xi) X Y=MERGE(Y1,...,Yn) X3 ^Xn X1 Y1 Y2 Yn X2 Y FIG. 2.1 – Synoptique du squelette SCM.

COMPUTE COMPUTE COMPUTE COMPUTE

P3 (esclave) SPLIT MERGE X X0 X1 X2 X3 Y0 Y1 Y2 Y3 Y

P0 (maitre) P1 (esclave) P2 (esclave)

2.2.2.2 Le squelette DF (Data Farming)

Le squelette DF sert à appliquer en parallèle une fonction à tous les éléments d’une liste de données et à combiner les résultats. Il a été spécialement con¸cu pour gérer les cas où, soit le temps de traitement des données par les processeurs n’est pas uniforme, soit le nombre de données à traiter n’est pas connu à l’avance, voire les deux à la fois. Le temps de calcul dépend alors directement des données qui sont manipulées. C’est notamment le cas lorsque les algo-rithmes de vision artificielle ne se contentent plus de traiter des images brutes mais des indices visuels (polygônes, segments,...), souvent sous forme de listes d’objets [Can93] [Cou97]. Un mécanisme d’équilibrage de la charge de calcul des processeurs est alors nécessaire. Le sque-lette DF répartit dynamiquement les données d’entrée sur les processeurs pour traitement, tout en réalimentant les processeurs qui auraient fini leur traitement avant les autres.

On notera ici la nature complètement dynamique de ce squelette, le temps de traitement d’une donnée élémentaire sur chaque processeur ne pouvant être anticipé et pouvant être diffé-rent de celui obtenu sur d’autres processeurs engagés dans le même schéma de parallélisation.

En résumé, la principale différence entre les squelettes SCM et DF est que le premier en-capsule un parallélisme de données fixe alors que pour le second il s’agit d’un parallélisme de données variable.

Ce schéma utilise pour son implantation un modèle d’exécution en ferme de processeurs. Un processeur est désigné comme maˆıtre, les autres comme esclaves. Le maˆıtre est chargé de distribuer les données à traiter aux esclaves. Généralement le nombre de données initiales destinées au traitement étant supérieur au nombre d’unités de calcul disponibles sur la machine cible, le maˆıtre garde en réserve un certain nombre de données lorsque tous les esclaves ont été servis. Dès que l’un d’entre eux signale qu’il a terminé son traitement en renvoyant le résultat au maˆıtre, ce dernier réalimente l’esclave avec une nouvelle donnée pour le maintenir constamment en charge et ainsi réaliser dynamiquement l’équilibre de charge du réseau de processeurs.

Les résultats en provenance des esclaves s’accumulent au niveau du maˆıtre. La manière dont est effectuée l’accumulation est dictée par une fonction utilisateur.

On pourra remarquer que l’ordre d’arrivée des résultats n’est pas forcément celui dans le-quel les données ont été distribuées. Enfin, la fonction de calcul opérant pour chaque esclave doit être la même. Ce squelette, comme le SCM, n’autorise pas des fonctions de calcul diffé-rentes pour chaque esclave.

La figure 2.3 est un synoptique du squelette DF auquel correspond la s´emantique d´eclarative (en Caml) suivante3:

> let df compute acc z xs =

foldl acc z ( map compute xs )

La signature de ce squelette est :

# val df :

(’a -> ’b) (* fonction de traitement *)

-> (’c -> ’b -> ’c) (* fonction d’accumulation *)

-> ’c (* valeur initiale *)

(* de l’accumulateur *)

-> ’a list (* liste de donnees *)

-> ’c (* resultat *)

La fonction compute, comme dans les autres squelettes, est une fonction fournie par l’utilisa-teur pour traiter les données individuelles. La fonction acc, aussi fournie par l’utilisal’utilisa-teur, permet d’accumuler les résultats partiels en prevenance des traitements sur les différents processeurs esclaves (z est la valeur initiale de l’accumulateur). L’accumulation des résultats partiels est réalisée à mesure que ceux-ci sont produits d’où l’emploi de la fonctionnelle qui permet d’appliquer itérativement la fonction acc à la liste de résultats (voire l’annexe A page 177 pour l’expression de).

Xi MAITRE

ESCLAVES

ACC ^{Y=ACC(Yi,... ACC(Y,...,Z))}

[X1,...,Xn]

COMP COMP COMP COMP

Yi=COMP(Xi) Yi

FIG. 2.3 – Synoptique du squelette DF.

La figure 2.4 donne quant à elle un exemple d’exécution du squelette DF sur une architecture formée de quatre processeurs. Elle représente le traitement par un squelette DF d’une liste de données à 6 éléments (X0 à X5). Puisque 4 processeurs seulement sont disponibles, seuls 3 sont utilisés comme esclaves et donc réalisent le traitement des données. Le maˆıtre commence par envoyer les 3 premières données X0, X1 et X2 à traiter (autant que d’esclaves libres) aux 3 processeurs dédiés aux calculs, pour ensuite se mettre en attente du résultat des traitements sur ces données. La première valeur retournée est Y1 en provenance du deuxième esclave. A ce moment le maˆıtre peut envoyer une nouvelle donnée vers cet esclave devenu libre et accumuler ce résultat avant de se remettre en attente à nouveau. Ce processus se renouvelle jusqu’à ce que toutes les données initiales soient traitées.

Les algorithmes visés par ce squelette sont donc, dans le domaine du traitement d’images, des algorithmes dont la complexité dépend des données, comme par exemple les opérateurs d’approximation polygonale de chaˆınes de points connexes [GG91] [Leg95] [Cou96]. Ces al-gorithmes exploitent une stratégie récursive de division de la courbe dont l’arrêt est conditionné par la distance séparant la courbe réelle et les segments qui en donnent une approximation. Le temps de traitement dépend ici de la taille et de la forme de la courbe.

[Y0,...,Y5] ACC ACC ACC ACC ACC ACC Z [X0,...,X5]

P0 (esclave 1) P1 (maitre) P2 (esclave 2) P3 (esclave 3) COMPUTE COMPUTE COMPUTE COMPUTE COMPUTE COMPUTE Y3 Y2 Y0 Y4 Y5 Y1 X4 X1 X0 X2 X3 X5

2.2.2.3 Le squelette TF (Task Farming)

Le squelette TF est le plus complexe du jeu de squelettes de SKiPPER.

Ce squelette est similaire au squelette DF, et en reprend d’ailleurs les principales caracté-ristiques. La seule différence de comportement qu’il introduit, et qui le caractérise, est le fait que le résultat d’un traitement peut être, éventuellement, réinjecté comme donnée d’entrée pour subir un nouveau traitement après redécoupage en données plus élémentaires.

En fait, ce squelette peut être considéré comme un squelette DF généralisé en cela que le traitement d’une donnée peut éventuellement générer récursivement de nouvelles données qui seront distribuées à l’itération suivante. Comme pour le squelette DF, c’est une ferme de processeurs qui est utilisée comme modèle d’exécution.

Le maˆıtre du squelette TF a pour rôle de distribuer les données à traiter et de collecter les résultats correspondants tout en maintenant l’équilibre de charge en terme de calcul sur l’ensemble de ses esclaves. Cependant, le traitement opéré par les esclaves est un peu plus complexe que l’application d’une simple fonction de calcul à chaque donnée qui se présente. En effet, un esclave commence toujours par appliquer une fonction de prédicat sur la donnée entrante pour savoir s’il doit ou non appliquer la fonction de calcul. F. Chantemargue dans sa thèse [Cha91] donne comme exemple de prédicats les tests d’homogénéité des régions d’une image (tests obtenus par calculs statistiques de moyenne et d’écart-type sur les valeurs valeurs des pixels, une région étant déclarée homogène si l’écart-type sur les valeurs des pixels est inférieur à un seuil fixé au préalable). Un exemple d’utilisation du squelette TF avec ce type de prédicat est donné figure 2.5⁴.

FIG. 2.5 – R´esultat de l’utilisation du squelette TF pour la division r´ecursive d’images.

Se reporter à la section 5.2.4 page 133 pour une description complète de cet algorithme et l’utilisation du squelette TF pour sa parallélisation

Si le prédicat est vrai, alors la donnée est traitée localement par l’esclave en lui appliquant la fonction de calcul. Sinon, elle est retournée au maˆıtre qui appliquera une fonction de division afin de générer à partir d’elle un nouvel ensemble de données à traiter.

La figure 2.6 est un synoptique du squelette TF auquel correspondent la s´emantique d´ecla-rative (en Caml)5et la signature suivantes :

> let rec tf trivial solve divide combine z xs = let f x =

if ( trivial x ) then

combine z ( solve x ) else

tf trivial solve divide combine z ( divide x ) in foldl combine z ( map f xs )

# val tf :

(’a -> bool) (* fonction de predicat *)

-> (’a -> ’c) (* fonction de traitement *)

-> (’a -> ’a list) (* fonction de partition *)

-> (’b -> ’c -> ’b) (* fonction d’accumulation *)

-> ’b (* valeur initiale de l’accumulateur *)

-> ’a (* donnees *) -> ’b (* resultat *) SOLVE TRIVIAL SOLVE TRIVIAL SOLVE TRIVIAL SOLVE TRIVIAL

Yi = if TRIVIAL(Xi) then SOLVE(Xi) else DIVIDE(Xi)

ESCLAVES COMBINE MAITRE Y=COMBINE(... COMBINE(Yi,Z)) X Z Xi Yi

DIVIDE DIVIDE DIVIDE

DIVIDE

FIG. 2.6 – Synoptique du squelette TF.

La figure 2.7 donne quant à elle un exemple d’exécution du squelette TF sur une architecture formée de quatre processeurs. Elle représente le traitement par un squelette TF d’une liste de données à 4 éléments (X0 à X3). Puisque 4 processeurs seulement sont disponibles, seuls 3 sont utilisés comme esclaves et donc réalisent le traitement des données. Le maˆıtre commence par envoyer les 3 premières données X0, X1 et X2 à traiter (autant que d’esclaves libres) aux 3 processeurs dédiés aux calculs, pour ensuite se mettre en attente du résultat des traitements sur ces données. La première valeur retournée l’est sur le calcul de X1. Mais cette donnée ne répondant pas au prédicat, deux nouvelles données plus élémentaires X11 et X12 sont produites à partir de X1 et réintroduite dans la liste des données à traiter au niveau du maˆıtre. Ces données sont traitées lorsque toutes les données déjà présente dans la file d’attente l’ont été (gestion en mode FIFO⁶). X11 ÂCC ACC ACC ACC ACC

P0 (esclave 1) P1 (maitre) P2 (esclave 2) P3 (esclave 3) COMPUTE COMPUTE COMPUTE COMPUTE COMPUTE COMPUTE Y3 Y2 Y0 Y11 Y12 X1 X0 X2 X3 X12 [Y0,...,Y5] [X0,...,X3] Z [X11, X12]

FIG. 2.7 – Exemple d’ex´ecution sur 4 processeurs du squelette TF.

Dans le document Composition de squelettes algorithmiques : application au prototypage rapide d'applications de vision (Page 38-47)