L’algorithme original de Feautrier - Ordonnancement modulaire

6.2 Ordonnancement modulaire

6.2.1 L’algorithme original de Feautrier

Dans les paragraphes suivants, nous détaillons le principe de l’algorithme d’ordonnancement struc- turé de Feautrier [57]. Il constitue les fondements de notre approche et fait donc l’objet d’une attention particulière.

6.2.1.1 Explication de l’algorithme

L’algorithme s’inspire des réseaux de processus de Kahn pour améliorer le passage à l’échelle de l’algorithme d’ordonnancement affine monodimensionnel [55]. Le principe est de décomposer le PRDG d’une application en processus et d’énoncer, de manière modulaire, les contraintes de causalité d’un ordonnancement affine légal. Cette modularité permet une approche diviser pour régner qui décompose l’ordonnancement d’une application en deux étapes successives.

Pour cela, on considère qu’une application est structurée en processus indépendants qui communiquent entre eux par des canaux. Chaque processus est alors décrit par un PRDG disposant de ports d’entrée et de sortie pour consommer ou recevoir des données d’un autre processus. Les ports respectifs du producteur d’une donnée et d’un consommateur sont reliés par un canal de communication.

Un canal de communication A est assimilé à un tableau. Le producteur n’y écrit une donnée A[x] qu’une seule fois et un consommateur peut y accéder plusieurs fois. `A chaque canal A, on associe une fonction d’ordonnancement affine θA indiquant la date à partir de laquelle une donnée A[x] est

disponible dans ce canal :

θA(x) = µA1x+ µA2 (6.1)

Il est alors possible de garantir la modularité des processus, en exprimant la causalité d’une dépendance de communication par deux contraintes indépendantes :

• Soit W : A[fW A(~i)] = . . . un nœud produisant la donn´ee A[fW A(~i)], le nœud W doit ˆetre

ordonnancé avant l’écriture de la donnée dans le canal :

∀~i ∈ DW, θA(fW A(~i)) ≥ θW(~i) (6.2)

• Soit R: . . . = A[fRA(~i)] un nœud consommant la donn´ee A[fRA(~i)], le nœud R ne peut lire la

donn´ee que si elle est disponible dans le canal :

∀~i ∈ DR, θA(fRA(~i)) + 1 ≤ θR(~i) (6.3)

Les contraintes de communication d’un processus sont construites en appliquant la contrainte 6.2

6.2. Ordonnancement modulaire 121

2 process P(outport int X[]){

3 int i;

4 for(i=0;;i++) 5 W: X[i] = f(i)

6 }

8 process Q(inport int Y[]){

9 int i,s; 10 Z: s=0; 11 for(i=0;;i++) 12 M: s = s + Y[i]*Y[i+2] 13 } 14 15 void main(){ 16 channel int A[]; 17 P(A); 18 Q(A); 19 }

W

P

Q

A

Z

�i�

�i + 2�

�i − 1�

�0�

M

Figure 6.1 – Syntaxe CRP et PRDG d’un r´eseau de deux processus (P et Q) communiquant par un canal A.

d’entr´ee.

L’algorithme modulaire d’ordonnancement monodimensionnel de Feautrier est divis´e en cinq ´etapes.

1. Construction des contraintes de légalité de chaque processus : respect de la causalité des dépen- dances internes et des canaux de communication extérieurs.

2. Élimination, par projection (e.g., par Fourrier-Motzkin), des coefficients d’ordonnancement des nœuds internes à chaque processus. L’ensemble des contraintes de légalité ne porte alors plus que sur les coefficients d’ordonnancement des canaux. Cette étape ainsi que la précédente sont indépendantes du programme et peuvent provenir d’une bibliothèque référen¸cant les ensembles de contraintes associés à chaque motif de processus.

3. Ordonnancement des canaux de communication de l’ensemble des processus de l’application. 4. Injection du r´esultat de l’ordonnancement des communications dans les contraintes de chaque

processus. Si nécessaire, les processus sont ordonnancés indépendamment pour identifier tous les coefficients d’ordonnancement internes.

5. Génération du code (e.g., avec CLOOG [18]) pour les nœuds ordonnancés de tous les processus de l’application.

6.2.1.2 Exemple

Afin de simplifier la compréhension de l’algorithme de Feautrier, nous déroulons ses cinq étapes pour l’exemple de la figure6.1, présenté dans la publication originale. Dans cet exemple, un réseau de processus est décrit dans le langage dédié (CRP2_{) proposé par Feautrier, deux processus (P et}

122 Chapitre 6. Espace conjoint de spécialisation et d’optimisation de code Q) y communiquent par l’intermédiaire d’un canal A. Nous détaillons maintenant les contraintes de communication de chaque processus afin de faire apparaˆıtre leur aspect modulaire : chaque ensemble de contraintes peut être construit indépendamment, mais l’ordonnancement des processus doit être résolu conjointement.

A chaque nœud du PRDG issu du r´eseau de processus, on associe un prototype d’ordonnancement et un domaine de d´efinition.

• θW(i) = µW 1i+ µW 2 avec DW : i ≥ 0

• θZ(i) = µZ2 avec DZ : i = 0

• θM(i) = µM 1i+ µM 2 avec DM : i ≥ 0

Etape 1 : Construction des contraintes de l´egalit´e

Cas du producteur (processus P ) Ce processus ne contient aucune dépendance de données interne. Ses contraintes ne portent donc que sur l’écriture d’une donnée dans le canal A. Son domaine de définition DW −>Aest :

DW −>A: { i | i ≥ 0 }

En appliquant la contrainte6.2`a l’´ecriture de W dans le canal A on obtient :

i(µA1− µW 1) + (µA2− µW 2) ≥ 0

La forme matricielle du domaine DW −>A de la d´ependance illustre les multiplieurs de Farkas (un

multiplieur par contrainte affine du domaine) :

i 1

i ≥0 :: λ1 1 0

En utilisant la forme affine du lemme de Farkas, on en d´eduit que :

i(µA1− µW 1) + (µA2− µW 2) = λ0+ iλ1≥0

(

µA1− µW 1 = λ1 ≥ 0

µA2− µW 2 = λ0 ≥ 0

(6.4) Après avoir éliminé, par projection, les multiplieurs de Farkas, on obtient :

(

µA2≥ µW 2 µA1≥ µW 1

(6.5) Cas du consommateur (processus Q) Le processus contient deux nœuds (Z et M ) ainsi que deux d´ependances de donn´ees internes.

La dépendance entre Z et M a pour domaine DZ−>M : { i | i = 0 }, sa causalité est respectée si

et seulement si :

6.2. Ordonnancement modulaire 123 En appliquant la forme affine du lemme de Farkas et après avoir éliminé les multiplieurs, on en déduit que :

µM 2≥1 + µZ2 (6.6)

D’autre part, la d´ependance cyclique sur M et qui a pour domaine DM −>M : { i | i ≥ 1 }, est

uniforme. On en d´eduit que µM 1 ≥1.

Le processus Q est associé `a deux dépendances de communication. La première est une lecture de la donnée A[i + 2]. Le respect de la contrainte6.3 implique que :

θM(i) − θA(i + 2) − 1 ≥ 0

i(µM 1− µA1) + (µM 2−2µA1− µA2−1) ≥ 0

En appliquant la forme affine du lemme de Farkas et après avoir éliminé les multiplieurs de Farkas, on en déduit que :

(

µM 2 ≥ 1 + 2µA1+ µA2 µM 1 ≥ µA1

(6.7) En procédant de même pour la dépendance de communication correspondant à la lecture de A[i] on obtient : ₍

µM 2 ≥ 1 + µA2 µM 1 ≥ µA1

(6.8) ´

Etape 2 : ´Elimination des coefficients d’ordonnancement internes Une fois les contraintes obtenues pour chaque processus, on ´elimine les coefficients internes de chaque ensemble de contraintes. Cas du producteur (processus P) Les coefficients internes d’ordonnancement de P sont µW 1

et µW 2, leur élimination de (6.5) forme l’ensemble des contraintes de légalité des communications de P. Dans ce cas, il ne reste aucune contrainte après projection.

Cas du consommateur (processus Q) L’ensemble des contraintes de légalité de Q construit à partir de (6.7) et (6.8) est :                µM 2 ≥ 1 + µZ2 µM 1 ≥ 1 µM 2 ≥ 1 + 2µA1+ µA2 µM 1 ≥ µA1 µM 2 ≥ 1 + µA2 (6.9)

De même que pour P , après l’élimination des coefficients internes de Q, il ne reste aucune contrainte. ´

Etape 3 : Ordonnancement des canaux Dans cet exemple, il n’y a aucune contrainte d’imposée sur les ordonnancements des canaux. La solution d’ordonnancement des canaux sélectionnée par Feautrier est µA1= µA2= 0.

Etape 4 : Ordonnancement des nœuds Une fois les coefficients d’ordonnancement des canaux déterminés, on injecte l’information dans les contraintes construites lors de la première étape pour

124 Chapitre 6. Espace conjoint de sp´ecialisation et d’optimisation de code

chaque processus.

Ainsi, pour P , on obtient l’ensemble de contraintes suivantes : (

0 ≥ µW 2

0 ≥ µW 1

(6.10) L’ordonnancement de W est donc θW(i) = 0.

De même, pour le processus Q, l’ensemble des contraintes devient :      µM 2 ≥ 1 + µZ2 µM 1 ≥ 1 µM 2 ≥ 1 (6.11) Les ordonnancements sélectionnés pour M et Z sont θM(i) = i + 1 et θZ = 0.

On déduit de ces ordonnancements que l’intégralité des itérations du nœud W sont exécutées `a la même date (θW(i) = 0), toutes les données produites sont donc écrites simultanément dans le canal A.

Ce constat amène à considérer des contraintes supplémentaires pour cibler une mise en œuvre concrète sur une mémoire dont la taille est limitée. L’approche de Feautrier sur ces contraintes mémoires fait l’objet de la sous-section suivante.

Dans le document Compilation optimisante pour processeurs extensibles (Page 129-133)