G´en´eration de code pour l’architecture cible

6.3 Formulation du probl`eme

6.3.3 G´en´eration de code pour l’architecture cible

Dans les paragraphes précédents, nous nous sommes intéressés à la notion de motifs de calcul dans un PRDG. Les ordonnancements modulaires sont utilisés pour formuler un problème conjoint d’ordonnancement affine et de couverture du PRDG, dont le résultat est la sélection d’un ensemble de macroblocs exécutés sur l’extension matérielle d’un processeur extensible. Nous présentons maintenant la manière d’exploiter le résultat de cette couverture sur l’architecture cible.

6.3. Formulation du probl`eme 135 6.3.3.1 Exploitation de l’extension mat´erielle

L’architecture cible est un processeur extensible (e.g., NiosII) fortement couplé à une extension matérielle. Tout comme l’approche présentée dans le chapitre3, cette extension matérielle bénéficie d’un accès direct à la file de registres du processeur et dispose d’un nombre limité de bus d’entrée et de sortie pour communiquer avec le processeur. La différence porte sur le fait que les motifs sélectionnés dans le graphe correspondent cette fois à des macroblocs pouvant contenir plusieurs instructions spécialisées (l’instruction spécialisée k est notée ISk).

La figure6.4présente le fonctionnement général de l’architecture cible. Par souci de simplicité, on considère qu’à chaque macrobloc sélectionné correspond un composant matériel dédié sur l’extension. Il existe clairement des possibilités de réutilisation du matériel de l’extension, que ce soit au niveau intra ou inter macroblocs. Ainsi, l’information sur les domaines de définition des instructions spécia- lisées pourrait être avantageusement exploitée pour fusionner des opérateurs (i.e., l’addition de l’IS2 et de l’IS3) dont l’exécution est exclusive sur une même ressource matérielle. Toutefois, la synthèse et l’optimisation du matériel de l’extension sont des problèmes complexes qui n’ont pas été abordés dans le cadre de cette thèse. De plus, nous ne proposons pas d’approche permettant de traiter l’inté- gralité du problème de vectorisation. En effet, nous nous contentons de sélectionner des instructions qui sont potentiellement vectorisables. Les problématiques de synthèse d’architecture et de gestion de la mémoire que pose la vectorisation ne sont, pour l’instant, pas traitées et constituent autant de perspectives intéressantes.

Chaque composant d’un macrobloc dispose d’un contrôleur chargé de configurer le chemin de don- nées en fonction du code de l’opération (opcode) transmis par le processeur. En effet, il est souvent nécessaire de décomposer en plusieurs étapes le comportement de chaque instruction spécialisée d’un macrobloc. Chaque étape correspond alors à une instruction spécialisée primitive qui est identifiée de manière unique par un opcode. Cette décomposition est une conséquence des contraintes architec- turales qui limitent, par exemple, le nombre d’opérandes d’une instruction exécutée sur l’extension (cf. paragraphe3.2.2.4, page51). Ainsi, le premier macrobloc du schéma contient l’unique instruction spécialisée (IS1) qui a été sélectionnée dans le calcul de la somme de quatre matrices (cf. figure6.5).

Le calcul à effectuer comporte quatre opérandes et si l’extension ne dispose que de deux bus d’entrée (cas du NiosII), il est alors nécessaire de décomposer le motif en deux instructions spécialisées primitives. La première transmet deux opérandes à mémoriser dans les registres de l’extension. La seconde instruction spécialisée primitive transmet les deux opérandes restants, lance l’exécution du calcul et transmet le résultat au processeur.

Un macrobloc qui contient plusieurs instructions spécialisées utilise une mémoire pour temporiser les données qui sont produites par une instruction spécialisée et seront utilisées, lors d’une itéra- tion ultérieure, par une instruction spécialisée du même macrobloc. C’est le cas, par exemple, du deuxième macrobloc du schéma qui contient un MAC4_(IS

2) et une op´eration d’addition (IS3) ´egale-

ment déportée sur l’extension. Une mémoire est donc ajoutée au composant matériel du macrobloc. Un générateur d’adresse est chargé de calculer les positions des différentes lectures et écritures dans cette mémoire en fonction de l’opcode et de l’itération courante. La mise en œuvre de ce générateur d’adresse dépend du modèle de mémorisation envisagé. Si l’on peut utiliser un buffer circulaire, la mise en œuvre est triviale : une simple machine à état effectue l’adressage modulo la taille du buffer.

136 Chapitre 6. Espace conjoint de sp´ecialisation et d’optimisation de code 1 for(i=0;i<N;i++){ //Parallel dimension

2 for(j=0;j<N;j++){ //Parallel dimension

3 custom_add3(A[i][j],B[i][j],C[i][j],D[i][j],&G[i][j]);

4 }

5 }

1 void custom_add3(int v1, int v2, int v3, int v4, int *result){ 2 asm volatile("

3 custom 1, %0, %1; /*Load two operands*/

4 custom 2, %2, %3, %4;"/*Load remaining operands, launch execution and store the result*/

5 :"r"(v1) 6 :"r"(v2) 7 :"r"(v3) 8 :"r"(v4) 9 :"=r"(result) 10 ); 11 }

Figure 6.6 – Utilisation séquentielle de la nouvelle instruction spécialisée sur un NiosII . Les instructions en assembleur correspondent à l’envoi des opérandes et au lancement de l’exécution sur l’extension.

6.3.3.2 G´en´eration de code

Le moyen le plus simple d’exploiter les résultats de la couverture et de l’ordonnancement du PRDG est de générer une nouvelle version du code source de l’application qui contient les appels explicites des instructions spécialisées sélectionnées. Le compilateur natif du processeur sera ensuite chargé de produire le code binaire.

Cependant, à la différence d’un flot standard d’extension de jeu d’instructions, la représentation in- termédiaire détermine également la structure du programme (domaines d’itérations des nœuds). L’ordonnancement affine du PRDG risque d’avoir modifié cette structure et un outil tel que CLOOG [18] est indispensable pour générer un parcours (sous forme de nids de boucles et de conditions affines) de l’ensemble des points des domaines ordonnancés. Lors de cette étape, les instructions standard et spécialisées sont réparties dans différentes boucles. Celles-ci font notamment apparaˆıtre les fusions ou fissions issues des éventuelles dimensions scalaires des ordonnancements.

La syntaxe des appels aux instructions spécialisées dépend du processeur dont le jeu d’instruction est étendu. Dans le cas du NiosII, il est possible d’utiliser des Macros ou encore des instructions en assembleur pour chaque instruction spécialisée primitive. La figure6.6 présente un exemple de code généré et qui utilise des instructions assembleurs. Le PRDG couvert et ordonnancé dans cet exemple est celui de la somme de quatre matrices (cf. figure 6.5) où une seule instruction spécialisée a été sélectionnée. Celle-ci correspond dans le code à la procédure custom_add3chargée d’initialiser et de

lancer l’exécution sur l’extension. La zone de code spécifique est délimitée par la construction asm volatile de GCC qui définit une séquence d’instructions en assembleur ne pouvant être optimisées

par le compilateur. Dans cette zone, les paramètres des instructions spécialisées primitives sont des registres du processeur, mais leur allocation est laissée au soin du compilateur et ce sont des symboles qui sont explicitement associés aux paramètres des instructionscustom.

Dans le document Compilation optimisante pour processeurs extensibles (Page 143-146)