Sélection et ordonnancement affine d’instructions spécialisées

6.3 Formulation du probl`eme

6.3.2 Sélection et ordonnancement affine d’instructions spécialisées

La plupart des approches de sélection d’instructions spécialisées s’appuient sur un graphe acy- clique (DAG) issu d’un bloc de base de la représentation intermédiaire du compilateur. Dans cette représentation, les nœuds sont des opérations de calcul supportées par le processeur. Sélectionner une instruction spécialisée consiste alors à sélectionner une occurrence d’un motif de calcul dans le graphe de l’application. Il s’en suit que l’ensemble des nœuds qui y sont contenus est alors exécuté sur l’extension matérielle du processeur. Le PRDG fournit beaucoup plus d’informations qu’un simple DAG : chaque nœud est associé à un domaine polyédrique de définition et les liens identifient les instructions produisant les données ainsi que leurs positions dans l’espace d’itération. L’expressivité du PRDG nécessite cependant de faire la distinction entre la notion de motif et celle d’instruction spécialisée.

Dans notre approche, nous considérons qu’une occurrence de motif sera mise œuvre par un macrobloc matériel (cf. figure 6.4) contenant le chemin de données d’une ou plusieurs instructions spécialisées communiquant entre elles par l’intermédiaire de mémoires embarquées dans le macrobloc. De plus, un des objectifs de l’approche est de sélectionner des instructions spécialisées vectorisables. Nous chercherons donc également à déterminer un ordonnancement affine respectant cette contrainte. 6.3.2.1 Sélection d’instruction spécialisée dans un PRDG

Un motif dans un PRDG est constitué de nœuds pouvant être définis sur des domaines d’itéra- tions différents, ils n’auront alors pas les mêmes points dans l’espace multidimensionnel de leurs nids

132 Chapitre 6. Espace conjoint de sp´ecialisation et d’optimisation de code File de registres Mémoire principale UAL Processeur Extension ctrl + + + macrobloc 1 mem ctrl macrobloc 2 * + + IS2 IS3 IS1 @gen

Figure 6.4 – Schéma fonctionnel d’un processeur couplé à une extension comportant les compo- sants matériels de deux macroblocs. Le deuxième macrobloc utilise une mémoire pour enregistrer des résultats intermédiaires des instructions spécialisées IS1 ou IS2.

de boucles respectifs. De plus, les liens entre chacun des nœuds d’un motif représentent une dépen- dance de données dont la source et la destination sont susceptibles d’être exécutées à des itérations différentes.

Dans ce contexte, un motif est susceptible de ne pas correspondre à une unique instruction spécia- lisée. En effet, si l’on choisit de regrouper, par exemple, la multiplication du dernier nid de boucles du triple produit matriciel (cf. figure 6.3) avec l’addition du second, la dépendance de données indique que l’itération source est hi, k, N −1i. Il ne sera donc pas possible de regrouper ces deux nœuds en une seule instruction spécialisée puisqu’une donnée produite par l’addition ne sera utilisable qu’à la dernière itération de k.

Une première approche envisageable est de considérer uniquement les occurrences de motifs dont toutes les dépendances de données sont directes et totales. Ainsi, de même que pour un DAG, une occurrence de motif identifiera une unique instruction spécialisée. Cependant, cette approche ne cherche pas à transformer le code original pour y faire apparaˆıtre de nouvelles instructions spécialisées et on retombe alors sur les travers des techniques existantes puisqu’on ne sélectionnera alors principalement que des instructions spécialisées contenues dans le même bloc de base.

D’autre part, un des intérêts du PRDG est de fournir une connaissance exacte des itérations où sont produites les données. Cette information offre des possibilités très intéressantes quant au déport de dépendances de données dans des ressources de mémorisation (e.g., registres ou mémoires) embarquées sur l’extension matérielle. Cependant, il n’est évidemment pas raisonnable de matérialiser toutes les dépendances d’un PRDG comme des mémoires de l’extension. Un choix explicite des dépendances mémorisées sur l’extension constitue un autre paramètre d’optimisation difficile à évaluer et complique considérablement le problème.

La solution que nous adoptons consiste à considérer qu’une occurrence de motif est une zone de calcul et de mémorisation intégralement déportée sur l’extension matérielle.

A la différence de l’approche précédente, cette zone peut éventuellement contenir des dépendances pour lesquelles les itérations de la source et de la destination sont différentes. Dans ce contexte, une occurrence de motif contient potentiellement plusieurs instructions spécialisées (définition 3). Une dépendance de données indirecte, interne à l’occurrence, y utilisera alors directement une mémoire de

6.3. Formulation du problème 133 l’extension et évitera une communication coûteuse avec le processeur et sa hiérarchie mémoire. Définition 3 (Instruction spécialis´ee atomique) Soit G(N, E) un PRDG. Une instruction spé- cialisée est constitu´ee d’un ensemble de nœuds I ⊂ N dont les domaines de d´efinitions sont identiques et qui sont reliés uniquement par des dépendances directes.

La sélection d’une occurrence de motif répond à la fois au problème de partitionnement des nœuds et à celui du choix des dépendances déportées sur les mémoires de l’extension. En effet, seules les occurrences de motifs de taille unitaire sont exécutées sur le processeur, les autres constituent des ensembles d’instructions spécialisées. De plus, les données de toutes les dépendances non directes d’une occurrence sont mémorisées sur l’extension. Réciproquement, toutes les dépendances sortantes d’une occurrence de motif n’utilisent pas la mémoire de l’extension, les données produites sont communiquées au processeur.

Afin d’éviter une confusion entre la notion de motif d’un DAG et celle d’un PRDG, une occurrence de motif dans un PRDG est appelée macrobloc (définition4).

Définition 4 (Macrobloc sp´ecifique) Soit G(N, E) un PRDG et P une bibliothèque de motifs. Un macrobloc sp´ecifique est une instance M d’un motif Pk ∈ P dans G ex´ecuté intégralement sur

l’extension matérielle. Il est constitué d’un ensemble d’instructions spécialisées atomiques reliées par des dépendances nécessitant une mémorisation.

6.3.2.2 Ordonnancement affine des instructions sp´ecialis´ees

La représentation fine du PRDG nous permet d’identifier des instructions spécialisées qui se situent pourtant dans des boucles différentes. La figure6.5illustre un exemple où les nids de boucles peuvent être fusionnés pour détecter une instruction spécialisée vectorisable. En effet, si l’on dispose d’un motif contenant trois additions, l’intégralité du PRDG peut être couverte par un seul macrobloc ne contenant qu’une unique instruction spécialisée puisque toutes les dépendances de données sont directes. De plus, si l’on considère que seul le tableau G est utile (liveout), l’instruction spécialisée sélectionnée élimine toute mémorisation temporaire inutile dans les tableaux E et F . Si dans cet exemple, il est évident que le code source aurait pu être optimisé (en fusionnant les boucles et les calculs), d’autres cas sont beaucoup plus difficiles à détecter et à optimiser en vue d’une approche d’extension de jeu d’instructions.

Un des objectifs de notre approche est d’identifier des macroblocs qui respectent des contraintes spécifiques. En effet, les instructions spécialisées doivent être vectorisables et l’on souhaite également avoir la possibilité d’ajouter des contraintes supplémentaires (i.e. limiter la taille des mémoires utilisées pour temporiser les données produites dans chaque macrobloc). Les opérations qui ne peuvent être couvertes par des macroblocs respectant toutes ces contraintes sont exécutées sur le processeur. Elles pourront néanmoins être la cible d’un flot standard de spécialisation, analysant chaque bloc de base du code source regénéré à partir du PRDG couvert.

Naturellement, le respect de toutes ces contraintes nécessite souvent de transformer le code original d’un programme. Les ordonnancements affines nous permettent d’explorer l’espace des transforma- tions de boucles de manière à faire apparaˆıtre des macroblocs respectant à la fois les contraintes de légalité et les contraintes additionnelles. Cependant, la sélection et l’ordonnancement de différents

134 Chapitre 6. Espace conjoint de sp´ecialisation et d’optimisation de code 1 for(i=0;i<N;i++){

2 for(j=0;j<N;j++){

3 E[i][j] = A[i][j] + B[i][j];

4 }

5 }

6 for(i=0;i<N;i++){ 7 for(j=0;j<N;j++){

8 F[i][j] = C[i][j] + D[i][j];

9 }

10 }

11 for(i=0;i<N;i++){ 12 for(j=0;j<N;j++){

13 //G: liveout array

14 G[i][j] = E[i][j] + F[i][j];

15 } 16 } + + +

�i, j�

Figure 6.5 – Calcul de la somme de quatre matrices : G = A + B + C + D. Il est ´evident ici que les nids de boucles peuvent être fusionnés. La sélection et l’ordonnancement d’un macrobloc permettent d’identifier une unique instruction spécialisée vectorisable.

macroblocs peuvent être exclusifs. Le cas le plus évident est quand un même nœud est couvert par deux macroblocs potentiels : un seul macrobloc sera sélectionné. Deux macroblocs disjoints peuvent également être exclusifs. Dans ce cas, la sélection du premier macrobloc imposera des contraintes sur l’ordonnancement global du PRDG qui ne pourront être satisfaites par le second.

Nous proposons d’utiliser les résultats de l’ordonnancement affine modulaire d’un réseau de processus (cf. section6.2), pour énoncer dans un cadre unifié (programmation par contraintes), un problème conjoint de couverture et d’ordonnancement du PRDG. Le principe est d’assimiler chaque macrobloc à un processus. Les contraintes évoquées précédemment sont alors exprimées de manière modulaire et ne dépendent que des coefficients d’ordonnancement des communications externes du macrobloc. La modularité des contraintes de chaque macrobloc est nécessaire à la gestion de leurs éventuelles relations d’exclusivité dans la couverture et l’ordonnancement du PRDG. Ainsi, si un macrobloc n’est pas sélectionné, ses contraintes d’ordonnancement n’ont pas à être respectées. Réciproquement, si les contraintes d’ordonnancement d’un macrobloc ne sont pas respectées alors il ne sera pas sélectionné dans la couverture du PRDG. L’algorithme conjoint d’ordonnancement et de couverture est détaillé dans lasection 6.4. Cet algorithme consiste principalement à résoudre un problème de satisfaction de contraintes mêlant les contraintes non linéaires de couverture d’un graphe (cf.sous-section 3.3.1) au problème d’ordonnancement affine structuré.

Dans le document Compilation optimisante pour processeurs extensibles (Page 140-143)