• Aucun résultat trouvé

Contributions

Dans le document The DART-Europe E-theses Portal (Page 22-27)

l’op-timiseur polyédrique automatique, comprendre son résultat est quasiment impossible sans connaissances avancées dans la représentation polyédrique. En traduisant ce résultat en séquence de transformations haut-niveau, le développeur peut comprendre mais également modifier l’optimisation proposée par le compilateur polyédrique sans connaissance de ce modèle.

Le chapitre7conclut ce document et présente les perspectives.

L’annexeAdonne le vocabulaire de base autour des langages de programmation à travers des exemples en langage C.

L’annexeBmontre l’utilisation de différents outils qui, associés, permettent de créer un compilateur polyédrique complet.

1.3 Contributions

Les contributions principales présentées de ce document sont les suivantes :

— Dans la représentation polyédrique, nous formalisons un ensemble de conditions sur les relations d’ordonnancement. Ces conditions sont nécessaires pour nos approches, sans perdre en généricité.

— Notre première approche d’adaptation des optimisations introduit les versions interchangeables, une classe de programmes multi-versions qui peuvent passer d’une version à une autre sans retour en arrière dans les calculs, et que nous exploitons pour adapter un programme à son environnement d’exécution.

Cette approche a donné lieu à une publication internationale [1] :

Lénaïc Bagnères et Cédric Bastoul. Switcheable Scheduling for Runtime Adaptation of Optimization à Euro-Par’20 International Euro-Par Conference, Porto, Portugal, Août 2014

— Nous formalisons un ensemble de transformations haut-niveau basées sur le modèle polyédrique.

Cet ensemble de transformations est le premier à être complet étant données nos conditions sur les relations d’ordonnancement.

— Notre seconde approche d’adaptation des optimisations utilise cet ensemble de transformations composable et complet. Nous proposons le premier algorithme qui prend en entrée deux rela-tions d’ordonnancement et qui trouve une séquence de transformarela-tions permettant de passer d’un ordonnancement à l’autre.

Cet algorithme et la plateforme de transformations polyédriques utilisée ont également donné lieu à une publication internationale [2] :

LénaïcBagnères, OleksandrZinenko, StéphaneHuotet CédricBastoul.Opening Polyhe-dral Compiler’s Black Box àCGO 2016 - 14th Annual IEEE/ACM International Symposium on Code Generation and Optimization,Barcelone,Espagne, Mars 2016

Chapitre 2

La compilation polyédrique

Sommaire

2.1 Exemple . . . . 24 2.2 Le modèle polyédrique . . . . 26 2.2.1 Relation . . . 26 2.2.2 Domaine d’itération . . . 27 2.2.3 Ordonnancement des instances de l’instruction . . . 28 2.2.4 Accès mémoire . . . 32 2.3 Le format OpenScop . . . . 32 2.4 Extraction depuis un programme . . . . 35 2.5 La plateforme de compilation polyédrique . . . . 37 2.6 Conclusion . . . . 38

Le modèle polyédrique permet de représenter certains nids de boucles (boucles imbriquées) sous la forme de polyèdres. Les points entiers contenus dans ces polyèdres correspondent aux instances des ins-tructions. Dans ce modèle on ne réfléchit plus sur les boucles mais sur les instances des instructions elles-mêmes. L’analyse des dépendances des données est précise et autorise donc des restructurations de code complexes. L’utilisation du modèle polyédrique permet d’appliquer automatiquement des transfor-mations de code de haut niveau sur les nids de boucles afin, par exemple, d’améliorer la localité des données [3,4,5,6,7], de les vectoriser [8,9,10,11] et/ou de les paralléliser [5,4,12].

L’utilisation classique de la plateforme de compilation polyédrique se fait en trois étapes. La première est la conversion des noyaux de calculs du programme dans le modèle polyédrique. Cette opération peut être faite depuis le code source avec des outils commeClan[13] ou pet [14], ou depuis la réprésentation interne des compilateurs, le plus souvent unarbre syntaxique abstrait (Abstract Syntax Treeen anglais, abrégéAST) [15]. La seconde étape est la transformation du code dans le modèle polyédrique. Un exemple classique de cette étape est l’analyse des dépendances avecCandl [16] et l’appel à un optimiseur poly-édrique commePluto[5]. La troisième et dernière étape est la génération de code depuis la représentation polyédrique avec des outils comme CLooG [17] ou isl codegen [18, 19]. Ces étapes peuvent être faites automatiquement, le développeur n’a pas nécessairement à intéragir avec la plateforme de compilation polyédrique.

La plupart des compilateurs de production peuvent utiliser en interne le modèle polyédrique ; c’est le cas de GCC [20], LLVM [11] et IBM XL [21]. Dans le cas de GCC, la plateforme de compilation polyédrique embarquée se nommeGraphite1[22, 23]. Ce dernier utilise isl [24]. Graphite permet de re-présenter GIMPLE2 sous forme de polyèdres. GIMPLE est le jeu d’instructions utilisé par GCC comme représentation interne.

Par défaut, GCC n’utilise pas cette plateforme, ni même avec les options-O3et-Ofastconnues pour activer la grande majorité des optimisations les plus agressives. Pour profiter des optimisations poly-édriques, GCC 6 demande l’option -floop-nest-optimize permettant d’activer les optimisations des

1. https ://gcc.gnu.org/wiki/Graphite

2. https ://gcc.gnu.org/onlinedocs/gccint/GIMPLE.html

Chapitre2. La compilation polyédrique 2.1. Exemple nids de boucles. Actuellement, cette option est notée comme expérimentale. Il est également possible de profiter de l’analyse des dépendances offerte par le modèle polyédrique et de paralléliser les boucles identi-fiées comme parallélisables. Cette opération se fait dans GCC grâce à l’option-floop-parallelize-all. Les techniques utilisant le modèle polyédrique ont souvent une complexité élevée. L’analyse des dé-pendances, le calcul des transformations et la génération de code peuvent montrer une complexité ex-ponentielle dans le pire cas [16]. En pratique, ces techniques prennent un temps raisonnable pour les codes ciblés par les techniques polyédriques. Ces codes sont des noyaux de calculs de 10 à 20 lignes avec quelques boucles imbriquées dont la profondeur dépasse rarement 3 ou 4. Les PolyBench/C3 en sont de bons exemples. Ils correspondent à des codes source simples sans optimisation préalable. Malgré cette réa-lité, l’utilisation du modèle polyédrique par défaut dans les compilateurs de production n’est pas encore effective même si des avancées ont été faites. Par exemple, un algorithme rapide permettant de détecter les portions de code transformables dans le modèle polyédrique a été implémenté dans GCC 6.0 [25]. Ce travail poursuit les améliorations faites sur la plateforme de compilation polyédrique intégrée à GCC : par exemple, en 2013, la version 4.8 de GCC améliorait déjà significativement Graphite en lui offrant un vrai optimiseur polyédrique basé sur l’algorithme de Pluto4.

Ce chapitre détaille les différents composants de la plateforme de compilation polyédrique : sa repré-sentation interne, l’extraction depuis un code source, une collection d’outils d’analyse, de transformations et d’optimisations et enfin le générateur de code depuis la représentation polyédrique.

2.1 Exemple

Le code source en langage C5de la figure2.1correspond au noyau de calculjacobi-2d-impervenant des PolyBench/C 3.2. Il y a deux instructionsS1et S2(lignes 7 et 15). Ces instructions sont toutes les deux dans des boucles imbriquées de profondeur trois et partagent la boucle la plus externe.

1 for (t = 0; t < T_STEPS; t++)

2 {

3 for (i = 1; i < N - 1; i++)

4 {

5 for (j = 1; j < N - 1; j++)

6 {

7 /* S1 */ B[i][j] = 0.2 * (A[i][j] + A[i][j-1] + A[i][1+j] + A[1+i][j] + A[i-1][j]);

8 }

9 }

1011 for (i = 1; i < N - 1; i++)

12 {

13 for (j = 1; j < N - 1; j++)

14 {

15 /* S2 */ A[i][j] = B[i][j];

16 }

17 }

18 }

Figure2.1 – Code source en langage C du noyau de calculjacobi-2d-impervenant des PolyBench/C 3.2 Dans le code séquentiel de la figure 2.1, on peut naïvement paralléliser les deux boucles internes i (lignes 5 et 11) avec OpenMP. Malheureusement, le programme ne s’exécute pas plus rapidement dans le cas considéré : la taille des données utilisée estT_STEPS = 20etN = 2000; le processeur est un quad-core d’Intel Q6600 cadencé à 2.4 GHz. Pour obtenir du gain, il faut améliorer la localité des données, c’est-à-dire, qu’il faut réutiliser les données qui viennent d’être chargées depuis la mémoire dans la mé-moire cache. Comme dans la plupart des opérations point à point, le problème est limité par la bande

3. http://web.cs.ucla.edu/~pouchet/software/polybench/

4. https://gcc.gnu.org/wiki/Graphite-4.8

5. Pour le vocabulaire technique sur les codes source (instruction, boucle, branchement, tableaux), voir l’annexeAsur

Chapitre2. La compilation polyédrique 2.1. Exemple passante mémoire et seule une amélioration des accès mémoire peut apporter de meilleures performances.

L’optimiseur polyédrique Pluto permet de paralléliser automatiquement mais aussi d’améliorer la localité temporelle : le code suivant, optimisé par Pluto, est deux fois plus rapide que le code original et quatre fois plus rapide si on utilise deux cœurs ou plus pour la configuration utilisée.

1 for (t1=N-1; t1<=3*T_STEPS-2; t1++) {

2 if ((2*t1+1)%3 == 0) {

3 for (t3=ceild(2*t1+1,3); t3<=floord(2*t1+3*N-8,3); t3++) {

4 B[1][((-2*t1+3*t3+2)/3)] = 0.2 * (A[1][((-2*t1+3*t3+2)/3)] +

A[1][((-2*t1+3*t3+2)/3)-1] + A[1][1+((-2*t1+3*t3+2)/3)] + A[1+1][((-2*t1+3*t3+2)/3)] + A[1 -1][((-2*t1+3*t3+2)/3)]);;

5 }

6 }

7 lbp=ceild(2*t1+2,3);

8 ubp=floord(2*t1+N-2,3);

9

#pragma omp parallel for private(lbv,ubv,t3)

10 for (t2=lbp; t2<=ubp; t2++) {

11 B[(-2*t1+3*t2)][1] = 0.2 * (A[(-2*t1+3*t2)][1] + A[(-2*t1+3*t2)][1 -1] +

A[(-2*t1+3*t2)][1+1] + A[1+(-2*t1+3*t2)][1] + A[(-2*t1+3*t2)-1][1]);;

12 for (t3=2*t1-2*t2+2; t3<=2*t1-2*t2+N-2; t3++) {

13 B[(-2*t1+3*t2)][(-2*t1+2*t2+t3)] = 0.2 * (A[(-2*t1+3*t2)][(-2*t1+2*t2+t3)]

+ A[(-2*t1+3*t2)][(-2*t1+2*t2+t3)-1] + A[(-2*t1+3*t2)][1+(-2*t1+2*t2+t3)] + A[1+(-2*t1+3*t2)][(-2*t1+2*t2+t3)] + A[(-2*t1+3*t2)-1][(-2*t1+2*t2+t3)]);;

14 A[(-2*t1+3*t2-1)][(-2*t1+2*t2+t3-1)] =

B[(-2*t1+3*t2-1)][(-2*t1+2*t2+t3-1)];;

15 }

16 A[(-2*t1+3*t2-1)][(N-2)] = B[(-2*t1+3*t2-1)][(N-2)];;

17 }

18 if ((2*t1+N+2)%3 == 0) {

19 for (t3=ceild(2*t1-2*N+8,3); t3<=floord(2*t1+N-1,3); t3++) {

20 A[(N-2)][((-2*t1+3*t3+2*N-5)/3)] = B[(N-2)][((-2*t1+3*t3+2*N-5)/3)];;

21 }

22 }

23 }

Figure 2.2 – Extrait du code source en langage C du noyau de calcul jacobi-2d-imper venant des PolyBench/C 3.2, généré par CLooG 0.18.1, après optimisation par Pluto 0.11.4 avec l’option--parallel Le code source de la figure 2.2 est un extrait du programme résultat optimisé par Pluto et généré par CLooG. La version complète est disponible dans la figureB.1de l’annexeB. Si on compte le nombre de caractères de cette version, le code généré est plus de seize fois plus grand : il passe de 285 à 4693 caractères et de 12 lignes à 96.

Pour arriver à un tel résultat, on a récupéré la représentation polyédrique depuis le code source original.

Ensuite, on a appliqué l’algorithme d’optimisation de Pluto. Cet algorithme exprime les contraintes nécessaires afin de paralléliser et d’optimiser la localité en utilisant une plateforme de transformations affines. Pour terminer, on génère le code source C depuis la représentation polyédrique avec CLooG. Il s’agit donc d’un exemple complet de l’utilisation d’un compilateur source à source utilisant la plateforme de compilation polyédrique. La section suivante explique la représentation polyédrique.

Si on regarde plus attentivement l’extrait du code généré, on remarque qu’une boucle a été parallélisée avec OpenMP (lignes 9 et 10). Cette boucle exécute une boucle imbriquée (ligne 12) contenant les instruc-tionsS1etS2(lignes 13 et 14). Comme ces instructions sont dans la même boucle interne, Pluto a réussit à fusionner les boucles originales correspondantes (lignes 5 et 13 du code original dans la figure2.1). Pour effectuer cette fusion sans violer les dépendances, et vu les accès mémoire mémoire des tableaux A et B, Pluto a appliqué des transformations qui ressemblent à l’inclinaison et au déplacement des instances des instructions. Ces deux transformations, issues des transformations classiques de boucles, sont bien connues et sont détaillées dans le chapitre5. Cependant, de par la complexité de ce code source, il est difficile de comprendre la nature exacte des transformations faites par Pluto.

Chapitre2. La compilation polyédrique 2.2. Le modèle polyédrique

Dans le document The DART-Europe E-theses Portal (Page 22-27)