Conclusion - Programmation haute performance pour architectures hybrides

Dans ce chapitre, nous avons classifié les solutions existantes pour la programmation des architectures parallèles hybrides selon le niveau d’abstraction par rapport à l’architecture cible. La liste des solutions étudiées n’est bien sûre pas exhaustive, mais est représentative des problèmes posés à chaque niveau d’abstraction et des solutions envisagées pour les résoudre.

Aucune des approches et solutions existantes n’apporte de solution globale au problème de la programmation des architectures hybrides selon les critères énumérés dans les bilans de comparaison. Les bibliothèques de bas niveau telles que MPI et GASNet permettent de cibler la mémoire distribuée à un niveau de détail très fin mais demandent en conséquence un effort de programmation et de déboggage élevés, tout en restant restreintes aux mémoire distribuées. Les PGAS incorporent les fonc- tionnalités nécessaires à la programmation des mémoires distribuées directement au niveau du langage, et offrent pour certains un support pour la mémoire partagée et les GPUs. Cependant, ces langages, qui ne sont pas des standards, demandent un effort de programmation important à l’utilisateur qui doit notamment gérer les synchronisa- tions des accès aux données distribuées afin de garantir leur cohérence. Les approches de haut niveau se heurtent à des problèmes de décidabilité pour la distribution au- tomatique et à des problèmes de prédictibilité des performances pour les SDSM. Les approches de haut niveau basées sur le modèle polyédrique implémentent des analyses mathématiques sophistiquées pour l’extraction du parallélisme et la transformation de code pour les architectures hybrides. Cependant, elles restent limitées à des codes à contrôle statique et la gestion de la distribution des données pour la globalité d’un programme ne semble pas encore effective dans ce modèle.

Nous pensons qu’une approche à base de directives pour la programmation des architectures hybrides est à la fois pratique et viable. En effet, en se basant sur un langage de base standardisé et largement utilisé par la communauté du calcul scientifique, les codes existants peuvent être portés sans réécriture complète. Des applications nouvelles peuvent également être écrites dans cette solution sans avoir à apprendre un nouveau langage ou les fonctionalités d’une nouvelle bibliothèque. Enfin, l’insertion de directives permet de maintenir un seul programme source, et de pouvoir le compiler vers plusieurs types de cible dès que les informations essentielles telles que le parallélisme et le placement des données sont uniformément exprimés. Il est à noter qu’une solution à base de directives n’exclut pas l’interaction avec d’autres approches, les directives pouvant en effet provenir d’une autre solution telle que le modèle polyédrique pour l’extraction du parallélisme.

Nous avons montré que les approches existantes à base de directives ne proposaient pas une solution unifiée pour la programmation des machines parallèles hybrides. Dans le chapitre suivant nous proposons dSTEP, une solution à base de directives pour la programmation des architectures hybrides qui a pour objectif d’offrir un modèle de programmation unifié pour les architectures hybride, l’efficacité et la facilité de programmation.

Chapitre 3

dSTEP : directives pour la

distribution des calculs et des

donn´ees

Dans ce chapitre, nous proposons dSTEP, une solution `a base de directives pour la programmation des architectures parall`eles hybrides. Nous avons trois objectifs :

1. l’unification de la programmation pour architectures parallèles hybrides dans un seul modèle de programmation, exploitant tous les niveaux de parallélisme of- ferts par l’architecture de fa¸con transparente pour le programmeur. Le modèle de programmation doit être à la fois expressif et simple à utiliser pour per- mettre au programmeur, ou à d’autres outils d’analyse en amont, de passer au compilateur les informations de haut niveau sur l’application ;

2. l’efficacité de la programmation : il s’agit à la fois d’atteindre des performances élevées, de passer à l’échelle en nombre de ressources de calcul et de pouvoir traiter des problèmes de très grande taille ;

3. la facilit´e de programmation : requ´erir un effort de programmation raisonnable de la part du programmeur.

3.1 Contexte

Nous nous pla¸cons dans le contexte de la programmation d’applications scienti- fiques denses à parallélisme de données sur architectures hybrides. Ces applications, telles que les problèmes de différences finies, sont largement présentes en calcul scientifique et en simulation numérique. Des exemples représentatifs de telles applications sont les benchmarks NAS [11] BT, SP et LU mais surtout des applications industrielles de traitement du signal telle que l’application industrielle LDPC de communication radio, implémentant les algorithmes d’encodage d’information du même nom [82].

dSTEP vise la parallélisation d’un programme dans sa globalité. La distribution des tableaux est spécifiée au niveau de leurs déclarations et reste fixe tout au long du programme. La spécification du parallélisme et de la distribution des nids de boucles est ensuite indiquée pour tous les nids de boucles accédant à des tableaux distribués.

La séparation de la spécification de la distribution des calculs et des données constitue une différence majeure par rapport à HPF [51]. Le programmeur a ainsi le contrôle sur ces deux aspects de la parallélisation d’un programme, ce qui permet au compilateur de dSTEP de générer un code avec un flot de contrôle et des communications plus simples que HPF car il n’existe pas de notion de propriétaire de données. Contrairement à XcalableMP [73], dSTEP ne place pas la responsabilité de la spécification des communications sur le programmeur.

Exemple de code généré par un compilateur HPF. Les exemples de codes montrés ici sont tirés de la documentation en ligne du compilateur dHPF1_{. Le lis-}

ting 3.1 montre un programme HPF simple avec une boucle parallèle qui implique une communication sur le tableau b (lignes 15-17). Le listing 3.2 montre une partie du code généré pour ce programme correspondant à la boucle parallèle. On constate que, même pour ce programme simple, les accès locaux sont distingués des accès non locaux, qui sont résolus séparément (ligne 8). Le flot de contrôle d’un programme généré par un compilateur HPF est d’autant plus complexe que plusieurs références en écriture sont présentes dans un nid de boucles.

1 p r o g r a m s i m p l e t e s t 2 i n t e g e r i 3 double p r e c i s i o n a (100) , b (100) 4 5 CHPF$ p r o c e s s o r s p (4) 6 CHPF$ t e m p l a t e t (100) 7 CHPF$ align a ( i ) with t ( i ) 8 CHPF$ align b ( i ) with t ( i ) 9 CHPF$ d i s t r i b u t e t ( block ) onto p 10 11 C -- I n i t i a l i z a t i o n s -- 12 13 a (1) = 0 14 15 do i = 2 , 100 - 1 16 a ( i ) = 0.25 * b (i -1) 17 enddo 18 19 end

Listing 3.1 – Exemple d’un code simple en HPF

Dans le document Programmation haute performance pour architectures hybrides (Page 49-51)