Interaction entre carte physique et logicielle

Dans cette partie, nous allons nous intéresser à un exemple concret pour comprendre comment la grille et les blocks doivent être dimensionnés aﬁn d’utiliser toutes les res-sources à disposition.

Adoptons une approche ascendante en regard de la figure 5.5 pour expliquer le fonc-tionnement de la carte graphique. Les tâches sont rassemblées en groupes de 32 fils d’exécution ou "warps" qui sont gérés par des cœurs et représentent le premier niveau de parallélisme : les cœurs distribuent les instructions par warps ou groupe de 32 threads. Le multiprocesseur gère quant à lui les différents cœurs qui lui sont alloués.

Figure 5.5 – Schéma de l’architecture d’une carte graphique (indépendamment de la

surcouche logicielle de répartition du travail en block-thread)

La taille d’un warp étant la plus petite unité exécutée en parallèle, il convient d’utiliser des multiples de 32 lorsqu’on déﬁnit le nombre de threads, faute de quoi on n’utilise pas le maximum des ressources disponibles. Par exemple, allouer une taille de bloc égale à 33 threads mobilisera un warp complet de 32 threads ainsi qu’un deuxième warp ne contenant qu’un seul thread utile (les autres sont exécutés à vide), car le GPU donne les instructions par groupe de warps uniquement.

Application à la carte NVIDIA GeForce 630M

Calcul parallèle sur carte graphique 111

− 2 multiprocesseurs (SM)

− 8 blocs actifs par multiprocesseur (blocks/SM) − 1024 threads/block au maximum

Dimensionnement des threads : dans l’optique de maximiser l’occupation de la carte il faut atteindre les 1024 threads par bloc à chaque exécution. Si l’on choisit d’utiliser 32 threads/block, on n’aura que 32 × 8 = 256 threads occupés sur les 1024 disponibles. Il convient donc d’utiliser les 1024 threads en déﬁnissant un nombre de 1024/8 = 128 threads/bloc sur les 8 blocs par multiprocesseur.

Dimensionnement des blocs : la répartition des blocs se fait sur la grille dans la mesure de l’espace disponible : si le nombre de blocs est supérieur à la taille de la grille, les blocs supplémentaires sont mis dans un "pipeline" et traités séquentiellement au fur et à mesure de la libération des blocs.

Dans le cas évoqué ici, nous avons 2 SM × 8 blocs/SM = 16 blocs pouvant s’exécuter simultanément au total. La grille peut donc par exemple faire 4 × 4 blocs et le nombre de threads 128 threads/block.

Nota Bene : les spéciﬁcations techniques présentent le matériel sous l’angle le plus

avantageux en donnant à chaque fois la performance maximum pour la conﬁguration minimale en termes de blocks utilisés (on lira par exemple 1024 threads/block, qui est valable pour un block de taille 1 !).

Une façon plus imagée de représenter le travail et la fonction des blocks, threads et warps est la suivante : supposons qu’à des ﬁns statistiques on veuille obtenir le niveau moyen en mathématiques d’un groupe de 5120 élèves∗

À défaut de stade de football à disposition pour un test simultané, on choisit de réaliser plusieurs examens en des lieux diﬀérents. On demande donc à 10 écoles de faire passer le test à 512 de leurs élèves, à la suite de quoi on récupère le résultat. Nous ne nous sommes pas soucié de savoir dans quelle mesure le test a été fait en parallèle, cependant il a eu lieu dans des salles de classe : dans chaque école, les élèves ont donc été divisés en 16 groupes de 32. Cependant seulement 8 classes dans chaque école peuvent faire le test en simultané car elles ne disposent que de 8 surveillants et on ne peut mobiliser que 2 écoles en même temps car -disons- le nombre de préposés à la collecte des résultats est réduit.

Revenons à notre carte graphique avec la métaphore en ﬁligrane : on veut calculer un grand nombre d’opérations le plus rapidement possible (le niveau moyen en mathéma-tiques de 5120 élèves). Nous avons donc mobilisé un certain nombre de blocks (d’écoles)

∗inspiré et adapté de

http://stackoverflow.com/questions/3606636/cuda-model-what-is-warp-size (par M. Tibbits)

ayant chacun un nombre donné de threads (élèves). Nous sommes cependant limités par le nombre de multiprocesseurs (préposés à la collecte de données) et ceux-ci ne peuvent traiter que 8 blocks en même temps (8 surveillants), soit 16 blocks pour 2 SM (16 classes ). Le nombre d’opérations en parallèle est donc de 16 × 32 = 512 (512 copies), ce qui revient à 10 cycles d’horloge pour traiter 5120 opérations.

Notion de cœur de calcul

La notion de cœur dérivée du langage CPU donne une idée du nombre d’opérations que peut eﬀectuer la carte par cycle d’horloge. À chaque cœur est associé un warp, chaque warp gérant 32 threads eﬀectuant simultanément la même opération. La carte de l’exemple précédent possède 2 multiprocesseurs et 48 warps/multiprocesseur. Elle a donc 2 × 48 = 96 warps capable d’exécuter 96 × 32 = 3072 threads simultanément. Ainsi on peut calculer le nombre d’opérations par seconde :

− 2 MP × 48 warps/MP × 32 threads/warp = 3072 threads − 96 warps = 1 cycle d’horloge

− 800 MHz de fréquence − 1/(800 × 106) = 1.25 ns

− 3072/(1.25 × 10−9) = 2.45 × 1012 PFlop théoriques (0.3 × 1012 en pratique – on aura retrouvé peu ou prou l’ordre de grandeur)

Découpage en threads/blocks pour notre programme

Par souci de simplicité dans la programmation, nous avons choisi de découper le code en blocks et threads de manière régulière avec la méthode dim3 de CUDA qui découpe les blocks selon deux composantes ~x et ~y.

Ainsi, les nombres de blocks et de threads blocks_x et blocks_y sont déﬁnis par la taille du maillage sizex × sizey dans la direction correspondante divisée par les nombres de threads dans les directions x et y appelés threadsx et threadsy , de sorte que :

blocksx = size_x N (5.1) blocksy = sizey M (5.2) threads_x = N (5.3) threadsy = M (5.4)

La ﬁgure 5.6 permettra sans doute au lecteur de se construire une image des équations (5.1) à (5.4).

Ce découpage présente également un avantage substantiel en cela qu’il permet à aux nœuds situés sur les frontières de "connaître", ou d’avoir accès, à la valeur du voisin, ce qui est nécessaire par exemple lorsqu’on applique une condition limite extrapolée aﬁn d’imposer l’adiabatisme.

Calcul parallèle sur carte graphique 113 sizey sizex sizey M sizex N N × M threads

Figure 5.6 – Découpage choisi du domaine en blocks et threads.

Dans le document Contribution de la Lattice Boltzmann Method à l’étude de l’enveloppe du bâtiment (Page 129-132)