Programmation sur GPU

4.2 Allocation de ressources sur GPU

3. On pourra remarquer que le termeshaderest rest´e, malgr´e qu’il ne s’agisse plus de calculer les ombres propres en un point d’un triangle.

4.2 Allocation de ressources sur GPU

4.2.1 Programmation sur GPU

4.2.1.1 Historique

L’organisation actuelle des GPU programmables tient beaucoup `a l’´evolution qu’ont connus

les processeurs graphiques au cours des deux derni`eres d´ecennies.

Comme son nom l’indique, une carte graphique a vocation premi`ere `a s’occuper de l’affichage.

Nous ne nous int´eresserons pas aux syst`emes d’affichage vectoriels, qui utilisaient des faisceaux

d’électrons pour dessiner directement les formes souhaitées à l’écran, à la manière d’un oscilloscope

(ce type d’affichage a pratiquement disparu). Ainsi, nous consid´ererons qu’`a la base, une carte

graphique contenait au minimum de la RAM dans laquelle était stocké le framebuffer (c.-à-d. le

bitmap des pixels affichés à l’écran) et une puce permettant de transmettre le signal correspondant

`

a l’´ecran.

Très tôt, il est devenu tentant d’étendre les possibilités les possibilités du GPU dans le but

de soulager le CPU de certains traitements graphiques. Par exemple, il ´etait possible de cr´eer

un framebuffer de taille importante et de n’en afficher qu’une partie à l’écran afin de créer des

effets de défilement ou dedouble bufferinggérés en matériel. Similairement, les couleurs pouvaient

ˆ

etre gérées par l’intermédiaire d’une LUT (

palette

), autorisant certaines animations simples ne

consommant que tr`es peu de puissance CPU.

Rapidement, les primitives 2D les plus courantes se sont vues g´er´ees par le GPU (par exemple :

remplissage de rectangles par une couleur uniforme, copies

2D

entre deux zones de la m´emoire

vidéo, etc.). Puis ce fut au tour des primitives 3D. Alors que des contrôleurs DMA légèrement

modifiés suffisaient généralement pour l’essentiel des tâches liées à l’accélération 2D, il a fallu

mettre en place un pipeline graphique nettement plus complexe afin de g´erer les techniques les

plus couramment utilisées en rastérisation de scènes tridimensionnelles (par exemple : remplissage

de triangles par ombrage de Gouraud [31], texturage paruv mappingavec correction de perspective

[36], etc.). L’organisation de la mémoire vidéo a également dû évoluer, non seulement pour contenir

les textures, mais aussi des tampons additionnels, tels que ledepth buffer (parfois appel´ez-buffer,

contenant la distance de chaque pixel au plan de la camera) ou lestencil buffer (dont il appartient

au programmeur de choisir le rôle). Pour chaque pixel considéré lors de la rastérisation d’un

triangle, les valeurs correspondantes de ces deux tampons permettront de d´eterminer si l’on ´ecrira

effectivement la couleur calcul´ee par ombrage dans le framebuffer, ou si au contraire on va laisser

la valeur du framebuffer inchang´ee pour ce pixel.

L’étape suivante dans la complexification croissante des GPU a consisté à permettre à

l’util-isateur de spécifier ses propres méthodes d’ombrage par le biais de petits programmes exécutés

sur des processeurs SIMD minimalistes int´egr´es dans le GPU. Un tel programme allait

typique-ment être lancé pour chaque pixel d’un triangle donné (

pixel shader

ou

fragment shader

,

les deux termes étant équivalents), et pouvait servir à obtenir des effets de textures multiples, de

bump mapping, d’eau, de fourrure, etc. Du fait du caractère généraliste des processeurs servant

`

a évaluer les pixel shaders, ils ont également été mis à contribution pour d’autres tâches, telles

que la transformation des positions des sommets des triangles (

vertex shaders

). Au d´epart,

il existait des limitations importantes concernant la taille d’un shader (en nombre d’instructions)

et les structures de contrôle qui y étaient présentes, mais progressivement elles se sont assouplies.

Comme les shaders devenaient de plus en plus complexes, les GPUs consacraient des surfaces de

plus en plus importantes aux processeurs destinés à leur évaluation.

Bien que les GPU modernes contiennent toujours des blocs sp´ecifiques au pipeline de rendu,

il est devenu possible de les utiliser dans un mode où ils sont désactivés et où le programmeur

a le champ libre pour utiliser les processeurs SIMD `a sa guise. C’est ce que nVidia (le premier

constructeur à avoir permis ce mode d’utilisation) appelle le mode compute. Étant donné les

caract´eristiques des processeurs de traitement des GPUs, l’utilisation du mode compute permet

d’obtenir des performances différentes de celle des CPUs classiques. En règle générale, ces

perfor-mances sont supérieures pour des applications fortement parallèles, exhibant peu d’irrégularités

dans le contrˆole. Elles peuvent chuter (potentiellement de fa¸con spectaculaire) en cas de

par-allélisme à trop gros grain, de barrières de synchronisation mal placées, ou d’accès aléatoires à la

mémoire vidéo (suivant la fa¸con dont ceux-ci sont effectués — la présence de plusieurs caches et

scratchpads permet de mitiger ce probl`eme).

Il est clair que la fa¸con de programmer un GPU varie grandement en fonction de la g´en´eration

de carte vidéo considérée. D’ores et déjà, certaines applications image peuvent être réalisées

astu-cieusement sur un GPU sans utiliser les processeurs SIMD (donc sans vraiment le programmer).

C’est par exemple le cas de [20, 52]. Ces exemples ne se limitent cependant qu’`a un nombre

re-streint de problèmes spécifiques. Le premier véritable moyen de programmer un GPU est d’utiliser

ses pixel shaders tout en restant en mode rendu. Il existe deux langages/API principales

permet-tant de r´ealiser cette tˆache : GLSL [50] (OpenGL Shading Language, permettant de programmer

les shaders depuis OpenGL) et HLSL (High Level Shader Language, utilisable depuis DirectX,

mais aussi en conjonction avec OpenGL via le compilateur Cg de nVidia). Afin de traiter un

problème général avec ces langages, on va généralement (1) placer les données à traiter dans une

Figure 4.9 – Schéma architectural d’un GPU de nVidia (figure empruntée à [69])