La consommation m´emoire

Chapitre II : Les simulations de dynamique

III.2 L’impl´ementation GPU

III.3.3 La consommation m´emoire

La consommation m´emoire est la limite de notre simulation de SRD-MD nous

empêchant de pouvoir simuler des systèmes à plus grande échelle, à cause du nombre très

important de particules de fluide à modéliser comparé au nombre de collo¨ıdes. Pour une

simulation avec une fraction volumique de ΦC = 0.1, le nombre de particules de fluide est

1578 fois plus grand que le nombre de collo¨ıdes. Toutes les donn´ees de la simulation doivent

être stockées dans la mémoire globale du GPU, afin d’éviter les transferts mémoires entre

CPU et GPU très coûteux. Or la capacité mémoire des GPUs est bien importante que celle

d’un CPU : la Tesla K20m poss`ede 5 Go de m´emoire et la carte GTX 690 2Go uniquement.

Cependant, les deux GPU de dernières générations dont nous avons pu avoir accès, avec

une capacit´e m´emoire bien plus importante de 12 Go, montre que cette limite par rapport

au CPU tend à diminuer. De plus, une partie de cette mémoire est déjà utilisée par le

syst`eme de base, pour l’affichage, donc cette limite ne peut pas ˆetre atteinte.

Chaque particule requiert de stocker sa position, sa position triée, sa vélocité,

son accélération, son accélération précédente, son déplacement depuis la dernière

r´eactualisation de la liste de Verlet et des cl´es de hachage pour l’associer aux cellules

des différentes grilles. Chaque particule de fluide requiert également une clé de hachage

associée à sa cellule de SRD et un buffer mémoire temporaire utilisé pour des

Chapitre 3 : Simulations de SRD-MD

calculs d’analyse tel que le calcul de la temp´erature du syst`eme. Chaque collo¨ıde

requiert ´egalement deux listes de Verlet de respectivement nbM axN eighborCC et

nbM axN eighborCF ´el´ements, pour les interactions collo¨ıde-collo¨ıde et collo¨ıde-fluide.

Chaque cellule nécessite deux index des premières et dernières particules qu’elle contient.

Chaque cellule de SRD n´ecessite un compteur des particules pr´esentes dans la cellule et la

vitesse du centre de masse ainsi qu’un axe al´eatoire de rotation. Dans le but de diminuer

la consommation, nous avons utilisé le même espace mémoire pour stocker tous les buffers

temporaires tels que les accélérations ou les positions non triées. Enfin, chaque générateur

aléatoire a besoin de mémoire pour stocker son état.

La double précision est préférée pour stocker les données flottantes pour une question

de validité des simulations. Dans un premier temps, les données avec trois coordonnées

(position, vélocité, accélération, etc.) ont d’abord été stockées dans une structurevector4,

dans une organisation m´emoire nomm´ee Array of Structure (AoS), comme dans les

chapitres précédents. Cette organisation mémoire a pour avantage de diminuer le nombre

de transactions lors d’accès à la mémoire du GPU. Les résultats présentés dans le

tableau III.5 sont issu d’une impl´ementation utilisant cette organisation de cette m´emoire.

Afin de réduire au maximum la consommation mémoire, nous avons réimplémenté notre

simulation, en séparant dans 3 buffers différents les coordonnées x, y et z, ce qui est appelé

une organisation en Array of Structure (SoA). Il s’est révélé qu’en plus de réduire la

consommation mémoire, cette organisation mémoire permet d’améliorer les performances

comme le montre le Tableau III.6, cette am´elioration des performances ´etant importante

pour les architectures les plus anciennes (30% plus rapide pour la GTX690 et 15% plus

rapide pour la K20m), tout en permettant de pouvoir simuler de plus grand syst`eme.

Cette organisation mémoire peut être utilisé pour tous les autres simulations présentées

jusqu’à présent et permettre d’obtenir une amélioration des performances du même ordre.

La différence de performance entre une organisation SoA et AoS a été étudié dans [50], qui

indique que l’organisation en SoA favorise l’acc`es coalescent aux donn´ees, tandis que celle

en AoS permet de r´eduire le nombre de transactions, les threads chargeant les donn´ees par

paquet de 128 bit. Dans le cas de calcul sur des donn´ees organis´es de fa¸con coalescente,

comme c’est le cas dans les simulations de fluide, une organisation SoA est optimale.

Le Tableau III.7 r´esume la consommation m´emoire d’une notre simulation , avec une

organisation mémoire en SoA. Il liste uniquement la mémoire utilisée par les principaux

buffers en fonction du nombre de collo¨ıdes, de particules de fluide, de cellules de grille

régulière et de SRD, sans prendre en compte la mémoire utilisée pour les tests. Par

exemple, pour une simulation avec la fraction volumique collo¨ıdale de ΦC = 0.10,

#colloides = 10 500, #f luids = 16 658 282, #cell

grid

= 15625, #cell

SRD

= 2299968,

nbM axN eighborCC = 50 and nbM axN eighborCF = 24050, la m´emoire totale utilis´ee

outre celle concernant l’analyse est : 132o∗16 658 282 + 148o∗10 500 + 8o∗15625 + 28o∗

Chapitre 3 : Simulations de SRD-MD

Collo¨ıdes Fluide ^{Temps/it´eration (ms)} ^{Total time (h)}

GTX690 K20m GTX690 K20m

500 788 981 59 57 0.9 0.9

2 000 3 120 942 242 235 3.7 3.6

4 000 6 311 854 493 474 7.5 7.2

6 000 9 487 161 XXX 792 XXX 12.1

8 000 12 623 708 XXX 971 XXX 14.8

10 500 16 658 282 XXX 1 179 XXX 18.0

11 000 17 317 669 XXX XXX XXX XXX

Tableau III.6 – Temps moyen d’une it´eration et temps total d’une simulation de SRD-MD

pour ΦC = 0.1 durant 55000 it´erations, avec une organisation m´emoire en SoA, sur un

GPU GTX690, K20m et GTX970. Une itération est composée de 8 étapes de MD et 1

´etape de SRD. “XXX” signifie que la consommation m´emoire de la simulation est trop

importante pour pouvoir être exécutée sur le GPU.

2299968 + 4o∗10 500∗24100 = 3.28Go.

III.4 Conclusion

Dans ce chapitre, nous avons pr´esent´e un nouvel algorithme pour des simulations de

SRD-MD avec force de couplage sur GPU. Cet algorithme combine des pr´ec´edents travaux

sur la SRD et sur la MD sur GPU et propose un nouveau sch´ema de d´ecomposition afin

de s’adapter à la spécificité de la partie MD du modèle qui est liée à notre force de

couplage. Ce nouveau sch´ema associe `a chaque bloc de threads un collo¨ıde et toutes ses

interactions à calculer. Par rapport à la décomposition standard associant un thread par

collo¨ıde, cette stratégie permet d’éviter les divergences des warps liées aux problèmes de

branches divergentes. En effet, dans la m´ethode standard, les threads doivent attendre

que tous les threads de leur warp ont termin´e de calculer leur interaction pour passer aux

collo¨ıdes suivants. Or plus la variation du nombre de voisins est importante entre collo¨ıdes,

plus le temps d’attente est important. Pour les syst`emes ayant un grand nombre de

particules voisines, notre sch´ema de d´ecomposition par bloc devient ainsi plus avantageux.

Cependant un bloc étant composé d’au minimum 32 threads, notre stratégie n’est pas

adapt´ee pour les syst`emes ayant en moyenne moins de 32 voisins et en pratique, moins de

64, car nos r´esultats montrent que cette m´ethode est optimale avec des blocs de 2 warps.

Ainsi, dans le cas de nos simulations de SRD-MD avec force de couplage, la d´ecomposition

par bloc permet une accélération de 45% par rapport aux méthodes standards de la

litt´erature.

La limite de nos simulations est la consommation m´emoire tr`es importante due au

nombre très élevé de particules de fluide à représenter dans la SRD. Afin de réduire

Chapitre 3 : Simulations de SRD-MD

élément consommation mémoire

fluide sorted position = 24 o * #f luids

velocity = 24 o * #f luids

previous acceleration = 24 o * #f luids

displacement = 24 o * #f luids

temporary buffer (for unsorted position, acceleration,

center of mass velocity) = 24 o * #f luids

hash grid = 4 o * #f luids

hash SRD = 4 o * #f luids

total = 132 o * #f luids + 4 o * #f luids * nbM axN eighbor

collo¨ıdes position = 24 o * #colloids

sorted position = 24 o * #colloids

velocity = 24 o * #colloids

acceleration = 24 o * #colloids

previous acceleration = 24 o * #colloids

displacement = 24 o * #colloids

hash grid = 4 o * #colloids

verletCC = 4 o * #colloids * nbM axN eighborCC

verletCF = 4 o * #colloids *nbM axN eighborCF

total = 148 o * #colloids +

4 o * #colloids * (nbM axN eighborCC+nbM axN eighborCF)

grille index start = 4 o * #cell

grid

r´eguli`ere index end = 4 o * #cell

_grid

total = 8 o * #cell

grid

grille SRD counter = 4 o * #cell

SRD

rotation axis = 24 o * #cell

SRD

total = 28 o * #cell

SRD

Chapitre 3 : Simulations de SRD-MD

la consommation m´emoire, nous avons changer l’organisation m´emoire en AoS avec des

vector4 utilisé précédemment, par une organisation en SoA avec 3 buffers distincts pour

les coordonnées x, y et z, pour un gain de 25% de mémoire. De plus, nous avons constaté

que cette organisation m´emoire favorise la coalescence et donc les performances, surtout

pour les architectures plus anciennes. Ainsi, les pr´ec´edentes simulations peuvent aussi

appliquer une organisation mémoire en SoA afin de réduire la consommation mémoire et

améliorer légèrement les performances.

La consommation mémoire reste une limite, qui nous empêche de simuler des systèmes

très larges avec des GPUs standards dont la capacité mémoire est limité. Cependant,

certains GPUs de dernière génération possèdent jusqu’à 32Go de mémoire permettant de

d´epasser cette limite en utilisant notre algorithme. Il existe ´egalement la solution d’utiliser

un cluster de GPU, pour lequel il faudrait adapter notre méthode pour être parallélisée

sur un cluster. Toutefois, mˆeme avec nos ressources actuelles, la parall´elisation sur GPU

de ce type de simulation de SRD-MD permet d’ouvrir des perspectives nouvelles dans

l’étude de ce modèle, accélérant considérablement les temps de calcul et permettant une

étude à une plus grande échelle.

Chapitre 4 : Application de la SRD aux simulations de fluides

Dans le document Simulations de fluides complexes à l'échelle mésoscopique sur GPU (Page 88-93)

Chapitre II : Les simulations de dynamique

III.2 L’impl´ementation GPU

III.3.3 La consommation m´emoire

La consommation m´emoire est la limite de notre simulation de SRD-MD nous

empêchant de pouvoir simuler des systèmes à plus grande échelle, à cause du nombre très

important de particules de fluide à modéliser comparé au nombre de collo¨ıdes. Pour une

simulation avec une fraction volumique de ΦC = 0.1, le nombre de particules de fluide est

1578 fois plus grand que le nombre de collo¨ıdes. Toutes les donn´ees de la simulation doivent

être stockées dans la mémoire globale du GPU, afin d’éviter les transferts mémoires entre

CPU et GPU très coûteux. Or la capacité mémoire des GPUs est bien importante que celle

d’un CPU : la Tesla K20m poss`ede 5 Go de m´emoire et la carte GTX 690 2Go uniquement.

Cependant, les deux GPU de dernières générations dont nous avons pu avoir accès, avec

une capacit´e m´emoire bien plus importante de 12 Go, montre que cette limite par rapport

au CPU tend à diminuer. De plus, une partie de cette mémoire est déjà utilisée par le

syst`eme de base, pour l’affichage, donc cette limite ne peut pas ˆetre atteinte.

Chaque particule requiert de stocker sa position, sa position triée, sa vélocité,

son accélération, son accélération précédente, son déplacement depuis la dernière

r´eactualisation de la liste de Verlet et des cl´es de hachage pour l’associer aux cellules

des différentes grilles. Chaque particule de fluide requiert également une clé de hachage

associée à sa cellule de SRD et un buffer mémoire temporaire utilisé pour des

Chapitre 3 : Simulations de SRD-MD

calculs d’analyse tel que le calcul de la temp´erature du syst`eme. Chaque collo¨ıde

requiert ´egalement deux listes de Verlet de respectivement nbM axN eighborCC et

nbM axN eighborCF ´el´ements, pour les interactions collo¨ıde-collo¨ıde et collo¨ıde-fluide.

Chaque cellule nécessite deux index des premières et dernières particules qu’elle contient.

Chaque cellule de SRD n´ecessite un compteur des particules pr´esentes dans la cellule et la

vitesse du centre de masse ainsi qu’un axe al´eatoire de rotation. Dans le but de diminuer

la consommation, nous avons utilisé le même espace mémoire pour stocker tous les buffers

temporaires tels que les accélérations ou les positions non triées. Enfin, chaque générateur

aléatoire a besoin de mémoire pour stocker son état.

La double précision est préférée pour stocker les données flottantes pour une question

de validité des simulations. Dans un premier temps, les données avec trois coordonnées

(position, vélocité, accélération, etc.) ont d’abord été stockées dans une structurevector4,

dans une organisation m´emoire nomm´ee Array of Structure (AoS), comme dans les

chapitres précédents. Cette organisation mémoire a pour avantage de diminuer le nombre

de transactions lors d’accès à la mémoire du GPU. Les résultats présentés dans le

tableau III.5 sont issu d’une impl´ementation utilisant cette organisation de cette m´emoire.

Afin de réduire au maximum la consommation mémoire, nous avons réimplémenté notre

simulation, en séparant dans 3 buffers différents les coordonnées x, y et z, ce qui est appelé

une organisation en Array of Structure (SoA). Il s’est révélé qu’en plus de réduire la

consommation mémoire, cette organisation mémoire permet d’améliorer les performances

comme le montre le Tableau III.6, cette am´elioration des performances ´etant importante

pour les architectures les plus anciennes (30% plus rapide pour la GTX690 et 15% plus

rapide pour la K20m), tout en permettant de pouvoir simuler de plus grand syst`eme.

Cette organisation mémoire peut être utilisé pour tous les autres simulations présentées

jusqu’à présent et permettre d’obtenir une amélioration des performances du même ordre.

La différence de performance entre une organisation SoA et AoS a été étudié dans [50], qui

indique que l’organisation en SoA favorise l’acc`es coalescent aux donn´ees, tandis que celle

en AoS permet de r´eduire le nombre de transactions, les threads chargeant les donn´ees par

paquet de 128 bit. Dans le cas de calcul sur des donn´ees organis´es de fa¸con coalescente,

comme c’est le cas dans les simulations de fluide, une organisation SoA est optimale.

Le Tableau III.7 r´esume la consommation m´emoire d’une notre simulation , avec une

organisation mémoire en SoA. Il liste uniquement la mémoire utilisée par les principaux

buffers en fonction du nombre de collo¨ıdes, de particules de fluide, de cellules de grille

régulière et de SRD, sans prendre en compte la mémoire utilisée pour les tests. Par

exemple, pour une simulation avec la fraction volumique collo¨ıdale de ΦC = 0.10,

#colloides = 10 500, #f luids = 16 658 282, #cell

= 15625, #cell

= 2299968,

nbM axN eighborCC = 50 and nbM axN eighborCF = 24050, la m´emoire totale utilis´ee

outre celle concernant l’analyse est : 132o∗16 658 282 + 148o∗10 500 + 8o∗15625 + 28o∗

Chapitre 3 : Simulations de SRD-MD

Collo¨ıdes Fluide Temps/it´eration (ms) Total time (h)

GTX690 K20m GTX690 K20m

500 788 981 59 57 0.9 0.9

2 000 3 120 942 242 235 3.7 3.6

4 000 6 311 854 493 474 7.5 7.2

6 000 9 487 161 XXX 792 XXX 12.1

8 000 12 623 708 XXX 971 XXX 14.8

10 500 16 658 282 XXX 1 179 XXX 18.0

11 000 17 317 669 XXX XXX XXX XXX

Tableau III.6 – Temps moyen d’une it´eration et temps total d’une simulation de SRD-MD

pour ΦC = 0.1 durant 55000 it´erations, avec une organisation m´emoire en SoA, sur un

GPU GTX690, K20m et GTX970. Une itération est composée de 8 étapes de MD et 1

´etape de SRD. “XXX” signifie que la consommation m´emoire de la simulation est trop

importante pour pouvoir être exécutée sur le GPU.

2299968 + 4o∗10 500∗24100 = 3.28Go.

III.4 Conclusion

Dans ce chapitre, nous avons pr´esent´e un nouvel algorithme pour des simulations de

Collo¨ıdes Fluide ^{Temps/it´eration (ms)} ^{Total time (h)}