Limitations de la carte graphique - Simulations Monte Carlo sur processeur graphique en curieth

Lorsqu’un algorithme destiné à fonctionner sur un processeur graphique est con¸cu, les limites intrinsèques des différentes cartes doivent être prises en compte. En effet, le nombre de processus légers par bloc, le nombre de bloc exécutés en simultané sur chaque multi-processeur, le nombre de registres disponibles par processus légers, pour ne nommer que ces caractéristiques, dépendent de la carte graphique utilisée comme en témoigne le tableau3.2[41]. Il est de la res- ponsabilité du programmeur d’optimiser ces valeurs afin d’obtenir les performances optimales de l’algorithme. Afin de faciliter cette tâche, NVIDIA a mis au point un document permet- tant d’effectuer ce travail simplement. Sans entrer dans les détails, connaissant le nombre de registres utilisés par un kernel, différentes valeurs de processus légers par bloc sont essayées pour déterminer la taille optimale des blocs. De plus, les éléments limitant l’occupation de la carte graphique sont aussi fournis. Ceci permet d’envisager une réorganisation du code pour augmenter l’occupation du processeur graphique en tenant compte de ces limitations.

Avec les nombreuses caractéristiques présentées dans ce chapitre, le calcul sur carte graphique ouvre la voie à l’application des simulations Monte Carlo rapides en curiethérapie. Un algorithme a d’ailleurs déjà été développé et présente des résultats encourageants dans l’optique de l’application de la méthode Monte Carlo en clinique.

Chapitre 4

Algorithme Monte Carlo sur

processeur graphique

Une des premières utilisations des processeurs graphiques pour effectuer des simulations Monte Carlo en physique médicale vient de Jia et al. [47]. Ces derniers ont adapté un algorithme Monte Carlo déjà existant développé par Sempau et al. [48] pour déterminer les gains en vitesse de calcul procurés par l’utilisation d’une carte graphique pour effectuer les simulations. Des facteurs d’accélérations de 5 à 6.6 ont ainsi été obtenus. À titre d’exemple, le temps de simulation d’un faisceau de 107 photons à une énergie de 6 MV dans un milieu composé d’eau et de poumon passe de 5615 s pour le code original à 846 s pour l’adaptation sur carte graphique. Bien que la réduction des temps de calculs soit intéressante, l’inconvénient majeur du travail de Jia et al. est que l’algorithme utilisé n’a pas été con¸cu spécifiquement pour les processeurs graphiques. Il faut attendre les travaux de Hissoiny et al. [49,50] pour observer la puissance de calcul disponible dans les processeurs graphiques. Après avoir présenté un algorithme de superposition-convolution montrant des accélérations allant d’un facteur 29 à 943, un algorithme Monte Carlo est développé pour la radiothérapie externe, GPUMCD, pour Graphical Processing Unit Monte Carlo Dosimetry. Ce nouvel algorithme Monte Carlo montre un facteur d’accélération de 900 si on compare au code EGSnrc [51], un code déjà bien établi, et un facteur d’accélération de 200 lorsque comparé au code DPM [48], un code optimisé pour la vitesse de calcul.

Après avoir considéré la radiothérapie externe, Hissoiny et al. [52] adaptent l’algorithme GPUMCD pour la curiethérapie. Cet adaptation porte le nom de bGPUMCD, soit brachythe- rapy GPUMCD. Il s’agit de cette version du code qui sera utilisée subséquemment pour simuler des distributions de dose d’implants permanents de prostate. Dans ce chapitre, l’algorithme est premièrement détaillé pour comprendre son implantation sur processeur graphique. Ceci permettra aussi de comprendre les changements apportés et présentés au chapitre suivant. Deuxièmement, les résultats déjà obtenus sont présentés afin de voir tout le potentiel de cet

algorithme Monte Carlo sur carte graphique.

4.1 Structure de l’algorithme bGPUMCD

4.1.1 G´eom´etrie du milieu de simulation

Dans l’algorithme bGPUMCD, deux types de géométrie coexistent. Le premier type consiste en une grille de voxels et elle peut s’initialiser de deux fa¸cons différentes. Dans un premier temps, l’utilisateur du code peut décider des dimensions et du nombre de voxels. Aussi, il définit la composition des voxels selon les matériaux souhaités dans la simulation. Chaque matériau inclus est caractérisé par un indice entier, une densité et l’endroit dans la grille de voxels où il se trouve. Toutes ces données sont écrites dans un fichier contenant les paramètres d’initialisation nécessaires au lancement de la simulation. Dans un deuxième temps, la grille de voxels peut être lue directement d’un fichier de type .egsphant [53] provenant d’images d’un patient. Dans ce cas, le fichier contient directement la taille et la composition de la grille de voxels. Du point de vue de la mise en mémoire sur la carte graphique, la grille de voxels est placée dans une texture tri-dimensionnelle. Ceci permet d’utiliser le cache des textures lorsqu’une certaine localité dans les valeurs lues est présente tel que mentionné dans le chapitre précédent.

Le deuxième type de géométrie présent se définit à l’aide de surfaces quadratiques aussi ap- pelées quadriques [54]. La forme générale quadratique de cette surface s’écrit sous forme ma- tricielle comme : Q(x, y, z) = x y z    A F E F D B E B C       x y z   . (4.1)

Bien que cette forme soit générale, les termes croisés posent des difficultés lors du transport des photons dans ce type de géométrie. C’est pourquoi il a été décidé de définir seulement des surfaces quadratiques dont les axes principaux sont dans le même sens que ceux de la grille de simulation, résultant à la forme plus simple :

Ax2+ By2+ Cz2− J2 = 0. (4.2) `

A partir de l’expression4.2, plusieurs surfaces comme des sphères, des cylindres ou des cônes se définissent. Le choix de la surface est dicté par les paramètres A, B, C et J . Par exemple, le choix A = B = C = J = 1 décrit une sphère de rayon unitaire centrée à x = y = z = 0. Ces quadriques sont utiles lorsque vient le temps de définir des géométries un peu plus complexes, en particulier les sources radioactives de curiethérapie. En effet, les sources se décrivent en général simplement à l’aide de sphères et de cylindres assemblés de fa¸con précise. Lors de l’initialisation d’une simulation, ces surfaces sont placées en mémoire constante sur la carte graphique. Étant donnée le peu d’espace nécessaire pour chaque surface, ce type de mémoire

est choisi car l’information sur les surfaces paramétriques est lue très souvent pour effectuer le tracer de rayon. La mémoire constante permet alors de mettre l’information en cache pour une lecture plus rapide.

Pendant une simulation, l’utilisateur a le choix d’utiliser seulement une grille de voxels ou un mélange des deux types de géométries. La grille doit être présente à tout moment car c’est dans cette dernière qu’est déposée l’énergie lorsqu’il y a interaction d’un photon ou quand l’estimateur de parcours linéaire est utilisé.

4.1.2 Transport des photons et dépôt de l’énergie

Selon le type de géométrie présent et la manière choisie pour déposer l’énergie pendant la simulation, la fa¸con dont sont transportés les photons varie. Trois cas sont possibles : une géométrie voxélisée seule en utilisant la méthode analogue pour déposer l’énergie, un mélange d’une grille de voxels et de surfaces quadratiques toujours avec la méthode analogue et fina- lement l’utilisation de l’estimateur de parcours linéaire. Pour les trois options présentées, le photon est transporté jusqu’à ce qu’il sorte de la grille de voxels ou que son énergie se trouve sous une certaine limite, habituellement 1 keV.

Grille de voxels et m´ethode analogue

Un point commun à toutes les simulations est l’utilisation de l’algorithme de Woodcock pour déterminer la distance parcourue par le photon avant d’interagir. À partir du coefficient d’atténuation linéaire maximal µmax(E) présent dans la géométrie voxélisée, la longueur de

parcours du photon est calcul´ee par

l = − ln ζ µmax(E)

(4.3)

avec ζ un nombre aléatoire entre zéro et un et E l’énergie du photon. Une fois cette longueur calculée, le photon est transporté sur la distance l et interagit avec le milieu selon les sections efficaces du matériau dans lequel il se trouve. Advenant une interaction fictive introduite par l’utilisation de l’algorithme de Woodcock, un nouveau parcours est calculé dans la même direction à l’aide de4.3 et le processus est répété. Si le photon interagit par effet Compton, photoélectrique ou diffusion Rayleigh, la direction et l’énergie du photon sont modifiées. La nouvelle énergie E0 est inférieure à l’énergie initiale s’il y a effet Compton ou photoélectrique alors que pour la diffusion Rayleigh, elle demeure la même. Après interaction, comme les ´

electrons ne sont pas simulés, la différence d’énergie E − E0 est emmagasinée dans le voxel où le photon se trouve et l’équation 4.3est à nouveau utilisée.

Grille de voxels, surfaces param´etriques et m´ethode analogue

Ici aussi, la longueur de parcours du photon est calculée avec l’équation 4.3et est définie par l. Cependant, l’aspect à considérer est la valeur du coefficient d’atténuation linéaire présent

dans les surfaces quadratiques. En effet, s’il est largement supérieur au coefficient d’atténuation linéaire moyen trouvé dans la grille de voxels, il doit être laissé de côté en raison des limitations de l’algorithme de Woodcock tel que mentionnées dans la sous-section 2.2.3. C’est pourquoi en général deux méthodes sont utilisées pour transporter le photon lors d’un mélange de géométries. Dans la grille voxélisée, l’algorithme de Woodcock est toujours employé et le photon est transporté jusqu’à une surface paramétrique. Au moment où le photon rencontre la surface, la distance à parcourir restante, l0, est pondérée selon l’atténuation des surfaces paramétriques. Cette technique se base sur la conservation de la probabilité d’absence d’interaction pour un nombre de parcours moyens donnés [55]. Cette probabilité s’écrit mathématiquement comme : e−l0µ= e−yµ0 (4.4)

avec µ le coefficient d’atténuation linéaire dans la géométrie voxélisée et µ0 le coefficient d’atténuation linéaire du quadrique. La quantité y représente la longueur qui serait parcourue par le photon si l0 était calculée à partir du coefficient d’atténuation linéaire de la surface paramétrique et se trouve à partir de la relation4.4:

y = l0µ

µ0. (4.5)

Dans le cas où y < s, avec s la distance physique à parcourir pour traverser la surface quadratique, le photon ne traversera pas complètement la surface et interagira à l’intérieur de celle-ci. Dans l’autre cas, le photon passe au-travers et c’est l’algorithme de Woodcock qui reprend le contrôle du transport avec une longueur de parcours restante égale à l0 − s. Si plusieurs surfaces quadratiques se trouvent sur le chemin du photon, l’équation4.5est utilisée de fa¸con successive jusqu’à ce que le photon s’arrête dans une des surfaces ou qu’il les traverse complètement. En ce qui concerne le dépôt d’énergie, une technique identique à celle de la sous-section précédente est utilisée car la méthode analogue est employée.

Utilisation de l’estimateur de parcours lin´eaire

Tel que présenté à la section 2.2.2, l’estimateur de parcours linéaire permet de diminuer le nombre de photons à simuler pour obtenir des résultats comparables à la méthode analogue. L’utilisation de cet estimateur nécessite cependant de connaˆıtre la distance parcourue dans chaque voxel. Pour y arriver, la distance totale à parcourir selon l’algorithme de Woodcock est tout d’abord calculée à l’aide de l’équation 4.3. Ensuite, si des surfaces paramétriques se trouvent sur le chemin du photon, l’équation 4.5 est utilisée afin de tenir compte de l’atténuation plus ou moins grande des surfaces quadratiques le long du parcours du photon. Une fois que la distance à parcourir pour le photon est bien définie, la méthode décrite par Amanatides et al. [56] permet de calculer la distance dans chaque voxel. Le point de départ consiste à considérer la nature vectorielle du déplacement d’un photon. Si l’impulsion normalisée du photon est définie par ~p et que ce dernier parcourt une longueur l, la position

finale du photon dans les trois directions x, y et z s’´ecrit

xf = xi+ px· l

yf = yi+ py· l (4.6)

zf = zi+ pz· l

avec (x_i, yi, zi) et (xf, yf, zf) les positions initiales et finales. La distance pour atteindre le

prochain voxel, dans la direction x par exemple, est alors déterminée de la fa¸con suivante. La composante x de l’équation4.7peut s’écrire comme

xf − xi = px· l. (4.7)

La quantit´e x_f− xi est connue et correspond `a la longueur entre le photon et le prochain voxel

dans une direction parallèle à l’axe x. La valeur de x_iest la position initiale et comme la grille de voxels est initialisée par l’utilisateur, la valeur de xf est déterminée selon le voxel dans lequel le

photon se trouve et la direction de son impulsion. À partir de la valeur de x_f− x_i, une distance dxest calculée à l’aide de l’impulsion px du photon. Ce processus est répété pour les directions

y, z et il en r´esulte trois diff´erentes distances dx, dy et dz. La distance au prochain voxel est

alors la valeur minimale des trois distances trouv´ees, soit d_voxel= min (dx, dy, dz). Une fois la

distance au prochain voxel évaluée, la valeur du coefficient d’atténuation massique en énergie pour le matériau du voxel et l’énergie du photon est lu dans la mémoire du programme pour calculer la quantité définie par l’équation2.3, soit

LT E = Eγ·µen/ρ· dvoxel

V .

Le photon est ensuite avancé d’une longueur dvoxel et les mêmes étapes sont répétées jusqu’à

ce que le photon ait parcouru toute la distance déterminée au départ.

4.1.3 Générateur de nombres aléatoires et interactions physiques

L’adaptation à la curiethérapie bGPUMCD utilise le même générateur de nombres aléatoires que GPUMCD [50]. Bien qu’un générateur soit déjà disponible sur la plate-forme CUDA, il utilise beaucoup de ressources de la carte. Un aspect important de ce nouveau générateur de nombres aléatoires est qu’il s’initialise indépendemment pour chaque processus léger lancé sur la carte. Comme chaque processsu léger correspond à un photon simulé, ceci signifie que le nombre de données nécessaires au générateur de nombres aléatoires et emmagasiné dans la mémoire de la carte graphique est directement proportionnel au nombre de processus léger lancés. Il est donc important de ne pas trop simuler de photons simultanément sinon la mémoire disponible sur la carte graphique risque d’être saturée rapidement. Le générateur développé est basé sur le travail de Marsaglia et al. [57] et réussit avec succès tous les tests sauf un de la classe TESTU01 [50, 25]. Sans entrer dans les détails, le test qui échoue concerne l’uniformité du générateur de nombre aléatoire [58]. De plus, toujours selon [58], il est impensable de concevoir

un générateur de nombres aléatoires qui satisfait tous les tests étant donné le nombre presque infini pouvant être con¸cu. À l’opposé, rien ne garantit avec certitude qu’un générateur passant avec succès une batterie de tests sera totalement fiable pour toutes les situations rencontrées. Un mauvais générateur de nombres aléatoires sera alors identifié lorsque ce dernier échoue des tests simples. Il est important que ce générateur soit adéquat car il est l’élément de base des simulations Monte Carlo.

Dans la version originale de l’algorithme bGPUMCD, deux interactions physiques étaient implémentées, soit l’effet Compton et l’effet photoélectrique. En ce qui concerne l’effet Comp- ton, l’électron avec lequel interagit le photon est considéré comme libre. La cinématique résultante du photon est basée sur le travail de Everett et al. [59]. Pour l’effet photoélectrique, l’énergie du photon est complètement absorbée sauf lorsque l’interaction survient dans le ti- tane composant la capsule d’une source radioactive. Dans ce cas, il y a émission d’un photon de fluorescence avec une énergie de 4.5 keV. Pour ce qui est des électrons libérés lors des deux interactions, l’approximation de la dose par le Kerma collisionnel est utilisée telle que décrite dans la section2.2.1, ce qui fait en sorte qu’ils ne sont pas simulés.

4.1.4 Sections efficaces et coefficients d’absorption massique en ´energie

Les sections efficaces pour les différentes interactions et les coefficients d’absorption massique en énergie proviennent des données du NIST [28, 31]. Dans l’algorithme, ces données sont mises en mémoire dans des textures en une dimension. Comme les photons ne sont plus simulés lorsque leur énergie descend sous 1 keV, les sections efficaces et les coefficients d’absorption massique en énergie en mémoire couvrent une gamme d’énergie allant de 1 keV jusqu’à 20 MeV `

a chaque pas de 100 eV, ce qui fait 199990 valeurs pour chaque matériau dans la simulations. Comme les données du NIST ne sont pas fournies à chaque incrément de 100 eV, une interpolation linéaire est utilisée pour combler les valeurs manquantes. Dans la version originale du code, cette interpolation ne tient pas compte de l’augmentation soudaine de la section efficace de l’effet photoélectrique pour des photons dont l’énergie est autour de celle de l’énergie de liaison de la couche K de l’atome considéré.

Dans le document Simulations Monte Carlo sur processeur graphique en curiethérapie à bas débit de dose pour le cancer de la prostate (Page 48-54)