Analyse de la performance sur le temps d’ex´ ecution de la fonction ascpot

5.6 Analyse de la performance sur le temps d’ex´ecution

de la fonction ascpot

Nous avons remarqué que lors d’un calcul d’énergie par l’approche combinée DFTB / FMO / PCM sur 1244 atomes, la fonction ascpot est appelée 343 fois. Nous allons concentrer nos efforts dans cette section sur le temps d’exécution de la fonction ascpot. L’objectif est d’évaluer le portage GPU le plus performant réalisé actuellement. Le portage GPU évalué est donc celui avec blocking. Nous allons comparer les temps de ce portage GPU pour une ou deux cartes K20X avec la version CPU la plus efficace (socket-intel-mkl). Dans un premier temps nous allons nous intéresser à l’extensibilité forte du code CPU en fonction du nombre de cœurs de calcul utilisés pour l’exécution de la fonction ascpot toute seule.

Extensibilit´e forte du code CPU en fonction du nombre de cœurs

de calcul

Nous avons déjà précédemment étudié l’extensibilité du code CPU de GAMESS en re-portant le temps d’exécution total. Dans cette section nous regardons l’extensibilité de la fonction ascpot en fonction du nombre de processeurs utilisés. La figure 5.7 illustre l’ex-tensibilité forte du code existant. Nous pouvons voir sur notre exemple (calcul d’énergie DFTB / FMO / PCM sur 1244 atomes et 8946 éléments de surface de cavité de solva-tation) que le temps d’exécution suit une progression linéaire en fonction du nombre de cœurs de calcul avec un facteur 15 d’accélération lorsque 16 processeurs sont utilisés.

Figure 5.7 – Extensibilit´e de la fonction ascpot en fonction du nombre de cœurs CPU de calcul

Le code actuel implémenté dans GAMESS permet donc de tirer correctement profit des ressources parallèles disponibles pour la fonction ascpot. Ce constat sur extensibilité de la fonction ascpot est rassurant par rapport à l’extensibilité du temps d’exécution total.

Nous pouvons donc prendre comme référence pour évaluer le portage GPU les temps de calcul de l’installation socket-intel-mkl avec 16 cœurs. Gardons tout de même en tête plusieurs différences :

• Le code CPU utilise des régions pour accélérer le calcul de la fonction ascpot, ce que ne fait pas le portage GPU.

• Le code CPU utilise l’installation en mode socket tandis que le portage GPU utilise la biblioth`eque LIBCCHEM.

Comparaison des temps de calcul de la fonction ascpot du portage

GPU (blocking ) `a l’installation CPU (socket-intel-mkl )

Dans le but de simplifier le propos, nous allons nous concentrer ici sur le portage GPU avec blocking. Nous allons comparer les temps de ce portage GPU avec deux versions CPU provenant de l’installation socket-intel-mkl, l’une avec l’optimisation des régions et l’autre sans. En effet au même titre qu’il est important d’avoir une référence aussi optimisée que possible, il est aussi important pour être honnête de comparer des algorithmes similaires. Dans notre cas le portage GPU ne tire pas profit de l’approximation des régions donc avoir une référence CPU qui ne tire pas profit de cette approximation des régions est intéressant pour analyser les performances du portage GPU.

La fonction ascpot est appelée plusieurs fois au cours d’une exécution. Pour évaluer ses performances deux valeurs sont récupérées :

• La somme de l’ensemble des temps d’exécution des appels à la fonction ascpot. • La moyenne de l’ensemble des temps d’exécution des appels à la fonction ascpot. Afin d’évaluer le temps d’exécution passé dans la fonction ascpot trois exemples sont considérés. La description de la surface de la cavité de solvatation avec plus de triangles est possible via une option de GAMESS. Chaque exemple possède un certain nombre d’éléments de surface, ici : 8 964, 35 694 et 142 795. L’intérêt d’augmenter la taille du problème est d’évaluer comment se comporte le matériel en fonction de la quantité de données à traiter (l’extensibilité faible du chapitre 1).

Utilisation d’une seule carte graphique K20X

Les sommes des temps de la fonction ascpot sont illustrées dans la figure 5.8. Trois temps sont reportés par exemple. Pour le premier exemple (8 946 éléments) le temps CPU avec l’approximation régionale est le plus court (7,9 s), puis le code CPU sans l’approximation régionale (10,1 s) et enfin le portage GPU (11,8 s). Le deuxième exemple (35 694 éléments) produit des temps ordonnés de manière similaire au premier exemple. Quant au troisième exemple (142 795 éléments) le portage GPU (3 441 s) est plus rapide que le code CPU sans l’approximation des régions (3 686 s) mais le portage GPU reste plus lent que le code CPU avec l’approximation des régions (2 055 s).

Nous pouvons constater qu’avec une carte graphique K20X, l’installation CPU (socket-intel-mkl) reste plus performante sur tous les exemples. L’utilisation d’une carte graphique K20X ne permet donc pas d’accélérer les performances par rapport au code avec l’approxi-mation des régions. En revanche, si l’on compare l’utilisation d’une seule carte graphique au code CPU sans approximation, nous pouvons constater que les performances sont similaires.

Figure 5.8 – Temps d’exécution de la fonction ascpot d’un calcul d’énergie DFTB / FMO / PCM sur un système comportant 1244 atomes et trois maillages différents pour la cavité de solvatation : 8 946 (a), 35 694 (b) et 142 795 (c) triangles. Installations CPU (socket-intel-mkl) avec ou sans l’approximation des régions et le portage GPU (blocking) sur une carte graphique K20X.

La performance décrite précédemment sur les sommes des temps de la fonction ascpot pour une carte graphique K20X se retrouve (figure 5.9) lorsque nous regardons le temps moyen des exécutions rencontrées sur les trois instances : 8 946, 35 694 et 142 795 éléments. Le code CPU avec approximation s’exécute plus rapidement sur ces trois instances, avec par exemple, un temps d’exécution moyen de la fonction ascpot de 4,14 s pour le code CPU (socket-intel-mkl) avec l’approximation des régions et de 6,91 s pour le portage GPU (blocking) sur l’exemple avec 142 795 éléments tandis que le code CPU sans approximation exécute en moyenne en 7,40 s les appels à la fonction ascpot.

Figure 5.9 – Moyennes des temps d’exécutions de la fonction ascpot d’un calcul DFTB / FMO / PCM sur un système comportant 1244 atomes et trois maillages différents pour la cavité de solvatation : 8 946 (a), 35 694 (b) et 142 795 (c) triangles. Installations CPU (socket-intel-mkl) avec ou sans l’approximation des régions et le portage GPU (blocking) sur une carte graphique K20X.

L’algorithme porté est itératif et utilise des variables flottantes double précision ce qui n’est pas un environnement favorable à l’utilisation de cartes graphiques. Nous pouvons cependant constater qu’à approximation régionale égale, les temps d’exécution du portage GPU et de l’implémentation CPU sont similaires.

Maintenant que nous avons vu les performances du portage GPU (blocking) avec une carte graphique sur la partie port´ee (fonction ascpot) du logiciel GAMESS, regardons les performances lors de l’utilisation de deux cartes graphiques K20X.

Utilisation de deux cartes graphiques K20X

Pour utiliser deux cartes graphiques, les données à calculer sont réparties sur les deux GPU simplement en découpant en deux le vecteur de données à calculer et en dupliquant les données d’entrées (coordonnées et charges des éléments) sur les GPU.

Dans ce cadre, pour le premier exemple avec 8 946 éléments, les performances de l’installation CPU avec l’approximation régionale et du portage GPU (blocking) sont similaires avec 8 s pour la somme des temps de la fonction ascpot. L’installation CPU sans l’approximation des régions prend elle plus de temps : 10 s.

Pour les deux autres exemples (35 694 et 142 795 éléments) le code CPU sans l’ap-proximation régionale reste le code le plus lent (respectivement 175 s et 3 687 s) puis vient le code CPU avec l’approximation (respectivement 110 s et 2 055 s) et enfin le plus rapide est le portage GPU (93 s et 1 718 s) utilisant deux cartes graphiques K20X.

Figure 5.10 – Temps d’exécution de la fonction ascpot d’un calcul d’énergie DFTB / FMO / PCM sur un système comportant 1244 atomes et trois maillages différents pour la cavité de solvatation : 8 946 (a), 35 694 (b) et 142 795 (c) triangles. Installations CPU (socket-intel-mkl) avec ou sans l’approximation des régions et le portage GPU (blocking) sur deux cartes graphiques K20X.

Nous pouvons voir que l’utilisation de deux GPU permet dans deux de nos exemples d’améliorer significativement la performance en comparaison au code CPU socket-intel-mkl, sans l’approximation des régions. L’augmentation de la quantité de cartes graphiques est un des axes de développement des centres de calcul à ce jour. Nous pouvons donc constater par le biais de cette section 5.6 que ce type de fonction (fonctions similaires à ascpot) peut tirer profit de l’évolution des architectures en cours.

Nous allons dans la section suivante regarder la performance énergétique des différents codes afin de pouvoir conclure l’analyse du portage GPU réalisé sur le logiciel GAMESS.

Dans le document Accélération des calculs en chimie théorique : l’exemple des processeurs graphiques (Page 118-122)