Analyse sur une configuration - Synthèse des accélérations obtenues

5.5 Synthèse des accélérations obtenues

6.2.2 Analyse sur une configuration

6.2.3 Synthèse sur l’ensemble des configurations . . . 164

6.3 Conclusion . . . 165

6.1 Xeon Phi : un accélérateur déporté

Le Xeon Phi est un accélérateur déporté, destiné à augmenter les performances de serveurs et de stations de calcul. Il est développé par Intel pour exécuter du code compatible x86 spécifique. La méthode la plus simple (en termes de développement) pour mesurer les performances de cette architecture consiste à utiliser un code de calcul GPP standard et de le compiler à l’aide du compilateur ICC en activant le support pour le Xeon Phi. Il peut y être copié puis directement exécuté depuis le sous-système d’exploitation résidant sur le Xeon Phi, proche d’un système d’exploitation Linux. C’est ce mode de fonctionnement qui est retenu pour la simulation du calcul de champ, plutôt que le comportement "accélérateur déporté" d’une application hybride, utilisant un Xeon Phi piloté depuis le PC hôte (à la manière d’un GPU).

Quelques contraintes sont cependant à prendre en compte pour obtenir un code compatible depuis une application existante. Bien que le Xeon Phi soit compatible x86, le code d’origine ne doit pas faire appel à des instructions SIMD "usuellement" disponibles sur les architectures x86 Intel telles que les jeux d’instructions SSE, AVX. . . car elles ne sont pas supportées par le Xeon Phi.

6.1.1 Spécificités d’implémentation

Afin de tirer parti des spécificités du Xeon Phi, l’implémentation du calcul de champ repose sur des versions scalaires et des versions SIMDizées à l’aide de Boost.SIMD. Pour le calcul de champ, l’algorithmie utilisée est la même que sur les architectures des GPP. En raison de la similitude des algorithmes entre les architectures GPP et ceux exploitant le Xeon Phi, l’analyse est également faite en gardant le même plan.

Les mesures présentées dans ce chapitre ont été réalisées ici sur un Xeon Phi 3120, de mi- croarchitecture Knights Corner. Il s’agit d’un coprocesseur cadencé à 1.1 GHz, composé de 57 cœurs de calcul et disposant de 6 giga-octets de mémoire vive. Il convient de noter, en terme de compatibilité avec les codes GPP, que les Xeon Phi de cette génération ne peuvent exécuter des instructions SIMD des jeux d’instructions "classiques" des GPP. Seules les instructions SIMD KNC (SIMD 512 bits) peuvent s’y exécuter.

6.1.2 Étape 1 - Calcul des pinceaux

6.1.2.1 Minibenchmark - Calcul du polynôme et méthode de Newton

En pratique, dans le cadre du calcul de champ réalisé sur GPP au chapitre précédent (c.f. para- graphe 5.4.1.1.1), l’analyse réalise une comparaison des performances de Boost.SIMD avec une version SSE codée manuellement. Elle ne pourra pas être exécutée sur Xeon Phi, contrairement au GPP, en raison de l’absence d’instructions SSE sur cette architecture. On se contente donc d’exécuter le code réalisant le minibenchmark de la résolution de polynômes de degrés 4 par la méthode de Newton en scalaire et en vectoriel Boost.SIMD. Pour rappel, ce minibenchmark se déroule dans les mêmes conditions que sur GPP. Le nombre d’itérations nécessaires pour obtenir un zéro d’un polynôme par la méthode de Newton dépend des données (coefficients et approximation de la racine initiale). Pour éviter ces variations et réaliser une mesure équitable de l’implémentation SIMD du calcul polynomial, une version minibenchmark de la méthode de Newton réalise un nombre d’itérations fixé (sans critère d’arrêt). Ce code n’utilise aucune don- née d’entrée du calcul de champ (les coefficients des polynômes étant générés aléatoirement), le modèle d’exécution on device ne limite pas ni n’impacte les performances mesurées.

Le Xeon Phi est une architecture nativement hyperthreadée, pour laquelle il est conseiller d’utiliser pour 4 threads par cœur de calcul pour obtenir des performances correctes. L’im- plémentation du minibenchmark fait donc appel à OpenMP afin de paralléliser le calcul des différents polynômes sur différents threads. Afin de forcer l’exécution de plusieurs threads sur un seul cœur, l’affinité thread/cœur a été configurée en mode compact (les threads se regroupent afin de remplir en priorité les cœurs). Les mesures sont ainsi réalisées pour 1, 4 et 228=57×4

threads afin d’évaluer les performances réelles d’un cœur (4 threads) de Xeon Phi et d’évaluer

également le passage à l’échelle du minibenchmark sur les 57 cœurs qui composent l’accélérateur étudié (comparaison 4 contre 228 threads). La figure 6.1 présente la manière dont les threads sont répartis sur les différents cœurs du Xeon Phi, pour 1, 4 et 228 threads.

Il n’est pas possible de réaliser une analyse aussi poussée que sur GPP des performances des implémentations en étudiant le comportement très bas niveau des instructions. Les latences et les débits des instructions ne sont pas communiqués par le fondeur. Cependant, la méthode de

159 CHAPITRE 6. OPTIMISATIONS SUR ARCHITECTURE MIC

0 1 2 3 4 5 6 7 224 225 226 227

Core 1

0 1 2 3

Core 2 Core 57