Un environnement logiciel complet pour le traitement d’images

énergétique de nos applications de test exécutées en Sigma-C sur le MPPA Andey, sur CPU via l’implémentation SMIL, sur FPGA avec la cible SPoC de FREIA et en OpenCL sur deux GPUs. Sur ce jeu d’applications, le MPPA Andey se montre plus efficace énergétiquement que ses concurrents, à l’exception du FPGA SPoC, avec lequel il fait jeu égal. Dans l’impossibilité de tester Sigma-C sur la génération Bostan, nous ne pouvons que supposer ce dernier meilleur en matière d’efficacité énergétique.

anr999 antibi o

burn er

deblocking_licenseP late retin a toggl e GMEAN 100 101 102 ← C onso mmati on d’én ergi e

Andey Sigma-C Core i7 SMIL SPoC Quadro 600 Tesla C 2050

Figure 8.5 – Consommation énergétique relative de sept applications exécutées sur quatre accélérateurs : (1) Sigma-C sur le MPPA Andey (référence) ; (2) Intel Core i7-3820 via SMIL ; (3) accélérateur SPoC implémenté sur FPGA ; (4) OpenCL sur un GPU Nvidia Quadro 600 ; (5) OpenCL sur un GPU Nvidia Tesla C 2050

8.2 Un environnement logiciel complet pour le traitement d’images

Une des finalités de cette thèse a été de compléter la chaîne de compilation FREIA afin de cibler en aval le processeur MPPA. Cette chaîne a également été interfacée en amont avec la bibliothèque SMIL de façon à en simplifier le point d’entrée avec un langage applicatif de plus haut niveau.

Avant les travaux de cette thèse, les bibliothèques SMIL et FREIA étaient indépendantes, ainsi qu’illustré par la figure 8.6.

Le framework FREIA ne disposait alors que de quatre implémentations : Fulguro, l’im- plémentation logicielle, SPoC et Terapix pour les FPGAs et OpenCL pour les processeurs graphiques. Afin de développer la portabilité et la programmabilité de FREIA, plusieurs briques logicielles ont été développées au cours de cette thèse, au travers des différents mo- dèles de programmation offerts par le processeur MPPA. Une liste exhaustive est disponible dans le tableau 8.2. L’état de la chaîne de compilation SMIL–FREIA à la fin de cette thèse est également résumée dans la figure 8.7 : smiltofreia a créé un pont entre les interfaces de programmations de SMIL et FREIA, et SMIL est devenue une cible logicielle de FREIA, liant ainsi les deux chaînes de compilation. L’ajout des cibles Sigma-C et l’adaptation d’OpenCL au MPPA permettent à FREIA de cibler cet accélérateur. Enfin, la bibliothèque SMIL peut se compiler directement à destination d’un cluster de calcul du MPPA.

8. Synthèse

Processeurs multicœurs SMIL lib SMIL

app.cpp _app.pySMIL

SMIL Python (wrapper Swig)

(a) Pile logicielle SMIL

Processeurs

multicœurs GPUs FPGAs

Fulguro OpenCL _SPoC Terapix

FREIA common runtime FREIA app.c Optimisations à la compilation

(b) Pile logicielle FREIA

Figure 8.6 – État initial des piles logicielles SMIL et FREIA avant cette thèse

Processeurs multicœurs

Processeurs

manycore GPUs FPGAs

SMIL lib Fulguro Sigma-C OpenCL SPoC Terapix

SMIL Python

Swig wrapper FREIA commonruntime SMIL app.py FREIA app.c smilc matériel applications runtimes smiltofreia Optimisations à la compilation

Figure 8.7 – État final des piles logicielles SMIL et FREIA a la fin de cette thèse : les éléments en rouge/gras ont été développés durant celle-ci

Le couplage entre SMIL et FREIA — nouvelle interface logicielle, d’un côté, et conversion automatique, de l’autre — améliore aussi les performances et la portabilité des applications SMIL, tout en augmentant la programmabilité des applications FREIA. C’est dans ce cadre que l’outil smiltofreia a été développé. Les détails de cet outil ont été présentés au chapitre 4 et ont été communiqués à la conférence Compilers for Parallel Computing [123]. Au final, nous obtenons une chaîne de compilation unique acceptant en entrée des applications écrites en SMIL Python ou en FREIA C et pouvant cibler de multiples façons 126

8.2. Un environnement logiciel complet pour le traitement d’images

Logiciel Description

FREIA–Sigma-C Nouvelle implémentation flot de données PIPS–Sigma-C Génération automatique de subgraphs Sigma-C smilc Wrapper C autour de SMIL (C++)

FREIA–SMIL Nouvelle implémentation vers CPU SMIL–MPPA SMIL sur un cluster de calcul FREIA–OpenCL Adaptation de FREIA au MPPA

smiltofreia Conversion d’applications SMIL en FREIA FREIA–MPPA Nouvelle implémentation, parallélisme explicite

Table 8.2 – Logiciels développés pendant cette thèse

le processeur MPPA de Kalray, mais également d’autres accélérateurs, comme des GPUs avec OpenCL. Cette chaîne de compilation, que nous appelons freiacc, est représentée en figure 8.8. En fournissant une interface de haut niveau au travers du langage spécifique SMIL Python, freiacc facilite la programmation d’applications de traitement d’images. Grâce aux multiples cibles de FREIA et à l’utilisation de modèles de programmation largement adoptés comme OpenCL, freiacc assure la portabilité de ces applications sur une large gamme de matériels. Enfin, l’utilisation d’un modèle de programmation par type de cible, associé aux optimisations réalisées par le compilateur source-à-source PIPS, assurent de bonnes performances à nos applications. Concernant le processeur MPPA, le langage flot de donnéesSigma-C nous fournit des performances satisfaisantes, mais restreintes à la génération « Andey ». Nous espérons toutefois atteindre la performance crête sur « Bostan » en utilisant le modèle OpenMP avec communications inter-clusters.

freiacc

FREIA app.c

SMIL app.py

SMIL Sigma-C OpenCL SPoC/Terapix

Processeurs

multicœurs MPPA GPUs FPGAs

X Programmabilité ? Performance

X Portabilité

Figure 8.8 – Chaîne de compilation simplifiée : freiacc peut compiler des applications de traitement d’images écrites en FREIA ou en SMIL Python vers plusieurs catégories d’accélérateurs matériels, dont le MPPA

Cependant, l’ajout d’une cible dans cette chaîne de compilation est un travail long et coûteux : il s’agit de réimplémenter les opérateurs de traitement d’images, de développer l’environnement d’exécution associé et, enfin, de concevoir le générateur automatique de

8. Synthèse

code, tout en fournissant des performances acceptables. Notre approche a toutefois le mérite de conserver à l’identique le code source des applications, la portabilité étant assurée par la chaîne de compilation. Nous pouvons également profiter de certaines optimisations déjà implémentées et pouvant être partagées entre les cibles.

8.3 Conclusion

Au cours de cette thèse, différents outils ont été développés afin de réaliser des expéri- mentations sur les modèles de programmation supportés par le processeur MPPA. Ces outils et expériences sont indépendamment détaillés dans les précédents chapitres. Le présent chapitre agrège ces différentes contributions.

Nous comparons les modèles de programmation supportés par les MPPA « Andey » et « Bostan » et montrons que le modèle Sigma-C, bien qu’uniquement disponible sur Andey, se montre le plus efficace sur notre jeu d’applications. Nous comparons également la consommation énergétique de nos applications sur différents accélérateurs, dont Andey via Sigma-C. Nous montrons que le MPPA est très efficace dans ce domaine et avec ce langage flot de données, et les évolutions constatées avec OpenMP et OpenCL sous Bostan vont vers une amélioration de cette caractéristique.

Seconde contribution majeure, freiacc est la résultante de nos chaînes de compilation. Cet environnement logiciel compile des applications de traitement d’images écrites dans un langage spécifique de haut niveau vers différentes architectures suivant différents modèles de programmation, assurant à la fois programmabilité, portabilité et performances.

Chapitre9

Conclusion

What was the start of all this ?

When did the cogs of fate begin to turn ?

Perhaps it is impossible to grasp that answer now, From deep within the flow of time.

But for a certanty, back then We loved so many yet hated so much We hurt others and were hurt ourselves. Yet even then we ran like the wind Whilst our laughter echoed Under cerulean skies…

— Chrono Cross

À

mesure de l’évolution de l’informatique moderne, les unités de calcul ont gagné tant en performances qu’en complexité. Les processeurs modernes multiplient les unités de calcul, s’associent avec des coprocesseurs dédiés à certains types de calcul ou bien se regroupent dans des superordinateurs, reliés par des réseaux de communication. Les applications traditionnelles, développées dans un langage de programmation portable comme C ou C++, sont toujours capables de s’exécuter sur ces configurations — modulo recompilation —, mais ne peuvent généralement tirer parti que d’une unité de calcul à la fois.

De nouveaux modèles de programmation permettent de profiter des avantages des dif- férentes catégories d’architectures matérielles, mais nécessitent généralement d’altérer de façon non triviale le code source des applications. Les langages spécifiques à un domaine, associés à des compilateurs permettant d’optimiser les codes applicatifs et de cibler des architectures matérielles non communes, facilitent également le travail des concepteurs d’applications.

Cette thèse s’est focalisée sur un problème d’optimisation de la programmabilité, de la portabilité et de la performance, restreint à domaine applicatif précis, celui du traitement d’images par morphologie mathématique, et à une architecture matérielle spécifique, celle du processeur MPPA, conçu par l’entreprise française Kalray. Ce processeur, qui cible les

9. Conclusion

marchés des systèmes embarqués ainsi que celui du calcul haute performance, présente différents niveaux de parallélisme qui rendent son utilisation efficace complexe.

9.1 Rappel des contributions

Plusieurs briques logicielles ont été développées au cours de cette thèse. Ces compilateurs, bibliothèques et environnements d’exécution ont permis de réaliser des expériences à partir d’applications de traitement d’images écrites dans un langage spécifique de haut niveau. Ces expériences ont montré que :

— les applications qui s’appuient sur le DSL de haut niveau SMIL Python ont des performances moindres que celles qui utilisent le DSL de plus bas niveau FREIA ;

— les applications SMIL Python s’écrivent en trois à cinq fois moins de lignes de code que les applications FREIA ;

— le compilateur smiltofreia permet de concilier la performance et la portabilité des applications FREIA à la programmabilité offerte par SMIL Python ;

— les nœuds à mémoire partagée du processeur MPPA peuvent être utilisés comme des processeurs conventionnels à forte efficacité énergétique, à condition d’abstraire les transferts de données ;

— ces nœuds sont toutefois limités par la capacité de la mémoire locale, qui oblige à limiter la taille du code applicatif au profit des données ;

— le modèle flot de données, au travers du langage Sigma-C, est trop statique : l’occupa- tion des cœurs de calcul dépend du nombre d’appels aux opérateurs de l’application et la taille des données doit être connue à la compilation ;

— des optimisations simples permettent d’améliorer significativement les performances de Sigma-C, par exemple, en limitant les transferts de données ;

— le support et les performances d’OpenCL sur le MPPA restent aujourd’hui basiques, mais des évolutions sont prévues ;

— le MPPA de seconde génération, « Bostan », est bien plus rapide que son prédécesseur, « Andey », avec les modèles OpenMP et OpenCL ;

En combinant ces expériences, nous montrons, au chapitre 8, que le modèle flot de données est, parmi les modèles testés, le modèle le plus performant. Comparé à quatre autres accélérateurs matériels, ce modèle s’avère un des moins consommateurs d’énergie, sur notre jeu d’applications de traitement d’images. Le langage Sigma-C permet d’éviter les communications avec la mémoire DDR attachée, qui limitent les performances du modèle OpenCL. Toutefois, l’extension aux seize clusters de calcul du modèle OpenMP laisse présager de performances encore meilleures.

Les outils que nous avons développés s’intègrent pour former un environnement logiciel complet dédié au traitement d’images : freiacc. Cet environnement prend en entrée des applications écrites dans des langages spécifiques de haut niveau (SMIL Python ou FREIA) et cible différentes catégories d’accélérateurs matériels (CPUs, GPUs, FPGAS, processeurs manycore), grâce aux modèles de programmation supportés. Nous offrons ainsi à des spécia- listes du traitement d’images la possibilité, sans coûts de développement supplémentaires, de porter leurs applications sur ces cibles matérielles et, notamment, le MPPA, qui s’avère des plus efficaces en matière de consommation énergétique. Nous prouvons ainsi par construc- tion qu’il est possible de concilier programmabilité, portabilité et performance pour nos applications de traitement d’image sur cette cible manycore.

Dans le document Compilation efficace d'applications de traitement d'images pour processeurs manycore (Page 154-160)