Comparaison des performances des FPGAs et des GPUs

2.3 Architectures pour le traitement d’images ` a base de FPGAs

2.3.7 Comparaison des performances des FPGAs et des GPUs

GPUs pour des applications de traitement d’images

Les sections précédentes ont permis de mettre en avant que seuls les composants FPGAs et GPUs admettent un niveau de parallélisation pouvant être satisfaisant dans le cadre d’applications de traitement d’images. Le but de cette section est de comparer les performances, en termes de temps de traitement ou de bande passante de sortie, de ces deux dispositifs.

Une première comparaison nous est proposée par B. Cope [9]. Dans ce papier, l’auteur évalue les performances des dispositifs FPGAs, GPU et CPU dans le cadre d’un calcul de convolution 2D. Ce type de calcul est typique du traitement d’images puisqu’il permet l’application de divers filtrages sur l’image. Les composants utilisés sont un Virtex II-Pro pour le FPGA, un GPU NVidia 6800 Ultra et un CPU Intel Pentium 4 cadencé à 3 GHz. Le Tab. 2.1 dresse les résultats obtenus par B. Cope.

Le Tab. 2.1 met en avant que, par son manque de parallélisme, le processeur généraliste est, en termes de performances, largement dépassé par les deux autres dispositifs. Il est également notable que pour des tailles réduites du masque de convolution, le dispositif GPU est le plus performant. Ceci s’explique de part le faible niveau de parallélisme requis pour ces dimensions de masques. Ainsi, grâce à son horloge interne nettement supérieure à celle d’un FPGA, le GPU

Taille du masque de convolution FPGA GPU CPU 2× 2 221 1070 14 3× 3 202 278 9.7 5× 5 112 54 5.1 7× 7 90 22 2.6 9× 9 73 9 1.6 11× 11 23 4.7 1.2

Table 2.1 – Comparaison des performances entre un FGPA, un GPU et un CPU pour l’ex´ecution d’une convolution 2D en MP/s.

surclasse ce dernier. Lorsque le niveau de parallélisme augmente, donc pour des tailles de masque plus importantes, le FPGA propose de meilleures performances. Un autre article [26] propose l’implémentation d’un algorithme d’extraction de flux optique sur un FPGA (Virtex-4) et un GPU (NVIDIA GeForce 8800 GTX). Cet algorithme est décomposé en 5 étapes :

– Étape 1 : extraction de 3 gradients. Le premier gradient est un gradient tem- porel, soit une différence d’images successives pixel à pixel. Les deux autres sont des gradients verticaux et horizontaux extraits par l’intermédiaire d’une convolution avec un masque de taille 5× 5,

– Étape 2 : pondération des gradients grâce à un masque de convolution de taille 7× 7,

– Étape 3 : génération de 5 nouvelles matrices en multipliant diverses combi- naisons des 3 gradients issus de l’étape 2,

– Étape 4 : application d’une convolution de taille 3× 3 sur les 5 résultats de l’étape 4,

– Étape 5 : calcul des composantes verticale et horizontale du vecteur de déplacement de chaque pixel. Pour ce faire, des opérations de multiplica- tion, de soustraction et de division sont appliquées.

L’évaluation des performances a été faite grâce au jeu d’images de synth`ese Yo-

semite[21]. Ainsi pour une r´esolution d’images de 640×480, l’impl´ementation sur

GPU a permis d’atteindre une cadence d’images de 150 IPS là où l’implémentation sur FPGA a donné un résultat de plus de 300 IPS.

Une troisième comparaison est présentée par S. Asano [74]. Ce papier propose une évaluation des performances des dispositifs FPGAs, GPUs et CPUs dans le cadre d’applications de traitement d’images. Les composants utilisés sont un Xilinx XC4VLX160 pour le FPGA, une XFX GeForce 280 GTX 1024MB DDR

Figure 2.36 – Performances pour un

ﬁltrage 2-D Figure 2.37 – Performances pour une

SAD

Figure 2.38 – Performances pour une classiﬁcation par K-moyennes

pour le GPU et un Intel Core 2 Extrem QX6850 à 3 GHz pour le CPU. Trois traitements ont été implémentés sur ces dispositifs. Le premier traitement est un filtrage 2-Dimensions pour lequel plusieurs tailles de masque ont été appliquées et répondant à l’Eq. 2.1. Le second traitement réalise une SAD24 _{dans le cadre}

de vision stéréo (Eq. 2.2). Enfin le dernier traitement est une classification par K-moyennes suivant l’Eq. 2.3.

S(x, y) = w dx=−w w dy=−w

I(x + dx, y + dy).G(dx, dy) (2.1)

SADxy(x, y, d) = w dx=_−w w dy=_−w

|Ir(x + dx, y + dy) − Il(x + d + dx, y + dy)|

(2.2) E = K i=1 x∈C_i (x− x∈C_i x |Ci| )2 (2.3)

La Fig. 2.36 rapporte les performances concernant l’application d’un filtrage 2 dimensions. Elle montre que pour les tailles de masque testées, les performances offertes par le GPU sont les plus importantes. La taille maximale de masque testée est de 15× 15 pixels, soit 225 pixels traités. Or le GPU utilisé permet le traitement de 240 données en parallèle. Du fait de l’horloge interne plus impor- tante pour le GPU que pour le FPGA, le GPU reste meilleur que le dispositif FPGA. Néanmoins, on peut facilement considérer que le FPGA sera plus efficace pour des tailles de masque plus importantes grâce à ”sa meilleure prédisposition” au parallélisme. Il est également notable que pour une taille de masque 3× 3, le CPU est plus performant que le FPGA mais dès lors que la dimension augmente, le CPU devient bien moins performant que le FPGA (facteur 8 en faveur du FPGA pour une dimension 15× 15.

La Fig. 2.37 montre que pour une SAD dont la taille de fenêtre d’intérêt est

de 7× 7 le dispositif FPGA est bien sup´erieur aux deux autres composants. Au

delà d’une certaine valeur de D, qui définit le nombre de fenˆetres de Il à comparer, le FPGA admet un diminution de ses performances. Ce phénomène est dû `

a une limitation physique du FPGA en termes de blocs RAM. N´eanmoins, pour

D = 240 le GPU est moins performant d’un facteur 30.

Enfin la Fig. 2.38 confirme l’expérimentation précédente en montrant que pour une classification en 48 clusters le FPGA outrepasse les 2 autres compo- sants d’un facteur de 7 à 9 grâce à son parallélisme massif et au problème d’accès aux données inhérent à l’utilisation d’un GPU.

En conclusion, pour des applications de traitement d’images, le parallélisme est un aspect plus que primordial pour l’obtention de performances élevées. De ce fait, les FPGAs possédant le parallélisme le plus massif rendent ces composants parfaitement adaptés au domaine du traitement d’images.

Dans le document SEEPROC : un modèle de processeur à chemin de données reconfigurable pour le traitement d'images embarqué (Page 57-60)