Comparaison de la consommation énergétique et du temps d'exécution d'un algorithme de traitement d'images optimisé sur des architectures SIMD et GPU

(1)

HAL Id: hal-01835240

https://hal.archives-ouvertes.fr/hal-01835240

Submitted on 11 Jul 2018

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Comparaison de la consommation énergétique et du temps d’exécution d’un algorithme de traitement d’images optimisé sur des architectures SIMD et GPU

Andrea Petreto, Arthur Hennequin, Thomas Koehler, Thomas Romera, Yohan Fargeix, Boris Gaillard, Manuel Bouyer, Quentin Meunier, Lionel Lacassagne

To cite this version:

Andrea Petreto, Arthur Hennequin, Thomas Koehler, Thomas Romera, Yohan Fargeix, et al.. Com-paraison de la consommation énergétique et du temps d’exécution d’un algorithme de traitement d’images optimisé sur des architectures SIMD et GPU. GdR SOC2, Jun 2018, Paris, France. �hal-01835240�

(2)

Comparaison de la consommation énergétique et du temps d’exécution d’un

algorithme de traitement d’images optimisé sur des architectures SIMD et GPU

A. Petreto

1,2

, A. Hennequin

1

, T. Koehler

1

, T. Romera

1

, Y. Fargeix

1

, B. Gaillard

2

, M. Bouyer

1

, Q. Meunier

1

, L. Lacassagne

1

Sorbonne Université, CNRS, LIP6 – Laboratoire d’Informatique de Paris 6 Paris, France 1 Lhéritier - Alcen – Cergy-Pontoise, France 2

{andrea.petreto,arthur.hennequin,thomas.koehler,thomas.romera}@lip6.fr bgaillard@lheritier-alcen.fr

Résumé

Ce poster présente et compare les implémentations optimisées d’un algorithme de flot optique, Horn-Schunck, sur des cartes embarquées à base de processeurs SIMD multicoeurs et de GPU. La comparaison est effectuée à la fois en termes de vitesse de calcul – pour atteindre une cadence de traitement temps réel – et en termes d’énergie. Les résultats obtenus montrent que les GPU sont les plus efficaces à la fois en termes de vitesse et de consommation, pouvant traiter dans la meilleure configuration 25 images de 8M pixels par seconde pour 0.35 joule par image.

Synthèse des résultats

carte techno CPU Fmax (GHz) GPU Fmax (MHz)

PCduino8 28 nm 8×A7 1.80 -

-Rasp. Pi 3 40 nm 4×A53 1.20 -

-Jetson TK1 28 nm 4×A15 2.32 192 C Kepler 852

Jetson TX1 20 nm 4×A57 1.73 256 C Maxwell 998

Jetson TX2 16 nm 4×A57 (+ 2×Denver2) 2.00 256 C Pascal 1300

0 50 100 150 200 0 100 200 300 400 500 600 700 800 Temps par pixel (ns)

Energie par pixel (nJ) PCduino8 base PCduino8 opt. Rasp. Pi 3 opt. TX1 base TX1 opt. TK1 base TK1 opt. TX2 base TX2 opt. TX1 GPU base F32 TX1 GPU opt F32 TX1 GPU opt F16 TK1 GPU opt F32 TX2 GPU base F32 TX2 GPU opt F32 TX2 GPU opt F16 0 5 10 15 20 25 30 35 40 40 60 80 100 120 140 160 180 200

Zoom de l a par t i e encadr ée TX2 GPU opt F16 TX2 GPU opt F32 TX1 GPU opt F16 TX1 GPU opt F32 TX2 GPU base F32 TK1 GPU opt F32 TX2 opt. TX1 GPU base F32

Frontière efficiente des fréquences de fonctionnement pour chaque architecture et algorithme étudié. La version opt. pour les CPU est la version la plus rapide (pipe 1 ). La configuration Rasp. Pi 3 base se trouve en dehors de l’espace représenté (énergie = 1145 nJ, temps = 415 ns).

Vitesse et consommation sur CPU (TK1)

Version OpenMP SIMD Pipeline Mono-buffer

base D

simd 1 D D D

simd 2 D D

pipe 1 D D D D

pipe 2 D D D

La version simd 1 permet de reporter la sortie de cache pour des images plus grande. Les versions pipelinées pipe 1 et pipe 2 permettent de réduire le nombre d’accès hors du cache et réduisent donc la puissance consommée.

Vitesse et consommation sur GPU (TX1)

4 6 8 10 12 14 16 18 20 22 0 100 200 300 400 500 600 700 800 900 1000 # C ycles / pi xel Fréquence (MHz) base F16 base F32 opt F16 opt F32 0 100 200 300 400 500 600 700 800 0 100 200 300 400 500 600 700 800 900 1000 Éner gie ( nJ) / pi xel Fréquence (MHz) base F16 base F32 opt F16 opt F32

La version opt. réduit principalement les transferts mémoire : dans les

basses fréquences elle est Compute Bound et F₁₆ n’apporte pas de gain

par manque d’Instruction Level Parallelism dans l’implémentation. Dans les hautes fréquences la cadence est réduite par manque de bande passante:

elle est Memory Bound et F₁₆ apporte un gain.

Conclusion

Ce poster présente une comparaison de plusieurs implémentations de l’algorithme de Horn-Schunck, servant à la détection de mouvement dans une image, sur différentes architectures SIMD et GPU, dans le but de réduire à la fois la consommation et le temps de traitement. Les configurations les plus efficaces permettent de traiter – à la cadence de 25 images/s – des images carrées de taille 2839 pixels sur GPU et 1355 sur CPU. Parmi les travaux futurs, nous envisageons de regarder la pré-cision des calculs au format virgule fixe 16 bits, afin de pouvoir doubler le parallélisme SIMD sur CPU. Enfin, nous visons une comparaison avec l’algorithme TV-L1.

Remerciements

Ce travail a été en partie subventionné par une thèse DGA, l’ESEP et Janus CNES. L’équipe Meteorix tient à remercier Tomoko Arai du projet PERC de l’Université de Chiba pour la fourniture de séquences vidéo, ainsi que Jean-Michel Morel et son équipe du CMLA de l’ENS Cachan.