• Aucun résultat trouvé

Comparaison de la consommation énergétique et du temps d'exécution d'un algorithme de traitement d'images optimisé sur des architectures SIMD et GPU

N/A
N/A
Protected

Academic year: 2021

Partager "Comparaison de la consommation énergétique et du temps d'exécution d'un algorithme de traitement d'images optimisé sur des architectures SIMD et GPU"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01835240

https://hal.archives-ouvertes.fr/hal-01835240

Submitted on 11 Jul 2018

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Comparaison de la consommation énergétique et du temps d’exécution d’un algorithme de traitement d’images optimisé sur des architectures SIMD et GPU

Andrea Petreto, Arthur Hennequin, Thomas Koehler, Thomas Romera, Yohan Fargeix, Boris Gaillard, Manuel Bouyer, Quentin Meunier, Lionel Lacassagne

To cite this version:

Andrea Petreto, Arthur Hennequin, Thomas Koehler, Thomas Romera, Yohan Fargeix, et al.. Com-paraison de la consommation énergétique et du temps d’exécution d’un algorithme de traitement d’images optimisé sur des architectures SIMD et GPU. GdR SOC2, Jun 2018, Paris, France. �hal-01835240�

(2)

Comparaison de la consommation énergétique et du temps d’exécution d’un

algorithme de traitement d’images optimisé sur des architectures SIMD et GPU

A. Petreto

1,2

, A. Hennequin

1

, T. Koehler

1

, T. Romera

1

, Y. Fargeix

1

, B. Gaillard

2

, M. Bouyer

1

, Q. Meunier

1

, L. Lacassagne

1

Sorbonne Université, CNRS, LIP6 – Laboratoire d’Informatique de Paris 6 Paris, France 1 Lhéritier - Alcen – Cergy-Pontoise, France 2

{andrea.petreto,arthur.hennequin,thomas.koehler,thomas.romera}@lip6.fr bgaillard@lheritier-alcen.fr

Résumé

Ce poster présente et compare les implémentations optimisées d’un algorithme de flot optique, Horn-Schunck, sur des cartes embarquées à base de processeurs SIMD multicoeurs et de GPU. La comparaison est effectuée à la fois en termes de vitesse de calcul – pour atteindre une cadence de traitement temps réel – et en termes d’énergie. Les résultats obtenus montrent que les GPU sont les plus efficaces à la fois en termes de vitesse et de consommation, pouvant traiter dans la meilleure configuration 25 images de 8M pixels par seconde pour 0.35 joule par image.

Synthèse des résultats

carte techno CPU Fmax (GHz) GPU Fmax (MHz)

PCduino8 28 nm 8×A7 1.80 -

-Rasp. Pi 3 40 nm 4×A53 1.20 -

-Jetson TK1 28 nm 4×A15 2.32 192 C Kepler 852

Jetson TX1 20 nm 4×A57 1.73 256 C Maxwell 998

Jetson TX2 16 nm 4×A57 (+ 2×Denver2) 2.00 256 C Pascal 1300

0 50 100 150 200 0 100 200 300 400 500 600 700 800 Temps par pixel (ns)

Energie par pixel (nJ) PCduino8 base PCduino8 opt. Rasp. Pi 3 opt. TX1 base TX1 opt. TK1 base TK1 opt. TX2 base TX2 opt. TX1 GPU base F32 TX1 GPU opt F32 TX1 GPU opt F16 TK1 GPU opt F32 TX2 GPU base F32 TX2 GPU opt F32 TX2 GPU opt F16 0 5 10 15 20 25 30 35 40 40 60 80 100 120 140 160 180 200

Zoom de l a par t i e encadr ée TX2 GPU opt F16 TX2 GPU opt F32 TX1 GPU opt F16 TX1 GPU opt F32 TX2 GPU base F32 TK1 GPU opt F32 TX2 opt. TX1 GPU base F32

Frontière efficiente des fréquences de fonctionnement pour chaque architecture et algorithme étudié. La version opt. pour les CPU est la version la plus rapide (pipe 1 ). La configuration Rasp. Pi 3 base se trouve en dehors de l’espace représenté (énergie = 1145 nJ, temps = 415 ns).

Vitesse et consommation sur CPU (TK1)

Version OpenMP SIMD Pipeline Mono-buffer

base D

simd 1 D D D

simd 2 D D

pipe 1 D D D D

pipe 2 D D D

La version simd 1 permet de reporter la sortie de cache pour des images plus grande. Les versions pipelinées pipe 1 et pipe 2 permettent de réduire le nombre d’accès hors du cache et réduisent donc la puissance consommée.

Vitesse et consommation sur GPU (TX1)

4 6 8 10 12 14 16 18 20 22 0 100 200 300 400 500 600 700 800 900 1000 # C ycles / pi xel Fréquence (MHz) base F16 base F32 opt F16 opt F32 0 100 200 300 400 500 600 700 800 0 100 200 300 400 500 600 700 800 900 1000 Éner gie ( nJ) / pi xel Fréquence (MHz) base F16 base F32 opt F16 opt F32

La version opt. réduit principalement les transferts mémoire : dans les

basses fréquences elle est Compute Bound et F16 n’apporte pas de gain

par manque d’Instruction Level Parallelism dans l’implémentation. Dans les hautes fréquences la cadence est réduite par manque de bande passante:

elle est Memory Bound et F16 apporte un gain.

Conclusion

Ce poster présente une comparaison de plusieurs implémentations de l’algorithme de Horn-Schunck, servant à la détection de mouvement dans une image, sur différentes architectures SIMD et GPU, dans le but de réduire à la fois la consommation et le temps de traitement. Les configurations les plus efficaces permettent de traiter – à la cadence de 25 images/s – des images carrées de taille 2839 pixels sur GPU et 1355 sur CPU. Parmi les travaux futurs, nous envisageons de regarder la pré-cision des calculs au format virgule fixe 16 bits, afin de pouvoir doubler le parallélisme SIMD sur CPU. Enfin, nous visons une comparaison avec l’algorithme TV-L1.

Remerciements

Ce travail a été en partie subventionné par une thèse DGA, l’ESEP et Janus CNES. L’équipe Meteorix tient à remercier Tomoko Arai du projet PERC de l’Université de Chiba pour la fourniture de séquences vidéo, ainsi que Jean-Michel Morel et son équipe du CMLA de l’ENS Cachan.

Références

Documents relatifs

4 , nous considérons le problème d’allocation conjointe de spectre (scheduling discret) et de puissance qui vise à minimiser la consommation de puissance totale sous contraintes de

Jean-Michel COMMANDRE, Alexandre LEBOEUF, Patrick ROUSSET, Kim LÊ THÀNH. GDR Bois – Cirad 26-28

In this work, we proposed to take advantage of the combination of PARP and RAD51 inhibitors, Olaparib (AZD2281) and B02 used at a non-toxic concentration, to sensitize cancer cells

In particular the paper [14] was the first to show that a method using second derivatives can find an -approximate first-order critical point for an unconstrained problem

Delayed enhancement sequence performed in short-axis view (C) and in apical 4-chamber view (D), revealing an area of transmural enhancement corresponding to the inferior infarcted

grains (Mag: magnetite, Pcl: pyrochlore, Phl: phlogopite, Py: pyrite). A) Polarized light image of altered dolomite (Dol; grayish) with accessory minerals 744. (AP1, Phl

L’objectif principal de notre étude était de quantifier la rétraction commissurale lors de la prise en charge chirurgicale des syndactylies congénitales opérées par un

To achieve that, we also extended the anisotropic diffusion and local continuous histogram from their two-dimensional space to three-dimensional space to use for computing 3D