• Aucun résultat trouvé

Optimisation des performances et profilage d'algorithmes de traitement d'images sur architectures parallèles

N/A
N/A
Protected

Academic year: 2021

Partager "Optimisation des performances et profilage d'algorithmes de traitement d'images sur architectures parallèles"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01430178

https://hal-mines-paristech.archives-ouvertes.fr/hal-01430178

Submitted on 9 Jan 2017

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Optimisation des performances et profilage

d’algorithmes de traitement d’images sur architectures

parallèles

Florian Gouin

To cite this version:

Florian Gouin. Optimisation des performances et profilage d’algorithmes de traitement d’images sur architectures parallèles. Journée de seconde année de l’Ecole Doctorale SMI 432, May 2016, Paris, France. �hal-01430178�

(2)

Ce document et les informations qu’il contient sont la propriété de Sagem. Ils ne doivent pas être copiés ni

communiqués à un tiers sans l’autorisation préalable et écrite de Sagem.

Sagem est le nom commercial de la société Sagem Défense Sécurité.

Doctorant : Florian GOUIN

Encadré par : François IRIGOIN , Corinne ANCOURT

(MINES ParisTech, PSL Research University)

Encadré par : Christophe GUETTIER

(SAGEM)

OPTIMISATION DES PERFORMANCES ET PROFILAGE D'ALGORITHMES DE

TRAITEMENT D'IMAGES SUR ARCHITECTURES PARALLÈLES

Cache L2

Analyse des dépendances

Transformation de code (amélioration du parallélisme)

Placement

Cache L1

Cache en lecture seule

Registres de données

Cache d’instructions

Warp Scheduler

Dispatch

Dispatch

Warp Scheduler

Dispatch

Dispatch

Warp Scheduler

Dispatch

Dispatch

Warp Scheduler

Dispatch

Dispatch

Adaptation à

l’architecture matérielle

Choix algorithmique

Comment porter efficacement un algorithme de traitement d’images sur GPU ?

Mise au point d’une méthodologie de placement

192 unité de calculs simple précision

64 unité de calculs double précision

32 unités de fonctions spéciales

32 unités de transfert mémoire

Exemple d’architecture GPU:

Unité SMX - Architecture Nvidia Kepler

GPU

- Parallélisme à gros grain

- Codes séquentiels

CPU

Analyse du parallélisme

 Détecter le parallélisme potentiel

d’un algorithme

 Transformer l’algorithme pour le

rendre plus parallélisable

 Identifier les tâches à placer sur

GPU

Détection de parallélisme

Analyse du nombre

d’accès mémoire

Analyse du nombre

d’opérations de calcul

Parallélisme à grain

plus fin

Comparaison avec

une autre formulation

du même algorithme

Benchmark des

temps d’exécution

Modification de

la distribution

des calculs sur

les unités de

calcul du GPU

Algorithme d’amélioration de contrastes locaux

Adaptation à

l’architecture matérielle

Benchmark des

temps d’exécution

𝜎

𝑥

2

=

𝑥

𝑖

𝑁

𝑖=1

𝑥

𝑖

𝑁

𝑖=1

𝑁

2

𝑁

𝜎

𝑥

2

=

𝑥

𝑖

𝑁

𝑖=1

𝒙

𝒊

𝑵

𝒊=𝟏

𝑵

2

𝑁

𝜎

𝑥

2

=

𝒙

𝒊

𝑵

𝒊=𝟏

𝒙

𝒊

𝑵

𝒊=𝟏

𝑁

2

𝑁

𝜎

𝑥

2

=

𝑥

𝑖

𝑵

𝒊=𝟏

𝑥

𝑖

𝑵

𝒊=𝟏

𝑁

𝟐

𝑁

𝜎

𝑥

2

=

𝒙

𝒊

𝑁

𝑖=1

𝒙

𝒊

𝑁

𝑖=1

𝑁

2

𝑁

𝜎

𝑥

2

=

𝜎

𝑥

𝑎

2

+ 𝜎

𝑥

2

𝑏

2

+

𝑥

𝑎

𝑁

𝑎

𝑖=1

𝑁

𝑎

𝑥

𝑏

𝑁

𝑏

𝑖=1

𝑁

𝑏

2

2

Identification des tâches

Placement sur GPU

 Trouver le bon équilibre entre:

o quantité de communications des

mémoires locales et globales

o nombre d’opérations

 Définir la qualité de placement des

tâches sur le GPU

Références

Documents relatifs

To test whether the vesicular pool of Atat1 promotes the acetyl- ation of -tubulin in MTs, we isolated subcellular fractions from newborn mouse cortices and then assessed

Néanmoins, la dualité des acides (Lewis et Bronsted) est un système dispendieux, dont le recyclage est une opération complexe et par conséquent difficilement applicable à

Cette mutation familiale du gène MME est une substitution d’une base guanine par une base adenine sur le chromosome 3q25.2, ce qui induit un remplacement d’un acide aminé cystéine

En ouvrant cette page avec Netscape composer, vous verrez que le cadre prévu pour accueillir le panoramique a une taille déterminée, choisie par les concepteurs des hyperpaysages

Chaque séance durera deux heures, mais dans la seconde, seule la première heure sera consacrée à l'expérimentation décrite ici ; durant la seconde, les élèves travailleront sur

A time-varying respiratory elastance model is developed with a negative elastic component (E demand ), to describe the driving pressure generated during a patient initiated

The aim of this study was to assess, in three experimental fields representative of the various topoclimatological zones of Luxembourg, the impact of timing of fungicide

Attention to a relation ontology [...] refocuses security discourses to better reflect and appreciate three forms of interconnection that are not sufficiently attended to