Etude d'un cache 2D adaptatif et prédictif pour le traitement d'image

(1)

HAL Id: hal-00102913

https://hal.archives-ouvertes.fr/hal-00102913

Submitted on 19 Jan 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Etude d’un cache 2D adaptatif et prédictif pour le traitement d’image

Stéphane Mancini, Nicolas Gac, Michel Desvignes

To cite this version:

Stéphane Mancini, Nicolas Gac, Michel Desvignes. Etude d’un cache 2D adaptatif et prédictif pour le

traitement d’image. Journées Francophones en Adéquation Algorithme Architecture, Jan 2005, Dijon,

France. pp.JFAAA 2005. �hal-00102913�

(2)

Etude d’un cache 2D adaptatif et pr´edictif pour le traitement d’image

S. Mancini, N. Gac, M. Desvignes

Laboratoire des Images et des Signaux, France, Grenoble {stephane.mancini, nicolas.gac, michel.desvignes}@lis.inpg.fr

Tel : 04 76 57 43 58, Fax : 04 76 57 47 90

Abstract— La n´ ecessit´ e de d´ efinir des in- frastructures mat´ erielles capables de sup- porter la grande diversit´ e et complexit´ e des algorithmes de traitement d’image, pour des tˆ aches telles que la vision, se fait tou- jours plus forte. Aussi nous proposons une hi´ erachie m´ emoire bidimensionnelle suscep- tible de compenser, pour une large classe d’applications, la latence de m´ emoires de type SDRAM. En effet, ces m´ emoires de- viennent un goulot d’´ etranglement lorsqu’y sont stock´ ees des images sur lesquelles sont fait des acc` es al´ eatoires. Le cache 2D adap- tatif et pr´ edictif (cache 2D-AP) propos´ e repose sur une analyse statistique des co- ordonn´ ees des pixels utilis´ es au cours du traitement. Cette analyse nous permet de d´ eterminer une taille optimale de la zone en cache et de pr´ edire les prochains acc` es

`

a l’image. Comparativement ` a des caches standards comme ceux des TM32 ou Pow- erPC405, cette strat´ egie am´ eliore la latence des acc` es m´ emoire jusqu’` a un facteur 6 et la taille du cache jusqu’` a un facteur 40 pour de nombreuses applications. Ce travail illus- tre la possibilit´ e d’utiliser les techniques du traitement du signal pour le contrˆ ole des architectures complexes.

I. Introduction

La conception de syst` emes de traitement de l’image se heurte souvent ` a la mise au point de structures de donn´ ees complexes et d’une hi´ erachie m´ emoire adapt´ ee pour compenser les contraintes technologiques des m´ emoires.

Elle serait facilit´ ee par l’utilisation de m´ ecan- ismes automatiques ou semi-automatiques plus performants que les caches classiques, pr´ evus pour une organisation lin´ eaire des donn´ ees.

Plus les algorithmes deviennent complexesplus leurs s´ equences de traitement deviennent im-

pr´ edictibles du fait des nombreux choix op´ er´ es pendant leur d´ eroulement. En cons´ equence il devient de plus en plus difficile de mettre au point des hi´ erarchies m´ emoires qui ex- ploitent les particularit´ es de l’algorithme car les s´ equences d’acc` es aux pixels des images deviennent de plus en plus al´ eatoires. Ainsi il devient int´ eressant de proposer des modules mat´ eriels susceptibles de satisfaire une large classe d’application et de les ins´ erer dans les flots de conception de syst` emes complexes de traitement d’image.

Le r´ eduction du taux de d´ efaut de cache des caches de micro-processeurs classiques est un enjeu majeur [6] et de nombreuses strat´ egies ont ´ et´ e mises au point pour optimiser diff´ erents param` etres tels que le d´ ebit ou la consom- mation [1]. Cependant les caches convention- nels restent assez inefficaces pour les tˆ aches de traitement d’ images 2D du fait de leur struc- ture fondamentalement lin´ eaire [4]. En effet, la localit´ e en adresse, exploit´ ee par les caches standards, est incompatible avec la localit´ e 2D qui produit des s´ equences d’adresses plus ou moins al´ eatoires.

Pour r´ esoudre ce probl` eme dans des appli- cations de type multim´ edia ou codage vid´ eo, quelques auteurs proposent des tentatives de pr´ ediction[2] et des caches bidimensionnels, comme celui du “video instruction proces- sor” [7]. Cependant, ces caches sont essentielle- ment des extensions des caches conventionnels au cas bidimensionnel et les m´ ecanismes de pr´ e- diction reposent principalement sur une anal- yse des adresses ´ emises par l’unit´ e de calcul.

La mise au point de caches capables de

s’adapter aux applications devient un enjeu

(3)

important. En effet, cela permet de lib´ erer le concepteur du r´ eglage de leurs param` etres ou, au contraire, de l’optimisation de l’application

`

a une structure m´ emoire donn´ ee. De telles ar- chitectures proposent des ressources fixes dont les m´ ecanismes d’allocation sont r´ egl´ es dy- namiquement par une analyse ` a la vol´ ee de l’application [8]. Le r´ eglage fin des hi´ erarchies m´ emoire peut aussi se faire par un analyse ` a priori de l’application [5], mais, ` a nouveau, ces strat´ egies reposent sur un mod` ele 1D des acc` es m´ emoire.

Le cache adaptatif et pr´ edictif (cache 2D- AP) propos´ e permet d’am´ eliorer les temps d’acc` es m´ emoire pour des applications dont les algorithmes ont une forte localit´ e spatiale 2D.

Il repose sur un algorithme pr´ edictif de suivi de trajectoire ` a hypoth` ese de vitesse constante.

L’analyse statistique des acc` es pixel se fait par simple filtrage r´ ecursif d’ordre 1, ` a coefficient en puissance de 2 pour r´ eduire le coˆ ut du con- trˆ ole. Des d´ emarches classiques d’ad´ equation algorithme architecture permettent d’am´ eliorer son efficacit´ e en favorisant cette localit´ e par le traitement de paquets de pixels.

Dans la premi` ere partie de cet article, nous trouverons les crit` eres de performance auxquels le cache 2D-AP tente de r´ epondre. Suivent la description de l’algorithme de poursuite dans sa version simple et am´ elior´ ee et une analyse de performance du cache 2D-AP, compar´ e ` a deux caches “n-way set associative”. Pour ter- miner, avant la conclusion, nous aborderons l’impl´ ementation, l’utilisation de ce cache dans un SoC (System on Chip) et la construction d’un cache 2D-AP hi´ erarchique.

II. Principe du cache Adaptatif et Pr´ edictif

A. Principe g´ en´ eral et contraintes

Selon le principe classique du cache, l’objectif du cache 2D-AP est de maintenir une copie locale ` a l’unit´ e de traitement d’une zone d’une image stock´ ee dans une m´ emoire plus lente et, souvent, de tr` es grande capacit´ e, comme une SDRAM (interne ou externe), comme illustr´ e figure 1. L’id´ ee originale du cache 2D-AP est de calculer la position de cette zone dans l’image originale, ainsi que

sa taille, par un algorithme de poursuite des coordonn´ ees des pixels ´ emises par l’unit´ e de calcul. Cette strat´ egie exploite la localit´ e spatiale 2D de l’algorithme de traitement et se montre tr` es efficace pour des applications de vision telles que la recherche de courbe dans une image, le calcul d’int´ egrales curvilignes ou encore pour des applications de type reconstruction 2D en imagerie m´ edicale.

L’exploitation directe de la nature 2D des traitements permet de r´ esoudre les difficult´ es pos´ ees par l’inadaptation des caches classiques au traitement d’image [4]. En effet, les lignes des caches standard sont constitu´ ees de mots cons´ ecutifs en m´ emoire. La progression ver- ticale d’un traitement produit donc syst´ ema- tiquement un d´ efaut de cache, tout comme un d´ eplacement horizontal ` a la fin d’un segment de longueur ´ egale ` a la ligne de cache. Pour r´ esoudre ce probl` eme, les traitements sont sou- vent r´ ealis´ es sur des blocs de l’image dont les tailles et positions sont connues et syst´ ema- tiques mais ces strat´ egies influencent le type de traitement et peuvent ne pas convenir ` a de nombreuses applications.

L’objectif du cache 2D-AP est de proposer un m´ ecanisme syst` eme semi-automatique util- isable pour une large classe d’application et susceptible de d´ epasser les limitations des caches classiques. Ses caract´ eristiques sont les suivantes:

a) Il est plus rapide que les caches conven- tionnels

b) Il utilise moins de m´ emoire

c) La taille de la zone en cache et sa vitesse de d´ eplacement est adat´ ee ` a l’application d) La complexit´ e du contrˆ ole est ind´ epen-

Image en mémoire principale

Zones en cache donnée

donnée

Unité de Calcul

Large et lente

Petit et rapide Cache

P=(x,y) addresse

Pixels utilisés SDRAM

Fig. 1. Principe du cache 2D-AP

(4)

dante de la taille m´ emoire du cache e) La technologie cible peut ˆ etre un ASIC

ou un FPGA

Les deux derniers points diff´ erencient forte- ment le cache 2D-AP d’un cache classique qui n´ ecessite souvent la mise en place d’une m´ emoire associative dont les performances sont directement d´ ependantes du nombre de lignes par groupe associatif. Dans le cache 2D- AP, le test de d´ efaut de cache est un test d’appartenance ` a la zone en cache des coor- don´ ees du pixels requis et a un coˆ ut quasi- ind´ ependant de la taille de cette zone.

B. L’algorithme du cache 2D-AP

La pr´ ediction de la zone en cache permet de r´ eduire le taux de d´ efaut de cache lorsque les acc` es pixels suivant se d´ eplacent sur l’image. Le centre et la taille de la zone sont d´ etermin´ es par le calcul de la moyenne et du pseudo ´ ecart type (PSD=pseudo standard deviation) des acc` es pixels. La moyenne et le PSD sont calcul´ es ` a l’aide de filtres passe-bas r´ ecursifs du premier ordre. En supposant une distribution uniforme des acc` es pixels autour de la moyenne, nous pouvons estimer que, pour une courte dur´ ee, ils sont dans un rectangle centr´ e sur la moyenne et dont les demi-largeurs valent deux fois le PSD sur chaque axe. La zone ainsi calcul´ ee est mise

`

a jour lorsque la moyenne varie.

Un m´ ecanisme de pr´ ediction permet d’anticiper la position du centre du cache lorsque les acc` es pixels suivent un chemin complexe dans l’image et r´ eduit ainsi le coˆ ut de la latence des acc` es m´ emoire. La mise ` a jour ne se produit que lorsque la moyenne a suffisament vari´ ee et la nouvelle zone est centr´ ee sur une anticipation de la moyenne,

gy ty

tx gx

Zone en cache Zone de garde

Mémoire du cache Centre du cache

Fig. 2. Zones du cache 2D-AP

38 40 42 44 46 48 50 52

1200 1300 1400 1500 1600 1700 1800

time

c y P y

P _y ^f

0 2 4 6 8 10 12 14

1200 1300 1400 1500 1600 1700 1800

time v y d ^f _y e y t y

Fig. 3. Etat du cache 2D-AP en fonction du temps (composante y)

suppos´ ee se d´ eplacer ` a vitesse constante. Ainsi, une zone de garde est d´ efinie autour du centre de la zone en cache et la mise ` a jour se fait lorsque la moyenne calcul´ ee sort de cette zone de garde, dans la direction de sortie, comme illustr´ ee figure 2.

Pour r´ eduire le coˆ ut mat´ eriel du contrˆ ole et obtenir de bonnes performances les filtres passes bas pour le calcul des moyennes sont r´ ealis´ es ` a l’aide de simples additions et d´ e- calages. Ce sont des filtres RII du premier ordre dont l’´ equation est s n = ce n + (1 − c)s _n−1 , e signal d’entr´ ee et s signal filtr´ e, et nous notons s = f ^c (e). Le param` etre 1 − c correspond ` a la constante de temps du filtre RC ´ equivalent.

Lorsque les suites s et e sont repr´ esent´ ees en virgule fixe et c une puissance de ¹ ₂ , nous ne r´ ealisons plus que des additions et d´ ecalages.

C. Les param` etres du cache

Les principaux param` etres du cache sont les fr´ equences de coupure n´ ecessaires aux calculs de la moyenne et du PSD, a = (a _x , a _y ) et b = (b _x , b _y ), ainsi que les vitesses de d´ eplacement du m´ ecanisme de pr´ ediction, α = (α x , α y ).

Nous avons aussi les param` etres de r´ eglage des dimensions des diff´ erentes zones du cache : les facteurs de proportionalit´ e de la zone de garde, γ = (γ x , γ y ), et de la taille du cache, τ = (τ x , τ y ).

L’´ etat du cache, ` a l’instant n comme illustr´ e figure 3, est d´ etermin´ e par les variables suiv- antes :

• P = (x n , y n ), coordonn´ ees du point utilis´ e par l’UT

• P _f = f ^a (P ) = (x _{f n} , y _{f n} ), moyenne des points utilis´ es

• d = |P − P ^f |, PSD courant (distance du point ` a la moyenne calcul´ ee)

• d _f = f ^b (d), PSD moyen

• c, centre courant du cache

(5)

• v, PSD courant du cache. Il d´ efinit:

– g = γv, taille de la zone de garde – t = τ v, taille de la zone en cache Les param` etres v, g et t sont remis ` a jour

`

a chaque d´ eplacement du cache.

• e = P − c, distance du point courant au centre du cache

Le bloc m´ emoire du cache 2D-AP a une taille fixe et d´ efinit la valeur maximum de t. A chaque d´ eplacement, seule la nouvelle partie de l’image en cache est charg´ ee, celle ´ etant ` a l’ext´ erieur est ´ ecras´ ee par les nouvelles donn´ ees.

En effet, la position des pixels de la zone dans la m´ emoire est calcul´ ee modulo la taille maxi- mum. Un d´ efaut de cache se produit lorsqu’un pixel est hors de la zone en cache (e > t) et seul le pixel en d´ efaut est charg´ e depuis la m´ emoire externe.

D. Effet des param` etres et m´ ecanismes de sta- bilisation

Pour compenser la latence de la m´ emoire, α doit ˆ etre assez grand et les fr´ equences de coupures assez basses. Cela permet d’obtenir des d´ eplacements du cache importants et ainsi de r´ eduire le coˆ ut du chargement des donn´ ees, particuli` erement dans le cas o` u l’on se d´ eplace horizontalement.

Les fr´ equences de coupures a et b corre- spondent grosso-modo au nombre de points sur lesquels sont fait le calcul de la moyenne. Les contraintes impos´ ees par le calcul en virgule fixe limitent la fr´ equence de coupure la plus basse, donc le nombre de points pris en compte, mais cela est compens´ e par un facteur de sous-

´

echantillonnage qui permet d’abaisser encore la fr´ equence de coupure lorsque les signaux sont tr` es basse fr´ equence.

Le param` etre α est une estimation de la vitesse de d´ eplacement et permet de compenser le retard de phase dˆ u aux filtres passe-bas.

60 62 64 66 68 70 72 74

275 280 285 290 295 300 305 310

xc xf x

time ⁷⁰

72 74 76 78 80 82 84 86

20 40 60 80 100 time 120 140 160 180 200

xc xf x

Fig. 4. Poursuite a vitesse α > 2γ sans et avec stabilisation

Fig. 5. Poursuite pour α = 1 et α = 3 (les niveaux de gris repr´ esentent le temps). Les triangles sont les points utilis´ es par l’algorithme, les rectangles les bords des zones en cache.

Il a une grande influence sur la stabilit´ e de l’algorithme et n´ ecessite l’adjonction d’un m´ e- canisme de stabilisation. En effet, si α est sup´ erieur ` a 2γ, le processus de suivi devient instable car lors d’un d´ eplacement, le point P _f est d´ epass´ e et n’est pas dans la nouvelle zone de garde, ce qui produit un nouveau d´ eplace- ment en sens inverse. Pour obtenir de grandes vitesses de d´ eplacement et un suivi stable, le point P f est forc´ e ` a la valeur du nouveau centre du cache, ainsi qu’illustr´ e figure 4, et une contrainte de continuit´ e limite le d´ eplacement.

Stabilis´ e, l’algorihme de pr´ ediction est efficace et permet de r´ eduire le nombre de d´ eplace- ments (c.f. figure 5).

III. Comparaison avec un cache standard

Un simulateur au cycle pr` es permet d’´ evaluer l’efficacit´ e de l’algorithme et de r´ egler le jeu de param` etres pour comparer le cache 2D-AP

`

a un cache standard. Les m´ etriques extraites (temps de chargement pour les d´ eplacements en x ou y, d´ efaut de cache, largeur maximale atteinte par t, temps d’acc` es, etc ...) nous aident ` a d´ eterminer les param` etres de cache pour une application d´ etermin´ ee. Ici, nous nous int´ eressons ` a deux ´ etapes d’un algorithme de suivi de l` evres et ` a un calcul de reconstruction 2D en imagerie TEP.

Le premier calcul du suivi de l` evres [3]

consiste ` a chercher des courbes de maximun

(ou minimum) de niveau (ou gradient) par la

m´ ethode du “jumping snake” : ` a partir d’un

point du “snake”, les int´ egrales curvilignes (ou

les flux) d’un faisceau de courbes issues de ce

point servent ` a d´ eterminer le prochain point

du “snake” pour it´ erer l’algorihme. Le second

calcul consiste ` a d´ eterminer le flux de gradient

(6)

sur des courbes de B´ ezier pour d´ eterminer celle qui est la plus proche de la forme cherch´ ee.

Pour am´ eliorer la localit´ e temporelle et spatiale dans ce dernier cas, les courbes sont trait´ ees par groupes.

La reconstruction 2D (Retro2D) consiste ` a calculer une int´ egrale curviligne selon une sinu- so¨ıde sur l’image issue du capteur pour chaque point de l’image reconstruite. Les points re- construits sont regroup´ es en paquets pour am´ eliorer la localit´ e temporelle et spatiale. Les mesures sont effectu´ ees sur le pire cas qui est la sinuso¨ıde d’amplitude maximale.

L’efficacit´ e du cache 2D-AP est mesur´ ee par le ratio t = _t ^t ^std ^−t ^ideal

2D-AP −t _ideal , avec t std le temps de calcul avec un cache standard et t ideal le temps pour une m´ emoire id´ eale, sans latence.

Si r > 1, le cache 2D est plus efficace que le cache standard. Nous mesurons ´ egalement la quantit´ e de m´ emoire utilis´ ee et son ratio avec celle du cache standard, m = taille 2D-AP

taille std . Le cache utilise moins de m´ emoire lorsque m > 1.

Les caches standards ont les param` etres suiv- ant :

• TM32 cache

16K, 8 way set-associative, LRU, 256 lignes de 16 mots (32bit)

• PowerPC 405 cache

16K, 2 way set-associative, LRU, 512 lignes de 8 mots (32bit)

Les performances du tableau I sont mesur´ ees avec l’hypoth` ese d’un bus syst` eme de latence 10 cycles et un d´ ebit de 2 mots par cycles.

Les param` etres du cache sont adapt´ es ` a chaque application et permettent un compromis entre le temps et la surface. Certains param` etres

Snake Bezier Retro2D

Sans cache t 35 15 163

2D-AP t 1 1 1

m 1(980) 1 (840) 1 (1280)

TM32 t 4.3 1.7 7.8

m 16.7 19.5 12.8

PPC t 2.9 1.2 6.1

m 16 19.5 12.8

TABLE I

Comparaison de performance entre le cache 2D-AP et des caches standards : le cache 2D-AP

est toujours plus efficace ( t > 1 et m > 1 ).

Entre parenth` eses la taille du cache.

0 5 10 15 20 25

0 10 20 30 40 50 60

Relative efficiency

Latence

TM32 PPC

Fig. 6. t en fonction de la latence de la m´ emoire

permettent un gain de m´ emoire m de l’ordre de 40, pour un ratio t proche de 1. Le graphe 6 nous montre l’´ evolution de t en fonction de la latence de la m´ emoire (et du bus syst` eme), dans le cas de l’application Retro2D.

IV. Impl´ ementation et utilisation A. Impl´ ementation

Le cache 2D-AP a ´ et´ e mod´ elis´ e en VHDL et tous ses param` etres sont r´ eglables statique- ment ou dynamiquement. Le tableau II donne les performances en surface et taille des blocs critiques du cache (except´ e la gestion du bus) pour une application comme la Retro2D. Un point int´ eressant est que la taille du contrˆ ole est quasiment ind´ ependante de la taille de la m´ emoire du cache. Ces r´ esultats peuvent ˆ etre am´ elior´ es si on consid` ere les param` etres α, γ, τ et les fr´ equences de coupures constants.

B. Int´ egration dans un SoC

Le cache 2D-AP est con¸ cu pour ˆ etre int´ e- gr´ e dans un SoC et il est maˆıtre sur un bus syst` eme, l’unit´ e de calcul pouvant ˆ etre une IP ou un processeur. Dans ce cas, le processeur doit produire des coordonn´ ees (x, y) par con- struction d’adresses ad´ equates (par exemple une concat´ enation de x et y sur les poids faibles). Le cache 2D-AP peut ˆ etre directement

Technologie Surface Fr´ equence AMS 0.35 3000 cellules 120 MHz Altera

Stratix

950 LC 100 MHz Xilinx V2-

Pro

1000 LUT 80 MHz

TABLE II

Synth` ese du contrˆ ole du cache pour une

application de type Retro2D

(7)

2D−AP Cache

SDRAM CPU

SDRAM Controller

System Bus

& Ctrl Data

Addr

Connexion directe ` a un CPU

2D−AP Cache CPU

SDRAM Controller

System Bus

SDRAM

Connexion ` a travers un bus syst` eme

SDRAM 2D−AP

Cache IP

SDRAM Controller

System Bus

&Ctrl Data

(x,y)

Connexion directe ` a une IP

Fig. 7. Insertion d’un cache 2D-AP dans un SoC

li´ e au processeur ou accessible ` a travers un bus syst` eme, ainsi qu’illustr´ e figure 7. Il est alors possible de construire un environnement de programmation adapt´ e ` a l’utilisation du cache 2D-AP, ` a travers des API d´ edi´ ees.

A l’oppos´ e d’une m´ emoire embarqu´ ee, comme une “scratch-pad memory”, le cache 2D-AP lib` ere le concepteur d’un r´ eglage fin des acc` es m´ emoire. En effet, une strat´ egie ef- ficace consiste ` a construire l’application pour favoriser la localit´ e spatiale 2D et temporelle pour ensuite r´ egler les fr´ equences de coupure du cache et les autres param` etres. Le concepteur n’a alors plus besoin de r´ egler la mise ` a jour de la m´ emoire embarqu´ ee.

V. Conclusion

Le cache 2D-AP est toujours plus rapide et consomme moins de m´ emoire qu’un cache clas- sique pour les applications test´ ees. Le logiciel de simulation nous permet d’interpr´ eter l’effet des diff´ erents param` etres du cache et de le r´ e- gler pour une application donn´ ee. Des pistes in- t´ eressantes seraient leur calcul automatique par une pr´ e-analyse automatique des acc` es pixel de l’application et il semble possible d’am´ eliorer la pr´ ediction par une estimation dynamique de la vitesse de d´ eplacement du cache.

Pour am´ eliorer les d´ ebits m´ emoire et fa- voriser les traitements parall` eles sur les im- ages, il semble envisageable de construire une

hi´ earchie de cache 2D-AP. Chaque cache de niveau n mettant ` a jour sa zone ` a partir d’un cache de niveau n + 1 dont la zone est calcul´ ee

`

a partir des acc` es de tous les caches qui lui sont connect´ es.

Le cache 2D-AP est r´ ealis´ e et sera ins´ er´ e dans des plateformes SOPC (FPGA) pour la validation d’applications de traitement d’image temps r´ eel. Nous aurons ainsi des informations permettant de valider les simulations effectu´ ees dans un environnement plus complexe que le simple mod` ele de bus utilis´ e.

Plus les traitements d’image seront com- plexes et les s´ equences d´ ependantes des traite- ments, plus nous aurons besoin de m´ ecan- ismes syst` emes efficaces et adapt´ es ` a ces traite- ments. Le cache 2D-AP est une proposition pour faciliter la conception de plates-formes de traitement d’image par la construction d’une hi´ erarchie m´ emoire adapt´ ee aux traitements 2D. La stat´ egie adopt´ ee se r´ ev` ele tr` es efficace et montre le potentiel d’utilisation des techniques issues du traitement de signal pour le contrˆ ole des syst` emes embarqu´ es.

References

[1] Y.-J. Chang, S.-J. Ruan, and F. Lai. Design and analysis of low-power cache using two-level filter scheme. Very Large Scale Integration (VLSI) Sys- tems, IEEE Transactions on, 11(4):568 – 580, 2003.

[2] R. Cucchiara, M. Piccardi, and A. Prati. Im- proving data prefetching efficacy in multimedia ap- plications. Multimedia Tools and Applications, 20(3):159–178, 2003. Kluwer Academic Press.

[3] N. Eveno, A. Caplier, and P-Y Coulon. Automatic and accurate lip tracking. Circuits and Systems for Video technology, IEEE Transactions on, 2004. To appear in may 2004.

[4] D. Kim, R. Managuli, and Y. Kim. Data cache and direct memory access in programming mediaproces- sors. IEEE Micro, 21(4):33–42, 2001.

[5] P. R. Panda, N. D. Dutt, A. Nicolau, F. Catthoor, A. Vandecappelle, E. Brockmeyer, C. Kulkarni, , and E. de Greef. Data memory organization and optimizations in application-specific systems. IEEE Design and Test of Computers (D & T), 18(3), May/June 2001.

[6] D.A. Patterson and J.L. Hennessy. Computer Ar- chitecture: A Quantitative Approach. Morgan Kauf- mann, San Francisco, 2nd ed. edition, 1996.

[7] W. Raab and al. A 100-gops programmable pro- cessor for vehicle vision systems. Design & Test of Computers, IEEE, 20(1):8–15, Jan-Feb 2003.

[8] C. Zhang, F. Vahid, and R. Lysecky. A self-tuning

cache architecture for embedded systems. In De-

sign Automation and Test in Europe Conference

(DATE), February 2004.

Etude d'un cache 2D adaptatif et prédictif pour le traitement d'image

HAL Id: hal-00102913

https://hal.archives-ouvertes.fr/hal-00102913

Submitted on 19 Jan 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Etude d’un cache 2D adaptatif et prédictif pour le traitement d’image

Stéphane Mancini, Nicolas Gac, Michel Desvignes

To cite this version:

Stéphane Mancini, Nicolas Gac, Michel Desvignes. Etude d’un cache 2D adaptatif et prédictif pour le

traitement d’image. Journées Francophones en Adéquation Algorithme Architecture, Jan 2005, Dijon,

France. pp.JFAAA 2005. �hal-00102913�

Etude d’un cache 2D adaptatif et pr´edictif pour le traitement d’image

S. Mancini, N. Gac, M. Desvignes

Laboratoire des Images et des Signaux, France, Grenoble {stephane.mancini, nicolas.gac, michel.desvignes}@lis.inpg.fr

Tel : 04 76 57 43 58, Fax : 04 76 57 47 90

`

I. Introduction

La conception de syst` emes de traitement de l’image se heurte souvent ` a la mise au point de structures de donn´ ees complexes et d’une hi´ erachie m´ emoire adapt´ ee pour compenser les contraintes technologiques des m´ emoires.

Elle serait facilit´ ee par l’utilisation de m´ ecan- ismes automatiques ou semi-automatiques plus performants que les caches classiques, pr´ evus pour une organisation lin´ eaire des donn´ ees.

Plus les algorithmes deviennent complexesplus leurs s´ equences de traitement deviennent im-

La mise au point de caches capables de

s’adapter aux applications devient un enjeu

important. En effet, cela permet de lib´ erer le concepteur du r´ eglage de leurs param` etres ou, au contraire, de l’optimisation de l’application

`

Le cache adaptatif et pr´ edictif (cache 2D- AP) propos´ e permet d’am´ eliorer les temps d’acc` es m´ emoire pour des applications dont les algorithmes ont une forte localit´ e spatiale 2D.

Il repose sur un algorithme pr´ edictif de suivi de trajectoire ` a hypoth` ese de vitesse constante.

II. Principe du cache Adaptatif et Pr´ edictif

A. Principe g´ en´ eral et contraintes

L’objectif du cache 2D-AP est de proposer un m´ ecanisme syst` eme semi-automatique util- isable pour une large classe d’application et susceptible de d´ epasser les limitations des caches classiques. Ses caract´ eristiques sont les suivantes:

a) Il est plus rapide que les caches conven- tionnels

b) Il utilise moins de m´ emoire

c) La taille de la zone en cache et sa vitesse de d´ eplacement est adat´ ee ` a l’application d) La complexit´ e du contrˆ ole est ind´ epen-

Image en mémoire principale

Zones en cache donnée

donnée

Unité de Calcul

Large et lente

Petit et rapide Cache

P=(x,y) addresse

Pixels utilisés SDRAM

Fig. 1. Principe du cache 2D-AP

dante de la taille m´ emoire du cache e) La technologie cible peut ˆ etre un ASIC

ou un FPGA

B. L’algorithme du cache 2D-AP

`

a jour lorsque la moyenne varie.

gy ty

tx gx

Zone en cache Zone de garde

Mémoire du cache Centre du cache

Fig. 2. Zones du cache 2D-AP

38 40 42 44 46 48 50 52

1200 1300 1400 1500 1600 1700 1800

time

c y P y

P y f

0 2 4 6 8 10 12 14

1200 1300 1400 1500 1600 1700 1800

time v y d f y e y t y

Fig. 3. Etat du cache 2D-AP en fonction du temps (composante y)

suppos´ ee se d´ eplacer ` a vitesse constante. Ainsi, une zone de garde est d´ efinie autour du centre de la zone en cache et la mise ` a jour se fait lorsque la moyenne calcul´ ee sort de cette zone de garde, dans la direction de sortie, comme illustr´ ee figure 2.

Lorsque les suites s et e sont repr´ esent´ ees en virgule fixe et c une puissance de 1 2 , nous ne r´ ealisons plus que des additions et d´ ecalages.

C. Les param` etres du cache

Les principaux param` etres du cache sont les fr´ equences de coupure n´ ecessaires aux calculs de la moyenne et du PSD, a = (a x , a y ) et b = (b x , b y ), ainsi que les vitesses de d´ eplacement du m´ ecanisme de pr´ ediction, α = (α x , α y ).

Nous avons aussi les param` etres de r´ eglage des dimensions des diff´ erentes zones du cache : les facteurs de proportionalit´ e de la zone de garde, γ = (γ x , γ y ), et de la taille du cache, τ = (τ x , τ y ).

L’´ etat du cache, ` a l’instant n comme illustr´ e figure 3, est d´ etermin´ e par les variables suiv- antes :

• P = (x n , y n ), coordonn´ ees du point utilis´ e par l’UT

• P f = f a (P ) = (x f n , y f n ), moyenne des points utilis´ es

• d = |P − P f |, PSD courant (distance du point ` a la moyenne calcul´ ee)

• d f = f b (d), PSD moyen

• c, centre courant du cache

• v, PSD courant du cache. Il d´ efinit:

– g = γv, taille de la zone de garde – t = τ v, taille de la zone en cache Les param` etres v, g et t sont remis ` a jour

`

a chaque d´ eplacement du cache.

• e = P − c, distance du point courant au centre du cache

Le bloc m´ emoire du cache 2D-AP a une taille fixe et d´ efinit la valeur maximum de t. A chaque d´ eplacement, seule la nouvelle partie de l’image en cache est charg´ ee, celle ´ etant ` a l’ext´ erieur est ´ ecras´ ee par les nouvelles donn´ ees.

En effet, la position des pixels de la zone dans la m´ emoire est calcul´ ee modulo la taille maxi- mum. Un d´ efaut de cache se produit lorsqu’un pixel est hors de la zone en cache (e > t) et seul le pixel en d´ efaut est charg´ e depuis la m´ emoire externe.

D. Effet des param` etres et m´ ecanismes de sta- bilisation

P _y ^f

time v y d ^f _y e y t y

Lorsque les suites s et e sont repr´ esent´ ees en virgule fixe et c une puissance de ¹ ₂ , nous ne r´ ealisons plus que des additions et d´ ecalages.

Les principaux param` etres du cache sont les fr´ equences de coupure n´ ecessaires aux calculs de la moyenne et du PSD, a = (a _x , a _y ) et b = (b _x , b _y ), ainsi que les vitesses de d´ eplacement du m´ ecanisme de pr´ ediction, α = (α x , α y ).

• P _f = f ^a (P ) = (x _{f n} , y _{f n} ), moyenne des points utilis´ es

• d = |P − P ^f |, PSD courant (distance du point ` a la moyenne calcul´ ee)

• d _f = f ^b (d), PSD moyen

time ⁷⁰

L’efficacit´ e du cache 2D-AP est mesur´ ee par le ratio t = _t ^t ^std ^−t ^ideal

2D-AP −t _ideal , avec t std le temps de calcul avec un cache standard et t ideal le temps pour une m´ emoire id´ eale, sans latence.