Comportement du cache sur la carte - Adéquation Algorithme Architecture pour la reconstruction

Nous avons mesuré pour les caches feuille et racine plusieurs métriques inspirées de

l’étude théorique sur les caches du chapitre 3. Nous présentons ici les mesures

obte-nues pour les segments 0 et -2 dont les acc`es m´emoire dessinent des sinuso¨ıdes 3D avec

respectivement des d´eplacements selon 2 et 3 dimensions dans l’espace m´emoire 3D.

3.3.1 Cache feuille

La figure 4.13 repr´esente pour un cache non-hi´erarchique et un cache feuille, le taux

d’utilisation d’un bin mis en cache η

_cache

, le coˆut moyen de mise en cache de 4 bins

ˆ

C

_cache

(4bins), le taux de d´efautη

_defaut

et le taux de surcharge du cacheη

_surcharge

.

Taux de réutilisation et de défaut pour le cache non-hiérarchique

Pour un cache non-hi´erarchique avec un seul cache, on peut observer sur la figure 4.13

que le taux de réutilisation des données ne varie pas avec la latence mémoire : il est de

10.1 pour le segment 0 et de 9.2 pour le segment -2 (graphe a). Ce taux de r´eutilisation

est à comparer avec le taux théorique de réutilisation des données qui idéalement est de

36 pour le segment 0 et 24 pour le segment -2 (graphe d). Cette diff´erence s’explique par

le taux de surcharge du cache assez important autour de 3,6 pour le segment 0 et 2,6 pour

le segment -2 . Ce taux de surcharge est plus élevé que la valeur espéréeE(η

_surcharge

)

par les mesures en simulation. En effet, le m´ecanisme de mise `a jour du cache 3D-AP

dessine une sinuso¨ıde plus large que celle correspondante à une simple stratégie mémoire

de type “ping pong”. Le cache 3D-AP fait des mises `a jour du cache plus larges car il

effectue une pr´ediction pour plusieurs angles phi futurs, alors que la strat´egie “ping pong”

met `a jour le cache uniquement pour l’angle suivant phi+ 1. Ce taux de r´eutilisation

permet toutefois le masquage des transferts du cache car comme l’indique le graphe b,

le coût de transfert en mémoire de 4 bins dont a besoin le pipeline à chaque cycle de

calcul reste inf´erieur au taux de r´eutilisation. Il faut en moyenne entre 2 et 8 cycles pour

mettre en cache un vecteur de 4 bins qui sera réutilisé en moyenne pendant 9 à 10 cycles

de calcul. Enfin, le taux de d´efaut est faible autour de 0,1%ce qui prouve que le cache

r´eussit `a suivre la sinuso¨ıde 3D (graphe c).

Taux de réutilisation et de défaut pour le cache hiérarchique

Pour un cache hiérarchique, nous avons effectué ces mêmes mesures pour un des

4 caches feuilles d’une architecture parallèle avec 4 unités (avec 8 unités nous n’avons

plus de ressources n´ecessaires sur le virtex 2 Pro pour placer les modules de mesures du

cache). Sur la figure 4.13, nous pouvons observer tout d’abord que le taux de r´eutilisation

est plus faible (entre 9 et 5) et surtout qu’il d´ecroˆıt avec la latence. Ce taux de

réutili-sation qui décroˆıt s’explique par un nombre plus important de transferts mémoire entre

les caches feuille et racine comme l’indique le taux de surcharge qui augmente avec la

la-tence m´emoire (compris entre 3 `a 5 pour le segment -2). Le cache feuille ne suit plus aussi

efficacement la sinuso¨ıde 3D comme il le faisait sans la hi´erarchie m´emoire. Toutefois,

s’il charge trop de donn´ees en cache, il obtient encore un faible taux de d´efauts autour

3. PERFORMANCES DU CACHE 3D-AP 165

de 0,1 %. Le coût de mise en cache pour 4 unités varie peu avec la latence mémoire,

il est compris entre 1,5 et 2 cycles. En effet, ce coˆut ne correspond plus `a la recherche

de donn´ees en m´emoire externe mais au simple transfert entre les caches feuille et racine.

Coˆut des d´efauts

La figure 4.14 présente le coût d’un défaut en cache. Les défauts sont traités par le

cache de manière non-prioritaire après la fin de mise à jour du cache. C’est pourquoi,

nous faisons la distinction dans la suite de cette étude entre les défauts retardés qui

attendent la fin d’une mise à jour du cache et ceux non retardés qui accèdent sans

at-tendre au bus mémoire. Le coût d’un défaut non retardé augmente linéairement avec la

latence pour un cache non hiérarchique (1 unité) comme illustré sur le graphe b. Pour

un cache hiérarchique, les défauts non retardés au niveau feuille peuvent être retardés

au niveau racine, c’est pourquoi on observe un coˆut plus important et non lin´eaire de ces

défauts pour 4 unités (graphe b). Les défauts réellement non retardés coûtent quelques

dizaines de cycles (entre 5 et 40 cycles selon la latence m´emoire) ce qui est sup´erieur au

coût de mise en cache d’une donnée. Ceci est du à l’accès non groupé en ligne mémoire

des défauts, chaque défaut paye le prix de la latence mémoire. Alors que les accès à la

mémoire pour la mise en cache d’une donnée bénéficient d’un coût partagé de la latence

mémoire, par tous les bins de la ligne mémoire accédée. Les défauts retardés coûtent

plusieurs centaines de cycles (entre 100 et 700 cycles selon la latence m´emoire). C’est

ce coût important des défauts retardés qui fait augmenter le coût moyen d’un défaut

(graphe a). Toutefois, la proportion des défauts retardés reste inférieure à 7 % (graphe

d). Ainsi au final pour une latence de 30 cycles, un d´efaut du cache coˆute 75 cycles pour

une unit´e et le double pour 4 unit´es.

Occupation du bus et traitement des d´efauts

Puisque les transferts du cache sont prioritaires sur les traitements des d´efauts, le

temps de traitement des d´efauts est d´ependant du temps de transfert du cache. Or le

temps de traitement des d´efauts donne une indication directe sur l’efficacit´e de

recons-truction car lorsqu’un défaut est traité le pipeline est en arrêt sinon il marche à plein

r´egime. La figure 4.15 illustre via la repr´esentation des taux d’occupation du bus par

le cache (nombre de cycles de transfert du cache sur le nombre de cycles au total) et

de traitement des d´efauts (nombre de cycles de traitement des d´efauts sur le nombre

de cycles au total), la corr´elation existante entre les temps de transfert du cache et de

traitement des d´efauts. Plus le taux d’occupation du bus augmente, plus le temps de

traitement des d´efauts augmente. Par exemple pour une unit´e, quand le taux

d’occupa-tion du bus atteint 60 %(latence de 15 cycles), la r´epercussion sur le retardement des

d´efauts devient visible avec un accroissement net du temps de traitement des d´efauts

avec la latence. Pour le cache hi´erarchique avec 4 unit´es, le taux d’occupation du bus

entre les caches feuilles et le cache racine est plus important puisque ce bus est partag´e

par les 4 caches feuilles. Ainsi, l’occupation du bus est déjà à plus de 50 % pour une

latence faible. Ce taux d’occupation augmente quasi lin´eairement jusqu’`a la saturation

du bus `a 80%.

5 6 7 8 9 10 11 12 0 5 10 15 20 25 30 Taux de réutilisation Latence de la mémoire 1 pipeline (segment −2) 1 pipeline (segment 0) 4 pipelines (segment −2) 4 pipelines (segment 0)

(a)

0 2 4 6 8 10 0 5 10 15 20 25 30

Coût de transfert en cache de 4 bins (cycles)

Latence de la mémoire 1 pipeline (segment −2) 1 pipeline (segment 0) 4 pipelines (segment −2) 4 pipelines (segment 0)

(b)

0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0 5 10 15 20 25 30 Taux de défaut (%) Latence de la mémoire 1 pipeline (segment −2) 1 pipeline (segment 0) 4 pipelines (segment −2) 4 pipelines (segment 0)

(c)

2 3 4 5 6 7 8 0 5 10 15 20 25 30

Taux de surcharge du cache

Latence de la mémoire 1 pipeline (segment −2) 1 pipeline (segment 0) 4 pipelines (segment −2) 4 pipelines (segment 0)

(d)

Fig.4.13 –η

_cache

(a),C^ˆ

_cache

(4bins)(b),η

_defaut

(c) etη

_surcharge

(d) du cache feuille

pour 1 et 4 unit´es (segments -2 et 0)

Dans le document Adéquation Algorithme Architecture pour la reconstruction 3D en imagerie médicale TEP (Page 185-188)