Structure parall´ elis´ ee - Architectures flot de données dédiées au traitement d'images par m

2.4.1 Vue globale

Nous détaillons ici une nouvelle voie de traitement du parallélisme avec les processeurs de voisinage. La méthode traditionnellement employée pour traiter une image avec un plus fort parallélisme consiste à la découper en morceaux afin d’alimenter plusieurs processeurs en parallèle. Ce principe est largement abordé dans le chapitre 4 et n’est pas nécessaire- ment optimal notamment au niveau du découpage des imagettes puisqu’il est nécessaire de prévoir des zones de recouvrement à cause du traitement de l’image par un voisinage.

Nous proposons dans cette section, ainsi que dans l’article [23], une autre méthode à un grain beaucoup plus fin. En effet, s’il on considère que le système alimentant le processeur de voisinage envoie les pixels groupés par paquets de n (ce qui est traditionnellement le cas avec les mémoires employées de nos jours), il est envisageable d’extraire n voisinages contigus par cycle et ainsi produire n pixels résultats par cycles. Le principe général présenté en figure 2.47 n’est pas très différent de la structure standard décrite précédemment. Il est juste nécessaire de prévoir n unités de gestion des bords, n unités de calcul et un système d’extraction du voisinage modifié. Nous verrons également qu’il est possible de réduire

Fig. 2.46: Arbre de calcul de la reconstruction g´eod´esique

la quantité de ressources nécessaires, par exemple dans les unités de calcul, puisque des opérations redondantes entre les voisinages contigus peuvent être regroupées.

Fig. 2.47: Structure générale d’un processeur de voisinage parallélisé

2.4.2 Extraction du voisinage

L’objectif est d’exploiter au maximum le débit mémoire amont, c’est-à-dire que, si le système alimentant le processeur fournit n pixels contigus par cycle, il faut pouvoir exploiter

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

au maximum ce parallélisme. S’il n’était pas exploité, il serait nécessaire de découper les paquets de pixels pour les traiter un à un dans un processeur de voisinage standard et donc multiplier le temps de traitement par n.

L’exploitation du parallélisme des données se fait donc en extrayant n voisinages connexes par cycle comme le montre la figure 2.48. On remarque qu’il est nécessaire de prévoir une zone de recollement entre deux cycles ce qui a pour effet d’ajouter un certain nombre de registres à l’unité d’extraction du voisinage. Si l’on considère des voisinages ayant N lignes et M colonnes il faut prévoir N · (M₂ + 1) registres de recollement.

Fig. 2.48: Principe d’extraction parall´elis´e de voisinages contigus

Les lignes à retard sont conservées et leur capacité ne change pas, seule la taille des mots est modifiée pour correspondre au degré de parallélisme n. Le nombre de registres nécessaires à l’extraction des voisinages s’exprime de la manière suivante :

f (n) = N · n + N · M 2 + 1

= N · n + N · M

2 + N

Si l’on ne consid´erait pas une extraction des voisinages contigus, il serait n´ecessaire d’utiliser le nombre de registres suivant :

g(n) = N · M · n

Afin de connaˆıtre la quantité de registres économisée, on peut écrire la relation suivante : lim n→+∞h(n) = limn→+∞ f (n) g(n) = 1 M

Ainsi le nombre de registres nécessaires à l’extraction de n voisinages connexes tend à être M fois plus petit que le nombre de registres utilisés pour l’extraction de n voisinages non connexes.

L’architecture d’une telle unité d’extraction est présentée en figure 2.49, on retrouve les registres de recollement RBx, les registres RAx recevant les nouveaux paquets de pixels et les lignes à retard Lx.

A chaque cycle les registres RAx re¸coivent n pixels en provenance de la ligne `a retard Lx ou, dans le cas de RA0, directement depuis l’entr´ee pixels. On conserve alors les M/2 +

Fig. 2.49: Structure d’un processeur de voisinage N × M parall´elis´e par n

1 valeurs du dernier voisinage dans les registres RBx afin de garantir un recouvrement correct lors du cycle suivant. Une cinématique est proposée en figure 2.50 dans le cas d’un extracteur de voisinage 3 × 3 parallélisé par 4.

Fig. 2.50: Exemple de processeur de voisinage 3 × 3 parall´elis´e par 4

Cette dernière figure montre également, dans le cas T0+ t + 2, les problèmes de gestion

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

bords aux mˆemes instants, cet aspect est abord´e dans la section suivante.

Le fonctionnement des lignes à retard n’est pas aussi simple qu’il y paraˆıt et il n’est pas uniquement nécessaire de changer la taille des mots mémoire afin de les rendre compatibles avec notre extracteur de voisinage parallélisé. En effet, le nombre de mots mémoire (un mot recevant n pixels) multiplié par n doit être égal à la taille de la ligne. En d’autres termes, sans modification de la structure des lignes à retard, la taille d’une ligne doit être multiple de n. Si cette contrainte n’est pas respectée, l’extraction des voisinages ne sera pas correcte, car les lignes à retard n’auront pas une taille suffisante pour mémoriser une ligne. On observera alors un décalage grandissant des voisinages extraits au fur et à mesure que le processeur recevra de nouvelles lignes à traiter.

La mani`ere la plus simple de s’affranchir de cette contrainte est d’ajouter aux lignes `

a retard le nombre de registres nécessaires pour obtenir une taille correspondante à celle d’une ligne de l’image. Le nombre maximum de registres ainsi ajoutés sur la ligne à retard ne peut pas excéder n − 1 et ces derniers sont ajoutés un à un sur les sorties de la ligne `

a retard. Un exemple est présenté en figure 2.51 où l’on considère une image 9 × 4, un voisinage 3 × 3 et une extraction parallélisée d’ordre 4. Il est donc nécessaire d’ajouter un registre en sortie de la ligne à retard au niveau du premier élément pour compléter la taille permettant d’atteindre une capacité de 9 pixels. Si les lignes de l’image avaient une taille de 10 pixels, il aurait fallu ajouter deux registres, un au niveau du premier élément et un autre au niveau du second.

Lorsque des registres sont ajoutés, on remarque qu’il est nécessaire de procéder à un réordonnancement des éléments (a1, b1, c1, d1, dans le schéma de la figure 2.51). Les registres ajoutés ont pour effet d’introduire un retard impliquant de rerouter ces signaux par rapport à ceux ne disposant pas d’un tel registre. Ce reroutage dépend de la taille de la ligne et du degré de parallélisme. On peut tout à fait imaginer de figer le degré de parallélisme pour un processeur de voisinage, mais pour être suffisamment souple, ce dernier doit être capable de traiter plusieurs tailles de lignes. Il faut ainsi prévoir tous les registres en sortie des lignes à retard ainsi que tous les chemins de données nécessaires à leur activation, à leur désactivation et au reroutage des données. Un tel système est présenté en figure 2.52 pour des mots de quatre pixels, mais peut être généralisé à des mots de taille n. La table de vérité commandant les quatre multiplexeurs est proposée en 2.8. Elle permet de gérer toutes les tailles de lignes pour un processeur de voisinage parallélisé par 4.

XX XX XX XX XX XX Nb. Reg. Mux ax bx cx dx 0 s1 s2 s3 s4 1 s2 s3 s4 s5 2 s3 s4 s5 s6 3 s4 s5 s6 s7

Tab. 2.8: Table de vérité de sélection des registres de complément de la ligne à retard dans le cas d’un extracteur parallélisé de taille 4.

Une telle structure d’extraction de voisinage permet de réduire la latence d’une opéra- tion de voisinage. En effet la latence de ces opérateurs de voisinage est traditionnellement

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

Fig. 2.52: Gestion des différentes tailles de lignes pour un extracteur de voisinage parallélisé

due aux lignes à retard fonctionnant pixel par pixel. Avec cette nouvelle structure la latence est environ divisée par n. Effectivement, même si la taille de la ligne à retard n’a pas changée, la taille des mots mémoire transmis à chaque cycle se compose maintenant de n pixels.

2.4.3 Gestion des bords

La gestion des bords est assez similaire à celle mise en place dans les processeurs de voisinage flot de donnée standard de la figure 2.13. Il est juste nécessaire de dupliquer n fois cette unité et de modifier les compteurs de lignes et de colonnes. Chaque unité de gestion de bords doit embarquer ses propres compteurs, car comme nous avons pu le voir dans les figures précédentes, les voisinages extraits à instant t peuvent être à cheval sur deux lignes. Chacun des compteurs de colonnes doit être initialisé avec l’indice du voisinage extrait. Par exemple, le compteur de colonnes correspondant au voisinage le plus à l’est doit être initialisé avec la valeur zéro et le compteur de colonnes correspondant au voisinage le plus `

a l’ouest doit être initialisé avec la valeur n − 1. L’incrément des compteurs de colonnes doit être aussi remplacé par la valeur n.

Les signaux informant de la position des n voisinages vis-à-vis des bords de l’image sont ensuite générés pour être utilisés par les unités de remplacement de pixels décrites en figure 2.14. Ces dernières sont, elles aussi, répliquées pour chaque voisinage extrait.

Nous disposons alors de n voisinages dont les bords ont été gérés en rempla¸cant les voisins hors de l’image par des valeurs qui ne perturberont pas ou peu le calcul. Il est aussi envisageable de transmettre directement les signaux informant de la présence d’un problème de bords pour chacun des n voisinages vers les unités de calculs respectives, dans le cas où ces dernières ne supporteraient pas le remplacement de pixels proposé.

2.4.4 Optimisation de l’arbre de calcul

Sachant que les n voisinages extraits de l’image se recouvrent, il est peut-être plus intéressant d’envisager une unité de calcul pour tous les voisinages plutôt que n unités de calcul. En effet, les calculs sur les colonnes d’un voisinage peuvent être réutilisés pour d’autres voisinages. Ce principe à déjà été abordé dans la section traitant des unités de calculs des opérateurs de rang, mais l’économie se faisait entre deux cycles lorsque le parcours de l’image le permettait, alors qu’ici l’économie se fait spatialement.

Un exemple d’une unité de calcul optimisé pour le calcul d’une érosion avec un élément structurant 3 × 3 et un degré de parallélisation 4 est proposé en figure 2.53.

Fig. 2.53: Arbre de recherche du minimum de quatre voisinages connexe

Comme dans le cas des arbres de calculs optimisés des processeurs de voisinage clas- siques, il est nécessaire de déporter la gestion des bords au sein de l’unité de calcul. En effet une même colonne peut servir au calcul de deux voisinages. Lorsque cette dernière ne doit pas être prise en compte dans le calcul, car se trouvant dans le bord EST d’un voisinage k, elle doit être utilisée dans le calcul du voisinage k + 1. C’est la raison pour laquelle tous les cas de calculs de minima sur une colonne sont pris en compte comme le montre la figure 2.53.

La figure 2.54 illustre ce phénomène en considérant un extracteur de voisinage 3 × 3 parallélisé par 2. On remarque que la colonne C3 du voisinage V1 ne doit pas être prise en compte alors qu’elle doit être utilisée dans le calcul de V2. Ceci est dû au fait que la colonne C3 n’est pas réellement hors de l’image puisqu’il n’existe pas de padding, mais se trouve déjà sur la ligne suivante.

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

Fig. 2.54: Arbre de recherche du minimum de quatre voisinages connexes

la combinatoire du calcul de toutes les opérations d’une colonne est faible. Dans le cadre de la figure 2.53 on utilise finalement que 26 opérateurs au lieu de 36 dans le cadre non optimisé. Dès lors que l’on considère des voisinages plus importants, la combinatoire sur les colonnes est tellement importante qu’il est préférable de considérer une unité de calcul indépendante par voisinage. Par exemple, pour des extracteurs parallélisés d’ordre 4, une unité de calcul “optimisée” considérant des éléments structurants 5 × 5 utilise 96 opéra- teurs (par exemple min/max pour des érosions/dilatations). La version standard utilisera ´

egalement 96 op´erateurs, mais avec des chemins de donn´ees beaucoup plus simples et sans multiplexeurs.

Dans le document Architectures flot de données dédiées au traitement d'images par morphologie mathématique (Page 78-86)