Am´ elioration de l’architecture HGW

2.5 Structure segment

2.5.3 Am´ elioration de l’architecture HGW

La modification de l’algorithme HGW que nous proposons [24] est motivée par le fait de pouvoir traiter des images de grandes tailles sans avoir à stocker en entier la ligne à ´

eroder/dilater. Ceci permet pour des architectures flots de données de retirer les mémoires de lignes. En effet, le principal défaut de l’approche standard est lié au fait que les propagations réalisant le calcul de g et h doivent être faite dans un sens opposé ce qui implique d’avoir connaissance de la ligne en entier ou de la mémoriser complètement.

2.5.3.1 Principe de fonctionnement

La figure 2.59 montre à quels instants, pour un élément structurant k = 7, sont réini- tialisés les propagations. Les pixels représentés en noir symbolisent les pixels réintroduits (provenant de la ligne originale) et les gris clair les valeurs propagées.

Un bloc est défini comme étant un groupe de pixels entre deux insertions de pixels ori- ginaux, la propagation au sein d’un bloc est indépendante de celle des autres. Par exemple, dans la figure 2.59, les pixels de g [A0, A6] forment un bloc. On remarque dans le calcul de h que si une rotation centrée des blocs est réalisée avant propagation, les pixels origi- naux réintroduits dans g et h le sont aux mêmes indices. Cette rotation avant propagation, produisant le tableau f0, supprime la nécessité d’effectuer un passage dans le sens vidéo inverse. Un exemple de rotation des blocs de f produisant f0 avant la propagation de h0 est présenté en figure 2.60. Il est bien sûr nécessaire après propagation de reconstruire h à partir de h0 en retournant les blocs de ce dernier.

L’architecture fonctionnelle de la mise en œuvre de l’algorithme HGW modifié est pro- posée en figure 2.61. Elle permet donc de supprimer la nécessité d’une propagation dans le sens indirect et permettra d’économiser une importante quantité de mémoire.

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

Sens de parcours pour le calcul de g

Sens de parcours pour le calcul de h

Fig. 2.59: Instants des initialisations de g et h avec f dans le cadre de l’algorithme HGW

Fig. 2.60: Rotation des blocs de taille 7 dans le cadre de l’algorithme HGW modifi´e

2.5.3.2 Architecture flot de donn´ees

Plusieurs architectures flot de données existent pour réaliser des érosions/dilatations, mais les mémoires utilisées n’ont pas une taille indépendante de la taille de l’image consi- dérée. L’architecture présentée ici reprend l’approche HGW modifiée afin de produire une architecture où la seule dépendance, en terme de taille des mémoires, est relative à la taille maximale de l’élément structurant segment considéré.

L’architecture réalisée est complètement pipeline et produit un pixel résultat par cycle, sans interruption entre le traitement de deux lignes (de même taille) d’une image. Toutes les remarques citées précédemment relatives à l’approche HGW ont été prises en compte afin d’obtenir une unité matérielle réalisant des érosions/dilatations sans erreurs sur les bords.

L’unité de propagation doit propager les pixels dans le sens vidéo en considérant la taille k de l’élément structurant, mais aussi la taille M de la ligne. La figure 2.62 présente une vue simplifiée de l’unité. Elle est composée d’un compteur modulo k et d’un compteur de pixels modulo M . Ceux-ci commandent, via un comparateur, le multiplexeur permettant la réinitialisation de la propagation lorsqu’un nouveau bloc ou une nouvelle ligne se présentent.

Fig. 2.62: Schéma simplifié de l’unité de propagation de l’architecture HGW modifiée produisant des dilatations de taille k sur des lignes de taille M

C’est sur l’unité de retournement des blocs qu’est basée la modification de l’algorithme HGW. Elle est capable de retourner des blocs de données de fa¸con pipeline avec une cadence de un pixel par cycle, c’est-à-dire sans temps mort. Le retournement des blocs fonctionne de la manière suivante : pendant qu’un bloc n est écrit dans la mémoire, le bloc n − 1 est lu dans le sens inverse. Ce mode de fonctionnement implique l’utilisation d’une mémoire double port avec d’un côté une écriture avec, par exemple, un décompteur et de l’autre une lecture avec un compteur.

Un problème subsiste lorsque M n’est pas un multiple de k (la taille de la ligne n’est pas un multiple de la taille de l’élément structurant), le dernier bloc étant plus court, la lecture de l’avant-dernier bloc n’est pas complète. Il faut gérer ce cas en écrivant dans un

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

autre ordre le dernier bloc pour qu’il puisse sortir lorsque la prochaine ligne commence. La figure 2.63 pr´esente un exemple de retournement de blocs sur deux lignes.

La gestion de la mémoire hors du dernier bloc est réalisée de sorte que lorsqu’on écrit `

a une adresse 2n_{+ x (avec x, k < 2}n_{) on lit les donn´}_{ees `}_{a l’adresse k − x. `}_{A l’arriv´}_{ee d’un}

nouveau bloc, il suffit de faire le contraire, c’est-à-dire écrire en x et lire en 2n+ k − x. Lorsque l’on arrive en bout de ligne, il faut écrire les données avec des adresses dé- croissantes. Au début de la nouvelle ligne, on reprend l’écriture de fa¸con standard, mais les dernières données de la ligne précédente doivent être lues juste avant l’écriture puis- qu’écrites dans le même espace d’adresse. La mémoire double port à lecture prioritaire garantit que lorsqu’une adresse est présentée sur le port, il est possible de récupérer la valeur indexée avant de l’écraser.

Fig. 2.63: Etat des m´´ emoires de retournement de bloc de l’architecture HGW

Sur la figure 2.64 est présentée une vue simplifiée du système de retournement de blocs. On retrouve les compteurs de pixels modulo k ainsi que l’électronique de gestion des bancs

mémoires. Les multiplexeurs permettent, lorsque le dernier bloc se présente, de changer la logique d’écriture des pixels telle que présentée aux étapes 2 et 3 de la figure 2.64.

Fig. 2.64: Sch´ema fonctionnel de l’unit´e de retournement de blocs de l’architecture HGW

La latence, engendrée par la succession de deux unités de retournement, correspond à deux blocs de taille k. Afin de présenter les pixels de g et h de fa¸con synchronisée, il est nécessaire de mettre en place une ligne à retard en sortie de la propagation produisant g. Sachant que dans le calcul de r, on accède à g(x + k₂) et à h(x − k₂), et que les pixels provenant de h arrivent deux blocs en avance par rapport à ceux de g, la taille de la ligne `

a retard doit avoir une taille équivalente à un bloc, soit k éléments.

La figure 2.65 montre comment est retardé g pour que les sorties des unités produisant g et h soient correctement synchronisées.

Fig. 2.65: Synchronisation des donn´ees de l’architectrure HGW modifi´ee

Plusieurs possibilités existent quant à la réalisation de cette unité. On peut utiliser une mémoire double port avec un port en écriture à une adresse x et un port en lecture à une adresse x + k. On peut également utiliser une mémoire simple port à lecture prioritaire avec une gestion d’adresse modulo k. Il est également possible, pour une taille maximale d’élément structurant pas trop importante, d’utiliser une mémoire distribuée sur le circuit. Ces possibilités dépendent évidemment du circuit visé (FPGA, ASIC, ...).

Les deux propagations réalisées, il est maintenant nécessaire de fusionner les pixels afin de produire le résultat de la dilatation. Cette opération suppose que les sorties pixels g

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

et h soient synchronisées. Cette unité dispose d’un compteur modulo M pour mettre en place la bonne politique de gestion des bords à chaque instant. Elle prend en entrée la taille de la ligne, le nombre de pixels à propager dans le padding et la taille de l’élément structurant. La figure 2.66 présente le schéma simplifié de cette unité. Le comparateur “Detection fin de ligne” indique lorsqu’il ne faut plus prendre en compte la sortie de g pour la ligne en cours (x + k₂ ≥ M − 1 avec x l’indice du pixel). Le comparateur “Détection padding propagé” indique jusqu’à quel indice doit être propagé le dernier maximum de g (lorsque M ≤ x +k₂ < M + PSA). Le comparateur “Détection début de ligne” sert à ne pas tenir compte de h au début d’une ligne (c’est à dire lorsque x −k₂ < 0).

Fig. 2.66: Schéma simplifié de l’unité de fusion de l’architecture HGW réalisant une dilatation

La latence de cette architecture est proportionnelle à la taille de l’élément structurant, le temps de traitement d’une image peut donc varier quelque peu. Cette latence s’exprime de la fa¸con suivante : L = 3 · k₂ · Tclk avec Tclk correspondant à la période en seconde du

système et k la taille de l’élément structurant segment.

L’architecture proposée permet de disposer des premiers pixels résultats avant que la première ligne n’ait été totalement envoyée, contrairement à la mise en œuvre matérielle de l’algorithme de Lemonnier ou même lors de l’utilisation de processeurs de voisinage standard. Cette réduction de la latence est importante lors de la cascade d’un grand nombre d’opérateurs mais également lorsque plusieurs passes dans le même système sont néces- saires.

Si des a priori sur la taille des éléments structurants sont connus, il serait très intéressant de réduire la taille des mémoires afin de diminuer fortement la taille du circuit. À titre d’exemple le circuit à une surface de 260000 portes avec des ESS de taille 1024, mais avec des ESS de taille 128, la surface du circuit tombe à 38000 portes. La figure 2.67 montre l’évolution du nombre de portes en fonction de la taille maximale k en considérant une taille de ligne de 2048 pixels. On remarque que la solution proposée est pertinente, car la surface du circuit est moindre pour des éléments structurants strictement inférieurs à la taille d’une demi-ligne.

La surface occupée par la mémoire dans ces systèmes est plus importante que la logique. C’est la raison pour laquelle une architecture capable de se dispenser de coûteuses mémoires de lignes est pertinente. Il est possible avec ce système d’augmenter à moindres coûts la taille des images pouvant être traitées tout en ayant un nombre de portes largement

Fig. 2.67: Nombre de portes en fonction du k maximal

inférieur aux architectures actuelles, pour peu qu’on limite la taille maximale de l’élément structurant au quart de la taille de la ligne.

Dans le document Architectures flot de données dédiées au traitement d'images par morphologie mathématique (Page 91-97)