Gestion d’un acc´ el´ erateur flot de donn´ ees

3.2.1 Probl`ematique

Généralement, les processeurs de voisinage sont utilisés de manière assez standard juste après un imageur pour réaliser quelques corrections sur l’image, car cette dernière est souvent bruitée en sortie du capteur. Le processeur est donc utilisé dans une mode flot de données pure où il n’est pas possible de réinjecter en entrée les calculs sortant du flot. Ce mode de fonctionnement est adapté à la mise en place d’opérations simples d’amélioration des images, mais dans notre cas, nous ciblons plutôt une utilisation de l’accélérateur pour des traitements plus complexes.

Une application de traitement d’images peut être difficilement déployable dans sa to- talité sur un flot de processeurs pour plusieurs raisons. Premièrement, l’application peut faire appel à une très grande quantité d’opérateurs et nécessiterait ainsi une surface de silicium beaucoup trop importante si elle était déployée totalement dans un flot profond d’opérateurs. Deuxièmement, la dépendance entre les données et en particulier l’utilisation d’opérateurs de réduction rend impossible le déploiement matériel complet d’une application. Un exemple est donné en figure 3.1 où la nécessité de calculer le maximum et le minimum global sur l’image nous contraint de casser le flot de calculs. Il n’est pas possible de mettre en œuvre cette application sans stocker une image intermédiaire, car le calcul du maximum global est prêt uniquement lorsque tous les pixels ont été envoyés. L’opérateur utilisant ce résultat global ne peut donc pas fonctionner en pipeline rendant impossible la mise en place complète de l’application dans un seul flot d’opérateurs.

Fig. 3.1:Normalisation d’images : le flot de calcul est interrompu par la présence d’opérations de réduc- tion

La mise en place d’un accélérateur type flot de données avec la possibilité de réaliser des stockages intermédiaires est donc impérative. Il faut ainsi prévoir l’intégration de l’accélé-

rateur dans un système plus général que l’on appellera hôte et qui est capable d’amorcer des transferts vers et depuis une mémoire de stockage des images intermédiaires.

3.2.2 Int´egration dans un syst`eme sur puce

La gestion de l’accélérateur dans un système sur puce (SoC) est un moyen simple et efficace d’intégrer un flot de processeurs de voisinage. On dispose ainsi, dans le même circuit, d’un processeur généraliste, de contrôleurs mémoires et pourquoi pas de périphériques de captures d’images autorisant une utilisation optimale de l’accélérateur. En effet, un tel système élimine les problèmes de gestion du flot de données cités dans le section précédente et permet le rebouclage des traitements.

Nous avons envisagé deux architectures fonctionnelles décrites ci-après. La première permet une intégration simple, mais conduit à une surcharge du bus principal du circuit et la seconde est plus complexe, mais permet des performances plus élevées tout en ne monopolisant pas le bus principal du processeur. En effet, la congestion du bus principal par les DMA peut être problématique surtout si le processeur accède à ses instructions et ses données en mémoire principale sans cache ni tampon.

3.2.2.1 Int´egration simple

L’objectif ici est d’intégrer l’accélérateur de la manière la plus standard possible en l’interfa¸cant directement sur le bus principal du SoC et où l’on retrouve les composants de ce dernier : processeurs, DMA, contrôleur mémoire...

La figure 3.2 présente la vue fonctionnelle du circuit. On retrouve le processeur généra- liste avec ses mémoires statiques d’instructions et de données. Cette dernière est de faible taille et doit être uniquement considérée comme une zone de travail temporaire où l’on peut stocker uniquement que quelques lignes d’une image. Le stockage des images com- plètes est assuré par la mémoire dynamique externe au circuit et deux composants sur le bus autre que le processeur généraliste peuvent y écrire des données : le DMA et la logique d’acquisition de signaux vidéo.

Une application déployée sur cette architecture se déroule de la manière suivante : une image est automatiquement acquise sur ordre du processeur généraliste et est stockée en mémoire externe. Une interruption est déclenchée lorsque cette opération est terminée. Le processeur généraliste peut alors programmer les opérations à réaliser dans l’accélérateur et orchestrer la programmation des DMA pour transmettre avec un flux le plus tendu possible l’envoi et la réception des images dans l’accélérateur. Les FIFO permettent une bonne synchronisation des données à traiter par le flot de processeurs lorsque plusieurs images sont nécessaires à une opération. Dès lors que tous les pixels sont ressortis de l’accélérateur et sont stockés en mémoire externe, le processeur peut soit passer à l’étape suivante de l’application soit demander l’acquisition d’une nouvelle image si toutes les opérations sur une trame ont été réalisées.

On remarque que ce mode de fonctionnement n’est pas optimal, car il n’est pas possible de recevoir une image venant d’une caméra et dans le même temps utiliser l’accélérateur, et ce, pour deux raisons : la mémoire externe est partagée entre l’accélérateur et le système d’acquisition vidéo et le bus du SoC est également partagé entre tous les périphériques. Un

CHAPITRE 3. CHAˆINAGE DE PROCESSEURS DE VOISINAGE

Fig. 3.2:Intégration simple d’un accélérateur type flot de processeurs dans un SoC

tel système trouve son intérêt si, d’une part, les contraintes en termes de temps de calcul des applications ciblées ne sont pas fortes et, d’autre part, si le coût du système est un facteur important, comme c’est dans le cas des applications automobiles.

3.2.2.2 Int´egration avanc´ee

Une intégration plus complexe peut être réalisée en reprenant la structure simple et en y ajoutant une mémoire pouvant contenir plusieurs images locales à l’accélérateur. Cette structure est présentée en figure 3.3. Ainsi lorsque toutes les étapes d’une opération sur une même image n’ont pu être réalisées complètement en une passe dans l’accélérateur, il est possible de stocker la ou les images en mémoire locale pour réitérer une nouvelle passe dans le flot de processeurs. Pendant ce temps le processeur généraliste est libre de l’utilisation du bus et peut très bien demander l’acquisition d’une nouvelle image sans perturber la deuxième passe de calcul dans l’accélérateur.

Cette structure est plus coûteuse à la fois matériellement, car il est nécessaire d’ajou- ter une deuxième mémoire externe ainsi que toute la logique de contrôle supplémentaire, mais également logiciellement, car l’ordonnancement des calculs sur l’accélérateur devient beaucoup plus complexe afin de paralléliser les acquisitions d’images et les traitements. On expose alors le parallélisme de gestion des images à l’utilisateur et on pourrait chercher à optimiser automatiquement cette fonction un peu comme est géré le pipeline logiciel dans les processeurs VLIW.

3.2.3 Synchronisme et gestion logicielle

La gestion logicielle d’un accélérateur type flot de données est une tâche assez fine dès que plusieurs flots de données en parallèle doivent être pris en compte. En effet, les composants de l’accélérateur situés aux mêmes étages du pipeline fonctionnent de manière

Fig. 3.3:Intégration avancée d’un accélérateur type flot de processeurs dans un SoC

synchrone et doivent traiter les pixels de mêmes indices aux mêmes instants. Ceci n’est vrai que si des échanges de flux doivent être effectués entre les composants disposés en parallèle, dans le cas contraire la gestion est assez simple et peut être considérée de la même fa¸con que lors de l’acheminement d’un flot unique de données où finalement aucune FIFO en entrée n’est nécessaire.

La figure 3.4 illustre, pour une architecture capable de traiter deux flots de données en parallèle, le cas où il est nécessaire de synchroniser les flux avant l’acheminement vers l’accélérateur et le cas où cette synchronisation n’est pas nécessaire. En effet, dans l’accé- lérateur 1, la présence d’un opérateur de soustraction relié aux deux branches parallèles réalisant une érosion et une dilatation impose que les flux présentés aux entrées E0 et E1 soient parfaitement synchrones. De manière duale, il n’est pas nécessaire pour l’accélérateur 2 de présenter des flux synchronisés aux entrées E1 et E2 puisqu’il n’existe pas d’opérateurs mettant en jeu des calculs à partir des flux des deux branches d’opérateurs.

CHAPITRE 3. CHAˆINAGE DE PROCESSEURS DE VOISINAGE

Nous allons maintenant nous placer dans le cas o`u plusieurs flots de donn´ees doivent ˆ

etre envoyés et re¸cus en parallèle puisque nous ne faisons pas d’hypothèse spécifique quant `

a la structure interne des accélérateurs et nous considérons alors le pire cas. Une barrière de synchronisation est nécessaire avant les entrées de l’accélérateur pour garantir le synchronisme des flots de données avant l’accélérateur. Nous supposons en outre que l’accélérateur ne désynchronise pas en interne les flots de données. Chaque entrée de l’accélérateur doit ˆ

etre précédée d’une FIFO stockant quelques centaines de pixels et informant le contrôleur de l’accélérateur de leurs niveaux de remplissage. En effet, dès qu’une des FIFO en entrée est vide il est nécessaire de geler l’accélérateur. Il est également impératif de placer des FIFO en sorties de l’accélérateur pour stocker momentanément les résultats des calculs. Ces dernières doivent permettre également au contrôleur de geler l’accélérateur lorsqu’elles sont pleines. Nous mettons donc en place un verrou global qui gèle l’accélérateur dès qu’une FIFO d’entrée ou de sortie est pleine. La figure 3.5 présente l’architecture de contrôle du synchronisme autour de l’accélérateur.

Fig. 3.5:Controleur d’un accélérateur multiflot de données

Ce verrou matériel simplifie grandement la gestion logicielle dédiée à l’alimentation des accélérateurs en données puisqu’il est possible d’accéder aux FIFO directement depuis un DMA programmé pour envoyer ou recevoir quelques lignes d’une image. On peut donc écrire et lire alternativement par paquet de lignes dans les FIFO sans risquer de désynchroniser les flux de données vers l’accélérateur. Le processeur généraliste se charge du contrôle et ordonne les transferts DMA pour minimiser les périodes d’inactivité de l’accélérateur. Le contrôleur tient informé le processeur soit par un mécanisme d’interruption matérielle soit en changeant l’état de registres de statut que le processeur vient consulter à intervalle régulier.

Dans le document Architectures flot de données dédiées au traitement d'images par morphologie mathématique (Page 102-106)