Conclusion - Architectures flot de données dédiées au traitement d'images par morphologie mathé

Nous avons montré ici une grande partie des calculs atomiques nécessaires en traitement d’image par morphologie mathématique. Ces opérateurs ne constituent pas une fin en soi et sont bien souvent une brique élémentaire d’opérateurs plus complexes.

De nouvelles structures de processeurs ont été proposées, comme des extracteurs de voisinages parallélisés où l’on dispose de N voisinages par cycles. Ce principe permet de voir les processeurs de voisinage sous un autre jour, car il est maintenant possible d’aug- menter très fortement la puissance de calcul en considérant des bus mémoires plus larges. La nature très répétitive des calculs de base en morphologie mathématique est donc une véritable aubaine pour les systèmes considérant non plus une fréquence élevée de fonction- nement, mais plutôt un parallélisme massif. En effet, nous voyons apparaˆıtre aujourd’hui des mémoires dédiées aux cartes graphiques avec des débits de l’ordre de 150Go/s avec des mots de 512 bits. Si un processeur de voisinage parallélisé était capable d’exploiter ce débit mémoire, il serait possible de calculer 77672 érosions sur des images en résolution 1920 × 1080 en une seconde, soit un temps de calcul de 13µs par érosion. Bien sûr ce calcul semble décorrélé de la réalité, mais montre qu’une évolution possible du traitement d’image par morphologie mathématique est de considérer uniquement les opérations de base s’ap- puyant sur des mises en œuvre extrêmement véloces. Ceci dans le but de réaliser toutes les autres opérations comme des SKIZ où même des lignes de partage des eaux niveau par niveau.

La problématique majeure se dégageant de ce chapitre est l’inexistence d’une unité de calcul pouvant réaliser toutes les opérations décrites ici. Ces unités peuvent être très simples comme assez complexes, mais toujours limitées à un certain nombre d’opérations.

CHAPITRE 2. PROCESSEURS DE VOISINAGE FLOTS DE DONN ´EES

Il peut exister aussi plusieurs fa¸cons plus ou moins standard de réaliser un calcul, nous avons d’ailleurs déjà abordé ce sujet lors de la description des opérateurs géodésiques où plusieurs stratégies s’offraient à nous pour réaliser des reconstructions géodésiques. Nous avons montré qu’il était possible de réaliser une itération d’une reconstruction géodésique avec un seul processeur. Il est nécessaire dans ce cas d’employer une structure de processeur de voisinage très spécifique comportant à la fois des lignes à retard pour l’extraction des voisinages du marqueur et des lignes à retard pour acheminer le masque jusqu’à l’unité de calcul. Toutefois cette structure sous-exploite largement la logique présente dès lors que l’on réalise d’autres opérations comme de simples érosions. Il est alors préférable de privilégier une structure plus souple et d’utiliser plusieurs processeurs de voisinage raccordés en série et en parallèle via des ALU afin de réaliser la majeure partie des opérations décrites dans ce chapitre. Nous disposerions alors d’un pipeline plus ou moins profond où l’on pourrait chaˆıner des opérations basiques pour en construire de plus complexes.

Un problème subsiste concernant le choix des unités de calcul que l’on doit embarquer dans les processeurs de voisinage afin de réaliser un maximum de calculs. Les unités de tri seraient de bons candidats à la standardisation de notre structure de pipeline de processeurs de voisinage puisqu’il est possible de réaliser tous les filtres de rang. Cependant, la taille de ces unités, même réduites au maximum, est un frein à leur adoption. De plus, un des objectifs du pipeline peut être la construction de filtres avec des noyaux de grandes tailles décomposés sur un grand nombre de processeurs, or ce type de décomposition ne fonctionne d’une part que pour certains éléments structurants et d’autre part, qu’avec les érosions et les dilatations. Dans ce cas il est inutile de disposer de filtres de rang dans tous les étages du pipeline.

Nous avons analysé dans le détail les différentes structures de processeurs de voisinage et nous venons de formuler quelques propositions concernant leur chaˆınage en vue d’obtenir une amélioration significative des performances. Ce chapitre se situe à une échelle plutôt microscopique et nous allons passer, dans le chapitre suivant, à une échelle macroscopique. C’est-à-dire que nous allons cette fois analyser, sans se préoccuper de la structure interne d’un processeur, le chaˆınage d’opérateurs câblés dans des pipelines statiques et dynamiques, ceci dans le but de toujours répondre au mieux aux besoins applicatifs tout en garantissant une meilleure généricité des architectures proposées.

Chapitre 3

Chaˆınage de processeurs de voisinage

Les flots de processeurs de voisinage permettent d’exécuter les opérations élémentaires de morphologie mathématique de manière très efficace. Le nombre volontairement réduit d’opérations réalisables par processeur permet d’en limiter la surface et autorise leurs chaˆı- nages dans des flots profonds de processeurs. On peut alors construire des opérateurs complexes puisque le corpus théorique de la morphologie mathématique repose principalement sur la composition d’opérations basiques qui sont prises en charge par nos processeurs de voisinage.

Se pose alors le problème de la généricité du flot de processeurs, car le traitement opéré par les briques de calcul reste à un grain architectural assez élevé. Il peut être alors difficile de trouver une structure unique autorisant la réalisation de toutes les opérations de morphologie mathématique. Un autre paramètre du flot de processeurs est donc à prendre en compte, comme la régularité. Nous devons nous demander s’il est nécessaire de découper le flot de processeurs en plusieurs étages ayant une structure identique. En effet, un flot régulier est principalement avantageux dans le cas où l’architecture est fondue dans un circuit non reconfigurable, car il est possible de disposer d’un système plus souple, mais pas toujours optimal vis-à-vis de l’application. De la même manière, un flot profond de processeurs peut être difficile à employer, car l’application n’est pas toujours simplement distribuable sur ce dernier dans son ensemble, principalement à cause de dépendances entre les données. Il convient donc dans le cadre d’une structure régulière de bien analyser les contraintes des applications ou du domaine visé afin de correctement dimensionner la profondeur et la topologie du flot de processeurs.

Une alternative à une structure fixe des différents étages d’un flot de processeurs de voisinage consiste, dans le cadre de l’utilisation de circuits reconfigurables, à décrire la structure du flot de fa¸con spécifique pour chacune des étapes de l’application afin de toujours disposer du matériel le plus efficace. On peut alors cibler un circuit à grain fin comme un FPGA afin d’y mettre en place la reconfiguration dynamique des accélérateurs. Toutefois, nous pouvons également mettre en place une reconfiguration avec un grain beaucoup plus important en essayant de fusionner toutes les descriptions des accélérateurs d’une ou plusieurs applications pour en générer une unique dont les ressources les plus consommatrices sont mutualisées et où les chemins de données nécessaires sont ajoutés.

Nous allons tout d’abord dans ce chapitre décrire comment mettre en œuvre un flot de processeurs et donc décrire la structure d’un système hôte capable de piloter un accélérateur

type flot de données à plusieurs entrées sorties. Une fois les bases du système hôte détaillées, nous pourrons ainsi mieux comprendre, dans une seconde partie, les limitations que l’on peut rencontrer en procédant à une description manuelle du flot de processeurs et qui orientent quelque peu la composition de l’accélérateur vers une structure visant la généricité pour des raisons de temps de développement. Nous terminerons ce chapitre, dans une troisième partie, par une présentation d’un système de description de haut niveau des flots de processeurs facilitant la mise en place de structures très particulières et optimales pour chaque opération avec des possibilités de fusion de différents accélérateurs.

3.1 Avant propos

Nous allons aborder trois aspects différents dans ce chapitre. Nous allons commencer par décrire comment s’insère un accélérateur flot de données au sein d’un circuit généraliste et en particulier comment réitérer avec les mêmes données plusieurs passes de calcul dans un accélérateur flot de données. En effet, ce dernier point est crucial dans le cadre du traitement d’image et en particulier dans le cadre de la morphologie mathématique car, c’est en agrégeant une grande quantité de traitements simples que l’on peut réaliser des applications complexes. L’interfa¸cage générique d’IP flots de données, tel que celui proposé par Fraboulet & Risset [30], permet de disposer d’une interface simple et évolutive en termes de nombre de flots de données vers l’accélérateur.

Une fois la problématique d’utilisation d’un flot de processeurs au sein d’un SoC traitée, nous pourrons d’abord proposer quelles options nous avons à notre disposition pour rendre plus souple d’utilisation et plus versatile un SoC composé d’un pipeline d’opérateurs flots de données. Nous détaillerons ici à la fois les aspects liés à la description manuelle d’un pipeline, aux différents niveaux de granularité de reconfiguration envisageable ainsi qu’à la description de haut niveau.

La description de haut niveau est là pour fournir un moyen simple d’agréger les composants de bases d’un étage de flots de processeurs que nous appellerons pattern. En effet, un pattern est une agrégation de composants tels que des processeurs de voisinage, des unités arithmétiques, des unités de seuillage ou bien encore des multiplexeurs. L’agencement de ces composants via un outil de haut niveau permet d’accélérer le développement de pipelines spécifiques à des applications. Nous ciblons majoritairement les circuits FPGA disposant d’une capacité de reconfiguration dynamique partielle [74], mais le travail pro- posé ici pourrait être utilisé sur des architectures types ambric [20] composées de centaines de coeurs de processeurs simples reliés entre eux via des interconnexions programmables et utilisant un modèle de programmation orienté composant.

Des outils tels que Gaut [21], dont l’objectif principal est de synthétiser des IP maté- rielles à partir d’un langage tel que le C, peuvent être utilisés afin de générer simplement l’agencement des composants dans un pattern. Nous avons toutefois décidé de spécifier plus simplement un pattern afin de valider les concepts de fusion. Cette technique est inspirée de ce que l’on peut trouver aujourd’hui dans le monde des ASIP lorsque plusieurs descriptions matérielles d’instructions spécialisées sont fusionnées pour mutualiser les ressources disponibles sur le silicium [17], [58], [85], [84]. Ce principe, appelé Compound Circuit, a été mis en place, à une granularité plus élevée, au niveau des patterns servant à la description

CHAPITRE 3. CHAˆINAGE DE PROCESSEURS DE VOISINAGE

d’un pipeline d’opérateurs flot de données et permet de mutualiser les ressources. Cette technique permet de disposer de toutes les opérations proposées par les différents pipelines au sein d’un unique accélérateur de taille réduite.

Dans le document Architectures flot de données dédiées au traitement d'images par morphologie mathématique (Page 97-102)