Le meilleur rapport complexit´ e-performance

4.7 D’autres choix sont possibles

4.7.3 Le meilleur rapport complexit´ e-performance

Le principal problème de l’architecture précédente est la longueur du chemin critique due à la mise à jour de ces récursions en un seul cycle. Pour casser ce chemin critique et augmenter la fréquence du processeur, il faudrait pouvoir intercaler plusieurs instructions entre deux instructions pour un calcul récursif, de sorte que les registres de récursions puissent être mis `

a jour. En se basant sur cette idée, le présent processeur utilise 3 étages d’exécution pour réaliser l’opérateur ACSCS d’une récursion double binaire (plus un quatrième pour les calculs d’information) et séquentialise dans une instruction sur trois cycles les trois calculs BCJR (figure 4.8). L’instruction multi-cycle réalise dans l’ordre : la récursion retour, la recursion aller, puis la génération de l’information extrinsèque. Ainsi, les registres de la récursion retour seront à jour à l’issue de l’instruction pour recommencer une nouvelle instruction et les registres de la récursions aller seront à jour à l’issue du premier cycle de l’instruction suivante Notons qu’un retour des registres de pipeline (bypass en anglais) est utilisé à la sortie du premier étage d’exécution pour permettre durant le troisième cycle (celui de la génération d’information extrinsèque) de réutiliser les métriques obtenues lors du deuxième cycle (i.e. les sommes α + γ de chaque transition).

4.8. CONCLUSION 93

A

CS

EX1

EX2

EX3

EX4

A

CS

EX1

EX2

EX3

EX4

Figure 4.8 — Pipeline de l’ASIP sans parall´elisme de calcul BCJR

de la génération des métriques de branches. C’est pourquoi il faut également casser l’étage BM en 3 étages BM1, BM2 et BM3 où les deux premiers étages génèrent la partie des métriques de branches provenant du canal tandis que le dernier étage y ajoute l’information extrinsèque a priori. De cette manière le paramètre cpipe ext, permettant d’évaluer l’architecture pour

un décodage combiné efficace, vaut 9 puisqu’une information extrinsèque traverse alors les ´

etages OPF, BM1, BM2, BM3, EX1, EX2, EX3, EX4 et ST. Avec 3 cycles nécessaires pour générer une information extrinsèque (#cycle ext), ce processeur inflige au décodage combiné un temps de propagation supérieur à 3,67 (c.f. équation 4.4). En revanche, ces avantages sont nombreux puisqu’on peut raisonnablement atteindre un fréquence de 600 MHz, soit un débit de 400Mbps, avec une réduction de complexité de l’ordre de 25% grâce à l’utilisation d’une unique unité de calcul BCJR.

4.8 Conclusion

Ce chapitre présente la conception d’un processeur dédié à l’algorithme BCJR tel qu’il est utilisé dans les turbocodes. La première étape de conception consiste à analyser les besoins en flexibilité et en performance, notamment grâce à l’étude du parallélisme du chapitre 3. Cette ´

etape se conclue par des décisions de conception donnant une idée globale de l’architecture. Dans le cas présenté, l’architecture de l’ASIP met en oeuvre le parallélisme du premier niveau de la classification en tant que parallélisme d’instruction tandis que le parallélisme des deux autres niveaux est considéré comme du parallélisme de tâche. Ainsi l’ASIP intègre deux unités de récusions pouvant traiter chacune jusqu’à 32 transitions de manière pipelinée. Il intègre également des interfaces spécifiques pour gérer les échanges d’information entre les tâches, c’est-à-dire les valeurs d’initialisation par passage de message pour l’exploitation du parallélisme de sous-bloc et les informations extrinsèques pour l’exploitation du parallélisme de décodeur composant. Pour ce dernier, l’influence de la longueur du pipeline du processeur a été mise en exergue, impliquant le choix d’un pipeline court de 6 étages. Le pipeline ainsi que la stratégie de contrôle sont également présentés et complétés par une description du jeu d’instruction de l’ASIP.

Outre l’architecture de l’ASIP, le chapitre s’attache aussi à évaluer les performances et la complexité du processeur et montre, par comparaison avec des implantations existantes, la pertinence de la solution proposée, puisque le processeur présente des performances proches des solutions complètement dédiées, tout en préservant une flexibilité lui assurant le sup- port de l’ensemble des standards existants. En guise de perspectives et en cherchant d’autres compromis performance-architecture, le chapitre présente d’autres solutions architecturales libérées de la contrainte de pipeline court imposée pour maximiser les performances du décodage combiné.

La prise en compte de contraintes sur la conception des interfaces de communication entre tâches font de l’ASIP décrit dans ce chapitre un candidat idéal pour son intégration dans une plate-forme multiprocesseur flexible et performante. C’est pourquoi ce processeur sera la base constituante de la plate-forme multiprocesseur présenté dans le prochain chapitre.

CHAPITRE

5

Plate-forme multiprocesseur

pour turbo-d´ecodage

haut-d´ebit

P

OUR atteindre des très haut-débits tout en conservant la flexibilité, le recours à une architecture multiprocesseur est impératif. Seul, un processeur, même extrêmement spécialisé `

a une application comme celui présenté au chapitre précédent, voit son débit limité car il n’exploite que le parallélisme d’une tâche à la fois. L’étude sur le parallélisme des turbocodes convolutifs développée au chapitre 3 a révélée un fort intérêt pour le parallélisme de tâches lorsque les tâches sont des décodeurs SISO BCJR. Ainsi l’utilisation de ce parallélisme de tâche s’impose naturellement pour constituer une plate-forme multiprocesseur.

Ce chapitre présente une plate-forme multi-ASIP de sa description jusqu’à son prototypage sur une carte d’émulation. Dans un premier temps, la plate-forme multiprocesseur est décrite au travers des choix de composants, d’organisation de ces composants, en insistant plus particulièrement sur les réseaux de communication et la gestion des mémoires. Les performances de cette plate-forme sont ensuite discutées autour des métriques débit et surface et comparées aux architectures existantes. Finalement, le chapitre se termine sur la présentation du flot de prototypage qui a permis de mettre en oeuvre cette plate-forme sur une carte à base de circuits FPGA et d’en valider le fonctionnement.

5.1 Organisation de la plate-forme multiprocesseurs

Selon la classification établie dans le chapitre 3, pour paralléliser un turbocode convolutif, il est possible d’exploiter le parallélisme des métriques BCJR, le parallélisme de décodeur BCJR-SISO et le parallélisme de turbo décodeur. Au vue de l’étude d’efficacité menée au chapitre 3, le parallélisme de turbo-décodeur n’a pas été retenu. Pour exploiter au mieux le parallélisme des métriques BCJR, nous proposons d’utiliser l’ASIP présenté dans le chapitre 4. Les travaux présentés dans ce cinquième chapitre exploitent uniquement le parallélisme de décodeur BCJR-SISO, c’est-à-dire le parallélisme de sous-bloc et le parallélisme de décodeur composant, par la proposition d’une plate-forme multi-ASIP. Dans ce contexte, il convient maintenant de s’interroger sur la gestion des ressources au sein de la plate-forme, notamment sur comment répartir les tâches (i.e. les décodeurs BCJR-SISO) sur les ASIPs, comment les faire communiquer entre elles et comment organiser les plans mémoires.

Dans le document Architectures multiprocesseurs monopuces génériques pour turbo-communications haut-débit (Page 111-115)