Assurer les performances - Vers un turbo-d´ ecodeur convolutif flexible

4.2 Vers un turbo-d´ ecodeur convolutif flexible

4.2.2 Assurer les performances

Comme décrit dans le chapitre 3, le parallélisme au niveau des métriques BCJR est le seul niveau de parallélisme situé à l’intérieur d’un décodeur BCJR-SISO. Nous avons vu par ailleurs que ce niveau de parallélisme maximise le critère débit-complexité. Ainsi, un processeur voulant atteindre le haut débit se doit d’exploiter au mieux tout ce parallélisme.

D’après les décisions prises pour la flexibilité du codeur dans la section précédente, un degré de parallélisme égal à 32 permet d’exploiter totalement le parallélisme de transition de treillis (section 3.1.1.1) pour tous les standards. En outre, nous avons décidé d’organiser ce parallélisme de manière à optimiser les performances d’un code double binaire 8 états en veillant à conserver la flexibilité pour l’ensemble des autres codes.

Pour les turbocodes simple binaire disposant d’un degré de parallélisme de transition de treillis inférieur à 32, l’exploitation sous-optimale du parallélisme de transition de treillis peut être améliorée en recourant à la technique de compaction de treillis [92] [123]. Le principe de la compaction de treillis consiste à regrouper plusieurs sections consécutives du treillis initial pour ne former qu’une section du treillis compacté. Par exemple, il est possible de compacter le treillis d’un code convolutif simple binaire 8 états en un code convolutif double binaire 8 ´

etats, qui maximise l’utilisation des ressources mises en parall`ele.

Pour les turbocodes disposant d’un degré de parallélisme de transition de treillis supérieur à 32, tels qu’ils pourraient apparaˆıtre dans de futurs standards, le treillis peut être décomposé en sous-sections ayant un degré de parallélisme 32. Ces sous-sections pourront ensuite être traités séquentiellement.

Au vue du parallélisme des calculs BCJR (section 3.1.1.2), nous avons choisi d’intégrer seulement deux unités alors que trois ou quatre unités auraient été nécessaires pour complètement paralléliser tous les schémas de décodage BCJR. De part ces bonnes performances, le schéma de décodage papillon a été retenu comme schéma de référence. Or, l’utilisation de quatre unités de calculs BCJR avec un schéma papillon conduit à une sous-

4.2. VERS UN TURBO-D ´ECODEUR CONVOLUTIF FLEXIBLE 79

utilisation des unités, car les unités servant à produire les informations extrinsèques ne sont utilisées que la moitié du temps. En revanche, deux unités suffisent à maximiser l’activité des unités de calculs BCJR. Dans ce cas, les unités doivent traiter séquentiellement récursions et production d’informations extrinsèques dans la seconde moitié du schéma.

Les décisions qui viennent d’être décrites fixent les performances maximum de l’ASIP qui sont évaluées dans la suite de ce chapitre. Cependant ces performances risquent d’être insuffisantes pour l’ensemble des utilisations. Dans ces cas, une architecture multiprocesseur est indispensable et l’ASIP doit être con¸cu de manière à favoriser l’exploitation du parallélisme de décodeur SISO BCJR.

Concernant le parallélisme de sous-bloc, la principale contrainte réside dans la capacité de l’ASIP à initialiser les métriques de récursions. Or la gestion de multiples fenêtres impose déjà à l’ASIP des mécanismes d’initialisation. Ce dernier doit simplement intégrer en plus des interfaces lui permettant de recevoir des initialisations depuis l’extérieur, i.e. depuis d’autres ASIPs.

Pour implanter efficacement le parallélisme de décodeur composant au travers du décodage combiné, le temps de propagation tp d’une information extrinsèque doit être le plus faible

possible par rapport à sa période d’émission te. En se basant sur les simulations exposées par

exemple sur la figure 3.17 (avec des trames de 752 symboles), on peut estimer l’accélération apportée par le décodage combiné à l’ASIP. Ainsi elle est représentée sur cette figure dans la zone où les degrés de parallélisme sont supérieurs à 12 ce qui correspond à des tailles de sous-bloc inférieure à 64 symboles (taille maximum de sous-bloc pour le processeur). Dans cette zone, l’accélération apportée par ce parallélisme s’affaiblit fortement lorsque le temps de propagation devient supérieur à trois temps d’émission. On tâchera donc de respecter l’inégalité suivante pour mettre en oeuvre efficacement le décodage combiné :

≤ 3 (4.1)

Dans le cas d’une mise en oeuvre sur un processeur, on peut écrire ce ratio en fonction du temps tréseau nécessaire pour mettre à jour une information extrinsèque entre deux pro-

cesseurs au travers d’un réseau d’interconnexion, du nombre de cycles d’horloge #cycle ext du processeur pour exécuter le programme d’un calcul d’information extrinsèque, de la pro- fondeur du pipeline cpipe ext entre l’étage d’entrée pour une information extrinsèque et son

etage de sortie, et de la fr´equence de fonctionnement du processeur f :

tp= tr´eseau+

cpipe ext− 1 + #cycle ext

f (4.2) te= #cycle ext f (4.3) tp te = tr´eseau.f #cycle ext+ cpipe ext− 1 #cycle ext + 1 (4.4)

Réécrit ainsi l’équation de contrainte 4.1 impose : cpipe ext− 1

Vue comme une contrainte de conception, cela impose de concevoir un processeur avec un pipeline plutôt court (au moins pour les chemins de données des informations extrinsèques) tout en morcelant en plusieurs instructions le calcul d’une information extrinsèque. Dis au- trement, cette décision réduit un peu les performances du processeur car elle impose une exploitation sous-optimale du parallélisme d’instruction (ou temporel) des calculs BCJR. Une exploitation optimale de ce parallélisme, comme c’est le cas dans l’ASIP proposé dans [119], conduirait à un ratio tp

te supérieur à 8 rendant peu efficace l’utilisation d’un parallélisme de décodeur composant. Outre un décodage combiné efficace, la contrainte de conception a aussi l’avantage d’imposer une architecture de processeur plus facilement extensible, puis- qu’elle impose un pipeline court et donc moins contraignant sur le parallélisme temporel d’applications d’extension.

Dans le document Architectures multiprocesseurs monopuces génériques pour turbo-communications haut-débit (Page 97-99)