Propri´ et´ es des circuits asynchrones - Algorithmes de multiplication pour circuits asynchron

Les circuits asynchrones, en plus d’éviter en partie les problèmes liés

a l’utilisation d’une horloge globale, possèdent d’autres propriétés avanta-geuses :

– Haute performance.Grâce à la synchronisation locale, chaque étape de calcul dans un circuit asynchrone démarre dès que l’étape précédente est terminée, sans devoir attendre un signal d’horloge et indépendamment du pire cas. Ceci se traduit par une vitesse de traitement accrue, car ils calculent en temps moyen et non en temps de pire cas. De plus la synchronisation d’un circuit combinatoire est gérée directement par celui-ci, et plus par des éléments de mémorisation comme dans un circuit synchrone (latch et flip-flop) qui imposent des marges pour as-surer un bon fonctionnement. Cependant cet avantage peut-être en partie annulé par la génération des signaux de complétion de calcul, et il est difficile de traduire ces variations locales de temps de calcul en termes de performances globales sur le temps de calcul d’une fonction, typiquement dans un compilateur.

– Faible consommation.Contrairement aux circuits synchrones où à chaque cycle d’horloge, tous les éléments logiques du circuit évaluent leurs entrées, donc consomment, dans un circuit asynchrone chaque

elément non sollicité se placera en attente d’un jeu d’entrée valide, réduisant l’activité au minimum (activité conditionnelle bas niveau).

– Robustesse vis à vis des conditions environnementales. Alors qu’en synchrone on est obligé d’introduire dans le délai des marges de sécurité pour pallier aux éventuelles variations des conditions environ-nementales, en asynchrone aucune hypothèse n’est faite sur le délai de l’opérateur. Un circuit asynchrone est capable grâce à la synchro-nisation locale de calculer au maximum de sa capacité étant donné les variations de température, de tension d’alimentation et même les

eventuelles imperfections mat´erielles.

– Faibles émissions électromagnétiques.Les opérations locales s’ef-fectuent généralement de fa¸con aléatoire dans le temps, répartissant les impulsions électromagnétiques créées par l’alimentation d’un com-posant et lissant le spectre électromagnétique du circuit, alors que l’ali-mentation ponctuée par l’horloge de l’ensemble d’un circuit synchrone génère un spectre particulier. De plus la répartition aléatoire des ponc-tions d’énergie des portes tend à stabiliser la tension d’alimentation.

Enfin ceci permet d’augmenter la sécurité des applications de crypto-graphie embarquées vis à vis des attaques par analyse de consomma-tion (Differential Power Analysis, très dangereux contre les cartes à puce).

– Meilleure composabilité et modularité. La synchronisation lo-cale permet de considérer les éléments d’un circuit comme des boites noires faciles à déplacer et à réutiliser puisque aucune assertion n’est faite sur le délai et les conditions environnementales de fonctionne-ment.

– Plus de problème de génération, de distribution d’horloge et de course critique.Il n’y a plus de signal à distribuer simultanément dans tout le circuit, ce qui est l’un des plus gros problèmes des pro-cesseurs synchrones. Par exemple lors de la conception du processeur Alpha 21164 de DEC, plus de la moitié des effectifs de l’équipe de conception était affectée aux problèmes liés à l’horloge.

Cependant les circuits asynchrones pr´esentent aussi plusieurs inconv´enients.

Le codage double rail implique un surcoût en routage et en portes logiques, donc en surface de circuit. La recherche actuelle cherche à pallier à un manque d’outils et de stratégies de conception et de test dont souffrent les circuits asynchrones, peu répandus. Le calcul en temps variable suivant les données d’entrée complique aussi l’écriture des compilateurs destinés au calcul asynchrone.

1.6 Mes choix

Dans cette étude, nous utiliserons le modèle QDI puisqu’il est souvent possible lors de la création de circuits arithmétiques de contrôler les délais des fils pour satisfaire la condition des fourches isochrones. J’ai choisi aussi le protocole 4 phases, plus simple à mettre en place, en combinaison avec le codage double rail qui est couramment utilisé.

Le choix du codage double rail simplifie les simulations d’une part en en-codant directement le signal de requˆete dans les valeurs bool´eennes, d’autre part car ce codage garantit l’abscence de transitions parasites du signal lors de calculs.

Chapitre 2

Algorithmes de

multiplication enti` ere

La multiplication entière ou virgule fixe peut être décomposée en trois

étapes successives qui se retrouvent dans une multiplication à la main : la formation des produits partiels, la réduction du tableau des produits par-tiels et l’addition finale. La formation des produits parpar-tiels correspond à la multiplication de chaque chiffre du multiplicateur par chaque chiffre du multiplicande. C’est cette étape qui nécessite de connaˆıtre les tables de mul-tiplication, implantées par une porte AND en binaire. On obtient alors un tableau de chiffres de différents poids (lebitarray) que l’on doit additionner pour obtenir le résultat final.

Pour aller plus vite, on utilisera une notation redondante pour les r´esultats interm´ediaires.

Une représentation redondante [Avi61] est une représentation dans une base en utilisant plus de chiffre que nécessaire pour représenter tous les nombres.

Par exemple une notation en base 2 avec l’ensemble de chiffres{−1,0,1}est une repr´esentation redondante.

Cette redondance permet entre autres de réaliser l’addition sans pro-pagation de retenue, donc en temps constant, de deux nombres écrits sous forme redondante, et a fortiori d’additionner en temps constant un nombre en base normale à un résultat intermédiaire écrit sous forme redondante.

Ceci permet une réduction rapide des nombres du bitarray jusqu’à un seul résultat sous forme redondante.

On travaillera ici en carry-save, c’est-à-dire en notation redondante dans la base 2 avec l’ensemble de chiffres {0,1,2}. Chaque chiffre v d’un tel nombre sera représenté dans le circuit par deux valeurs binaires vc et vs, telles quev=vc+vs. La dernière étape est une addition classique permet-tant de convertir le résultat redondant en carry-save sous forme normale.

Addition en temps constant d’un nombre carry-savea=ac+aset d’un nombre binaire b

2.1 G´ en´ eration des produits partiels

Classiquement, on génère le bitarray simplement en multipliant le multi-plicande par chaque chiffre du multiplicateur. En binaire, cela correspond à une grillen×nde portes AND implantant la table de multiplication binaire pour chaque produit partiel.

a) g´en´eration des produits partiels binaires sans recodage pour un multiplieur4×4 b) bitarray et produit final ‘pour un multiplieur 16 bits sans recodage

Il est possible de générer un bitarray de taille réduite en recodant le mul-tiplicateur sous forme redondante de fa¸con à annuler certains de ses chiffres

a des places fixes connues. Ainsi des étages du bitarray seront toujours nuls, et on pourra les ignorer lors de la réduction. On peut ainsi d’une part réduire le coût matériel de l’étape de réduction, au prix d’un recodeur, et d’autre part gagner en temps, puisque le bitarray est additionné plus rapidement, toujours au prix du temps perdu dans le recodeur. Cette perte de temps sera moins importante dans la pratique que lors des simulations, car c’est lors de la formation des produits partiels que la sortance est la plus importante, on devra donc ajouter des circuits d’amplification qui pour le recodage seront

fondus dans le circuit de recodage. On verra qu’il faudra tester des solutions qu’habituellement on ne retient pas pour le synchrone, et qui en asynchrone pourraient ˆetre beaucoup plus avantageuses.

2.1.1 Recodage de Booth-2 [Boo51]

Ici on recode le multiplicateur en notation de type chiffre signés dans l’ensemble{−2,−1,0,1,2}, en assurant qu’au moins un chiffre sur deux soit nul, c’est à dire en éliminant un étage sur deux du bitarray pour gagner sur le coût matériel de la réduction.

Par exemple 10110001101 est recod´e en 1020¯2010¯101, on annule bien un chiffre sur deux.

Bitarray et produit final pour un multiplieur 16 bits avec recodage Booth2.

S est le signe du nombre par lequel on multiplie le multiplicande

Table de s´election des produits partiels Bits du multiplieur S´election

Ce recodage se traduira en matériel par un circuit qui d’après certains bits du multiplicateur (ici trois) sera capable en temps constant de choisir le multiple -1, 0 ou 1 du multiplicande créé au préalable. On note par la suite M le multiplicande.

Dans l’étude on suppose une notation des nombres négatifs en complément

a deux. Le bitarray obtenu voit sa hauteur ramenée à d(n+ 2)/2e (oùnest le nombre de bits du multiplicateur) et sa forme modifiée. C’est le recodage le plus souvent utilisé.

G´en´erateur avec recodage Booth2 pour une ligne du bitarray dans un multiplieur 16 bits

2.1.2 Recodage de Booth-3

Booth-3 consiste en un recodage dans l’ensemble de chiffres{−4,−3,· · ·,3,4}, et on élimine cette fois ci deux étages sur trois, soit un bitarray de hauteur d(n+ 3)/3e en analysant pour chaque étage quatre bits du multiplicateur.

Le circuit de codage est un peu plus compliqué, mais la raison pour laquelle ce recodage est rarement utilisé en synchrone est la présence du multiple trois, qui ne peut pas être obtenu avec un simple décalage du multiplicande, en temps constant. La génération de ce multiple ’difficile’ se fait à l’aide d’un additionneur supplémentaire calculant 2×x+x, qui rajoute un coût matériel correspondant à un additionneur de taille n+ 2. Grâce aux propriétés des circuits asynchrones, on espère pouvoir pallier la perte de temps induite par cette addition. En effet, l’addition en synchrone prend un temps au pire cas en O(n), voire en O(logn) pour les meilleur additionneurs, alors qu’en asynchrone le temps moyen va pour un additionneur de type propagation de retenue de O(logn) à un théorique mais peu réalisable O(log logn). En pratique on utilisera un additionneur à saut de retenue présenté dans [Tis97]

qui calcule enO(√ logn).

D’autre part, on peut aussi gagner du temps dans la partie qui, à partir du multiplicateur recodé choisit le multiple qui sera dans le bitarray. En effet, si on sait que le multiple 3M n’est pas celui sélectionné, la table de transition du AND pour un circuit asynchrone montre qu’il suffit qu’une des deux entrées soit à 0 pour que la sortie bascule à 0. On n’a pas besoin d’attendre la génération des multiples inutiles pour donner les données au bitarray, dès que les fils de sélection M, 2M et 3M ont une valeur valide. Si le multiple est 3M, on est capable en asynchrone d’utiliser chacun des chiffres du résultat aussitôt qu’il est disponible indépendamment des autres, même

s’ils ne sont pas encore calcul´es.

bitarray et produit final pour un multiplieur 16 bits avec recodage Booth3

Table de s´election des produits partiels pour Booth3

Bits du multiplieur S´election Bits du multiplieur S´election

0000 +0 1000 −4×multiplicande

0001 +multiplicande 1001 −3×multiplicande

0010 +multiplicande 1010 −3×multiplicande

0011 +2×multiplicande 1011 −2×multiplicande

0100 +2×multiplicande 1100 −2×multiplicande

0101 +3×multiplicande 1101 −multiplicande

0110 +3×multiplicande 1110 −multiplicande

0111 +2×multiplicande 1111 −0

recodeur Booth3

2.1.3 Recodage de Booth-4

On poursuit la d´emarche, cette fois ci dans l’ensemble de chiffres{−8,−7,· · ·,7,8}.

Les multiples difficiles sont ici 3, 5 et 7 (6 se d´erive de 3 par un d´ecalage en temps constant). 7 se calcule par une seule addition 8.x+ (−x), car −xest

généré en temps constant. Le bitarray sera de hauteurd(n+ 4)/4e, mais au prix d’un codeur de Booth encore plus compliqué, qui calcule toujours en temps constant, et de trois additionneurs de taillesn+ 2,n+ 3 etn+ 3 pour les multiples 3, 5 et 7 respectivement.

Je n’ai pas étudié les recodages suivants car pour Booth-5 les multiples difficiles sont 3, 5, 7, 9, 11, 13 et 15 parmi lesquels 11 et 13 nécessitent 2 additions successives.

Table de s´election des produits partiels pour Booth4

Bits du multiplieur S´election Bits du multiplieur S´election

00000 +0 10000 −8×multiplicande nombre, en carry-save la plupart du temps, car l’addition en carry-save se fait en temps constant en évitant la propagation de retenue de l’addition classique. Le travail sur cette étape consiste à trouver l’organisation des cellules full adder qui permettra la réduction la plus rapide du bitarray. De nombreuses tactiques existent qui sont développées depuis les années 60.

2.2.1 R´eseau cellulaire de Braun [Bra63]

C’est le réseau le plus simple, qui correspond à la méthode ’à la main’ :

a chaque ´etage, on ajoute `a l’accumulateur un nouveau produit partiel.

Il en résulte un réseau extrêmement régulier à la fois du point de vue du placement des cellules et du routage. Cependant, les produits partiels sont générés simultanément alors qu’ils sont additionnés successivement, ce qui veut dire que les derniers produits additionnés ’attendent’ pour être ajoutés au résultat intermédiaire. Cette tactique est très adaptée pour une implémentation itérative, mais reste trop lente pour une multiplication haute performance.

un r´eseau de Braun pour une multiplication 5 bits

2.2.2 M´ethode de Wallace [Wal64]

De manière générale, on va privilégier des réductions sous forme arbo-rescente plus rapides qui équilibrent les délais en additionnant ensemble les résultats intermédiaires du bitarray de fa¸con plus judicieuse que Braun : on va additionner ensemble les bits sortant du générateur de produits partiels, disponibles au temps t, puis les résultats de ces additions, au temps t+ 1 et ainsi de suite. Chaque étage ainsi constitué réduit trois nombres en deux (soit un nombre carry save), donc réduit la hauteurhdu bitarray à d3h/2e.

La hauteur de l’arbre de réduction est proportionnelle au logarithme de la taille des opérandes, avec un temps constant pour la traversée de chaque

étage. Le calcul en parallèle permet d’avoir une réduction du bitarray en tempsO(logn) contreO(n) pour un réseau de type Braun.

Une première méthode, proposée par Wallace, utilise des structures ap-pelées arbres de Wallace, qui sont en fait des compteurs : un arbre de Wallace 3 est un full adder, qui prend 3 bits de poids 0 et rend deux bits de poids 0 et 1 correspondant à la somme des bits d’entrée. Il est possible de créer un arbre de Wallace de n’importe quel ordre en composant des full adders et des half adders. Ces arbres calculent la somme de leurs bits d’entrée en temps logarithmique.

a) Arbre de Wallace 3 (Full-adder) b) Arbre de Wallace 5

c) Arbre de Wallace 5 compos´e d’arbres de Wallace 3

Historiquement, un multiplieur de Wallace est un multiplieur composé de sous multiplieurs 4×4 produisant un bitarray qui sera réduit par des arbres de Wallace. Pour que cette solution soit avantageuse, il faut bien entendu que les petits multiplieurs soient implantés directement en matériel.

Multiplieur de Wallace 16 bits

Sémantiquement l’arbre de Wallace réduit les produits partiels du bitar-ray ’au plus tôt’.

2.2.3 M´ethode de Dadda [Dad76]

A l’oppos´` e, la méthode de Dadda profite du fait que l’on connait le taux de compression maximum d’un étage (soitd3h/2e) pour minimiser le nombre de composants utilisés : Sachant que d’une hauteur de bitarray de 9 on va

réduire jusqu’à une hauteur de 6, on va faire ’le minimum’ pour obtenir une hauteur de 6. En appliquant cette tactique ’au plus tard’, on assure de minimiser le coût matériel.

a) r´eductions successives du bitarray par la m´ethode de Dadda pour un multiplieur 5 bits

b) Circuit de l’additionneur obtenu [Mul89]

2.2.4 M´ethode d’Oklobdzija

Oklobdzija a présenté dans [Okl95] et [Okl96-2] une méthode algorith-mique pour obtenir l’arbre de réduction de délai minimum : à chaque produit partiel du bitarray on associe sa date théorique de génération, et on cherche

a additionner ces bits en privilégiant ceux qui sont générés le plus tôt. Il en découle deux nouveaux produits, après un temps égal au délai d’une cel-lule full adder, que l’on ajoute dans le bitarray. En réalisant ainsi l’arbre de réduction jusqu’à n’avoir plus que deux bits au maximum de chaque poids, soit un résultat en carry-save, on assure avoir minimisé le temps de réduction.

2.3 Addition finale

Le résultat de l’étape de réduction est un nombre en carry-save, soit deux nombres binaires qu’il reste à additionner pour obtenir le résultat final. Pour optimiser cette étape, on veut adapter l’addition finale au profil temporel d’arrivée des bits de différents poids afin de réaliser l’addition le plus vite possible. En synchrone, c’est un problème difficile qu’on résout souvent en composant plusieurs types d’additionneurs [Okl96-1], typiquement un addi-tionneur lent du type propagation de retenue, puis un addiaddi-tionneur rapide, généralement à anticipation de retenue et enfin un additionneur à sélection de retenue qui peut anticiper la retenue sortante de l’étape précédente.

En asynchrone par contre, il est possible d’anticiper les retenues lorsque deux des trois bits additionnés sont identiques : si ils valent 0, la retenue vaudra toujours 0, et réciproquement pour 1. C’est cette propriété qui per-met de passer d’un temps enO(n) en calcul synchrone pour l’additionneur à

propagation de retenue `a O(logn) de temps de calcul moyen en asynchrone.

En brisant cette chaˆıne de dépendance aux retenues précédentes, on arrive

a un profil d’arrivée en sortie de l’additionneur où tous les bits arrivent en même temps, alors qu’en synchrone les bits de poids fort arrivent après les bits de poids faible. Il n’est pas utile de composer plusieurs additionneurs de types différents, un seul suffit.

On pr´esente dans l’´etude deux additionneurs asynchrones : l’additionneur

a propagation de retenue (Ripple-carry-adder, RCA) modifié pour le calcul asynchrone, capable calculer les retenues au plus tôt, et l’additionneur à saut de retenue présenté par Tisserand dans [Tis97] (Carry-skip-adder, CSkA), capable de calculer en O(√

logn). Ces deux additionneurs sont suffisants, car les additionneurs asynchrones plus rapides, capables de calculer jusqu’à une vitesse de O(log logn) [Che00], sont compliqués à implanter et ne sont pas rentables pour des tailles d’opérandes courantes à cause des grandes constantes devant le terme log logn.

Structure d’un additionneur Carry-Skip

Chapitre 3

Protocole exp´ erimental

Dans un premier temps, je vais comparer les différents algorithmes sui-vant la vitesse et la taille de l’opérateur obtenu. Pour des tailles d’opérandes réalistes, de 8 à 64 voire 128 bits, la complexité asymptotique n’est pas intéressante et j’ai plutôt choisi de réaliser des simulations proches du matériel.

Dans un deuxième temps, j’ai proposé un nouvel algorithme dérivé du réseau de Braun, et des modifié les algorithmes existants pour les adapter au calcul asynchrone.

La contrainte de taille est elle aussi importante, puisque non seulement de grands circuits coûtent plus cher en raison de la surface de silicium occupée, mais aussi parce qu’un circuit plus grand a plus de chance d’être défectueux lors de sa fabrication.

Une dernière grandeur à prendre en compte est la consommation d’énergie, puisque celle-ci influe sur l’autonomie des appareils portables qui devient de plus en plus critique avec l’évolution des technologies. Pour des circuits double rail non itératifs tels que ceux considérés ici, chaque cellule réalise exactement une transition sur chacune de ses sorties quelles que soient les valeurs d’entrée. La consommation dépend donc directement du nombre de

Dans le document Algorithmes de multiplication pour circuits asynchrones (Page 12-0)