Algorithmes de multiplication pour circuits asynchrones

(1)

Algorithmes de multiplication pour circuits asynchrones

Nicolas VEYRAT CHARVILLON f´evrier-juillet 2004

R´esum´e

L’utilisation de circuits asynchrones permet la réalisation d’opérateurs à délais variables. Contrairement aux circuits synchrones où le délai d’un opérateur est constant et égal au délai du chemin critique plus une marge de sécurité, la synchronisation locale bas niveau des circuits asynchrones permet à un opérateur de fournir un résultat à la vitesse maximale permise par la matériel pour le jeu de données fourni en entrée. Ces circuits peuvent donc dans certains cas être plus performants en termes de vitesse que les circuits synchrones. Ils possèdent de plus plusieurs propriétés intéressantes que nous détaillerons plus loin. Au cours de ce stage j’ai étudié les algorithmes de multiplication entière pour les circuits asynchrones dans le but d’en maximiser les performances en termes de vitesse/surface.

(2)

Remerciements

Je remercie tout d’abord Arnaud qui a dirig´e mon stage de DEA et a eu la patience de supporter toutes mes questions.

D’autre part je voudrais remercier toute l’équipe du LIP et d’Arénaire pour leur accueil chaleureux, leurs conseils et leurs discussions au coin café.

(3)

Table des mati` eres

Introduction 4

1 Circuits Asynchrones 6

1.1 Généralités . . . 6

1.2 Classification des circuits asynchrones . . . 8

1.3 Protocoles de communication . . . 8

1.3.1 Protocoles 2 et 4 phases . . . 8

1.3.2 Codage des donn´ees . . . 9

1.4 Cellule de Muller . . . 11

1.5 Propri´et´es des circuits asynchrones . . . 12

1.5 Mes Choix . . . 13

2 Algorithmes de multiplication entière 14 2.1 Génération des produits partiels . . . 15

2.1.1 Recodage de Booth-2 . . . 16

2.2 R´eduction des produits partiels . . . 19

2.2.1 R´eseau cellulaire de Braun . . . 19

2.2.2 M´ethode de Wallace . . . 20

2.2.3 M´ethode de Dadda . . . 21

2.2.4 M´ethode d’Oklobdzija . . . 22

2.3 Addition finale . . . 22

3 Protocole exp´erimental 24 3.1 Hypoth`eses de travail . . . 24

3.2 Le simulateur . . . 25

3.3 Modification des algorithmes . . . 26

3.3.1 Modification de la m´ethode d’Oklobdzija . . . 26

3.3.2 Modification du r´eseau de Braun . . . 27

4 R´esultats et analyse 28 4.1 Les tests . . . 28

4.2 Simulation et r´esultats . . . 28

4.3 Analyse des r´esultats . . . 31

5 Conclusions et perspectives 33 5.1 Conclusion sur la multiplication asynchrone . . . .33

5.2 Travail restant `a faire . . . .33

Bibliographie 34

(4)

Introduction

L’opération de multiplication est très largement utilisée dans les ordinateurs, non seulement lors de calculs arithmétiques explicites dans les pro- grammes, mais aussi dans le calcul des fonctions élémentaires (fonctions tri- gonométriques par exemple) lors d’évaluations de polynômes à l’aide d’un schéma de Hörner notamment.

Enfin dans des architectures de type Itanium, on utilise un seul opérateur dérivé d’un multiplieur, lefused multiply and addcalculant a×x+b, pour toutes les opérations arithmétiques [Mar00], dont la division et la racine carrée. Ceci prouve la nécessité d’un opérateur de multiplication rapide.

La prolifération des applications embarquées, par exemple les téléphones, consoles portables et assistants personnels soulève le problème de l’autonomie. De ce point de vue les circuits synchrones ont un réel handicap : à chaque cycle d’horloge, tous les éléments logiques du circuit évaluent leurs entrées, donc consomment, même s’ils ne sont pas sollicités. Par contre, un circuit asynchrone non sollicité se placera en attente d’un jeu d’entrée valide, ce qui pour des technologies type CMOS (Complementary Metal Oxyde Semiconductor, les circuits les plus courants dans les ordinateurs actuels) consomme beaucoup moins d’énergie (on n’a pas de transitions, donc pas de courant de court-circuit, seulement un courant de fuite qui reste très faible en comparaison).

La notion de circuits asynchrones est présente dès les tous premiers systèmes informatiques, puis a laissé peu à peu place aux circuits synchrones.

Dans les circuits synchrones, c’est un signal d’horloge distribué dans l’ensemble du circuit qui cadence les opérations. Le fonctionnement est ainsi plus facile à analyser et à assurer. Malheureusement, l’évolution des processeurs, qui suit toujours la loi de Moore, fait doubler la vitesse des processeurs environ tous les 18 mois, imposant une distribution de plus en plus précise du signal d’horloge à travers des processeurs dont la taille augmente de surcroˆıt. Cette distribution devient réellement problématique et coûteuse en termes matériels et humains lors du développement, car il faut résoudre de nombreux de problèmes de course critique du signal, de routage et de consommation de l’horloge.

Les circuits asynchrones ont étés réintroduits entre autres par Sutherland en 1989 [Sut89] dans un article sur les micropipelines, puis en 1990 par Mar- tin [Mar90], principalement pour accélérer le calcul et pallier aux problèmes de distribution d’horloge, puisque la synchronisation est assurée non plus globalement, mais localement entre les différents éléments logiques. Les circuits asynchrones possèdent d’autres propriétés intéressantes détaillées plus loin.

Le but de ce stage était d’étudier comparativement plusieurs algorithmes de multiplication adaptés aux circuits asynchrones afin d’en optimiser les performances en termes de vitesse/surface. Les études précédentes se sont souvent contentées ”d’emprunter” directement des algorithmes synchrones et étudiaient surtout différentes méthodes d’implantation des circuits asyn-

(5)

chrones afin d’en maximiser les performances ([Spa92] par exemple). Il n’existe pas d’étude poussée des propriétés algorithmiques de la multiplication en calcul asynchrone comme on peut en trouver dans le cas synchrone : [Boo51], [Dad76], [Okl95], [Okl96-2], [Vui83], [Wal64] entre autres. C’est une lacune grave pour un champ de recherche qui bénéficie ces dernières années d’un intérêt croissant.

Au cours du stage, j’ai étudié et adapté au calcul asynchrone plusieurs algorithmes de multiplication existants afin de comparer leurs performances dans le domaine asynchrone pour une technique d’implantation courante.

Etant donn´´ e les tailles d’opérandes relativement faibles utilisées dans les opérateurs arithmétiques (de 8 à 64 le plus souvent), une étude basée sur la complexité asymptotique ne serait pas adaptée. On va plutôt réaliser une série de simulations au niveau d’une quasi-implantation matérielle basée sur une bibliothèque de portes spécifique, avec toutefois plusieurs restrictions présentées plus loin.

Dans une première partie, je présenterai le fonctionnement des circuits asynchrones, puis détaillerai le protocole utilisé pour mesurer et comparer les différents algorithmes, les choix réalisés pour cette étude et ce qui en découle. L’étude des algorithmes proprement dits se découpe en trois parties correspondant aux trois étapes de la multiplication que sont la génération des produits partiels, la réduction par addition de ces produits et enfin l’addition finale. Pour finir je présenterai les résultats obtenus lors des simulations et les commenterai.

(6)

Chapitre 1

Circuits Asynchrones

1.1 G´ en´ eralit´ es [Spa02]

Afin de pouvoir calculer correctement dans un circuit intégré, il est nécessaire de disposer d’un mécanisme garantissant la validité de tout jeu de données transmis entre éléments de calcul. En effet, lorsqu’un élément est sollicité pour un calcul, il lui faut un certain délai pour produire la bonne sortie. Pendant ce temps, les valeurs lues en sortie peuvent être erronées.

Dans un circuit synchrone, la validité des données est assurée par une attente correspondant au temps maximal pris pour l’évaluation d’une entrée quelconque (temps au pire cas). On doit de plus ajouter une marge de sécurité englobant les variations possibles causées par l’environnement, parmi lesquelles la température et les variations de la tension d’alimentation, qui peut représenter une part importante de l’attente totale. Il est aussi important d’assurer sur l’ensemble du processeur une distribution quasi-simultanée du signal d’horloge, ce qui entraˆıne de nombreux problèmes de conception et une grande dépense d’énergie.

Dans un circuit asynchrone, on va plutôt se doter d’un protocole de communication entre blocs logiques qui indiquera d’un part que les données transmises sont valides, et d’autre part que ces données ont été prises en compte par le destinataire et que celui-ci est prêt à en recevoir de nouvelles.

6

(7)

Dans un circuit synchrone, la synchronisation entre registres et blocs logiques successifs est assurée par un signal d’horloge distribué simultanément dans

l’ensemble du circuit via un r´eseau complexe de portes logiques

Dans un circuit asynchrone, la synchronisation est assurée par les registres et blocs logiques entre eux grâce à un protocole local de communication des données

(8)

L’utilisation d’un protocole de communication local permet d’aboutir du point de vue global à un ensemble fin d’horloges locales gérant les communications entre éléments, déphasées les unes par rapport aux autres et dont la période, non constante, dépend des délais effectifs du circuit qui dépendent eux-même des données d’entrée.

1.2 Classification des circuits asynchrones [Mar90]

Suivant les hypothèses faites sur les délais dans un circuit asynchrone, on peut classifier celui-ci dans trois catégories :

– un circuit de la classe DI (Delay-Insensitive) fonctionne correctement pour des délais positifs, bornés mais inconnus dans les portes et dans les fils. Ces circuits sont extrêmement robustes vis à vis des conditions environnementales.

Cependant Martin [Mar90] a montré que cette classe est trop limitée : seuls les circuits composés d’inverseurs et d’éléments de Muller (présentés plus loin) sont DI.

– On est donc amenés à diminuer les contraintes du modèle DI : en imposant d2 =d3, soit l’hypothèse des fourches isochrones (une transition d’un signal arrive simultanément en tous les points situés en aval de la fourche). On obtient la classe QDI (Quasi-Delay-Insensitive) qui est le modèle le plus strict permettant de réaliser tous les circuits dont on aura besoin.

– Enfin la classe SI (Speed-Independent) qui impose des délais nuls dans les fils (d1=d2 =d3 = 0), hypothèse peu réaliste.

1.3 Protocoles de communication

1.3.1 Protocoles 2 et 4 phases

La synchronisation des éléments du circuit est assurée par un protocole de communication qui permet un échange de données valides à l’aide de fils de requête et d’acquittement. Il existe deux protocoles courants, le premier

`

a 4 phases et le second `a 2 phases :

– Le premier protocole se déroule en 4 phases : (1) l’émetteur transmet ses données et met le fil de requête à 1, (2) le destinataire absorbe les données et met le fil d’acquittement à 1, (3) l’émetteur répond en mettant le fil de requête à 0 (les données ne sont plus garanties valides),

(9)

et (4) le destinataire accuse r´eception en mettant le fil d’acquittement

`

a 0, initialisant le cycle de communication suivant.

– Le protocole 2 phases évite les retours à zéro du protocole 4 phases, puisque les informations des fils de requête et d’acquittement sont en- codées par des transitions et non plus par des valeurs booléennes.

Ce protocole devrait être plus rapide, mais l’implémentation d’un mécanisme réagissant aux transitions plutôt qu’aux valeurs logiques des fils de requête et d’acquittement résulte souvent en un surcoût matériel qui nuit aux performances.

L’utilisation de l’un ou l’autre des protocoles d´epend de la technologie vis´ee.

1.3.2 Codage des donn´ees

Il est possible de coder les données de fa¸con classique sur un seul fil transportant une valeur booléenne (codageSingle Rail). Cette méthode impose alors l’existence d’un fil de requête séparé indiquant la validité du jeu de données.

Cependant il est aussi possible d’encoder le signal de requête avec la valeur booléenne sur deux fils (Double Rail). Un signal est une pair{x.f, x.t}, les pairs {x.f, x.t} = {1,0} et {x.f, x.t} ={0,1} représentent des données valides (le 0 et le 1 logiques){x.f, x.t}={0,0} représente une donnée invalide (’E’), et {x.f, x.t}={1,1} n’est pas utilisé. De cette fa¸con, on impose un passage par une valeur invalide entre deux données valides. Un jeu de données est valide lorsque tous les signaux sont valides, et est réinitialisé seulement lorsque tous les signaux sont invalides.

Codage double rail des donn´ees pour les protocoles 2 et 4 phases

(10)

a) un canal de communication simple rail b) protocole 4 phases simple rail c) protocole 2 phases simple rail

protocole 2 phases double rail

protocole 4 phases double rail

(11)

1.4 Cellule de Muller [Mul63]

La garantie de validité des données impose la création d’une nouvelle porte capable de mémoriser celles-ci. Une porte de Muller est initialisée à 0 ou 1 lorsque toutes ses entrées sont identiques à 0 ou 1 respectivement, et conserve la dernière valeur grâce à une boucle de mémorisation jusqu’à sa prochaine initialisation. Cette cellule est essentielle pour construire le demi registre (half-buffer) asynchrone qui permet comme en synchrone de mémoriser des valeurs.

a) implantation mat´erielle d’une cellule de Muller b) half-buffer

La cellule de Muller est aussi utile pour signaler la complétion d’un calcul, c’est à dire le moment où toutes les sorties sont valides et le résultat correct : par exemple pour un circuit logique ànsorties, on veut être capable de signaler que toutes les sorties sont valides afin d’autoriser la suite du calcul (typiquement en sortie d’un opérateur arithmétiquenbits). Pour chaque bit di codé en double rail on va réaliserdi.t NORdi.f, puis on va composer les sorties dans une porte de Muller à n entrées. Au début du calcul, toutes les sorties sont invalides, donc toutes les pairs {d_i.f, d_i.t} valent {0,0} et les NOR sortent 1 de même que la porte de Muller dont toutes les entrées valent 1. Lorsque le circuit effectue son calcul, les bits de sorties deviennent valides, les NOR passent à 0. Lorsque toutes les sorties sont valides, toutes les entrées de la porte de Muller sont à 0 et celle-ci passe à 0, signalant la complétion du calcul.

(12)

1.5 Propri´ et´ es des circuits asynchrones [Spa02]

Les circuits asynchrones, en plus d’éviter en partie les problèmes liés

`

a l’utilisation d’une horloge globale, possèdent d’autres propriétés avantageuses :

– Haute performance.Grâce à la synchronisation locale, chaque étape de calcul dans un circuit asynchrone démarre dès que l’étape précédente est terminée, sans devoir attendre un signal d’horloge et indépendamment du pire cas. Ceci se traduit par une vitesse de traitement accrue, car ils calculent en temps moyen et non en temps de pire cas. De plus la synchronisation d’un circuit combinatoire est gérée directement par celui-ci, et plus par des éléments de mémorisation comme dans un circuit synchrone (latch et flip-flop) qui imposent des marges pour assurer un bon fonctionnement. Cependant cet avantage peut-être en partie annulé par la génération des signaux de complétion de calcul, et il est difficile de traduire ces variations locales de temps de calcul en termes de performances globales sur le temps de calcul d’une fonction, typiquement dans un compilateur.

– Faible consommation.Contrairement aux circuits synchrones où à chaque cycle d’horloge, tous les éléments logiques du circuit évaluent leurs entrées, donc consomment, dans un circuit asynchrone chaque

´

elément non sollicité se placera en attente d’un jeu d’entrée valide, réduisant l’activité au minimum (activité conditionnelle bas niveau).

– Robustesse vis à vis des conditions environnementales. Alors qu’en synchrone on est obligé d’introduire dans le délai des marges de sécurité pour pallier aux éventuelles variations des conditions environnementales, en asynchrone aucune hypothèse n’est faite sur le délai de l’opérateur. Un circuit asynchrone est capable grâce à la synchronisation locale de calculer au maximum de sa capacité étant donné les variations de température, de tension d’alimentation et même les

´

eventuelles imperfections mat´erielles.

– Faibles émissions électromagnétiques.Les opérations locales s’effectuent généralement de fa¸con aléatoire dans le temps, répartissant les impulsions électromagnétiques créées par l’alimentation d’un composant et lissant le spectre électromagnétique du circuit, alors que l’alimentation ponctuée par l’horloge de l’ensemble d’un circuit synchrone génère un spectre particulier. De plus la répartition aléatoire des ponc- tions d’énergie des portes tend à stabiliser la tension d’alimentation.

Enfin ceci permet d’augmenter la sécurité des applications de crypto- graphie embarquées vis à vis des attaques par analyse de consommation (Differential Power Analysis, très dangereux contre les cartes à puce).

– Meilleure composabilité et modularité. La synchronisation locale permet de considérer les éléments d’un circuit comme des boites noires faciles à déplacer et à réutiliser puisque aucune assertion n’est faite sur le délai et les conditions environnementales de fonctionnement.

(13)

– Plus de problème de génération, de distribution d’horloge et de course critique.Il n’y a plus de signal à distribuer simultanément dans tout le circuit, ce qui est l’un des plus gros problèmes des processeurs synchrones. Par exemple lors de la conception du processeur Alpha 21164 de DEC, plus de la moitié des effectifs de l’équipe de conception était affectée aux problèmes liés à l’horloge.

Cependant les circuits asynchrones pr´esentent aussi plusieurs inconv´enients.

Le codage double rail implique un surcoût en routage et en portes logiques, donc en surface de circuit. La recherche actuelle cherche à pallier à un manque d’outils et de stratégies de conception et de test dont souffrent les circuits asynchrones, peu répandus. Le calcul en temps variable suivant les données d’entrée complique aussi l’écriture des compilateurs destinés au calcul asynchrone.

1.6 Mes choix

Dans cette étude, nous utiliserons le modèle QDI puisqu’il est souvent possible lors de la création de circuits arithmétiques de contrôler les délais des fils pour satisfaire la condition des fourches isochrones. J’ai choisi aussi le protocole 4 phases, plus simple à mettre en place, en combinaison avec le codage double rail qui est couramment utilisé.

Le choix du codage double rail simplifie les simulations d’une part en en- codant directement le signal de requˆete dans les valeurs bool´eennes, d’autre part car ce codage garantit l’abscence de transitions parasites du signal lors de calculs.

(14)

Chapitre 2

Algorithmes de

multiplication enti` ere

La multiplication entière ou virgule fixe peut être décomposée en trois

étapes successives qui se retrouvent dans une multiplication à la main : la formation des produits partiels, la réduction du tableau des produits partiels et l’addition finale. La formation des produits partiels correspond à la multiplication de chaque chiffre du multiplicateur par chaque chiffre du multiplicande. C’est cette étape qui nécessite de connaˆıtre les tables de multiplication, implantées par une porte AND en binaire. On obtient alors un tableau de chiffres de différents poids (lebitarray) que l’on doit additionner pour obtenir le résultat final.

Pour aller plus vite, on utilisera une notation redondante pour les r´esultats interm´ediaires.

Une représentation redondante [Avi61] est une représentation dans une base en utilisant plus de chiffre que nécessaire pour représenter tous les nombres.

Par exemple une notation en base 2 avec l’ensemble de chiffres{−1,0,1}est une repr´esentation redondante.

Cette redondance permet entre autres de réaliser l’addition sans propagation de retenue, donc en temps constant, de deux nombres écrits sous forme redondante, et a fortiori d’additionner en temps constant un nombre en base normale à un résultat intermédiaire écrit sous forme redondante.

Ceci permet une réduction rapide des nombres du bitarray jusqu’à un seul résultat sous forme redondante.

On travaillera ici en carry-save, c’est-à-dire en notation redondante dans la base 2 avec l’ensemble de chiffres {0,1,2}. Chaque chiffre v d’un tel nombre sera représenté dans le circuit par deux valeurs binaires vc et vs, telles quev=vc+vs. La dernière étape est une addition classique permettant de convertir le résultat redondant en carry-save sous forme normale.

14

(15)

Addition en temps constant d’un nombre carry-savea=ac+aset d’un nombre binaire b

2.1 G´ en´ eration des produits partiels

Classiquement, on génère le bitarray simplement en multipliant le multiplicande par chaque chiffre du multiplicateur. En binaire, cela correspond à une grillen×nde portes AND implantant la table de multiplication binaire pour chaque produit partiel.

a) g´en´eration des produits partiels binaires sans recodage pour un multiplieur4×4 b) bitarray et produit final ‘pour un multiplieur 16 bits sans recodage

Il est possible de générer un bitarray de taille réduite en recodant le multiplicateur sous forme redondante de fa¸con à annuler certains de ses chiffres

`

a des places fixes connues. Ainsi des étages du bitarray seront toujours nuls, et on pourra les ignorer lors de la réduction. On peut ainsi d’une part réduire le coût matériel de l’étape de réduction, au prix d’un recodeur, et d’autre part gagner en temps, puisque le bitarray est additionné plus rapidement, toujours au prix du temps perdu dans le recodeur. Cette perte de temps sera moins importante dans la pratique que lors des simulations, car c’est lors de la formation des produits partiels que la sortance est la plus importante, on devra donc ajouter des circuits d’amplification qui pour le recodage seront

(16)

fondus dans le circuit de recodage. On verra qu’il faudra tester des solutions qu’habituellement on ne retient pas pour le synchrone, et qui en asynchrone pourraient ˆetre beaucoup plus avantageuses.

2.1.1 Recodage de Booth-2 [Boo51]

Ici on recode le multiplicateur en notation de type chiffre signés dans l’ensemble{−2,−1,0,1,2}, en assurant qu’au moins un chiffre sur deux soit nul, c’est à dire en éliminant un étage sur deux du bitarray pour gagner sur le coût matériel de la réduction.

Par exemple 10110001101 est recod´e en 1020¯2010¯101, on annule bien un chiffre sur deux.

Bitarray et produit final pour un multiplieur 16 bits avec recodage Booth2.

S est le signe du nombre par lequel on multiplie le multiplicande

Table de s´election des produits partiels Bits du multiplieur S´election

000 +0

001 +multiplicande

010 +multiplicande

011 +2×multiplicande

100 −2×multiplicande 101 −multiplicande 110 −multiplicande

111 −0

Ce recodage se traduira en matériel par un circuit qui d’après certains bits du multiplicateur (ici trois) sera capable en temps constant de choisir le multiple -1, 0 ou 1 du multiplicande créé au préalable. On note par la suite M le multiplicande.

Dans l’étude on suppose une notation des nombres négatifs en complément

`

a deux. Le bitarray obtenu voit sa hauteur ramenée à d(n+ 2)/2e (oùnest le nombre de bits du multiplicateur) et sa forme modifiée. C’est le recodage le plus souvent utilisé.

(17)

G´en´erateur avec recodage Booth2 pour une ligne du bitarray dans un multiplieur 16 bits

2.1.2 Recodage de Booth-3

Booth-3 consiste en un recodage dans l’ensemble de chiffres{−4,−3,· · ·,3,4}, et on élimine cette fois ci deux étages sur trois, soit un bitarray de hauteur d(n+ 3)/3e en analysant pour chaque étage quatre bits du multiplicateur.

Le circuit de codage est un peu plus compliqué, mais la raison pour laquelle ce recodage est rarement utilisé en synchrone est la présence du multiple trois, qui ne peut pas être obtenu avec un simple décalage du multiplicande, en temps constant. La génération de ce multiple ’difficile’ se fait à l’aide d’un additionneur supplémentaire calculant 2×x+x, qui rajoute un coût matériel correspondant à un additionneur de taille n+ 2. Grâce aux propriétés des circuits asynchrones, on espère pouvoir pallier la perte de temps induite par cette addition. En effet, l’addition en synchrone prend un temps au pire cas en O(n), voire en O(logn) pour les meilleur additionneurs, alors qu’en asynchrone le temps moyen va pour un additionneur de type propagation de retenue de O(logn) à un théorique mais peu réalisable O(log logn). En pratique on utilisera un additionneur à saut de retenue présenté dans [Tis97]

qui calcule enO(√ logn).

D’autre part, on peut aussi gagner du temps dans la partie qui, à partir du multiplicateur recodé choisit le multiple qui sera dans le bitarray. En effet, si on sait que le multiple 3M n’est pas celui sélectionné, la table de transition du AND pour un circuit asynchrone montre qu’il suffit qu’une des deux entrées soit à 0 pour que la sortie bascule à 0. On n’a pas besoin d’attendre la génération des multiples inutiles pour donner les données au bitarray, dès que les fils de sélection M, 2M et 3M ont une valeur valide. Si le multiple est 3M, on est capable en asynchrone d’utiliser chacun des chiffres du résultat aussitôt qu’il est disponible indépendamment des autres, même

(18)

s’ils ne sont pas encore calcul´es.

bitarray et produit final pour un multiplieur 16 bits avec recodage Booth3

Table de s´election des produits partiels pour Booth3

Bits du multiplieur S´election Bits du multiplieur S´election

0000 +0 1000 −4×multiplicande

0001 +multiplicande 1001 −3×multiplicande

0011 +2×multiplicande 1011 −2×multiplicande

0101 +3×multiplicande 1101 −multiplicande

0111 +2×multiplicande 1111 −0

recodeur Booth3

2.1.3 Recodage de Booth-4

On poursuit la d´emarche, cette fois ci dans l’ensemble de chiffres{−8,−7,· · ·,7,8}.

Les multiples difficiles sont ici 3, 5 et 7 (6 se d´erive de 3 par un d´ecalage en temps constant). 7 se calcule par une seule addition 8.x+ (−x), car −xest

(19)

généré en temps constant. Le bitarray sera de hauteurd(n+ 4)/4e, mais au prix d’un codeur de Booth encore plus compliqué, qui calcule toujours en temps constant, et de trois additionneurs de taillesn+ 2,n+ 3 etn+ 3 pour les multiples 3, 5 et 7 respectivement.

Je n’ai pas étudié les recodages suivants car pour Booth-5 les multiples difficiles sont 3, 5, 7, 9, 11, 13 et 15 parmi lesquels 11 et 13 nécessitent 2 additions successives.

Table de s´election des produits partiels pour Booth4

Bits du multiplieur S´election Bits du multiplieur S´election

00000 +0 10000 −8×multiplicande

01111 +8×multiplicande 11111 −0

2.2 R´ eduction des produits partiels

Le bitarray généré précédemment doit à présent être réduit à un seul nombre, en carry-save la plupart du temps, car l’addition en carry-save se fait en temps constant en évitant la propagation de retenue de l’addition classique. Le travail sur cette étape consiste à trouver l’organisation des cellules full adder qui permettra la réduction la plus rapide du bitarray. De nombreuses tactiques existent qui sont développées depuis les années 60.

2.2.1 R´eseau cellulaire de Braun [Bra63]

C’est le réseau le plus simple, qui correspond à la méthode ’à la main’ :

`

a chaque ´etage, on ajoute `a l’accumulateur un nouveau produit partiel.

Il en résulte un réseau extrêmement régulier à la fois du point de vue du placement des cellules et du routage. Cependant, les produits partiels sont générés simultanément alors qu’ils sont additionnés successivement, ce qui veut dire que les derniers produits additionnés ’attendent’ pour être ajoutés au résultat intermédiaire. Cette tactique est très adaptée pour une implémentation itérative, mais reste trop lente pour une multiplication haute performance.

(20)

un r´eseau de Braun pour une multiplication 5 bits

2.2.2 M´ethode de Wallace [Wal64]

De manière générale, on va privilégier des réductions sous forme arbo- rescente plus rapides qui équilibrent les délais en additionnant ensemble les résultats intermédiaires du bitarray de fa¸con plus judicieuse que Braun : on va additionner ensemble les bits sortant du générateur de produits partiels, disponibles au temps t, puis les résultats de ces additions, au temps t+ 1 et ainsi de suite. Chaque étage ainsi constitué réduit trois nombres en deux (soit un nombre carry save), donc réduit la hauteurhdu bitarray à d3h/2e.

La hauteur de l’arbre de réduction est proportionnelle au logarithme de la taille des opérandes, avec un temps constant pour la traversée de chaque

étage. Le calcul en parallèle permet d’avoir une réduction du bitarray en tempsO(logn) contreO(n) pour un réseau de type Braun.

Une première méthode, proposée par Wallace, utilise des structures ap- pelées arbres de Wallace, qui sont en fait des compteurs : un arbre de Wallace 3 est un full adder, qui prend 3 bits de poids 0 et rend deux bits de poids 0 et 1 correspondant à la somme des bits d’entrée. Il est possible de créer un arbre de Wallace de n’importe quel ordre en composant des full adders et des half adders. Ces arbres calculent la somme de leurs bits d’entrée en temps logarithmique.

(21)

a) Arbre de Wallace 3 (Full-adder) b) Arbre de Wallace 5

c) Arbre de Wallace 5 compos´e d’arbres de Wallace 3

Historiquement, un multiplieur de Wallace est un multiplieur composé de sous multiplieurs 4×4 produisant un bitarray qui sera réduit par des arbres de Wallace. Pour que cette solution soit avantageuse, il faut bien entendu que les petits multiplieurs soient implantés directement en matériel.

Multiplieur de Wallace 16 bits

Sémantiquement l’arbre de Wallace réduit les produits partiels du bitarray ’au plus tôt’.

2.2.3 M´ethode de Dadda [Dad76]

A l’oppos´` e, la méthode de Dadda profite du fait que l’on connait le taux de compression maximum d’un étage (soitd3h/2e) pour minimiser le nombre de composants utilisés : Sachant que d’une hauteur de bitarray de 9 on va

(22)

réduire jusqu’à une hauteur de 6, on va faire ’le minimum’ pour obtenir une hauteur de 6. En appliquant cette tactique ’au plus tard’, on assure de minimiser le coût matériel.

a) r´eductions successives du bitarray par la m´ethode de Dadda pour un multiplieur 5 bits

b) Circuit de l’additionneur obtenu [Mul89]

2.2.4 M´ethode d’Oklobdzija

Oklobdzija a présenté dans [Okl95] et [Okl96-2] une méthode algorith- mique pour obtenir l’arbre de réduction de délai minimum : à chaque produit partiel du bitarray on associe sa date théorique de génération, et on cherche

`

a additionner ces bits en privilégiant ceux qui sont générés le plus tôt. Il en découle deux nouveaux produits, après un temps égal au délai d’une cellule full adder, que l’on ajoute dans le bitarray. En réalisant ainsi l’arbre de réduction jusqu’à n’avoir plus que deux bits au maximum de chaque poids, soit un résultat en carry-save, on assure avoir minimisé le temps de réduction.

2.3 Addition finale

Le résultat de l’étape de réduction est un nombre en carry-save, soit deux nombres binaires qu’il reste à additionner pour obtenir le résultat final. Pour optimiser cette étape, on veut adapter l’addition finale au profil temporel d’arrivée des bits de différents poids afin de réaliser l’addition le plus vite possible. En synchrone, c’est un problème difficile qu’on résout souvent en composant plusieurs types d’additionneurs [Okl96-1], typiquement un additionneur lent du type propagation de retenue, puis un additionneur rapide, généralement à anticipation de retenue et enfin un additionneur à sélection de retenue qui peut anticiper la retenue sortante de l’étape précédente.

En asynchrone par contre, il est possible d’anticiper les retenues lorsque deux des trois bits additionnés sont identiques : si ils valent 0, la retenue vaudra toujours 0, et réciproquement pour 1. C’est cette propriété qui permet de passer d’un temps enO(n) en calcul synchrone pour l’additionneur à

(23)

propagation de retenue `a O(logn) de temps de calcul moyen en asynchrone.

En brisant cette chaˆıne de dépendance aux retenues précédentes, on arrive

`

a un profil d’arrivée en sortie de l’additionneur où tous les bits arrivent en même temps, alors qu’en synchrone les bits de poids fort arrivent après les bits de poids faible. Il n’est pas utile de composer plusieurs additionneurs de types différents, un seul suffit.

On pr´esente dans l’´etude deux additionneurs asynchrones : l’additionneur

`

a propagation de retenue (Ripple-carry-adder, RCA) modifié pour le calcul asynchrone, capable calculer les retenues au plus tôt, et l’additionneur à saut de retenue présenté par Tisserand dans [Tis97] (Carry-skip-adder, CSkA), capable de calculer en O(√

logn). Ces deux additionneurs sont suffisants, car les additionneurs asynchrones plus rapides, capables de calculer jusqu’à une vitesse de O(log logn) [Che00], sont compliqués à implanter et ne sont pas rentables pour des tailles d’opérandes courantes à cause des grandes constantes devant le terme log logn.

Structure d’un additionneur Carry-Skip

(24)

Chapitre 3

Protocole exp´ erimental

Dans un premier temps, je vais comparer les différents algorithmes suivant la vitesse et la taille de l’opérateur obtenu. Pour des tailles d’opérandes réalistes, de 8 à 64 voire 128 bits, la complexité asymptotique n’est pas intéressante et j’ai plutôt choisi de réaliser des simulations proches du matériel.

Dans un deuxième temps, j’ai proposé un nouvel algorithme dérivé du réseau de Braun, et des modifié les algorithmes existants pour les adapter au calcul asynchrone.

La contrainte de taille est elle aussi importante, puisque non seulement de grands circuits coûtent plus cher en raison de la surface de silicium occupée, mais aussi parce qu’un circuit plus grand a plus de chance d’être défectueux lors de sa fabrication.

Une dernière grandeur à prendre en compte est la consommation d’énergie, puisque celle-ci influe sur l’autonomie des appareils portables qui devient de plus en plus critique avec l’évolution des technologies. Pour des circuits double rail non itératifs tels que ceux considérés ici, chaque cellule réalise exactement une transition sur chacune de ses sorties quelles que soient les valeurs d’entrée. La consommation dépend donc directement du nombre de cellules de l’opérateur et de leur nature. On va chercher à la minimiser en privilégiant les circuits requiérant peu de portes.

3.1 Hypoth` eses de travail

La vitesse d’un opérateur asynchrone est difficile à caractériser, car le temps de calcul dépend directement des données en entrée. On va suppo- ser pour cette étude que les opérandes sont aléatoires avec pour chaque chiffre binaire équiprobabilité d’obtenir un 0 ou un 1. Cette hypothèse n’est pas toujours raisonnable dans un calcul sur ordinateur, particulièrement si le multiplieur est destiné au traitement du signal. Il suffira lors des tests comparatifs de générer des vecteurs adaptés à l’application. La vitesse est caractérisée par le temps moyen de calcul, sa variance, son écart-type et sa distribution. On calcule aussi l’intervalle de confiance pour chaque test réalisé afin de vérifier sa validité.

On va effectuer des simulations logiques, en supposant que les transitions de signaux sont instantan´ees. L’utilisation du codage double rail garantit

24

(25)

l’abscence de transitions parasites (glitches). On va aussi ne pas prendre en compte le placement et le routage entre les portes, qui nécessitent des outils complexes. Dans les circuits arithmétiques étudiés, les cellules sont suffisamment proches et les fils assez courts pour que le délai qu’ils induisent soit négligeable, et leurs effets comparables sur les différent algorithmes.

Un dernier problème serait la sortance, c’est-à-dire l’influence du nombre de cellules alimentées en sortie par une porte logique sur le délai de celle-ci, mais nous ne disposons pas d’outils adaptés à l’étude de ce paramêtre

3.2 Le simulateur

Il existe deux grands types de simulateurs pour les circuits : les simulateurs électriques de type SPICE résolvent le système d’équations électriques du circuit. On obtient ainsi des résultats très fins à la fois pour le délai des portes et la consommation d’énergie. Cependant la résolution du système complet est très compliquée et ne permet pas le test de grands circuits.

D’autre part le calcul en temps moyen impose une étude statistique du circuit, au moins 10000 entrées pour un résultat précis, ce qui est irréalisable avec un simulateur électrique. Les simulateurs logiques existants quant à eux effectuent une simulation logique plus rapide, mais ils utilisent des descrip- tions au format VHDL (Very high speed integrated circuit Hardware Des- cription Language), ce qui est trop rigide pour permettre des générations automatiques d’opérateurs de taille et de composition variables. D’autre part ils ne possèdent pas, pour le moment, de bibliothèque de portes prévue pour la simulation des circuits asynchrones double rail. Enfin ils ne sont toujours pas assez rapides pour une étude statistique.

Pour réaliser des mesures statistiques des temps de calcul des différents opérateurs, on a besoin d’un simulateur très rapide qui permette aussi de générer des opérateurs de n’importe quelle taille avec différents recodages, arbres de réductions, et de modifier différents paramêtres.

Puisqu’on veut effectuer des simulations réalistes d’un point de vue matériel, on utilise une bibliothèque de portes développée pour le codage double rail par Arnaud Tisserand.

J’ai donc écrit un simulateur dédié en C++, de type événementiel, c’est

`

a dire qu’on y traite s´equentiellement une liste tri´ee chronologiquement de transitions du circuit, qui vont faire basculer des portes dans de nouveaux

´etats, entraˆınant de nouvelles transitions sur leurs sorties qui seront ajout´ees

`

a la liste d’événements. Lorsque la liste est épuisée, le circuit est stable et l’évaluation terminée.

La totalité du code du simulateur représente 500 lignes, et les fonctions pour la génération des éléments des différents multiplieurs plus de 2000 lignes. Une bibliothèque de cellules simple comme celle utilisée représente quant à elle 1600 lignes. Je n’ai pas repris le simulateur écrit par Nicolas Boullis [Bou01] destiné au diviseurs asynchrones, qui était trop rigide pour permettre une génération rapide de multiplieurs de différentes compositions et des modifications rapides des paramêtres de la bibliothèque de portes.

La programmation objet permet ici d’appr´ehender de fa¸con plus intuitive la

(26)

structure des circuits d´ecrits en C++.

Le résultat d’une simulation est un fichier contenant les données statistiques de l’opérateur, vitesse et distribution des temps de calcul, sa surface, un fichier avec la courbe de répartition des temps de calcul pour l’opérateur et un fichier avec la courbe des temps de calcul moyens pour chaque bit du résultat, qui permet de voir quels bits pourront par exemple être exploités le plus tôt ou lesquels sont critiques pour la vitesse de l’opérateur entier.

3.3 Modification des algorithmes

Pour tirer les meilleures performances d’un algorithme en asynchrone, on ne cherche plus comme en calcul synchrone à minimiser le pire cas possible, qui représente une course critique, mais le cas moyen, c’est à dire les cas les plus nombreux, parfois au détriment de cas lents plus rares qui seront rallongés. Par exemple pour l’additionneur à propagation séquentielle de retenue, la mise en place d’un mécanisme permettant de fournir les retenues le plus tôt possible complique la cellule, sans pour autant améliorer les cas difficiles de l’additionneur synchrone (ceux où les bits d’entrée d’un même rang sont 0 et 1, donc qui demandent d’attendre la retenue précédente).

Cependant ce mécanisme permet de briser la chaˆıne critique de propagation des retenues dans les autres cas, c’est à dire quand il existe des couples de bits identiques au même rang, donc une possibilité de prévoir la retenue suivante (génération de retenue à 0 ou 1). La longueur moyenne d’une chaˆıne de propagation de retenue pour des opérandes de taille n aléatoires avec

équiprobabilité d’obtenir 1 ou 0 est proportionnelle à log₂(n) : c’est la vitesse moyenne de l’additionneur à propagation de retenue asynchrone.

Le même principe s’applique pour la multiplication. Pour cela les cellules full adder de la bibliothèque de portes ont été déclarées de fa¸con à pouvoir fournir la retenue sortante aussi tôt que possible, et j’ai fait de même avec toutes les autres cellules : un AND est capable de sortir un 0 en sortie dès qu’une de ses entrées vaut 0, sans attendre de connaˆıtre la valeur de l’autre, un OR fournit un 1 en sortie dès qu’une de ses entrées vaut 1. En procédant ainsi pour toutes les cellules de la bibliothèque on est capable de gagner un temps important par rapport à une simple transposition depuis le domaine synchrone.

Les valeurs obtenues lors de ces tests sont analys´ees au chapitre suivant.

3.3.1 Modification de la m´ethode d’Oklobdzija

J’ai adapté directement les stratégies de Braun, Wallace et Dadda dans cette bibliothèque de portes, car celles-ci reposent sur des algorithmes fixés et non flexibles.

Par contre la méthode d’Oklobdzija étudie en calcul synchrone les temps de propagation à travers l’arbre de réduction afin de les minimiser, temps qui pour le calcul asynchrone ne sont plus constants : un full adder dont deux entrées sont valides et identiques peut fournir une retenue sortante sans attendre la troisième entrée : son délai est donc variable.

(27)

A cause de cette d´` ependance temporelle aux données au niveau même des portes, le temps pris en compte dans le modèle ne sera jamais exact, et l’arbre de réduction non optimal.

J’ai testé plusieurs manières d’estimer de fa¸con réaliste ce temps, par exemple une simple moyenne arithmétique des temps extrêmes possibles, jusqu’à des calculs statistiques sur les probabilités d’obtenir 0 ou 1 à chaque endroit de l’arbre. Cette dernière méthode plus proche de la réalité conduit

`

a une amélioration des performances, mais entraˆıne un surcoût de calcul important. Cependant, quelle que soit la méthode choisie, il s’agit d’une méthode statistique dont on ne pent garantir qu’elle est optimale, car les probabilités d’obtenir 0 ou 1 dépendent à la fois des vecteurs d’entrée et du mode de génération des produits partiels (avec ou sans recodage).

Pour les tests, j’ai utilisé la méthode statistique analysant les probabilités d’apparition des 0 et des 1 dans l’arbre de réduction.

3.3.2 Modification du r´eseau de Braun

Les performances médiocres du réseau de Braun, en synchrone et en asynchrone, viennent du fait que les multiples sont ajoutés séquentiellement au résultat intermédiaire. J’ai modifié le routage du réseau séquentiel afin d’obtenir un arbre de réduction fonctionnant en temps logarithmique, tout en gardant la même configuration matérielle, donc un placement régulier. Il suffit d’additionner sur les premières lignes tous les produits partiels, puis les résultats suivants par strates successives jusqu’à obtenir un dernier nombre en carry-save. On appelera par la suite un tel arbre de réduction un réseau de Braun modifié

Cette méthode pourtant simple arrive pour d’autres bibliothèques de portes matérielles que celle utilisée dans les simulations à surpasser la méthode d’Oklobdzija.

un r´eseau de Braun modifi´e pour une multiplication 5 bits

(28)

Chapitre 4

R´ esultats et analyse

4.1 Les tests

J’ai réalisé des tests sur plusieurs algorithmes : sans recodage, les réductions de Braun, par arbres de Wallace, Braun modifié, Dadda et Oklobdzija. J’ai aussi testé ces trois dernières réductions pour les recodages de Booth 2, 3 et 4.

Tous les tests sont réalisés avec, dans les recodeurs et pour l’addition finale, un additionneur à propagation de retenue séquentielle asynchrone car l’utilisation d’un additionneur à saut de retenue ne donne pas ici des résultats réalistes pour plusieurs raisons : premièrement les multiplexeurs des blocs de l’additionneur carry-skip ont dû être implantés à l’aide d’un AO22 (deux And dont les sorties sont branchées sur les entrées d’un OR), alors qu’un composant spécialisé plus rapide permettrait de meilleures performances, le multiplexeur étant un élément clé de l’additionneur carry-skip. D’autre part les blocs de l’additionneur, qui additionnent 3 bits et permettent le saut de retenue, sont le plus souvent implantés au niveau du transistor dans la bibliothèque de portes. Un additionneur carry-skip réalisé à l’aide de portes logiques ne reflète donc pas la réalité.

4.2 Simulation et r´ esultats

Tous les algorithmes ont étés testés pour des tailles d’opérandes de 8, 16, 32 et 64 bits, sur 50000 jeux de données pour les opérandes de taille jusqu’à 32, 5000 pour les algorithmes multipliant 64 bits. On arrive à un facteur de risque inférieur au demi pourcent pour les tailles jusqu’à 32, inférieur à 2 pourcents pour la taille 64.

Les tests se sont déroulés en parallèle sur plusieurs ordinateurs du labo- ratoire pendant un mois, et représentent plusieurs mois de calcul sur un seul ordinateur.

Les délais et surfaces sont exprimés en unités arbitraires basés sur les valeurs données dans la bibliothèque de portes asynchrones double rail d’Ar- naud Tisserand. Comme on l’a déjà vu, en calcul asynchrone double rail, la surface du circuit donne une indication la consommation. Une meilleure es- timation demanderait l’utilisation de méthodes plus précises, typiquement

28

(29)

un solveur électrique de type SPICE, incompatible avec l’étude statistique réalisée ici.

Si on considère un multiplieur, pour un même recodage et un même additionneur final, alors les arbres de réductions de Dadda, Oklobdzija et Braun modifié, ainsi que le réseau de Braun couvrent la même surface de circuit, au routage près. La réduction par arbres de Wallace couvre une plus grande surface car elle n’est pas optimale du point de vue du nombre de composants.

D´elai moyen/Taille des op´erandes sans recodage

Taille des Surface pour la Surface pour les opérandes réduction par arbres autres stratégies

de Wallace de r´eduction

8 1431 1408

16 6275 6144

32 26247 25600

64 106061 10448

Surface du multiplieur en fonction de la taille des op´erandes sans recodage

(30)

D´elai moyen/Taille des op´erandes avec recodage Booth2

Le graphe obtenu est tr`es semblable pour les recodages Booth 3 et Booth4.

En particulier l’ordre des arbres en termes de performances reste le mˆeme : Oklobdzija le plus rapide, puis Braun modifi´e puis Dadda.

Surface en fonction du recodage pour une taille d’op´erandes de 32 bits

(31)

Délai en fonction du recodage pour une taille d’opérandes de 32 bits, avec une réduction d’Oklobdzija

4.3 Analyse des r´ esultats

On constate que le réseau de Braun séquentiel montre une progression linéaire de sa vitesse qui le rend inutilisable en pratique.

D’autre part l’algorithme d’Oklobdzija reste dans tous les cas le plus per- formant, avec une vitesse très proche de celle du réseau de Braun modifié (les courbes de vitesse sont même confondues dans le cas sans recodage), et la réduction de Dadda est légèrement plus lente. L’augmentation de surface est exponentielle dans tous les cas, et semble inévitable pour un circuit non itératif.

On remarque aussi que le recodage pénalise les performances : ceci est dû en partie au fait qu’on ne prend pas en compte les problèmes de sortance, qui en pratique ralentiraient les algorithmes sans recodage, alors qu’un circuit avec recodage peut inclure l’amplification des signaux dans le circuit de recodage. Lorsque la différence de vitesse entre les portes AND, OR et XOR par rapport au Full adder est plus marquée, le recodage Booth 2 permet d’améliorer les performances de fa¸con importante.

Le gain en surface est important quand on recode jusqu’à Booth3, puis le surcoût induit par le recodeur de Booth de plus en plus complexe et le circuit de sélection des multiples plus grand, ainsi que les additionneurs calculant les multiples difficiles rend la surface totale plus grande qu’un algorithme sans recodage. Un recodage de Booth 4 est ici sans intérêt.

L’utilisation d’un recodage de Booth 2 me semble ˆetre un bon compromis

(32)

entre vitesse et surface.

D’autre part le choix de Braun modifié comme arbre de réduction peut être judicieux, car cet arbre est très proche de la méthode d’Oklobdzija pour les performances, et possède l’avantage d’être extrêmement régulier, ce qui constitue un avantage fort pour l’implantation matérielle.

(33)

Chapitre 5

Conclusions et perspectives

5.1 Conclusion sur la multiplication asynchrone

Dans la bibliothèque de portes utilisée, la différence de vitesse était peu marquée entre les portes logiques et le full adder, ce qui a pénalisé les performances du recodage. Cependant un recodage Booth 2 permet un gain de surface au prix d’une perte de vitesse peu importante.

Adapter la méthode d’Oklobdzija pour le calcul asynchrone m’a demandé beaucoup de temps à cause des délais variables dans les composants, aux- quels il faut toujours penser en asynchrone, alors que l’algorithme beaucoup plus simple à concevoir du réseau de Braun modifié donne des performances très proches, et possède un avantage pour le placement des composants.

5.2 Travail restant ` a faire

Il existe d’autres algorithmes de multiplication potentiellement int´eressant

`

a étudier dans le cas asynchrone, par exemple les décompositions récursives (du type décrit dans [Vui83]). D’autre part il faudrait compléter la bi- bliothèque double rail en y intégrant des composants spécialisés performants pour l’additionneur carry-skip qui pourraient rendre plus intéressant les recodages Booth 2 et 3, trop lents, qui permettent une réduction importante de la surface du circuit.

La multiplication asynchrone en temps moyen est intéressante en termes de performances, particulièrement utilisée dans des algorithmes itératifs.

C’est le cas pour les calculs de fonctions élémentaires, basées sur un schéma de Hörner dans tous les processeurs.

33

(34)

Bibliographie

[Avi61] A.AvizienisSigned-digit number representations for fast parallel arithmetic, IRE transactions on Electronic Computers 10 (1961), p. 389-400, Reprinted in E. E. Swartzlander, Computer Arithmetic, Vol. 2, IEEE Computer Society Press Tutorial, 1990.

[Boo51] A.D. Booth A Signed Binary Muliplication Technique, Qar- terky J. Mechanical Applications in Mathematics, vol 4, 1951, p.236-240.

[Bou01] N. Boullis Algorithmes de division pour les circuits asynchrones, Rapport de DEA, ´Ecole Normale Sup´erieure de Lyon, 2001.

[Bra63] E.L.Braun Digital Computer Design New York Academic, 1963

[Che00] F.-C. Cheng, S.H. Unger et M. Theobald Self-Timed Carry-Lookahead Adders, IEEE Transactions on Compu- ters, Vol 49, juillet 2000, p. 659-672.

[Dad76] L. Dadda On Parallel Digital Multipliers Alta freq., vol 45, 1976, p. 574-580.

[Erc03] M.D. Ercegovac et T. Lang Digital Arithmetic, Morgan Kaufmann Publishers, 2003.

[Mar90] A. J. MartinThe limitations to delay-insensivity in asynchronous circuits, Sixth MIT Conference on Advanced Re- search in VLSI (W. J.Dally ´ed.), MIT Press, 1990, p.

263-278.

[Mar00] P. MarksteinIA-64 and elementary functions, Prentics-Hall PTR, 2000.

[Mul63] D.E. Muller. Asynchronous logics and application to infor- mation processing, In H. Aiken and W. F. Main, edi- tors, Proc. Symp. on Application of Switching Theory in Space Technology, Stanford University Press, 1963, p.289–297.

[Mul89] J.-M. Muller Arithm´etique des ordinateurs, Masson, 1989.

[Okl95] V.G. Oklobdzija et D. Villeger Improving Multiplier design by Using Improved Column Compression Tree and Optimized Final Adder in CMOS Technology, IEEE Transactions on VLSI Systems, bol 3, juin 1995, p-292-300.

34

(35)

[Okl96-1] V.G. Oklobdzija et P.F. Stelling Design strategies for Op- timal Hybrid Final Adders in a Parallel Multiplier, Journal of VLSI Signal Processing 14, 1996, p.321-333.

[Okl96-2] V.G. Oklobdzija, D. Villeger et S. S. Liu A Method for Speed Optimized Partial Product Reduction and Generation of Fast Parallel Multipliers Using an Algorithmic Approach, IEEE Transactions on Computers, vol 45, mars 1996, p. 294- 305.

[Par00] B. Parhami Computer Arithmetic : Algorithms and hardware designs, Oxford University Press, 2000.

[Spa92] J. Sparsø, C. D. Nielsen, L. S. Nielsen, J. Stauns- trup, Design of Self-timed Multipliers : A Comparison, Tech- nical University of Denmark, Department of Computer Science Tech. Rep., 1992.

[Spa02] J. Sparsø, S.B. Furber, Principles of Asynchronous Circuit Design : A Systems Perspective, Kluwer Academic Publi- shers, April 2002.

[Sut89] I.E. Sutherland Micropipelines, Communications of the ACM, vol 32, juin 1989, p.720-738.

[Tis97] A. TisserandAdéquation arithmétique architecture : problèmes et études de cas, Thèse, École Normale Supérieure de Lyon, 1997.

[Vui83] J. VuilleminA very fast multiplication algorithm for VLSI im- plementation, Integration, the VLSI journal, 1983, p 39- 52.

[Wal64] C.S. WallaceA Suggestion for a Fast Multiplier IEEE Tran- sactions on Electronic Computers, vol 13, 1964, p. 14-17