Les nombres r´eels - Conventions de repr´esentation des nombres

2.2 Conventions de repr´esentation des nombres

2.2.2 Les nombres r´eels

Deux méthodes permettent de représenter les nombres réels : les représentations envirgule fixeet virguleflottante.

Repr´esentation “virguleﬁxe”

La représentation virgule fixe est souvent utilisée dans des domaines d’application où l’on ne dispose que de calculateurs travaillant sur des nom-bres entiers et que la rapidité de calcul est un paramètre incontournable (par exemple en traitement du signal). La solution consistant à coder les nombres sous forme “scientifique” ou “flottante”, pour séduisante qu’elle soit, a en effet pour conséquence une augmentation non négligeable des durées de traitement.

La représentation “virgulefixe”fixe arbitrairement la position de la virgule

“entre” deux chiffres de la représentation binaire. On parle de représentation Qklorsqu’on a octroyékbits à la partie fractionnaire. Il faut évidemment faire une analyse préalable de la dynamique des quantités manipulées pour éviter tout phénomène de saturation ultérieure qui pourrait être engendrée par les traitements.

Exemple 2.3 Le nombre 5,75 peut ˆetre cod´e sur N = 16 bits en Q8 de la fa¸con suivante :

00000101, 11000000

où la virgule est représentée de fa¸con symbolique pour rappeler le codage.

Le nombre entier correspondant est celui qui serait obtenu par arrondi de la multiplication du réel par 2^k. Ainsi, le nombre−5,75 sera codé, avec la même règle :

−5,75×256 =−147210= FA4016= 11111010, 01000000

D’un point de vue opératoire, la somme de deux nombresQk estQk et leur produit estQ2k. Il faut aussi remarquer que les chiffres significatifs sont alors en poids fort du résultat et non en poids faible ! Cela explique la présence dans certains processeurs d’opérateurs demultiplication-décalagepermettant d’avoir un résultatQk après multiplication.

Exemple 2.4 On considère les nombres codés surN = 4 bits en virgulefixe Q3 et on effectue une multiplication “signée”. La restitution du résultat exige un décalage à droite de 3 positions. Soit, tout d’abord, le cas de deux nombres positifs :

Exemple 2.5 Avec les mêmes règles de codage, on considère maintenant deux nombres de signes opposés :



Exemple 2.6 Avec les mêmes règles de codage, pour deux nombres négatifs :



En pratique on utilise souvent le format Q15 qui impose de ramener les nombres manipulés à des valeurs inférieures à 0,5 en module.

Dans ce type de codage, la gestion de l’emplacement de la virgule est donc laissée à la charge du programmeur, ce qui n’est pas sans poser un certain nombre de difficultés. En effet, si on veut conserver la précision, le nombre de bits de la représentation devra être augmenté. On peut faire les remarques suivantes :

− Pour effectuerP additions, on ajoute log₂P bits à la représentation.

− Les multiplications posent un problème plus délicat. Le résultat du pro-duit de deux nombres codés surN bits est sur 2N bits. Des troncatures successives peuvent conduire à des résultats désastreux.

Malgré ces inconvénients, ce type de codage est largement utilisé lorsque les contraintes de temps de calcul sont très fortes. En effet les opérations font appel aux opérateurs (additionneurs, multiplicateurs. . . ) “entiers” dont la rapidité de calcul est bien supérieure à celle d’opérateurs “flottants”.

Repr´esentation en “virguleﬂottante”

Ce type de représentation est utilisé lorsqu’une variable xest déclarée, entre autres, sous une des formes :

real x en Pascal float x en C single x en basic

dans quelques langages de haut niveau courants. La valeur rang´ee dans la cellule dont le nom estxsera alors cod´ee sous la forme :

<signe><valeur absolue>×2exposant

Le principe du codage, donc l’´evaluation des trois quantit´es “signe”, “valeur absolue” et “exposant”, d’un nombrexest le suivant :

1. On convertit|x|en binaire ;

2. Le champ associé à la valeur absolue est déterminé parnormalisation.

Cette normalisation consiste `a amener le 1 de poids fort soit juste avant, soit juste apr`es la virgule. Ainsi, le nombre x= 11,37510 = 1011,0112

peut ˆetre normalis´e de l’une des deux fa¸cons suivantes :

− 1011,0112→0,10110112(1)

− 1011,0112→1,0110112(2)

3. Le décalage imposé par la normalisation correspond à des multiplications ou divisions par 2, et doit donc être compensé, ce qui fixe la valeur de l’exposant. Dans le cas présent :

− 1011,0112= 0,10110112×2⁴→exposant = 4

− 1011,0112= 1,0110112×2³→exposant = 3 L’exposant doit ensuite être représenté en binaire.

Tout ce qui pr´ec`ede nous conduit aux remarques suivantes :

− Le premier chiffre avant ou après la virgule étant toujours 1, il n’est pas nécessaire de le faire apparaˆıtre dans la représentation interne. Cela permet d’économiser un bit sur la représentation. On désigne celui-ci parbit caché(hidden bit) ;

− Ceci interdit toute représentation d’un nombre égal à zéro. Il faudra donc trouver un codage de l’exposant permettant de résoudre ce problème.

Reprenons l’exemple précédent en choisissant les règles, arbitraires, sui-vantes :

– On décide de choisir la normalisation (1) qui donne 0,10110112× 2⁴. Etant donné que l’on ne garde pas le 1 de poids fort, la partie conservée est 011011. On désignera cette quantité par mantisse; – On code l’exposant en complément à deux, ce qui donne ici 1002; – On choisit comme convention de signe : 0 pour le signe + et 1 pour

le signe−;

– Le nombre sera cod´e sur 16 bits avec un bit pour le signe, 11 bits pour la mantisse et 4 bits pour l’exposant. Le code obtenu, sous la forme<signe / mantisse / exposant>, est alors :

0/ 011 0110 0000/0100

Avec cette convention l’exposant peut prendre des valeurs comprises en-tre −810 et +710. Le problème posé par le codage du “0” peut être résolu en affectant une valeur +7 ou −8 pour l’exposant, celle de la mantisse étant indifférente. Pour préserver une certaine symétrie choisissons−8.

Pour savoir si une variable est nulle, il suffit donc de vérifier si la valeur de la représenatationde son exposant est −8. Le test de nullité d’un nombre devrait cependant être indépendant de la représentation de celui-ci. C’est la raison pour laquelle on peut décider d’ajouter la constante 8 à la valeur de l’exposant pour en avoir le code. De cette fa¸con, la nullité de tout nombre peut être vérifiée en testant l’égalité de la valeur<exposant>à 0.

Nous donnons table2.3quelques représentations internes de l’exposant dans le cas où le nombre de bits consacrés à cet exposant est 8 :

Exposant Exposant Exposant cod´e binaire en base 16 en base 10

100000010 82 2

100000001 81 1

100000000 80 0

011111111 7F −1

011111110 7E −2

011111101 7D −3

Table 2.3: Exemples de codage de l’exposant

Remarques

− Le choix de la représentation est le résultat d’un compromis entre l’étendue de l’intervalle représentable ou dynamique (caractérisée par le nombre de bits de l’exposant), et laprécisionsouhaitée (caractérisée par le nombre de bits de la mantisse).

− Les conventions ﬁxent le nombre de bits et le codage utilis´es pour les champs mantisse et exposant.

− L’emplacement effectif des différents champs de bits dans la mémoire dépend de l’utilisation qui en est faite et du processeur sur lequel se réalise l’implantation.

2.2.3 Exemple de repr´ esentation ﬂottante : la norme

Dans le document ARCHITECTUREDES ORDINATEURS (Page 33-37)