Exactitude de la sommation en virgule flottante

CHAPITRE 3 Op´erateurs de sommation en virgule flottante

3.2 Probl´ematique

3.2.2 Exactitude de la sommation en virgule flottante

Nous appelons sommation l’opération de réduction de somme de deux opérandes ou plus. La sommation en virgule flottante souffre de problèmes d’exactitude dus à l’accumulation

+1.00 +14.75

Exemple 1

+ +15.75 = +1.010 +1.110110 + +1.111110 = 0 3

Mantisse (binaire) Exposant (décimal)

3 +1.110110 +1.0 + = 3 0

Mantisse (binaire) Exposant (décimal)

+1.110110 +0.001000 + = 3 3

Mantisse (binaire) Exposant (décimal)

+1.110110 +0.001000 + = 3 3

Mantisse (binaire) Exposant (décimal)

+1.111110 3

#1

#2

#3

#4

+1.25 -1.125

Exemple 2

+ +0.125 = +1.010 -1.0010 + +1.0 = 0 0

Mantisse (binaire) Exposant (décimal)

-3

#1

+1.010 -1.0010 + +0.0010 = 0 0

Mantisse (binaire) Exposant (décimal)

#2

+1.010 -1.0010 + +1.0 = 0 0

Mantisse (binaire) Exposant (décimal)

-3

#3

Figure 3.2 – Exemples d’addition en virgule flottante.

des erreurs d’arrondis des additions successives qui la composent. Plus spécifiquement, étant donnée la non associativité de l’addition en VF (il est possible pour trois nombres en VF avf, bvf et cvf d’obtenir (avf + bvf) + cvf 6= avf + (bvf + cvf)). En effet, partant du principe

que la norme IEEE de l’arithmétique flottante [48] impose aux opérateurs arithmétiques de base (+, −, ×, ÷) de garantir une erreur absolue inférieur à 1

2ulp(xvf ⊙ yvf), o`u ⊙ est

une opération arithmétique de précision infinie, et o`_{u ulp(·) est la fonction unit in the last} place (ULP!) [77], il devient clair que chaque nouvelle addition opérée dans l’exécution de la sommation vient accroˆıtre l’erreur totale. C’est pourquoi la normeIEEEévoque l’exactitude de la sommation (sum) en virgule flottante sans lui imposer de contrainte réelle :

Sums are computed in a manner that avoids overflow or underflow in the calcu- lation and the final result is determined from that intermediate result.

Le travail de Higham [39] a permis d’établir une borne supérieure à l’erreur relative d’une sommation en virgule flottante. En notant SN le résultat exact de la sommation de N

nombres flottants xi (1 ≤ i ≤ N) et en notant ˆSN son approximation, on obtient :

| ˆSN − SN|

SN ≤

(N − 1)u

1 − (N − 1)uRN ≡ γ(N −1)RN (3.1) o`u RN =PN_i=1|xi|/|PN_i=1xi| est le conditionnement de la somme (une grande valeur de RN

indique un mauvais conditionnement) et u = 1

en double précision). Si N ≪ 1/u (ce qui est généralement le cas), alors γ(N )≃ Nu, de sorte

que l’erreur relative soit de l’ordre de Nu fois RN. Il convient de mentionner cependant que

l’équation 3.1 ne donne qu’une bonne supérieure à l’erreur relative — une borne pessimiste par ailleurs puisque l’erreur relative est généralement bien moins importante.

Techniques logicielles pour r´eduire l’erreur de la sommation

Il existe différentes techniques permettant d’améliorer l’exactitude d’une sommation. La plus connue d’entre elles est certainement la technique de Kahan [55], dont l’erreur relative est bornée par (2u + O(Nu2_))R

N, ce qui signifie que la sommation est aussi exacte que si elle

avait était opérée avec une précision double de la précision utilisée, puis que le résultat avait été arrondi ”conformément”1 _{: ainsi si le calcul était réalisé en simple précision, le résultat}

serait aussi exact que si la sommation avait été opérée en double précision, puis arrondie conformément à la simple précision.

Les techniques modernes dites de distillation sont plus élaborées que l’algorithme de Ka- han bien qu’elles en respectent l’esprit. On les appelle techniques de distillation car elles pro- cèdent en transformant les opérandes de départ pour des opérandes aux meilleures propriétés. Ainsi, la distillation substitue les opérandes yj (1 ≤ j ≤ M) aux opérandes xi (1 ≤ i ≤ N)

de sorte quePN

i=1xi =PM_j=1yj = SN, tout en veillant `a ce que le conditionnement du nouvel

ensemble d’op´erandes soit meilleur : PM

j=1|yj|/|PM_j=1yj| ≪PN_i=1|xi|/|PN_i=1xi|.

C’est ainsi qu’une K-tuple exactitude est rendue possible au moyen de la technique de distillation proposée dans [80] : une K-tuple signifie ici que le résultat de la sommation est aussi exact que s’il avait été mené avec K fois la précision employée, puis arrondi à la précision de travail (la technique de Kahan offre une K-tuple exactitude, où K = 2). L’algorithme de distillation ultime a par ailleurs été récemment proposé dans [103], garantissant une sommation exacte conformément arrondie, c.-à-d. que l’erreur relative est bornée par 2u, indépendamment de RN.

Techniques mat´erielles de sommation

Les approches matérielles ne souffrent pas des contraintes que subissent les approches logicielles où il n’est possible de faire autrement que d’employer les précisions disponibles sur la machine. Ainsi, il existe différentes formes d’opérateurs matériels de sommation. Certaines sont conventionnelles tandis que d’autres présentent des originalités topologiques assez frap- pantes. Ainsi, un opérateur de sommation peut prendre différentes formes. Par exemple. il

1. Arrondi conforme est une traduction libre du concept de faithful rounding présenté dans [103]. À toutes fins utile, cela signifie que l’on substitue la contrainte arrondi(x) ≤1

peut se concevoir comme un additionneur à plusieurs entrées dans lequel toutes les opé- randes sont traitées simultanément [112,117]. Il peut également se concevoir comme un accumulateur où les opérandes arrivent séquentiellement [62, 69, 89]. Il est également possible de fusionner l’additionneur multi-opérandes et l’accumulateur afin d’augmenter le débit du sommateur [76,125]. D’autres approches plus ou moins exotiques sont également rapportées dans la littérature [56,111].

L’exactitude d’une sommation matérielle dépend bien évidemment de la stratégie adop- tée. Ainsi, il est relativement aisé d’assurer un résultat exactement arrondi au prix d’une mantisse interne très large [5, 62, 112]. Il est également possible de borner l’erreur par des approches topologiques. Par exemple, un arbre binaire d’additionneur a une erreur relative bornée par γlog2(N )RN [39]. Notre contribution dans cette thèse est une méthode de somma-

tion matérielle inspirée de la technique dite d’auto-alignement [69, 116] qui se traduit par une exactitude K-tuple, exprimée par une logique de contrôle fort simple tout en permettant la réalisation d’une accumulation à un cycle en simple et en double précision.

Dans le document Opérateurs et engins de calcul en virgule flottante et leur application à la simulation en temps réel sur FPGA (Page 54-57)