Relative Distance

(1)

Chapitre 2 : Analyse d’erreurs

Maarten Jansen Table de mati `eres

•Introduction au calcul num ´erique

•Analyse d’erreurs

•R ésolution des syst èmes lin éaires

•Interpolation

•Lissage (Curve fitting, Smoothing)

•R ésolution num érique des équations diff érentielles ordinaires

•R ésolution des équations non lin éaires

M. Jansen, G. Bontempi INFO-F-205 Calcul Num ´erique — Chap. 2: Analyse d’erreurs p.1

Aperc¸u du chapitre 2

1. Illustrations(Slide 3)

2. Typologie des erreurs(Slide 7)

3. Repr ´esentation des nombres en machine(Slide 14) 1. Notation `a virgule fixe.

2. Notation `a virgule flottante.

4. Les erreurs au fil des calculs num ´eriques(Slide 50)

1 : QUELQUES ILLUSTRATIONS

Arithm ´etique et calcul num ´erique

Il fait combien le calcul2.6 + 0.2 + 0.2 + 0.2?

>> format long e

>> 2.6+0.2 ans =

2.800000000000000e+000

>> ans+0.2 ans =

3.000000000000000e+000

>> ans+0.2 ans =

3.200000000000001e+000

Explication: la repr ´esentation de 0.2 en machine est hexad ´ecimale : 1/5 = 3/16 + 1/16∗1/5 = (0.3333333333. . .)_H

Probl `eme derepr ´esentation

(2)

Arithm ´etique et calcul num ´erique

Il fait combien le calcul√ 2∗√

2−2?

>> sqrt(2)*sqrt(2)-2 ans =

4.440892098500626e-016

Explication: probl `eme d’arrondi suite `a uncalcul

Arithm ´etique et calcul num ´erique

Il fait combien le calcul1−3∗(4/3−1)?

>> a=4/3 a =

1.33333333333333

>> b=a-1 b =

0.33333333333333

>> c=1-3*b c =

2.220446049250313e-016

Arithm ´etique et calcul num ´erique

Supposons que je somme un nombre positif `a1un milliard de fois. Est-ce que le r ´esultat sera plus grand que1?

format long x=1;

delta=eps/2;

delta>0 no_iter=1e8;

for (i=1:no_iter) x=x+delta;

end x x>1 pause

(x+delta*no_iter)>1

2 : TYPOLOGIE DES ERREURS

Erreurs

•Chaque analyse num ´erique doit se confronter avec une certaine dose d’erreurs.

•Qu’est-ce qu’une erreur ?

•D’o `u viennent les erreurs ?

•Quelles cons ´equences ont-elles ?

•Comment analyser leurs effets ?

(3)

Nombre approch ´e

•Un nombre approch éxbest un nombre l ég èrement diff érent du nombre exactxet qui dans le calcul remplace ce dernier.

•Si l’on sait quex < xb ,xbest dit valeur approch ´ee du nombrexpar d ´efaut ;

•^sibx > x,bxest une valeur approch ´ee par exc `es.

•^Soit x = √

2. Le nombre xb = 1.41 est une valeur approch ée par d éfaut, alors que le nombrexb = 1.42 est une valeur approch ée par exc ès.

•^Sixbest une valeur approch ´ee dexon notexb≈x

Erreur absolue

D éfinitionOn appelle erreur absolueδ_xd’un nombre approch é bxla valeur absolue de la diff érence entre le nombre exactxcorrespondant et le nombre approch é donn é δ_x=|xb−x|.

D éfinition : L’ écart relatifd’un nombre approch ébxest le rapport ρ_x= ^bx−x x . Cette relation peut aussi être écrite sous la forme bx=x(1 +ρ_x).

Erreur relative

D éfinition : L’erreur relativeεxd’un nombre approch éxbest la valeur absolue de l’ écart relatif, c.- à-d. le rapport de l’erreur absolueδ_xde ce nombre et du module du nombre exact correspondant (six6= 0)

ε_x=|ρ_x|= xb−x

x = δx

|x|

L’erreur relative fournit une information plus pertinente sur la grandeur r ´eelle de l’erreur. Cependant, elle n’est d ´efinie que pourx6= 0.

D éfinition : La borne sup érieure d’erreur relativeud’un nombre approch é b

xdonn é est un nombre quelconque sup érieur ou égal à l’erreur relative de ce nombre ε_x=|ρ_x| ≤u

Sources d’erreurs : erreurs de mod ´elisation

Les erreurs commises dans les probl ème math ématiques peuvent être en principe class ées en cinq cat égories.

Les deux premiers types d’erreur sont regroup és sous le nom d’erreurs de mod élisationtandis que les trois derniers sont appel éserreurs num ériques.

•Erreurs de mod èle: ces erreurs sont dues au fait que les mod èles math ématiques sont plus ou moins id éalis és, ce qui donne lieu à plusieurs erreurs. Un exemple est l’erreur du mod èle du pendule qui ne tient pas en consid ération la force de friction.

•Erreurs de mesure : ces erreurs sont dues à la pr ésence dans le mod èle math ématique de param ètres num ériques dont les valeurs ne peuvent être observ ées ou d étermin ées qu’approximative- ment suite à des mesures exp érimentales. Telles sont toutes les constantes physiques, comme, par exemple, la longueur l dans le mod èle du pendule.

(4)

Sources d’erreurs : erreurs num ´eriques

•Erreurs d’approximation ou de troncature : ces sont les erreurs associ ées aux processus infinis en analyse math ématique (par exemple les s éries num ériques).e= 1 + 1

1!+ 1 2!+ 1

3!+. . .

•Erreurs d’arrondi : ce sont les erreurs associ ées au syst ème de num ération. Elles sont dues au fait qu’un ordinateur ne peut prendre en consid ération qu’un nombre fini de chiffres.

•Erreurs de propagation et g én ération : ces sont les erreurs qui apparaissent dans le r ésultat d’une op ération comme cons équence des erreurs des op érandes.

Dans ce qui suit nous allons nous int ´eresser aux deux derniers types d’erreur.

Les erreurs num ériques et les propri ét és d’un algorithme

•Voir chapitre 1

•Erreurs d’approximation ou de troncature: mesur ´ees par laconsis- tancede l’algorithme

•Erreurs de propagation: li ´ees auconditionnementde l’algorithme

•Erreurs de g én ération: li ées à lastabilit éde l’algorithme

•Erreurs d’arrondi : li ées à larepr ésentationdes nombres en machine (voir page suivante)

3 : REPRESENTATION DES NOMBRES EN MACHINE

Probl ´ematique

•Un ordinateur ne peut repr ´esenter qu’un sous-ensemble fini de l’ensemble des nombres r ´eels.

•Toute op ´eration d’un ordinateur est entach ´ee par des erreurs d’arrondi.

•^Notationsadopt ées pour repr ésenter les nombres r éels sur ordinateur :

1. Syst `eme `a virgule fixe.

2. Syst `eme `a virgule flottante.

•Le syst ème de notations d éfinit l’ensemble^Fdes nombres repr ésent és sans arrondi.

Carat ´eristiques de^F: epsilon machine+wobling precision

•Les arrondis lors de la repr ésentation des nombres r éels hors de^F overflow, underflow, la pr écision machine

La notation `a virgule fixe

Soitxun nombre r éel. Sa repr ésentation en virgule fixe est {[a_na_n−1. . . a₁a₀,a₋₁a₋₂. . . a_−m], b, s}avec les d éfinitions suivantes

•^{La base}b∈^N^,b≥2

La base n’est jamais repr ésent ée de mani ère explicite, il s’agit d’une convention implicite

•^{Le signe}s∈ {0,1}

•Les symbolesa_i∈^N^,0≤a_i< b,i=−m, . . . , n

•md ´esigne le nombre de chiffresapr `es la virgule

•n+ 1est le nombre de chiffresavant la virgule La valeurx∈^R^estx= (−1)^s



 Xn k=−m

akb^k



.Sis= 0,xest un nombre positif, autrement il est un nombre n ´egatif.

(5)

Exemples

Soientb= 10,n= 3,m= 6,s= 0. Alors

•l’ écriture à virgule fixe[0030,421000]d ésigne le r éelx= 3·10¹+ 0· 10⁰+ 4·10⁻¹+ 2·10⁻²+ 1·10⁻³= 30.421

•l’ écriture[0000,043700]d ésigne le r éelx= 0.0437. Soientb= 16,n= 3,m= 6,s= 0. Alors

•l’ écriture[0030,421000]d ésigne le r éel3·16¹+ 0·16⁰+ 4·16⁻¹+ 2· 16⁻²+ 1·16⁻³= 48.258

•l’ écriture[0000,043700]d ésigne le r éelx= 0.0165.

Symboles et nombres

Il est important de remarquer la diff ´erence qui existe entre symboles et nombres.

•[111,101]→^nombre111.101si et seulement sib= 10, autrement

•[111,101]→^nombre7.625pourb= 2

•[111,101]→^nombre13.3704pourb= 3

N.B : Le nombre0.1 a une repr ésentation finie en baseb = 10mais il a une repr ésentation infinie p ériodique en baseb= 2.

Bases

Les ordinateurs emploient souvent trois bases :

•b= 10

— syst `eme d ´ecimal

— symboles :0,1,2,3,4,5,6,7,8,9

— affichage des r ´esultats

•b= 2

— syst `eme binaire

— symboles :0,1(bits)

— calcul.

•b= 16

— syst `eme hexad ´ecimal

— symboles :0,1,2,3,4,5,6,7,8,9, A, B, C, D, E, F

— repr ´esentation compacte des binaires par quadruplets.

Du binaire `a l’hexad ´ecimal

0000 0 0001 1 0010 2 0011 3 0100 4 0101 5 0110 6 0111 7 1000 8 1001 9 1010 A 1011 B 1100 C 1101 D 1110 E 1111 F

(6)

Propri ´et ´es

•La chaˆıne de caract ères n écessaire à la repr ésentation d’un m ême nombre est autant plus longue quela base est petite.

•Les nombres en virgule fixe sont équir épartis le long de la droite r éelle.

•L’ écart entre deux nombres cons écutifs r éels qui peuvent être repr ésent és en notation à virgule fixe est égal àb⁻^m.

•L’utilisation de la virgule fixe limite consid érablement les valeurs maxi- males et minimales des nombres repr ésent és par l’ordinateur.

•Dans le cas binaire, le nombre plus grande que peut être repr ésent é en notation fixe est pr és de2ⁿ⁺¹−1o ùn+ 1est le nombre de cases avant la virgule.

Notation en virgule flottante

étant donn é un nombre r éel non nul x, sa repr ésentation en virgule flottante est{[a₁a₂. . . a_t], e, b, s}avec les d éfinitions suivantes :

•^{La base}^:b∈^N^,b≥2(convention implicite)

•^L’exposant^:e∈^Z^,L≤e≤U (convention implicite)

•^{Le signe}^:s∈ {0,1}

•Le nombre de chiffres significatifs:t

•Les symbolesa_i∈^N; 0≤a₁< b

•Notation normalis ´ee:a_i∈^N^, 0<a₁< b, 0≤a_i< b, i= 2, . . . , t Sans normalisation, la notation en virgule flottante n’est pas unique.

•La mantisse:

la quantit ´em∈^Nm=m[x] = Xt

i=1

aib^t−i=a1b^t−1+a2b^t−2+· · ·+at

Notation en virgule flottante (II)

•Nous ne consid érons que le cas normalis é, c.- à-d. a₁>0 qui implique la relation suivante b^t−1≤m≤b^t−1

•La notation{[a₁a₂. . . a_t], e, b, s}est utilis ée pour encoder le nombre r éel x= (−1)^sbê

Xt i=1

a_ib⁻ⁱ= (−1)^smb^e⁻^t

Attention : avant la multiplication avec b^e, toute la mantisse n’ap- paraˆıt qu’apr `es la virgule, y compris le premier chiffre significatif. Ceci est en contraste avec la notation scientifique.

Exemple(Matlab) La notation (scientifique)1.e-3repr ésente le nombre 0.001. La repr ésentation de ce nombre en machine d épend de la machine. Avec une baseb= 10, on aurait un exposant dee=−2. La valeur de la mantisse d épend du nombre de chiffres significatifs.

Exemples

•La notation à virgule flottante{[3,4], e= 1, b = 10, s= 0}d ésigne le r éel

x= (−1)^sb^e Xt

i=1

a_ib⁻ⁱ= 10¹(3·10⁻¹+ 4·10⁻²) = 0.34·10¹= 3.4 qui peut ˆetre obtenu aussi par

x= (−1)^smb^e⁻^t=

" _t X

i=1

a_ib^t⁻ⁱ

#

b^e⁻^t= 34·10¹⁻²= 3.4

•La notation{[3,4], e=−1, b= 10, s= 1}d ´esigne le r ´eel x=−0.34·10⁻¹= 0.034

•La notation{[3,4], e=−1, b= 16, s= 1}d ´esigne le r ´eel x= (−1)¹16⁻¹(3·16⁻¹+ 4·16⁻²) =−0.0127

(7)

Propri ét és nombres à virgule flottante

•^{Notons par}^F(b, t, L, U)l’ensemble des nombres r éels qui sont repr ésent és par une notation à virgule flottante en baseb, comportanttchiffres significatifs et dont l’exposant varie dans l’intervalle[L, U].

•^L’ensemble^Fne contient pas le z éro si la repr ésentation est normalis ée.

•^L’ensemble^Fdes nombres `a virgule flottante est un sous-ensemble fini de^R ^F(b, t, L, U)⊂^R

•Une relation int ´eressante est la suivante x∈^F(b, t, L, U)⇒b^(L⁻¹⁾≤ |x| ≤b^U(1−b⁻^t)

La relation⇐n’est pas correcte puisque^Fest un ensemble fini.

Propri ét és nombres à virgule flottante (II)

•On peut montrer que#(^F) = 2(b−1)b^t⁻¹(U−L+ 1)o `u#(E)d ´enote le cardinal d’un ensembleE.

•A la diff érence des nombres à virgule fixe, les nombres r éels qui appartienent à l’ensemble ^Fne sont pas équir épartis le long de la droite r éelle.

•Donc, il est important d’ évaluer l’ écart entre deux nombres cons écutifs.

Exemple :

^F

(10, 1, − 1, 1)

[a1] =m e x=mb^e⁻^t

1 -1 0.01

2 -1 0.02

3 -1 0.03

. . . -1 . . .

9 -1 0.09

1 0 0.1

2 0 0.2

. . . 0 . . .

9 0 0.9

1 1 1

2 1 2

. . . ¹ ^{. . .}

9 1 9

Notons que #(^F) = 2(b−1)b^t−1(U −L+ 1) = 2(9)10⁰(3) = 54(positifs et n égatifs confondus) et que l’ écart entre deux nombres cons écutifs est égal à bê⁻^t.

Fonction MATLAB

function r=flo2real(m,e,b,s)

% flo2real: from Floating Point notation to

% real notation

%

% FLO2REAL(M,E,B,S)

% M - [1,T] vector of significant digits

% E - [1,1] exponent

% B - [1,1] base

% S - [1,1] signum: 0 for positive, 1 for negative

%

% Returns R [1,1] real number in decimal format

(8)

Exemple MATLAB

>> flo2real([3 4],1,10,0) ans =

3.4000

>> flo2real([3 4],-1,10,0) ans =

0.0340

>> flo2real([3 4],-1,16,1) ans =

-0.0127

Fonction MATLAB

function [F,card]=floset (b,t,L,U)

% floset: returns the set of real numbers represented

% by the floating point notation

%

% FLOSET(B,T,L,U)

% b- [1,1] base

% t- [1,1] number of significant digits

% L- [1,1] lower bound exponent

% U- [1,1] upper bound exponent

%

% Returns:

% F- [card,1] set of real numbers represented by the normalised

% floating point notation

%

% card: cardinality of the set F

Distances absolues

Les nombres à virgule flottante ne sont pas équir épartis le long de la droite r éelle (s floset.m).

>> b=10; t=1; L=-1;U=1;

>> [f,c]=floset(b,t,L,U);

>> plot(f,zeros(size(f)),’*’)

-10 -8 -6 -4 -2 0 2 4 6 8 10

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

b=10 t=1 L=-1 U=1

Distance relative

Nous d éfinissons ladistance relativeentre2nombres cons écutifsx_i∈^Fêt x_i+1∈^F^par η(x_i) =

xi+1−xi

x_i

Cette distance peut être d ériv ée en fonction des param ètres du syst ème de notation six_i+1etx_iont le m ême exposant

η(x_i) =

x_i+1−x_i x_i

=m[x_i+1]b^e⁻^t−m[x_i]b^e⁻^t

m[x_i]b^e⁻^t = b^e⁻^t

m[x_i]bê⁻^t = 1 m[x_i], o ùm[xi]est la mantisse du nombre r éelxi.

Notons que le r ´esultat est valable aussi six_i+1 a un exposant plus grand que x_i. Dans ce cas

x_i+1 = b^t−1b^e+1−t=b^e

x_i = (b^t−1)bê⁻^t=bê−bê⁻^t et doncx_i+1−x_i=bê−t

Conclusion pour toutexi: η(xi) =_m[x¹_i_]

(9)

Distance relative (II)

Puisqueb^t> m≥b^t⁻¹⇒b⁻^t< 1

m≤b¹⁻^t,on obtientǫ b <

x_i+1−x_i x_i

≤ǫ, c. `a-d. ^ǫ_b < η(x_i)≤ǫ o `u ǫ=b^1−t est dit l’epsilon machine(epsen MATLAB)

L’epsilon machine ǫ est la distance relative maximale entre deux nombres cons ´ecutifs en^F(= `a virgule flottante)

La distance relative minimale entre deux nombres `a virgule flottante est donn ´ee parǫ/b

Consid érons le nombre x_i = 1. Puisquem = b^t⁻¹ x_i = mbê⁻^t = b^t⁻¹bê⁻^t = bê⁻¹= 1⇒e= 1

Doncxi+1−xi

x_i =x_i+1−x_i=b¹⁻^t=ǫ Il s’ensuit que :

ǫest la distance entrex_i= 1et le prochain nombre r ´eelx_i+1 = 1 +ǫ qui appartient `a^F.

Exemple :

^F

(10, 1, − 1, 1) (II)

[a1] =m[xi] e xi η(xi) =|xⁱ⁺¹−xi|/|xⁱ| 1 -1 0.01 (0.02-0.01)/0.01=1 2 -1 0.02 (0.03-0.02)/0.02=1/2

. . . -1 . . . . . .

8 -1 0.08 (0.09-0.08)/0.08=1/8 9 -1 0.09 (0.1-0.09)/0.09=1/9 1 0 0.1 (0.2-0.1)/0.1=1

. . . 0 . . . . . .

8 0 0.8 (0.9-0.8)/0.8=1/8 9 0 0.9 (1-0.9)/0.9=1/9

1 1 1 (2-1)/1=1

2 1 2 (3-2)/2=1/2

. . . 1 . . . . . .

8 1 8 (9-8)/8=1/8

9 1 9

Comme attendu, la distance relative est born ´ee entreb⁻^t= 0.1etb¹⁻^t= 1.

Ph ´enom `ene du wobbling

•^Soit^F(10,1,−1,1). Nous trac¸ons les distances relativesη(x_i)en fonction des r ´eelsx_i∈^F^,

1 2 3 4 5 6 7 8 9

0 0.2 0.4 0.6 0.8 1

Floating point numbers

Relative Distance

•Conform ément aux formules th éoriques, les bornes inf érieure et sup érieure sont respectivementb^−t= 0.1etb^1−t= 1.

•Le ph ´enom `ene d’oscillation des distances relativesη(x_i)est connu sous le nom dewobbling precision.

•Il est d’autant plus prononc é que la base b est grande. C’est une raison pour laquelle on pr éf ère employer de petites bases.

Espace m ´emoire et repr ´esentation

•Pour un espace m émoire fix é à l’avance, le syst ème à virgule flottante permet la repr ésentation d’un plus grand intervalle des nombres.

•Consid érons une notation binaire (b= 2) à virgule flottante qui utilise 1bit pour le signe,t = 23bits pour la mantisse et8bits (incluant le signe) pour l’exposant. La valeur absolue la plus grande parmi les x∈^Fêst|x_maxfl| ≈2Û = 2⁽²⁷⁻¹⁾.

•Pour avoir une valeur maximale comparable, le syst ème à virgule fixe devrait avoir un nombren+ 1de cases (seulement pour la partie enti ère) tel que|x_maxfix| ≈2ⁿ⁺¹−1 = 2⁽²⁷⁻¹⁾.

•^{Au moins} (n+ 1)≈ 2⁷−1 = 127bits sont n écessaires pour obtenir un intervalle de valeurs comparable à celui du syst ème en virgule flottante.

(10)

Repr ´esentation machine des r ´eels

•Consid ´erons un ordinateur qui utilise la notation `a virgule flottante avec baseb,tchiffres significatifs etL≤e≤U.

•Dans un tel ordinateur, seul un sous-ensemble^F(b, t, L, U) ⊂ ^R^de nombres r éels peut être repr ésent é et manipul é.

•Par cons équent, nous sommes confront és au probl ème de repr ésentation d’un nombre r éel quelconquex∈^Rqui n’appartient pas à^F.

•L’approche typique consiste à arrondirxde façon à ce que le nombre arrondi appartienne à^F.

Repr ´esentation machine des r ´eels (II)

Trois situations peuvent se produire

1.|x|> bÛ(1−b⁻^t): le nombrexne peut être repr ésent é par le syst ème de notation et on dit que nous sommes dans une situation d’overflow.

L’overflow provoque normalement une interruption du programme par le syst `eme.

2.|x|< b^L⁻¹: dans ce cas on parle d’underflow. D’habitude l’underflow est g ér é en remplaçantxpar0.

3.b^L−1≤ |x| ≤bÛ(1−b^−t)etx6∈^F: dans ce cas, en prenant un nombre des chiffres significatifs infini, le nombrex6∈^Fpeut être repr ésent é de la mani ère suivante{[a₁a₂. . . a_ta_t+1a_t+2. . .], e, b, s}^{o ù}e∈[L, U].

Repr ´esentation machine des r ´eels (III)

Dans le troisieme cas, deux transformations dexsont possibles :

•Transformation d’arrondi:x→fl(x)o `ufl(x)∈^F(b, t, L, U)a comme notation en virgule flottantefl(x) ={[a₁a₂. . . a^∗_t], e, b, s}^et

a^∗_t =

a_t si a_t+1< b/2 a_t+ 1 si a_t+1≥b/2

•Transformation de troncature:x→tr(x)o `utr(x)∈ ^F(b, t, L, U)a comme notation en virgule flottantetr(x) ={[a₁a₂. . . a_t], e, b, s}

L’erreur d’arrondi

•Voir aussi slide 10

•Consid ´erons un ordinateur utilisant une notation^F(b, t, L, U).

•^Soitx∈^Run nombre r éel quelconque etfl(x)∈^Fla repr ésentation machine à virgule flottante dex.

•D ´esignons parε_xson erreur relative ε_x=|fl(x)−x|

|x| .

•Nous allons ´evaluer la borne sup ´erieure de l’erreur relative d’arrondi.

•^Soientx_i∈^F(b, t, L, U)etx_i+1∈^F(b, t, L, U)les2nombres cons ´ecutifs

`a virgule flottante tels quex_i≤x≤x_i+1.

(11)

L’erreur d’arrondi (II)

•^Puisque|fl(x)−x| ≤1

2|xi+1−xi|^etx≥xi, il vient alors que ε_x≡ |ρ_x|=|fl(x)−x|

|x| ≤1 2

xi+1−xi

x_i ≤1

2b¹⁻^t=1 2ǫ=u o `uuest dite lapr ´ecision machine. ε_x≤ǫ/2

•^{On obtient} bx= fl(x) =x(1 +ρx) o `u εx = |ρx| ≤ uest dit l’erreur d’arrondi.

•La pr ´ecision machine donne l’ordre de grandeur de la meilleure pr ´ecision atteignable sur un ordinateur !

Standard IEC/IEEE

•N écessit é d’ éviter une prolif ération de syst èmes de repr ésentation, qui diff èrent en base, nombre de chiffres significatifs et exposants.

•Le standard le plus r épandu est le standard connu sous le nom IEC 559. Ceci a ét é d évelopp é par le IEEE (Institute of Electrical and Electronic Engineers) en 1985 et approuv é en 1989 par le IEC (International Electronic Commission).

•Le standard sp ´ecifie, entre autres,

— les op ´erations arithm ´etiques de base,

— la racine carr ´ee,

— le reste,

— la conversion entre repr ´esentation d ´ecimale et binaire,

— le comportement suite `a un overflow/underflow

•Le but est d’ éviter les incompatibilit és entre ordinateurs diff érents.

Codages sp ´eciaux

•Le standard IEEE d éfinit aussi les codages sp éciaux en utilisant des notations non-normalis ées pour les situations exceptionnelles qui ne sont pas couvertes par le codage standard.

•Un exemple sont les non-nombres (en abr ég é NaN pour Not a Number) qui correspondent entre autres au r ésultat de la division0/0.

Valeur Exposant Mantisse MATLAB

0 L−1 0 0000000000000000

∞ U+ 1 0 7f f0000000000000

−∞ U+ 1 0 f f f0000000000000 NaN U+ 1 6= 0 f f f8000000000000

Formats `a simple pr ´ecision

Supposons qu’un ordinateur dispose deN cases m ´emoires pour stocker un nombre. Il y a typiquement sur un ordinateur deux formats disponibles pour les nombres `a virgule flottante.

•Pr´ecision simple:N = 32bits r ´epartis comme suit :

— 1 bit pour le signe

— 8 bits pour l’exposant (en incluant le signe de l’exposant)

— 23 bits pour la mantisse

(12)

Formats `a double pr ´ecision

•Pr´ecision double:N = 64bits r ´epartis comme suit :

— 1 bit pour le signe

— 11 bits pour l’exposant (en incluant le signe de l’exposant)

—52bits pour la mantisse

— dans la notation binaire normalis ´ee, le premier bit est toujours

égal à 1. Ceci permet d’eviter de le stocker.Donc avec 52bits on a le m ême pouvoir de repr ésentation det= 53.

— l’epsilon machine estǫ= b¹⁻^t= 2⁻⁵² = 2.2·10⁻¹⁶. En Matlab la variableepsrepr ´esente cette valeur.

— la double pr écision en baseb= 2corresponde à une pr écision à 16chiffres significatifs dans le cas d écimal (b= 10).

Repr ´esentation MATLAB

>> format hex

>> pi ans =

400921fb54442d18

La repr ´esentation binaire deπen Matlab est donc 0100|{z}

4

0000|{z}

0

0000|{z}

0

1001|{z}

9

0010|{z}

2

0001|{z}

1

1111|{z}

f

1011|{z}

b

0101|{z}

5

0100|{z}

4

0100|{z}

4

0100|{z}

4

0010|{z}

2

1101|{z}

d

0001|{z}

1

1000|{z}

8

|{z}0 signe

10000000000

| {z } exposant

1001001000011111101101010100010001000010110100011000

| {z }

mantisse

Repr ´esentation MATLAB (II)

•0est le bit du signe (positif)

•^les 11 bits 10000000000 repr ´esentent l’exposant (L = −1021, U = 1024)

•^les52bits restants

{a₂, . . . , a_t}= 1001001000011111101101010100010001000010110100011000 sont les52chiffres significatifs. Notons que il faut faire pr ´eceder ces bits par un bit additionnel a₁ = 1 pour avoir l’ensemble dest = 53 chiffres significatifs.

•La valeur de l’exposant est2¹⁰−1022 = 1024−1022 = 2

•La valeur de la quantit ´ePt

i=1a_ib⁻ⁱest0.785398≈π/4.

•La valeur de la quantit ´e(−1)^sb^e^P^t_i=1a_ib⁻ⁱ= 3.14159

Repr ´esentation MATLAB (III)

MATLAB utilise11bits pour l’exposant. Au total,2¹¹ = 2048valeurs dans l’intervalle[0,2047]sont possibles et elles sont reparties de la mani `ere suivante :

•U + 1 = 1025quande= 11111111111. Il est utilis ´e pour±InfetNaN.

•U = 1024quand e = 11111111110. Le nombre reel le plus grand en valeur absolu et appel ´erealmaxet a valeur1.79·10³⁰⁸.

•L = −1021 quande = 00000000001. Le nombre reel le plus petit en valeur absolu et appel ´erealminet a valeur2.25·10⁻³⁰⁸.

•L−1 =−1022quande= 00000000000. Il est utilis é pour repr ésenter le z éro

(13)

Pr ´ecision vs. domaine

Domaine : realmin=b^L−1 realmax=b^U(1−b⁻^t)

realminest le premier nombre r éel apr ès 0 qui appartien à^F. d étermin é par le nombre de bits assign és à

1. l’exposant 2. la base.

Pr ´ecision :eps/2(voir p.32) eps=ǫ=b¹⁻^t

1 +eps= 1 +ǫest le premier nombre r éel apr ès 1 qui appartien à^F. d étermin ée par le nombre de bits assign és aux

1. chiffres significatifs 2. la base.

Pr ´ecision vs. domaine (2)

Pour un nombre fixe de cases m ´emoires :

•en échangeant bits de la mantisse contre bits de l’exposant, nous sacrifions la pr écision au b én éfice de l’amplitude du domaine — o ù

amplitude =realmax/realmin (et vice-versa).

•en augmentant la base, nous élargissons le domaine mais nous as- sistons par cons équent à un ph énom ène de wobbling plus important (et vice-versa)

4 : LES ERREURS AU FIL DES CALCULS

Erreurs de propagation et de g ´en ´eration

•Nous avons vu comme chaque repr ésentation machine d’un r éel implique une approximation et introduit par cons équence, une erreur relativeε_ddite d’arrondi.

•Ceci est valable aussi pour les donn ées d’un probl ème num érique x=F(d). En appliquant la formule de l’erreur d’arrondi on obtient

fl(d) =d(1 +ρd) (voir slide 40) avec |ρd| ≤u= 1 2b¹⁻^t.

•La propagation des erreurs d’arrondi des donn ées pendant la r ésolution d’un probl ème num érique engendre deux types d’erreur :

1.(Conditionnement):L’erreur de propagationdue au probl ème 2.(Stabilit é)L’erreur de g én érationdue à l’algorithme.

Approximation de Taylor d’ordre 1

Si la fonctionF admet une d ériv ée d’ordre 1 dans un voisinage dexde taille δon peut écrire la fonctionF de la mani ère suivante :

F(x+δ) =F(x) +F^′(x)δ+err(δ) o `uerr(δ) =o(δ)c.- `a-d. lim

δ→0

err(δ) δ = 0

Le d éveloppement limit é d’ordre 1 consiste à approcherF(x+δ)par F(x+δ)≈F(x) +F^′(x)δ

(14)

L’erreur de propagation

•Consid érons le probl ème math ématique bien pos éx = F(d) o ù d repr ésente les donn ées du probl ème.

•Supposons qu’un ordinateur avec notation à virgule flottante^F(b, t, L, U) est utilis é pour r ésoudre le probl ème.

•Pour ce faire, les donn éesddoivent être introduites et cod ées par la machine.

•Ceci engendre une approximation des donn ées pardb= fl(d) =d(1 + ρ_d)o ùd∈^Rêtd^b∈^F^.

L’erreur de propagation et le conditionnement

•En appliquant la fonctionF(·)aux donn ´eesdb, on obtient F(d) =b F(d(1 +ρ_d)) =F(d+dρ_d)

≈ F(d) +F^′(d)dρd=x1 +^F^′_F^(d)dρ_(d)^d=x(1 +κ(d)ρd)

o ùρdest l’ écart relatif d û à l’arrondi des donn ées etκ(d)est le conditionnement du probl ème.

•^{Donc :} κ(d) =F^′(d)dρ_d F(d)

• F(d)^b ≈F(d)(1 +κ(d)ρ_d)

•κρ_dest d ´efini commel’erreur de propagation

L’erreur de propagation et un nouvel arrondi

•^{Bien que}F(d)^b ∈^Ril pourrait se produire queF(d)^b 6∈^F(b, t, L, U).

•Dans ce cas l’ordinateur renvoie comme r ´esultat final de l’ ´evaluation b

x= fl(F(d)) =^b x(1 +κρ_d)(1 +ρ_F(_d)_b)≈x(1 +κρ_d+ρ_F(_d)_b) o `uρ_F(_d)_b d ´esigne l’erreur d’arrondi deF(d)^b

etκρ_d ´etait l’erreur de propagation (voir slide 53)

•si le conditionnementκ >1, le calcul de la solution par le biais d’une machine a comme cons ´equence l’agrandissement de l’erreur initiale ρ_d.

Propagation et arrondi (r ´esum ´e graphique)

F(d)^b ≈x(1 +κρ_d) x_b= fl(F(d))^b ≈x(1 +κρ_d+ρ_F₍_d)_b)

d

erreur propagation d x

d δd

δx

x

erreur arrondi

F( )

(15)

Exemple particulier : l’erreur d’annulation

•Un cas particulier d’erreur de propagation est l’erreur d’annulation.

Ceci se v érifie pendant la soustraction de deux termes tr ès rap- proch és.

•Consid ´erons une repr ´esentation en virgule flottante avec baseb= 10 ett= 4chiffres significatifs.

•^Soit x = F(d) = d−1 le probl ème à r ésoudre etd = 1.00098 = 100098·10⁻⁵la donn ée.

•La solution exacte estx= 0.00098.

•Apr `es le codage du nombre r ´eelden notation machine (t = 4), on obtientdb= 1.001 = 1001·10⁻³.

L’erreur d’annulation (II)

•L’erreur relative de la donn ´ee approch ´ee est ε_d=

db−d d

=

1.001−1.00098 1.00098

≈ 1

50000.

Cette quantit é est petite et peut être consid ér ée comme n égligeable.

•En r ésolvant le probl ème à l’aide de la machine, on obtient la solution approch éexb= 0.001 = 1000·10⁻⁶∈^F(b, t, L, U).

•L’erreur relative de la solution approch ´ee est ε_x=

F(d)^b −x x

=

0.001−0.00098 0.00098

≈ 1

50. donc, cette quantit ´e n’est pas n ´egligeable

L’erreur d’annulation (III)

•l’erreur d’annulation est égale au produit du conditionnement du probl ème par l’erreur relative d’entr ée

ε_x = κ(d)ε_d≈ |F^′(d)| |d|

|F(d)|ε_d = |d|

|d−1|ε_d = |1.00098|

|1.00098−1|ε_d

≈ 1000· 1 50000= 1

50

Consid ´erations

• ^{Erreurs de}propagation→conditionnementdu probl `eme Cas sp ´ecial : erreur d’annulation

•Le fait qu’un probl ème soit bien/mal conditionn é est une propri ét é ind épendante de l’algorithme num érique choisi pour r ésoudre le probl ème.

•L’erreur de propagation ne peut pas être évit ée en changeant la m éthode num érique.

•Ensuite nous allons introduire l’erreur de g én ération qui, au contraire de l’erreur de propagation, d épend de la m éthode num érique.

(16)

L’erreur de g ´en ´eration

•Supposons que le probl èmex=F(d)soit r ésolu par un algorithme d écomposable en une s érie d’ étapes :

x₁=F₁(d), x₂=F₂(x₁), x₃=F₃(x₂), . . . , x=F_n(x_n−1).

•^Soitd∈^Rla donn ´ee cod ´ee par la machine endb=d(1 +ρd).

•Apr ès la premi ère étapex₁=F₁(d), l’algorithme g én ère b

x₁ = fl(F₁(fl(d))) = fl(F₁(d(1 +ρ_d)))

= x₁(1 +κ₁ρ_d)(1 +ρ₁)

= x₁(1 +κ₁ρ_d+ρ₁+κ₁ρ_dρ₁)

= x₁(1 +ρ^c_x₁)

o ùκ1est le conditionnement deF1,ρ1est l’erreur d’arrondi commise pour stocker le r ésultat de la premi ère étape et

ρ^c_x₁= (κ₁ρ_d+ρ₁+κ₁ρ_dρ₁)≈(κ₁ρ_d+ρ₁).

en n ´egligeant les termes petits d’ordre sup ´erieur.

•Cfr. calcul p.53

L’erreur de g ´en ´eration (II)

•à chaque étape la machine ex écute le calcul et transforme le r ésultat en virgule flottante.

•Ceci engendre à chaque étape une erreur additionnelle d’arrondi qui va se propager dans les étapes successives.

•A la deuxi `eme ´etape, puisqueρ^c_x₁≈(κ₁ρ_d+ρ₁)on obtient b

x₂ = fl(F₂(x₁(1 +ρ^c_x₁)))

= x₂(1 +κ₂ρ^c_x₁)(1 +ρ₂)

≈ x₂(1 +ρ₂+κ₂ρ₁+κ₂κ₁ρ_d)

•D’une mani ère r écursive on d éduit que à la troisi ème étape b

x₃=x₃(1 +ρ₃+κ₃ρ₂+κ₃κ₂ρ₁+κ₃κ₂κ₁ρ_d) et à lan-i ème étape

b

x≈x(1+

err. arr

z}|{ρ_n +κ_nρ_n₋₁+κ_nκ_n₋₁ρ_n₋₂+· · ·+κ_n. . . κ₂ρ₁

| {z }

erreur g ´en ´eration

+

err. prop z }| { κ_n. . . κ₁ρ_d)

x erreur propagation

erreur generation erreur arrondi x

d x d δd

δ

Les trois composantes de l’erreur

L’erreur finale est compos ´ee de trois parties :

•l’erreur d’arrondi

•l’erreur de propagation (ind ´ependante de l’algorithme) cas sp ´ecial : erreur d’annulation

•l’erreur de g én ération (li ée à la forme de la m éthode).

cas sp ´ecial : erreur d’absorption (voir ci-dessous)

(17)

arrondi ρ

ρ1

ρ2

ρn-1

ρn

κ₁ κ₂

κ_n-1 κ_n F1

F2

Fn-1

Fn

{ { {

propagation génération

d

Exemple

•Consid érons un syst ème de repr ésentation en virgule flottante avec baseb= 10ett= 3chiffres significatifs.

•^Soitx=F(d) =e^d−1le probl ème à r ésoudre et d= 0.0123 = 123·10⁻⁴la donn ée.

•La donn ée garde la m ême valeur apr ès le codage puisqued=d^b∈^F^.

•La solution exacte estx= 0.012375956100545. . .aproch ée et repr ésent ée parx= 0.0124 = 124·10⁻⁴∈^F^.

•Consid érons deux algorithmes diff érents pour r ésoudre ce m ême probl ème : le premier algorithme effectue le calcul en une seule étape (c.- à-d. sans stockage interm édiaire)

x=F₁(d) =F(d),

•Le deuxi `eme utilise deux ´etapes

x₁=F₁(d) =e^d, x₂=F₂(x₁) =x₁−1.

Exemple (II)

•Les deux algorithmes sont identiques d’un point de vue math ématique, ils produisent deux r ésultats num ériques diff érents.

•Le premier algorithme fournit la repr ´esentation en ^Fde la solution exactebx=x.

•Le deuxi `eme algorithme fournit

bx₁= fl(F₁(d)) = fl(eb ^d^b) = fl(1.0124) = 1.01 = 101·10⁻² b

x=F₂(x_b₁) =_bx₁−1 = 0.01 = 100·10⁻⁴.

•L’erreur relative du deuxi ème algorithme (due à la seule composante de g én ération puisque l’erreur d’arrondi à l’entr ée est absente) est ε_x=

xb−x

x =

0.01−0.0124 0.0124

≈0.19.

L’erreur d’absorption

•L’erreur d’absorption se v ´erifie pendant l’addition de deux op ´erandes d₁etd₂avecd₂≫d₁.

•^Supposons b = 10, t = 6 et x = F(d) = (d₁ + d₂) avec d₁ = 0.0000123456 = 123456·10⁻¹⁰etd₂= 1 = 100000·10⁻⁵.

•^Puisqued₁=db₁etd₂=db₂, on obtient b

x= fl(d₁+d₂) = fl(1.0000123456) = 1.00001 = 100001·10⁻⁵

•Les chiffres significatifs ded₁sont perdus. Ceci implique une erreur relative de petite taille

xb−x

x =

1.0000123456−1.00001 1.0000123456

≈2·10⁻⁶

mais qui peut s’av ´erer g ˆenante dans la poursuite du calcul.

(18)

L’erreur d’absorption (II)

•^Supposonsb = 10, t = 6 et x = F(d) = (d₁+d₂)−1 avecd₁ = 0.0000123456 = 123456·10⁻¹⁰etd₂= 1 = 100000·10⁻⁵.

•La solution exacte estx=d₁.

•^Puisqued^b₁+d^b₂= 1.0000123456etfl(d^b₁+d^b₂) = 1.00001 = 100001·10⁻⁵, b

x= fl(fl(d^b1+d^b2)−1) = fl(0.00001) = 0.00001 = 100000·10⁻¹⁰,l’erreur relative absolue s’ él ève àε_x=

xb−x

x =

bx−x

x =

=

0.00001−0.0000123456 0.0000123456

=

0.0000023456 0.0000123456 ≈0.19.

•L’erreur finale est donc non n ´egligeable.

Erreur d’absorption et erreur d’annulation : comparaison

•Erreur d’annulation

— Deux nombres avec des valeurs absoluesrapproch ´ees

— La sortie a une valeur absolue plus petite que les entr ´ees

— Le nombre de symboles dans la repr ésentation exacte de la sortie est born é par les nombres de symboles dans les repr ésentations exactes des entr ées.

— Par cons équent : Quand les entr ées sont repr ésent ée en machine sans arrondi, tel sera le cas pour la sortie

— Mais : La moindre erreur (d’arrondi) sur les entr ées (ou sur une des entr ées) sera amplifi ée.

•Erreur d’absorption

— Deux nombres avec des valeurs absoluesfortement diff ´erentes

— La repr ésentation exacte de la sortie contient plus de symboles que les repr ésentations des entr ées

— Par cons ´equent : L’arrondi apr `es le calcul peut introduire une erreur

Erreur de g én ération : consid érations

•Plusieurs algorithmes peuvent être propos és pour r ésoudre le m ême probl ème math ématique.

•Afin de r éduire l’erreur de g én ération, qui est le seul à d épendre de l’algorithme m ême, une r ègle empirique g én érale doit être tenue en consid ération :

si on ne peut pas éliminer les calculs avec un grand conditionnement, alors il vaut mieux les ins érer le plus t ôt possible dans l’algorithme.

•En d éplaçant, si possible, les étapes qui affichent le plus grand conditionnement au d ébut, celles-ci causeront une amplification de l’erreur plus petite que dans le cas d’une autre localisation dans l’algorithme.

Exemple: Pour effectuerx=d1−d2+d3, l’ordre de calculsx= (d1−d2) +d3

est plus favorable quex= (d1+d3)−d2

•A chaque étape de l’algorithme l’ erreur d’entr ée est amplifi ée d’une façon proportionnelle au conditionnement de l’ étape.

•Souvent, on peut effectuer l’analyse de stabilit é sans évaluation des cond- tionnements des étapes.Voir exemple Chap.1 :x=F(d) =√

d−√a

R ´esum ´e des formules

•Ecarts et erreurs (en g ´en ´eral) δ_x=|xb−x|. ρ_x=x^b−x

x . x_b=x(1 +ρ_x). ε_x=|ρ_x|= δ_x

|x|

•^L’ensemble^F(b, t, L, U)

La mantisse b^t⁻¹≤m≤b^t−1 Distance relative η(x_i) =

x_i+1−x_i x_i

η(x_i) =_m[x¹_i_]

Distance relative maximale = eps-mach ^ǫ_b< η(x_i)≤ǫ o `u ǫ=b¹⁻^t 1 +ǫ= min (^F∩]1,∞[)

•L’op ´erationfl :^R→^F:x7→xˆ

erreur d’arrondi ε_x=|ρ_x| ^{o `u} xb= fl(x) =x(1 +ρ_x) pr ´ecision machine. u=ǫ/2 ε_x=|ρ_x| ≤u

(19)

Conditionnement & stabilit ´e d’un algorithme directe : exemple 1

Nous voulons ´evaluer la fonction x=F(d) =√ d−√

a, o ù a est consid ér é comme constante connue.

Analyse du conditionnement κ(d) =

F^′(d)·d F(d)

=

1 2√

d·d

√d−√ a

=

√d 2|√

d−√ a| En multipliant num ´erateur et d ´enominateur avec(√

d+√

a)on obtient κ(d) =

√d(√ d+√

a) 2|d−a| ≈ d

|d−a|

(l’expression approch ´ee ´etant valide pourdautour dea)

Ceci est la m ˆeme expression que pour le conditionnement ded−a

Exemple 1 : Analyse de stabilit ´e

Pour la stabilit é, on se concentre sur l’impl émentation. On peut donc supposer que les entr ées soient exactes.

Le mod èle des erreurs g én ér éespar une op érationF_iest F_i(d) =~ F_i(d)~ ·(1 +ρ) C’est- à-dire ρ= F_i(d)~ −F_i(d)~

F_i(d)~ Dans notre cas, pourF(d) =√

d−√

a, on obtient F(d) =√

d(1 +ρ1)−√

a(1 +ρ2)(1 +ρ3)

Et donc, on arrive à l’expression approximative suivante (en n égligeant les termes de deuxi ème ordre) :F(d)−F(d)

F(d) =

√d(ρ1+ρ3)−√

a(ρ2+ρ3)

√d−√ a

ce qui pointe vers une instabilit é pourdautour dea, m ême si les entr ées sont connue avec pr écision infinie.

La cause de l’instabilt é est le calcul inexact de la racine carr ée, suivi d’une soustraction des r ésultats, soustraction qui est, à son tour, mal conditionn ée.

Exemple 1 : Am ´eliorer la stabilit ´e

Une expression alternative On peut ´ecrireF(d) =√^d⁻^a

d+√a, une expression pour laquelle F(d) = (d−a)(1 +ρ₁)

√

d(1 +ρ₂) +√a(1 +ρ₃)(1 +ρ₄)·(1 +ρ₅)

En n égligeant les termes d’ordres sup érieurs dans la s érie de Taylor pour

~

ρ≈0, on obtient F(d)≈Fd;ρ~=~0+

X5 i=1

∂F

∂ρ_i

d;~ρ=~0·ρ_i

F(d) = √^(d⁻^a)

d+√a+√^(d⁻^a)

d+√a·ρ₁−^√_√^d(d⁻^a)

d+√a

²·ρ₂

−^√_√^a(d⁻^a)

d+√a

²·ρ₃−^√^(d_d+⁻^a)^√_a·ρ₄+√^(d⁻^a)

d+√a·ρ₅+O(ρ_iρ_j) Les termes enρ₂etρ₃satisfont `a

√a(d−a) √

d+√a²

· 1 F(d) =

√a(d−a) √

d+√a²√

d−√a

=

√a

√d+√a≤1

Et, par cons ´equent, on arrive `a

^F^(d)_F(d)⁻^F(d)

≤ |ρ₁|+|ρ₂|+|ρ₃|+|ρ₄|+|ρ₅| ≤5u

Cet algorithme est stable. La stabilit é vient du fait que la soustraction a lieu tout au d ébut, sur des donn éesd et a qui n’ont pas encore subi un arrondi dans un calcul pr éc édent.

ConclusionQuand un probl ème est mal conditionn é, il est important d’identi- fier/isoler le sous-probl ème qui cause le mauvais conditionnement pour éviter des erreurs suppl émentaires suite à un ordre de calcul d éfavorable par rapport la à stabilit é (des erreurs d’arrondi)

RemarqueCette analyse ne consid ère que la stabilit é en conditions id éales.

Elle ne tient pas compte des erreurs d’arrondi dans la repr ´esentation des entr ´ees