9 mars 2020 D. Gontier, gontier@ceremade.dauphine.fr

(1)

Partiel (L3) Méthodes Numériques : Optimisation.

9 mars 2020 D. Gontier, gontier@ceremade.dauphine.fr

Deux heures. Les documents et calculatrices ne sont pas autorisés.

1 page recto-verso.

Exercice 1. (Newton-Schultz pour des nombres)

Soit a > 0. On veut calculer 1/a sans effectuer de division. On pose f (x) :=

¹_x

− a, et on définit la suite x

0

= 1, x

n+1

= x

n

− f (x

n

)

f

⁰

(x

_n

) . a/ Montrer que x

n+1

= x

n

(2 − ax

n

).

b/ On pose ε

n

:= ax

n

− 1. Montrer que ε

n+1

= −ε

²_n

. c/ En déduire que pour tout n ≥ 1, ε

n

= −ε

²₀ⁿ

, puis que

∀n ≥ 1, x

n

= 1

a − (1 − a)

²ⁿ

a .

d/ Montrer que si 0 < a < 2, alors (x

_n

) converge vers

_a¹

. Quelle est la vitesse de convergence dans ce cas ? Pouvait-on s’attendre à une telle vitesse de convergence ?

e/ Que se passe-t-il si a = 2 ? Que se passe-t-il si a > 2 ?

a/ On a

x − f (x) f

⁰

(x) = x −

1 x

− a

−

_x¹2

= x + x

²

1 x − a

= x + x − ax

²

= x(2 − ax).

En remplaçant x par x

n

, on obtient le résultat.

b/ En remarquant que ax

n

= (ε

n

+ 1), on obtient

ε

n+1

= ax

n+1

− 1 = ax

n

(2 − ax

n

) − 1 = (ε

n

+ 1)(2 − (ε

n

+ 1)) − 1 = (1 + ε

n

)(1 − ε

n

) − 1 = −ε

²_n

. c/ Par une récurrence immédiate, on a

ε

n

= −ε

²_n−1

= − (−ε

_n−2

)

⁴

= −ε

²_n−2²

= · · · = −ε

²₀ⁿ

. Comme on a ε

0

= ax

0

− 1 = a − 1, on obtient

x

n

= 1

a (ε

n

+ 1) = 1 a

−ε

²₀ⁿ

+ 1

= 1 a

1 − (a − 1)

²ⁿ

.

On remarquera que comme la puissance 2

ⁿ

est toujours paire, le signe de a − 1 n’importe pas.

d/ Si 0 < a < 2, alors α := |a − 1| < 1, et on a

x

n

− 1 a

= 1 a α

²ⁿ

.

La convergence est donc quadratique. Ce n’est pas très étonnant, car c’est une méthode de type Newton.

e/ Si a = 2, on a x

1

= 0, puis x

n

= 0 tout le temps, et la suite converge vers 0 6=

¹₂

. Si a > 2, on |a − 1| > 1, et la suite diverge vers +∞.

Exercice 2. (Newton-Schultz pour des matrices)

Soit A ∈ M

_d

( R ) une matrice inversible (pas forcément symétrique). On veut calculer A

⁻¹

sans faire d’inversion.

On pose

M

₀

= I

d

, M

_n+1

= M

_n

(2 I

d

− AM

_n

) . a/ Montrer que pour tout n ≥ 0, M

n

commute avec A.

b/ Montrer par récurrence que

∀n ≥ 1, M

n

= A

⁻¹

− A

⁻¹

( I

d

− A)

²ⁿ

.

(2)

c/ Montrer que si k I

^d

− Ak

op

< 1, alors (M

n

) convergence vers A

⁻¹

. Quelle est la vitesse de convergence ? d/ Que se passe-t-il si

A =





3 0 0 0 2 0 0 0 1



 ?

a/ Par récurrence, on voit que M

n

est un polynôme de A, donc commute avec A. On peut aussi le montrer directement par récurrence. On a M

0

= I

d

qui commute avec A. Si pour un n ∈ N , on a M

n

A = AM

n

, alors

AM

n+1

= AM

n

(2 − AM

n

) = M

n

A(2 − AM

n

) = M

n

(2 − AM

n

)A = M

n+1

A. b/ Pour n = 0, on a

A

⁻¹

− A

⁻¹

(1 − A)

²⁰

= A

⁻¹

− A

⁻¹

(1 − A) = I

d

= M

₀

. Supposons que la formule soit vrai au rang n ∈ N . On a

M

n+1

= M

n

(2 − AM

n

) =

A

⁻¹

− A

⁻¹

(1 − A)

²ⁿ

(2 − 1 + (1 − A)

²ⁿ

)

= A

⁻¹

1 − (1 − A)

²ⁿ

1 + (1 − A)

²ⁿ

)

= A

⁻¹

1 − (1 − A)

²ⁿ⁺¹

, ce qu’il fallait démontrer.

c/ On a

kM

n

− A

⁻¹

k

op

= kA

⁻¹

( I

^d

− A)

²ⁿ

k

op

≤ kA

⁻¹

k

op

· k I

^d

− Ak

²_opⁿ

. Donc si α := k I

d

− Ak

op

< 1, on a une convergence quadratique.

d/ Si A = diag(3, 2, 1), on a ( I

d

− A)

²ⁿ

= diag(2

²ⁿ

, 1, 0). La première valeur propre diverge vers +∞, donc il n’y a pas de convergence.

Exercice 3. Vitesse de convergence du gradient à pas optimal Dans la suite, h·, i est le produit scalaire usuel de R

^d

, de norme associée k · k.

Soit A ∈ S

_d⁺⁺

( R ) une matrice symétrique réelle définie positive, soit b ∈ R

^d

, et soit Q(x) :=

¹₂

x

^T

Ax − b

^T

x.

On cherche à résoudre le problème d’optimisation x

^∗

:= argmin

Q(x), x ∈ R

^d

.

On pose x

₀

= 0, puis, pour n ∈ N ,

r

n

:= b − Ax

n

, t

n

:= argmin {Q(x

n

+ tr

n

), t ∈ R } et x

n+1

= x

n

+ t

n

r

n

. a/ (Vrai ou Faux, justifications non nécessaires).

a1/ Q admet un unique point critique.

a2/ x

^∗

:= A

⁻¹

b est un minimum local de Q.

a3/ On a r

n

= ∇Q(x

n

).

a4/ r

n

est une direction de descente de Q en x

n

.

b/ On s’intéresse au problème définissant t

n

. Montrer que (on suppose r

n

6= 0) Q(x

n

+ tr

n

) = t

²

2 hr

n

, Ar

n

i − tkr

n

k

²

+ Q(x

n

), puis que t

n

= kr

n

k

²

hr

_n

, Ar

_n

i . c/ Montrer que

r

_n+1

= r

_n

−

kr

n

k

²

hr

n

, Ar

_n

i

Ar

_n

.

d/ Montrer que hr

n

, r

n+1

i = 0. Pouvait-on prévoir le résultat ?

On suppose maintenant d = 2 et que A est diagonale. On note

A =

λ

1

0 0 λ

2

avec 0 < λ

1

< λ

2

, b = b

1

b

2

et on pose b

^⊥

:=

b

2

−b

1

, avec kbk 6= 0.

e/ Montrer que hb

^⊥

, bi = 0. En déduire que r

2n

est colinéaire à b, et que r

2n+1

est colinéaire à b

^⊥

. On note dans la suite r

2n

= α

n

b et r

2n+1

= β

n

b

^⊥

.

2

(3)

f/ Montrer la première égalité (on admettra l’autre) : t

2n

= kbk

²

hb, Abi et t

2n+1

= kb

^⊥

k

²

hb

^⊥

, Ab

^⊥

i g/ Montrer la première égalité (on admettra l’autre) :

β

n

= −α

n

hb

^⊥

, Abi

hb, Abi et α

n+1

= −β

n

hb

^⊥

, Abi hb

^⊥

, Ab

^⊥

i . Indice : On pourra utiliser la question c/ et prendre le produit scalaire avec b ou b

^⊥

.

h/ En déduire que

α

_n

= ρ

ⁿ

α

₀

et β

_n

= ρ

ⁿ

β

₀

avec ρ := |hb

^⊥

, Abi|

²

hb, Abihb

^⊥

, Ab

^⊥

i . i/ Montrer que 0 < ρ < 1. Indice : On pourra écrire que A = √

A √

A et utiliser l’inégalité de Cauchy-Schwarz.

)

j/ En déduire que la suite (Ax

_n

) converge vers b linéairement à taux au plus √ ρ.

a/ (a1) VRAI, ce point critique est un minimum.

(a2) VRAI, c’est même le minimum global de Q.

(a3) FAUX, c’est r

n

= −∇Q(x

n

).

(a4) VRAI, l’opposée du gradient est une direction de descente de Q.

b/ On a en développant Q(x

_n

+ tr

_n

) = 1

2 hx

n

+ tr

_n

, A(x

_n

+ tr

_n

)i − hb, x

_n

+ tr

_n

i

= 1

2 hx

n

, Ax

n

i + thx

n

, Ar

n

i + t

²

2 hr

n

, Ar

n

i − hb

n

, x

n

i − thb, r

n

i.

= t

²

2 hr

n

, Ar

_n

i + thAx

n

− b

| {z }

−rn

, r

_n

i + Q(x

_n

),

ce qui fallait démontrer. En tant que fonction de t, c’est une fonction quadratique. Elle atteint son minimum là où la dérivée s’annule. On a

∂

t

Q(x

n

+ tr

n

) = thr

n

, Ar

n

i − kr

n

k

²

, qui ne s’annule qu’en

t

n

= kr

n

k

²

hr

_n

, Ar

_n

i . c/ On a

r

_n+1

= b − Ax

_n+1

= b − A (x

_n

+ t

_n

r

_n

) = b − Ax

_n

− t

_n

Ar

_n

= r

_n

− t

_n

Ar

_n

et en remplaçant l’expression de t

n

trouvé précédemment, on a

r

_n+1

= r

_n

− kr

_n

k

²

hr

n

, Ar

n

i Ar

_n

.

d/ En prenant le produit scalaire avec r

n

, on obtient

hr

n

, r

n+1

i = kr

n

k

²

− kr

n

k

²

hr

n

, Ar

n

i hr

n

, Ar

n

i = 0,

donc r

_n

est orthogonal à r

_n+1

. Ce n’est pas étonnant, car on a montré que le gradient à pas optimal, la direction de descente r

_n

était orthonormale au gradient (et donc à r

_n+1

).

e/ On a en explicitant le produit scalaire,

hb

^⊥

, bi = b

2

b

1

− b

1

b

2

= 0.

En deux dimensions, comme r

_n

et r

_n+2

sont perpendiculaires à r

_n+1

, les vecteur r

_n

et r

_n+2

sont parallèles entre eux. Idem pour les vecteur r

_n+1

et r

_n+3

. Ainsi, tout les vecteurs r

_n

avec n pair sont colinéaires à r

₀

= b, et

3

(4)

ceux avec des indices impaires sont orthogonaux à ces premiers, donc colinéaires à b

^⊥

. f/ D’après la question b/, on a

t

_2n

= kr

_2n

k

²

hr

2n

, Ar

2n

i = α

²_n

kbk

²

α

²_n

hb, Abi = kbk

²

hb, Abi . L’autre égalité se montre de la même manière.

g/ On utilise maintenant la question c/. On a

β

n

b

^⊥

= r

2n+1

= r

2n

− kr

2n

k

²

hr

2n

, Ar

2n

i Ar

2n

= α

n

b − kbk

²

hb, Abi Aα

n

b.

En prenant le produit scalaire avec b

^⊥

, et en utilisant le fait que hb, b

^⊥

i = 0, on obtient β

n

kb

^⊥

k

²

= −α

n

kbk

²

hb, Abi hb

^⊥

, Abi, et comme kbk

²

= kb

^⊥

k

²

= b

²₁

+ b

²₂

, on a

β

_n

= −α

_n

hb

^⊥

, Abi hb, Abi . La seconde égalité se montre de manière similaire.

h/ Par récurrence, on a

β

n+1

= −α

n+1

hb

^⊥

, Abi hb, Abi = β

n

hb

^⊥

, Abi hb, Abi

hb

^⊥

, Abi

hb

^⊥

, Ab

^⊥

i = ρβ

n

. Par récurrence, on en déduit que β

_n

= ρ

ⁿ

β

₀

, et de même pour la suite (α

_n

).

i/ On a, avec Cauchy-Schwarz,

|hb

^⊥

, Abi| = |h √ Ab

^⊥

, √

Abi| ≤ k √

Ab

^⊥

k · k √

Abk = hb

^⊥

, Ab

^⊥

ihb, Abi.

L’inégalité est stricte sauf si √

Ab est colinéaire à √

Ab

^⊥

. Cela voudrait dire qu’il existe µ ∈ R tel que √ Ab = µ √

Ab

^⊥

, ou encore, comme √

A est inversible, b = µb

^⊥

, ce qui est impossible car ce sont deux vecteurs non nuls orthogonaux.

j/ On a donc

kAx

_2n

− bk = kr

_2n

k = α

_n

kbk = ρ

ⁿ

α

₀

kbk = C √ ρ

²ⁿ

.

On a un résultat similaire pour les termes impairs. On en déduit qu’il existe C > 0 tel que kAx

n

− bk ≤ C √

ρ

ⁿ

. la suite Ax

n

− b converge vers 0 linéairement à taux au plus √

ρ.

Exercice 4. Un peu de code

Le code suivant de dichotomie comporte des erreurs. Lesquelles ?

1 f u n c t i o n d i c h o t o m i e ( f , a , b , tol =1 e -6 , N i t e r = 1 0 0 0 ) :

2 # On s u p p o s e f ( a ) < 0 et f ( b ) > 0 et on c h e r c h e une s o l u t i o n de f ( x ) = 0

3 xm , xp = a , b

4 f o r n in r a n g e( N i t e r ) :

5 x = ( a + b ) /2

6 if f ( x ) = 0 :

7 r e t u r n x

8 if f ( x ) < 0 :

9 xp = x

10 e l s e :

11 xm = x