• Aucun résultat trouvé

Algorithme du gradient à pas optimal

N/A
N/A
Protected

Academic year: 2022

Partager "Algorithme du gradient à pas optimal"

Copied!
3
0
0

Texte intégral

(1)

DÉVELOPPEMENTS POUR L’AGRÉGATION EXTERNE

Algorithme du gradient à pas optimal

Leçons : 232,215,219,226,229

[HU], exercice II.8 [X-ENS Al3], exercice 2.35 Théorème

SoientA∈ Sn++(R)etb∈Rn; on veut minimiser f :x 7→ 1

2hAx,xi+hb,xi, quandxparcourtRn. Il existe une unique solution à ce problème, et elle est caractérisée par∇f(x) =0.

De plus, l’algorithme défini par

x0Rn

∀k∈N,xk+1= xk+tkdk , oùdk =−∇f(xk)et oùtkest l’unique réel minimisant la fonctiont7→ f(xk+tdk), converge versx.

Démonstration :

1. Soitxun point minimal, alors nécessairementf(x) =0.

Or, pour tousx,hRn: f(x+h) = 1

2hA(x+h),x+hi+hb,x+hi

= 1

2hAx,xi+1

2hAh,xi+1

2hAx,hi+1

2hAh,hi+hb,xi+hb,hi

= f(x) +hAx,hi+hb,hi+1

2hAh,hi (carAest symétrique)

= f(x) +hAx+b,hi+o(khk)

De ce calcul, il vient notamment que f est différentiable1et quexRn,f(x) =Ax+b.

MaisAétant symétrique définie positive,f est strictement convexe et on en déduit :x=−A−1b.

Procédons alors au calcul de la valeur optimale : f := f(x) =1

2h−b,A−1bi+hb,A−1bi= 1

2hA−1b,bi − hA−1b,bi=−1

2hA−1b,bi

2. SoitkN; on suppose quedk 6= 0, car sinon Axk =−bet alors l’algorithme a convergé en temps fini, et on n’a plus rien à dire.

3. On va maintenant calculertk.

PourtR, on poseg(t):= f(xk+tdk) = f(xk) +hAxk+b

| {z }

=−dk

,tdki+1

2hAtdk,tdki. Et donc,g(t) = f(xk)−tkdkk2+t

2

2hAdk,dki. Ainsi2,gatteint son minimum entk = kdkk2

hAdk,dki(on rappelle quedk6=0, assurant quehAdk,dki 6=0, étant donné queAest symétrique définie positive).

4. Calculons l’erreur commise entre f(xk)et f.

f(xk+1) = f(xk+tkdk) = f(xk)− kdkk4 hAdk,dki+1

2

kdkk4

hAdk,dki = f(xk)−1 2

kdkk4 hAdk,dki f(xk+1)−f =f(xk)− f

1 2

kdkk4

hAdk,dki =f (xk)− f

11 2

f(xk)− f

kdkk4 hAdk,dki

Mais en fait,hA−1dk,dki=hA−1(Axk+b),Axk+bi=hxk,Axki+hxk,bi+hA−1b,Axki

| {z }

=hb,xki

+hA−1b,bi

=2 1

2hAxk,xki+hb,xki −f

=2

f(xk)− f

1. En même temps, fest polynomiale, donc la différentiabilité était déjà évidente.

2. Je trouvais que le fait d’invoquer directement la formule bien connue des polynômes du 2nddegré était préférable à la dérivation, car cela permet d’aller plus vite, ce qui n’est pas négligeable sur ce développement.

Florian LEMONNIER 1

Diffusion à titre gratuit uniquement. ENS Rennes – Université Rennes 1

(2)

DÉVELOPPEMENTS POUR L’AGRÉGATION EXTERNE

On en déduit alors que : f(xk+1)−f =f(xk)−f

1− kdkk4 hA−1dk,dkihAdk,dki

! . Lemme (Inégalité de Kantorovitch3)

SoitA∈ Sn++(R), dontλ1etλnsont les plus petite et grande valeurs propres.

AlorsxRn,hAx,xihA−1x,xi6 1 4

s λ1 λn

+ s

λn λ1

! kxk4.4

Démonstration du lemme : En notantx =

x1

... xn

dans une base orthonormée de vecteurs propres de A5, on fait les calculs suivants :

hAx,xihA−1x,xi=

n i=1

λix2i

! n

i=1

1 λix2i

!

>

Cauchy- Schwarz

n i=1

λi

λix2i

!2

=

n i=1

x2i

!2

>0

Mais comme on sait6queab6 1

2(a+b): q

hAx,xihA−1x,xi= s

λ1

λn

v u u t

n i=1

λi

λ1x2i

! n

i=1

λn

λix2i

! 6 1

2 s

λ1

λn

n i=1

λi

λ1 +λn λi

x2i

On peut montrer queα:x7→ x λ1+λn

x est décroissante sur λ1,λ1λn

et croissante sur

λ1λn,λn .7 Toujours est-il queαadmet son maximum enλ1ou enλn; maisα(λ1) =α(λn) =1+λn

λ1. D’où :

q

hAx,xihA−1x,xi6 1 2

s λ1 λn

n i=1

1+λn

λ1

x2i = 1 2

s λ1 λn +

s λn

λ1

! n

i=1

x2i.

Ce qui donne finalement, en élevant au carré :hAx,xihA−1x,xi6 1 4

s λ1 λn +

s λn

λ1

!2 kxk4. Utilisons l’inégalité de Kantorovitch :

f(xk+1)−f 6f(xk)−f

14

pc(A) +√1

c(A)

2

=f(xk)−f

14c(A) (c(A) +1)2

!

6f(xk)−f

c(A)−1 c(A) +1

2

Et donckN,f(xk)−f 6f(x0)−fc(A)−1 c(A) +1

2k

.

3. Dites juste que vous admettez l’inégalité de Kantorovitch et utilisez-la sans l’énoncer. Gardez un œil sur le chrono...

4. CommeA∈ Sn++(R),kAk2=pρ(tAA) =ρ(A) =λn(dites “décomposition polaire”) et aussi A−1

2= 1

λ1. Ainsi, on fait apparaître le conditionnement en norme 2 deA: cond2(A) = λn

λ1, qu’on notera par la suite (pour plus de simplicité)c(A). 5. Rappelez-vous le théorème spectral : toute matrice symétrique est diagonalisable dans une base orthonormée.

6. En fait, c’est une application toute bête des identités remarquables : comme(ab)2>0, on sait quea2+b2>2ab. Ainsi, 1

2(a+b) 2

= 1 4

a2+b2 +1

2ab>ab.

7. On peut, mais là, j’ai la flemme.

Florian LEMONNIER 2

Diffusion à titre gratuit uniquement. ENS Rennes – Université Rennes 1

(3)

DÉVELOPPEMENTS POUR L’AGRÉGATION EXTERNE

5. Pour finir, on va calculer l’erreur surkxkxk. On a : kxkxk26

8

1

λ1hA(xkx),xkxi= 1

λ1(hAxk,xki − hAxk,xi − hAx,xki+hAx,xi)

= 1 λ1

hAxk,xki −2hxk,Axi −2f

= 1 λ1

2f(xk)−2f

= 2 λ1

f(xk)− f

En fin de compte,kxkxk6 s 2

λ1 q

f(xk)−f 6 s 2

λ1

f(x0)−f

c(A)−1 c(A) +1

k

. Comme

c(A)−1 c(A) +1

<1, on en déduit que la suite(xk)k∈Nconverge versx.9

Références

[HU] J.-B. HIRIART-URRUTY–Optimisation et analyse convexe, EDP Sciences, 2009.

[X-ENS Al3] S. FRANCINOU, H. GIANELLAet S. NICOLAS–Oraux X-ENS Algèbre 3, 2eéd., Cassini, 2013.

8. Vous souvenez-vous du quotient de Rayleigh ? 9. Ouf !

Florian LEMONNIER 3

Diffusion à titre gratuit uniquement. ENS Rennes – Université Rennes 1

Références

Documents relatifs

Trouve sur quelle ligne et dans quelle colonne de chacun des tableaux se trouve le nombre 35 puis le nombre 109b. Que peux-tu dire des nombres de chacune des colonnes des

Selon le signe du produit des valeurs algébriques CA · CB (un sens positif ayant été défini sur AB), qui est la puissance de C par rapport à tous les cercles passant par A et B,

Etant donné deux points A et B et une droite (Δ) qui coupe la droite AB en un point C, discuter, selon la position de C sur la droite AB, l'existence et le nombre de cercles

Etant donné deux points A et B et une droite (Δ) qui coupe la droite AB en un point C, discuter, selon la position de C sur la droite AB, l'existence et le nombre de cercles passant

Un cercle tangent ` a la droite ∆ (du moins sa partie r´ eelle) est enti` erement situ´ e dans l’un des demi-plans cr´ e´ es

L’accès aux archives de la revue « Nouvelles annales de mathématiques » implique l’accord avec les conditions générales d’utilisation ( http://www.numdam.org/conditions )..

Dans l'espace euclidien, le triangle, dont l'aire est prise pour unité ci-dessus, n'existe pas; pour imité de surface y est adoptée la double aire (20') d'un triangle rectangle,

Supposons d'abord que la ligne diamétrale se réduise à une droite Ox\ considérons une corde AA', parallèle à la tangente Oy et infiniment voisine de cette tangente-, et soient p et