Optimisation et optimisation numérique Chapitre 3 : Méthodes de Newton et quasi-Newton

(1)

Optimisation et optimisation numérique Chapitre 3 : Méthodes de Newton et quasi-Newton

Lucie Le Briquer 4 février 2018

Table des matières

1 Introduction 2

2 Méthodes de quasi-Newton 3

2.1 Méthode de mise à jour de la métrique . . . 3

3 Gradient conjugué 5

3.1 Cas quadratique,Adéfinie positive . . . 5

(2)

1 Introduction

f(x+h) =f(x) +f⁰(x)h+1

2f⁰⁰(x)(h, h) +o(|h|²) f⁰(x+h) = 0 =f⁰(x) +f⁰⁰(x)h+o(|h|)

Idée.h=−f⁰⁰(x)⁻¹f⁰(x). Problème : inversibilité def⁰⁰(x)? Point critique ou minimum local ?

SoitE un e.v.n.,(xn)_n∈N∈E^N. On noteqn=^|x_|xⁿ⁺¹^−x^∗^|

n−x∗| avec la convention ⁰₀ = 0.

• On dit que(xn)convergeQ−linéairement versx_∗ si lim

n→+∞qn<1

• On dit que(x_n)convergeQ−superlinéairement versx_∗si lim

n→+∞q_n = 0

• On dit que(xn)convergeQ−quadratiquement versx_∗ siqn =O(|xn−x_∗|) Définition 1(Q−convergence)

On suppose que f est C² elliptique (f:Rⁿ −→ R). Alors, la méthode de Newton es bien définie et si elle converge, alors elle convergeQ−superlinéairement. Si de plusf estC³, alors la convergence, si elle a lieu estQ−quadratique.

Théorème 1

Preuve.

Si f est C² elliptique, il existe α > 0 tel que f⁰⁰(x)(h, h) > α|x|². En particulier, f⁰⁰(x) est inversible∀x∈Rⁿ et|f⁰⁰(x)⁻¹|< _α¹. Quitte à translater on peut supposer quex_∗= 0et on pose F(x) =x−f⁰⁰(x)⁻¹f⁰(x). Or0 =f⁰(0) =f⁰(x)−f⁰⁰(x)x+r(x)oùr₍x) =o(|x|)si f est C¹ et

=O(|x|²)sif estC³.

f⁰⁰(x)⁻⁻¹f⁰(x)−x=−f⁰⁰(x)⁻¹r(x)

2 Méthodes de quasi-Newton

Une approximation de l’inverse du hessien :

Hk ' ∇²f(xk)⁻¹

| {z }

matrice hessienne

dk=−Hk∇f(xk) Conditions :

1. Hk est définie positive.

Z 1

0

f⁰⁰(xk−t(xk+1−xk))(xk+1−xk)

| {z }

s_k

dt=f⁰(xk+1)−f⁰(xk)

G¯_k = Z 1

0

∇²f(x_k+t(x_k+1−x_k)) G¯_ks_k=∇f⁰(x_k+1)− ∇f⁰(x_k)

(3)

2. Hk+1yk=sk (CQN) Conditions de Quasi-Newton

2.1 Méthode de mise à jour de la métrique

H_k+1= H_k

|{z}

val. courante

+ B_k

|{z}

correction

H₊=H+B avecB de rang faible.

(DFP) Davidan-Fletcher-Powell

B= ss^T hy, si (BFGS) Broyder-Fletcher-Golfarb-Shannno

B=−sy^TH+Hys^T hy, si +

Å

1 + hy, Hyi hy, si

ã ss^T hy, si On vérifie (TD) que :

H+= Å

I− sy^T hy, si

ã

| {z }

π^T

H Å

I− ys^Y hy, si

ã

| {z }

π

+ ss^T hy, si

oùπ=p_R_sT//Ry.

On vérifie (TD) queH+y=s, la condition 2 est donc vérifiée.

Soienty6= 0etH >0. AlorsH+=H+B(DFP ou BFGS) est définie positive ssihy, si>0.

Théorème 2

Remarque.Mise à jour de Wolfe.

hyk, ski=h∇f(xk+1)− ∇f(xk)tkdki=tk(q⁰(tk)−q⁰(0))>tk(M2−1)q⁰(0)>0 Convergence ? Ouvert en toute généralité.

Sif(x) =¹₂hAx, xi − hb, xi+cavecAdéfinie positive∈Mn(R). On applique un algorithme quasi-Newton (DFP ou BFGS) ainsi qu’une recherche linéaire exacte. Alors, pour tout06 j < ktel que∇f(xk)6= 0, on a :

1. h∇f(xk), sji= 0(orthogonalité) 2. Hkyj=sj (CQN vérifiées)

3. hsk, sjiA= 0(les directionsdk sontAconjuguées)

De plus, siτ = inf{k>0 | ∇f(x_k) = 0}, alorsτ6net siτ =n,H_n=A⁻¹. Théorème 3

(4)

Preuve.

On peut supposerx_∗=A⁻¹b= 0 (translationx7→f(x+x_∗)sinon) si bien que ∇f(x) =Axet yj =Asj. Montrons alors le résultat par récurrence surk < τ.

• k= 0: rien à montrer

• Si (1),(2),(3)vraie au rangk et ∇f(x_k+1)6= 0montrons qu’elles sont toujours vraies au rangk+ 1.

1. Comme on fait une recherche linéaireexacte, on a :

h∇f(xk+1), dki= 0 =h∇f(xk+1), ski carsk =tkdk. De plus,

h∇f(xk+1, sj)i=h∇f(xj+1), sji+

k

X

h=j+1

h∇f(xh+1)− ∇f(xh)

| {z }

As_h

, sji

=h∇f(xj+1), sji+

k

X

h=j+1

hsh, sjiA

= 0 par récurrence

2. Hk+1yk =sk est vrai par construction. Étudions le cas DFP.

Hk+1yj=Hkyj+ s_ks^T_ky_j

hyk, ski−Hy_ky_k^THy_j hsk, yki

=s_j+ sks^T_kyj

hyk, s_ki−Hkyky_k^THkyj

hsk, y_ki

=

(∗)sj−Hkyky_k^THkyj

hsk, yki =

(∗∗)sj

(∗)carhsk, yji=hsk, Asji=hsk, sjiA= 0.

(∗∗)cary_k^THkyj=hHkyj, yki=hsj, yki=−hsj, Aski=hsj, skiA= 0 Donc(2)est vérifiée. Idem pour (BFGS).

3. sk+1=tk+1dk+1=−tk+1Hk+1∇f(xk+1). Ainsi,

hs_k+1, s_ji_A=−t_k+1hH_k+1∇f(x_k+1), As_j

|{z}y_j

i

=−t_k+1h∇f(x_k+1), H_k+1y_ji

=−tk+1h∇f(xk+1), sji= 0 par(1)

Enfin siτ > n−1, (sj)06j<n est un famille A−orthogonale de vecteurs non nuls i.e. une base.

Comme on aHnAsj=Hnyj=sj on a Hn=A⁻¹.

On va supposer queC= (f 6f(x0))est convexe, f C² et quemI 6∇²f(x)6M I et que

∇f etL−lipschitz. Alors la convergence est quadratique avec Wolfe.

Propriété 1

(5)

3 Gradient conjugué

Intérêt.Pas de construction d’une approximation de∇²f⁻¹. dk =− gk

|{z}

∇f(xk)

+ck−1dk−1

oùck+1 doit être calculable itérativement.

3.1 Cas quadratique, A définie positive

f(x) = 1

2hAx, xi − hb, xi+c

On note Dk = Vect(g0, . . . , dk). Regardons la variété affine Vk = xk +Dk et prenons comme point suivantxk =argmin_V_kf. On noteτ = inf{k>0 | ∇f(xk) = 0}.

∀06k < τ, on a : 1. dimDk=k+ 1 2. xk+1=xk+tk où :

tk=− gk

hg_k, d_ki_A = |gk|²

|d_k|²_A >0

etd_k =−gk+p_D_k−1(g_k)avecpla projectionA−orthogonale sur D_k−1. 3. Sik>1,

d_k =−g_k+c_k−1d_k−1 avecck−1= ^hg_|d^k^,d^k−1ⁱ^A

k−1|²_A = _|g^|g^k^|²

k−1|². 4. De plus,∀06i < j 6k,

hdi, djiA=hgi, gji= 0 Théorème 4

Preuve.

Supposons que c’est vrai pour toutl06l < k < τ et montrons que c’est vrai enk.

Par construction, x_k+1 = p_V_k(x_∗) (projection orthogonale sur la métrique A). Comme p_V_k−1 ◦ pV_k=pV_k−1, on axk=pV_k−1(x_∗) =pV_k−1(xk+1)et :

sk =xk+1−xk=xk+1−pVk−1(xk+1) =p_D^⊥A k−1

(xk+1)∈D^⊥_k−1^A

• sk 6= 0, en effet :

h∇f(xk+1), wi= 0 ∀w∈Dk (CN1)

et sisk= 0alorsxk+1=xket∇f(xk+1) =∇f(xk)et∇f(xk)∈D_k^⊥^A∩Dk ={0}, absurde.

• Montrons que :

Rs_k^⊥⊕^AD_k−1=Rg_k⊕^⊥D_k−1

(6)

En effet, commesk ∈D_k−1^⊥^A\{0}, on a ueD_k−16⊆Rs_k

⊥_A

⊕D_k−1⊂Dk doncdimDk 6k+ 1.

Or par récurrence dimDk−1 = k, ainsi dim(Dk) = k+ 1 et Rsk

⊥_A

⊕ Dk−1 = Dk. Enfin, g_k ∈D_k−1^⊥ (CN1), d’oùRg_k⊕^⊥D_k−1=D_k.

• Soitdk=−p_D⊥A k−1

(gk) =−gk+pD_k−1(gk). On aDk =Rdk

⊥A

⊕D_k−1etd0, . . . , dkest obtenue par orthogonalisation de g0, . . . , gk pour la métrique A. En particulier, dk ∈D^⊥_k−1^A, et les directionsdj sontA−orthogonales. Et commegk∈D^⊥_k−1, on a (4).

• Montrons que∃tk >0 tel quesk =xk−1−xk =tkdk. En effet Dk∩D_k−1^⊥^A est une droite contenants_k etd_k (6= 0).∃tk∈Rtel que s_k=t_kd_k. Or :

0 =hgk+1, g_ki=hgk+1−g_ki+hgk, g_ki

=hAsk, gki − |gk|²

=tkhAdk, gki+|gk|²

avect_k =−_hd^|g^k^|²

k,gkiA.

• Reste le calcul explicite de dk.

dk =−gk+pDk−1(gk) Or pourl < k−1,

hgk, tldliA=hgk, tlAdli=hgk, Asli=hgk, gl+1−gli= 0 (réc)

d’où p_D_k−1(g_k) = c_k−1d_k−1. Or hdk, d_k−1iA = 0. Ainsi h−gk +c_k−1d_k−1, d_k−1iA = 0.

Finalement,

ck= hgk, d_k−1iA

hd_k−1, d_k−1i_A

L’autre forme s’obtient en remarquant qu’on peut écrire d_k−1= ^s_t^k−1

k−1 : c_k = hgk, s_k−1iA

hdk−1, s_k−1iA

= hgk, As_k−1i

hdk−1, As_k−1i= hgk, gk−g_k−1i

hdk−1, g_k−g_k−1i = hgk, gki hdk−1,−gk−1i Or,d_k−1=−g_k−1+PDk−2(g_k−1)donchd_k−1,−g_k−1i=|g_k−1|²