15-1

(1)

Méthodes de descente

Michel Bierlaire

[email protected]

EPFL - Laboratoire Transport et Mobilit ´e - ENAC

(2)

Méthode de descente

Idée

1. Trouver une direction de descente dk, c’est-à-dire telle que

∇f(x_k)^Td_k < 0.

2. Trouver un pas α_k tel que f(x_k + α_kd_k) < f(x_k). 3. Calculer x_k+1 = x_k + α_kd_k.

M ´ethodes de descente – p. 2/52

(3)

Plus forte pente

• Choix intuitif de la direction : dk = −∇f(xk)

• Choix du pas

α_k = argmin_α_∈_R⁺

0 f(x_k + αd_k).

Exemple :

f(x) = 1

2x²₁ + 9 2x²₂

(4)

Plus forte pente

-10 -5 0 5 10

-1.5 -1 -0.5

0 0.5 1 x₀ 1.5

x^∗

x₁

x₂

(5)

Plus forte pente

-1 -0.5 0 0.5 1

-0.15 -0.1 -0.05

0 0.05 0.1 0.15

x^∗

x₁

x₂

(6)

Plus forte pente préconditionnée

f(x) = 1

2x²₁ + 9 2x²₂ Changement de variable :

x^′₁ = x₁ x^′₂ = 3x₂ et

f˜(x^′) = 1

2x^′₁² + 9 2(1

3x^′₂)² = 1

2x^′₁² + 1

2x^′₂².

(7)

Plus forte pente préconditionnée

f˜(x^′) = 1

2x^′₁² + 1

2x^′₂². Direction :

d = −∇f˜(x^′) = −x^′₁

−x^′₂

! .

Pas :

argmin_α f(x^′ − α∇f(x^′)) =

min_α ¹₂(x^′₁ − αx^′₁)² + ¹₂(x^′₂ − αx^′₂)²,

(8)

Plus forte pente préconditionnée

Solution : α = 1

x^′₁ x^′₂

!

+ −x^′₁

−x^′₂

!

= 0,

(9)

Plus forte pente préconditionnée

• Après conditionnement, la méthode de la plus forte pente converge en une seule itération sur cet exemple

• D’une manière générale, un pré-conditionnement peut significativement accélérer la méthode

(10)

Algorithme : Plus forte pente préconditionnée

Objectif

Trouver une approximation de la solution du problème

xmin∈Rⁿ f(x). ⁽¹⁾

Input

• La fonction f : Rⁿ _→ R différentiable;

• Le gradient de la fonction _∇f : Rⁿ _→ Rⁿ;

• Une famille de préconditionneurs (D_k)_k telle que D_k est définie positive pour tout k;

• x₀ ∈ Rⁿ;

• La précision demandée ε ∈ R, ε > 0.

(11)

Algorithme : Plus forte pente préconditionnée

Output

Une approximation de la solution x^∗ ∈ R

Initialisation

k = 0

It ´erations

1. d_k = −D_k∇f(x_k),

2. Déterminer α_k, par exemple α_k = argmin_α_≥₀ f(x_k + αd_k), 3. x_k+1 = x_k + α_kd_k,

4. k = k + 1.

Crit `ere d’arr ˆet Si _k∇f(x_k)k ≤ ε, alors x^∗ = x_k.

(12)

Plus forte pente préconditionnée

Il reste à préciser

• comment choisir D_k

• comment choisir α_k

et il reste à s’assurer que cela fonctionne...

(13)

Choix du pas

• Résolution de

αk = argmin_α_∈_R⁺

0 f(xk + αdk).

trop coûteuse

• Travail inutile si la direction n’est pas bonne

• Idée : prenons n’importe quel α tel que f(x_k + αd_k) < f(x_k)

• Malheureusement, cela ne suffit pas...

(14)

Choix du pas

• Exemple : f(x) = x²

• Appliquons l’algorithme avec x₀ = 2, et

Dk = 1/2|xk| = sgn(xk)/2xk

αk = 2 + 3(2⁻^k⁻¹).

• D_k est bien (défini) positif pour tout k.

• ∇f(xk) = 2xk ⇒ dk = −Dk∇f(xk) = −sgn(xk)

• La méthode s’écrit x_k+1 =

( xk − 2 − 3(2⁻^k⁻¹) si xk ≥ 0, x_k + 2 + 3(2⁻^k⁻¹) si x_k < 0,

(15)

Choix du pas

Nous avons que

xk = (−1)^k(1 + 2⁻^k) et

|x_k+1| < |x_k|.

(p. 264) Dès lors

f(x_k+1) < f(xk)

Cependant, la suite x_k a deux points d’accumulation: -1 et 1

(16)

k xk dk αk

0 +2.000000e+00 -1 +3.500000e+00

1 -1.500000e+00 1 +2.750000e+00

2 +1.250000e+00 -1 +2.375000e+00

3 -1.125000e+00 1 +2.187500e+00

4 +1.062500e+00 -1 +2.093750e+00

5 -1.031250e+00 1 +2.046875e+00

.. .

46 +1.000000e+00 -1 +2.000000e+00

47 -1.000000e+00 1 +2.000000e+00

48 +1.000000e+00 -1 +2.000000e+00

49 -1.000000e+00 1 +2.000000e+00

50 +1.000000e+00 -1 +2.000000e+00

15-1

(17)

Choix du pas

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

f(x)

x

(18)

Choix du pas

Pourquoi cela ne fonctionne pas ?

• Origine théorique : théorème de Taylor

• Théorie locale

• Ici, les pas sont trop longs

• Le fait que f(x_k+1) < f(x_k) est du à la chance et non au fait que d^T∇f(x_k) < 0

• Les pas sont trop longs par rapport au bénéfice obtenu Notion de diminution suffisante

(19)

Diminution suffisante

Soit γ > 0. On veut

f(xk) − f(xk + αkdk) ≥ αkγ, ou encore

f(x_k + α_kd_k) ≤ f(x_k) − α_kγ.

(20)

Diminution suffisante

Exemple :

f(x) = 1

2x²₁ + 9 2x²₂ x₀ = 10

1

!

d =

−10

√181

−9

√181

!

γ = 6

35 40 45 50 55 60 65

0 1 2 3 4 5

α

f(x_k + αd_k) f(x_k) − αγ

(21)

Diminution suffisante

Exemple :

f(x) = 1

2x²₁ + 9 2x²₂ x₀ = 10

1

!

d =

−2

√5

√1 5

!

γ = 6

35 40 45 50 55 60 65

0 1 2 3 4 5

f(x_k + αd_k) f(x_k) − αγ

(22)

Diminution suffisante

• γ ne peut pas être constant

• Il doit dépendre de la direction

• Utilisons la théorie

(23)

Rappel

Direction de descente Soit f : Rⁿ −→ R une fonction différentiable. Soient

x ∈ Rⁿ ^{tel que} _∇^f^(x) ₆^{= 0} ^et ^d _∈ Rⁿ^{. Si} ^d est une direction de descente, alors il existe η > 0 ^{tel que}

f(x + αd) < f(x) ∀0 < α ≤ η.

De plus, pour tout β < 1, il existe ^{η >}b ⁰ ^{tel que}

f(x + αd) < f(x) + αβ∇f(x)^Td,

pour tout 0 < α ≤ ^ηb^.

(voir début du cours et p. 36)

(24)

Diminution suffisante

Choisissons

γ = −β∇f(x_k)^Td_k avec 0 < β < 1.

(25)

Diminution suffisante

Diminution suffisante : première condition de Wolfe

Soient f : Rⁿ _→ R une fonction différentiable, un point xk ∈ Rⁿ^{, une}

direction (de descente) d_k ∈ Rⁿ ^{telle que} ∇f(x_k)^Td_k < 0 ^{et un pas} α_k ∈ R^, ^αk > 0. On dira que la fonction f diminue suffisamment en x_k + α_kd_k

par rapport à xk si

f(xk + αkdk) ≤ f(xk) + αkβ₁∇f(xk)^Tdk,

avec 0 < β₁ < 1. Cette condition s’appelle la première condition de Wolfe

(26)

Diminution suffisante ^β

₁

^{= 0} ^. ⁵

35 40 45 50 55 60 65

0 1 2 3 4 5

α

f(xk + αdk) f(x_k) + αβ₁∇f(x_k)^Td_k f(x_k) + α∇f(x_k)^Td_k

(27)

Diminution suffisante ^β

₁

^{= 0} ^. ⁵

35 40 45 50 55 60 65

0 1 2 3 4 5

α f(x_k) + α∇f(x_k)^Td_k

f(x_k) + αβ₁∇f(x_k)^Td_k f(x_k + αd_k)

(28)

Diminution suffisante ^β

₁

^{= 0} ^. ¹

35 40 45 50 55 60 65

0 1 2 3 4 5

α

(29)

Diminution suffisante ^β

₁

^{= 0} ^. ¹

35 40 45 50 55 60 65

0 1 2 3 4 5

α

(30)

Choix du pas

• Exemple : f(x) = x²

• Appliquons l’algorithme avec x₀ = 2, et Dk = 1/2xk

αk = 2⁻^k⁻¹.

• D_k est bien (défini) positif pour tout k.

• ∇f(xk) = 2xk ⇒ dk = −Dk∇f(xk) = −1

• La méthode s’écrit

x_k+1 = x_k − 2⁻^k⁻¹

(31)

Choix du pas

Nous avons que

xk = 1 + 2⁻^k.

(p. 269) Dès lors

f(x_k+1) < f(xk) Cependant,

klim→∞x_k = 1 6= 0

(32)

k xk dk αk

0 +2.000000e+00 -1 +5.000000e-01

1 +1.500000e+00 -1 +2.500000e-01

2 +1.250000e+00 -1 +1.250000e-01

3 +1.125000e+00 -1 +6.250000e-02

4 +1.062500e+00 -1 +3.125000e-02

5 +1.031250e+00 -1 +1.562500e-02

.. .

46 +1.000000e+00 -1 +7.105427e-15

47 +1.000000e+00 -1 +3.552714e-15

48 +1.000000e+00 -1 +1.776357e-15

49 +1.000000e+00 -1 +8.881784e-16

50 +1.000000e+00 -1 +4.440892e-16

(33)

Choix du pas

Pourquoi cela ne fonctionne pas ?

• Dégénérescence

• Pas trop petits

Notion de progrès suffisant

• ∇f(x_k)^Td_k < 0

• Si α_k minimum dans la direction alors _∇f(x_k + α_kd_k)^Td_k = 0

• La dérivée directionnelle augmente

(34)

Choix du pas

Progrès suffisant : seconde condition de Wolfe

Soient f : Rⁿ _→ R une fonction différentiable, un point x_k ∈ Rⁿ^{, une}

direction (de descente) d_k ∈ Rⁿ ^{telle que} _∇^f^(xk)^Td_k < 0 ^{et un pas} α_k ∈ R^, ^α^k ^> ⁰. On dira que le point x_k + α_kd_k apporte un progrès suffisant par rapport à x_k ^si

∇f(x_k + α_kd_k)^Td_k ≥ β₂∇f(x_k)^Td_k,

avec 0 < β₂ < 1. Cette condition s’appelle la seconde condition de Wolfe.

(35)

Diminution suffisante ^β

₂

^{= 0} ^. ⁵

dk = (−10/√

181 − 9/√

181)^T α ≥ 1.4687

3436 3840 4244 4648 5052 5456

0 1 2 3 4 5

-2 -1.5 -1 -0.5

0 0.5 1

α

∇f(x^k+αd^k)^Td^k

∇f(x^k)^Td^k

f(xk + αdk)

(36)

Diminution suffisante ^β

₂

^{= 0} ^. ⁵

dk = (−2/√

5 1/√

5)^T α ≥ 0.94603

48 50 52 54 56 58 60 62 64

0 1 2 3 4 5

-2 -1.5 -1 -0.5

0 0.5 1

α

(37)

Conditions de Wolfe

Validité des conditions de Wolfe ^Soient f : Rⁿ _→ R une fonction

différentiable, un point xk ∈ Rⁿ et une direction (de descente) dk ∈ Rⁿ ^{telle que}

∇f(xk)^Tdk < 0 ^et f est bornée inférieurement dans la direction dk, c’est-à-dire il existe f₀ ^{tel que} f(x_k + αd_k) ≥ f₀ ^{pour tout} α ≥ 0^{. Si} 0 < β₁ < 1, il existe η

tel que la première condition de Wolfe soit vérifiée pour tout α_k ≤ η. De plus, si

0 < β₁ < β₂ < 1, il existe α₂ > 0 tel que les deux conditions de Wolfe soient toutes deux vérifiées.

(p. 271)

(38)

Algorithme : Recherche linéaire

Objectif

Trouver un pas α^∗ tel que les conditions de Wolfe soient vérifiées.

Input

• Un vecteur x ∈ Rⁿ;

• Une direction de descente d telle que _∇f(x)^Td < 0;

• Une première approximation de la solution α₀ > 0.

(39)

Algorithme : Recherche linéaire

Input (suite)

• Des paramètres β₁ et β₂ tels que 0 < β₁ < β₂ < 1.

• Un paramètre λ > 1.

Output

Un pas α^∗ tel que les conditions de Wolfe soient vérifiées.

(40)

Algorithme : Recherche linéaire

Initialisation

i = 0, αℓ = 0, αr = +∞.

It ´erations

• Si α_i vérifie les conditions, alors α^∗ = α_i. STOP.

• Si αi viole Wolfe-1, i.e.

f(x_k + α_kd_k) > f(x_k) + α_kβ₁∇f(x_k)^Td_k, alors le pas est trop long et

αr = αi

α_i+1 = ^α^ℓ^+α₂ ^r

(41)

Algorithme : Recherche linéaire

It ´erations

• Si αi ne viole pas Wolfe-1 et viole Wolfe-2, i.e.

∇f(x + α_id)^Td < β₂∇f(x)^Td alors le pas est trop court et

α_ℓ = α_i α_i+1 =

( α^ℓ+α^r

2 si αr < +∞ λαi sinon

• i = i+1

(42)

Algorithme : Recherche linéaire

f(x) = ¹₂x²₁ + ⁹₂x²₂ x = 10 1

!

d =

−2

√5

√1 5

!

α₀ = 10⁻³ β₁ = 0.3 β₂ = 0.7 λ = 20.

α_i α_ℓ α_r Cond. violée

1.00000000e-03 0.00000000e+00 9.99999000e+05 Wolfe-2 2.00000000e-02 1.00000000e-03 9.99999000e+05 Wolfe-2 4.00000000e-01 2.00000000e-02 9.99999000e+05 Wolfe-2 8.00000000e+00 4.00000000e-01 9.99999000e+05 Wolfe-1 4.20000000e+00 4.00000000e-01 8.00000000e+00 Wolfe-1 2.30000000e+00 4.00000000e-01 4.20000000e+00 —

(43)

Méthode de Newton

• Combiner les idées de

1. plus forte pente préconditionnée 2. Newton

3. recherche linéaire

• Itération de Newton locale

x_k+1 = x_k − ∇²f(x_k)⁻¹∇f(x_k),

• Itération de plus forte pente préconditionnée

x_k+1 = xk − αkDk∇f(xk),

• Si _∇²f(xk)⁻¹ déf. positive, et αk = 1 acceptable, itérations équivalentes.

(44)

Méthode de Newton

• Si αk = 1 non acceptable, algorithme de recherche linéaire

• Si _∇²f(x_k)⁻¹ non définie positive, définir D_k = (∇²f(x_k) + E)⁻¹

avec E telle que D_k soit définie positive. Typiquement, E = τ I

• Exemple :

∇²f(xk) = −2 0 0 −3

!

E = 3.1 1 0 0 1

!

∇²f(xk)+E = 1.1 0 0 0.1

!

(45)

Algorithme : Newton avec recherche linéaire

Objectif

Trouver une approximation d’un minimum local du problème

xmin∈Rⁿ f(x).

Input

• Le hessien de la fonction _∇²f : Rⁿ _→ Rⁿ^×ⁿ;

• Une première approximation de la solution x₀ ∈ Rⁿ;

• La précision demandée ε ∈ R, ε > 0.

(46)

Algorithme : Newton avec recherche linéaire

Output

Une approximation de la solution x^∗ ∈ R

Initialisation

k = 0

(47)

Algorithme : Newton avec recherche linéaire

It ´erations

• Calculer une matrice triangulaire inférieure Lk et τ tels que LkL^T_k = ∇²f(xk) + τ I,

en utilisant l’algorithme précédent

• Trouver z_k en résolvant le système triangulaire L_kz_k = ∇f(x_k).

• Trouver d_k en résolvant le système triangulaire L^T_k d_k = −z_k.

(48)

Algorithme : Newton avec recherche linéaire

It ´erations (suite)

• Déterminer α_k en appliquant la recherche linéaire avec α₀ = 1.

• x_k+1 = x_k + α_kd_k.

• k = k + 1.

Crit `ere d’arr ˆet

Si _k∇f(xk)k ≤ ε, alors x^∗ = xk.

(49)

Newton avec recherche linéaire

minf(x₁, x₂) = 1

2x²₁ + x₁ cosx₂,

-1 -1.5 0 -0.5

1 0.5

1.5 ^x¹

-6 -4

-2 0

2 4

6 x₂

-10123

Point de départ x₀ = (1 1)^T.

(50)

Newton avec recherche linéaire

minf(x₁, x₂) = 1

2x²₁ + x₁ cosx₂,

-1.5 -1 -0.5 0 0.5 1 1.5

-6 -4 -2 0 2 4 6

x^∗₋²

x^∗₋¹ x^∗⁰

x^∗¹ x^∗²

¯ x⁰

¯ x¹

¯ x₋¹

¯ x₋² x₁

x₂

Point de départ x₀ = (1 1)^T.

(51)

Newton avec recherche linéaire

Solution:

x^∗ = 1 π

!

∇f(x^∗) = 0 0

!

∇²f(x^∗) = 1 0 0 1

!

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -6 -4 -2 0 2 4 6 x₀

x^∗

x

x₂

(52)

Newton avec recherche linéaire

Solution:

x^∗ = 1 π

!

∇f(x^∗) = 0 0

!

∇²f(x^∗) = 1 0 0 1

!

0.2 0.4 0.6 0.8 1

1 1.5 2 2.5 3 3.5

x₀ x^∗

x₁

x₂

(53)

Newton avec recherche linéaire

k f(xk) k∇f(xk)k αk τ

0 1.04030231e+00 1.75516512e+00

1 2.34942031e-01 8.88574897e-01 1 1.64562250e+00 2 4.21849003e-02 4.80063696e-01 1 1.72091923e+00 3 -4.52738278e-01 2.67168927e-01 3 8.64490594e-01 4 -4.93913638e-01 1.14762780e-01 1 0.00000000e+00 5 -4.99982955e-01 5.85174623e-03 1 0.00000000e+00 6 -5.00000000e-01 1.94633135e-05 1 0.00000000e+00 7 -5.00000000e-01 2.18521663e-10 1 0.00000000e+00 8 -5.00000000e-01 1.22460635e-16 1 0.00000000e+00

(54)

Résumé

• Algorithme complet

• Combinaison entre

• méthode de Newton locale

• plus forte pente préconditionnée

• recherche linéaire

15-1

Méthodes de descente

Méthode de descente

Plus forte pente

Plus forte pente

Plus forte pente

Plus forte pente préconditionnée

Plus forte pente préconditionnée

Plus forte pente préconditionnée

Plus forte pente préconditionnée

Algorithme : Plus forte pente préconditionnée

Algorithme : Plus forte pente préconditionnée

Plus forte pente préconditionnée

Choix du pas

Choix du pas

Choix du pas

Choix du pas

Choix du pas

Diminution suffisante

Diminution suffisante

Diminution suffisante

Diminution suffisante

Rappel

Diminution suffisante

Diminution suffisante

Diminution suffisante β

= 0 . 5

Diminution suffisante β

= 0 . 5

Diminution suffisante β

= 0 . 1

Diminution suffisante β

= 0 . 1

Choix du pas

Choix du pas

Choix du pas

Choix du pas

Diminution suffisante β

= 0 . 5

Diminution suffisante β

= 0 . 5

Conditions de Wolfe

Algorithme : Recherche linéaire

Algorithme : Recherche linéaire

Algorithme : Recherche linéaire

Algorithme : Recherche linéaire

Algorithme : Recherche linéaire

Méthode de Newton

Méthode de Newton

Algorithme : Newton avec recherche linéaire

Algorithme : Newton avec recherche linéaire

Algorithme : Newton avec recherche linéaire

Algorithme : Newton avec recherche linéaire

Newton avec recherche linéaire

Newton avec recherche linéaire

Newton avec recherche linéaire

Newton avec recherche linéaire

Newton avec recherche linéaire

Résumé

Diminution suffisante ^β

^{= 0} ^. ⁵

Diminution suffisante ^β

^{= 0} ^. ⁵

Diminution suffisante ^β

^{= 0} ^. ¹

Diminution suffisante ^β

^{= 0} ^. ¹

Diminution suffisante ^β

^{= 0} ^. ⁵

Diminution suffisante ^β

^{= 0} ^. ⁵