Optimisation Différentiable Théorie et Algorithmes Partie I. Exemple de résumé du cours. J. Ch. GILBERT. 14 novembre 2020

(1)

Optimisation Différentiable Théorie et Algorithmes

Partie I

Exemple de résumé du cours

J. Ch. GILBERT

14 novembre 2020

(2)

Informations pratiques

r 14 séances, échappatoire possible à mi-parcours.

r Objectif du cours : l’optimisation

– aspects théoriques: convexité, CO, dualité, . . . , – aspects pratiques: algorithmes.

r Organisation :

– Partie I : 7 séances, dont 1/2 pour l’examen.

– CM : 6 séances d’1h15++, – TD + TP : 4+3 séances d’2h00--, – TP : projet d’optimisation (Matlab), – travail personnel.

r Supports de cours

– syllabus[site]: ne pas voir les sections avec⊖, – planches[pdf]: points importants du cours [§], – notes manuscrites[SP]: 1 document par séance, – exercices : en TD (+sol), dans le syllabus (−sol).

r Contrôle des connaissances

– TP : rapport et code incrémental à remettre, – Séance 7 : résolution de problèmes (1h30).

Plan du cours I

1. Introduction : optimisation et analyse convexe TD1(rappels, concepts de base)

2. Conditions d’optimalité I : méthode et outils TP1

3. Conditions d’optimalité II : égalités et inégalités TD2(conditions d’optimalité)

4. Conditions d’optimalité III : CO2 égalitéset Méthode de descente : RL

TP2

5. Méthodes newtoniennes : N et qN

TD3(recherche linéaire, moindres-carrés) 6. Dualité

TD4(dualité)

7. Contrôle des connaissances TP3

(3)

I Introduction

Vocabulaire de l’optimisation (§ 1.1) Le problème à résoudre :

(PX) inf

x∈Xf(x).

Quelques définitions et conventions :

r _f _:_X _→_Rest appeléecritèreoufonction-coûtou fonction-objectif,

r _X _{est appelé}ensemble admissible, r un point deX est ditadmissible,

r _val(P_X_{) := inf}_x∈X_f(x)_∈Rest lavaleur optimale, r _(P_X₎_{est dit}_réalisable_si_X ₆₌∅,

r convention :infx∈∅f(x) = +∞, r _sup

x∈X f(x) =−infx∈X

−f(x)

(mêmes solutions), r _(P_X₎_{est dit}_{non borné}_si_val(P_X_{) =} _{−∞, i.e.,}

∃{xk} ⊂X telle quef(xk)→ −∞.

SiX 6=∅, il existe unesuite minimisante{xk}, laquelle vérifie

On dit quex∗ estsolutionde(PX)si r _x_∗ _∈_X_,

r _∀_x_∈_X_:_f(x_∗₎₆_f_(x).

On dit aussiminimumouminimiseur.

On note l’ensemble des solutions

Sol(PX) ou arg min

x∈X

f(x).

On dit quex∗ estsolution strictede(PX)si r _x_∗ _∈_X_,

r _∀_x_∈_X _{\ {x}_∗_}:_f_(x_∗₎_{< f}_(x).

SiX topologique, on dit quex∗ estsolution localede(PX)s’il existe un voisinageV dex∗ tel que

r _x_∗ _∈_X_,

r _∀_x_∈_X _∩_V_:_f(x_∗₎₆_f(x).

SiX topologique, on dit quex∗ estsolution locale strictede (PX)s’il existe un voisinageV dex∗tel que

x ∈X,

(4)

Existence de solution (§ 1.2) Le problème à résoudre (f :X →R∪ {+∞}) :

(PX)







inff(x) x∈X.

On dit quef estfermée si(epif)est fermé.

Si q f est fermée surX,

q X est compact et non vide, alors(PX)a (au moins) une solution.

En dimension finie (c’est notre cas) : r X compact ⇐⇒ X fermé borné.

r On peut remplacer l’hypothèse X compact par

X fermé et f coercive surX.

Unicité de solution (§ 3.1)

r SoientX un convexe deEetf : X → R. Définitions :f estconvexe surX si pour tout x, y ∈X,x6=y, ett∈]0,1[:

f((1−t)x+ty) 6(1−t)f(x) +tf(y).

f eststrictement convexesi on a inégalité stricte ci-dessus.

r Le problème à résoudre : (PX)







minf(x) x∈X.

Si q X est convexe,

q f est strictement convexe surX, alors(PX)a au plus une solution.

(5)

Différentiabilité première (§§ C.1, C.2.1) Soient EetFdeux espaces normés,Ωun ouvert deEet f : Ω →F.

1. Différentiabilité directionnellesuivanth∈E: f^′(x;h) := lim

t→0+

1 t

f(x+th)−f(x)

existe.

2. Différentiabilité au sens de Gâteaux: – f^′(x;h)existe pour touth∈Eet – h7→ f^′(x;h)est linéaire (continue).

On notef^′(x)l’application linéaire (continue).

3. Différentiabilité au sens de Fréchet: il existe L:E→ F, linéaire (continue) :

f(x+h) = f(x) +Lh+o(khk).

On notef^′(x) :=L(même opérateur qu’en 2).

Soith·,·iun produit scalaire surEetF=R. On définit le gradientde en comme l’unique vecteur :

Différentiabilité seconde (§ C.2.2)

Supposons quef : Ω→Fsoit 2 fois différentiable (pour une définition rigoureuse, voir le syllabus).

Propriétés :

r f^′′(x)·(h, k)est la dérivée directionnelle de x7→f^′(x)·hdans la directionk:

f^′′(x)·(h, k) = lim

t→0+

1

t (f^′(x+tk)·h−f^′(x)·h). r l’application

(h, k)7→ f^′′(x)·(h, k) est bilinéaire symétrique.

Soith·,·iun produit scalaire surEetF=R. On définit le hessiendef enxcomme l’unique opérateur linéaire symétrique∇²f(x)surEtel que

(6)

II Analyse convexe Ensemble convexe (§ 2.1) SoitEun espace vectoriel.

r Dfn. Soientx,y∈E. UnsegmentdeE:

[x, y] := {(1−t)x+ty :t ∈[0,1]}.

r Dfn. Un ensembleC⊂Eestconvexesi

∀x, y ∈C =⇒ [x, y]⊂C.

x x y y

convexe non convexe

non convexe convexe

y x

Aspects topologiques (§ 2.3)

r Dfn. L’enveloppe affined’une partieP ⊂Eest le plus petit espace affinecontenantP. On le note

affP =\

{A: A= espace affine contenantP}.

r Dfn. L’intérieur relatifd’une partieP ⊂Eest son intérieur dansaffA(muni de la topologie induite de celle deE). On le note

intrP ou P⁻^◦.

(7)

Polyèdre convexe (§ 2.4)

Soient EetFdes espaces vectoriels (E=Rⁿ etF=R^m parfois).

r Dfn.Description primaled’un polyèdre convexe : P := co{x1, . . . , xp}+ cone{y1, . . . , yq}, où lesxi etyj ∈E.

Description dualed’un polyèdre convexe : P :={x∈E: Ax6b}, oùA :F→ Flinéaire etb∈F.

r Prop.

SiP polyèdre convexe etL: F→Flinéaire, alorsL(P)polyèdre convexe.

Projection sur un convexe fermé (§ 2.5.2)

Emuni d’un produit scalaireh·,·i=k · k². SiC ⊂Econvexe fermé non vide etx∈E, alors le problème

min{ky−xk: y ∈C} (1) a une unique solution.

r Dfn: l’unique solution de (1) est appelée projection/projeté dexsurC et est notéePCx.

r Prop: Soitx¯ ∈C. Alors

¯

x=PCx ⇐⇒ ∀y∈C, hy−x,¯ x¯−xi>0

⇐⇒ ∀y∈C, hy−x, y¯ −xi>0

⇐⇒ ∀y∈C, hy−x,x¯−xi>k¯x−xk².

(8)

Séparation des convexes (§ 2.5.4)

Emuni d’un produit scalaireh·,·i.

r Dfn: On peutséparerC₁,C₂ ⊂Es’il existeξ ∈E non nul tel que

sup

x1∈C1

hξ, x1i6 inf

x2∈C2

hξ, x2i.

La séparation eststrictesi l’inégalité ci-dessus est stricte (alorsξ est nécessairement non nul).

r Théor (Hahn-Banach):

Si q C1etC2convexes, non vides, disjoints,

q dimE<∞,

alors on peut séparerC₁etC₂.

Si q C1etC2convexes, non vides, disjoints, q C₁ouC₂est d’intérieur non vide, alors on peut séparerC₁etC₂.

Si q C₁etC₂convexes, non vides, disjoints, q l’un est fermé, l’autre est compact, alors on peut séparerC₁etC₂strictement.

Cône dual (§ 2.5.6)

Emuni d’un produit scalaireh·,·i.

r Dfn: Lecône dualdeP ⊂Eest défini par P⁺ := {y ∈E: hy, xi >0, ∀x∈P}.

C’est un cône, convexe, fermé, non vide.

r Lemme de Farkas (généralisé) Si q EetFdeux espaces euclidiens,

q K un cône convexe6=∅deE, q A :E→ Flinéaire,

alors {y ∈F: A^∗y ∈K⁺}⁺ =A(K).

r Cas particulier: SoitAune matrice. Alors

{Ax: x>0} = cône, convexe, fermé,6= ∅ {y :A^⊤y >0}⁺ = {Ax: x>0}.

(·)⁺= dual pour le produit scalaire euclidien.

[c’est une généralisation deN(A^⊤)^⊥ =R(A)]

(9)

Fonction convexe (§ 3.1)

Soient Eun espace vectoriel etf : E→R. r Dfn. Ledomainedef est l’ensemble

domf :={x∈E:f(x)< +∞}.

On peut avoirf(x) = −∞pourx∈domf. r Dfn. L’épigraphedef est l’ensemble

epif :={(x, α)∈E×R:f(x) 6α}.

r Dfn.f estconvexe⇐⇒epif est convexe.

f est convexe ⇐⇒ ∀x, y∈domf,∀t∈]0,1[: f

(1−t)x+ty

6(1−t)f(x) +tf(y).

Différentiabilité directionnelle (§ 3.3.2)

Soientf ∈Conv(E),x∈domf etd ∈E.

1) t∈]0,+∞[7→ ^f^(x+td)_t⁻^f^(x) est croissante, 2) f^′(x;d)existe dansR,

3) f^′(x;d) = +∞ ⇐⇒ f(x+td) = +∞,∀t > 0, 4) f^′(x;−d) >−f^′(x;d),

5) f^′(x;·)est convexe,

6) x∈(domf)⁻^◦ =⇒











f^′(x;·) ∈R, f^′(x;·)Lipschitz, f^′(x;·) ∈Conv(E).

(10)

Enveloppe supérieure (§ 3.4.2)

r Enveloppe supérieured’une famille defi : E→ R, i∈I (quelconque) :

sup

i∈I

fi

(x) := sup

i∈I

fi(x) .

q epi (sup_i∈Ifi) =T

i∈I(epifi). q fi convexes =⇒ sup_i∈Ifi convexe.

q fi fermées =⇒ sup_i∈Ifi fermée.

Reconnaître une fonction convexe par ses dérivées (§ 3.3.3)

SoientX un convexe deEetf : X →R. r Sif est 1 fois dérivable etX ouvert

Les propriétés suivantes sont équivalentes : – f est convexe surX

[resp. strictement convexe], – ∀x, y ∈X,x6=y:

f(y) >f(x) +f^′(x)·(y−x) [resp.>],

– ∀x, y ∈X,x6=y:

(f^′(y)−f^′(x))·(y−x)>0 [resp.>].

(11)

r Sif est 2 fois dérivable etX ouvert : – f est convexe surX ⇐⇒

∀x∈X,∀h∈E,f^′′(x)·h²>0, – f est strictement convexe surX ⇐=

∀x∈X,∀h∈Enon nul,f^′′(x)·h² >0.

Contre-exemple:f(x) = x⁴.

(12)

III Conditions d’optimalité (CO) Le problème à résoudre :

(PX)







minf(x) x∈X,

oùX ⊂E (espace euclidien, produit scalaireh·,·i).

r But. L’optimalité s’exprime par un nombreinfinide conditionsx∗ ∈X et∀x∈X :f(x∗)6f(x). Peut-on exprimer cela avec un nombrefinide conditions ? r Qu’est-ce ?Des=et6décrivant les solutions de(PX).

r _Utilité_{des CO :}

– donner des renseignements sur(PX), – vérifier qu’un point est solution,

– calculer la solution analytiquement (parfois), – définir des algorithmes de résolution.

r Il y a des COnécessaires(notées CN) et des COsuffisantes(notées CS).

r Il y a des CO du 1^erordre (CN1, CS1) et des CO du 2^ièmeordre (CN2, CS2).

CO sans contrainte (rappel, § 4.2) Le problème à résoudre :







minf(x) x∈E.

On note∇f(x) et∇²f(x)les gradient et hessien def enxpourh·,·i.

r CN1:

x∗min local =⇒ ∇f(x∗) = 0.

(Sif est convexe, c’est uneCS1globale.) r CN2:

x∗min local =⇒







∇f(x∗) = 0

∇²f(x∗)<0.

r CS2pour un minimum local strict :







∇f(x∗) = 0

∇²f(x∗)≻0 =⇒ x∗ min local strict.

(13)

CN1 de Peano-Kantorovitch (§ 4.1)

Le problème à résoudre :

(PX)







minf(x) x∈X.

Dfn.Cône tangent:d∈TxX ⇐⇒

∃ {xk} ⊂X, ∃ {tk} ↓0 : xk−x tk

→d.

X1

Tx1X1

x1

x2

X2

Nx2X2

0 0 Tx2X2

Prop

r _T_x_X _{est fermé.}

r _X _{convexe et}_x_∈_X ₌_⇒ _T

xX convexe.

Conditions d’optimalité

r CN1 de Peano-Kantorovitch. On exprime plus ou moins le fait quef croît si on se déplace “vers l’intérieur” deX:

f^′(x∗)·d>0, ∀d ∈Tx_∗X, (2) oùTx_∗X est lecône tangentàX enx∗, ce qui s’écrit aussi

∇f(x^∗)∈(Tx_∗X)⁺, (3)

r CN1. LorsqueX est convexe, la relation(2)se simplifie en :

f^′(x∗)·(x−x∗)>0, ∀x∈X. (4)

r _{CS1. Si}_X est convexe,fest convexe et (4), alorsx∗est un minimum global.

(14)

CO avec contraintes d’=(§ 4.3) Le problème enx∈E(e.v. euclidien) à résoudre :

(PE)







minf(x)

c(x) = 0∈F (e.v. euclidien).

Ensemble admissiblenotéXE. Lelagrangiendu problème :

ℓ(x, λ) = f(x) +hλ, c(x)i.

r CN1: sic^′(x∗)est surjective, il existeλ∗ ∈F, unique, tel que







∇xℓ(x∗, λ∗) = 0

c(x∗) = 0. (5)

(Sicaffine,λ∗existe, pas néc. unique.)

(Sif est convexe etXE est convexe, ce sont desCS1 globales.)

SiF=R^m, la première condition de(5)s’écrit

∇f(x∗) +

m

X

i=1

(λ∗)i∇ci(x∗) = 0.

r CN2: six∗ minimum local etc^′(x∗)est surjective, alors il existeλ∗tel que











∇xℓ(x^∗, λ∗) = 0 c(x∗) = 0

∇²_xxℓ(x∗, λ∗) <0surN(c^′(x∗)).

r CS2: si(x∗, λ∗)vérifie











∇xℓ(x∗, λ∗) = 0 c(x∗) = 0

∇²_xxℓ(x∗, λ∗) ≻0surN(c^′(x∗)), alorsx∗ est un minimum local strict.

(15)

CO avec contraintes d’=et d’6(§ 4.4)

Le problème à résoudre en x∈E:

(PEI)











minf(x)

cE(x) = 0∈R^m^E cI(x)60∈R^m^I. Ensemble admissiblenotéXEI.

Lelagrangiendu problème (c:= (cE, cI)) : ℓ(x, λ) =f(x) +λ^⊤c(x).

On noteI⁰(x) :={i∈I : ci(x) = 0}.

r CN1: si les contraintes sontqualifiéesenx∗, il existe λ∗ ∈R^m tel que

(KKT)











∇xℓ(x∗, λ∗) = 0 cE(x∗) = 0

06(λ∗)I ⊥cI(x∗)60.

Qualification des contraintes (§ 4.4.3)

r _Dfn: on dit que les contraintes de(PEI)sontqualifiéesen xsi

TxX = T^′xX, (6) où

T^′xX :={d:c^′E(x)·d= 0, c^′_I⁰_(x)(x)·d60}.

On a toujours :TxX ⊂T^′xX.

r Conditions suffisantesde qualification des contraintes.

Régularité+l’une des conditions suivantes :

(QC-A) c_E∪I⁰_(x)est affine dans un voisinage dex.

(QC-S) cEestaffine, c_I0(x)convexe,

∃ˇx∈X tel quec_I⁰_(x)(ˇx)<0.

(QC-IL) les gradients{∇ci(x)}_i∈E∪I⁰_(x) sont linéairement indépendants.

(QC-MF) P

i∈E∪I⁰(x)αi∇ci(x) = 0etα_I⁰_(x) >0 =⇒ α_E∪I⁰_(x) = 0.

(16)

Démarche suivie pour obtenir (KKT)

r On part de(2)

[i.e.,f croît dex∗vers l’intérieur deX].

r On suppose que les contraintes sont qualifiées enx∗

(on a(6)avecx=x∗). Dès lors

∇f(x∗) ∈ T^′_x

∗X+

. (7)

r Lemme de Farkas :

Données :A :E→Flinéaire etK cône deE. {y ∈F:A^∗y ∈K⁺}⁺ =A(K).

C’est une généralisation deN(A)^⊥ =R(A^⊤).

r Le lemme de Farkas permet d’exprimer(7) autrement :∃λ∗ ∈R^m tel que l’on ait (KKT).

Signification des multiplicateurs optimaux (§ 4.6.1) r Problème perturbé : pourp∈R^m, on définit

(P_EI^p )











min f(x)

cE(x) +pE = 0 cI(x) +pI 60.

r Dfn. Lafonction valeurassociée à(P_EI^p )est v : p∈R^m →Rdéfinie par

v(p) = inf

x∈X^p f(x),

oùX^pest l’ensemble admissible de(P_EI^p ).

(PEI)convexe =⇒ vconvexe.

r Cas différentiable régulier.

Si q (x∗, λ∗)solution PD de(PEI),

· (¯x(p),¯λ(p))solution PD de(P_EI^p ),

· p7→ x(p)¯ différentiable en 0,x(0) =¯ x∗,

· p7→ ¯λ(p) continue en 0,λ(0) =¯ λ∗, alors λ∗ =∇v(0) = ∇(f ◦x)(0).¯

(17)

r On note

Λ :={λ∈R^m : λI >0}.

r Dfn. On dit que(x∗, λ∗)∈Rⁿ×Λest unpoint-selle deℓsurRⁿ×Λ, si∀(x, λ) ∈Rⁿ×Λ:

ℓ(x^∗, λ) 6ℓ(x^∗, λ∗) 6ℓ(x, λ^∗).

r Cas convexe non différentiable.

Si q x∗est solution de(PEI), q v ∈Conv(R^m),

alors

∂v(0)

={λ∗ : (x∗, λ∗)est point-selle deℓsurR^m ×Λ}.

Remarque : Ci-dessus,∂v(0)peut être vide ! Avec qualification de Slater :∂v(0) 6=∅.

r CN et CS d’existence de solution PD globale.

CN d’optimalité (cas convexe non diff.).

Si q (PEI)convexe (avecf etcfinies),

q (Slater) :c^′_E surjective,∃ˆx∈X t.q.cI(ˆx) <0, q x∗ solution de(PEI),

alors 1) v est loc. lipschitzienne dans un vois. de 0, 2) ∂v(0) 6=∅.

CS d’optimalité globale.

Peu de chance d’être applicable si(PEI)non convexe.

Si q (x∗, λ∗)∈Rⁿ×Λest unpoint-selledeℓsurRⁿ×Λ, alors x∗solution (globale) de(PEI).

(18)

IV Méthodes à directions de descente

Schéma des algorithmes (§ 6.1)

r Dfn:destdirection de descentedef enxsi f^′(x)·d <0.

=⇒f décroît enxle long ded.

r Algorithme à directions de descente: il génère une suite{xk} ⊂Ecomme suit

– Calcul d’une direction de descentedk;

– Recherche linéaire: on détermine un pasαk >0 le long dedk;

– Nouvel itéré:x_k+1 :=xk+αkdk.

xk

dk

x_k+1

x_k+2 dk+1

d_k+2

Exemples d’algorithmes à DD (§ 6.2)

On notegk :=∇f(xk).

r Algorithme du gradient.

dk =−gk.

r Algorithme du gradient conjugué.

dk =







−g1 si k = 1

−gk+βkdk−1 si k >2.

r Algorithme de Newton.

dk =−∇²f(xk)⁻¹gk. r Algorithme de quasi-Newton.

dk =−M_k⁻¹gk. r Algorithme de Gauss-Newton

pourf(x) = ¹₂kr(x)k²₂etJ(x) :=r^′(x)injective : dk =−(J(xk)^∗J(xk))⁻¹J(xk)^∗r(xk).

(19)

La recherche linéaire (§ 6.3)

Deux techniques souvent utilisées : RL d’Armijo et RL de Wolfe.

Soient dk une direction de descente et hk(α) :=f(xk +αdk).

r RL d’Armijo (0 < ω₁ < ¹₂, 0 < τ <1) hk(αk) 6h(0) +ω₁αkh^′_k(0), αk =τⁱ^k, oùik est le plus petit dans{0,1,2, . . .}.

α hk(α) 1

penteω1h^′_k(0) pas d’Armijo

τ⁴ τ³ τ² τ 0

pente h^′_k(0)

r RL de Wolfe (0 < ω₁ < ¹₂, ω₁ < ω₂ <1) hk(αk) 6h(0) +ω₁αkh^′_k(0),

h^′_k(αk) >ω2h^′_k(0).

α

pente h^′_k(0)

penteω2h^′_k(0)

penteω1h^′_k(0) hk(α)

0

pas de Wolfe

Valeurs typiques :ω₁ = 10⁻⁴etω₂ = 0.99.

(20)

Convergence avec la RL de Wolfe(§ 6.3.4) – Dfn:

cosθk := − hgk, dki kgkk kdkk. – Théor:

Si q f ∈C^1,1, q RL de Wolfe

q ∃C, ∀k>0, f(xk)>C,

alors X

k>0

kgkk²cos²θk <+∞.

– Convergence:

* Algo du gradient :θk = 0, doncgk →0.

* Plus généralement :cosθk >c > 0, doncgk →0.

(21)

V Méthodes newtoniennes pour équations

Vitesse de convergence des suites (§ 5.1.1) Soit{xk} une suite convergeant versx∗ ∈E. On suppose quexk 6=x∗, pour toutk> 1.

r Convergence linéaire: il existe une normek · k, un indicek0etτ ∈[0,1[tels que∀k>k0:

kxk+1−x∗k kxk −x∗k 6τ.

r Convergence superlinéaire: kxk+1−x∗k

kxk −x∗k →0.

r Convergence quadratique: il existe une constante C >0telle que∀k >1:

σk = nombre de chiffres significatifs corrects.

superlinéaire quadratique

k xk σk xk σk

1 2.00000000000000 0 2.00000000000000 0 2 1.50000000000000 0 0.86666666666667 1 3 0.61224489795918 1 -0.32323745064862 1 4 -0.16202797536640 1 -0.92578663808031 1 5 -0.92209500449059 1 -0.82332584261905 2 6 -0.78540447895661 1 -0.81774699537697 5 7 -0.81609056319699 3 -0.81773167400186 9 8 -0.81775774021392 5 -0.81773167388682 15 9 -0.81773165292101 8

10 -0.81773167388656 13 11 -0.81773167388682 15

Linéaire =⇒







∃σ >0, ∀kgrand: σk+1−σk> σ.

Superlinéaire =⇒ σk+1−σk → ∞.

Quadratique =⇒ lim inf σk+1

>2.

(22)

Algorithme de Newton pour systèmes non linéaires (§ 9.1.1)

SoitF :E→ F, avec dimE= dimF<∞. On cherche à résoudre enx:

F(x) = 0.

r Algorithme de Newton. Dexk àxk+1: – Résoudreendkl’équation de Newton:

F^′(xk)dk =−F(xk). (8) – Nouvel itéré:

xk+1 =xk+dk. r Exemple 1D.

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5

−1 0 1 2 3 4 5 6

1+x+x³/3

x1 x2 x3 x4

r Propriétés de l’algorithme de Newton.

⊕⊕ Convergence quadratiquelocale: Si q _x_∗ _vérifie_F_(x_∗_{) = 0,}

q _F _est_C^1,1 dans un voisinage dex∗, q _F^′_(x_∗₎est inversible,

alors il existe un voisinage V de x∗ tel que si x1 ∈ V, l’algorithme de Newton (8) est bien défini et génère une suite {xk} ⊂ V qui converge quadratiquement vers x∗.

⊖ En général ne converge pas six1n’est pas proche d’une solution.

⊖ Il faut calculer les dérivées premières deF.

(23)

Globalisation de l’algorithme de Newton par recherche linéaire (§ 9.3.1)

r Dfn: «globaliser»=forcer la convergence lorsque x1 n’est pas voisin d’une solution.

r Une solution miracle ?

SiF(x)6= 0, la direction de Newton enx,

d^N =−F^′(x)⁻¹F(x), est une direction de descente de

f(x) = 1

2kF(x)k²₂. On af^′(x)·d^N =−kF(x)k²2 <0.

r RL surf le long ded^N:x₊ := x+αd^N, avec α >0 tel que (iciω₁ ∈]0, ¹₂[)

′ N

r Un résultat de convergence :

Si{F^′(xk)}et{F^′(xk)⁻¹}sontbornées,

alors l’algorithme de Newton avec une RL « convena- ble » converge vers un point stationnaire de f:

∇f(xk)→0.

r Cette approche ne converge pas toujours !

C’est la raison pour laquelle on a inventé la technique desrégions de confiance(voir un cours plus avancé).

(24)

V’

Méthodes newtoniennes en optimisation (§ 9.1.2) Soit le problème

minx∈Ef(x).

r On se déclare satisfait avecx∗vérifiant

∇f(x∗) = 0.

La relationF =∇f permet d’adapter l’algorithme de Newton (F^′(x) = ∇²f(x)est symétrique).

r Algorithme de Newton. Dexk àx_k+1: – Résoudreendkl’équation de Newton:

∇²f(xk)dk=−∇f(xk). (9) – Nouvel itéré:

xk+1 =xk+dk.

r Leproblème quadratique osculateur.

Le pas de Newtondk est aussi un pointstationnaire du problème quadratique

mind∈E

f(xk) +∇f(xk)^⊤d+ 1

2d^⊤∇²f(xk)d

.

f=1+x+x²/2+x⁴/12

x1 x2 x3 x4

(25)

r Propriétés de l’algorithme de Newton.

⊕⊕ Convergence quadratiquelocale: Si q _x_∗_vérifie_∇f(x_∗_{) = 0,}

q _f _est_C^2,1dans un voisinage dex∗, q _∇²_f_(x_∗₎est inversible,

alors il existe un voisinageV dex∗ tel que six1 ∈ V, l’algorithme de Newton est bien défini et génère une suite {xk} ⊂ V qui converge quadratique- mentversx∗.

⊖ En général ne converge pas six1n’est pas proche d’un point stationnaire.

⊖ Pas de distinction entre min, max, point stationnaire.

⊖ Les directions ne sont pas nécessairement de descente.

⊖ Il faut calculer les dérivées secondes def.

Algorithmes de quasi-Newton (§§ 10.1.1, 10.2.1, 10.2.2) Soit le problème

xmin∈Rⁿf(x).

r Lesalgorithmes de qNgénèrent 2 suites : {xk} ⊂Rⁿ et{Mk} ⊂Rⁿ^×ⁿ sym. dfn. pos.

1) dk := −M_k⁻¹gk;

2) αk >0par recherche linéaire;

3) x_k+1 := xk+αkdk; 4) M_k+1 :=U(Mk, yk, sk),

oùyk := gk+1 −gk etsk :=xk+1−xk.

r Mise à jour deMk. On cherche à ce queMk+1 soit proche deMk(stabilité), tout en vérifiant :

– l’équation de qN :yk =Mk+1sk; – la symétrie :M_k+1^⊤ =M_k+1; – la définie positivité :M_k+1 ≻0.

Cela conduit à laformule de BFGS.

(26)

VI Problèmes de moindres-carrés

r Ce sont des problèmes de la forme

xmin∈RⁿkF(x)k,

oùF : Rⁿ → R^m. En généralm≫ n.

r Exemple :larégression linéaire.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

Moindres-carrés linéaire (§ 17.1)

r _Problème: on cherche une solution de

x∈minRⁿ kAx−bk2, (10) oùAestm×netb∈R^m.

r Équation normale:xest solution ssi

A^⊤Ax=A^⊤b. (11)

r Existence de solution:

◦ Le problème (10) a toujours une solution.

◦ Solution unique ⇐⇒ Aest injective.

◦ Ensemble des solutions =xp+N(A).

r Méthodes numériques:

– Factorisation de Cholesky deA^⊤A.

– GC sur (11).

– Factorisation QR deA.

– Factorisation SVD deA.

(27)

Moindres-carrés non linéaire (§ 17.3)

r Problème: on cherche une solution de

xmin∈Rⁿ

f(x) := 1

2kr(x)k²₂

, (12)

oùr :Rⁿ →R^m est non linéaire (lesrésidus).

JacobienneJ ≡J(x) ≡r^′(x), qui estm×n.

r Algorithme de Gauss-Newton: RL le long de d_k^GN ∈arg min

d∈Rⁿ

1

2kr(xk) +J(xk)dk²₂. On af^′(xk)·d_k^GN6 0(<0si∇f(xk) 6= 0).

Résultat de convergence:

Si{J(xk)}estbornéeetunif. injective, i.e.,

∃C >0, ∀k>1, ∀v∈Rⁿ : Ckvk2 6kJ(xk)vk2 6C⁻¹kvk2,

r Algorithme de Levenberg-Marquardt(révisé) : RC avec le modèle quadratique

ϕk(s) := 1

2kr(xk) +J(xk)sk²₂.

Résultat de convergence: Si{J(xk)}estbornée,

alors l’algorithme de Levenberg-Marquardt avec RC converge vers un point stationnaire de f (c’est-à- direJ(xk)^⊤r(xk)→0).

(28)

VII Dualité (§ 13) r Un premier problème:

(P)









 inf x2

x∈X

x1 = 0. ^x^¯

X x2

x1

r Un second problème: x2

X

x1

pente−λ¯ pente−λ

δ(λ)

(D) sup

λ∈R

δ(λ)

r (P) et (D) sont duaux l’un de l’autre.

r Intérêts de la dualité:

– obtenir des propriétés sur un problème à partir des propriétés d’un pbl dual (e.g., une borne sur la valeur optimale);

– construire des pbls duaux équivalents au pbl primal, mais plus faciles à résoudre;

– algorithmique : recherche de point-selle, du multiplicateur optimal.

Dualité min-max (§ 13.1) SoientX un ensemble,f : X →Ret

(P) inf

x∈Xf(x).

r Récriture du problème primal.

On suppose que

f(x) = sup

y∈Y

ϕ(x, y), oùϕ: X×Y →R. Donc

(P) inf

x∈X

sup

y∈Y

ϕ(x, y) = val(P).

r Le problème dual: on inverse l’inf et le sup (D) sup

y∈Y

inf

x∈X

ϕ(x, y) = val(D).

On peut aussi l’écrireinfy∈Y δ(y), où δ(y) :=− inf

x∈X ϕ(x, y). (13)

◦ δ ≡ fonction duale,

◦ (13) ≡ problème interneeny ∈Y.

(29)

Liens entre (P) et (D)

r Dualité faible:

val(D) 6val(P).

Saut de dualité := val(P)−val(D)>0.

r Dfn: On dit que(¯x,y)¯ est unpoint-selledeϕsur X×Y, si∀x∈X et∀y ∈Y

ϕ(¯x, y) 6ϕ(¯x,y)¯ 6ϕ(x,y).¯

r Théor:(¯x,y)¯ est un point-selle deϕsurX×Y SSI 1) ¯xest solution de(P),

2) ¯y est solution de(D),

3) il n’y a pas de saut de dualité.

r Coroll:Siϕa un point-selle ety¯∈Sol(D):

∅6= Sol(P) ⊂arg minϕ(x,y).¯

Dualisation de contraintes fonctionnelles (§ 13.5)

On cherche à écrire un problème dual du problème d’optimisation avec contraintes :

(PX,EI)











min f(x) x∈X cE(x) = 0 cI(x) 60.

oùX ⊂E, sans qu’il y ait de saut de dualité.

(30)

Dualité lagrangienne (problèmes convexes) On prend pourϕ, le lagrangien (iciy ≡λ)

ϕ(x, λ) ≡ℓ(x, λ) = f(x) +λ^⊤c(x), X ⊂EetY := R^m^E ×R^m^I

+ . r Problème primal:

(PX,EI)≡ inf

x∈X

sup

λ∈Y

ℓ(x, λ).

r Problème dual: sup

λ∈Y

inf

x∈X

ℓ(x, λ).

r Résultat de dualisation: Si q X =E,

q (PX,EI)est « convexe »

(i.e.,f etcI convexes etcE affine), q (¯x,¯λ)vérifie (KKT),

alors(¯x,λ)¯ est point-selle deℓsurE×Y.

r Relaxation lagrangienne (Uzawa) On passe deλk àλk+1 par :

1. xk ∈arg min_x∈E ℓ(x, λk), 2. arrêt si(xk, λk)est satisfaisant, 3. λk+1 = PY [λk +αkc(xk)].

Explications de la formule de mise à jour deλk

(algorithme du gradient avec projection) :

◦ PY est le projecteur orthogonal surY (permet de maintenir lesλk dansY),

◦ αk >0 est déterminé de manière à faire croîtreδ,

◦ −c(xk)est un sous-gradient deδ. Résultat de convergence :

Si q f fortement convexe,cE affine etcI convexe, q (¯x,λ)¯ vérifie (KKT),

q αk >0« petit », alorsxk →x.¯

(31)

Dualité lagrangienne augmentée (problèmes non convexes) On prend pourϕ, lelagrangien augmenté

ℓr(x, λ) =f(x) +X

i∈E

h

λici(x) + r

2ci(x)²i

+X

i∈I

λimax

−λi

r , ci(x)

+

r 2

max

−λi

r , ci(x) 2#

.

r Problème primal: inf

x∈X

sup

λ∈R^m

ℓr(x, λ).

r Problème dual: sup

λ∈R^m

inf

x∈X

ℓr(x, λ).

r Résultat de dualisation: Si q X =E,

q (¯x,¯λ)vérifie les CS2,

alors il existe unvoisinage V dex¯ et un seuilr₀ > 0

¯

r Relaxation lagrangienne augmentée (méthode des multiplicateurs)

On passe de(λk, rk) à(λk+1, r_k+1)par : 1. xk ∈arg min_x∈E ℓrk(x, λk),

2. arrêt si(xk, λk)est satisfaisant, 3. λ_k+1 = PY [λk +rkc(xk)]

(pas besoin de RL !),

4. adapterrk y rk+1 (heuristique).