• Aucun résultat trouvé

Optimisation Différentiable Théorie et Algorithmes Partie I. Exemple de résumé du cours. J. Ch. GILBERT. 14 novembre 2020

N/A
N/A
Protected

Academic year: 2022

Partager "Optimisation Différentiable Théorie et Algorithmes Partie I. Exemple de résumé du cours. J. Ch. GILBERT. 14 novembre 2020"

Copied!
31
0
0

Texte intégral

(1)

Optimisation Différentiable Théorie et Algorithmes

Partie I

Exemple de résumé du cours

J. Ch. GILBERT

14 novembre 2020

(2)

Informations pratiques

r 14 séances, échappatoire possible à mi-parcours.

r Objectif du cours : l’optimisation

– aspects théoriques: convexité, CO, dualité, . . . , – aspects pratiques: algorithmes.

r Organisation :

– Partie I : 7 séances, dont 1/2 pour l’examen.

– CM : 6 séances d’1h15++, – TD + TP : 4+3 séances d’2h00--, – TP : projet d’optimisation (Matlab), – travail personnel.

r Supports de cours

– syllabus[site]: ne pas voir les sections avec⊖, – planches[pdf]: points importants du cours [§], – notes manuscrites[SP]: 1 document par séance, – exercices : en TD (+sol), dans le syllabus (−sol).

r Contrôle des connaissances

– TP : rapport et code incrémental à remettre, – Séance 7 : résolution de problèmes (1h30).

Plan du cours I

1. Introduction : optimisation et analyse convexe TD1(rappels, concepts de base)

2. Conditions d’optimalité I : méthode et outils TP1

3. Conditions d’optimalité II : égalités et inégalités TD2(conditions d’optimalité)

4. Conditions d’optimalité III : CO2 égalitéset Méthode de descente : RL

TP2

5. Méthodes newtoniennes : N et qN

TD3(recherche linéaire, moindres-carrés) 6. Dualité

TD4(dualité)

7. Contrôle des connaissances TP3

(3)

I Introduction

Vocabulaire de l’optimisation (§ 1.1) Le problème à résoudre :

(PX) inf

xXf(x).

Quelques définitions et conventions :

r f :X Rest appeléecritèreoufonction-coûtou fonction-objectif,

r X est appeléensemble admissible, r un point deX est ditadmissible,

r val(PX) := infx∈Xf(x)Rest lavaleur optimale, r (PX)est ditréalisablesiX 6=∅,

r convention :infx∈f(x) = +∞, r sup

x∈X f(x) =−infx∈X

−f(x)

(mêmes solutions), r (PX)est ditnon bornésival(PX) = −∞, i.e.,

∃{xk} ⊂X telle quef(xk)→ −∞.

SiX 6=∅, il existe unesuite minimisante{xk}, laquelle vérifie

On dit quex estsolutionde(PX)si r x X,

r xX:f(x)6f(x).

On dit aussiminimumouminimiseur.

On note l’ensemble des solutions

Sol(PX) ou arg min

x∈X

f(x).

On dit quex estsolution strictede(PX)si r x X,

r xX \ {x}:f(x)< f(x).

SiX topologique, on dit quex estsolution localede(PX)s’il existe un voisinageV dex tel que

r x X,

r xX V:f(x)6f(x).

SiX topologique, on dit quex estsolution locale strictede (PX)s’il existe un voisinageV dextel que

x ∈X,

(4)

Existence de solution (§ 1.2) Le problème à résoudre (f :X →R∪ {+∞}) :

(PX)

inff(x) x∈X.

On dit quef estfermée si(epif)est fermé.

Si q f est fermée surX,

q X est compact et non vide, alors(PX)a (au moins) une solution.

En dimension finie (c’est notre cas) : r X compact ⇐⇒ X fermé borné.

r On peut remplacer l’hypothèse X compact par

X fermé et f coercive surX.

Unicité de solution (§ 3.1)

r SoientX un convexe deEetf : X → R. Définitions :f estconvexe surX si pour tout x, y ∈X,x6=y, ett∈]0,1[:

f((1−t)x+ty) 6(1−t)f(x) +tf(y).

f eststrictement convexesi on a inégalité stricte ci-dessus.

r Le problème à résoudre : (PX)

minf(x) x∈X.

Si q X est convexe,

q f est strictement convexe surX, alors(PX)a au plus une solution.

(5)

Différentiabilité première (§§ C.1, C.2.1) Soient EetFdeux espaces normés,Ωun ouvert deEet f : Ω →F.

1. Différentiabilité directionnellesuivanth∈E: f(x;h) := lim

t0+

1 t

f(x+th)−f(x)

existe.

2. Différentiabilité au sens de Gâteaux: – f(x;h)existe pour touth∈Eet – h7→ f(x;h)est linéaire (continue).

On notef(x)l’application linéaire (continue).

3. Différentiabilité au sens de Fréchet: il existe L:E→ F, linéaire (continue) :

f(x+h) = f(x) +Lh+o(khk).

On notef(x) :=L(même opérateur qu’en 2).

Soith·,·iun produit scalaire surEetF=R. On définit le gradientde en comme l’unique vecteur :

Différentiabilité seconde (§ C.2.2)

Supposons quef : Ω→Fsoit 2 fois différentiable (pour une définition rigoureuse, voir le syllabus).

Propriétés :

r f′′(x)·(h, k)est la dérivée directionnelle de x7→f(x)·hdans la directionk:

f′′(x)·(h, k) = lim

t0+

1

t (f(x+tk)·h−f(x)·h). r l’application

(h, k)7→ f′′(x)·(h, k) est bilinéaire symétrique.

Soith·,·iun produit scalaire surEetF=R. On définit le hessiendef enxcomme l’unique opérateur linéaire symétrique∇2f(x)surEtel que

(6)

II Analyse convexe Ensemble convexe (§ 2.1) SoitEun espace vectoriel.

r Dfn. Soientx,y∈E. UnsegmentdeE:

[x, y] := {(1−t)x+ty :t ∈[0,1]}.

r Dfn. Un ensembleC⊂Eestconvexesi

∀x, y ∈C =⇒ [x, y]⊂C.

x x y y

convexe non convexe

non convexe convexe

y x

Aspects topologiques (§ 2.3)

r Dfn. L’enveloppe affined’une partieP ⊂Eest le plus petit espace affinecontenantP. On le note

affP =\

{A: A= espace affine contenantP}.

r Dfn. L’intérieur relatifd’une partieP ⊂Eest son intérieur dansaffA(muni de la topologie induite de celle deE). On le note

intrP ou P.

(7)

Polyèdre convexe (§ 2.4)

Soient EetFdes espaces vectoriels (E=Rn etF=Rm parfois).

r Dfn.Description primaled’un polyèdre convexe : P := co{x1, . . . , xp}+ cone{y1, . . . , yq}, où lesxi etyj ∈E.

Description dualed’un polyèdre convexe : P :={x∈E: Ax6b}, oùA :F→ Flinéaire etb∈F.

r Prop.

SiP polyèdre convexe etL: F→Flinéaire, alorsL(P)polyèdre convexe.

Projection sur un convexe fermé (§ 2.5.2)

Emuni d’un produit scalaireh·,·i=k · k2. SiC ⊂Econvexe fermé non vide etx∈E, alors le problème

min{ky−xk: y ∈C} (1) a une unique solution.

r Dfn: l’unique solution de (1) est appelée projection/projeté dexsurC et est notéePCx.

r Prop: Soitx¯ ∈C. Alors

¯

x=PCx ⇐⇒ ∀y∈C, hy−x,¯ x¯−xi>0

⇐⇒ ∀y∈C, hy−x, y¯ −xi>0

⇐⇒ ∀y∈C, hy−x,x¯−xi>k¯x−xk2.

(8)

Séparation des convexes (§ 2.5.4)

Emuni d’un produit scalaireh·,·i.

r Dfn: On peutséparerC1,C2 ⊂Es’il existeξ ∈E non nul tel que

sup

x1C1

hξ, x1i6 inf

x2C2

hξ, x2i.

La séparation eststrictesi l’inégalité ci-dessus est stricte (alorsξ est nécessairement non nul).

r Théor (Hahn-Banach):

Si q C1etC2convexes, non vides, disjoints,

q dimE<∞,

alors on peut séparerC1etC2.

Si q C1etC2convexes, non vides, disjoints, q C1ouC2est d’intérieur non vide, alors on peut séparerC1etC2.

Si q C1etC2convexes, non vides, disjoints, q l’un est fermé, l’autre est compact, alors on peut séparerC1etC2strictement.

Cône dual (§ 2.5.6)

Emuni d’un produit scalaireh·,·i.

r Dfn: Lecône dualdeP ⊂Eest défini par P+ := {y ∈E: hy, xi >0, ∀x∈P}.

C’est un cône, convexe, fermé, non vide.

r Lemme de Farkas (généralisé) Si q EetFdeux espaces euclidiens,

q K un cône convexe6=∅deE, q A :E→ Flinéaire,

alors {y ∈F: Ay ∈K+}+ =A(K).

r Cas particulier: SoitAune matrice. Alors

{Ax: x>0} = cône, convexe, fermé,6= ∅ {y :Ay >0}+ = {Ax: x>0}.

(·)+= dual pour le produit scalaire euclidien.

[c’est une généralisation deN(A) =R(A)]

(9)

Fonction convexe (§ 3.1)

Soient Eun espace vectoriel etf : E→R. r Dfn. Ledomainedef est l’ensemble

domf :={x∈E:f(x)< +∞}.

On peut avoirf(x) = −∞pourx∈domf. r Dfn. L’épigraphedef est l’ensemble

epif :={(x, α)∈E×R:f(x) 6α}.

r Dfn.f estconvexe⇐⇒epif est convexe.

f est convexe ⇐⇒ ∀x, y∈domf,∀t∈]0,1[: f

(1−t)x+ty

6(1−t)f(x) +tf(y).

Différentiabilité directionnelle (§ 3.3.2)

Soientf ∈Conv(E),x∈domf etd ∈E.

1) t∈]0,+∞[7→ f(x+td)tf(x) est croissante, 2) f(x;d)existe dansR,

3) f(x;d) = +∞ ⇐⇒ f(x+td) = +∞,∀t > 0, 4) f(x;−d) >−f(x;d),

5) f(x;·)est convexe,

6) x∈(domf) =⇒





f(x;·) ∈R, f(x;·)Lipschitz, f(x;·) ∈Conv(E).

(10)

Enveloppe supérieure (§ 3.4.2)

r Enveloppe supérieured’une famille defi : E→ R, i∈I (quelconque) :

sup

i∈I

fi

(x) := sup

i∈I

fi(x) .

q epi (supiIfi) =T

iI(epifi). q fi convexes =⇒ supiIfi convexe.

q fi fermées =⇒ supiIfi fermée.

Reconnaître une fonction convexe par ses dérivées (§ 3.3.3)

SoientX un convexe deEetf : X →R. r Sif est 1 fois dérivable etX ouvert

Les propriétés suivantes sont équivalentes : – f est convexe surX

[resp. strictement convexe], – ∀x, y ∈X,x6=y:

f(y) >f(x) +f(x)·(y−x) [resp.>],

– ∀x, y ∈X,x6=y:

(f(y)−f(x))·(y−x)>0 [resp.>].

(11)

r Sif est 2 fois dérivable etX ouvert : – f est convexe surX ⇐⇒

∀x∈X,∀h∈E,f′′(x)·h2>0, – f est strictement convexe surX ⇐=

∀x∈X,∀h∈Enon nul,f′′(x)·h2 >0.

Contre-exemple:f(x) = x4.

(12)

III Conditions d’optimalité (CO) Le problème à résoudre :

(PX)

minf(x) x∈X,

oùX ⊂E (espace euclidien, produit scalaireh·,·i).

r But. L’optimalité s’exprime par un nombreinfinide conditionsx ∈X et∀x∈X :f(x)6f(x). Peut-on exprimer cela avec un nombrefinide conditions ? r Qu’est-ce ?Des=et6décrivant les solutions de(PX).

r Utilitédes CO :

– donner des renseignements sur(PX), – vérifier qu’un point est solution,

– calculer la solution analytiquement (parfois), – définir des algorithmes de résolution.

r Il y a des COnécessaires(notées CN) et des COsuffisantes(notées CS).

r Il y a des CO du 1erordre (CN1, CS1) et des CO du 2ièmeordre (CN2, CS2).

CO sans contrainte (rappel, § 4.2) Le problème à résoudre :

minf(x) x∈E.

On note∇f(x) et∇2f(x)les gradient et hessien def enxpourh·,·i.

r CN1:

xmin local =⇒ ∇f(x) = 0.

(Sif est convexe, c’est uneCS1globale.) r CN2:

xmin local =⇒

∇f(x) = 0

2f(x)<0.

r CS2pour un minimum local strict :

∇f(x) = 0

2f(x)≻0 =⇒ x min local strict.

(13)

CN1 de Peano-Kantorovitch (§ 4.1)

Le problème à résoudre :

(PX)

minf(x) x∈X.

Dfn.Cône tangent:d∈TxX ⇐⇒

∃ {xk} ⊂X, ∃ {tk} ↓0 : xk−x tk

→d.

X1

Tx1X1

x1

x2

X2

Nx2X2

0 0 Tx2X2

Prop

r TxX est fermé.

r X convexe etxX = T

xX convexe.

Conditions d’optimalité

r CN1 de Peano-Kantorovitch. On exprime plus ou moins le fait quef croît si on se déplace “vers l’intérieur” deX:

f(x)·d>0, ∀d ∈TxX, (2) oùTxX est lecône tangentàX enx, ce qui s’écrit aussi

∇f(x)∈(TxX)+, (3)

r CN1. LorsqueX est convexe, la relation(2)se simplifie en :

f(x)·(x−x)>0, ∀x∈X. (4)

r CS1. SiX est convexe,fest convexe et (4), alorsxest un minimum global.

(14)

CO avec contraintes d’=(§ 4.3) Le problème enx∈E(e.v. euclidien) à résoudre :

(PE)

minf(x)

c(x) = 0∈F (e.v. euclidien).

Ensemble admissiblenotéXE. Lelagrangiendu problème :

ℓ(x, λ) = f(x) +hλ, c(x)i.

r CN1: sic(x)est surjective, il existeλ ∈F, unique, tel que

xℓ(x, λ) = 0

c(x) = 0. (5)

(Sicaffine,λexiste, pas néc. unique.)

(Sif est convexe etXE est convexe, ce sont desCS1 globales.)

SiF=Rm, la première condition de(5)s’écrit

∇f(x) +

m

X

i=1

)i∇ci(x) = 0.

r CN2: six minimum local etc(x)est surjective, alors il existeλtel que





xℓ(x, λ) = 0 c(x) = 0

2xxℓ(x, λ) <0surN(c(x)).

r CS2: si(x, λ)vérifie





xℓ(x, λ) = 0 c(x) = 0

2xxℓ(x, λ) ≻0surN(c(x)), alorsx est un minimum local strict.

(15)

CO avec contraintes d’=et d’6(§ 4.4)

Le problème à résoudre en x∈E:

(PEI)





minf(x)

cE(x) = 0∈RmE cI(x)60∈RmI. Ensemble admissiblenotéXEI.

Lelagrangiendu problème (c:= (cE, cI)) : ℓ(x, λ) =f(x) +λc(x).

On noteI0(x) :={i∈I : ci(x) = 0}.

r CN1: si les contraintes sontqualifiéesenx, il existe λ ∈Rm tel que

(KKT)





xℓ(x, λ) = 0 cE(x) = 0

06(λ)I ⊥cI(x)60.

Qualification des contraintes (§ 4.4.3)

r Dfn: on dit que les contraintes de(PEI)sontqualifiéesen xsi

TxX = TxX, (6) où

TxX :={d:cE(x)·d= 0, cI0(x)(x)·d60}.

On a toujours :TxX ⊂TxX.

r Conditions suffisantesde qualification des contraintes.

Régularité+l’une des conditions suivantes :

(QC-A) cE∪I0(x)est affine dans un voisinage dex.

(QC-S) cEestaffine, cI0(x)convexe,

ˇxX tel quecI0(x)x)<0.

(QC-IL) les gradients{∇ci(x)}i∈E∪I0(x) sont linéairement indépendants.

(QC-MF) P

i∈E∪I0(x)αi∇ci(x) = 0etαI0(x) >0 = αE∪I0(x) = 0.

(16)

Démarche suivie pour obtenir (KKT)

r On part de(2)

[i.e.,f croît dexvers l’intérieur deX].

r On suppose que les contraintes sont qualifiées enx

(on a(6)avecx=x). Dès lors

∇f(x) ∈ Tx

X+

. (7)

r Lemme de Farkas :

Données :A :E→Flinéaire etK cône deE. {y ∈F:Ay ∈K+}+ =A(K).

C’est une généralisation deN(A) =R(A).

r Le lemme de Farkas permet d’exprimer(7) autrement :∃λ ∈Rm tel que l’on ait (KKT).

Signification des multiplicateurs optimaux (§ 4.6.1) r Problème perturbé : pourp∈Rm, on définit

(PEIp )





min f(x)

cE(x) +pE = 0 cI(x) +pI 60.

r Dfn. Lafonction valeurassociée à(PEIp )est v : p∈Rm →Rdéfinie par

v(p) = inf

xXp f(x),

oùXpest l’ensemble admissible de(PEIp ).

(PEI)convexe =⇒ vconvexe.

r Cas différentiable régulier.

Si q (x, λ)solution PD de(PEI),

· (¯x(p),¯λ(p))solution PD de(PEIp ),

· p7→ x(p)¯ différentiable en 0,x(0) =¯ x,

· p7→ ¯λ(p) continue en 0,λ(0) =¯ λ, alors λ =∇v(0) = ∇(f ◦x)(0).¯

(17)

r On note

Λ :={λ∈Rm : λI >0}.

r Dfn. On dit que(x, λ)∈Rn×Λest unpoint-selle deℓsurRn×Λ, si∀(x, λ) ∈Rn×Λ:

ℓ(x, λ) 6ℓ(x, λ) 6ℓ(x, λ).

r Cas convexe non différentiable.

Si q xest solution de(PEI), q v ∈Conv(Rm),

alors

∂v(0)

={λ : (x, λ)est point-selle deℓsurRm ×Λ}.

Remarque : Ci-dessus,∂v(0)peut être vide ! Avec qualification de Slater :∂v(0) 6=∅.

r CN et CS d’existence de solution PD globale.

CN d’optimalité (cas convexe non diff.).

Si q (PEI)convexe (avecf etcfinies),

q (Slater) :cE surjective,∃ˆx∈X t.q.cI(ˆx) <0, q x solution de(PEI),

alors 1) v est loc. lipschitzienne dans un vois. de 0, 2) ∂v(0) 6=∅.

CS d’optimalité globale.

Peu de chance d’être applicable si(PEI)non convexe.

Si q (x, λ)∈Rn×Λest unpoint-selledeℓsurRn×Λ, alors xsolution (globale) de(PEI).

(18)

IV Méthodes à directions de descente

Schéma des algorithmes (§ 6.1)

r Dfn:destdirection de descentedef enxsi f(x)·d <0.

=⇒f décroît enxle long ded.

r Algorithme à directions de descente: il génère une suite{xk} ⊂Ecomme suit

– Calcul d’une direction de descentedk;

– Recherche linéaire: on détermine un pasαk >0 le long dedk;

– Nouvel itéré:xk+1 :=xkkdk.

xk

dk

xk+1

xk+2 dk+1

dk+2

Exemples d’algorithmes à DD (§ 6.2)

On notegk :=∇f(xk).

r Algorithme du gradient.

dk =−gk.

r Algorithme du gradient conjugué.

dk =

−g1 si k = 1

−gkkdk1 si k >2.

r Algorithme de Newton.

dk =−∇2f(xk)1gk. r Algorithme de quasi-Newton.

dk =−Mk1gk. r Algorithme de Gauss-Newton

pourf(x) = 12kr(x)k22etJ(x) :=r(x)injective : dk =−(J(xk)J(xk))1J(xk)r(xk).

(19)

La recherche linéaire (§ 6.3)

Deux techniques souvent utilisées : RL d’Armijo et RL de Wolfe.

Soient dk une direction de descente et hk(α) :=f(xk +αdk).

r RL d’Armijo (0 < ω1 < 12, 0 < τ <1) hkk) 6h(0) +ω1αkhk(0), αkik, oùik est le plus petit dans{0,1,2, . . .}.

α hk(α) 1

penteω1hk(0) pas d’Armijo

τ4 τ3 τ2 τ 0

pente hk(0)

r RL de Wolfe (0 < ω1 < 12, ω1 < ω2 <1) hkk) 6h(0) +ω1αkhk(0),

hkk) >ω2hk(0).

α

pente hk(0)

penteω2hk(0)

penteω1hk(0) hk(α)

0

pas de Wolfe

Valeurs typiques :ω1 = 104etω2 = 0.99.

(20)

Convergence avec la RL de Wolfe(§ 6.3.4) – Dfn:

cosθk := − hgk, dki kgkk kdkk. – Théor:

Si q f ∈C1,1, q RL de Wolfe

q ∃C, ∀k>0, f(xk)>C,

alors X

k>0

kgkk2cos2θk <+∞.

– Convergence:

* Algo du gradient :θk = 0, doncgk →0.

* Plus généralement :cosθk >c > 0, doncgk →0.

(21)

V Méthodes newtoniennes pour équations

Vitesse de convergence des suites (§ 5.1.1) Soit{xk} une suite convergeant versx ∈E. On suppose quexk 6=x, pour toutk> 1.

r Convergence linéaire: il existe une normek · k, un indicek0etτ ∈[0,1[tels que∀k>k0:

kxk+1−xk kxk −xk 6τ.

r Convergence superlinéaire: kxk+1−xk

kxk −xk →0.

r Convergence quadratique: il existe une constante C >0telle que∀k >1:

σk = nombre de chiffres significatifs corrects.

superlinéaire quadratique

k xk σk xk σk

1 2.00000000000000 0 2.00000000000000 0 2 1.50000000000000 0 0.86666666666667 1 3 0.61224489795918 1 -0.32323745064862 1 4 -0.16202797536640 1 -0.92578663808031 1 5 -0.92209500449059 1 -0.82332584261905 2 6 -0.78540447895661 1 -0.81774699537697 5 7 -0.81609056319699 3 -0.81773167400186 9 8 -0.81775774021392 5 -0.81773167388682 15 9 -0.81773165292101 8

10 -0.81773167388656 13 11 -0.81773167388682 15

Linéaire =⇒

∃σ >0, ∀kgrand: σk+1−σk> σ.

Superlinéaire =⇒ σk+1−σk → ∞.

Quadratique =⇒ lim inf σk+1

>2.

(22)

Algorithme de Newton pour systèmes non linéaires (§ 9.1.1)

SoitF :E→ F, avec dimE= dimF<∞. On cherche à résoudre enx:

F(x) = 0.

r Algorithme de Newton. Dexk àxk+1: – Résoudreendkl’équation de Newton:

F(xk)dk =−F(xk). (8) – Nouvel itéré:

xk+1 =xk+dk. r Exemple 1D.

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5

−1 0 1 2 3 4 5 6

1+x+x3/3

x1 x2 x3 x4

r Propriétés de l’algorithme de Newton.

⊕⊕ Convergence quadratiquelocale: Si q x vérifieF(x) = 0,

q F estC1,1 dans un voisinage dex, q F(x)est inversible,

alors il existe un voisinage V de x tel que si x1 ∈ V, l’algorithme de Newton (8) est bien défini et génère une suite {xk} ⊂ V qui converge quadratiquement vers x.

⊖ En général ne converge pas six1n’est pas proche d’une solution.

⊖ Il faut calculer les dérivées premières deF.

(23)

Globalisation de l’algorithme de Newton par recherche linéaire (§ 9.3.1)

r Dfn: «globaliser»=forcer la convergence lorsque x1 n’est pas voisin d’une solution.

r Une solution miracle ?

SiF(x)6= 0, la direction de Newton enx,

dN =−F(x)−1F(x), est une direction de descente de

f(x) = 1

2kF(x)k22. On af(x)·dN =−kF(x)k22 <0.

r RL surf le long dedN:x+ := x+αdN, avec α >0 tel que (iciω1 ∈]0, 12[)

N

r Un résultat de convergence :

Si{F(xk)}et{F(xk)1}sontbornées,

alors l’algorithme de Newton avec une RL « convena- ble » converge vers un point stationnaire de f:

∇f(xk)→0.

r Cette approche ne converge pas toujours !

C’est la raison pour laquelle on a inventé la technique desrégions de confiance(voir un cours plus avancé).

(24)

V’

Méthodes newtoniennes en optimisation (§ 9.1.2) Soit le problème

minxEf(x).

r On se déclare satisfait avecxvérifiant

∇f(x) = 0.

La relationF =∇f permet d’adapter l’algorithme de Newton (F(x) = ∇2f(x)est symétrique).

r Algorithme de Newton. Dexk àxk+1: – Résoudreendkl’équation de Newton:

2f(xk)dk=−∇f(xk). (9) – Nouvel itéré:

xk+1 =xk+dk.

r Leproblème quadratique osculateur.

Le pas de Newtondk est aussi un pointstationnaire du problème quadratique

mindE

f(xk) +∇f(xk)d+ 1

2d2f(xk)d

.

f=1+x+x2/2+x4/12

x1 x2 x3 x4

(25)

r Propriétés de l’algorithme de Newton.

⊕⊕ Convergence quadratiquelocale: Si q xvérifie∇f(x) = 0,

q f estC2,1dans un voisinage dex, q 2f(x)est inversible,

alors il existe un voisinageV dex tel que six1 ∈ V, l’algorithme de Newton est bien défini et génère une suite {xk} ⊂ V qui converge quadratique- mentversx.

⊖ En général ne converge pas six1n’est pas proche d’un point stationnaire.

⊖ Pas de distinction entre min, max, point stationnaire.

⊖ Les directions ne sont pas nécessairement de descente.

⊖ Il faut calculer les dérivées secondes def.

Algorithmes de quasi-Newton (§§ 10.1.1, 10.2.1, 10.2.2) Soit le problème

xminRnf(x).

r Lesalgorithmes de qNgénèrent 2 suites : {xk} ⊂Rn et{Mk} ⊂Rn×n sym. dfn. pos.

1) dk := −Mk1gk;

2) αk >0par recherche linéaire;

3) xk+1 := xkkdk; 4) Mk+1 :=U(Mk, yk, sk),

oùyk := gk+1 −gk etsk :=xk+1−xk.

r Mise à jour deMk. On cherche à ce queMk+1 soit proche deMk(stabilité), tout en vérifiant :

– l’équation de qN :yk =Mk+1sk; – la symétrie :Mk+1 =Mk+1; – la définie positivité :Mk+1 ≻0.

Cela conduit à laformule de BFGS.

(26)

VI Problèmes de moindres-carrés

r Ce sont des problèmes de la forme

xminRnkF(x)k,

oùF : Rn → Rm. En généralm≫ n.

r Exemple :larégression linéaire.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.5 1 1.5 2 2.5 3

Moindres-carrés linéaire (§ 17.1)

r Problème: on cherche une solution de

x∈minRn kAx−bk2, (10) oùAestm×netb∈Rm.

r Équation normale:xest solution ssi

AAx=Ab. (11)

r Existence de solution:

◦ Le problème (10) a toujours une solution.

◦ Solution unique ⇐⇒ Aest injective.

◦ Ensemble des solutions =xp+N(A).

r Méthodes numériques:

– Factorisation de Cholesky deAA.

– GC sur (11).

– Factorisation QR deA.

– Factorisation SVD deA.

(27)

Moindres-carrés non linéaire (§ 17.3)

r Problème: on cherche une solution de

xminRn

f(x) := 1

2kr(x)k22

, (12)

oùr :Rn →Rm est non linéaire (lesrésidus).

JacobienneJ ≡J(x) ≡r(x), qui estm×n.

r Algorithme de Gauss-Newton: RL le long de dkGN ∈arg min

dRn

1

2kr(xk) +J(xk)dk22. On af(xk)·dkGN6 0(<0si∇f(xk) 6= 0).

Résultat de convergence:

Si{J(xk)}estbornéeetunif. injective, i.e.,

∃C >0, ∀k>1, ∀v∈Rn : Ckvk2 6kJ(xk)vk2 6C−1kvk2,

r Algorithme de Levenberg-Marquardt(révisé) : RC avec le modèle quadratique

ϕk(s) := 1

2kr(xk) +J(xk)sk22.

Résultat de convergence: Si{J(xk)}estbornée,

alors l’algorithme de Levenberg-Marquardt avec RC converge vers un point stationnaire de f (c’est-à- direJ(xk)r(xk)→0).

(28)

VII Dualité (§ 13) r Un premier problème:

(P)

inf x2

xX

x1 = 0. x¯

X x2

x1

r Un second problème: x2

X

x1

penteλ¯ penteλ

δ(λ)

(D) sup

λ∈R

δ(λ)

r (P) et (D) sont duaux l’un de l’autre.

r Intérêts de la dualité:

– obtenir des propriétés sur un problème à partir des propriétés d’un pbl dual (e.g., une borne sur la valeur optimale);

– construire des pbls duaux équivalents au pbl primal, mais plus faciles à résoudre;

– algorithmique : recherche de point-selle, du multiplicateur optimal.

Dualité min-max (§ 13.1) SoientX un ensemble,f : X →Ret

(P) inf

xXf(x).

r Récriture du problème primal.

On suppose que

f(x) = sup

y∈Y

ϕ(x, y), oùϕ: X×Y →R. Donc

(P) inf

xX

sup

yY

ϕ(x, y) = val(P).

r Le problème dual: on inverse l’inf et le sup (D) sup

yY

inf

xX

ϕ(x, y) = val(D).

On peut aussi l’écrireinfy∈Y δ(y), où δ(y) :=− inf

xX ϕ(x, y). (13)

◦ δ ≡ fonction duale,

◦ (13) ≡ problème interneeny ∈Y.

(29)

Liens entre (P) et (D)

r Dualité faible:

val(D) 6val(P).

Saut de dualité := val(P)−val(D)>0.

r Dfn: On dit que(¯x,y)¯ est unpoint-selledeϕsur X×Y, si∀x∈X et∀y ∈Y

ϕ(¯x, y) 6ϕ(¯x,y)¯ 6ϕ(x,y).¯

r Théor:(¯x,y)¯ est un point-selle deϕsurX×Y SSI 1) ¯xest solution de(P),

2) ¯y est solution de(D),

3) il n’y a pas de saut de dualité.

r Coroll:Siϕa un point-selle ety¯∈Sol(D):

∅6= Sol(P) ⊂arg minϕ(x,y).¯

Dualisation de contraintes fonctionnelles (§ 13.5)

On cherche à écrire un problème dual du problème d’optimisation avec contraintes :

(PX,EI)













min f(x) x∈X cE(x) = 0 cI(x) 60.

oùX ⊂E, sans qu’il y ait de saut de dualité.

(30)

Dualité lagrangienne (problèmes convexes) On prend pourϕ, le lagrangien (iciy ≡λ)

ϕ(x, λ) ≡ℓ(x, λ) = f(x) +λc(x), X ⊂EetY := RmE ×RmI

+ . r Problème primal:

(PX,EI)≡ inf

xX

sup

λY

ℓ(x, λ).

r Problème dual: sup

λY

inf

xX

ℓ(x, λ).

r Résultat de dualisation: Si q X =E,

q (PX,EI)est « convexe »

(i.e.,f etcI convexes etcE affine), q (¯x,¯λ)vérifie (KKT),

alors(¯x,λ)¯ est point-selle deℓsurE×Y.

r Relaxation lagrangienne (Uzawa) On passe deλk àλk+1 par :

1. xk ∈arg minxE ℓ(x, λk), 2. arrêt si(xk, λk)est satisfaisant, 3. λk+1 = PYkkc(xk)].

Explications de la formule de mise à jour deλk

(algorithme du gradient avec projection) :

◦ PY est le projecteur orthogonal surY (permet de maintenir lesλk dansY),

◦ αk >0 est déterminé de manière à faire croîtreδ,

◦ −c(xk)est un sous-gradient deδ. Résultat de convergence :

Si q f fortement convexe,cE affine etcI convexe, q (¯x,λ)¯ vérifie (KKT),

q αk >0« petit », alorsxk →x.¯

(31)

Dualité lagrangienne augmentée (problèmes non convexes) On prend pourϕ, lelagrangien augmenté

r(x, λ) =f(x) +X

i∈E

h

λici(x) + r

2ci(x)2i

+X

i∈I

λimax

−λi

r , ci(x)

+

r 2

max

−λi

r , ci(x) 2#

.

r Problème primal: inf

xX

sup

λRm

r(x, λ).

r Problème dual: sup

λRm

inf

xX

r(x, λ).

r Résultat de dualisation: Si q X =E,

q (¯x,¯λ)vérifie les CS2,

alors il existe unvoisinage V dex¯ et un seuilr0 > 0

¯

r Relaxation lagrangienne augmentée (méthode des multiplicateurs)

On passe de(λk, rk) à(λk+1, rk+1)par : 1. xk ∈arg minxErk(x, λk),

2. arrêt si(xk, λk)est satisfaisant, 3. λk+1 = PYk +rkc(xk)]

(pas besoin de RL !),

4. adapterrk y rk+1 (heuristique).

Références

Documents relatifs

Ce cours est une continuité du cours fait en semestre S5 de la filière Sci- ences Mathématiques et Applications. L’assimilation du cours du semestre S5 concernant les espaces affines

A partir des documents suivants et de vos connaissances sur la réaction d’estérification, proposer des conditions expérimentales pour optimiser le rendement et la vitesse de

Pour cela on utilise le fait que la transformation en série de Fourier transforme un opérateur de translation en multiplication par un complexe : soit v une fonction 1-périodique et

Optimisation sans contrainte : conditions d’optimalité..

Présenter les méthodes statistiques de traitement des données comportant des variables qualitatives et quantitatives.. Traiter à la fois des problèmes de régressions, classification

Le vote pour la liste de Jean-Claude Gaudin a varié entre les extremums 5,108 et 49,063, avec une médiane (autant de bureaux au dessus que de bureaux en dessous de cette valeur)

Ce cours s’appuie sur le livre “Convex Optimization” de Stephen Boyd et Lieven Vandenberghe (disponible gratuitement : http://www.stanford.edu/~boyd/cvxbook/ ) et les

R´ esum´ e. Dans ce TP on va chercher ` a impl´ ementer certaines notions vues en cours concernant l’optimisation convexe. Le premier exercice cherche ` a montrer que les conditions