Introduction à l’optimisation, aspects théoriques et numériques

(1)

Introduction ` a l’optimisation, aspects th´ eoriques et num´ eriques

YannickPrivat

CNRS & Univ. Paris 6

S´eance 2, mars 2015

(2)

Organisation des s´ eances (Rappel)

Séance 1 :généralités en optimisation

Séances 2, 3 :optimisation SANS contrainte (conditions d’optimalité, algorithmes) Séances 4,5 :optimisation SOUS contrainte (théorème de

Kuhn-Tucker, algorithmes)

Evaluation :´ 1 rapport écrit des séances de TP (1/4) + 1 examen écrit (3/4) Pour me joindre :yannick.privat@math.cnrs.fr

t´el´echarger les transparents :https ://www.ljll.math.upmc.fr/∼privat/cours/ensem.php

(3)

Organisation des s´ eances (Rappel)

Evaluation :´ 1 rapport écrit des séances de TP (1/4) + 1 examen écrit (3/4)

(4)

Organisation des s´ eances (Rappel)

Evaluation :´ 1 rapport écrit des séances de TP (1/4) + 1 examen écrit (3/4) Pour me joindre :yannick.privat@math.cnrs.fr

(5)

Plan de la s´ eance

1 Rappels de la séance précédente

2 Sur l’unicit´e des solutions

3 Conditions d’optimalit´e

Au premier ordre et sans contrainte Cas d’une fonction quadratique

(6)

Rappels de la séance précédente

Sommaire

(7)

D´ eveloppement limit´ e aux premier et second ordres

! Supposons quef est diff´erentiable enx0. Alors, pour touth∈Rⁿ, f(x0+h)−f(x0) =h∇f(x0),hi+ o

h→0(khk) o`u∇f(x0) est le gradient def enx0, i.e. le vecteur (_∂x^∂f

1(x0),· · ·,_∂x^∂f

n(x0)).

! Supposons quef est deux fois diff´erentiable enx0. Alors, pour touth∈Rⁿ, f(x0+h)−f(x0) =h∇f(x0),hi+1

2hHessf(x0)h,hi+ o

h→0(khk²) où Hessf(x0) est la matrice de taillen×ndes dérivées secondes def évaluées en x0, i.e.

Hessf(x0) = ∂²f

∂xi∂xj

(x0)

1≤i,j≤n

On notera que, sif est deux fois différentiable, en vertu du théorème de Schwarz, Hessf(x ) est symétrique (réelle)

(8)

Rappels de la séance précédente

Existence de solutions

Soitf :K⊂Rⁿ−→R. On consid`ere le probl`eme d’optimisation

(P) inf

x∈Kf(x) Theor`eme (Existence en dimension finie)

On suppose quefest continue etK⊂Rⁿ.

1 SiK est compact (i.e.ferméetbornépuisque nous sommes en dimension finie), alors le problème (P) possède (au moins) une solution.

2 Sif estcoercive(on dit aussiinfinie `a l’infini), c’est-`a-diref(x)−−−−−−→

kxk→+∞ +∞et K est fermé, alors le problème (P) possède (au moins) une solution.

(9)

Sommaire

(10)

Sur l’unicit´e des solutions

Rappels sur la notion de convexit´ e

Ensembles et fonctions convexes

1 On dit qu’un ensembleK⊂Rⁿest convexe ssi pour tous (x1,x2)∈K²ett∈[0,1], tx1+ (1−t)x2∈K.

2 SoitK⊂Rⁿ, convexe. La fonctionf :K−→Rest diteconvexessi

∀(x1,x2)∈K², ∀t∈[0,1], f(tx1+ (1−t)x2)≤tf(x1) + (1−t)f(x2).

f est ditestrictement convexesi l’in´eg. ci-dessus est stricte pourx6=y,t∈]0,1[.

fonction strictement convexe

fonction non convexe

(11)

Rappels sur la notion de convexit´ e

Quelques remarques.

Sif est une fonction convexe d´efinie sur un ouvert convexe Ω deRⁿ, alorsf est continue sur Ω et lipschitzienne sur tout compact de Ω.

De la propriété de Lipschitz découle, en utilisant le théorème de Rademacher, que toute fonction convexe définie sur Ω⊂Rⁿest différentiable presque partout (au sens de la mesure de Lebesgue) sur son domaine.

On va chercher àcaractériserles fonctions convexesrégulières.

(12)

Rappels sur la notion de convexit´ e

Théorème (Cas d’une fonction différentiable).

Sif :Rⁿ−→Rest diff´erentiable, on a les ´equivalences entre (i) f est convexe surRⁿ;

(ii) f(y)≥f(x) +h∇f(x),y−xi,∀(x,y)∈[Rⁿ]²; (iii) h∇f(y)− ∇f(x),y−xi ≥0,∀(x,y)∈[Rⁿ]².

On a équivalence entre convexité stricte et les inégalités (ii) et (iii) précédentes rendues strictes, pourx 6=y.

Preuve de ce r´esultat

(i) =⇒(ii). Soitt∈[0,1], (x,y)∈[Rⁿ]². Alors, par convexit´e def,

f(tx+ (1−t)y)≤(1−t)f(x) +tf(y), d’o`uf(x+t(y−x))≤t[f(y)−f(x)], puis on divise part et on fait tendretvers 0.

(ii) =⇒(iii). On ´ecrit (ii) avec (x,y), puis (y,x) et on somme.

(13)

Rappels sur la notion de convexit´ e

Preuve (suite)

(iii) =⇒(ii). On utilise la formule des accroissements finis `a la fonction t∈[0,1]7→f(x+t(y−x)). Il existet∈[0,1] tel que

f(y) = f(x) +h∇f(x+t(y−x)),y−xi

= f(x) +h∇f(x),y−xi+h∇f(x+t(y−x))− ∇f(x),y−xi, et ce dernier terme est positif par (iii), donc on a (ii).

(14)

Rappels sur la notion de convexit´ e

Preuve (suite)

(ii) =⇒(i). On posext= (1−t)x+ty=x+t(y−x). On a :

(?) f(x)≥ f(xt) +h∇f(xt),x−xti ((ii) avecx =xt,y =x) (??) f(y)≥ f(xt) +h∇f(xt),y−xti ((ii) avecx=xt,y =y) sachant quex−xt =−t(y−x),y−xt= (1−t)(y−x). Alors,

t(?) + (1−t)(??) fournit (1−t)f(x) +tf(y)≥(1−t+t)f(xt) =f(xt).

Stricte convexité : adapter avec beaucoup de précaution la démonstration précédente.

(prudence lors des passages à la limite afin de conserver des inégalités strictes !).

(15)

Rappels sur la notion de convexit´ e

Théorème (Cas d’une fonction deux fois différentiable).

Sif :Rⁿ−→Rest deux fois diff´erentiable, on a les ´equivalences entre (i) f est convexe ;

(ii) pour toutx∈Rⁿ,Hess f(x) est semi-d´efinie positive.

Preuve→Exercice que vous ne manquerez pas de faire chez vous

Indication :utiliser les caractérisations de la convexité à l’ordre 1, s’exprimant à l’aide du gradient.

(16)

Rappels sur la notion de convexit´ e

Théorème (Cas d’une fonction deux fois différentiable).

Sif :Rⁿ−→Rest deux fois diff´erentiable, on a les ´equivalences entre (i) f est convexe ;

(ii) pour toutx∈Rⁿ,Hess f(x) est semi-d´efinie positive.

Cons´equence importante de ces r´esultats Soit la fonction quadratique

f : Rⁿ −→ R

x 7−→ f(x) = ¹₂hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rⁿ etc∈R.

On déduit des théorèmes précédents quef est convexe si, et seulement siAest semi-définie positive, et strictement convexe si, et seulement siAest définie positive.

Indication : en effet,∇f(x) =Ax−b,et Hessf(x) =Apour toutx∈Rⁿ. . .

(17)

Unicit´ e en optimisation

Th´eor`eme.

Soit le probl`eme inf

x∈Kf(x) avec f et K convexes (´eventuellement de dimension infinie).

Alors,

1 tout minimum local est un minimum global.

2 sif est strictement convexe, il y a au plus un minimum.

Preuve

1 Soitx^∗, un minimum local. Par l’absurde, on suppose :

∃y ∈K|f(y)<f(x^∗).

Soityt =ty+ (1−t)x^∗, avect∈]0,1[. Alors,f(yt)≥f(x^∗) sit est suffisamment petit (en effet, sit est petit,kyt−x^∗k=tky−x^∗kl’est aussi. . . ). La convexit´e de f implique quef(x^∗)≤f(yt)≤tf(y) + (1−t)f(x^∗), ce qui montre que

f(y)<f(x^∗)≤f(y). C’est absurde et donc,x^∗minimisef surK.

fx1+x2

2

<1

2f(x1) + 1

2f(x2) =f(x1), ce qui est absurde. Cela implique donc l’unicit´e.

(18)

Unicit´ e en optimisation

Th´eor`eme.

Soit le probl`eme inf

x∈Kf(x) avec f et K convexes (´eventuellement de dimension infinie).

Alors,

1 tout minimum local est un minimum global.

2 sif est strictement convexe, il y a au plus un minimum.

Preuve

1 Soitx^∗, un minimum local. Par l’absurde, on suppose :

∃y ∈K|f(y)<f(x^∗).

Soityt =ty+ (1−t)x^∗, avect∈]0,1[. Alors,f(yt)≥f(x^∗) sit est suffisamment petit (en effet, sit est petit,kyt−x^∗k=tky−x^∗kl’est aussi. . . ). La convexit´e de f implique quef(x^∗)≤f(yt)≤tf(y) + (1−t)f(x^∗), ce qui montre que

f(y)<f(x^∗)≤f(y). C’est absurde et donc,x^∗minimisef surK.

2 Six1 etx2sont deux solutions globales, alors six16=x2, fx1+x2

2

<1

2f(x1) +1

2f(x2) =f(x1), ce qui est absurde. Cela implique donc l’unicit´e.

(19)

Compl´ ements sur la convexit´ e

! f est (strictement)concave ⇐⇒^d´^ef −f est (strictement) convexe

! On adapte les caractérisations précédentes aux fonctions concaves

! Retour sur lesfonctions quadratiques: exemple de la fonction f : Rⁿ −→ R

x 7−→ f(x) = ¹₂hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rⁿetc∈R.

On a vu quef est (strictement) convexe ssi Hessf(x) =Aest semi-d´efinie (d´efinie) positive.

Plus pr´ecis´ement, siA∈ Sn⁺⁺(R), on a :

∃λ >0 | hAx,xi ≥λkxk².

Cons´equence : siA∈ Sn⁺⁺(R),f est coercive, strictement convexe (continue,Rⁿ est de dimension finie) et le probl`eme

x∈infRⁿ

f(x) admet une solution qui est de surcroˆıt unique

(20)

Compl´ ements sur la convexit´ e

x∈infRⁿ

f(x) admet une solution qui est de surcroˆıt unique

(21)

Compl´ ements sur la convexit´ e

inf f(x)

(22)

Conditions d’optimalit´e

Sommaire

Au premier ordre et sans contrainte Cas d’une fonction quadratique

(23)

Conditions d’optimalit´ e pour les probl` emes non contraints

A quoi ¸` ca sert ? Caractériser les minima/maxima locaux Quand sont-ils globaux ? Cadre agréable : la fonction objectif est différentiable ou mieux, deux fois différentiable Exemple : en dimension un, sif :R→Rest dérivable, alors, tout pointx^∗réalisant un minimum/maximum local vérifie

f⁰(x^∗) = 0

Attention `a l’existence (penser `a la fonction exp. . .)

(24)

Conditions d’optimalit´e Au premier ordre et sans contrainte

In´ equation d’Euler

Soitf :K−→R, avec

! K convexe inclus dansV, un espace de Hilbert

! f diff´erentiable enx∈K.

Soitx, un minimum local def surK. Poury ∈Kett∈]0,1],

x+t(y−x)∈K et donc f(x+t(y−x))−f(x)

t ≥0.

Faisons tendret vers 0. On a montr´e :

Théorème (inéquation d’Euler).

Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:

dfx(y−x)≥0, ∀y ∈K.

Si de plus,f est convexe, alorsx est un minimum global de f surK.

(25)

In´ equation d’Euler

Soitf :K−→R, avec

! K convexe inclus dansV, un espace de Hilbert

! f diff´erentiable enx∈K.

Soitx, un minimum local def surK. Poury ∈Kett∈]0,1],

x+t(y−x)∈K et donc f(x+t(y−x))−f(x)

t ≥0.

Faisons tendret vers 0. On a montré : Théorème (inéquation d’Euler).

Sous les hypothèses ci-dessus, si x est un minimum local de f sur K, alors x vérifie l’inéquation d’Euler:

dfx(y−x)≥0, ∀y ∈K.

Si de plus,f est convexe, alorsx est un minimum global def surK.

(26)

Condition n´ ecessaire (1

^er

ordre, cas non contraint)

On s’int´eresse au probl`eme inf

x∈Rⁿ

f(x)

Théorème (Condition nécessaires)

Soitx^∗, un minimum local pour le probl`eme

1 sif est diff´erentiable enx^∗, alors∇f(x^∗) = 0. On dit quex^∗est un point stationnaireoucritique.

2 sif est deux fois diff´erentiable enx^∗, alorsHessf(x^∗) est semi-d´efinie positive.

Remarque

L’exemplef(x) =x⁴montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même six^∗est un minimum global. L’exemplef(x) =x³montre que ce théorème donne une condition nécessaire mais pas suffisante.

Preuve.On ´ecrit

f(x^∗)≤f(x^∗+εh) =f(x^∗) +h∇f(x^∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→

ε→0 0. On divise alors parε >0 puis on fait tendreεvers 0⁺. Enfin, en choisissant dans le développement précédent±hpour touth∈Rⁿ, la conclusion s’ensuit.

(27)

Condition n´ ecessaire (1

^er

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Condition nécessaires)

Soitx^∗, un minimum local pour le probl`eme

1 sif est diff´erentiable enx^∗, alors∇f(x^∗) = 0. On dit quex^∗est un point stationnaireoucritique.

2 sif est deux fois diff´erentiable enx^∗, alorsHessf(x^∗) est semi-d´efinie positive.

Remarque

L’exemplef(x) =x⁴montre que l’on n’a pas mieux que le caractère semi-défini positif de la hessienne, même six^∗est un minimum global. L’exemplef(x) =x³montre que ce théorème donne une condition nécessaire mais pas suffisante.

Preuve.On ´ecrit

f(x^∗)≤f(x^∗+εh) =f(x^∗) +h∇f(x^∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→

ε→0 0.

(28)

Condition suffisante (1

^er

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Condition suffisante) Soitf convexe et différentiable surRⁿ.

Une C.N.S. pour quex^∗soit un minimum local (donc global) def est quex^∗soit un point critique def, autrement dit, que

∇f(x^∗) = 0.

Preuve.La condition nécessaire résulte immédiatement du théorème précédent. L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes. Quant à la condition suffisante, elle résulte du fait que pour toutx ∈Rⁿ,

f(x)≥f(x^∗) +h∇f(x^∗),x−x^∗i=f(x^∗). On en d´eduit quex^∗est bien un minimum.

(29)

Condition suffisante (1

^er

ordre, cas non contraint)

x∈Rⁿ

f(x)

Théorème (Condition suffisante) Soitf convexe et différentiable surRⁿ.

Une C.N.S. pour quex^∗soit un minimum local (donc global) def est quex^∗soit un point critique def, autrement dit, que

∇f(x^∗) = 0.

Preuve.La condition nécessaire résulte immédiatement du théorème précédent.

L’équivalence local-global résulte du théorème d’optimisation des fonctions convexes.

Quant `a la condition suffisante, elle r´esulte du fait que pour toutx ∈Rⁿ, f(x)≥f(x^∗) +h∇f(x^∗),x−x^∗i=f(x^∗).

On en d´eduit quex^∗est bien un minimum.

(30)

Conditions d’optimalit´e Cas d’une fonction quadratique

Cas d’une fonction quadratique

Résolution complète du problème inf

x∈Rⁿ

f(x), avec

f(x) = 1

2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rⁿ etc ∈R.

! Rappelons que pour toutx∈Rⁿ,

∇f(x) =Ax−b et Hessf(x) =A.

! On diagonalise la matriceA(d’après le théorème spectral) :

∃P∈ On(R) | A=P^>DP avec D=







λ1 0

. ..

0 λn







avecλ1≤ · · · ≤λn.

(31)

Cas d’une fonction quadratique

x∈Rⁿ

f(x), avec

f(x) = 1

Siλ1<0 Soitz∈R. On a : f(ze1) = λ1

2z²−zhb,e1i+c−−−−→

z→+∞ −∞.

Le probl`eme d’optimisation n’a donc

(32)

Cas d’une fonction quadratique

x∈Rⁿ

f(x), avec

f(x) = 1

Siλ1= 0 , 2 cas à envisager Sib∈/(Im A), l’équation∇f(x) = 0 n’a pas de solution⇒le problème n’a pas de solution (inff =−∞).

Sib∈(Im A), l’´equation∇f(x) = 0 a une infinit´e de solutions⇒on montre que minf =−¹₂hb,x0i+c, avecx0une solution de∇f(x0) = 0.

Remarque :ImA= (kerA^>)^⊥= (ker A)^⊥(Exercice)

(33)

Cas d’une fonction quadratique

x∈Rⁿ

f(x), avec

f(x) = 1

Siλ1>0 A∈ Sn⁺⁺(R).

L’´equation∇f(x) = 0 a une unique solutions⇒le probl`eme a une unique solutionx^∗=A⁻¹b et

(34)

Exercice

Etudier en fonction du param`´ etre r´eelαl’existence de solutions pour le probl`eme inf

(x,y)∈R²

f(x,y) avec f(x,y) =x²+y²+ 2αxy−x−y+ 1.

Lorsqu’il y a existence, d´eterminer les solutions. Sinon, exhiber une suite minimisante.