Introduction ` a l’optimisation, aspects th´ eoriques et num´ eriques
YannickPrivat
CNRS & Univ. Paris 6
S´eance 2, mars 2015
Organisation des s´ eances (Rappel)
S´eance 1 :g´en´eralit´es en optimisation
S´eances 2, 3 :optimisation SANS contrainte (conditions d’optimalit´e, algorithmes) S´eances 4,5 :optimisation SOUS contrainte (th´eor`eme de
Kuhn-Tucker, algorithmes)
Evaluation :´ 1 rapport ´ecrit des s´eances de TP (1/4) + 1 examen ´ecrit (3/4) Pour me joindre :yannick.privat@math.cnrs.fr
t´el´echarger les transparents :https ://www.ljll.math.upmc.fr/∼privat/cours/ensem.php
Organisation des s´ eances (Rappel)
S´eance 1 :g´en´eralit´es en optimisation
S´eances 2, 3 :optimisation SANS contrainte (conditions d’optimalit´e, algorithmes) S´eances 4,5 :optimisation SOUS contrainte (th´eor`eme de
Kuhn-Tucker, algorithmes)
Evaluation :´ 1 rapport ´ecrit des s´eances de TP (1/4) + 1 examen ´ecrit (3/4)
t´el´echarger les transparents :https ://www.ljll.math.upmc.fr/∼privat/cours/ensem.php
Organisation des s´ eances (Rappel)
S´eance 1 :g´en´eralit´es en optimisation
S´eances 2, 3 :optimisation SANS contrainte (conditions d’optimalit´e, algorithmes) S´eances 4,5 :optimisation SOUS contrainte (th´eor`eme de
Kuhn-Tucker, algorithmes)
Evaluation :´ 1 rapport ´ecrit des s´eances de TP (1/4) + 1 examen ´ecrit (3/4) Pour me joindre :yannick.privat@math.cnrs.fr
t´el´echarger les transparents :https ://www.ljll.math.upmc.fr/∼privat/cours/ensem.php
Plan de la s´ eance
1 Rappels de la s´eance pr´ec´edente
2 Sur l’unicit´e des solutions
3 Conditions d’optimalit´e
Au premier ordre et sans contrainte Cas d’une fonction quadratique
Rappels de la s´eance pr´ec´edente
Sommaire
1 Rappels de la s´eance pr´ec´edente
2 Sur l’unicit´e des solutions
3 Conditions d’optimalit´e
D´ eveloppement limit´ e aux premier et second ordres
! Supposons quef est diff´erentiable enx0. Alors, pour touth∈Rn, f(x0+h)−f(x0) =h∇f(x0),hi+ o
h→0(khk) o`u∇f(x0) est le gradient def enx0, i.e. le vecteur (∂x∂f
1(x0),· · ·,∂x∂f
n(x0)).
! Supposons quef est deux fois diff´erentiable enx0. Alors, pour touth∈Rn, f(x0+h)−f(x0) =h∇f(x0),hi+1
2hHessf(x0)h,hi+ o
h→0(khk2) o`u Hessf(x0) est la matrice de taillen×ndes d´eriv´ees secondes def ´evalu´ees en x0, i.e.
Hessf(x0) = ∂2f
∂xi∂xj
(x0)
1≤i,j≤n
On notera que, sif est deux fois diff´erentiable, en vertu du th´eor`eme de Schwarz, Hessf(x ) est sym´etrique (r´eelle)
Rappels de la s´eance pr´ec´edente
Existence de solutions
Soitf :K⊂Rn−→R. On consid`ere le probl`eme d’optimisation
(P) inf
x∈Kf(x) Theor`eme (Existence en dimension finie)
On suppose quefest continue etK⊂Rn.
1 SiK est compact (i.e.ferm´eetborn´epuisque nous sommes en dimension finie), alors le probl`eme (P) poss`ede (au moins) une solution.
2 Sif estcoercive(on dit aussiinfinie `a l’infini), c’est-`a-diref(x)−−−−−−→
kxk→+∞ +∞et K est ferm´e, alors le probl`eme (P) poss`ede (au moins) une solution.
Sommaire
1 Rappels de la s´eance pr´ec´edente
2 Sur l’unicit´e des solutions
3 Conditions d’optimalit´e
Sur l’unicit´e des solutions
Rappels sur la notion de convexit´ e
Ensembles et fonctions convexes
1 On dit qu’un ensembleK⊂Rnest convexe ssi pour tous (x1,x2)∈K2ett∈[0,1], tx1+ (1−t)x2∈K.
2 SoitK⊂Rn, convexe. La fonctionf :K−→Rest diteconvexessi
∀(x1,x2)∈K2, ∀t∈[0,1], f(tx1+ (1−t)x2)≤tf(x1) + (1−t)f(x2).
f est ditestrictement convexesi l’in´eg. ci-dessus est stricte pourx6=y,t∈]0,1[.
fonction strictement convexe
fonction non convexe
Rappels sur la notion de convexit´ e
Quelques remarques.
Sif est une fonction convexe d´efinie sur un ouvert convexe Ω deRn, alorsf est continue sur Ω et lipschitzienne sur tout compact de Ω.
De la propri´et´e de Lipschitz d´ecoule, en utilisant le th´eor`eme de Rademacher, que toute fonction convexe d´efinie sur Ω⊂Rnest diff´erentiable presque partout (au sens de la mesure de Lebesgue) sur son domaine.
On va chercher `acaract´eriserles fonctions convexesr´eguli`eres.
Sur l’unicit´e des solutions
Rappels sur la notion de convexit´ e
Th´eor`eme (Cas d’une fonction diff´erentiable).
Sif :Rn−→Rest diff´erentiable, on a les ´equivalences entre (i) f est convexe surRn;
(ii) f(y)≥f(x) +h∇f(x),y−xi,∀(x,y)∈[Rn]2; (iii) h∇f(y)− ∇f(x),y−xi ≥0,∀(x,y)∈[Rn]2.
On a ´equivalence entre convexit´e stricte et les in´egalit´es (ii) et (iii) pr´ec´edentes rendues strictes, pourx 6=y.
Preuve de ce r´esultat
(i) =⇒(ii). Soitt∈[0,1], (x,y)∈[Rn]2. Alors, par convexit´e def,
f(tx+ (1−t)y)≤(1−t)f(x) +tf(y), d’o`uf(x+t(y−x))≤t[f(y)−f(x)], puis on divise part et on fait tendretvers 0.
(ii) =⇒(iii). On ´ecrit (ii) avec (x,y), puis (y,x) et on somme.
Rappels sur la notion de convexit´ e
Th´eor`eme (Cas d’une fonction diff´erentiable).
Sif :Rn−→Rest diff´erentiable, on a les ´equivalences entre (i) f est convexe surRn;
(ii) f(y)≥f(x) +h∇f(x),y−xi,∀(x,y)∈[Rn]2; (iii) h∇f(y)− ∇f(x),y−xi ≥0,∀(x,y)∈[Rn]2.
On a ´equivalence entre convexit´e stricte et les in´egalit´es (ii) et (iii) pr´ec´edentes rendues strictes, pourx 6=y.
Preuve (suite)
(iii) =⇒(ii). On utilise la formule des accroissements finis `a la fonction t∈[0,1]7→f(x+t(y−x)). Il existet∈[0,1] tel que
f(y) = f(x) +h∇f(x+t(y−x)),y−xi
= f(x) +h∇f(x),y−xi+h∇f(x+t(y−x))− ∇f(x),y−xi, et ce dernier terme est positif par (iii), donc on a (ii).
Sur l’unicit´e des solutions
Rappels sur la notion de convexit´ e
Th´eor`eme (Cas d’une fonction diff´erentiable).
Sif :Rn−→Rest diff´erentiable, on a les ´equivalences entre (i) f est convexe surRn;
(ii) f(y)≥f(x) +h∇f(x),y−xi,∀(x,y)∈[Rn]2; (iii) h∇f(y)− ∇f(x),y−xi ≥0,∀(x,y)∈[Rn]2.
On a ´equivalence entre convexit´e stricte et les in´egalit´es (ii) et (iii) pr´ec´edentes rendues strictes, pourx 6=y.
Preuve (suite)
(ii) =⇒(i). On posext= (1−t)x+ty=x+t(y−x). On a :
(?) f(x)≥ f(xt) +h∇f(xt),x−xti ((ii) avecx =xt,y =x) (??) f(y)≥ f(xt) +h∇f(xt),y−xti ((ii) avecx=xt,y =y) sachant quex−xt =−t(y−x),y−xt= (1−t)(y−x). Alors,
t(?) + (1−t)(??) fournit (1−t)f(x) +tf(y)≥(1−t+t)f(xt) =f(xt).
Stricte convexit´e : adapter avec beaucoup de pr´ecaution la d´emonstration pr´ec´edente.
(prudence lors des passages `a la limite afin de conserver des in´egalit´es strictes !).
Rappels sur la notion de convexit´ e
Th´eor`eme (Cas d’une fonction deux fois diff´erentiable).
Sif :Rn−→Rest deux fois diff´erentiable, on a les ´equivalences entre (i) f est convexe ;
(ii) pour toutx∈Rn,Hess f(x) est semi-d´efinie positive.
Preuve→Exercice que vous ne manquerez pas de faire chez vous
Indication :utiliser les caract´erisations de la convexit´e `a l’ordre 1, s’exprimant `a l’aide du gradient.
Sur l’unicit´e des solutions
Rappels sur la notion de convexit´ e
Th´eor`eme (Cas d’une fonction deux fois diff´erentiable).
Sif :Rn−→Rest deux fois diff´erentiable, on a les ´equivalences entre (i) f est convexe ;
(ii) pour toutx∈Rn,Hess f(x) est semi-d´efinie positive.
Cons´equence importante de ces r´esultats Soit la fonction quadratique
f : Rn −→ R
x 7−→ f(x) = 12hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc∈R.
On d´eduit des th´eor`emes pr´ec´edents quef est convexe si, et seulement siAest semi-d´efinie positive, et strictement convexe si, et seulement siAest d´efinie positive.
Indication : en effet,∇f(x) =Ax−b,et Hessf(x) =Apour toutx∈Rn. . .
Sur l’unicit´e des solutions
Unicit´ e en optimisation
Th´eor`eme.
Soit le probl`eme inf
x∈Kf(x) avec f et K convexes (´eventuellement de dimension infinie).
Alors,
1 tout minimum local est un minimum global.
2 sif est strictement convexe, il y a au plus un minimum.
Preuve
1 Soitx∗, un minimum local. Par l’absurde, on suppose :
∃y ∈K|f(y)<f(x∗).
Soityt =ty+ (1−t)x∗, avect∈]0,1[. Alors,f(yt)≥f(x∗) sit est suffisamment petit (en effet, sit est petit,kyt−x∗k=tky−x∗kl’est aussi. . . ). La convexit´e de f implique quef(x∗)≤f(yt)≤tf(y) + (1−t)f(x∗), ce qui montre que
f(y)<f(x∗)≤f(y). C’est absurde et donc,x∗minimisef surK.
fx1+x2
2
<1
2f(x1) + 1
2f(x2) =f(x1), ce qui est absurde. Cela implique donc l’unicit´e.
Sur l’unicit´e des solutions
Unicit´ e en optimisation
Th´eor`eme.
Soit le probl`eme inf
x∈Kf(x) avec f et K convexes (´eventuellement de dimension infinie).
Alors,
1 tout minimum local est un minimum global.
2 sif est strictement convexe, il y a au plus un minimum.
Preuve
1 Soitx∗, un minimum local. Par l’absurde, on suppose :
∃y ∈K|f(y)<f(x∗).
Soityt =ty+ (1−t)x∗, avect∈]0,1[. Alors,f(yt)≥f(x∗) sit est suffisamment petit (en effet, sit est petit,kyt−x∗k=tky−x∗kl’est aussi. . . ). La convexit´e de f implique quef(x∗)≤f(yt)≤tf(y) + (1−t)f(x∗), ce qui montre que
f(y)<f(x∗)≤f(y). C’est absurde et donc,x∗minimisef surK.
2 Six1 etx2sont deux solutions globales, alors six16=x2, fx1+x2
2
<1
2f(x1) +1
2f(x2) =f(x1), ce qui est absurde. Cela implique donc l’unicit´e.
Sur l’unicit´e des solutions
Compl´ ements sur la convexit´ e
! f est (strictement)concave ⇐⇒d´ef −f est (strictement) convexe
! On adapte les caract´erisations pr´ec´edentes aux fonctions concaves
! Retour sur lesfonctions quadratiques: exemple de la fonction f : Rn −→ R
x 7−→ f(x) = 12hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rnetc∈R.
On a vu quef est (strictement) convexe ssi Hessf(x) =Aest semi-d´efinie (d´efinie) positive.
Plus pr´ecis´ement, siA∈ Sn++(R), on a :
∃λ >0 | hAx,xi ≥λkxk2.
Cons´equence : siA∈ Sn++(R),f est coercive, strictement convexe (continue,Rn est de dimension finie) et le probl`eme
x∈infRn
f(x) admet une solution qui est de surcroˆıt unique
Sur l’unicit´e des solutions
Compl´ ements sur la convexit´ e
! f est (strictement)concave ⇐⇒d´ef −f est (strictement) convexe
! On adapte les caract´erisations pr´ec´edentes aux fonctions concaves
! Retour sur lesfonctions quadratiques: exemple de la fonction f : Rn −→ R
x 7−→ f(x) = 12hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rnetc∈R.
On a vu quef est (strictement) convexe ssi Hessf(x) =Aest semi-d´efinie (d´efinie) positive.
Plus pr´ecis´ement, siA∈ Sn++(R), on a :
∃λ >0 | hAx,xi ≥λkxk2.
Cons´equence : siA∈ Sn++(R),f est coercive, strictement convexe (continue,Rn est de dimension finie) et le probl`eme
x∈infRn
f(x) admet une solution qui est de surcroˆıt unique
Compl´ ements sur la convexit´ e
! f est (strictement)concave ⇐⇒d´ef −f est (strictement) convexe
! On adapte les caract´erisations pr´ec´edentes aux fonctions concaves
! Retour sur lesfonctions quadratiques: exemple de la fonction f : Rn −→ R
x 7−→ f(x) = 12hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rnetc∈R.
On a vu quef est (strictement) convexe ssi Hessf(x) =Aest semi-d´efinie (d´efinie) positive.
Plus pr´ecis´ement, siA∈ Sn++(R), on a :
∃λ >0 | hAx,xi ≥λkxk2.
Cons´equence : siA∈ Sn++(R),f est coercive, strictement convexe (continue,Rn est de dimension finie) et le probl`eme
inf f(x)
Conditions d’optimalit´e
Sommaire
1 Rappels de la s´eance pr´ec´edente
2 Sur l’unicit´e des solutions
3 Conditions d’optimalit´e
Au premier ordre et sans contrainte Cas d’une fonction quadratique
Conditions d’optimalit´ e pour les probl` emes non contraints
A quoi ¸` ca sert ? Caract´eriser les minima/maxima locaux Quand sont-ils globaux ? Cadre agr´eable : la fonction objectif est diff´erentiable ou mieux, deux fois diff´erentiable Exemple : en dimension un, sif :R→Rest d´erivable, alors, tout pointx∗r´ealisant un minimum/maximum local v´erifie
f0(x∗) = 0
Attention `a l’existence (penser `a la fonction exp. . .)
Conditions d’optimalit´e Au premier ordre et sans contrainte
In´ equation d’Euler
Soitf :K−→R, avec
! K convexe inclus dansV, un espace de Hilbert
! f diff´erentiable enx∈K.
Soitx, un minimum local def surK. Poury ∈Kett∈]0,1],
x+t(y−x)∈K et donc f(x+t(y−x))−f(x)
t ≥0.
Faisons tendret vers 0. On a montr´e :
Th´eor`eme (in´equation d’Euler).
Sous les hypoth`eses ci-dessus, si x est un minimum local de f sur K, alors x v´erifie l’in´equation d’Euler:
dfx(y−x)≥0, ∀y ∈K.
Si de plus,f est convexe, alorsx est un minimum global de f surK.
In´ equation d’Euler
Soitf :K−→R, avec
! K convexe inclus dansV, un espace de Hilbert
! f diff´erentiable enx∈K.
Soitx, un minimum local def surK. Poury ∈Kett∈]0,1],
x+t(y−x)∈K et donc f(x+t(y−x))−f(x)
t ≥0.
Faisons tendret vers 0. On a montr´e : Th´eor`eme (in´equation d’Euler).
Sous les hypoth`eses ci-dessus, si x est un minimum local de f sur K, alors x v´erifie l’in´equation d’Euler:
dfx(y−x)≥0, ∀y ∈K.
Si de plus,f est convexe, alorsx est un minimum global def surK.
Conditions d’optimalit´e Au premier ordre et sans contrainte
Condition n´ ecessaire (1
erordre, cas non contraint)
On s’int´eresse au probl`eme inf
x∈Rn
f(x)
Th´eor`eme (Condition n´ecessaires)
Soitx∗, un minimum local pour le probl`eme
1 sif est diff´erentiable enx∗, alors∇f(x∗) = 0. On dit quex∗est un point stationnaireoucritique.
2 sif est deux fois diff´erentiable enx∗, alorsHessf(x∗) est semi-d´efinie positive.
Remarque
L’exemplef(x) =x4montre que l’on n’a pas mieux que le caract`ere semi-d´efini positif de la hessienne, mˆeme six∗est un minimum global. L’exemplef(x) =x3montre que ce th´eor`eme donne une condition n´ecessaire mais pas suffisante.
Preuve.On ´ecrit
f(x∗)≤f(x∗+εh) =f(x∗) +h∇f(x∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→
ε→0 0. On divise alors parε >0 puis on fait tendreεvers 0+. Enfin, en choisissant dans le d´eveloppement pr´ec´edent±hpour touth∈Rn, la conclusion s’ensuit.
Condition n´ ecessaire (1
erordre, cas non contraint)
On s’int´eresse au probl`eme inf
x∈Rn
f(x)
Th´eor`eme (Condition n´ecessaires)
Soitx∗, un minimum local pour le probl`eme
1 sif est diff´erentiable enx∗, alors∇f(x∗) = 0. On dit quex∗est un point stationnaireoucritique.
2 sif est deux fois diff´erentiable enx∗, alorsHessf(x∗) est semi-d´efinie positive.
Remarque
L’exemplef(x) =x4montre que l’on n’a pas mieux que le caract`ere semi-d´efini positif de la hessienne, mˆeme six∗est un minimum global. L’exemplef(x) =x3montre que ce th´eor`eme donne une condition n´ecessaire mais pas suffisante.
Preuve.On ´ecrit
f(x∗)≤f(x∗+εh) =f(x∗) +h∇f(x∗), εhi+|εh|ϕ(εh) , avecϕ(εh)−−−→
ε→0 0.
Conditions d’optimalit´e Au premier ordre et sans contrainte
Condition suffisante (1
erordre, cas non contraint)
On s’int´eresse au probl`eme inf
x∈Rn
f(x)
Th´eor`eme (Condition suffisante) Soitf convexe et diff´erentiable surRn.
Une C.N.S. pour quex∗soit un minimum local (donc global) def est quex∗soit un point critique def, autrement dit, que
∇f(x∗) = 0.
Preuve.La condition n´ecessaire r´esulte imm´ediatement du th´eor`eme pr´ec´edent. L’´equivalence local-global r´esulte du th´eor`eme d’optimisation des fonctions convexes. Quant `a la condition suffisante, elle r´esulte du fait que pour toutx ∈Rn,
f(x)≥f(x∗) +h∇f(x∗),x−x∗i=f(x∗). On en d´eduit quex∗est bien un minimum.
Condition suffisante (1
erordre, cas non contraint)
On s’int´eresse au probl`eme inf
x∈Rn
f(x)
Th´eor`eme (Condition suffisante) Soitf convexe et diff´erentiable surRn.
Une C.N.S. pour quex∗soit un minimum local (donc global) def est quex∗soit un point critique def, autrement dit, que
∇f(x∗) = 0.
Preuve.La condition n´ecessaire r´esulte imm´ediatement du th´eor`eme pr´ec´edent.
L’´equivalence local-global r´esulte du th´eor`eme d’optimisation des fonctions convexes.
Quant `a la condition suffisante, elle r´esulte du fait que pour toutx ∈Rn, f(x)≥f(x∗) +h∇f(x∗),x−x∗i=f(x∗).
On en d´eduit quex∗est bien un minimum.
Conditions d’optimalit´e Cas d’une fonction quadratique
Cas d’une fonction quadratique
R´esolution compl`ete du probl`eme inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
! Rappelons que pour toutx∈Rn,
∇f(x) =Ax−b et Hessf(x) =A.
! On diagonalise la matriceA(d’apr`es le th´eor`eme spectral) :
∃P∈ On(R) | A=P>DP avec D=
λ1 0
. ..
0 λn
avecλ1≤ · · · ≤λn.
Cas d’une fonction quadratique
R´esolution compl`ete du probl`eme inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
Siλ1<0 Soitz∈R. On a : f(ze1) = λ1
2z2−zhb,e1i+c−−−−→
z→+∞ −∞.
Le probl`eme d’optimisation n’a donc
Conditions d’optimalit´e Cas d’une fonction quadratique
Cas d’une fonction quadratique
R´esolution compl`ete du probl`eme inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
Siλ1= 0 , 2 cas `a envisager Sib∈/(Im A), l’´equation∇f(x) = 0 n’a pas de solution⇒le probl`eme n’a pas de solution (inff =−∞).
Sib∈(Im A), l’´equation∇f(x) = 0 a une infinit´e de solutions⇒on montre que minf =−12hb,x0i+c, avecx0une solution de∇f(x0) = 0.
Remarque :ImA= (kerA>)⊥= (ker A)⊥(Exercice)
Cas d’une fonction quadratique
R´esolution compl`ete du probl`eme inf
x∈Rn
f(x), avec
f(x) = 1
2hAx,xi − hb,xi+c, avecA∈ Sn(R),b∈Rn etc ∈R.
Siλ1>0 A∈ Sn++(R).
L’´equation∇f(x) = 0 a une unique solutions⇒le probl`eme a une unique solutionx∗=A−1b et
Conditions d’optimalit´e Cas d’une fonction quadratique
Exercice
Etudier en fonction du param`´ etre r´eelαl’existence de solutions pour le probl`eme inf
(x,y)∈R2
f(x,y) avec f(x,y) =x2+y2+ 2αxy−x−y+ 1.
Lorsqu’il y a existence, d´eterminer les solutions. Sinon, exhiber une suite minimisante.