Optimisation dans R n (et ailleurs ?) : quelques r´esultats de base
G. Barles
Master de Math´ ematiques de TOURS
Quand on veut traiter des probl`emes d’optimisation (qui se pr´esentent g´en´eralement sous la forme min
K f ou max
K f), on est confront´e `a trois types de questions :
(i) Existence du (ou des) point(s) de minimum ou de maximum, donc existence (ou pas) de la solution du probl`eme.
(ii) Unicit´e´eventuelle de cette solution.
(iii) Propri´et´e d’optimalit´e : quelle(s) ´equation(s) cette solution satisfait-elle ? On pense ´evidemment `a un gradient nul en un point de minimum ou de maximum local.
L’objectif de ce mini-cours est de d´ecrire les r´esultats de base dans ces trois directions.
1 Existence
A tout seigneur, tout honneur, nous commen¸cons par le :`
Th´eor`eme 1.1. Soit K ⊂Rn un compact et f :K →R une fonction continue. Il existe au moins deux points x0, x1 ∈K tels que :
f(x0) = min
K f et f(x1) = max
K f .
En d’autres termes, sous les conditions du Th´eor`eme 1.1, nos probl`emes d’optimisation ont au moins une solution.
Malheureusement (ou heureusement), beaucoup de probl`emes d’optimisation ne sont pas pos´es sur des compacts. Il nous faut donc une (l´eg`ere) g´en´eralisation du Th´eor`eme 1.1.
Th´eor`eme 1.2. Soit F ⊂Rn un ferm´e et f :F →R une fonction continue qui est aussi coercive, i.e.
f(x)→+∞ quand |x| →+∞. Alors il existe au moins un point x0 ∈F tels que f(x0) = min
K f.
La coercivit´e assure donc la compacit´e n´ecessaire `a la r´esolution du probl`eme de mi- nimisation.
Exemples - Exercices : on consid`ere les exemples mod`eles suivants qui seront repris tout au long du cours :
(i) min
|x|=1(Ax, x), max
|x|=1(Ax, x).
(ii) min
x≥0,y≥0 x+y≤1
(ax+by), o`ua, b sont deux r´eels donn´es.
(iii) min
x∈Rn
1
2(Ax, x)−(b, x)
: quelles sont les hypoth`eses n´ecessaires pour appliquer le Th´eor`eme 1.2 ?
(iv) min
(c,x)−d≥0
1
2(Ax, x)−(b, x)
. Mˆeme probl`eme.
Exercices :
(i) Montrer, sur des exemples simples, que les hypoth`eses des th´eor`emes 1.1 et 1.2 sont (presque) optimales, en donnant des contre-exemples o`u l’on n’a pas forc´ement de solutions si l’une d’elles n’est pas satisfaite.
(ii) Prouver n´eanmoins que les th´eor`emes 1.1 et 1.2 restent vrais si on suppose seule- ment f s.c.i. quand il s’agit de trouver un minimum.
(iii) (sujet d’´etude)Que se passe-t-il si on remplace Rn par un espace de Hilbert ?
2 Unicit´ e
Dans cette section, le message est tr`es simple : dans le cas de probl`emes de minimi- sation (sur lesquels on va d´esormais se concentrer laissant les probl`emes de maximisa- tion en exercices (faciles)), la seule hypoth`ese qui fournit des r´esultats g´en´eraux est la stricte convexit´e ; encore faut-il pouvoir l’appliquer ce qui n´ecessite un domaine convexe.
D’o`u la d´efinition suivante.
D´efinition 2.1.
— Un sous-ensembleA⊂Rnest convexe si, pour tous x, y ∈A et pour tousα ∈[0,1], αx+ (1−α)y∈A.
— Si A est convexe et sif est une application de A dans R, on dit que f est convexe si, pour tous x, y ∈A et pour tout α ∈[0,1],
f(αx+ (1−α)y)≤αf(x) + (1−α)f(y).
Enfin, f est dite strictement convexe si cette in´egalit´e est stricte pour tous x6= y et α∈]0,1[.
Th´eor`eme 2.1. Soit F un sous-ensemble convexe de Rn et f : F → R une fonction continue, strictement convexe. Alors le probl`eme d’optimisation min
F f a au plus une so- lution.
Exemples - Exercices :
(i) Reprendre les exemples donn´es ci-dessus et voir dans quels cas le th´eor`eme d’unicit´e s’applique.
(ii) Donner un exemple de fonction convexe dansRqui a plusieurs points de minimum.
3 Conditions d’optimalit´ e
Comme nous l’avons d´ej`a fait ci-dessus, nous nous concentrons sur les probl`emes de minimisation, laissant, au lecteur, les adaptations (´evidentes) aux probl`emes de maximi- sation.
L`a aussi `a tout seigneur, tout honneur.
Th´eor`eme 3.1. Soit D un sous-ensemble quelconque de Rn et f :D→R. Si x∈ D est un point de minimum local de f sur D et si x est un point int´erieur `a D alors :
(i) Si f est d´erivable en x alors ∇f(x) = 0.
(ii) Si f est de classe C1 dans un voisinage de x et si f est deux fois d´erivable en x alors on a ∇f(x) = 0 et D2f(x)≥0.
Exercices :
(i) Reprendre les exemples mod`eles donn´es ci-dessus et voir dans quels cas le Th´eor`eme 3.1 s’applique.
(ii) ´Etudier les points critiques de la fonction f :R2 →R d´efinie par : f(x, y) =x3+y3−3x−3y ,
et donner leurs natures.
(iii) Si |x|= (x21+· · ·x2n)1/2, ´etudier le probl`eme d’optimisation : min
|x|≤1 |x|.
Quels sont les points critiques ? Comment trouve-t-on le ou les points de minimum ? Le th´eor`eme 3.1 ne donne de r´esultats que pour des points int´erieurs `a D; il ne nous renseigne pas pour des cas o`u l’int´erieur deD est vide comme dans l’exemple (i) de notre collection d’exemples mod`eles ou dans le cas o`u le minimum est atteint sur le bord deD.
Dans les cas d’optimisation avec contrainte(s) o`u x est tenu `a appartenir `a un sous- ensemble strict de Rn, on doit disposer de r´esultats compl´ementaires et nous proposons les deux plus classiques.
On s’int´eresse d’abord au cas des contraintes d’´egalit´es, typiquement l’exemple (i) de notre collection d’exemples mod`eles. Si f : Rn → R est la fonction `a minimiser (on dit souvent le crit`ere), on lui associe des contraintes :
G1(x) = 0, G2(x) = 0,· · · , Gm(x) = 0 ,
o`u les Gi sont des fonctions de Rn dans R; on note G = (G1, G2,· · · , Gm) : Rn → Rm. On suppose que f et les Gi sont de classe C1.
Th´eor`eme 3.2. On note D={x∈ Rn; G(x) = 0}. Si x ∈D est un point de minimum local de f sur D, i.e. s’il existe r >0 tel que :
f(x)≤f(y) pour tout y∈B(x, r)∩D ,
et sirang{DG(x)}=m, il existe des constantesλ1, λ2,· · ·, λm ∈R, appel´ees multiplicateurs de Lagrange telles que :
∇f(x) =λ1∇G1(x) +λ2∇G2(x) +· · ·+λm∇Gm(x).
L’´equation aux multiplicateurs de Lagrage semble impossible `a r´esoudre car elle contient n+m inconnues (les n coordonn´ees xi et les m multiplicateurs de Lagrange λi) et on a seulementn´equations correspondant auxn d´eriv´ees partielles. Mais il ne faut pas oublier les ´equations de contraintes G1(x) = 0, G2(x) =,· · · , Gm(x) = 0 qui fournissent les m
´equations manquantes.
Exemple : min
x2+y2=1
(x+y).
Ici f(x, y) = x+y, m= 1 et G1(x, y) =x2+y2−1. L’ensemble : D={(x, y)∈R2; x2+y2 = 1}
est compact et donc on sait qu’il existe au moins une solution (NB : de mˆeme que pour le probl`eme de maximisation) ;f etG1 sont de classeC1 etDG(x, y) = DG1(x, y) = (2x2y) est de rang 1 pour tout (x, y) ∈ D puisque x2 +y2 = 1 (ce qui implique que x et y ne peuvent pas ˆetre simultan´ement nuls).
Le syst`eme des multiplicateurs de Lagrange s’´ecrit :
∂f
∂x(x, y) =λ1
∂G1
∂x (x, y)−→1 = 2λ1x ,
∂f
∂y(x, y) = λ1∂G1
∂y (x, y)−→1 = 2λ1y , G1(x, y) = 0−→x2+y2 = 1.
On a bien 3 ´equations `a 3 inconnues. L’exp´erience montre qu’il est souvent plus facile de calculer d’abord le multiplicateur de Lagrange : c’est le cas ici. En ´elevant au carr´e les deux premi`eres ´egalit´es et en sommant, on a :
12+ 12 = 4λ12(x2+y2) = 4λ12 . D’o`uλ12 = 1
2, i.e. λ1 =±
√2 2 .
Pourquoi deux multiplicateurs possibles ? (on pourrait d’ailleurs en avoir plus...). Ici l’explication est simple car on a un point de minimum ET un point de maximum def sur le cercle et ces deux points satisfont la mˆeme ´equations aux multiplicateurs de Lagrange.
On les diff´erencie par les valeurs des fonctions : comme λ1 = −
√2
2 est associ´e au point (−
√2 2 ,−
√2
2 ) et λ1 =
√2
2 au point (
√2 2 ,
√2
2 ), on examine les valeurs : f(−
√2 2 ,−
√2
2 ) = −√
2−→(−
√2 2 ,−
√2
2 ) est le point de minimum, f(
√2 2 ,
√2 2 ) =√
2−→(
√2 2 ,
√2
2 ) est le point de maximum.
NB : faire un dessin et v´erifier g´eom´etriquement que ce r´esultat est raisonnable ! Exercices :
(i) Traiter l’exemple (i) de la collection d’exemples mod`eles.
(ii) Soient 1< p, q < +∞ deux r´eels. ´Etudier le probl`eme d’optimisation : min
||x||q=1 ||x||p ,
o`u si 1< r <+∞, ||x||r := (|x1|r+|x2|r+· · ·+|xn|r)1/r.
(iii) Soit A une matrice n ×n sym´etrique et λ1 < λ2 < · · ·λn ses valeurs propres (que l’on suppose donc toutes distinctes vu les in´egalit´es strictes). Soit enfin e1 un vecteur propre associ´e `aλ1. R´esoudre :
min
||x||2=1 (x,e1)=0
(Ax, x).
(iv) Discuter le probl`eme d’optimisation : min
(c,x)=d
1
2(Ax, x)−(b, x)
, o`u A une matricen×n sym´etrique, b, c∈Rn etd ∈R.
Preuve du Th´eor`eme 3.2 : Nous ne consid`ererons que le cas m = 1, le cas g´en´eral constituant un excellent sujet d’´etude.
L’hypoth`eserang{DG(x)}=m= 1 se r´eduit `a∇G1(x)6= 0. On suppose, par exemple, que ∂G1
∂xn(x) 6= 0. Le Th´eor`eme des Fonctions Implicites donne alors l’existence d’un voisinage U de x et d’une fonction ϕ d´efinie sur un voisinage V de (x1,· · · , xn−1) dans Rn−1 telle que :
y∈U etG(y) = 0 ⇐⇒ yn=ϕ(y1,· · ·, yn−1).
Le fait que x soit un point de minimum local de f sur D se r´einterpr`ete en disant que (x1,· · ·, xn−1) est un point de minimum local dans V de la fonction :
y7→f(y1,· · · , yn−1, ϕ(y1,· · · , yn−1)).
Il suffit maintenant d’appliquer le Th´eor`eme 3.1 `a cette fonction : pour la ii`eme d´eriv´ee partielle, on obtient :
∂f
∂xi(x) + ∂f
∂xn(x)∂ϕ
∂xi(x1,· · ·, xn−1) = 0 pouri= 1,2,· · · , n−1.
Mais, par le Th´eor`eme des Fonctions Implicites :
∂ϕ
∂xi(x1,· · · , xn−1) = −
∂G
∂xi(x)
∂G
∂xn(x) , et en notant λ1 =
∂f
∂xn(x)
∂G
∂xn(x), on voit que :
∂f
∂xi(x) = λ1∂G
∂xi(x) pour i= 1,2,· · · , n−1.
Comme cette ´egalit´e est trivialement vraie pour i =n `a cause de la d´efinition de λ1, la preuve est compl`ete.
Les r´esultats d´emontr´es jusqu’`a pr´esent nous permettent de traiter tous les exemples de notre collection d’exemples mod`eles sauf le (ii) ; en effet, le (iv) peut se d´ecoupler en consid´erant s´epar´ement les cas o`u le point de minimum est atteint `a l’int´erieur (→
Th´eor`eme 3.1) ou sur le bord (→ Th´eor`eme 3.2).
Mais l’exemple (ii) ne permet pas cette strat´egie car l’utilisation du Th´eor`eme 3.2 n´ecessite que le bord soit une sous-vari´et´e r´eguli`ere (i.e. qu’il s’´ecrive sous la forme yn= ϕ(y1,· · · , yn−1) avecϕ de classeC1 dans un bon syst`eme de coordonn´ees) et les coins du triangle sont un obstacle `a cette propri´et´e...
On a donc besoin d’un r´esultat plus sophistiqu´e : le Th´eor`eme de Kuhn et Tucker o`u l’on peut m´elanger toutes les contraintes possibles (´egalit´es et in´egalit´es).
Plus pr´ecis´ement, on va minimiser une fonctionf de classeC1surRnsous les contraintes : g1(x) = 0, g2(x) = 0,· · · , gm(x) = 0 eth1(x)≤0, h2(x)≤0,· · · , hl(x)≤0.
Ceci est le cas g´en´eral car, par exemple, une contrainte du type h1(x) ≥ 0 se r´e´ecrit
−h1(x) ≤ 0. On note D l’ensemble des points x de Rn v´erifiant ces contraintes ; on le supposera, bien sˆur, non vide.
Th´eor`eme 3.3. Si x∈D est un point de minimum local de f surD et si, au pointx, les vecteurs∇g1(x),∇g2(x),· · · ,∇gm(x),∇hj1(x),· · ·,∇hjk(x)sont lin´eairement ind´ependants o`u j1,· · · , jk sont les indices pour lesquels hj(x) = 0, alors il existe des constantes λ1, λ2,· · · , λm ∈R et µ1, µ2,· · ·, µl ≤0 telles que :
∇f(x) =
m
X
i=1
λi∇gi(x) +
l
X
j=1
µj∇hj(x),
avec, pour tout j :
µj ≤0 et µjhj(x) = 0.
En d’autres termes, le coefficient µj ne peut ˆetre non nul que si hj(x) = 0 donc si j = j1,· · · , jk.
Exercices :
(i) ´Ecrire les conditions d’optimalit´e pour :
(c,x)≤dmin
(e,x)−f=0
1
2(Ax, x)−(b, x)
,
(ii) R´esoudre le probl`eme de la m´enag`ere : comment maximiser son utilit´e (ou son plaisir) quand on a un budget limit´e R (= Revenu) et que l’on peut acheter n biens dont les prix sont not´espi(i= 1,2,· · · , n) (ils sont, bien entendu, strictement positifs...) ? Ceci conduit au probl`eme :
maxxi≥0 Pn
i=1pixi=R
U(x1,· · · , xn),
avec U(x1,· · · , xn) = (x1· · ·xn)α avec 0 < α < 1. Les xi sont les quantit´es de chacun des biens que l’on peut (ou que l’on veut) acheter et la forme de la fonction d’utilit´e U est justifi´ee par le fait que (i) quand on n’a pas d’un bien, on en a tr`es envie, d’o`u la pente (infinie) de la fonctiont 7→tα en 0 mais (ii) par contre, quand on en a beaucoup, l’utilit´e marginale d’en avoir encore plus devient faible, d’o`u la pente faible de cette mˆeme fonction pour t grand.
Preuve du Th´eor`eme 3.3 : on proc`ede par p´enalisation des contraintes, ce qui signifie que l’on se ram`ene `a un probl`eme sans contraintes mais o`u l’on fait payer de plus en plus cher le fait de s’´eloigner du domaine D.
Plus pr´ecis´ement, si x est un point de minimum de f surB(x, r)∩D, on introduit le probl`eme de minimisation :
min
y∈B(x,r)
(
f(y) +|y−x|2+
m
X
i=1
[gi(y)]2
ε +
l
X
j=1
[(hj(y))+]2 ε
) ,
o`u t+ = max(t,0) si t ∈ R et 0 < ε 1 est un param`etre destin´e `a tendre vers 0. Si y satisfait les contraintes - i.e. si y ∈ D-, les deux derniers termes ont nuls ; dans le cas contraire, on “paye” une quantit´e de l’ordre de 1/ε. Donc, quand ε→0, on a de plus en plus int´erˆet `a satisfaire les contraintes et intuitivement les points de minimum devraient se rapprocher de D, et le minimum devrait ressembler au minimum sur B(x, r)∩D... ce qui est l’id´ee de la m´ethode.
A noter enfin le terme` |y−x|2 qui transformexpoint de minimum def surB(x, r)∩D en un point de minimum local strict dey7→f(y) +|y−x|2 sur B(x, r)∩D.
CommeB(x, r) est compact, il existe au moins un point de minimumxε ∈B(x, r) qui satisfait, en particulier :
(1) f(xε) +|xε−x|2+
m
X
i=1
[gi(xε)]2
ε +
l
X
j=1
[(hj(xε))+]2
ε ≤f(x), car x∈B(x, r).
On d´eduit de (1), plusieurs informations : comme f est born´e sur le compact B(x, r), on peut introduire M =||f||L∞(B(x,r)) et on a :
m
X
i=1
[gi(xε)]2+
l
X
j=1
[(hj(xε))+]2 ≤(2M +r2)ε . De plus :
f(xε) +|xε−x|2 ≤f(x).
En utilisant une nouvelle fois la compacit´e de B(x, r), on peut extraire une sous-suite convergente de la suite (xε)ε, que l’on notera de la mˆeme mani`ere pour simplifier les notations et on peut donc supposer que xε→x.
En passant `a la limite dans les deux derni`eres in´egalit´es, il vient :
m
X
i=1
[gi(x)]2+
l
X
j=1
[(hj(x))+]2 ≤0,
donc gi(x) = 0 pour tout i et hj(x) ≤ 0 pour tout j, ce qui signifie que x ∈ D. D’autre part :
f(x) +|x−x|2 ≤f(x) = min
B(x,r)∩D
f .
Il en r´esulte imm´ediatement que x = x et en particulier xε ∈ B(x, r) pour ε assez petit (donc xε est dans l’int´erieur de B(x, r)).
Par le Th´eor`eme 3.1, on a donc : (2) ∇f(xε) + 2(xε−x) +
m
X
i=1
2gi(xε)
ε ∇gi(xε) +
l
X
j=1
2(hj(xε))+
ε ∇hj(xε) = 0. On note alors, pouri= 1,· · · , m etj = 1,· · · , l :
λεi :=−2gi(xε)
ε et µεj :=−2(hj(xε))+
ε ,
de telle sorte que :
(3) ∇f(xε) + 2(xε−x) =
m
X
i=1
λεi∇gi(xε) +
l
X
j=1
µεj∇hj(xε).
Pour pouvoir passer `a la limite, on doit prouver que les λεi et µεj sont born´es ce qui permettra d’extraire des sous-suites convergentes.
On remarque d’abord que, si hj(x) < 0 alors hj(xε) < 0 pour ε assez petit et donc µεj = 0. Donc, dans la somme en j, il suffit de ne prendre en compte que les termes d’indices j1,· · · , jk.
D’autre part, si les λεi et µεj ne sont pas born´es alors max
i,j |λεi|,|µεj|
→ +∞. On consid`ere le terme pour lequel le max est atteint : supposons, par exemple, que ce soit pour|λε1|le long d’une sous-suite, i.e.
|λε1|= max
i,j |λεi|,|µεj|
→+∞.
En divisant (3) par|λε1|, on se retrouve avec des coefficients born´es ( λεi
|λε1| et µεj
|λε1|) et, apr`es extraction de sous-suites convergentes, le passage `a la limite donne une ´egalit´e du type :
0 = ∇g1(x) +
m
X
i=2
λi∇gi(x) +
l
X
j=1
µj∇hj(x).
Prenant en compte la remarque ci-dessus montrant que, dans la seconde somme, seuls les termes d’indices j1,· · · , jk apparaissent, cette ´egalit´e est une contradiction avec l’hy- poth`ese d’ind´ependance des vecteurs ∇g1(x),∇g2(x),· · · ,∇gm(x),∇hj1(x),· · · ,∇hjk(x).
Donc les λεi et µεj sont born´es et en passant `a la limite dans (3) apr`es extractions de sous-suites convergentes, on a la propri´et´e souhait´ee avec la propri´et´e sur lesµj d´ecoulant de la remarque d´ej`a utilis´ee au paragraphe pr´ec´edent.
Remarque :Dans le th´eor`eme de Kuhn et Tucker, comme dans celui des fonctions impli- cites qui donne le r´esultat pour les probl`emes d’optimisation avec contraintes d’´egalit´es, on voit bien quef, ainsi que les fonctions donnant les contraintes, n’ont pas besoin d’ˆetre C1 partout mais simplement au voisinage du point de minimum local. Cette remarque peut ˆetre utile pour traiter certains probl`emes.
Exercice : De la capacit´e `a raisonner comme un micro-´economiste...
On reprend le probl`eme d’optimisation associ´e au Th´eor`eme 3.3. On introduit le Lagra- gien :
L(y, λ, µ) :=f(y)−
m
X
i=1
λigi(y)−
l
X
j=1
µjhj(y),
o`uλ:= (λi)i etµ:= (µj)j. On suppose quef est convexe, coercive et de classeC1 et que les fonctions gi, hj sont affines. En utilisant L, montrer que, si x satisfait les conditions d’optimalit´e du Th´eor`eme 3.3 pour un certain λ et µ alors x est un point de minimum global de y7→L(y, λ, µ) sur Rn etx est un point de minimum global de f sur D.
Application : R´esoudre les probl`emes d’optimisation dans R3 avec : f(x, y, z) := 1
2
x2+y2+ 4z2+ 4xy+ 6xz −8x−4y−7z ,
et avec les contraintes d’in´egalit´es : (i) 4x+ 2y≥6
ou bien :
(i) 4x+ 2y≤6
ou enfin avec la contrainte d’´egalit´e : (i) 4x+ 2y= 8.
Sujets d’´etudes : Quid en dimension infinie ?
1. “Revoir” les analogues des th´eor`emes de ce mini-cours dans le cas d’un espace de Hilbert H. On pourra se contenter du cas o`u :
f(x) := 1
2(Ax, x)−(b, x),
o`ub ∈H et A:H →H est un op´erateur lin´eaire, continu et coercif, i.e.
(Ax, x)≥α||x||2 pour toutx∈H , o`uα >0.
2. R´efl´echir aux bonnes hypoth`eses pour r´esoudre (par p´enalisation ?) les probl`emes min
G(x)=0 f(x) ou min
G(x)≤0 f(x) dans le cas o`u f est convexe, coercive.
Application : minimiser la fonctionnelle : J(v) = 1
2 Z 1
0
[v0(t)]2dt− Z 1
0
f(t)v(t), dans H =H01(]0,1[) sous la contrainte :
Z 1
0
[v(t)]2dt = 1 (ou ≤1).
(Sur ce dernier probl`eme, on fera le lien avec le th´eor`eme de projection.)