Optimisation dans R

(1)

Optimisation dans R ⁿ (et ailleurs ?) : quelques r´esultats de base

G. Barles

Master de Math´ ematiques de TOURS

Quand on veut traiter des problèmes d’optimisation (qui se présentent généralement sous la forme min

K f ou max

K f), on est confront´e `a trois types de questions :

(i) Existence du (ou des) point(s) de minimum ou de maximum, donc existence (ou pas) de la solution du probl`eme.

(ii) Unicit´e´eventuelle de cette solution.

(iii) Propriété d’optimalité : quelle(s) équation(s) cette solution satisfait-elle ? On pense évidemment à un gradient nul en un point de minimum ou de maximum local.

L’objectif de ce mini-cours est de d´ecrire les r´esultats de base dans ces trois directions.

1 Existence

A tout seigneur, tout honneur, nous commen¸cons par le :`

Th´eor`eme 1.1. Soit K ⊂Rⁿ un compact et f :K →R une fonction continue. Il existe au moins deux points x₀, x₁ ∈K tels que :

f(x0) = min

K f et f(x1) = max

K f .

En d’autres termes, sous les conditions du Théorème 1.1, nos problèmes d’optimisation ont au moins une solution.

Malheureusement (ou heureusement), beaucoup de problèmes d’optimisation ne sont pas posés sur des compacts. Il nous faut donc une (légère) généralisation du Théorème 1.1.

Théorème 1.2. Soit F ⊂Rⁿ un fermé et f :F →R une fonction continue qui est aussi coercive, i.e.

f(x)→+∞ quand |x| →+∞. Alors il existe au moins un point x₀ ∈F tels que f(x₀) = min

K f.

(2)

La coercivité assure donc la compacité nécessaire à la résolution du problème de minimisation.

Exemples - Exercices : on consid`ere les exemples mod`eles suivants qui seront repris tout au long du cours :

(i) min

|x|=1(Ax, x), max

|x|=1(Ax, x).

(ii) min

x≥0,y≥0 x+y≤1

(ax+by), oùa, b sont deux réels donnés.

(iii) min

x∈Rⁿ

1

2(Ax, x)−(b, x)

: quelles sont les hypothèses nécessaires pour appliquer le Théorème 1.2 ?

(iv) min

(c,x)−d≥0

1

2(Ax, x)−(b, x)

. Mˆeme probl`eme.

Exercices :

(i) Montrer, sur des exemples simples, que les hypothèses des théorèmes 1.1 et 1.2 sont (presque) optimales, en donnant des contre-exemples où l’on n’a pas forcément de solutions si l’une d’elles n’est pas satisfaite.

(ii) Prouver néanmoins que les théorèmes 1.1 et 1.2 restent vrais si on suppose seule- ment f s.c.i. quand il s’agit de trouver un minimum.

(iii) (sujet d’´etude)Que se passe-t-il si on remplace Rⁿ par un espace de Hilbert ?

2 Unicit´ e

Dans cette section, le message est très simple : dans le cas de problèmes de minimisation (sur lesquels on va désormais se concentrer laissant les problèmes de maximisation en exercices (faciles)), la seule hypothèse qui fournit des résultats généraux est la stricte convexité ; encore faut-il pouvoir l’appliquer ce qui nécessite un domaine convexe.

D’o`u la d´efinition suivante.

D´efinition 2.1.

— Un sous-ensembleA⊂Rⁿest convexe si, pour tous x, y ∈A et pour tousα ∈[0,1], αx+ (1−α)y∈A.

— Si A est convexe et sif est une application de A dans R, on dit que f est convexe si, pour tous x, y ∈A et pour tout α ∈[0,1],

f(αx+ (1−α)y)≤αf(x) + (1−α)f(y).

Enfin, f est dite strictement convexe si cette in´egalit´e est stricte pour tous x6= y et α∈]0,1[.

Théorème 2.1. Soit F un sous-ensemble convexe de Rⁿ et f : F → R une fonction continue, strictement convexe. Alors le problème d’optimisation min

F f a au plus une solution.

(3)

Exemples - Exercices :

(i) Reprendre les exemples donnés ci-dessus et voir dans quels cas le théorème d’unicité s’applique.

(ii) Donner un exemple de fonction convexe dansRqui a plusieurs points de minimum.

3 Conditions d’optimalit´ e

Comme nous l’avons déjà fait ci-dessus, nous nous concentrons sur les problèmes de minimisation, laissant, au lecteur, les adaptations (évidentes) aux problèmes de maximisation.

L`a aussi `a tout seigneur, tout honneur.

Théorème 3.1. Soit D un sous-ensemble quelconque de Rⁿ et f :D→R. Si x∈ D est un point de minimum local de f sur D et si x est un point intérieur à D alors :

(i) Si f est d´erivable en x alors ∇f(x) = 0.

(ii) Si f est de classe C¹ dans un voisinage de x et si f est deux fois d´erivable en x alors on a ∇f(x) = 0 et D²f(x)≥0.

Exercices :

(i) Reprendre les exemples modèles donnés ci-dessus et voir dans quels cas le Théorème 3.1 s’applique.

(ii) ´Etudier les points critiques de la fonction f :R² →R d´efinie par : f(x, y) =x³+y³−3x−3y ,

et donner leurs natures.

(iii) Si |x|= (x²₁+· · ·x²_n)^1/2, ´etudier le probl`eme d’optimisation : min

|x|≤1 |x|.

Quels sont les points critiques ? Comment trouve-t-on le ou les points de minimum ? Le théorème 3.1 ne donne de résultats que pour des points intérieurs à D; il ne nous renseigne pas pour des cas où l’intérieur deD est vide comme dans l’exemple (i) de notre collection d’exemples modèles ou dans le cas où le minimum est atteint sur le bord deD.

Dans les cas d’optimisation avec contrainte(s) où x est tenu à appartenir à un sous- ensemble strict de Rⁿ, on doit disposer de résultats complémentaires et nous proposons les deux plus classiques.

On s’intéresse d’abord au cas des contraintes d’égalités, typiquement l’exemple (i) de notre collection d’exemples modèles. Si f : Rⁿ → R est la fonction à minimiser (on dit souvent le critère), on lui associe des contraintes :

G₁(x) = 0, G₂(x) = 0,· · · , G_m(x) = 0 ,

o`u les G_i sont des fonctions de Rⁿ dans R; on note G = (G₁, G₂,· · · , G_m) : Rⁿ → R^m. On suppose que f et les G_i sont de classe C¹.

(4)

Th´eor`eme 3.2. On note D={x∈ Rⁿ; G(x) = 0}. Si x ∈D est un point de minimum local de f sur D, i.e. s’il existe r >0 tel que :

f(x)≤f(y) pour tout y∈B(x, r)∩D ,

et sirang{DG(x)}=m, il existe des constantesλ₁, λ₂,· · ·, λ_m ∈R, appel´ees multiplicateurs de Lagrange telles que :

∇f(x) =λ₁∇G₁(x) +λ₂∇G₂(x) +· · ·+λ_m∇G_m(x).

L’équation aux multiplicateurs de Lagrage semble impossible à résoudre car elle contient n+m inconnues (les n coordonnées x_i et les m multiplicateurs de Lagrange λ_i) et on a seulementnéquations correspondant auxn dérivées partielles. Mais il ne faut pas oublier les équations de contraintes G₁(x) = 0, G₂(x) =,· · · , G_m(x) = 0 qui fournissent les m

´equations manquantes.

Exemple : min

x²+y²=1

(x+y).

Ici f(x, y) = x+y, m= 1 et G₁(x, y) =x²+y²−1. L’ensemble : D={(x, y)∈R²; x²+y² = 1}

est compact et donc on sait qu’il existe au moins une solution (NB : de même que pour le problème de maximisation) ;f etG₁ sont de classeC¹ etDG(x, y) = DG₁(x, y) = (2x2y) est de rang 1 pour tout (x, y) ∈ D puisque x² +y² = 1 (ce qui implique que x et y ne peuvent pas être simultanément nuls).

Le syst`eme des multiplicateurs de Lagrange s’´ecrit :

∂f

∂x(x, y) =λ1

∂G1

∂x (x, y)−→1 = 2λ1x ,

∂f

∂y(x, y) = λ₁∂G₁

∂y (x, y)−→1 = 2λ₁y , G₁(x, y) = 0−→x²+y² = 1.

On a bien 3 équations à 3 inconnues. L’expérience montre qu’il est souvent plus facile de calculer d’abord le multiplicateur de Lagrange : c’est le cas ici. En élevant au carré les deux premières égalités et en sommant, on a :

1²+ 1² = 4λ₁²(x²+y²) = 4λ₁² . D’o`uλ₁² = 1

2, i.e. λ₁ =±

√2 2 .

Pourquoi deux multiplicateurs possibles ? (on pourrait d’ailleurs en avoir plus...). Ici l’explication est simple car on a un point de minimum ET un point de maximum def sur le cercle et ces deux points satisfont la mˆeme ´equations aux multiplicateurs de Lagrange.

(5)

On les diff´erencie par les valeurs des fonctions : comme λ₁ = −

√2

2 est associ´e au point (−

√2 2 ,−

√2

2 ) et λ₁ =

√2

2 au point (

√2 2 ,

√2

2 ), on examine les valeurs : f(−

√2 2 ,−

√2

2 ) = −√

2−→(−

√2 2 ,−

√2

2 ) est le point de minimum, f(

√2 2 ,

√2 2 ) =√

2−→(

√2 2 ,

√2

2 ) est le point de maximum.

NB : faire un dessin et vérifier géométriquement que ce résultat est raisonnable ! Exercices :

(i) Traiter l’exemple (i) de la collection d’exemples mod`eles.

(ii) Soient 1< p, q < +∞ deux réels. Étudier le problème d’optimisation : min

||x||q=1 ||x||_p ,

o`u si 1< r <+∞, ||x||r := (|x1|^r+|x2|^r+· · ·+|xn|^r)^1/r.

(iii) Soit A une matrice n ×n symétrique et λ₁ < λ₂ < · · ·λ_n ses valeurs propres (que l’on suppose donc toutes distinctes vu les inégalités strictes). Soit enfin e₁ un vecteur propre associé àλ1. Résoudre :

min

||x||²=1 (x,e1)=0

(Ax, x).

(iv) Discuter le probl`eme d’optimisation : min

(c,x)=d

1

2(Ax, x)−(b, x)

, o`u A une matricen×n sym´etrique, b, c∈Rⁿ etd ∈R.

Preuve du Théorème 3.2 : Nous ne considèrerons que le cas m = 1, le cas général constituant un excellent sujet d’étude.

L’hypothèserang{DG(x)}=m= 1 se réduit à∇G₁(x)6= 0. On suppose, par exemple, que ∂G1

∂x_n(x) 6= 0. Le Théorème des Fonctions Implicites donne alors l’existence d’un voisinage U de x et d’une fonction ϕ définie sur un voisinage V de (x1,· · · , xn−1) dans Rⁿ⁻¹ telle que :

y∈U etG(y) = 0 ⇐⇒ y_n=ϕ(y₁,· · ·, yn−1).

Le fait que x soit un point de minimum local de f sur D se r´einterpr`ete en disant que (x₁,· · ·, xn−1) est un point de minimum local dans V de la fonction :

y7→f(y₁,· · · , yn−1, ϕ(y₁,· · · , yn−1)).

(6)

Il suffit maintenant d’appliquer le Théorème 3.1 à cette fonction : pour la iième dérivée partielle, on obtient :

∂f

∂x_i(x) + ∂f

∂x_n(x)∂ϕ

∂x_i(x1,· · ·, xn−1) = 0 pouri= 1,2,· · · , n−1.

Mais, par le Th´eor`eme des Fonctions Implicites :

∂ϕ

∂x_i(x₁,· · · , xn−1) = −

∂G

∂xi(x)

∂G

∂xn(x) , et en notant λ₁ =

∂f

∂xn(x)

∂G

∂xn(x), on voit que :

∂f

∂x_i(x) = λ₁∂G

∂x_i(x) pour i= 1,2,· · · , n−1.

Comme cette égalité est trivialement vraie pour i =n à cause de la définition de λ₁, la preuve est complète.

Les résultats démontrés jusqu’à présent nous permettent de traiter tous les exemples de notre collection d’exemples modèles sauf le (ii) ; en effet, le (iv) peut se découpler en considérant séparément les cas où le point de minimum est atteint à l’intérieur (→

Théorème 3.1) ou sur le bord (→ Théorème 3.2).

Mais l’exemple (ii) ne permet pas cette stratégie car l’utilisation du Théorème 3.2 nécessite que le bord soit une sous-variété régulière (i.e. qu’il s’écrive sous la forme y_n= ϕ(y₁,· · · , yn−1) avecϕ de classeC¹ dans un bon système de coordonnées) et les coins du triangle sont un obstacle à cette propriété...

On a donc besoin d’un résultat plus sophistiqué : le Théorème de Kuhn et Tucker où l’on peut mélanger toutes les contraintes possibles (égalités et inégalités).

Plus pr´ecis´ement, on va minimiser une fonctionf de classeC¹surRⁿsous les contraintes : g1(x) = 0, g2(x) = 0,· · · , gm(x) = 0 eth1(x)≤0, h2(x)≤0,· · · , hl(x)≤0.

Ceci est le cas général car, par exemple, une contrainte du type h₁(x) ≥ 0 se réécrit

−h₁(x) ≤ 0. On note D l’ensemble des points x de Rⁿ v´erifiant ces contraintes ; on le supposera, bien sˆur, non vide.

Théorème 3.3. Si x∈D est un point de minimum local de f surD et si, au pointx, les vecteurs∇g₁(x),∇g₂(x),· · · ,∇g_m(x),∇h_j₁(x),· · ·,∇h_j_k(x)sont linéairement indépendants où j₁,· · · , j_k sont les indices pour lesquels h_j(x) = 0, alors il existe des constantes λ₁, λ₂,· · · , λ_m ∈R et µ₁, µ₂,· · ·, µ_l ≤0 telles que :

∇f(x) =

m

X

i=1

λ_i∇g_i(x) +

l

X

j=1

µ_j∇h_j(x),

(7)

avec, pour tout j :

µ_j ≤0 et µ_jh_j(x) = 0.

En d’autres termes, le coefficient µ_j ne peut ˆetre non nul que si h_j(x) = 0 donc si j = j₁,· · · , j_k.

Exercices :

(i) ´Ecrire les conditions d’optimalit´e pour :

(c,x)≤dmin

(e,x)−f=0

1

2(Ax, x)−(b, x)

,

(ii) Résoudre le problème de la ménagère : comment maximiser son utilité (ou son plaisir) quand on a un budget limité R (= Revenu) et que l’on peut acheter n biens dont les prix sont notésp_i(i= 1,2,· · · , n) (ils sont, bien entendu, strictement positifs...) ? Ceci conduit au problème :

maxxi≥0 Pn

i=1pixi=R

U(x₁,· · · , x_n),

avec U(x₁,· · · , x_n) = (x₁· · ·x_n)^α avec 0 < α < 1. Les x_i sont les quantités de chacun des biens que l’on peut (ou que l’on veut) acheter et la forme de la fonction d’utilité U est justifiée par le fait que (i) quand on n’a pas d’un bien, on en a très envie, d’où la pente (infinie) de la fonctiont 7→t^α en 0 mais (ii) par contre, quand on en a beaucoup, l’utilité marginale d’en avoir encore plus devient faible, d’où la pente faible de cette même fonction pour t grand.

Preuve du Théorème 3.3 : on procède par pénalisation des contraintes, ce qui signifie que l’on se ramène à un problème sans contraintes mais où l’on fait payer de plus en plus cher le fait de s’éloigner du domaine D.

Plus précisément, si x est un point de minimum de f surB(x, r)∩D, on introduit le problème de minimisation :

min

y∈B(x,r)

(

f(y) +|y−x|²+

m

X

i=1

[g_i(y)]²

ε +

l

X

j=1

[(h_j(y))⁺]² ε

) ,

où t⁺ = max(t,0) si t ∈ R et 0 < ε 1 est un paramètre destiné à tendre vers 0. Si y satisfait les contraintes - i.e. si y ∈ D-, les deux derniers termes ont nuls ; dans le cas contraire, on “paye” une quantité de l’ordre de 1/ε. Donc, quand ε→0, on a de plus en plus intérêt à satisfaire les contraintes et intuitivement les points de minimum devraient se rapprocher de D, et le minimum devrait ressembler au minimum sur B(x, r)∩D... ce qui est l’idée de la méthode.

A noter enfin le terme` |y−x|² qui transformexpoint de minimum def surB(x, r)∩D en un point de minimum local strict dey7→f(y) +|y−x|² sur B(x, r)∩D.

(8)

CommeB(x, r) est compact, il existe au moins un point de minimumx_ε ∈B(x, r) qui satisfait, en particulier :

(1) f(x_ε) +|x_ε−x|²+

m

X

i=1

[g_i(x_ε)]²

ε +

l

X

j=1

[(h_j(x_ε))⁺]²

ε ≤f(x), car x∈B(x, r).

On d´eduit de (1), plusieurs informations : comme f est born´e sur le compact B(x, r), on peut introduire M =||f||_L∞(^B(x,r)) et on a :

m

X

i=1

[g_i(x_ε)]²+

l

X

j=1

[(h_j(x_ε))⁺]² ≤(2M +r²)ε . De plus :

f(x_ε) +|x_ε−x|² ≤f(x).

En utilisant une nouvelle fois la compacité de B(x, r), on peut extraire une sous-suite convergente de la suite (xε)ε, que l’on notera de la même manière pour simplifier les notations et on peut donc supposer que x_ε→x.

En passant à la limite dans les deux dernières inégalités, il vient :

m

X

i=1

[g_i(x)]²+

l

X

j=1

[(h_j(x))⁺]² ≤0,

donc g_i(x) = 0 pour tout i et h_j(x) ≤ 0 pour tout j, ce qui signifie que x ∈ D. D’autre part :

f(x) +|x−x|² ≤f(x) = min

B(x,r)∩D

f .

Il en résulte immédiatement que x = x et en particulier x_ε ∈ B(x, r) pour ε assez petit (donc x_ε est dans l’intérieur de B(x, r)).

Par le Th´eor`eme 3.1, on a donc : (2) ∇f(xε) + 2(xε−x) +

m

X

i=1

2g_i(x_ε)

ε ∇gi(xε) +

l

X

j=1

2(h_j(x_ε))⁺

ε ∇hj(xε) = 0. On note alors, pouri= 1,· · · , m etj = 1,· · · , l :

λ^ε_i :=−2g_i(x_ε)

ε et µ^ε_j :=−2(h_j(x_ε))⁺

ε ,

de telle sorte que :

(3) ∇f(x_ε) + 2(x_ε−x) =

m

X

i=1

λ^ε_i∇g_i(x_ε) +

l

X

j=1

µ^ε_j∇h_j(x_ε).

(9)

Pour pouvoir passer `a la limite, on doit prouver que les λ^ε_i et µ^ε_j sont born´es ce qui permettra d’extraire des sous-suites convergentes.

On remarque d’abord que, si hj(x) < 0 alors hj(xε) < 0 pour ε assez petit et donc µ^ε_j = 0. Donc, dans la somme en j, il suffit de ne prendre en compte que les termes d’indices j₁,· · · , j_k.

D’autre part, si les λ^ε_i et µ^ε_j ne sont pas born´es alors max

i,j |λ^ε_i|,|µ^ε_j|

→ +∞. On consid`ere le terme pour lequel le max est atteint : supposons, par exemple, que ce soit pour|λ^ε₁|le long d’une sous-suite, i.e.

|λ^ε₁|= max

i,j |λ^ε_i|,|µ^ε_j|

→+∞.

En divisant (3) par|λ^ε₁|, on se retrouve avec des coefficients born´es ( λ^ε_i

|λ^ε₁| et µ^ε_j

|λ^ε₁|) et, après extraction de sous-suites convergentes, le passage à la limite donne une égalité du type :

0 = ∇g₁(x) +

m

X

i=2

λ_i∇g_i(x) +

l

X

j=1

µ_j∇h_j(x).

Prenant en compte la remarque ci-dessus montrant que, dans la seconde somme, seuls les termes d’indices j₁,· · · , j_k apparaissent, cette égalité est une contradiction avec l’hy- pothèse d’indépendance des vecteurs ∇g₁(x),∇g₂(x),· · · ,∇g_m(x),∇h_j₁(x),· · · ,∇h_j_k(x).

Donc les λ^ε_i et µ^ε_j sont bornés et en passant à la limite dans (3) après extractions de sous-suites convergentes, on a la propriété souhaitée avec la propriété sur lesµ_j découlant de la remarque déjà utilisée au paragraphe précédent.

Remarque :Dans le théorème de Kuhn et Tucker, comme dans celui des fonctions implicites qui donne le résultat pour les problèmes d’optimisation avec contraintes d’égalités, on voit bien quef, ainsi que les fonctions donnant les contraintes, n’ont pas besoin d’être C¹ partout mais simplement au voisinage du point de minimum local. Cette remarque peut être utile pour traiter certains problèmes.

Exercice : De la capacité à raisonner comme un micro-économiste...

On reprend le problème d’optimisation associé au Théorème 3.3. On introduit le Lagra- gien :

L(y, λ, µ) :=f(y)−

m

X

i=1

λ_ig_i(y)−

l

X

j=1

µ_jh_j(y),

oùλ:= (λ_i)_i etµ:= (µ_j)_j. On suppose quef est convexe, coercive et de classeC¹ et que les fonctions g_i, h_j sont affines. En utilisant L, montrer que, si x satisfait les conditions d’optimalité du Théorème 3.3 pour un certain λ et µ alors x est un point de minimum global de y7→L(y, λ, µ) sur Rⁿ etx est un point de minimum global de f sur D.

Application : R´esoudre les probl`emes d’optimisation dans R³ avec : f(x, y, z) := 1

2

x²+y²+ 4z²+ 4xy+ 6xz −8x−4y−7z ,

(10)

et avec les contraintes d’in´egalit´es : (i) 4x+ 2y≥6

ou bien :

(i) 4x+ 2y≤6

ou enfin avec la contrainte d’´egalit´e : (i) 4x+ 2y= 8.

Sujets d’´etudes : Quid en dimension infinie ?

1. “Revoir” les analogues des théorèmes de ce mini-cours dans le cas d’un espace de Hilbert H. On pourra se contenter du cas où :

f(x) := 1

2(Ax, x)−(b, x),

oùb ∈H et A:H →H est un opérateur linéaire, continu et coercif, i.e.

(Ax, x)≥α||x||² pour toutx∈H , o`uα >0.

2. Réfléchir aux bonnes hypothèses pour résoudre (par pénalisation ?) les problèmes min

G(x)=0 f(x) ou min

G(x)≤0 f(x) dans le cas o`u f est convexe, coercive.

Application : minimiser la fonctionnelle : J(v) = 1

2 Z 1

0

[v⁰(t)]²dt− Z 1

0

f(t)v(t), dans H =H₀¹(]0,1[) sous la contrainte :

Z 1

0

[v(t)]²dt = 1 (ou ≤1).

(Sur ce dernier problème, on fera le lien avec le théorème de projection.)

Optimisation dans R