Optimisation Non Linéaire

(1)

Optimisation Non Linéaire

Yannick Privat

IRMA, univ. Strasbourg

Cours du 05/11/2020

Multiplicateurs de Lagrange, théorème de Kuhn-Tucker

(2)

Plan

1 Multiplicateurs de Lagrange, théorème des extrema liés Rappels

Compléments sur le théorème des extrema liés

2 Conditions d’optimalité sous contraintes d’inégalité Contraintes actives, contraintes qualifiées Théorème de Kuhn et Tucker

Y. Privat (univ. Strasbourg) L3 - Optimisation Non Linéaire 05/11/2020 2 / 19

(3)

Multiplicateurs de Lagrange, théorème des extrema liés Rappels

Sommaire

(4)

Rappels sur le théorème des extrema liés

Objectif : résoudre des problèmes du type inf

g(x)=0f(x)

Théorème (extrema liés en dimension 2).

Soientf,g∈C¹(R²). On considère l’ensemble : K=

(x1,x2)∈R², g(x1,x2) =0 .

Soitx¯= (¯x1,x¯2)∈K tel que

∇g(¯x1,¯x2)6=0. (condition de qualification)

Si la fonctionf admet un minimum local enx¯surK, alors il existeλ∈R(multiplicateur de Lagrange), tel que :

∇f(¯x) +λ∇g(¯x) =0.

(5)

Rappels sur le théorème des extrema liés

; Le multiplicateur de Lagrangeλdépend dex¯.

; Interprétation du multiplicateur de Lagrange.Supposons que l’ensemble des contraintes soit paramétré

Kc =

(x1,x2)∈R²,g(x1,x2) =c . A chaque valeurs dec, il existe un minimum local notéx¯(c).

Calcul :de la relationg(¯x1(c),x¯2(x)) =c, on obtient :

∂x₁g(¯x(c)) ¯x₁⁰(c) +∂x₂g(¯x(c)) ¯x₂⁰(c) =1.

On a finalement d

dc[f(¯x(c))] =∂x1f(¯x(c))¯x₁⁰(c) +∂x2f(¯x(c))¯x₂⁰(c)

=−λ(c)

∂x1g(¯x(c))¯x₁⁰(c) +∂x2g(¯x(c))¯x₂⁰(c)

=−λ(c)

Le multiplicateur de Lagrangeλest donc la variation de la fonction critère à

(6)

Version générale du théorème des extrema liés

Théorème (extrema liés)

Soientf ∈C¹(Rⁿ)etgi∈C¹(Rⁿ)pour tout 16i 6m. On considère l’ensemble : K={x ∈Rⁿ, ∀i∈J1,mK, gi(x) =0}.

Soitx¯∈K tel que

les vecteurs∇gi(¯x)sont linéairement indépendants (contraintes qualifiées enx¯).

Si la fonctionf admet un minimum local en¯x surK, alors il existeλ1, . . . , λm∈R, tels que :

∇f(¯x) +

m

X

i=1

λi∇gi(¯x) =0.

(7)

Version générale du théorème des extrema liés

Exemple : minimisation d’une fonctionnelle quadratique sous contrainte linéaire Considérons le problème

inf

x∈Kf(x)

avecK={x ∈Rⁿ|gi(x) =0, i ∈J1,mK}et f(x) =1

2(Ax,x)−(b,x), gi(x) = (ci,x)−di, i ∈J1,mK,

avecA∈S⁺⁺n (R),b,ci∈Rⁿ etdi ∈R.

; (exercice)f est coercive, strictement convexe,Kest convexe, fermé, donc le problème possède une unique solution.

; On a∇f(x) =Ax−bet∇gi(x) =ci.

; Supposons que les vecteursci soient linéairement indépendants : en tout point deK les contraintes sont qualifiées.

(8)

Version générale du théorème des extrema liés

Soitx¯, le minimiseur def surK. Alors, il existeλ1, . . . , λm∈R, A¯x+

n

X

i=1

λici=b, (∇f(¯x)+P_m

i=1λ_i∇g_i(¯x)=0)

c_i^Tx¯=di, i ∈J1,mK ^(g(x)=0) Introduisons la matrice

C = (c1, . . . ,cm)∈Mn,m(R) et les vecteurs

d = (d1, . . . ,dm)^T, λ= (λ1, . . . , λm)^T ∈R^m, le système précédent se met sous la forme :

A C C^T 0

¯ x λ

= b

d

C étant de rangm, on peut montrer que la matrice de ce système est inversible. Ainsi, x¯

λ

=

A C C^T 0

−1 b d

.

(9)

Version générale du théorème des extrema liés

Application On cherche à résoudre

inf

(x,y,z)∈Kf(x,y,z)

avecK={x ∈Rⁿ|g1(x,y,z) =0 etg2(x,y,z) =0}et f(x,y,z) =4x²+64y²+100z²,

g1(x,y,z) =x+y+z−1 g2(x,y,z) =5x+10y+15z−α On a ici :

A=



 8

128 200



,C=





1 5

1 10 1 15



.

La matriceC est de rangm=2 (ses vecteurs colonnes sont linéairement indépendants).

(10)

Version générale du théorème des extrema liés

Pour déterminer le minimumx¯, on doit donc résoudre le système :







A C

C^T













¯ x

¯ y

¯ z λ1

λ2







=







8 1 5

128 1 10

200 1 15

1 1 1

5 10 15













¯ x

¯ y

¯ z λ1

λ2







=





 0 0 0 1 α







En résolvant ce système linéaire (exercice), on obtient :

¯ x= 73

45−19α

150, y¯=−11 45+4α

75, ¯z=−17 45+11α

150 λ1=−2576

45 +664α

75 , λ2= 664 75 −196α

125

Interprétation (portefeuille d’action)

; x,y etzsont les proportions des trois actions choisies dans le portefeuille.

; f(x,y,z)correspond au risque (matrice de covariance), la première contrainte traduit que l’intégralité du portefeuille est utilisée dans les investissements et la seconde est le gain moyen du portefeuille.

; −λ2est l’évaluation marginale du risque : pourα <830/147,−λ2 est négatif et donc le risque diminue lorsque l’espérance de gain augmente.

(11)

Multiplicateurs de Lagrange, théorème des extrema liés Compléments sur le théorème des extrema liés

Sommaire

(12)

Compléments sur le théorème des extrema liés

Réciproque du théorème des extrema liés

Soientf ∈C¹(Rⁿ)etgi ∈C¹(Rⁿ) convexespour tout 16i 6 m. Soitx¯∈K vérifiant les conditions de Lagrange du théorème précédent. Si pour touti∈J1,mK, l’une des deux conditions est vérifiée :

; le multiplicateur de Lagrangeλi est positif,

; la fonction(gi)est linéaire, alorsx¯minimise globalementf surK.

Preuve :par convexité degi, on a

∀x∈K, (∇g_i(¯x),x−x)¯ 6gi(x)−gi(¯x) =0.

Par convexité def, on a

∀x∈K, f(x)−f(¯x)>(∇f(¯x),x−x) =¯ −

m

X

i=1

λi(∇g_i(¯x),x−x)¯ ≥0, car tous les termes de la somme sont positifs ou nuls.

Rque : dans le cas particulier oùg est linéaire, on a 0=gi(x)−gi(¯x) = (∇g_i(¯x),x−x).¯

(13)

Compléments sur le théorème des extrema liés

On introduit le Lagrangien : pour(x, λ)∈Rⁿ×R^m, on définit

L(x, λ) =f(x) +

m

X

i=1

λigi(x).

Proposition (reformulation du théorème des extrema liés)

¯

x vérifie les conditions d’Euler-Lagrange avec multiplicateur de Lagrangeλ¯si, et seulement si(¯x,λ)¯ est un point critique deL :

∇xL(¯x,¯λ) =0 (∇f(¯x)+Pm

i=1λ_i∇g_i(¯x)=0)

∇λL(¯x,¯λ) =0 (g(x)=0)

(14)

Objectif

On souhaite résoudre des problèmes du type inf

h(x)=0 g(x)≤0

f(x)

avec

f :Rⁿ→R, h:Rⁿ→R^p, g:Rⁿ→R^m

On commence par s’intéresser au sous-problème suivant : inf

g(x)≤0f(x) avec

f :Rⁿ→R, g :Rⁿ→R^m

(15)

Objectif

On souhaite résoudre des problèmes du type inf

h(x)=0 g(x)≤0

f(x)

avec

f :Rⁿ→R, h:Rⁿ→R^p, g:Rⁿ→R^m

On commence par s’intéresser au sous-problème suivant : inf

g(x)≤0f(x) avec

f :Rⁿ→R, g:Rⁿ→R^m

(16)

Conditions d’optimalité sous contraintes d’inégalité Contraintes actives, contraintes qualifiées

Sommaire

(17)

Contraintes actives, contraintes qualifiées

Soitgi ∈C¹(Rⁿ)avec 16i 6m. On considère l’ensemble : K={x ∈Rⁿ,∀i ∈J1,mK,gi(x)60}.

Définition :contraintes actives

Soitx¯∈K. L’ensemble descontraintes activesenx¯est

I(¯x) =ensemble des indices t.q. l’inégalité est une égalité ={i∈J1,mK,gi(¯x) =0}.

(18)

Contraintes actives, contraintes qualifiées

Définition : contraintes qualifiées Soitx¯∈K.

; Les contraintes sont dites qualifiées enx¯∈K si

∃z∈Rⁿ, ∀i ∈I(¯x),

((∇gi(¯x),z)60 sigi est affine (∇gi(¯x),z)<0 sigi n’est pas affine

; Cela implique qu’il existe une directionz∈Rⁿ dans laquelle toutes les fonctions(gi)(avec i∈I(¯x)) sont décroissantes. Donc on reste localement dansK, i.e.x¯+εz∈K siε >0 est assez petit.

(19)

Contraintes actives, contraintes qualifiées

Qualification des contraintes

Les contraintes sont qualifiées enx¯dans chacun des cas suivants :

; Toutes les contraintes sont affines.

; les(∇gi(¯x))i∈I(¯x)sont linéairement indépendantes.

; les(gi)sont convexes et

∃y∈Rⁿ| ∀i∈I(¯x),

(gi(y)60 sigi est affine gi(y)<0 sigi n’est pas affine Preuve du 3^èmeitem :Soiti∈I(¯x). On a

(∇g_i(¯x),y−¯x) =g_i(¯x)

| {z }

+(∇g_i(¯x),y−x)¯ 6g_i(y),

(20)

Conditions d’optimalité sous contraintes d’inégalité Théorème de Kuhn et Tucker

Sommaire

(21)

Théorème de Kuhn et Tucker

Soientf,g1, . . . ,gm∈C¹(Rⁿ)etx¯∈K tel que les contraintes sont qualifiées en¯x.

Sif admet en¯x un minimum local, alors il existeλ1, . . . , λm>0tels que :

∇f(¯x) +

m

X

i=1

λi∇gi(¯x) =0 et ∀i∈J1,mK λigi(¯x) =0.

Condition de complémentarité

Commentons la conditionλigi(¯x) =0(appelée condition de complémentarité).

On se place dans le cas m =1. Soit la contrainte est active (g1(¯x) =0) : on se trouve sur le bord de l’ensemble des contraintes et on retrouve le théorème des multiplicateurs de Lagrange (avec λ1 pouvant être non nul). Soit la contrainte n’est pas active (g1(¯x)<0) : on se trouve dans l’intérieur de l’ensemble des contraintes

(22)

Un premier Exemple

Un consommateur a un revenuI. Soitx ety l’investissement dans deux produits de prix respectifpetq. On a donc :px+qy6I. Le confort de la consommation est caractérisée par la fonction d’utilité quasi-linéaire suivante :

f(x,y) =y+aln(x), aveca>0.

On veut donc minimiser−f sur l’ensemble : K=

(x,y)∈R², x>0,y >0,px+qy6I .

; Les contraintes sont affines donc qualifiées en tout point deK

; On ag1(x,y) =−y etg2(x,y) =px+qy−I (x>0 donc la contrainte n’est jamais saturée et il n’y a pas de multiplicateur associé à cette contrainte).

; Soit(¯x,y¯)un minimum local. D’après le théorème de Kuhn et Tucker, il existe λ1, λ2>0 tels que









 −a/x

−1

+λ1

0

−1

+λ2

p q

=0 (∇f(¯x)+Pm

i=1λ_i∇g_i(¯x)=0)

λ2(px+qy−I) =0

λ1y =0 (λ_ig_i(¯x)=0)

(23)

Un premier Exemple

Un consommateur a un revenuI. Soitx ety l’investissement dans deux produits de prix respectifpetq. On a donc :px+qy6I. Le confort de la consommation est caractérisée par la fonction d’utilité quasi-linéaire suivante :

f(x,y) =y+aln(x), aveca>0.

On veut donc minimiser−f sur l’ensemble : K=

(x,y)∈R², x>0,y >0,px+qy6I .

Le système se réécrit :











−a+λ2px=0

−1−λ1+λ2q=0 λ2(px+qy−I) =0 λ1y=0

On a doncλ26=0, doncpx+qy=I.

; Siy =0 alorspx=I,λ2=a/I et 1+λ1=aq/I.

La conditionλ1>0 impliqueaq>I.

; Siy >0 alorsλ1=0 etλ2=1/q. On a donc px =aqpuisqy=I−aq>0.

(24)

Réciproque du théorème de Kuhn-Tucker

Réciproque du théorème de Kuhn et Tucker

Soientf,g1,· · ·,gmde classeC¹(Rⁿ)etconvexes. S’il existex¯etλ1, . . . , λm>0 vérifiant les conditions de Kuhn et Tucker (en bleudans l’énoncé du th. de KT), alors x¯est un minimum (global) def surK.

Preuve :soitx∈K. Par convexité def, on a : f(x) >

convexitéf(¯x) + (∇f(¯x),x−x) =¯

KTf(¯x)−

m

X

i=1

λi(∇g_i(¯x),x−x)¯

>

indices actifs

f(¯x)−

m

X

i∈I(¯x)

λi(∇gi(¯x),x−x)¯

Or pour touti∈I(¯x), par convexité degi etx∈K : 0>gi(x) =gi(x)−gi(¯x)

| {z }

=0

>(∇gi(¯x),x−x).¯

Commeλi>0, on en déduit :f(x)>f(¯x).

(25)

Réciproque du théorème de Kuhn-Tucker

Réciproque du théorème de Kuhn et Tucker

Soientf,g1,· · ·,gmde classeC¹(Rⁿ)etconvexes. S’il existex¯etλ1, . . . , λm>0 vérifiant les conditions de Kuhn et Tucker (en bleudans l’énoncé du th. de KT), alors x¯est un minimum (global) def surK.

Preuve :soitx∈K. Par convexité def, on a : f(x) >

convexitéf(¯x) + (∇f(¯x),x−x) =¯

KTf(¯x)−

m

X

i=1

λi(∇g_i(¯x),x−x)¯

>

indices actifs

f(¯x)−

m

X

i∈I(¯x)

λi(∇gi(¯x),x−x)¯

Or pour touti∈I(¯x), par convexité degi etx∈K : 0>gi(x) =gi(x)−gi(¯x)

| {z }

=0

>(∇gi(¯x),x−x).¯

(26)

Un 2

^ème

exemple

Une ferme possède 300 unités de main d’oeuvre et 450 parcelles de terres. Elle produit du blé et du bœuf.

La production d’une unité de blé nécessite 2 unités de main d’œuvre et 1 parcelle de terre. La production d’une unité de bœuf nécessite 1 unité de main d’œuvre et 2 parcelles de terre.

On souhaite maximiser la fonction de bénéfice suivante :

f(x,y) =αlnx+βlny, avecα, β >0, α+β=1

oùxest la production de blé etyest la production de bœufs. On minimise donc−f sur l’ensemble des contraintes :

K=

(x,y)∈(R^∗+)²,2x+y6300, x+2y6450 .

Remarque sur l’existence.

Il n’est pas agréable de travailler avec l’ensembleKqui n’est pas fermé (en raison de la présence des contraintesx,y>0. Néanmoins, l’existence de solutions se démontre en considérant une suite minimisante et en remarquant que la solution ne peut pas être atteinte par une suite convergeant vers un point deR²dont une coordonnée est nulle (sinon, le critère vaut−∞). En reproduisant l’argument continuité sur un compact.

L’unicité s’obtient de façon standard (stricte convexité sur un convexe. . .).

(27)

Un 2

^ème

exemple (suite)

Récapitulons. On résout : inf

(x,y)∈K−f(x,y) , où

f(x,y) =αlnx+βlny K=

(x,y)∈(R^∗+)², 2x+y 6300, x+2y 6450

; Toutes les contraintes sont affines doncles contraintes sont qualifiées en tout point deK.

; Si(x,y)∈K est un minimum local, alors d’après le théorème de Kuhn-Tucker, il existeλ1, λ2>0 tel que :











"

−^α_x

−^β_y

# +λ1

"

2 1

# +λ2

"

1 2

#

=0 λ1(2x+y−300) =0 λ2(x+2y−450) =0

⇔











α= (2λ1+λ2)x β= (λ1+2λ2)y λ1(2x+y−300) =0 λ2(x+2y−450) =0

(28)

Un 2

^ème

exemple (suite)

(x,y)∈(R^∗+)², 2x+y 6300, x+2y 6450 Discutons :

Siλ1=0 etλ2=0, alorsx= +∞ety= +∞: c’est impossible.

Siλ1=0 etλ2>0, alors







α=λ2x β=2λ2y x+2y=450

⇔







α=λ2x β=2λ2y α+β=450λ2

⇔







x=450α y=225β λ2=1/450 On vérifie que les contraintes sont satisfaites :λ2>0 et

2x+y6300⇒900α+225β6300⇒6006675β⇒8/96β.

(29)

Un 2

^ème

exemple (suite)

(x,y)∈(R^∗+)², 2x+y 6300, x+2y 6450

Siλ1>0 etλ2=0, alors







α=2λ1x β=λ1y 2x+y=300

⇔







α=2λ1x β=λ1y α+β=300λ1

⇔







x=150α y=300β λ1=1/300 On vérifie que les contraintes sont satisfaites :λ1>0 et

x+2y6450⇒150α+600β6450⇒450β6300⇒β62/3.

Siλ1>0 etλ2>0, alors







α= (2λ1+λ2)x β= (λ1+2λ2)y 2x+y=300 ⇔







α= (2λ1+λ2)x β= (λ1+2λ2)y

x=50 ⇔







λ1= (8−9β)/600 λ2= (3β−2)/300 x=50

(30)

Un 2

^ème

exemple (suite)

(x,y)∈(R^∗+)², 2x+y 6300, x+2y 6450 Conclusion

La fonction−f étant convexe ainsi que les fonctionsgi, la réciproque du théorème de Kuhn-Tucker s’applique. On en déduit que le point(x,y)déterminé

précédemment est un minimum (global) de−f.

Quandβest faible (inférieur à 2/3), les unités de mains d’œuvre sont toutes employées : la contrainte sur la main d’oeuvre est saturée et le multiplicateur de Lagrange (λ2=0) sur la contrainte en parcelles de terre est nulle. Il n’est donc pas utile d’augmenter le nombre de parcelles de terre (car la variation du coût vaut−λ2

au premier ordre).