Retour sur les Lagrangiens augment´es - Optimisation des grands systèmes

4.3.1 Une nouvelle d´efinition du Lagrangien augment´e

Le §4.1.2 a donné une justification géométrique de la formule (4.2) au moins dans le cas des contraintes égalité. Cette justification géométrique est illustrée par la Figure 4.1. L’Exercice 4.2 a suggéré une façon de trouver la bonne formule pour le cas des contraintes inégalité.

Nous allons aborder ici le problème sous un angle totalement différent, approche évoquée après la formule (4.3). Évidemment, cette nouvelle approche ne fonctionne que dans le cas convexe, mais on a déjà dit que même dans ce cas un problème de “stabilité en u” du Lagrangien ordinaire peut se poser, problème automatiquement réglé par le Lagrangien augmenté.

Essayons donc de calculer la régularisée de Yosida-Moreau de la fonction dualeψ définie par (2.4). Il faut bien sûr dans ce cas adapter la définition de la régularisée au cas concave.

Avant d’entreprendre ce calcul, on doit souligner queψ définie par (2.4) doit être maximisée sur C∗ dans le cas de contraintes inégalité : il faut donc considérer, selon les Remarques 4.9 et 4.22 (voir en particulier (4.6)) la régularisée de la fonction

ψ(p) = ψ(p) − IC∗(p) =    min u∈UadL(u, p) si p ∈ C∗, −∞ sinon. (4.14) Alors ψc(p) = max q∈C∗ ψ(q) − ¹ 2c k p − qk² = max q∈C∗ min u∈UadL(u, q) − ¹ 2c k p − qk²

d’apr`es (4.14) = min u∈Uad J(u) + max q∈C∗ hq, 2(u)i − ¹ 2c k p − qk²

en utilisant l’expression de L et la possibilit´e de faire commuter les min et max dans le cas convexe-concave.

La formule (4.3) se trouve donc justifiée si on adopte la définition suivante du Lagrangien augmenté :

Lc(u, p) = J(u) + ζc p, 2(u) , (4.15a) avec ζc(p, θ) = max q∈C∗ hq, θi − ¹ 2c k p − qk² . (4.15b)

On peut facilement, au moins dans le cas des contraintes égalité où C∗ = C∗, vérifier que l’on retrouve bien l’expression (4.2). Le lemme ci-dessous fournit d’autres expressions de la fonctionζcintroduite par (4.15b), de ses dérivées, et énonce certaines de ses propriétés.

Lemme 4.25.

1. La fonctionζcintroduite par (4.15b) peut aussi ˆetre d´efinie par

ζc(p, θ) = min ξ∈−C h p, θ − ξi + ^c 2kθ − ξk2 (4.15c) = ¹ 2c proj_C∗(p + cθ) 2 − k pk² . (4.15d)

2. Elle est diff´erentiable et

(ζc)0

p(p, θ) = ¹

c ^proj^C^∗(p + cθ) − p , (4.15e) (ζc)0

θ(p, θ) = projC∗(p + cθ) . (4.15f)

3. Elle est concave en p et convexe enθ.

4. Elle est C-non d´ecroissante enθ.

D´emonstration. On pourra aussi consulter le corrig´e de l’Exercice 4.2 qui donne d’autres indications sur

la d´emonstration ci-dessous.

1. Le problème (4.15b) est un problème de maximisation sous la contrainte q ∈ C∗que l’on dualise avec le multiplicateurξ ∈ −C. Plus précisément, on se convainc que (4.15b) est équivalent à

ζc(p, θ) = max q∈C∗ inf ξ∈−C hq, θi − ¹ 2ck p − qk²− hq , ξ i

par le fait que l’inf_ξ vaut −∞ si q 6∈ C∗. Par dualité (le problème de maximisation étant concave sous contrainte convexe et “qualifiée”), on peut intervertir le max et l’inf dans l’expression ci-dessus qui deviennent respectivement un sup_q∈C∗ (et même un max_q∈C∗) et un min_ξ∈−C. Enfin, le max étant celui d’une fonction quadratique sans contrainte se résoud explicitement, ce qui conduit finalement à l’expression alternative (4.15c) deζc.

Par ailleurs, en partant par exemple de l’expression (4.15b), on r´e´ecrit celle-ci sous la forme max

q∈C∗ 1

2c k p + cθk²− k p + cθ − qk²− k pk², (4.16) d’où il résulte immédiatement que le max est atteint pour q^] = projC∗(p + cθ) et que la valeur optimale est égale à (4.15d) en utilisant la décomposition orthogonale de p + cθ sur les cônes C∗ et −C illustrée par la Figure 3.2 (qui montre plutôt la décomposition analogue sur C et −C^∗). 2. La dérivée partielle en p de l’expression sous le max dans (4.16) est égale à (q − p)/c et cette

quantité, évaluée à l’unique arg max q^] qui a été calculé ci-dessus (l’unicité montrant par ailleurs la différentiabilité deζc en p), conduit à (4.15e) (selon un résultat souvent utilisé dans ce cours). On montre de la même façon la formule (4.15f).

3. La fonction ζc est concave en p comme enveloppe inférieure de fonctions affines en p d’après (4.15c). Elle est convexe en θ comme enveloppe supérieure de fonctions affines en θ d’après (4.15b).

4. La fonction est C-non décroissante enθ car sa dérivée en θ appartient à C∗d’après (4.15f).

Le point 4 du lemme permet de montrer que Lc est convexe-concave en(u, p) (en utilisant notamment le r´esultat de l’Exercice 3.49).

Remarque 4.26. Dans le casC = R (donc C∗= R⁺), on obtient l’expression suivante deζc: ζc(p, θ) = ¹

max(0, p + cθ)2

− p² . Se reporter `a ce sujet `a la Remarque 4.1.

4.3.2 Propriétés du Lagrangien augmenté

Lemme 4.27.

1. Le Lagrangien augmenté Lc admet sur Uâd× C∗les mêmes points selle que L sur Uâd× C∗. 2. Le Lagrangien augmenté Lc est “stable en u”.

D´emonstration.

1. Si on désigne par U^]× P^]^{l’ensemble des points selle de L et par U}c^]× Pc^] le même ensemble relatif à Lc(on a vu que ces ensembles ont bien une forme “produit” — voir Exercice 3.51), alors

P^]= arg max

p∈C∗ψ(p) = arg max

p∈C∗ψc(p) d’après le point 3 du Théorème 4.19 appliqué àψ et ψc,

Par ailleurs, U_c^]= arg min u∈Uad max p∈C∗Lc(u, p) = arg min u∈Uad max p∈C∗max q∈C∗ L(u, q) − ¹ 2ck p − qk² = arg min u∈Uad max q∈C∗L(u, q)

en prenant d’abord le max en p qui est atteint pour p = q, = U^].

2. Soit_bu ∈ arg min_u∈UadLc(u, p]) avec p] ∈ Pc^]. Ceci est équivalent à l’inégalité de droite du point selle de Lc pour le couple (bu, p]). Il s’agit de montrer l’autre inégalité du point selle, ce qui prouvera enfin que_bu ∈ U^].

Puisque p^] ∈ Pc^] = arg maxp∈C∗ψc(p) et puisque ψc est diff´erentiable, on a ´evidemment

ψ0

c(p]) = 0. On sait que du fait quebu ∈ arg min_u∈UadLc(u, p]), alors ψ0

c(p]) = ^{∂ L}c

∂p ^(b^u^{, p}^]^{) = 0 .} ^(4.17)

La dernière inégalité prouve que la fonction p 7→ Lc(bu, p) est stationnaire, donc maximale car concave, ce qui prouve l’autre inégalité du point selle.

Commentaires 4.28.

1. On voit, dans la dernière partie de la démonstration, le rôle fondamental joué par la différentiabilité deψc. En effet, siψc était seulement sous-différentiable, on pourrait seulement dire que

0 ∈ ∂ψc(p]) et ^{∂ L}c

∂p ^(b^u^{, p}^]^{) ∈ ∂ψ}c(p]) , mais cela ne permettrait pas de conclure que

0 = ∂ Lc

∂p ^(b^u^{, p}^]^{) .}

Or la différentiabilité deψcprovient de l’interprétation en terme de régularisée deψ.

2. On ne peut pas dire que le Lagrangien augmenté réalise une “forte convexification” du Lagrangien ordinaire. En effet, si c’était le cas, l’arg min en u de Lc(·, p]), notébu(p]), devrait être unique. Or on vient de voir que si le problème original n’a pas de solution unique, mais bien un ensemble U^] optimal, alors Lc “ne perd” aucune de ces solutions. Le “miracle” de la différentiabilité deψc ne vient pas de l’unicité de_bu(p]) mais de celle de l’expression

∂ Lc ∂p ^(b^u^(p^]^{), p}^]^{) =} 1 c proj_C∗ p^]+ c2 bu(p])− p^]

Dans le document Optimisation des grands systèmes (Page 106-110)