4.3.1 Une nouvelle d´efinition du Lagrangien augment´e
Le §4.1.2 a donn´e une justification g´eom´etrique de la formule (4.2) au moins dans le cas des contraintes ´egalit´e. Cette justification g´eom´etrique est illustr´ee par la Figure 4.1. L’Exercice 4.2 a sugg´er´e une fac¸on de trouver la bonne formule pour le cas des contraintes in´egalit´e.
Nous allons aborder ici le probl`eme sous un angle totalement diff´erent, approche ´evoqu´ee apr`es la formule (4.3). ´Evidemment, cette nouvelle approche ne fonctionne que dans le cas convexe, mais on a d´ej`a dit que mˆeme dans ce cas un probl`eme de “stabilit´e en u” du Lagrangien ordinaire peut se poser, probl`eme automatiquement r´egl´e par le Lagrangien augment´e.
Essayons donc de calculer la r´egularis´ee de Yosida-Moreau de la fonction dualeψ d´efinie par (2.4). Il faut bien sˆur dans ce cas adapter la d´efinition de la r´egularis´ee au cas concave.
Avant d’entreprendre ce calcul, on doit souligner queψ d´efinie par (2.4) doit ˆetre maximis´ee sur C∗ dans le cas de contraintes in´egalit´e : il faut donc consid´erer, selon les Remarques 4.9 et 4.22 (voir en particulier (4.6)) la r´egularis´ee de la fonction
ψ(p) = ψ(p) − IC∗(p) = min u∈UadL(u, p) si p ∈ C∗, −∞ sinon. (4.14) Alors ψc(p) = max q∈C∗ ψ(q) − 1 2c k p − qk2 = max q∈C∗ min u∈UadL(u, q) − 1 2c k p − qk2
d’apr`es (4.14) = min u∈Uad J(u) + max q∈C∗ hq, 2(u)i − 1 2c k p − qk2
en utilisant l’expression de L et la possibilit´e de faire commuter les min et max dans le cas convexe-concave.
La formule (4.3) se trouve donc justifi´ee si on adopte la d´efinition suivante du Lagrangien augment´e :
Lc(u, p) = J(u) + ζc p, 2(u) , (4.15a) avec ζc(p, θ) = max q∈C∗ hq, θi − 1 2c k p − qk2 . (4.15b)
On peut facilement, au moins dans le cas des contraintes ´egalit´e o`u C∗ = C∗, v´erifier que l’on retrouve bien l’expression (4.2). Le lemme ci-dessous fournit d’autres expressions de la fonctionζcintroduite par (4.15b), de ses d´eriv´ees, et ´enonce certaines de ses propri´et´es.
Lemme 4.25.
1. La fonctionζcintroduite par (4.15b) peut aussi ˆetre d´efinie par
ζc(p, θ) = min ξ∈−C h p, θ − ξi + c 2kθ − ξk2 (4.15c) = 1 2c projC∗(p + cθ) 2 − k pk2 . (4.15d)
2. Elle est diff´erentiable et
(ζc)0
p(p, θ) = 1
c projC∗(p + cθ) − p , (4.15e) (ζc)0
θ(p, θ) = projC∗(p + cθ) . (4.15f)
3. Elle est concave en p et convexe enθ.
4. Elle est C-non d´ecroissante enθ.
D´emonstration. On pourra aussi consulter le corrig´e de l’Exercice 4.2 qui donne d’autres indications sur
la d´emonstration ci-dessous.
1. Le probl`eme (4.15b) est un probl`eme de maximisation sous la contrainte q ∈ C∗que l’on dualise avec le multiplicateurξ ∈ −C. Plus pr´ecis´ement, on se convainc que (4.15b) est ´equivalent `a
ζc(p, θ) = max q∈C∗ inf ξ∈−C hq, θi − 1 2ck p − qk2− hq , ξ i
par le fait que l’infξ vaut −∞ si q 6∈ C∗. Par dualit´e (le probl`eme de maximisation ´etant concave sous contrainte convexe et “qualifi´ee”), on peut intervertir le max et l’inf dans l’expression ci-dessus qui deviennent respectivement un supq∈C∗ (et mˆeme un maxq∈C∗) et un minξ∈−C. Enfin, le max ´etant celui d’une fonction quadratique sans contrainte se r´esoud explicitement, ce qui conduit finalement `a l’expression alternative (4.15c) deζc.
Par ailleurs, en partant par exemple de l’expression (4.15b), on r´e´ecrit celle-ci sous la forme max
q∈C∗ 1
2c k p + cθk2− k p + cθ − qk2− k pk2, (4.16) d’o`u il r´esulte imm´ediatement que le max est atteint pour q] = projC∗(p + cθ) et que la valeur optimale est ´egale `a (4.15d) en utilisant la d´ecomposition orthogonale de p + cθ sur les cˆones C∗ et −C illustr´ee par la Figure 3.2 (qui montre plutˆot la d´ecomposition analogue sur C et −C∗). 2. La d´eriv´ee partielle en p de l’expression sous le max dans (4.16) est ´egale `a (q − p)/c et cette
quantit´e, ´evalu´ee `a l’unique arg max q] qui a ´et´e calcul´e ci-dessus (l’unicit´e montrant par ailleurs la diff´erentiabilit´e deζc en p), conduit `a (4.15e) (selon un r´esultat souvent utilis´e dans ce cours). On montre de la mˆeme fac¸on la formule (4.15f).
3. La fonction ζc est concave en p comme enveloppe inf´erieure de fonctions affines en p d’apr`es (4.15c). Elle est convexe en θ comme enveloppe sup´erieure de fonctions affines en θ d’apr`es (4.15b).
4. La fonction est C-non d´ecroissante enθ car sa d´eriv´ee en θ appartient `a C∗d’apr`es (4.15f).
Le point 4 du lemme permet de montrer que Lc est convexe-concave en(u, p) (en utilisant notamment le r´esultat de l’Exercice 3.49).
Remarque 4.26. Dans le casC = R (donc C∗= R+), on obtient l’expression suivante deζc: ζc(p, θ) = 1
2c
max(0, p + cθ)2
− p2 . Se reporter `a ce sujet `a la Remarque 4.1.
4.3.2 Propri´et´es du Lagrangien augment´e
Lemme 4.27.
1. Le Lagrangien augment´e Lc admet sur Uad× C∗les mˆemes points selle que L sur Uad× C∗. 2. Le Lagrangien augment´e Lc est “stable en u”.
D´emonstration.
1. Si on d´esigne par U]× P] l’ensemble des points selle de L et par Uc]× Pc] le mˆeme ensemble relatif `a Lc(on a vu que ces ensembles ont bien une forme “produit” — voir Exercice 3.51), alors
P]= arg max
p∈C∗ψ(p) = arg max
p∈C∗ψc(p) d’apr`es le point 3 du Th´eor`eme 4.19 appliqu´e `aψ et ψc,
Par ailleurs, Uc]= arg min u∈Uad max p∈C∗Lc(u, p) = arg min u∈Uad max p∈C∗max q∈C∗ L(u, q) − 1 2ck p − qk2 = arg min u∈Uad max q∈C∗L(u, q)
en prenant d’abord le max en p qui est atteint pour p = q, = U].
2. Soitbu ∈ arg minu∈UadLc(u, p]) avec p] ∈ Pc]. Ceci est ´equivalent `a l’in´egalit´e de droite du point selle de Lc pour le couple (bu, p]). Il s’agit de montrer l’autre in´egalit´e du point selle, ce qui prouvera enfin quebu ∈ U].
Puisque p] ∈ Pc] = arg maxp∈C∗ψc(p) et puisque ψc est diff´erentiable, on a ´evidemment
ψ0
c(p]) = 0. On sait que du fait quebu ∈ arg minu∈UadLc(u, p]), alors ψ0
c(p]) = ∂ Lc
∂p (bu, p]) = 0 . (4.17)
La derni`ere in´egalit´e prouve que la fonction p 7→ Lc(bu, p) est stationnaire, donc maximale car concave, ce qui prouve l’autre in´egalit´e du point selle.
Commentaires 4.28.
1. On voit, dans la derni`ere partie de la d´emonstration, le rˆole fondamental jou´e par la diff´erentiabilit´e deψc. En effet, siψc ´etait seulement sous-diff´erentiable, on pourrait seulement dire que
0 ∈ ∂ψc(p]) et ∂ Lc
∂p (bu, p]) ∈ ∂ψc(p]) , mais cela ne permettrait pas de conclure que
0 = ∂ Lc
∂p (bu, p]) .
Or la diff´erentiabilit´e deψcprovient de l’interpr´etation en terme de r´egularis´ee deψ.
2. On ne peut pas dire que le Lagrangien augment´e r´ealise une “forte convexification” du Lagrangien ordinaire. En effet, si c’´etait le cas, l’arg min en u de Lc(·, p]), not´ebu(p]), devrait ˆetre unique. Or on vient de voir que si le probl`eme original n’a pas de solution unique, mais bien un ensemble U] optimal, alors Lc “ne perd” aucune de ces solutions. Le “miracle” de la diff´erentiabilit´e deψc ne vient pas de l’unicit´e debu(p]) mais de celle de l’expression
∂ Lc ∂p (bu(p]), p]) = 1 c projC∗ p]+ c2 bu(p])− p]