Revenons `a l’Exemple 7.1 pour comprendre l’int´erˆet fondamental de ce r´esultat. On a vu que, dans la situation d´ecrite par cet exemple, non seulement la fonctionψ que l’on peut chercher `a maximiser en λ ∈
Cest le plus souvent non diff´erentiable `a l’optimum, mais en plus, mˆeme si l’on parvient `a construire
une suite {λk} convergeant vers un λ" optimal, il est peu probable qu’une suite correspondante{uk}, avec uk ∈ arg minu∈Uad L(u, λk), converge vers une solution primale u". L’utilisation du Lagrangien
augment´e dans ces circonstances a de nombreux avantages.
• La fonction ψb qui remplace alors la fonctionψ est diff´erentiable (et qui plus est, de gradient
Lipschitzien), ce qui est ´evidemment pr´ef´erable du point de vue num´erique.
• Elle doit ˆetre maximiser sur tout l’espace plutˆot que sur le cˆone positif dual uniquement. Ceci est
un autre avantage : les algorithmes dits de “gradient conjugu´e” ne s’accomodent pas de la pr´esence de contraintes in´egalit´e (la projection, non lin´eaire, sur ces contraintes d´etruit la g´eom´etrie que ces m´ethodes cherchent `a reconstruire).
• Grˆace `a la “stabilit´e en u”, on peut d´esormais s’attendre `a ce que si la suite {λk} converge vers
λ" ∈ &", alors la suite desu(λk) converge vers un point dans U", ce qui n’´etait pas le cas en
l’absence de stabilit´e en u du Lagrangien ordinaire. C’est ce que montrent les ´etudes de conver-gence d’algorithmes avec Lagrangien augment´e [7].
• Un autre avantage tient au “conditionnement” de la fonction duale ψb. Cette notion n’a pas ´et´e abord´ee dans ce cours parce que nous n’avons pas parl´e d’algorithmes num´eriques, mais on peut montrer que la facilit´e de convergence d’algorithmes de type gradient est li´ee `a cette no-tion de condino-tionnement, et que par ailleurs ce condino-tionnement est am´elior´e par l’op´erano-tion de r´egularisation [7]. Une convergence plus rapide de la suite “maximisante”{λk} peut donc ˆetre esp´er´ee lorsque cette suite est construite `a partir du Lagrangien augment´e plut ˆot qu’`a partir du Lagrangien ordinaire. C’est ce que confirme toute l’exp´erience num´erique accumul´ee `a ce jour avec cette m´ethode sur des probl`emes tr`es vari´es, et c’est ce qui doit inciter `a utiliser cette tech-nique mˆeme lorsque le Lagrangien ordinaire est stable en u et qu’il fournit d´ej`a une fonctionψ
diff´erentiable (cas o `u J est strictement, voire fortement, convexe par exemple).
4Il est inutile de mettre un indice b aux ensembles U"et&"puisqu’on sait qu’ils sont ´egaux aux ensembles analogues pour
On peut mˆeme dire que plus la constante b est choisie grande, meilleur est le conditionnement de la fonctionψb et meilleure est donc en principe la convergence des variables duales. Cependant, dans cette mati`ere, il existe un compromis (que montre une ´etude soign´ee de convergence [7]) car si b est choisi trop grand, c’est le conditionnement du probl`eme primal minu∈Uad L(u, λ) qui se
d´egrade et donc sa difficult´e de r´esolution qui augmente.
• Enfin, dans le cas non convexe, l’int´erˆet de l’utilisation du Lagrangien augment´e est encore plus
flagrant, comme le sugg`ere la discussion du d´ebut de ce chapitre. En effet, dans ce cas, c’est l’existence mˆeme du point selle qui est en cause, et on a vu comment on peut esp ´erer r´ecup´erer un saut de dualit´e grˆace `a cette technique (au moins “localement”). Pour les cas non convexes, on peut consulter [4, 5].
Exercice 7.17. Reprendre l’Exemple 7.1. Utiliser la technique du Lagrangien augment´e. ´Etudier la fonctionψb et v´erifier qu’elle est bien la r´egularis´ee de la fonctionψ calcul´ee `a l’Exercice 7.3. V´erifier
sa diff´erentiabilit´e. Calculer l’arg minu∈Uad Lb(u, λ) et comparer au cas du Lagrangien ordinaire.
7.4 R´esumons nous
Par une intuition g´eom´etrique de ce qu’est le saut de dualit´e dans le cas non convexe, on comprend que l’utilisation de parabolo¨ıdes concaves `a la place d’hyperplans pour “ausculter” l’´epigraphe de la fonction “perturbation” peut pr´esenter un grand int´erˆet. Mais mˆeme dans le cas limite de probl`emes convexes mais pas strictement ou fortement convexes, on r´ealise qu’il y a un certain nombre de difficult´es (non diff´erentiabilit´e de la fonction duale, non “stabilit´e” du Lagrangien par rapport aux variables primales) `a manipuler ce Lagrangien dans ce cas, et on pressent, g´eom´etriquement, que le Lagrangien augment´e doit permettre de pallier ces difficult´es. Dans le cas convexe, cette construction intuitive du Lagrangien augment´e rejoint, de fac¸on remarquable, une construction tr`es classique de l’analyse convexe, `a savoir la “r´egularisation de Yosida-Moreau”. En l’occurence, cette r´egularisation porte sur la fonction duale qui r´ecup`ere alors sa diff´erentiabilit´e (avec une d´eriv´ee Lipschitzienne), mais aussi, et pour la mˆeme raison, on r´ecup`ere la stabilit´e du Lagrangien augment´e. Ces avantages sont d´ej`a d´ecisifs sur le plan d’une r´esolution num´erique du probl`eme d’optimisation sous contraintes, mais de plus, la r´egularisation signifie aussi “meilleure conditionnement” de la fonction duale, et donc meilleure convergence des algorithmes du cˆot´e dual. Enfin, dans le cas non convexe, l’utilisation des Lagrangiens augment´e est encore plus vitale dans le cas d’un “saut de dualit´e”.
Bibliographie
[1] J.-P. Aubin, Applied Abstract Analysis, Wiley-Interscience, New-York, 1977.
[2] V. Barbu, Th. Precupanu, Convexity and optimization in Banach spaces. D. Reidel Publishing Com-pany, Bucarest, 1986.
[3] D.P. Bertsekas, Necessary and sufficient conditions for a penalty method to be exact. Mathematical
Programming, Vol. 9, pp. 87–99, 1975.
[4] D.P. Bertsekas, Constrained optimization and Lagrange multiplier methods, Academic Press, New York, 1982.
[5] D.P. Bertsekas, Nonlinear Programming. Athena Scientific, Belmont, USA, 2nd Ed., 1999. [6] H. Br´ezis, Op´erateurs maximaux monotones et semi-groupes de contractions dans les espaces de
Hilbert. North-Holland/American Elsevier, Amsterdam/New York, 1973.
[7] G. Cohen, Optimisation de grands syst`emes. Cours de DEA MMME, Universit´e de Paris-I, 1999. [8] I. Ekeland, R. Temam, Convex analysis and variational problems, North-Holland/American
Else-vier, Amsterdam/New York,1976.
[9] J.-B. Hiriart-Urruty, C. Lemar´echal, Convex Analysis and Minimization Algorithms, Tomes I et II, Springer-Verlag, Berlin, 1993.
[10] A. Kolmogorov, S. Fomine, ´El´ements de la th´eorie des fonctions et de l’analyse fonctionnelle,
´
Editions Mir, Moscou, 1974.
[11] P.-J. Laurent, Approximation et optimisation, Hermann, Paris, 1972.
[12] H. Moulin, F. Fogelman-Souli´e, La convexit´e dans les Math´ematiques de la d´ecision, Hermann, Paris, 1979.
[13] R.T. Rockafellar, Convex Analysis, Princeton University Press, Princeton, 1970.