• Aucun résultat trouvé

Pierre Weiss Elémentsd’analyseetd’optimisationconvexe. Dernièremiseàjour:2015

N/A
N/A
Protected

Academic year: 2022

Partager "Pierre Weiss Elémentsd’analyseetd’optimisationconvexe. Dernièremiseàjour:2015"

Copied!
61
0
0

Texte intégral

(1)

Eléments d’analyse et d’optimisation convexe.

Pierre Weiss

(2)
(3)

1 Introduction 5

2 Eléments d’analyse convexe 7

2.1 Définitions et propriétés géométriques élémentaires . . . 7

2.2 Opérations sur les fonctions convexes . . . 14

2.3 Continuité et différentiabilité . . . 15

2.4 Théorèmes de séparation . . . 17

2.5 Sous-différentiel . . . 20

2.6 Règles de calcul sous-différentiel . . . 22

2.7 Conjuguée convexe . . . 25

2.8 Opérateurs proximaux . . . 28

2.9 Eléments d’analyse pour l’algorithmie . . . 29

2.9.1 Fonctions à gradient Lipschitz . . . 30

2.9.2 Fonctions fortement convexes . . . 31

2.9.3 Conditionnement d’une fonction . . . 33

3 Théorie de la complexité 35 3.1 Formalisation du problème . . . 35

3.2 Un exemple en optimisation non convexe . . . 36

3.3 Complexité en optimisation convexe différentiable . . . 38

3.4 Complexité en optimisation fortement convexe différentiable . . . 41

3.5 Complexité en optimisation convexe non différentiable . . . 42

4 Méthodes d’optimisation convexe de premier ordre 45 4.1 Méthodes optimales en optimisation convexe différentiable . . . 45

4.1.1 Cas convexe différentiable . . . 45

4.1.2 Cas fortement convexe différentiable . . . 49

4.2 Méthodes optimales en optimisation convexe non différentiable . . . 52

4.3 Les descentes de gradient proximales . . . 54

4.3.1 Descente de gradient proximale . . . 55

4.3.2 Descentes de gradient proximales accélérées . . . 56

4.3.3 Exemples d’application . . . 58

4.4 Dualité pour les problèmes fortement convexes . . . 58

3

(4)
(5)

Introduction

Dans ce cours, nous nous intéressons essentiellement à la classe des fonctions convexes.

Celles-ci apparaissent abondamment dans l’ingénierie et permettent de modéliser de nom- breux phénomènes non linéaires (équations de la physique, traitement du signal, théorie des jeux et de l’économie, statistiques...). Elles ont des propriétés remarquables qui per- mettent d’analyser plus facilement leurs propriétés et aussi de les minimiser efficacement.

De nombreux problèmes non convexes irrésolvables peuvent être approchés par des pro- blèmes convexes qui eux sont presque systématiquement minimisés en des temps rapides.

Pour conclure ce cours, nous indiquons quelques références utiles pour aller plus loin. Les livres [3, 7] sont de très bonnes références pour découvrir les nombreux détails de l’analyse convexe en dimension finie. La référence [1] propose est une très bonne introduction à l’analyse convexe dans des espaces de Hilbert. Enfin, indiquons une référence dans les espaces de Banach [8]. Notons que cette référence apporte des informations intéressante même pour des questions d’analyse numérique en dimension finie. Au niveau algorithmique, ce cours est essentiellement inspiré des références [6, 5].

Note importante :ces notes ont été rédigées rapidement sans relecture approfondie.

Tous les commentaires sont donc les bienvenus. De plus, la partie finale du cours (points intérieurs et algorithme du simplexe) n’apparait pas encore ici par manque de temps.

5

(6)
(7)

Eléments d’analyse convexe

Dans ce chapitre, nous présentons quelques propriétés remarquables des fonctions convexes.

Elle permettront de construire des algorithmes de minimisation dans la suite du cours.

Dans toutes ces notes, on se place sur l’espace vectoriel Rn, n ∈ N. On le munit d’un produit scalaire h·,·i. La norme associée au produit scalaire est notéek · k2. Elle est définie pour tout x∈Rn par kxk2 =qhx, xi.

2.1 Définitions et propriétés géométriques élémentaires

Une différence importante par rapport aux chapitres précédents est qu’on autorise ici les fonctions à valoir +∞(mais pas−∞). Ainsi les fonctions considérées dans ce chapitres seront de la forme :

f :Rn →R∪ {+∞}.

Autoriser les fonctions à valoir +∞ présente l’intérêt de pouvoir représenter les pro- blèmes contraints sous une forme non contrainte. On a en effet :

x∈infRn

f(x) = inf

x∈dom(f)f(x) où dom(f) est défini de la façon suivante :

Définition 2.1 (Domaine d’une fonction) Le domaine d’une fonctionf est notédom(f).

Il est défini par

dom(f) = {x∈Rn, f(x)<+∞}.

Dans toute la suite de ce cours, on supposera (sans le préciser) que nos fonctions n’ont pas un domaine vide : dom(f)6=∅.

Définition 2.2 (Ensemble convexe) Soit X ⊆ Rn un ensemble. Ce dernier est dit convexe si :

∀(x1, x2)∈X×X, ∀α∈[0,1], αx1+ (1−α)x2X.

7

(8)

8 2.1. Définitions et propriétés géométriques élémentaires

Figure 2.1 – En haut : quelques exemples d’ensembles convexes en 2 dimensions. En bas : quelques exemples d’ensembles non convexes (notez qu’il existe des segments dont les extrémités appartiennent à l’ensemble, qui ne sont pas entièrement contenus dans les ensembles).

La définition de la convexité reste identique pour les fonctions à valeur dansR∪ {+∞}.

Définition 2.3 (Fonction convexe) Soit f :Rn→R∪ {+∞}. f est dite convexe si :

∀(x, y)∈dom(f)×dom(f), ∀λ∈[0,1], f((1−λ)x+λy)≤(1−λ)f(x) +λf(y).

Cette définition est illustrée sur la figure 2.1. Elle implique que le domaine d’une fonction convexe est convexe (exercice).

Figure 2.2 – Un exemple de fonction convexe. Un segment tracé entre deux points de son graphe reste au dessus du graphe. Notez qu’une fonction convexe peut ne pas être dérivable. On peut cependant montrer qu’elle est dérivable presque partout.

(9)

Définition 2.4 (Combinaison convexe) Soient x1, .., xm, m éléments de Rn. On dit que x est combinaison convexe de ces points s’il existe1, ..., αm) tels que :

∀i∈ {1, ..., m}, αi ∈R+,

Pmi=1αi = 1,

x=Pmi=1αixi.

Définition 2.5 (Enveloppe convexe) Soit X ⊆Rn un ensemble. On appelle en- veloppe convexe de X et on note conv(X) l’ensemble convexe le plus petit contenant X. En dimension finie, c’est aussi l’ensemble des combinaisons convexes d’éléments de X :

conv(X) = {x∈Rn pouvant s’écrire x=

p

X

i=1

αixi xiX, p∈N et

p

X

i=1

αi = 1, αi ≥0}.

Figure2.3 – Exemples d’enveloppes convexes. A gauche : enveloppe convexe d’un ensemble discret. A droite : enveloppe convexe d’un ensemble continu.

La définition de la convexité permet d’obtenir un lemme souvent utile (notamment en probabilités) :

Lemme 2.1 (Inégalité de Jensen) Soit f :Rn→R∪ {+∞} une fonction Soient x1, x2, ..., xm, m points appartenant à dom(f) et α1, ..., αm des coefficients réels po- sitifs tels que Pmi=1αi = 1. Alors

f

m

X

i=1

αixi

!

m

X

i=1

αif(xi)

Preuve. Par récurrence, on vérifie d’abord que pour m = 2, l’inégalité n’est rien d’autre que la définition de la convexité. Puis on suppose le résultat vrai au rang k et on le montre

au rang k+ 1 en réutilisant l’inégalité de convexité.

(10)

10 2.1. Définitions et propriétés géométriques élémentaires

Corollaire 2.1 Soitx∈Rnune combinaison convexe dex1, ..., xm alorsf(x)≤ max

i∈{1,...,m}f(xk) Preuve.

f(x)≤

m

X

i=1

αkf(xk)≤ max

i∈{1,...,m}f(xk).

Théorème 2.1 Un fonctionf est convexe si et seulement si, pour tout (x, y)∈(dom(f))2 et β ≥0 tels que y+β(yx)dom(f), f satisfait :

f(y+β(yx))f(y) +β(f(y)−f(x)).

Preuve. Soit f une fonction convexe. Notons α = 1+ββ etu=y+β(yx). Alors y = 1

1 +β(u+βx) = (1α)u+αx.

Donc

f(y)≤(1−α)f(u) +αf(x) = 1

1 +βf(u) + β

1 +βf(x).

Réciproquement, supposons que la relation f(y+β(yx))f(y) +β(f(y)f(x)) soit vraie. Soient (x, y)∈dom(f)2 etα∈]0,1]. On note β= 1−αα etu=αx+ (1−α)y. Alors

x= 1

α(u−(1−α)y) =u+β(uy).

On a donc

f(x)f(u) +β(f(u)−f(y)) = 1

αf(u)− 1−α α f(y).

Théorème 2.2 f est convexe si et seulement si son épigraphe epi(f) ={(x, t)∈dom(f)×R, tf(x)}

est convexe.

Preuve. Si (x1, t1)∈epi(f) et (x2, t2)∈epi(f) alors pour tout α∈[0,1] on a αt1 + (1−α)t2αf(x1) + (1−α)f(x2)≥f(αx1+ (1−α)x2).

Ainsi, (αx1+ (1−α)x2, αt1+ (1−α)t2)∈epi(f).

Réciproquement, si epi(f) est convexe, alors pour x1, x2 dans dom(f), on a (x1, f(x1))∈epi(f), (x2, f(x2))∈epi(f).

(11)

Figure 2.4 – L’épigraphe de la fonction est la zone grisée au-dessus du graphe de la fonction (en noir).

Ainsi, (αx1+ (1−α)x2, αt1+ (1−α)t2)∈epi(f), soit encore f(αx1+ (1−α)x2)≤αf(x1) + (1−α)f(x2).

Théorème 2.3 Si f est convexe alors ses ensembles de niveaux Lf(β) ={x∈dom(f), f(x)≤β}

sont soit vides, soit convexes.

Preuve. six1 et x2 appartiennent à Lf(β), alors ∀α∈[0,1],

f(αx1+ (1−α)x2)≤αf(x1) + (1−α)f(x2)≤αβ+ (1−α)β =β.

Remarque 2.1 La réciproque est fausse ! Une fonction dont les ensembles de niveaux sont convexes n’est pas convexe en général (exemple en 1D : f(x) = q|x|). Une telle fonction est appelée quasi-convexe. Un exemple de fonction quasi-convexe (non convexe) est donné sur la figure 2.1.

Les fonctions convexes différentiables ont plusieurs caractérisations :

(12)

12 2.1. Définitions et propriétés géométriques élémentaires

Figure 2.5 – Un exemple de fonction quasi-convexe. Ses lignes de niveaux sont des seg- ments (donc des ensembles convexes), mais la fonction n’est pas convexe.

Théorème 2.4 (Caractérisation différentielle de la convexité)

Soit f :Rn →R une fonction différentiable. Les propositions suivantes sont équiva- lentes :

(a) f est convexe.

(b) Ses hyperplans tangeants sont des minorants (voir figure 2.1).

∀(x, y)∈Rn×Rn, f(y)f(x) +h∇f(x), y−xi.

(c) Le gradient de f est un opérateur monotone :

∀(x, y)∈Rn×Rn, h∇f(y)− ∇f(x), y−xi ≥0.

Note : un opérateur F :Rn →Rn est dit monotone si

∀(x, y)∈Rn×Rn, hF(y)−F(x), y−xi ≥0.

Cette notion généralise la notion de gradient des fonctions convexes. Elle apparaît abon- damment dans les EDP.

Preuve. Nous nous contentons de la preuve (a)⇔ (b) et laissons l’équivalence (b)⇔ (c) en exercice. On montre d’abord (a)⇒(b).

Soit α∈[0,1] et (x, y)∈Rn×Rn. On a

α→0lim+

f(x+α(yx))f(x)

α =h∇f(x), y−xi par définition de la dérivée directionnelle. Par convexité de f, on a de plus

f(x+α(yx)) =f(αy+ (1−α)x)αf(y) + (1−α)f(x).

Donc f(x+α(yx))f(x)

αf(y)−f(x).

(13)

Figure 2.6 – Hyperplans tangents d’une fonction convexe (1D) et d’une fonction concave (2D). Notez que l’hyperplan tangent est un minorant pour la fonction convexe et un ma- jorant pour la fonction concave.

En passant à la limite quand α→0+, on obtient l’inégalité annoncée.

Montrons maintenant (b)⇒(a). Soient (x, y)∈Rn×Rnetz =αx+ (1−α)y. On peut écrire :

f(x)≥f(z) +h∇f(z), x−zi f(y)f(z) +h∇f(z), y−zi Soit encore :

f(x)f(αx+ (1−α)y) +h∇f(z),(1−α)(xy)i f(y)≥f(αx+ (1−α)y) +h∇f(z), α(y−x)i

En multipliant la première inégalité par α, la seconde par (1α) puis en additionnant les

deux, on obtient l’inégalité de convexité.

Les fonctions C2 convexes peuvent être caractérisées par leur hessienne.

Proposition 2.1 (Caractérisation de second ordre de la convexité)

Soit f : Rn → R une fonction C2. Elle est convexe si et seulement si ∀x ∈ Rn, H[f](x)0 (i.e. la hessienne de f est semi-définie positive en tous points).

De façon générale, une fonction convexe peut être très compliquée sur le bord de son domaine. Par exemple, la fonction 2D

f(x, y) =

( 0 si x2+y2 <1

φ(x, y) si x2+y2 = 1 avecφ(x, y)≥0 (2.1) est convexe. Cependant, son comportement sur le bord peut être arbitrairerement com- plexe. Minimiser de telles fonctions est en général impossible. Cette remarque nous mène à nous restreindre à la classe de fonctions semi-continues inférieurement :

Définition 2.6 Une fonction convexe est dite fermée ou semi-continue inférieurement (s.c.i.) si son épigraphe est une ensemble fermé.

(14)

14 2.2. Opérations sur les fonctions convexes

Exemple 2.1.1 La fonction définie par

f(x) =

( 0 si x∈[0,1[

a ≥0 si x= 1 (2.2)

et illustrée sur la figure 2.1.1 n’est fermée que si a= 0.

Figure 2.7 – Un exemple de fonction convexe dont l’épigraphe est ouvert (voir équation (2.2). Son épigraphe est fermé seulement si a = 0.

Remarque 2.2 On verra plus tard que les fonctions convexes sont continues sur l’intérieur de leur domaine. Toutes les fonctions convexes dont le domaine estRn tout entier sont donc continues.

Théorème 2.5 Les ensembles de niveau des fonctions convexes s.c.i. sont fermés.

Exemple 2.1.2 Donnons quelques exemples de fonctions convexes fermées.

1. Les fonctions f : Rn → R convexes telles que dom(f) = Rn sont fermées. Voir théorème 2.8.

2. Les fonctions linéaires sont convexes et fermées.

3. Les fonctions convexes, différentiables sur Rn sont convexes et fermées.

4. La fonction f(x) = kxk k · k est une norme quelconque est convexe et fermée. En effet, f(αx1+ (1−α)x2) =kαx1+ (1−α)x2k ≤αkx1k+ (1−α)kx2k.

5. La fonction (2.1) n’est convexe et fermée que si φ(x, y) = 0, ∀(x, y)∈R2.

2.2 Opérations sur les fonctions convexes

(15)

Théorème 2.6 Soientf1 etf2 deux fonctions convexes s.c.i. etβ >0. Les fonctions suivantes sont convexes s.c.i. :

1. f(x) =βf1(x).

2. f(x) = (f1+f2)(x) et dom(f) =dom(f1)∩dom(f2).

3. f(x) = max{f1(x), f2(x)} et dom(f) =dom(f1)∩dom(f2).

Preuve. Exercice.

Théorème 2.7 Soit φ(y), y ∈ Rm une fonction convexe s.c.i. Soit A : Rn → Rm un opérateur linéaire et b∈Rn. Alors la fonction f(x) =φ(Ax+b) est convexe s.c.i.

et dom(f) = {x∈Rn, Ax+bdom(φ)}.

Preuve. Soient (x1, x2)∈dom(f)×dom(f). On note y1 =Ax1+b et y2 =Ax2+b. Alors pour tout α∈[0,1] :

f(αx1+ (1−α)x2) = φ(α(Ax1+b) + (1α)(Ax2+b))

αφ(Ax1+b) + (1α)φ(Ax2 +b)

αf(x1) + (1−α)f(x2).

La fermeture de l’épigraphe est due à la continuité de l’opérateur affine x7→Ax+b.

2.3 Continuité et différentiabilité

Lemme 2.2 Soit f une fonction convexe et x0int(dom(f)). Alors f est majorée loca- lement en x01.

Preuve. Soit > 0 tel que les points x0±eiint(dom(f)). D’après le corollaire 2.1 on a ∀x∈conv({x0±ei}) =B(x0, ),f(x)≤ max

1≤i≤nf(x0±ei)<+∞.

Remarque 2.3 Dans ces notes de cours, nous énonçons en général les résultats surint(dom(f)).

En réalité, la grande majorité des résultats présentés sont valables sur l’intérieur relatif de dom(f), c’est-à-dire l’intérieur par rapport à la topologie induite sur le plus petit sous- espace affine contenant dom(f). Par exemple, l’intérieur du simplexe sur Rn est vide alors que l’intérieur relatif du simplexe est l’ensemble {x ∈ Rn, xi >0,∀i ∈ {1, . . . , n},

n

X

i=1

xi = 1}.

Le lemme 2.2 implique la continuité d’une fonction convexe sur l’intérieur de son do- maine.

1. Note : elle peut exploser au voisinage du bord. Il suffit par exemple de considérer la fonctionx7→1/x sur ]0,1] pour s’en convaincre.

(16)

16 2.3. Continuité et différentiabilité

Théorème 2.8 Soit f une fonction convexe et x0int(dom(f)). Alors f est conti- nue et localement Lipschitz en x0.

Preuve. D’après le lemme (2.2), il existe M < +∞ et > 0 tels que f(x) ≤ M,∀x ∈ B2(x0, ). Soit yB2(x0, ) et z∂B2(x0, ) un point de la frontière tel que z = x0 +

1

α(y−x0) avec α= 1ky−x0k2. Par constructionα ≤1 et y=αz+ (1−α)x0. Par convexité de f on a donc :

f(y)≤(1−α)f(x0) +αf(z)

f(x0) +α(Mf(x0))

=f(x0) + Mf(x0)

kyαx0k2.

Pour obtenir l’inégalité inverse, on considère un point yB2(x0, ) et on pose u = x0 + α1(x0y). On a ku−x0k2 = et y = x0+α(x0u). D’après le théorème 2.1 on a donc :

f(y)f(x0) +α(f(x0)−f(u))

f(x0)−α(Mf(x0))

=f(x0)− Mf(x0)

ky−x0k2. On a donc ∀y∈B2(x0, ) :

|f(y)−f(x0)| ≤ Mf(x0)

ky−x0k2.

Définition 2.7 (Dérivée directionnelle) Soit xdom(f). On appelle dérivée directionnelle au point x dans la direction p la limite suivante :

f0(x, p) = lim

α→0+

1

α(f(x+αp)f(x)).

Si cette limite existe, on dit que f0(x, p) est la dérivée directionnelle de f en x.

Théorème 2.9 Une fonction convexe est différentiable dans toutes les directions sur tous les points de l’intérieur de son domaine.

Preuve. Soit xint(dom(f)). On considère la fonction φ(α) = 1

α(f(x+αp)f(x)), α >0.

Soit β∈]0,1] et α∈]0, ] avec suffisamment petit pour que x+pdom(f). Alors : f(x+αβp) =f((1−β)x+β(x+αp))≤(1−β)f(x) +βf(x+αp).

(17)

Ainsi

φ(αβ) = 1

αβ(f(x+αβp)f(x0))≤ 1

α(f(x+αp)f(x)) = φ(α).

La fonction φest donc décroissante au voisinage de 0+. Pourγ >0 tel quex−γp∈dom(f) on a d’après le théorème 2.1 :

φ(α)≥ 1

γ(f(x)−f(x−γp)).

La limite quand α→0+ existe donc.

Rappelons que la dérivabilité selon toute direction en x n’implique pas nécessairement la différentiabilité de f en x. Le contre-exemple typique est la fonction x → |x|. Cette fonction est bien dérivable à droite et à gauche de 0, mais elle n’est pas dérivable en 0.

Lemme 2.3 Soit f une fonction convexe et xint(dom(f)). Alors f0(x, p) est une fonc- tion convexe en p, homogène de degré 1. Pour tout ydom(f) on a

f(y)≥f(x) +f0(x, y−x). (2.3) Preuve. Démontrons d’abord l’homogénéité. Pour toutp∈Rn et τ >0, on a

f0(x, τ p) = lim

α→0+

1

α(f(x+ατ p)f(x))

=τ lim

β→0+

1

β(f(x+βp)f(x)) =τ f0(x0, p).

De plus, pour tout p1, p2 ∈Rn etβ ∈[0,1] on obtient f0(x, βp1+ (1−β)p2) = lim

α→0+

1

α[f(x+α(βp1 + (1−β)p2))−f(x)]

≤ lim

α→0+

1

α{β[f(x+αp1)−f(x) + (1β)[f(x+αp2)−f(x)]}

=βf0(x, p1) + (1−β)f0(x, p2).

La fonction f0(x, p) est donc convexe en p. Pour finir, soit α ∈]0,1], ydom(f) et yα = x+α(yx). D’après le théorème 2.1 on a :

f(y) = f(yα+ 1

α(1−α)(yαx))f(yα) + 1

α(1−α)[f(yα)−f(x)].

On obtient (2.3) en faisant tendre α vers 0+.

2.4 Théorèmes de séparation

(18)

18 2.4. Théorèmes de séparation

Définition 2.8 Soit Q⊆Rn un ensemble convexe. On dit que l’hyperplan H(g, γ) ={x∈Rn,hg, xi=γ}, g 6= 0

supporte (ou est un hyperplan d’appui) à Q si ∀x ∈ Q,hg, xi ≤ γ. On dit que l’hyperplan H(g, γ) sépare un point x0 de Q si

hg, xi ≤γhg, x0i (2.4) pour toutxQ. Lorsque les inégalités dans (2.4)sont strictes, on parle de séparation stricte.

Définition 2.9 (Projection) Soit Q ⊆Rn un ensemble fermé et x0 ∈ Rn. L’opé- rateur de projection sur Q est noté πQ et il est défini pour tout x0 ∈Rn par

πQ(x0) = arg min

x∈Q

kx−x0k2.

Théorème 2.10 Si Q est convexe et fermé, il existe une unique projection πQ(x0).

Preuve. Il suffit de remarquer queπQ(x0) = arg min

x∈Q

1

2kx−x0k22 et que la fonction 12kx−

x0k22+χQ(x) est strictement convexe.

Théorème 2.11 Soit f : Rn → R une fonction convexe différentiable et Q un ensemble convexe, fermé de Rn. Le point x ∈Rn est solution du problème de mini- misation suivant

minx∈Qf(x) (2.5)

si et seulement si

h∇f(x), x−xi ≥0,∀x∈Q. (2.6) Preuve. Si l’inégalité (2.6) est vraie, alors

f(x)≥f(x) +h∇f(x), x−xi ≥f(x)

pour tout xQ. Réciproquement, soit x une solution de (2.5). Supposons qu’il existe xQ tel que

h∇f(x), x−xi<0.

On poseφ(α) =f(x+α(x−x)),α∈[0,1]. Cette fonction satisfaitφ(0) =f(x)etφ0(0) = h∇f(x), x−xi<0. Ainsi, pour α suffisamment petit, on a f(x+α(xx)) =φ(α)<

φ(0) =f(x), ce qui rentre en contradiction avec l’optimalité de x. Corollaire 2.2 Soit Q⊆Rn un ensemble fermé et x0/ Q. Alors pour tout xQ on a

Q(x0)−x0, xπQ(x0)i ≥0. (2.7)

(19)

Preuve. Il suffit de remarquer que πQ(x0) = arg minx∈Q12kx − x0k22 et d’appliquer le

théorème 2.11.

Enfin, on peut donner une sorte d’inégalité triangulaire pour la projection.

Lemme 2.4 Soit Q⊆Rn un ensemble convexe fermé. Pour tout xQ on a kx−πQ(x0)k22+kπQ(x0)−x0k22 ≤ kx−x0k22.

Preuve. D’après (2.7), on a

kx−πQ(x0)k22− kx−x0k22 =hx0πQ(x0),2x−πQ(x0)−x0i

≤ −kx0πQ(x0)k22

Théorème 2.12 Soit Q⊆Rn un ensemble convexe fermé et x0/ Q. Alors il existe un hyperplanH(g, γ)qui sépare strictementx0 deQ. Il suffit par exemple de prendre

g =x0πQ(x0), γ =hx0πQ(x0), πQ(x0)i.

Preuve. D’après (2.7), pour toutxQ, on a

hx0πQ(x0), xi ≤ hx0πQ(x0), πQ(x0)i

=hx0πQ(x0), x0i − kx0πQ(x0)k22.

Nous avons maintenant tous les ingrédients pour montrer une version géométrique du théorème de Hahn-Banach.

Théorème 2.13 Soit Q ⊆ Rn un ensemble convexe fermé et x0∂Q, un point de la frontière de Q. Alors il existe un hyperplan d’appui à Q passant par x0. Si cet hyperplan s’écrit H(g, γ), le vecteur g est dit support à Q en x0.

Preuve. On considère une suite (yk)k∈N telle que yk/ Q et lim

k→+∞yk=x0. On note gk = ykπQ(yk)

kykπQ(yk)k2 et γk=hgk, πQ(yk)i.

D’après le théorème 2.12, on a pour tout xQ

hgk, xi ≤γk ≤ hgk, yki. (2.8) De plus, comme kgkk2 = 1 on a :

k|=|hgk, πQ(yk)−x0i+hgk, x0i|

(Lemme 2.4)≤ kπQ(yk)−x0k+kx0k

≤ kykx0k+kx0k.

La suite (γk)k∈N est donc bornée. Ainsi, on peut extraire une sous-suite de (gk) telle qu’il existe g = lim

k→+∞gk etγ = lim

k→+∞γk. Il suffit ensuite de prendre la limite en 2.8.

(20)

20 2.5. Sous-différentiel

2.5 Sous-différentiel

Définition 2.10 (Sous-gradient et sous-différentiel) Soit f une fonction convexe. Un vecteur η ∈Rn est appelé sous-gradient de f au point x0dom(f) si

∀x∈dom(f), f(x)≥f(x0) +hη, x−x0i. (2.9) L’ensemble de tous les sous-gradients en x0 est appelé sous-différentiel de f. Il est noté ∂f(x0).

L’interprétation géométrique du sous-différentiel est la suivante. Il est formé par toutes les directions des hyperplans qui passent par le point (x, f(x)) et restent "sous" le graphe de la fonction f. Ces hyperplans sont appelés hyperplans support ouhyperplans d’appui au graphe de f enx.

Exemple 2.5.1 Soit f : x ∈ R 7→ |x|. Calculons les sous-gradients de f en tout point x de R.

y=|x|

0

Dans R2, les hyperplans d’appui sont des droites et les sous-gradients associés leurs coefficients directeurs.

∂f(x) =

{−1} si x <0 {+1} si x >0 [−1,1] si x= 0

Lemme 2.5 Le sous-différentiel ∂f(x0) ={η ∈Rn, ∀x∈Rn, f(x)≥f(x0) +hη, x−x0i}

est un ensemble convexe fermé.

Preuve. Soient g1 et g2 des éléments de ∂f(x0). On a ∀y∈Rn : f(y)f(x) +hg1, yxi

f(y)f(x) +hg2, yxi.

Soit α ∈ [0,1]. En multipliant la première inégalité par α, la deuxième par (1α) et en

sommant, on voit que αg1+ (1−α)g2∂f(x0).

Théorème 2.14 Soit f une fonction convexe s.c.i. et x0int(dom(f)). Alors

∂f(x0) est une ensemble non vide, convexe, borné.

Preuve.Notons d’abord que le point (f(x0), x0) appartient à la frontière deepi(f). D’après le théorème 2.13, il existe donc un hyperplan d’appui à epi(f) au point (f(x0), x0) :

−ατ +hd, xi ≤ −αf(x0) +hd, x0i (2.10)

(21)

pour tout (τ, x)∈epi(f). On peut choisir

kdk22+α2 = 1. (2.11)

Puisque pour tout τf(x0) le point (τ, x0) appartient àepi(f), on conclut que α≥0.

D’après le lemme 2.2, il existe >0 et M > 0 tels queB2(x0, )dom(f) et f(x)−f(x0)≤Mkx−x0k

pour tout xB2(x0, ). Ainsi, d’après (2.10), pour tout x dans cette boule on a hd, x−x0i ≤α(f(x)−f(x0))≤αMkx−x0k2.

En choisissant x = x0 + d on obtient kdk22M αkdk2. En utilisant la condition de normalisation (2.11), on obtient

α ≥ 1

√1 +M2.

Ainsi, en choisissant g =d/α on obtient pour tout xdom(f) f(x)≥f(x0) +hg, x−x0i.

Finalement, si g∂f(x0) et g 6= 0, alors en choisissant x=x0+g/kgk2 on obtient kgk2 =hg, x−x0i ≤f(x)f(x0)≤Mkx−x0k2 =M .

Ainsi ∂f(x0) est borné.

Remarque 2.4 Le sous-différentiel peut ne pas exister sur le bord du domaine. Par exemple la fonction f(x) =−√

xsur R+ est convexe et fermée, mais le sous-différentiel n’existe pas en 0 car limx→0+f(x) = −∞.

Le sous-différentiel est central car il permet notamment de caractériser les minimiseurs d’une fonction. On considère le problème suivant :

Trouver x tel que f(x) = min

x∈Rn

f(x) où f est convexe s.c.i.

Théorème 2.15 x est solution du problème ci-dessus si et seulement si0∈∂f(x).

Preuve. Si 0∈∂f(x), alors f(x)≥f(x) +h0, x−xi ≥f(x), ∀x∈ dom(f). Récipro- quement, si f(x)≥f(x),∀x∈dom(f), alors 0∈∂f() par définition du sous-différentiel.

(22)

22 2.6. Règles de calcul sous-différentiel

2.6 Règles de calcul sous-différentiel

Lemme 2.6 Soit f une fonction convexe s.c.i. différentiable sur son domaine. Alors

∀x∈int(dom(f)), ∂f(x) ={∇f(x)}.

Lemme 2.7 Soit f une fonction convexe s.c.i. avec dom(f)⊆ Rn. Soit A : Rm → Rn un opérateur linéaire et b ∈Rn. La fonction φ(x) =f(Ax+b) est convexe s.c.i.

et ∀x∈int(dom(φ)), ∂φ(x) =AT∂f(Ax+b).

Preuve. Exercice.

Lemme 2.8 Soit f(x) = α1f1(x) +α2f2(x) f1 et f2 sont convexes s.c.i. sur Rn et1, α2) ∈ R+×R+. Alors ∂f(x) = α1∂f1(x) +α2∂f2(x) = {η ∈ Rn,∃(x1, x2) ∈

∂f1(x1∂f2(x2), η=x1+x2}.

Lemme 2.9 Soitf :Rn →Rn∪{+∞}une fonction convexe fermée etg :R∪+∞ → R∪+∞ une fonction convexe croissante. Notonsh=gf. Alors ∀x∈int(dom(f)),

∂h(x) =1η2, η1∂g(f(x)), η2∂f(x)}.

Exemple 2.6.1 Soitf(x) =kxk2,g(t) = 12t2 eth(x) =g(f(x)) = 12kxk22. On peut montrer (exercice) que :

∂f(x) =

( n

x kxk2

o si x6= 0,

{x,kxk2 ≤1} sinon. (2.12)

Donc d’après le lemme 2.9 :

∂h(x) =g0(kxk2)∂f(x) =x, (2.13) et on retrouve le résultat standard.

Lemme 2.10 Soit (fi)i=1..m un ensemble de fonctions convexes s.c.i. Alors la fonc- tion

f(x) = max

i=1..mfi(x)

est aussi convexe s.c.i. de domaine dom(f) =∩mi=1dom(fi) et ∀x∈int(dom(f)), on a :

∂f(x) = conv(∂fi(x), i∈I(x)) I(x) ={i∈ {1, .., m}, fi(x) =f(x)}.

Le lemme suivant se révèle souvent utile pour étudier les fonctions définies commes des suprémas2.

2. En réalité, toutes les fonctions convexes peuvent êtres représentées comme un suprémum en utilisant la transformée de Fenchel. Ce résultat est donc central. Le cours est trop court pour présenter cette théorie.

(23)

Lemme 2.11 Soit φ(x, y) une fonction telle que ∀y ∈ ∆, la fonction x 7→ φ(x, y) est convexe s.c.i. Alors la fonction

f(x) = sup

y∈∆

φ(x, y)

est convexe s.c.i.. De plus, dom(f) = {x∈Rn, ∃γ, φ(x, y)≤γ, ∀y∈∆} et

∂f(x)⊇conv(∂xφ(x, y), yI(x), I(x) = {y, φ(x, y) = f(x)}).

Définition 2.11 Soit Q ⊆ Rn un ensemble convexe, fermé. Soit x0∂Q. On ap- pelle cône normal à Q en x0 et on note NQ(x0) l’ensemble suivant :

NQ(x0) = {η∈Rn,hη, x−x0i ≤0,∀x∈Q}.

Deux exemples de cône normaux sont donnés sur la figure 2.6.

Figure 2.8 – Deux exemples de cônes normaux. A gauche : cône normal sur un point régulier de la frontière. A droite : cône normal sur une singularité.

Lemme 2.12 (Sous-différentiel d’une indicatrice) Soit X ∈ Rn un ensemble convexe fermé. On définit l’indicatrice de X comme :

χX(x) =

( 0 si xX +∞ sinon

Le sous-différentiel de χX au point x∂X est le cône normal de X en x :

∂χX(x) = NX(x).

Preuve. Exercice.

(24)

24 2.6. Règles de calcul sous-différentiel

Définition 2.12 (Norme duale) Soit k · kX une norme sur Rn. On appelle norme duale et on note k · kX la fonction définie par :

kykX = sup

x∈Rn,kxkX≤1

hx, yi. (2.14)

On peut montrer que la fonction k · kX définit bien une norme sur Rn. De plus, par définition, on obtient pour tout (x, y)∈Rn×n :

|hx, yi| ≤ kxkXkykX, (2.15) qui généralise les inégalités de Cauchy-Schwartz et de Hölder.

Exemple 2.6.2 Soit kxkX =kxkp kxkp est la norme `p usuelle sur Rn. Alors, on peut montrer que kykX =kxkq avec 1/p+ 1/q = 1. En particulier, la norme `2 est égale à sa norme duale.

Définition 2.13 (Sous-différentielle d’une norme) Soit f(x) = kxkX k · kX

est une norme arbitraire sur Rn. Alors :

∂f(x) = arg max

kykX≤1

hx, yi. (2.16)

Preuve. Exercice.

Pour finir ce paragraphe, montrons que les résultats ci-dessus, et en particulier le théo- rème (2.10), permettent de retrouver les conditions d’optimalité de Karush-Kuhn-Tucker.

Théorème 2.16 Soit (fi)0≤i≤m un ensemble de fonctions convexes différentiables telles qu’il existe x¯ ∈ Rn satisfaisant fix) < 0, 1 ≤ im (condition de Slater).

Alors, un point x est solution du problème :

x∈Rn, fi(x)≤=0,min 1≤i≤mf0(x) (2.17) si et seulement si il existe des nombres λi ≥0 tels que :

∇f0(x) + X

i∈I

λi∇fi(x) = 0, (2.18) I ={i∈ {1, . . . , m}, fi(x) = 0}.

Preuve. Soit X = {x ∈ Rn, fi(x) ≤ 0, 1 ≤ im}, l’ensemble admissible. L’idée pour exploiter le théorème (2.10) consiste à réécrire (2.17) sous la forme :

x∈minRn

φ(x)φ(x) = max(f0(x)−f, f1(x), . . . , fm(x)), (2.19) avec f = f(x). Pour voir que ce problème est équivalent à (2.17), il suffit de se rendre compte que la fonction φ satisfait les conditions suivantes :

(25)

φ est convexe car elle est définie comme un maximum de fonctions convexes.

φ(x) ≥ 0 pour xX, car x est le minimiseur de f0 sur X. De plus φ(x) = 0 sur X si et seulement six est un minimiseur.

φ(x) > 0 pour x /X, car dans ce cas, il existe au moins une fonction fi telle que fi(x)>0.

Les conditions d’optimalité de (2.17) sont donc : x∂φ(x). D’après le théorème (2.10), ceci est équivalent à l’existence de réels positifs (¯λi)0≤i≤m tels que :

λ¯0∇f0(x) + X

i∈I

λ¯i∇fi(x) = 0 où λ¯0+ X

i∈I

λ¯i = 1. (2.20) Il ne reste plus qu’à montrer que ¯λ0 >0. Si ¯λ0 = 0, alors :

X

i∈I

λ¯i∇fix) = 0, (2.21) ce qui contredit la condition de Slater. Donc ¯λ0 >0 et il suffit de choisir λi = ¯λi¯0 pour

iI.

2.7 Conjuguée convexe

La fonction conjuguée, aussi appelée transformée de Fenchel ou transformée de Legendre- Fenchel est utilisée pour :

— convexifier une fonction (en calculant la bi-conjuguée, i.e. la conjuguée de la conju- guée).

— calculer le sous-différentiel d’une fonction convexe.

— calculer des problèmes dits “duaux”, en optimisation. Ces problèmes apportent sou- vent beaucoup d’information sur les problème “primaux”, i.e. ceux que l’on souhaite résoudre.

— passer de la mécanique lagrangienne à la mécanique hamiltonienne,...

Elle a été introduite par Mandelbrojt en 1939 puis précisée et améliorée par Fenchel en 1949. Cette transformée généralise la transformation de Legendre (1787).

Définition 2.14 (Conjuguée convexe) Soit f : Rn → R∪ {+∞} une fonction.

Sa conjuguée est définie par :

f(s) = sup

x∈Rn

hs, xi −f(x). (2.22) L’application f 7→f est appelée transformation de Lengendre-Fenchel. La fonction f est appelée conjuguée convexe, transformée de Fenchel ou transformée de Legendre- Fenchel de f.

La notion de transformée de Fenchel est illustrée sur la figure 2.7.

La motivation pour introduire cette transformation est la suivante. On peut définir la convexifiée fermée d’une fonction comme l’enveloppe supérieure de toutes les minorantes

(26)

26 2.7. Conjuguée convexe

Figure 2.9 – f(u) est le supremum de la différence signée verticale entre le graphe de f et celui de l’hyperplan défini par la fonction linéaire h·, ui.

affines de f. Parmi toutes les minorantes affines x 7→ hs, xi+α, on ne peut garder que celle qui est la plus haute, c’est-à-dire qui a le plus grand α. Il faut donc déterminer le plus grand α tel que ∀x∈Rn :

hs, xi+αf(x).

La plus petite valeur de−α est donnée par f(s) = sup

x∈Rn

hs, xi −f(x).

Proposition 2.2 Pour toute fonction f, f est convexe, fermée.

Preuve. L’intersection d’ensembles fermés est fermé.

Proposition 2.3 Pour tout (x, s)∈Rn×Rn :

f(x) +f(s)≥ hx, si. (2.23)

Preuve. Evident d’après la définition.

Définition 2.15 (Biconjuguée) Soit f :Rn→R∪ {+∞} une fonction. Sa bicon- juguée est définie par :

f∗∗(x) = sup

s∈Rn

hx, si −f(s). (2.24)

(27)

Théorème 2.17 La biconjuguée de f est la plus grande fonction convexe fermée in- férieure àf. On peut aussi la voir comme la fonction dont l’épigraphe est l’enveloppe convexe fermée de epi(f).

Preuve. Soit Σ ⊂ Rn×R l’ensemble des paires (s, α) qui définissent une fonction affine x7→ hs, xi −α majorée par f :

(s, α)∈Σ⇔f(x)≥ hs, xi −α, ∀x∈R

α≥ sup

x∈Rn

hs, xi −f(x)

αf(x), (and sdom(f)).

On obtient donc pour x∈Rn, sup

(s,α)∈Σ

hs, xi −α

= sup

s∈dom(f),−α≤−f(s)

hs, xi −α

= sup

s∈dom(f)

hs, xi −f(s)

=f∗∗(x).

D’un point de vue géométrique, les épigraphes des fonctions affines associées à (s, α)∈Σ sont les demi-espaces fermés contenant epi(f). L’épigraphe de leur supremum est l’enve-

loppe convexe fermée de epi(f).

Théorème 2.18 La biconjuguée de f satisfait f∗∗ = f si et seulement si f est convexe fermée.

Preuve. C’est une conséquence directe du théorème 2.17.

Exemple 2.7.1 Voici quelques exemples de conjuguées convexes. Les preuves sont laissées en exercice.

— Soit p∈]1,+∞[etq le conjugué de p(i.e. tel que 1/p+ 1/q = 1). Alors (1/p| · |p) = 1/q| · |q.

— Soit Q∈Rn×n une matrice SDP et f(x) = 12hx, Qxi, alorsf(x) = 12hQ−1x, xi.

— Soit L un sous-espace vectoriel de Rn. On considère la fonction :

f(x) =χL(x) =

( 0 si xL

+∞ sinon (2.25)

Sa conjuguée convexe f =χL.

— Soit f(x) =kxk k · k est une norme quelconque. Alors :

f(s) = χB(s) (2.26)

B ={s∈Rn,ksk ≤1} et où k · k est la norme duale à k · k.

(28)

28 2.8. Opérateurs proximaux

Proposition 2.4 Soit f une fonction convexe fermée. On a ∀(x, s)∈Rn×Rn : s∂f(x)x∂f(s). (2.27) Preuve. On a :

s∂f(x)f(s) +f(x) = hs, xi

f(s) +f∗∗(x) =hs, xi

x∂f(s).

2.8 Opérateurs proximaux

Définition 2.16 (Opérateur proximal) L’opérateur proximal de f est noté Proxf et il est défini pour tout x∈Rn par :

Proxf(x) = arg min

u∈Rn

f(u) + 1

2ku−xk22. (2.28)

Exemple 2.8.1 Voici quelques exemples d’opérateurs proximaux.

— Si f(x) = 0, Proxf(x) =x.

— Si f(x) =χX(x) =

( 0 si xX

+∞ sinon, X ⊆Rn est un ensemble convexe fermé, alors Proxf(x) est la projection euclidienne de x sur X. En effet :

Proxf(x) = arg min

u∈X

ku−xk22 =PX(x). (2.29)

— Si f(x) = αkxk1, Proxf est un seuillage doux de x : (Proxf(x))i =

xiα si xiα 0 si |xi| ≤α xi+α si xi ≤ −α.

(2.30) Montrons quelques propriétés utiles de cet opérateur.

Proposition 2.5 Si f :Rn →R∪ {+∞} une fonction convexe fermée, Proxf(x) existe et est unique pour tout x∈Rn. De plus il est caractérisé par les équations suivantes :

u= Proxf(x)

⇔ 0∈∂f(u) +ux

u= (In+∂f)−1(x).

Références

Documents relatifs

Des recherches que j'ai entreprises en vue d'une géné- ralisation de la théorie de convergence d'une série à termes positifs ont en même temps donné une simplifi- cation imprévue

La Section 4 sera consacrée à la recherche linéaire de type économique, le calcul de la fonction implicite avec précision des contraintes de tolérance de ce calcul et on rappelle

2° La restriction de PA à l'ensemble fermé F est « pro- longeable » en une fonction C&#34; 1 de E (c'est-à-dire égal au champ des polynômes de Taylor d'une certaine fonction &lt;p

Pour ce faire on va utiliser deux strat´ egies : soit on approche f en x k par un DL1 (ou un DL2) et on minimise son approximation sous la contrainte que x k + p reste dans K, c’est

Noether de donner plus tard (1916) une démonstration (en caractéristique zéro) du théorème de Hilbert pour les groupes finis, qui (d'après H. Weyl) présentait deux avantages :

2) Le lemme de Morse, par exemple, s’étend sans difficulté au cas des fonctions différentiables sur les couples d’espaces de Banach en dualité, en vérifiant

Résumé - On montre que les méthodes de gradient réduit sous contraintes linéaires sont aussi des méthodes de directions réalisables Ceci nous permettra à partir de deux lemmes dus

La DG s'applique lorsque l'on cherche le minimum d'une fonction dont on connaît l'expression analytique, qui est dérivable, mais dont le calcul direct du minimum est difficile..