Fonctions convexes

(1)

Fonctions convexes

En analyse convexe, on considère très souvent des fonctions prenant des valeurs dans l'ensemble des réels auxquels on rajouter l'inni, i.e. R = R∪ {+∞}. Un avantage est de pouvoir inclure directement les contraintes dans la fonctionnelle optimisée, c'est-à-dire remplacer

minC f(x)

oùKest un ensemble convexe d'un espace vectorielEpar le problème sans contraintes minE f(x) +i_C(x), où i_C(x) =

( 0si x∈C +∞sinon

Plus fondamentalement, des fonctions convexes prenant la valeur +∞ apparaissent de manière très naturelle lorsqu'on s'intéresse à la transformée de Legendre-Fenchel, qui est unanalogue de la transformée de Fourier en analyse convexe.¹ L'ensemble R∪ {±∞} est muni des règles de calcul intuitives suivantes :

∀a∈R, a+ (+∞) = +∞

∀a >0, a×(+∞) = +∞

∀a <0, a×(+∞) =−∞

On fera en sorte de ne jamais faire apparaître de quantités indéterminées de la forme 0×(+∞) ou (+∞)−(+∞)).

2.1 Dénition et propriétés élémentaires

Dénition 7. Soit E un espace vectoriel etf :E →R. On appelle

(i) domaine def, notédom(f), le sous-ensemble deE oùf prend des valeurs nies :

dom(f) ={x∈E, f(x)6= +∞};

1. Par exemple, on verra que la transformée de Legendre-Fenchel d'une norme est une fonction à valeurs dans{0,+∞}.

12

(2)

(ii) épigraphe def la partie de l'espace produitE×Rau-dessus du graphe de f, i.e.

epi(f) ={(x, t)∈E×R;t≥f(x)}.

Une fonction f :E →Rest propre ssidom(f)6=∅.

Dénition 8. On appelle fonction convexe une fonction f :E →R dont l'épi- graphe est un sous-ensemble convexe de E×R.

Remarque 2. On dit quef :E→R∪ {−∞}est concave si−f est convexe, et tout ce qu'on va dire s'applique aussi bien au fonctions concaves qu'aux fonctions convexes, à ce changement de signe près.

Proposition 13. Une fonctionf :E →Rest convexe si et seulement sidom(f) est convexe et si pour toutx, y dans dom(f) et tout α∈[0,1],

f((1−α)x+αy)≤(1−α)f(x) +αf(y) (2.1) Démonstration. Soitf une fonction convexe. Alors,

dom(f) ={x∈R| ∃t∈R,(x, t)∈epi(f)}= ΠE(epi(f))

oùΠ_E :E×R→Rest l'application aneΠ_E(x, t) =x. Ainsi, dom(f)est convexe comme image d'un convexe par une application ane. Ensuite, pour tout points x, y ∈E, les points x⁰ := (x, f(x)) et y⁰ := (y, f(y)) appartiennent à epi(f). Ainsi, par convexité de l'épigraphe, pour toutα∈[0,1], le point

z⁰ = (1−α)x⁰+αy⁰ = ((1−α)x+αy,(1−α)f(x) +αf(y))

est lui aussi dans l'épigraphe de f, ce qui se traduit par (2.1). La réciproque se démontre de la même manière.

Cette proposition permet de déduire des opération préservant la convexité des fonctions similaire aux opérations préservant la convexité des ensembles. Nous nous contentons d'énoncer les plus importantes.

Proposition 14. (i) Si(f_i)i∈Iest une famille quelconque de fonctions convexes sur E, alors la fonction x7→sup_i∈Ifi(x) est également convexe.

(ii) Soit A :F → E une application ane, et f une fonction convexe sur E. Alors, la fonction f ◦A est convexe.

(iii) Si f1, . . . , fN sont des fonctions convexes et λ1, . . . , λN ≥ 0, la fonction PN

i=1λifi est convexe.

Exemple 6. (i) Soit C un sous-ensemble de E, et i_C :E → Rsa fonction indicatrice, dénie par iC(x) = 0si x∈C et+∞ si x6∈C. Alors, iC est convexe si et seulement siC est convexe.

(3)

(ii) Toute normekk surE est convexe.

(iii) Toute forme linéaire (même discontinue) sur E est convexe.

(iv) Les sous-niveaux d'une fonction convexe sont convexes (cela se vérie facile- ment manuellement, mais on peut aussi utiliser

{f ≤t0}= ΠE(epi(f)∩ {(x, t)|t≥t0})

où la projectionΠ_E(x, t) =xest linéaire). La réciproque est fausse : il existe des fonctions non convexes dont les sous-niveaux sont tous convexes. Par exemple, les sous-niveaux de toute fonction monotone surRsont convexes.

(v) Soit X une partie bornée de E. La fonctionx7→sup_p∈Xkx−pk est convexe.

(vi) Si f est convexe et K est un ensemble convexe, la fonction g = f +ιK est convexe (g(x) =f(x)six∈K,g(x) = +∞sinon). De plus, les deux problèmes d'optimisation suivants sont équivalents

minx∈Cf(x)⇐⇒min

x∈Ef(x) +ι_C(x).

(vii) La composition de fonctions convexes n'est pas nécessairement convexe. Par exemple f, g :R → R,f(x) = exp(−x) et g(x) =x² sont convexes alors que f◦g(x) =exp(−x²) n'est pas convexe.

Dénition 9. SoientE un espace vectoriel normé. Une fonction convexef :E7→R est strictement convexe si pour toutx6=y∈dom(f) et toutλ∈]0,1[,

f((1−λ)x+λy)<(1−λ)f(x) +λf(y) (2.2) En exercice, on pourra démontrer le lemme suivant.

Lemme 15. Soitf :E→R atteignant son minimum m= minEf. (i) Si f est convexe, alors {x∈E|f(x) =m} est convexe.

(ii) Si f est strictement convexe, alors {x∈E |f(x) =m} est un singleton.

2.2 Continuité et lipschitzité des fonctions convexes

Pour parler de continuité et a fortiori de Lipschitzité, on supposera dans cette section queE est un espace vectoriel normé.

Dénition 10. Une fonction f : Ω ⊆E → R est localement lipschitzienne sur un ouvertΩdeE si tout point deΩadmet un voisinage sur lequelf est lipschitizienne, c'est-à-dire

∀x₀ ∈Ω,∃δ >0,∃M ∈R, ∀x, y∈B(x₀, δ),|f(x)−f(y)| ≤Mkx−yk.

Proposition 16. Soit f :E → R une fonction convexe sur un espace vectoriel normé et Ωun ouvert deE. Si f est bornée supérieurement sur Ω, alors elle est localement lipschitzienne sur cet ouvert.

(4)

Remarque 3. Comme on le verra, la démonstration permet d'estimer assez précisé- ment la constante de Lipschitz M en fonction de la borne sur f. En revanche, la constante de Lipschitz peut exploser au bord du domaine. Considérons par exemple la fonction convexef :x ∈[0,1]7→ −√

x. Alors, lim_x→0,x6=0f⁰(x) = −∞, etf n'est pas localement lipschitzienne au voisinage de0.

Remarque 4. On peut se servir de cette proposition pour montrer que toute forme linéaire f sur E est continue en l'origine si et seulement si elle est globalement lipschitzienne. Un des sens est évident (globalement lipschitzienne =⇒ continue en l'origine). Pour l'autre il faut remarquer que sif est continue en l'origine, alors elle est bornée à son voisinage et (par la proposition) L-lipschitzienne sur une boule B(0, r). Alors, pour x₁, x₂ ∈E, et en posantR= max(kx₁k,kx₂k),

|f(x1)−f(x2)|= R r

f(r

Rx1)−f(r Rx2)

≤ LR

r r

Rx1− r Rx2

=Lkx₁−x2k. Remarque 5. L'hypothèse quef est majorée est cruciale ! Par exemple, si l'espaceE est de dimension innie, on peut construire une application linéaire f non continue surE. (Par exemple, on peut considérer R[X]muni de la norme `¹ des coecients, etf :P ∈R[X]7→P⁰(1). Alors, Pn= _n¹Xⁿ converge vers0, tandis que f(Pn) = 1. Ainsi, f est linéaire et discontinue.) Alors, dom(f) = E, c'est-à-dire que f est nie partout, et pourtantf n'est continue en aucun point.

Avant de démontrer la proposition 16, on va démontrer un résultat intermédiaire pour une fonction convexe que l'on suppose bornée supérieurement et inférieurement.

Lemme 17. Soit f :E → R une fonction convexe telle que|f| ≤M sur une boule B(x0,2δ). Alors, f est ^2M_δ -lipschitzienne sur la boule B(x0, δ).

Démonstration. Soit x, y deux points de la boule B(x₀, δ). Pour comparer f(x) et f(y)et montrer la propriété de lipschitzité, on va prolonger le segment[x, y]dans la direction dey et utiliser la borne surf sur la boule B(x0,2δ). Posons α =kx−yk et z := y+ _α^δ(y−x). Le point z construit de cette manière appartient à la boule B(x₀,2δ)car

kz−x₀k ≤ kz−yk+ δ

αky−xk ≤2δ.

En utilisant la dénition dez, on peut réécrire le pointycomme combinaison convexe de xetz. La relation(1 +δ/α)y = (δ/α)x+zimplique que

y= δ/α

1 +δ/αx+ 1 1 +δ/αz,

où la somme des deux coecients vaut1. Ainsi, par convexité de f, f(y)≤ δ/α

1 +δ/αf(x) + 1

1 +δ/αf(z) i.e. f(y)−f(x)≤ −1

1 +δ/αf(x) + 1

1 +δ/αf(z)

(5)

On peut maitenant utiliser la borne sur|f|: f(y)−f(x)≤ 2M

1 +δ/α ≤ 2M

δ α= 2M

δ kx−yk

En inversant les rôles de x et y on nit de démontrer la borne sur la constante de Lipschitz def.

Démonstration de la Proposition 16. Soitx0 un point de l'ouvert Ωetδ >0 tel que B(x₀,2δ)⊆ Ω. Par hypothèse, la fonction f qu'on considère est bornée supérieure- ment, i.e. f ≤M0 sur la bouleB(x0,2δ). Pour tout point x dans la boule B(x0, δ), le point2x0−x est aussi dans la bouleB(x0,2δ), de sorte que

f(x0)≤ 1

2(f(x) +f(2x0−x))≤ 1

2(f(x) +M0).

Ainsi,f(x)≥2f(x0)−M₀, et la fonction est donc bornée inférieurement surB(x0, δ).

On peut donc appliquer le lemme, et en déduire que f est lipschitzienne sur la boule B(x₀, δ/2). Ceci étant vrai pour tout x₀, on en déduit que f est localement Lipschitzienne sur Ω.

Le résultat suivant montre que si f est bornée au voisinage d'un point, alors elle automatiquement continue sur l'intérieur de son domaine. La convexité permet de partir d'une hypothèse de régularité très faible (f bornée au voisinage d'un point) et d'en déduire un résultat de régularité très fort (f localement lipschitzienne sur l'intérieur de son domaine).

Proposition 18. Soitf :E→Rune fonction convexe sur un espace vectoriel normé E. S'il existe un ouvert sur lequel f est borné, alors f est localement Lipschitz sur int(dom(f)).

Démonstration. Soit B(x, δ) une boule sur laquelle |f| ≤ M. On va utiliser cette hypothèse pour démontrer que f est localement majorée dans l'intérieur de son domaine, puis conclure avec la proposition précédente. Soit y un point de Ω = int(dom(f)). L'ensemble Ω étant ouvert, il existe t > 0 petit tel que le point z := y+t(y−x) soit dans Ω. Par construction, le point y appartient au segment [x, z]. Plus précisément, comme(1 +t)y=z+txon a

y= t

1 +tx+ 1

1 +tz (2.3)

= (1−α)x+αz (2.4)

avec α= 1/(1 +t). Ainsi, on a

(1−α)B(x, δ) +z= B(y,(1−α)δ)

Montrons que f ≤ max(M, f(z)) sur la boule B := B(y,(1−α)δ). Par dénition de la somme de Minkowski, pour tout point w_y ∈ B, il existe w_x ∈B(x, δ) tel que wy = (1−α)wx+αz. D'où

f(wy)≤(1−α)f(wx) +αf(z)≤max(M, f(z)).

(6)

La fonction est donc bornée supérieurement au voisinage de y. Par la proposition précédente, f est donc lipschitzienne au voisinage de y. Ceci étant vrai pour tout y∈Ω, on en conclut que f est localement lipschtzienne sur Ω.

Corollaire 19. Soit f : E → R une fonction convexe sur un espace vectoriel normé E. S'il existe un point x₀ ∈ dom(f) où f est continue, alors f est localement Lipschitz sur int(dom(f)).

2.3 Dérivées directionnelles

Dans cette section, on utilise les propriétés algébriques, c'est-à-dire sans topo- logie, des dérivées directionnelles d'une fonction convexe. L'espace E est donc un espace vectoriel quelconque, qui n'est pas nécessairement normé. Comme on utilise uniquement la structure linéaire de l'espace, on ne doit pas s'attendre à pouvoir en déduire des informations sur la régularité (même la continuité !) des fonctions considérées.

Dénition 11. Soit E un espace vectoriel,f :E→Rune fonction, xun point du domaine de f etv∈E une direction. On pose, si la limite existe,

f⁺(x;v) = lim

ε→0⁺

f(x+εv)−f(x)

ε (2.5)

Proposition 20. Soit f :E → Rune fonction convexe, et x ∈dom(f). Alors, la dérivée directionnelle v ∈ E 7→ f⁺(x;v) ∈ R∪ {±∞} est bien dénie et de plus,

f⁺(x;v) = inf

ε>0

f(x+εv)−f(x)

ε (2.6)

Remarque 6. La limite dénissantf⁺(x;±) peut prendre les valeurs ±∞.

(i) Le fait de pouvoir remplacer la limite (2.5) par un inmum (2.6) implique que f⁺(x;v) = +∞ si et seulement si la demi-droite {x+tv |t > 0} n'intersecte pas le domaine def. Par contraposée, six est dans l'intérieur du domaine def (ou dans l'intérieur algébrique du domaine def, cf TD), alorsf⁺(x;v)<+∞. (ii) Il est facile de construire des exemples de fonctions tels quef⁺(x;v) =−∞. Par

exemple f(x) =−√

x,x= 0 etv= 1. Alorsf⁺(x;v) = limt→0−f⁰(t) =−∞.

Lemme 21. La fonction ε7→ ¹_ε(f(x+εv)−f(x))est croissante.

Démonstration. Soient ε2 ≥ ε1 ≥ 0, et supposons de plus que le point x +ε2v appartient à dom(f) (sinon f(x+ε2v) = +∞ et il n'y a rien à démontrer). Par

(7)

hypothèse, le pointx+ε1 appartient au segment [x, x+ε2]et donc au domaine de f par convexité de celui-ci. Plus précisément on a :

x+ε1v= (1−ε1/ε2)x+ε1/ε2(x+ε2v), de sorte qu'en utilisant la convexité def on obtient

f(x+ε₁v)≤(1−ε₁/ε₂)f(x) +ε₁/ε₂f(x+ε₂v).

Ainsi,

f(x+ε1v)−f(x)

ε₁ ≤ f(x+ε2v)−f(x)

ε₂ .

Démonstration de la proposition 20. Le ratio ¹_ε(f(x+εv)−f(x))étant décroissant lorsqueε→0⁺, il admet une limite dans R∪ {±∞}donnée par (2.6). Si f⁺(x;v)<

+∞, alors il existeεtel quef(x+εd)<+∞, auquel casf est nie sur[x, x+ε]par convexité.

Proposition 22. Soit f :E→R une fonction convexe,et x∈dom(f). Alors, (i) La fonctiong :v7→f⁺(x, v) est positivement 1-homogène (g(λv) =λg(v)

pour λ >0) et sous-linéaire (g(v+w)≤g(v) +g(w)).

(ii) Propriété de monotonie : pour tout x, y∈dom(f),

f⁺(x;y−x)≤f⁺(y;y−x) (2.7) Démonstration. (i) Il est facile de voir que g=f⁺(x, .) est1-homogène. Soient u, v dans E, et montrons que g(u+v) ≤ g(u) +g(v). On peut supposer que que pour ε > 0 assez petit, x+εu et x+εv appartiennent à dom(f), sinon il n'y a rien à montrer. Alors,

x+ε(u+v) = x+ 2εu

2 +x+ 2εv 2 et, par convexité,

1

ε(f(x+ε(u+v))−f(x))≤ 1

2ε(f(x+ 2εu)−f(x)) + 1

2ε(f(x+ 2εv)−f(x)).

En passant à la limite on obient l'inégalité voulue.

(ii) Cette propriété correspond à la croissance des pentes pour les fonctions convexes sur un segment deR.

Proposition 23. Soit f : E → R convexe, et x ∈ dom(f). De plus, la fonction v∈E 7→f⁺(x;v) est linéaire sur E si et seulement si

∀v∈E, f⁺(x;v)<+∞

∀v∈E, f⁺(x;v) =−f⁺(x;−v).

(8)

Remarque 7. La fonctionv 7→f⁺(x;v) peut tout à fait être linéaire et discontinue ! En eet, pour toute forme linéaire f sur E, on a f⁺(x;v) =f(v).Il sut donc de choisirf est linéaire non continue en dimension innie pour obtenir un exemple de dérivée directionnellev7→f⁺(x;v) qui est également linéaire et non continue.

Exemple 7. Soitf(x) =|x|surR, alors f⁺(0; 1) = 1 etf⁺(0;−1) = 16=−f⁺(0,1). Ce corollaire se déduit de la sous-linéarité def⁺(x;·)et des deux lemmes suivants.

Lemme 24. Soit f : E → R une fonction convexe, et x ∈ dom(f). Alors, f⁺(x, v)≥ −f⁺(x,−v).

Démonstration. On peut supposer f⁺(x, v) < +∞ ou f⁺(x,−v) < +∞ car sinon l'inégalité est triviale. Alors, x−εv et x+εv appartiennent à dom(f) pour ε > 0 assez petit. Par la convexité def,

f(x) =f

x+εv

2 + x−εv 2

≤ 1

2f(x+εv) +1

2f(x−εv) Ainsi,

f(x+εv)−f(x)

ε ≥ −f(x−εv)−f(x)

ε ,

ce qui donne résultat par passage à la limite.

Lemme 25. Une fonction sous-linéaire g :E → R est linéaire si et seulement si elle est partout nie et si g(v) =−g(−v) pour tout v dans E.

Démonstration. Par sous-linéarité deg, g(v+w)≤g(v) +g(w)

g(−(v+w))≤g(−v) +g(−w) =−g(v)−g(w), où l'on a utilisé l'hypothèse pour la dernière égalité. Ainsi,

g(v) +g(w)≤ −g(−(v+w)) =g(v+w)≤g(v) +g(w),

et toutes les inégalités doivent donc être des égalités. En particulier, on obtient l'additivité deg:g(v+w) =g(v) +g(w). Comme on sait de plus queg(λv) =λg(v), g est linéaire.

On conclut cette partie par une caractérisation de la convexité utilisant uniquement la notion de dérivée directionnelle.

Proposition 26. Soit f :X ⊆E → R une fonction sur un ouvert convexe X. On suppose que pour toutx∈X, l'application dérivée directionnelle

D_xf :v∈E 7→ lim

ε→0

1

ε(f(x+εv)−v)

est bien dénie et linéaire. Alors, les propriétés suivantes sont équivalentes :

(9)

(i) f est convexe ;

(ii) pour tout x, y∈X,f(y)≥f(x) + D_xf(y−x); (iii) pour tout x, y∈X,(D_xf −D_yf)(x−y)≥0.

Démonstration. (i)=⇒ (ii) : Comme la fonction f est convexe, Dxf(y−x) = lim

t→0⁺

1

t(f(x+t(y−x))−f(x))

= lim

t→0⁺

1

t(f((1−t)x+ty)−f(x))

≤ lim

t→0⁺

1

t((1−t)f(x) +tf(y)−f(x)) =f(y)−f(x) (ii)=⇒ (iii) : Il sut de sommer les inégalités

f(y)≥f(x) + Dxf ·(y−x) f(x)≥f(y) + D_yf ·(x−y)

(iii) =⇒ (i) : Soient x, y dans X et φ(λ) = f(xλ) −(1−λ)f(x)−λf(y), où on a posé x_λ := (1−λ)x+λy. La fonction φ est diérentiable en tout λ ∈ [0,1] et φ(0) =φ(1) = 0. Montrer que f est convexe sur le segment [x, y]revient à montrer queφ(λ)≤0sur[0,1]. Supposons le contraire, et considéronsλ0un point du segment ouvert ]0,1[où φatteint son maximum, de sorte queφ⁰(λ0) = 0 etφ(λ0)>0. Pour toutλ∈[0,1], on a :

φ⁰(λ)−φ⁰(λ0) = (Dxλf−Dxλ0f)·(y−x) De plus, siλ6=λ0,

y−x= 1

λ−λ₀[((1−λ)x+λy)−((1−λ₀)x+λ₀y)] = 1

λ−λ₀(x_λ−x_λ₀) Ainsi, en utilisant l'hypothèse (iii) on obtient que siλ > λ0, alorsφ⁰(λ)≥φ⁰(λ0) = 0. La fonction φ devrait donc être croissante croissante sur l'intervalle [λ₀,1[, et en particulier φ(1)≥φ(λ0). Ceci contredit l'inégalité φ(λ0)>0 =φ(1). Par l'absurde, on en déduit que φ≤0, puis quef est convexe sur le segment [x, y]et enn qu'elle est convexe sur l'ouvert X.

2.4 Diérentiabilité au sens de Gâteaux et de Fréchet

Dénition 12. Soient E un espaces vectoriel normé. Une fonction f :E → R est dite Gâteaux-diérentiable en x ∈ dom(f) si elle admet une dérivée directionnelle en x dans toutes les directions v∈E

Dxf(v) := d dt

t=0

f(x+tv)∈R,

(10)

et si l'application v7→D_xf(v) est linéaire continue surE.

Remarque 8. La diérentiabilité au sens de Gâteaux est une notion assez faible. Par exemple, considérons la fonctionf :R² →Rdénie par

f(x1, x2) =

(1 six1 6= 0 etx2 =x²₁ 0 sinon

Les dérivées directionnelles de f en (0,0) sont toutes nulles, de sorte que f est Gâteaux-diérentiable en ce point avecD_(0,0)f = 0. Cependant, la fonction f n'est même pas continue en (0,0)!

Proposition 27. Soit f : E → R une fonction convexe continue en x ∈ E. Alors,

f est Gâteaux-diérentiable en x ⇐⇒ v∈E7→f⁺(x;v) est linéaire

⇐⇒ ∀v∈E, f⁺(x;v) =−f⁺(x;−v) Dans ce cas, on a D_xf =f⁺(x;·).

On sait déjà que l'application v 7→ f⁺(x;v) est linéaire sous la deuxième hypo- thèse, il sut donc d'appliquer le lemme suivant.

Lemme 28. Soit f : E → R une fonction convexe continue en x ∈ E. Alors l'application v∈E7→f⁺(x, v) est continue.

Démonstration. Commef est continue enx, elle est localement bornée au voisinage de xet donc M-Lipschitz dans un voisinage de x. En particulier,

f(x₀+εv)−f(x₀)≤M εkvk,

d'oùg(v) :=f⁺(x;v)≤Mkvk. Par sous-additivité de la fonction g, pourv, h∈E, g(v)−g(h)≤g(v+h)≤g(v) +g(h),

on en déduit la continuité deg :g(v)−Mkhk ≤g(v+h)≤g(v) +Mkhk.

Dénition 13. Une fonctionf :E→Rest dite Fréchet-diérentiable enx∈dom(f) si elle est Gâteaux-diérentiable en xet si

v→0,v6=0lim

|f(x+v)−f(x)−D_xf(v)|

kvk = 0 (2.8)

ou de manière plus compacte,f(x+v) =f(x) + Dxf(v) + o(kvk).

(11)

Remarque 9. La diérentiabilité au sens de Fréchet est la notion habituelle de dié- rentiabilité. Les implications suivantes sont vraies (et immédiates) : Fréchet diéren- tiabilité=⇒Gâteaux-diérentiabilité=⇒linéarité de l'applicationv7→f⁺(x;v). En revanche, les implications réciproques sont fausses sans hypothèses supplémentaires.

Remarque 10. La Fréchet-diérentiabilité implique évidemment la continuité. Ainsi, la fonction f : R² → R considérée dans l'exemple précédent, qui est Gâteaux- diérentiable en(0,0)mais discontinue en ce point, n'est pas Fréchet-diérentiable.

2.5 Théorèmes de diérentiabilité presque partout

Motivation. SoitHun espace de Hilbert. Étant donné un compact convexeK ⊆E etx^∗ ∈E, on s'intéresse au problème de programmation linéaire suivant :

maxx∈Khx^∗|xi (2.9)

On notef :x^∗ ∈E →Rla fonction valeur du problème de programmation linéaire, qui est convexe comme maximum de fonctions linéaires. De plus, sixest une solution du problème (2.9), c'est-à-direx∈K etf(x^∗) =hx^∗|xi, on a

f⁺(x^∗, v^∗) = lim

ε→0

1

ε(f⁺(x^∗+εv^∗)−f(x^∗))

≥ lim

ε→0

1

ε(hx^∗+v^∗|xi − hx^∗|xi)≥ hv^∗|xi

On s'intéresse maintenant à l'unicité du maximiseur de (2.9). Supposons qu'il existe x6=y∈K tel que f(x^∗) =hx^∗|xi=hx^∗|yi. Alors, par le raisonnement précédent,

f⁺(x^∗, v^∗)≥max(hv^∗|xi,hv^∗|yi).

L'application v^∗ ∈ E^∗ 7→ f⁺(x^∗;v^∗) ne peut alors pas être linéaire, et f n'est donc pas diérentiable enx. Étudier la diérentiabilité def enx^∗ nous apprend donc des choses sur l'unicité de la solution au problème de programmation linéaire (2.9).

2.5.1 Diérentiabilité des fonctions convexes sur R

Théorème 29. Soit f : R→ R une fonction convexe, et I = int(dom(f)). Alors, l'ensemble des points deI oùf n'est pas dérivable est au plus dénombrable.

Démonstration. Soitf_d⁰(x) =f⁺(x; 1)etf_g⁰(x) =−f⁺(x,−1)les dérivées à droite et gauche. En utilisant la croissance des pentes d'une fonction convexe surR, on peut montrer que ces fonctions sont croissantes (exercice). Pour toutx≤x₀ dansI, on a

f_d⁰(x) = inf

y>x

f(y)−f(x)

y−x ≤ f(x₀)−f(x)

x0−x ≤f_g⁰(x₀), ce qui implique l'inégalité

lim

x→x⁻₀

f_d⁰(x)≤f_g⁰(x0)≤f_d⁰(x0)

(12)

La fonctionf est dérivable enx0 si et seulement sif_g⁰(x0) =f_d⁰(x0). Ainsi, sif n'est pas diérentiable enx₀, la fonctionf_d⁰ a un saut enx₀ :

lim

x→x⁻₀

f_d⁰(x)< f_d⁰(x₀).

On conclut en utilisant le fait qu'une fonction croissante ne peut avoir qu'un nombre dénombrable de sauts.

Remarque 11. Ce théorème est faux en dimension plus grande. Considérer la fonction convexef sur R² dénie parf(x1, x2) =|x₁|: cette fonction n'est pas diérentiable sur la droite{0} ×R, qui est indénombrable.

2.5.2 Gâteaux-diérentiabilité des fonctions convexes sur un espace de Banach séparable

On rappelle qu'un espace de BanachE est dit séparable si il contient un ensemble dénombrable dense.

Théorème 30 (Mazur). Soit E un espace de Banach séparable, Ω ⊆ E un ouvert convexe et f : Ω → R une fonction convexe continue. Alors, f est Gâteaux- diérentiable sur un sous-ensemble dense de Ω.

Pour démontrer ce théorème on considère une une suite(vn)n≥0 dense dansE et on introduit les ensembles

A_m,n={x∈Ω|f⁺(x, v_n) +f⁺(x,−v_n)≥1/m}, A= [

m,n≥1

A_m,n (2.10) Le plan de la démonstration est le suivant : (a) f est Gâteaux-diérentiable sur l'ensembleΩ\A (b) que chacun desA_m,n est fermé et (c) que chacun des A_m,n est d'intérieur vide. Par théorème de Baire appliqué à un ouvert dans un espace complet (cf [?, p. 83]), on sait alors queAest d'intérieur vide (ou de manière équivalente que Ω\A est dense).

Proposition 31. La fonctionf est Gâteaux-diérentiable sur l'ensembleΩ\A. Démonstration. Commef est continue sur Ω, par la proposition 27,

f n'est pas G.-diérentiable enx∈Ω =⇒ ∃v∈E, f⁺(x, v) +f⁺(x,−v)>0

=⇒ ∃v∈E,∃m >1, f⁺(x, v) +f⁺(x,−v)>2/m

=⇒ ∃m, n≥1, f⁺(x, vn) +f⁺(x,−v_n)>1/m

=⇒x∈A,

où l'on a utilisé la continuité de l'applicationv 7→f⁺(x, v).

Proposition 32. L'ensembleAm,n déni par (2.10) est fermé dansE.

Cette proposition est une conséquence immédiate du lemme suivant donnant la semicontinuité supérieure dex7→g⁺(x, v).

(13)

Lemme 33. Soit g :E → R une fonction convexe continue en un point x de E, et soit (x_k) une suite qui converge vers x. Alors, g⁺(x, v)≥lim sup_k→∞g⁺(x_k, v). Démonstration. Comme g est continue en x, elle est L-lipschitzienne dans un voisinage de x. Sans perte de généralité, on suppose que la suite (x_k) reste dans ce voisinage. Soitε >0. En utilisant la lipschitzité deg etxk →x, on a

1

ε(g(x+εv)−f(x)) = 1

ε(g(x_k+εv)−g(x_k)−2Lkx−x_kk)

≥g⁺(x_k, v)−2Lkx−xkk ε

≥lim sup

k→∞

g⁺(x_k, v).

On en déduit le lemme en passant à l'inmum à gauche.

Proposition 34. L'ensembleA_m,n déni par (2.10) est d'intérieur vide.

Démonstration. On raisonne par l'absurde, et l'on suppose que l'intérieur de A_m,n contient un pointx. Alors, il exister >0 tel que B(x, r)⊆A_m,n. Soitx_t:=x+tv_n etg:t∈[0, r]7→f(xt). Alors,

∀t∈[0, r], −f⁺(x_t,−v_n) + 1/m≤f⁺(x_t, v_n)

=⇒ ∀t∈[0, r], g n'est pas diérentiable ent

Ceci contredit le théorème (29), qui arme que l'ensemble de non-diérentiabilité de gest au plus dénombrable.

2.5.3 Fréchet-diérentiabilité presque partout des fonctions convexes en dimension nie

Le comportement des fonctions convexes en dimension nie est beaucoup plus simple qu'en dimension innie. Soit f : R^d → R une fonction convexe et x est un point de continuité de f. On va montrer la chaine d'implication suivante :

f admet des dérivées partielles

∂f

∂ei(x)

1≤i≤d

=⇒l'applicationv7→f⁺(x;v) est linéaire

=⇒f est Gâteaux-diérentiable enx

=⇒f est Fréchet-diérentiable enx

On en déduira le théorème principal de ce chapitre, armant qu'une fonction convexe f :R^d→Rest diérentiable en presque tout point de son domaine.

Remarque 12. Dans la suite, on fera souvent l'hypothèse que le domaine des fonctions considérées est d'intérieur non vide. Pour traiter le cas général, il sut de considérer la restriction def à l'enveloppe ane dedom(f).

(14)

Proposition 35. Soit E un espace de dimension nie et f :E → Rune fonction convexe. La restriction de f à l'intérieur relatif de dom(f) est localement Lipschitz.

Démonstration de la proposition 35. On suppose également que E = Rⁿ. Quitte à restreindre f à l'enveloppe ane de son domaine, on suppose que Ω = int(dom(f)) est non vide, et quitte à translater, on suppose queΩcontient l'origine. Il existe donc r > 0 tel que Ω contienne le cube [−r, r]ⁿ. Soit X = {(±r, . . . ,±r)}, de sorte que [−r, r]ⁿ= conv(X) (exercice). On pose

M = max

εi∈{±1}ⁿf(ε1r, . . . , εnr).

Soit x ∈ [−r, r]ⁿ. Comme [−r, r]ⁿ = conv(X), il existe k ≥ 0, x₁, . . . , x_k ∈ X, λ₁, . . . , λ_k ≥0de sorte que P

iλ_i = 1etx=P

iλ_ix_i. Alors, f(x)≤

k

X

i=1

λ_if(x_i)≤

k

X

i=1

λ_iM =M.

Ainsi,f est localement bornée en un point, et par proposition 18 elle est localement lipschitzienne sur l'intérieur de son domaine.

Proposition 36. Soit E un espace vectoriel de dimension nie et f : E → R une fonction convexe. Sif est Gâteaux-diérentiable en un pointxdeint(dom(f)), alors f est Fréchet-diérentiable en ce point.

Cette proposition est en fait une conséquence du lemme suivant, et du fait que f est localement lipschitzienne au voisinage de x.

Lemme 37. Soit f : B(x, r) →R, dim(E) <+∞, une fonction M-Lipschitz. Si f est Gâteaux-diérentiable en x, alors elle est également Fréchet-diérentiable en x. Démonstration. Soit ε > 0. Par compacité de la sphère unité S de E, il existe une famille de vecteurs (v_i)1≤i≤N de S telle que S ⊆ ∪_iB(v_i, ε). Par Gâteaux- diérentiabilité de f enx, pour toutε >0et tout i, il existe δi tel que

∀t∈[−δ_i, δ_i], kf(x+tv_i)−(f(x) +tD_xf(v_i))k ≤ε|t|

Soitδ := miniδi>0. Par construction des (vi), pour tout vecteur v deS, il existei tel que kv_i−vk ≤ε. Alors, en utilisant le caractère Lipschitz def et de D_xf,

kf(x+tvi)−f(x+tv)k ≤M|t|ε kD_xf(vi)−Dxf(x+tv)k ≤M|t|ε Ainsi, pour toutv∈S ett≤δ,

kf(x+tv)−(f(x) +tDxf(v))k ≤ kf(x+tvi)−(f(x) +tDxf(vi))k+ 2M ε|t|

≤(2M+ 1)ε|t|

(15)

De manière équivalente, pour toutv∈E,kvk ≤δ,

kf(x+v)−(f(x) + Dxf(v))k ≤(2M+ 1)εkvk, et la fonction f est donc bien Fréchet-diérentiable enx.

Proposition 38. Soit E un espace vectoriel de dimension nie, et (ei) une base de E et f : E → R une fonction convexe. Alors f est Gâteaux-diérentiable en x∈int(dom(f)) si et seulement si elle admet des dérivées partielles en x :

∂f

∂e_i(x) = lim

t→0

f(x+tei)−f(x)

t .

Lemme 39. Soitg:E→R une fonction sous-linéaire. Alors, l'ensemble V ={v ∈E |f⁺(x;v) =−f⁺(x;−v)}

est un sous-espace vectoriel de E.

Démonstration. Par sous-linéarité, 0 = p(u+ (−u)) ≤ p(u) +p(−u), de sorte que

−p(−u)≤p(u). Par construction, l'ensembleV est stable par multiplication par un scalaire. Soient v, w∈V. On a

g(v+w)≤g(v) +g(w) =−g(−v) +−g(−w)≤ −g(−v−w)≤g(v+w).

Ainsi,v+w∈V etV est bien un sous-espace vectoriel deE.

Démonstration de la proposition 38. La fonctionf est localement Lipschitz au voisinage dex, etg=f⁺(x;·) est sous-linéaire. Soit V :={v∈E|g(v) =−g(−v)}.Par le lemme précédent, V est un sous-espace vectoriel de E, et par hypothèse e_i ∈ V pour touti. Ainsi, V =E etf⁺(x;·) est linéaire.

Théorème 40. Soit E un espace vectoriel de dimension nie et f : E → R une fonction convexe. Alors,f est Fréchet-diérentiable en presque tout point de int(dom(f)).

Démonstration. Soit A l'ensemble des points de Ω := int(dom(f))où la fonction f n'est pas Fréchet-diérentiable. Par la proposition 38, l'ensembleAest contenu dans l'intersection des ensembles

A_i :=

x∈Ω| ∂f

∂ei n'existe pas enx

.

Ainsi, pour montrer queAa une mesure nulle, il sut de démontrer que chacun des Ai a une mesure nulle. Sans perte de généralité, on suppose queE=Rⁿeti=n, et on considèreφla fonction indicatrice deAn. Par thèorème de Tonelli,

λ(A_n) = Z

Rⁿ

φ(x)dx= Z

Rⁿ⁻¹

Z

R

φ(y, x_n)dx_ndy

Or, pour tout y ∈ Rⁿ⁻¹, t 7→ φ(y, t) est la fonction indicatrice du lieu By de non- diérentiabilité de la fonction convexe t ∈ R7→ f(y, t). Par le theoreme 29, B_y est dénombrable et donc de mesure de Lebesgue nulle.