Convexit´ e et optimisation Pr´eparation ` a l’agr´egation (2020–2021)
Jean-Fran¸cois Babadjian
Dans ce chapitre nous rappelons des propri´et´es ´el´ementaires des ensembles et fonc- tions convexes dans Rn, que nous appliquons dans un second temps `a la recherche de minima en dimension finie.
1 Convexit´ e
D´efinition 1. Un ensembleC⊂Rnestconvexesi pour toutx,y ∈Cet toutθ∈[0,1], θx+ (1−θ)y∈C.
Exemple 1. 1. Les boules (ouvertes ou ferm´ees) deRn sont convexes (quelque soit la norme) ;
2. Les sous-espaces vectoriels deRn sont convexes ; 3. Les sous-espaces affines deRn sont convexes.
D´efinition 2. Soit C ⊂ Rn un ensemble convexe. Une fonction f : C → R est dite convexe si pour toutx,y∈C et toutθ∈[0,1],
f(θx+ (1−θ)y)≤θf(x) + (1−θ)f(y).
Si l’in´egalit´e ci-dessus est stricte quelque soient x 6= y et θ ∈ ]0,1[, on dit que f est strictement convexe.
Remarque 1. De fa¸con ´equivalente, f :C → R est convexe si et seulement si pour tout entier k≥2, tout x1, . . . , xk ∈C et tout θ1, . . . , θk ∈[0,1] tels que Pk
i=1θi = 1, on a
f
k
X
i=1
θixi
!
≤
k
X
i=1
θif(xi).
Par d´efinition de la convexit´e, cette in´egalit´e est vraie pourk= 2. Supposons que cela est vrai pour un certain entier k ≥ 2. Soient alors x1, . . . , xk+1 ∈ C et θ1, . . . , θk+1 ∈
[0,1] tels quePk+1
i=1 θi = 1. On poset=θk+1 de sorte que 1−t= 1−θk+1=Pk i=1θi. Alors
k+1
X
i=1
θixi = (1−t)
k
X
i=1
θi
1−txi+txk+1. Par d´efinition de la convexit´e def, il vient
f
k+1
X
i=1
θixi
!
≤(1−t)f
k
X
i=1
θi 1−txi
!
+tf(xk+1) puis, en utilisant l’hypoth`ese de r´ecurrence, comme Pk
i=1 θi
1−t= 1, f
k+1
X
i=1
θixi
!
≤(1−t)
k
X
i=1
θi
1−tf(xi) +tf(xk+1) =
k+1
X
i=1
θif(xi).
Proposition 1. Soit C ⊂ Rn un ensemble convexe. Une fonction f : C → R est convexe si et seulement si l’´epigrapheEpi(f) ={(x, t)∈C×R: f(x)≤t}est convexe.
D´emonstration. Supposons que Epi(f) est convexe, alors pour toutx et y ∈C, on a que (x, f(x)) et (y, f(y))∈Epi(f). Par convexit´e de Epi(f), pour toutθ∈[0,1], on a queθ(x, f(x)) + (1−θ)(y, f(y)) = (θx+ (1−θ)y, θf(x) + (1−θ)f(y))∈Epi(f), i.e.
f(θx+ (1−θ)y)≤θf(x) + (1−θ)f(y), ce qui montre quef est convexe.
R´eciproquement, si f est convexe, consid´erons (x, t) et (y, s) ∈ Epi(f). Pour tout θ∈[0,1], on a
f(θx+ (1−θ)y)≤θf(x) + (1−θ)f(y)≤θt+ (1−θ)s,
ce qui montre que (θx+ (1−θ)y, θt+ (1−θ)s) =θ(x, t) + (1−θ)(y, s)∈Epi(f) et donc
que Epi(f) est convexe.
1.1 Le cas de la dimension n = 1
Les fonctions convexes jouissent de propri´et´es de r´egularit´e. En dimension 1, cela se traduit par la propri´et´e de croissance du taux d’accroissement.
Proposition 2. Soit f : ]a, b[→ R (avec −∞ ≤a < b ≤+∞) une fonction convexe.
Alors pour tout a < x < y < z < b, on a f(y)−f(x)
y−x ≤ f(z)−f(x)
z−x ≤ f(z)−f(y) z−y .
D´emonstration. Commey∈]x, z[, alors y=tx+ (1−t)z, avec t= z−y
z−x ∈]0,1[.
Par convexit´e def, il vient
f(y) =f(tx+ (1−t)y)≤tf(x) + (1−t)f(z) =f(x) + y−x
x−z[f(x)−f(z)], ce qui implique que
f(y)−f(x)
y−x ≤ f(z)−f(x) z−x .
La deuxi`eme in´egalit´e se montre de fa¸con similaire.
Corollaire 1. Soit f : ]a, b[ → R (avec −∞ ≤ a < b ≤ +∞) une fonction convexe.
Alors f est localement Lipschitzienne.
D´emonstration. Soient a < a0 < a1 < b1 < b0 < b. Pour tout x, y ∈ [a1, b1] (avec par exemplex < y), on a par la Proposition 2,
m= f(a1)−f(a0)
a1−a0 ≤ f(y)−f(x)
y−x ≤ f(b0)−f(b1) b0−b1 =M.
En posant L:= max(|m|,|M|), il vient
|f(y)−f(x)| ≤L(y−x),
ce qui montre quef est Lipschtzienne sur [a1, b1].
Corollaire 2. Soit f : ]a, b[ → R (avec −∞ ≤ a < b ≤ +∞) une fonction convexe.
Alorsf admet des d´eriv´ees `a gauche et `a droite en tout point qui satisfontfg0(x)≤fd0(x) pour tout x∈]a, b[.
D´emonstration. Soith >0 petit, alors d’apr`es la Proposition 2, f(x)−f(x−h)
h ≤ f(x+h)−f(x)
h .
Comme les deux quantit´es ci-dessus sont monotones par rapport `a h, elles admettent des limites quand h→0+, ce qui montre quefg0(x) et fd0(x) existent et satisfont
fg0(x) = lim
h→0+
f(x)−f(x−h)
h ≤ lim
h→0+
f(x+h)−f(x)
h =fd0(x).
1.2 Le cas de la dimension n ≥2
Proposition 3. Soit f :Rn→R une fonction convexe, alors f est continue.
D´emonstration.
Etape 1. Soit x = (x1, . . . , xn) ∈ Rn tel que kxk1 := Pn
i=1|xi| = 1. On note I ={i∈ {1, . . . , n}: xi ≥0} etJ ={i∈ {1, . . . , n}: xi <0}. Alors, en d´esignant par {e1, . . . , en} la base canonique deRn, on a
x=
n
X
i=1
xiei =X
i∈I
xiei+X
i∈J
(−xi)(−ei) =X
i∈I
|xi|ei+X
i∈J
|xi|(−ei).
Par convexit´e def (voir la Remarque 1), il vient f(x)≤X
i∈I
|xi|f(ei) +X
i∈J
|xi|f(−ei).
Soit M : max1≤i≤n max{f(ei), f(−ei)}, on en d´eduit que f(x)≤M pour toutx∈Rn tel quekxk1= 1.
Etape 2. Fixons a ∈ Rn et x ∈ Rn tel que kxk1 = 1. Consid´erons φ : R → R la fonction d´efinie parφ(t) =f(a+xt)−f(a) pour toutt∈R. La convexit´e def montre que φ est ´egalement convexe. D’apr`es la Proposition 2, on en d´eduit que pour tout t∈[−1,1], on a
φ(−1)−φ(0)
−1−0 ≤ φ(t)−φ(0)
t−0 ≤ φ(1)−φ(0) 1−0 , soit
f(a)−f(a−x)≤ f(a+tx)−f(a)
t ≤f(a+x)−f(a).
Comme les fonctions x 7→ f(a±x)−f(a) sont convexes, l’´etape 1 montre l’existence d’une constante Ma > 0 telle que f(a±x)−f(a) ≤ Ma pour tout x ∈ Rn tel que kxk1= 1. Par cons´equent
−Mat≤f(a+tx)−f(a)≤Mat pour tout t∈[−1,1].
Etape 3.Six∈Rn etx6= 0, on ´ecrit quex=kxk1kxkx
1. L’´etape 2 montre alors que
|f(a+x)−f(a)| ≤Makxk1, ce qui implique que f(a+x)→f(a) quand kxk1 →0 et
donc la continuit´e def eta.
Remarque 2. Tout comme dans le cas de la dimension 1, on peut montrer que toute fonction convexe est en fait localement Lipschitzienne (`a l’int´erieur de son domaine).
Dans les r´esultats qui suivent nous nous int´eressons `a des caract´erisation de la convexit´e pour des fonctions plus r´eguli`eres.
Proposition 4. SoientU ⊂Rn un ouvert,f une fonction de classeC1 surU etC⊂U un ensemble convexe. Alors les propri´et´es suivantes sont ´equivalentes :
(i) f est convexe sur C;
(ii) pour tout x et y∈C, f(y)≥f(x) +∇f(x)·(y−x).
(iii) pour tout x et y∈C, (∇f(y)− ∇f(x))·(y−x)≥0.
D´emonstration. (i) =⇒ (ii) : Supposonsf convexe, alors pour toutx,y∈C et tout 0< t≤1, on af(ty+ (1−t)x)≤tf y) + (1−t)f(x), ce qui implique que
f(x+t(y−x))−f(x)
t ≤f(y)−f(x).
Par passage `a la limite quand t→0, on obtient
∇f(x)·(y−x) =df(x)(y−x)≤f(y)−f(x).
(ii) =⇒ (iii) : Pour toutx ety∈C, on a
(f(y)≥f(x) +∇f(x)·(y−x), f(x)≥f(y) +∇f(y)·(x−y).
On additionne les deux in´egalit´es pr´ec´edentes et on en d´eduit que (∇f(y)− ∇f(x))· (y−x)≥0.
(iii) =⇒ (ii) : Soient x et y ∈ C. Comme x ∈ U qui est ouvert, il existe r > 0 tel queB(x, r)⊂U. Pour toutt∈I := ]−r/kx−yk, r/kx−yk[, on a quex+t(y−x)∈ B(x, r) ⊂ U. On peut donc d´efinir la fonction φ :I → R par φ(t) = f(x+t(y−x)) pour tout t ∈ I. La fonction φ est de classe C1 sur I comme compos´ee de fonctions de classe C1. De plus, par le th´eor`eme de diff´erentiation des fonctions compos´ees, on a φ0(t) =df(x+t(y−x))(y−x) =∇f(x+t(y−x))·(y−x) et
f(y)−f(x) =φ(1)−φ(0) = Z 1
0
φ0(t)dt= Z 1
0
∇f(x+t(y−x))·(y−x)dt.
Par hypoth`ese, on a (commet >0)
[∇f(x+t(y−x))− ∇f(x)] ·(y−x)≥0 de sorte que
f(y)−f(x)≥ Z 1
0
∇f(x)·(y−x)dt=∇f(x)·(y−x), ce qu’il fallait montrer.
(ii) =⇒ (i) : Soient x, y ∈C et t ∈ [0,1]. Par convexit´e de C, on a y+t(x−y) = tx+ (1−t)y∈C d’o`u
(f(y)≥f(y+t(x−y))−t∇f(y+t(x−y))·(x−y), f(x)≥f(y+t(x−y)) + (1−t)∇f(y+t(x−y))·(x−y).
On multiplie la premi`ere in´egalit´e par (1−t), la deuxi`eme par tpuis on additionne, il vient
(1−t)f(y) +tf(x)≥f(tx+ (1−t)y),
ce qui montre la convexit´e de f surC.
Remarque 3. Dans le cas des fonctions f :R→R, la propri´et´e (iii) montre que pour les fonctions de classe C1, la croissance def0 est une condition n´ecessaire et suffisante
`
a la convexit´e def.
Exemple 2. 1. La fonctionx∈]0,+∞[7→(−ln)0(x) =−1x ´etant croissante, on en d´eduit que la fonction−ln est convexe sur ]0,+∞[. Par cons´equent, siaetb >0 etp,q >1 sont tels que 1p+ 1q = 1, on a
−ln ap
p +bq q
≤ −1
pln(ap)−1
qln(bq) =−lna−lnb=−ln(ab), puis, par passage `a l’exponentielle,
ab≤ ap p +bq
q .
Cettein´egalit´e de Young s’´etend de mani`ere triviale au casa≥0 et b≥0.
2. Soientx, y ∈ Rn non nuls, en appliquant l’in´egalit´e de Young `a |xi| et |yi|pour tout 1≤i≤n, il vient
|xiyi| ≤ |xi|p
p +|yi|q q . En sommant pouri= 1, . . . , n on obtient
|x·y| ≤ kxkpp
p +kykqq q .
En rempla¸cant x ety parx/kxkp ety/kykq, respectivement, on en d´eduit que
|x·y| ≤ 1 p +1
q = 1, soit
|x·y| ≤ kxkpkykq,
ce qui correspond `a l’in´egalit´e de H¨older. De nouveau, cette in´egalit´e s’´etend de mani`ere ´evidente `a tout vecteurs x ety∈Rn.
3. Pour toutx1, . . . , xn>0, on a 1
n
n
X
i=1
lnxi = 1 nln
n
Y
i=1
xi
!
= ln
n
Y
i=1
xi
!1/n
.
La fonction exponentielle ´etant croissante et de d´eriv´ee ´egale `a elle mˆeme, elle est convexe surR, d’o`u
n
Y
i=1
xi
!1/n
= exp
"
1 n
n
X
i=1
lnxi
#
≤ 1 n
n
X
i=1
exp(lnxi) = 1 n
n
X
i=1
xi.
Cettein´egalit´e arithm´etico-g´eom´etriques’´etend `a toutx1, . . . , xn≥0.
Le r´esultat suivant donne une caract´erisation de la convexit´e `a l’ordre 2 pour les fonctions de classeC2.
Proposition 5. SoientU ⊂Rn un ouvert,f une fonction de classeC2 surU etC⊂U un ensemble convexe. Alors les propri´et´es suivantes sont ´equivalentes :
(i) f est convexe sur C;
(ii) pour tout x et y∈C, [D2f(x)(y−x)]·(y−x)≥0.
D´emonstration. (i) =⇒ (ii) : Supposons f convexe sur C et soient x, y ∈ C. Par convexit´e de C, si t ∈ ]0,1], on a ty+ (1−t)x = x+t(y −x) ∈ C puis, d’apr`es la Proposition 4,
(∇f(x+t(y−x))− ∇f(x))·(y−x)≥0.
On divise l’in´egalit´e pr´ec´edente par t puis on passe `a la limite quand t → 0 ce qui implique [D2f(x)(y−x)]·(y−x)≥0.
(ii) =⇒ (i) : Soient x ety∈C. Commex∈U qui est ouvert, il existe r >0 tel que B(x, r) ⊂ U. Pour tout t ∈ I := ]−r/kx−yk, r/kx−yk[, on a que x+t(y−x) ∈ B(x, r) ⊂ U. On peut donc d´efinir la fonction φ :I → R par φ(t) = f(x+t(y−x)) pour tout t ∈ I. La fonction φ est de classe C2 sur I comme compos´ee de fonctions de classe C2. De plus, par le th´eor`eme de diff´erentiation des fonctions compos´ees, on a φ0(t) =∇f(x+t(y−x))·(y−x) etφ00(t) = [D2f(x+t(y−x))(y−x)]·(y−x). D’apr`es la formule de Taylor-Lagrange, il existe ¯t∈[0,1] tel que
φ(1) =φ(0) +φ0(0) + 1 2φ00(¯t).
En posant ¯z= ¯tx+ (1−t)y, il vient¯
f(y) =f(x) +∇f(x)·(y−x) +1
2[D2f(¯z)(y−x)]·(y−x).
Or [D2f(¯z)(y−x)]·(y−x) = (1−¯1t)2[D2f(¯z)(x−z)]¯ ·(x−z)¯ ≥0 ce qui implique que f(y)≥f(x) +∇f(x)·(y−x).
La convexit´e de f r´esulte de la Proposition 4.
2 Optimisation sur un ouvert
Soient U est un ouvert de Rn et f une fonction de classe C1 sur U. Nous avons d´ej`a vu dans le cours de calcul diff´erentiel que si f admet un minimum (ou mˆeme un extremum) local enx0∈U, alorsx0 est un point critique def :
∇f(x0) = 0. (1)
Il s’agit d’une condition n´ecessaire d’optimalit´e d’ordre 1 ´egalement appel´ee´equation d’Euler-Lagrange. De plus, si f est de classe C2 sur U, alors les valeurs propres de la matrice hessienne D2f(x0) sont toutes positives ou nulles, ce qui se traduit par le fait que la matrice D2f(x0) est positive, i.e.,
hD2f(x0)u, ui ≥0 pour tout u∈Rn.
La condition (1) n’est en g´en´eral pas suffisante (pensez par exemple `a la fonction f : x ∈ R 7→ x3 dont la d´eriv´ee s’annule en 0 qui n’est pas un point d’extremum local). En revanche, dans le cas des fonctions convexes, cette condition est ´egalement suffisante.
Proposition 6. Soit f :U →R une fonction de classe C1 sur un ouvertU ⊂Rn. On suppose que x0 ∈U est un point critique de f et que f est convexe dans un voisinage convexe de x0. Alors x0 est un point de minimum local de f sur U.
D´emonstration. Soitr >0 tel queB(x0, r)⊂U etfest convexe surB(x0, r). D’apr`es la caract´erisation `a l’ordre 1 des fonctions convexes, on a pour tout y∈B(x0, r),
f(y)≥f(x0) +h∇f(x0), y−x0i=f(x0),
ce qui montre effectivement que x0 est un point minimum de f sur B(x0, r), et donc
un point de minimum local de f surU.
Exemple 3. Soit f :Rn→Rla fonctionnelle quadratique d´efinie par f(x) = 1
2hAx, xi − hb, xi pour tout x∈Rn,
o`u A∈ Mn(R) est sym´etrique etb∈Rn. Il s’agit d’une fonction de classe C∞ sur Rn. De plus, pour tout x∈Rn, on a
∇f(x) =Ax−b, D2f(x) =A.
Donc si f admet un minimum en x0, alors x0 est solution du syst`eme lin´eaire Ax = b et la matrice A est positive, autrement dit, la fonction f est convexe d’apr`es la caract´erisation `a l’ordre 2 de la convexit´e. R´eciproquement, sif est convexe surRn, i.e.
siA est positive, et si x0 est un point critique def, alors x0 est un point de minimum (global) surRn.
3 Optimisation sur un convexe
Commen¸cons par un r´esultat g´en´eral d’existence et d’unicit´e.
Proposition 7. Soit C ⊂Rn un ensemble ferm´e non vide et f :C →R une fonction semi-continue inf´erieurement. On suppose soitC born´e, soit f coercive, i.e.
kxk→∞lim f(x) = +∞.
Alors f admet des points de minimum sur C. Si de plus C est convexe et f est stric- tement convexe, il y a unicit´e du point de minimum.
D´emonstration. On d´efinit I = infCf et on note que I < +∞ (`a ce stade, il n’est pas exclu queI =−∞). Par d´efinition de l’infimum, pour toutk∈N∗, il existexk∈C tel que
— siI =−∞, alors I ≤f(xk)≤ −k;
— siI ∈R, alors I ≤f(xk)≤I+ 1/k.
On d´efinit ainsi une suite (xk)k∈N d’´el´ements de C ayant la propri´et´e limkf(xk) = I.
Une telle suite s’appelle suite minimisante.
On pr´etend que la suite (xk)k∈N est born´ee. Si l’ensemble C est born´e, cette pro- pri´et´e est imm´ediate. Si f est coercive, supposons par l’absurde que, pour une sous- suite (xϕ(k))k∈N de (xk)k∈N, on ait kxϕ(k)k →+∞. Par coercivit´e def, on aurait que f(xϕ(k))→+∞ ce qui rentre en contradiction avec le fait que
k→+∞lim f(xϕ(k)) = lim
k→+∞f(xk) =I <+∞.
On en d´eduit que dans cet autre cas, la suite (xk)k∈N ne peut ˆetre que born´ee.
D’apr`es le th´eor`eme de Bolzano-Weierstrass, on peut extraire de (xk)k∈N une sous- suite (xσ(k))k∈N qui converge vers un ´el´ement ¯x ∈C (car C est ferm´e). Comme f est semi-continue inf´erieurement, on en d´eduit que
f(¯x)≤lim inf
k→+∞f(xσ(k)) = lim
k→+∞f(xσ(k)) = lim
k→+∞f(xk) =I ≤f(y) pour touty∈C.
Pour l’unicit´e, consid´erons deux points de minimum ¯x1 et ¯x2 ∈C tels que ¯x1 6= ¯x2. Par convexit´e deC, on a que x¯1+¯2x2 ∈C et par stricte convexit´e de f, il vient
I ≤f
x¯1+ ¯x2
2
< 1
2(f(¯x1) +f(¯x2)) =I,
ce qui est absurde. Par cons´equent ¯x1= ¯x2.
Nous nous int´eressons `a pr´esent `a une condition n´ecessaire et suffisante d’optimalit´e dans le cas convexe.
Proposition 8. Soitf :U →R une fonction convexe et de classeC1 sur un ouvert U de Rn. Soit C⊂U un ensemble convexe, ferm´e non vide. Alors x¯∈C est solution de
x∈Cinf f(x)
si et seulement si x¯ est solution de l’in´equation d’Euler h∇f(¯x), y−xi ≥¯ 0 pour tout y ∈C.
D´emonstration. Commen¸cons par la condition n´ecessaire. Il s’agit de faire des petites variations autour du point ¯x, mais dans des directions admissibles de fa¸con `a rester dans le convexe. Pour ce faire, on consid`eret∈]0,1[ et y∈C de sorte que, par convexit´e de C,ty+ (1−t)¯x= ¯x+t(y−x)¯ ∈C. Par cons´equent,
f(¯x)≤f(¯x+t(y−x)),¯ d’o`u
h∇f(¯x), y−xi¯ = lim
t→0+
f(¯x+t(y−x))¯ −f(¯x)
t ≥0.
Pour la condition suffisante, nous utilisons la caract´erisation `a l’ordre 1 de la convexit´e qui donne, pour tout y∈C,
f(y)≥f(¯x) +h∇f(¯x), y−xi ≥¯ f(¯x),
ce qui conclut la preuve de la proposition.
Exemple 4. On s’int´eresse `a la projection orthogonale d’un ´el´ement x ∈ Rn sur un convexe ferm´e non videCdeRn. Pour ce faire on consid`ere le probl`eme de minimisation
y∈Cinf kx−yk2, (2)
o`uk · kest une norme euclidienne sur Rn. On posef(y) =kx−yk2 (attention, icixest fix´e ety est la variable). La fonction f est de classe C∞ surRn, car polynˆomiale. Elle est strictement convexe car siy1 ety2 ∈Rn avec y16=y2 ett∈]0,1[, alors
f(ty1+ (1−t)y2) = kt(x−y1) + (1−t)y2k2
= tkx−y1k2+ (1−t)kx−y2k2−t(1−t)ky1−y2k2
< tf(y1) + (1−t)f(y2).
La fonctionf est coercive car, par l’in´egalit´e de Cauchy-Schwarz,
f(y) =kyk2−2hx, yi+kxk2 ≥ kyk2−2kxkkyk+kxk2=P(kyk),
o`uP(t) =t2−2kxkt+kxk2 →+∞ quandt→+∞. D’apr`es la Proposition 7, il existe un unique ¯y solution de (2). Il s’agit du projet´e orthogonal de x sur C, parfois not´e PC(x).
Question : pourquoi cette preuve d’existence et d’unicit´e de la projection orthogonale ne fonctionne pas dans un espace de Hilbert g´en´eral ?
Le calcul du gradient de f donne, pour tout y∈Rn,
∇f(y) = 2(y−x)
de sorte que la condition n´ecessaire et suffisante donn´ee par la Proposition 8 s’´ecrit ici h¯y−x, y−yi ≥¯ 0 pour touty∈C
ou encore
hx−PC(x), y−PC(x)i ≤0 pour touty∈C.
Question : cela vous rappelle-t-il quelque chose ?