Cours de convexité et optimisation

(1)

Convexit´ e et optimisation Pr´eparation ` a l’agr´egation (2020–2021)

Jean-Fran¸cois Babadjian

Dans ce chapitre nous rappelons des propriétés élémentaires des ensembles et fonctions convexes dans Rⁿ, que nous appliquons dans un second temps à la recherche de minima en dimension finie.

1 Convexit´ e

D´efinition 1. Un ensembleC⊂Rⁿestconvexesi pour toutx,y ∈Cet toutθ∈[0,1], θx+ (1−θ)y∈C.

Exemple 1. 1. Les boules (ouvertes ou ferm´ees) deRⁿ sont convexes (quelque soit la norme) ;

2. Les sous-espaces vectoriels deRⁿ sont convexes ; 3. Les sous-espaces affines deRⁿ sont convexes.

D´efinition 2. Soit C ⊂ Rⁿ un ensemble convexe. Une fonction f : C → R est dite convexe si pour toutx,y∈C et toutθ∈[0,1],

f(θx+ (1−θ)y)≤θf(x) + (1−θ)f(y).

Si l’in´egalit´e ci-dessus est stricte quelque soient x 6= y et θ ∈ ]0,1[, on dit que f est strictement convexe.

Remarque 1. De fa¸con ´equivalente, f :C → R est convexe si et seulement si pour tout entier k≥2, tout x1, . . . , xk ∈C et tout θ1, . . . , θk ∈[0,1] tels que Pk

i=1θi = 1, on a

f

k

X

i=1

θixi

!

≤

k

X

i=1

θif(xi).

Par définition de la convexité, cette inégalité est vraie pourk= 2. Supposons que cela est vrai pour un certain entier k ≥ 2. Soient alors x1, . . . , x_k+1 ∈ C et θ1, . . . , θ_k+1 ∈

(2)

[0,1] tels quePk+1

i=1 θ_i = 1. On poset=θ_k+1 de sorte que 1−t= 1−θ_k+1=Pk i=1θ_i. Alors

k+1

X

i=1

θixi = (1−t)

k

X

i=1

θi

1−txi+txk+1. Par d´efinition de la convexit´e def, il vient

f

k+1

X

i=1

θ_ix_i

!

≤(1−t)f

k

X

i=1

θ_i 1−tx_i

!

+tf(x_k+1) puis, en utilisant l’hypoth`ese de r´ecurrence, comme Pk

i=1 θi

1−t= 1, f

k+1

X

i=1

θ_ix_i

!

≤(1−t)

k

X

i=1

θ_i

1−tf(x_i) +tf(x_k+1) =

k+1

X

i=1

θ_if(x_i).

Proposition 1. Soit C ⊂ Rⁿ un ensemble convexe. Une fonction f : C → R est convexe si et seulement si l’´epigrapheEpi(f) ={(x, t)∈C×R: f(x)≤t}est convexe.

D´emonstration. Supposons que Epi(f) est convexe, alors pour toutx et y ∈C, on a que (x, f(x)) et (y, f(y))∈Epi(f). Par convexit´e de Epi(f), pour toutθ∈[0,1], on a queθ(x, f(x)) + (1−θ)(y, f(y)) = (θx+ (1−θ)y, θf(x) + (1−θ)f(y))∈Epi(f), i.e.

f(θx+ (1−θ)y)≤θf(x) + (1−θ)f(y), ce qui montre quef est convexe.

R´eciproquement, si f est convexe, consid´erons (x, t) et (y, s) ∈ Epi(f). Pour tout θ∈[0,1], on a

f(θx+ (1−θ)y)≤θf(x) + (1−θ)f(y)≤θt+ (1−θ)s,

ce qui montre que (θx+ (1−θ)y, θt+ (1−θ)s) =θ(x, t) + (1−θ)(y, s)∈Epi(f) et donc

que Epi(f) est convexe.

1.1 Le cas de la dimension n = 1

Les fonctions convexes jouissent de propriétés de régularité. En dimension 1, cela se traduit par la propriété de croissance du taux d’accroissement.

Proposition 2. Soit f : ]a, b[→ R (avec −∞ ≤a < b ≤+∞) une fonction convexe.

Alors pour tout a < x < y < z < b, on a f(y)−f(x)

y−x ≤ f(z)−f(x)

z−x ≤ f(z)−f(y) z−y .

(3)

D´emonstration. Commey∈]x, z[, alors y=tx+ (1−t)z, avec t= z−y

z−x ∈]0,1[.

Par convexit´e def, il vient

f(y) =f(tx+ (1−t)y)≤tf(x) + (1−t)f(z) =f(x) + y−x

x−z[f(x)−f(z)], ce qui implique que

f(y)−f(x)

y−x ≤ f(z)−f(x) z−x .

La deuxième inégalité se montre de fa¸con similaire.

Corollaire 1. Soit f : ]a, b[ → R (avec −∞ ≤ a < b ≤ +∞) une fonction convexe.

Alors f est localement Lipschitzienne.

D´emonstration. Soient a < a₀ < a₁ < b₁ < b₀ < b. Pour tout x, y ∈ [a₁, b₁] (avec par exemplex < y), on a par la Proposition 2,

m= f(a₁)−f(a₀)

a₁−a₀ ≤ f(y)−f(x)

y−x ≤ f(b₀)−f(b₁) b₀−b₁ =M.

En posant L:= max(|m|,|M|), il vient

|f(y)−f(x)| ≤L(y−x),

ce qui montre quef est Lipschtzienne sur [a1, b1].

Corollaire 2. Soit f : ]a, b[ → R (avec −∞ ≤ a < b ≤ +∞) une fonction convexe.

Alorsf admet des dérivées à gauche et à droite en tout point qui satisfontf_g⁰(x)≤f_d⁰(x) pour tout x∈]a, b[.

D´emonstration. Soith >0 petit, alors d’apr`es la Proposition 2, f(x)−f(x−h)

h ≤ f(x+h)−f(x)

h .

Comme les deux quantit´es ci-dessus sont monotones par rapport `a h, elles admettent des limites quand h→0⁺, ce qui montre quef_g⁰(x) et f_d⁰(x) existent et satisfont

f_g⁰(x) = lim

h→0⁺

f(x)−f(x−h)

h ≤ lim

h→0⁺

f(x+h)−f(x)

h =f_d⁰(x).

(4)

1.2 Le cas de la dimension n ≥2

Proposition 3. Soit f :Rⁿ→R une fonction convexe, alors f est continue.

D´emonstration.

Etape 1. Soit x = (x₁, . . . , x_n) ∈ Rⁿ tel que kxk₁ := Pn

i=1|x_i| = 1. On note I ={i∈ {1, . . . , n}: x_i ≥0} etJ ={i∈ {1, . . . , n}: x_i <0}. Alors, en d´esignant par {e₁, . . . , en} la base canonique deRⁿ, on a

x=

n

X

i=1

x_ie_i =X

i∈I

x_ie_i+X

i∈J

(−x_i)(−e_i) =X

i∈I

|x_i|e_i+X

i∈J

|x_i|(−e_i).

Par convexit´e def (voir la Remarque 1), il vient f(x)≤X

i∈I

|x_i|f(e_i) +X

i∈J

|x_i|f(−e_i).

Soit M : max1≤i≤n max{f(ei), f(−e_i)}, on en d´eduit que f(x)≤M pour toutx∈Rⁿ tel quekxk₁= 1.

Etape 2. Fixons a ∈ Rⁿ et x ∈ Rⁿ tel que kxk₁ = 1. Considérons φ : R → R la fonction définie parφ(t) =f(a+xt)−f(a) pour toutt∈R. La convexité def montre que φ est également convexe. D’après la Proposition 2, on en déduit que pour tout t∈[−1,1], on a

φ(−1)−φ(0)

−1−0 ≤ φ(t)−φ(0)

t−0 ≤ φ(1)−φ(0) 1−0 , soit

f(a)−f(a−x)≤ f(a+tx)−f(a)

t ≤f(a+x)−f(a).

Comme les fonctions x 7→ f(a±x)−f(a) sont convexes, l’´etape 1 montre l’existence d’une constante M_a > 0 telle que f(a±x)−f(a) ≤ M_a pour tout x ∈ Rⁿ tel que kxk₁= 1. Par cons´equent

−M_at≤f(a+tx)−f(a)≤Mat pour tout t∈[−1,1].

Etape 3.Six∈Rⁿ etx6= 0, on ´ecrit quex=kxk₁_kxk^x

1. L’´etape 2 montre alors que

|f(a+x)−f(a)| ≤M_akxk₁, ce qui implique que f(a+x)→f(a) quand kxk₁ →0 et

donc la continuit´e def eta.

Remarque 2. Tout comme dans le cas de la dimension 1, on peut montrer que toute fonction convexe est en fait localement Lipschitzienne (`a l’int´erieur de son domaine).

Dans les résultats qui suivent nous nous intéressons à des caractérisation de la convexité pour des fonctions plus régulières.

(5)

Proposition 4. SoientU ⊂Rⁿ un ouvert,f une fonction de classeC¹ surU etC⊂U un ensemble convexe. Alors les propriétés suivantes sont équivalentes :

(i) f est convexe sur C;

(ii) pour tout x et y∈C, f(y)≥f(x) +∇f(x)·(y−x).

(iii) pour tout x et y∈C, (∇f(y)− ∇f(x))·(y−x)≥0.

D´emonstration. (i) =⇒ (ii) : Supposonsf convexe, alors pour toutx,y∈C et tout 0< t≤1, on af(ty+ (1−t)x)≤tf y) + (1−t)f(x), ce qui implique que

f(x+t(y−x))−f(x)

t ≤f(y)−f(x).

Par passage `a la limite quand t→0, on obtient

∇f(x)·(y−x) =df(x)(y−x)≤f(y)−f(x).

(ii) =⇒ (iii) : Pour toutx ety∈C, on a

(f(y)≥f(x) +∇f(x)·(y−x), f(x)≥f(y) +∇f(y)·(x−y).

On additionne les deux inégalités précédentes et on en déduit que (∇f(y)− ∇f(x))· (y−x)≥0.

(iii) =⇒ (ii) : Soient x et y ∈ C. Comme x ∈ U qui est ouvert, il existe r > 0 tel queB(x, r)⊂U. Pour toutt∈I := ]−r/kx−yk, r/kx−yk[, on a quex+t(y−x)∈ B(x, r) ⊂ U. On peut donc définir la fonction φ :I → R par φ(t) = f(x+t(y−x)) pour tout t ∈ I. La fonction φ est de classe C¹ sur I comme composée de fonctions de classe C¹. De plus, par le théorème de différentiation des fonctions composées, on a φ⁰(t) =df(x+t(y−x))(y−x) =∇f(x+t(y−x))·(y−x) et

f(y)−f(x) =φ(1)−φ(0) = Z 1

0

φ⁰(t)dt= Z 1

0

∇f(x+t(y−x))·(y−x)dt.

Par hypoth`ese, on a (commet >0)

[∇f(x+t(y−x))− ∇f(x)] ·(y−x)≥0 de sorte que

f(y)−f(x)≥ Z 1

0

∇f(x)·(y−x)dt=∇f(x)·(y−x), ce qu’il fallait montrer.

(6)

(ii) =⇒ (i) : Soient x, y ∈C et t ∈ [0,1]. Par convexit´e de C, on a y+t(x−y) = tx+ (1−t)y∈C d’o`u

(f(y)≥f(y+t(x−y))−t∇f(y+t(x−y))·(x−y), f(x)≥f(y+t(x−y)) + (1−t)∇f(y+t(x−y))·(x−y).

On multiplie la première inégalité par (1−t), la deuxième par tpuis on additionne, il vient

(1−t)f(y) +tf(x)≥f(tx+ (1−t)y),

ce qui montre la convexit´e de f surC.

Remarque 3. Dans le cas des fonctions f :R→R, la propriété (iii) montre que pour les fonctions de classe C¹, la croissance def⁰ est une condition nécessaire et suffisante

`

a la convexit´e def.

Exemple 2. 1. La fonctionx∈]0,+∞[7→(−ln)⁰(x) =−¹_x étant croissante, on en déduit que la fonction−ln est convexe sur ]0,+∞[. Par conséquent, siaetb >0 etp,q >1 sont tels que ¹_p+ ¹_q = 1, on a

−ln a^p

p +b^q q

≤ −1

pln(a^p)−1

qln(b^q) =−lna−lnb=−ln(ab), puis, par passage `a l’exponentielle,

ab≤ a^p p +b^q

q .

Cetteinégalité de Young s’étend de manière triviale au casa≥0 et b≥0.

2. Soientx, y ∈ Rⁿ non nuls, en appliquant l’inégalité de Young à |x_i| et |y_i|pour tout 1≤i≤n, il vient

|x_iyi| ≤ |x_i|^p

p +|y_i|^q q . En sommant pouri= 1, . . . , n on obtient

|x·y| ≤ kxk^p_p

p +kyk^q_q q .

En rempla¸cant x ety parx/kxk_p ety/kyk_q, respectivement, on en d´eduit que

|x·y| ≤ 1 p +1

q = 1, soit

|x·y| ≤ kxk_pkyk_q,

ce qui correspond à l’inégalité de Hölder. De nouveau, cette inégalité s’étend de manière évidente à tout vecteurs x ety∈Rⁿ.

(7)

3. Pour toutx₁, . . . , x_n>0, on a 1

n

X

i=1

lnxi = 1 nln

n

Y

i=1

xi

!

= ln





n

Y

i=1

xi

!1/n

.

La fonction exponentielle étant croissante et de dérivée égale à elle même, elle est convexe surR, d’où

n

Y

i=1

xi

!1/n

= exp

"

1 n

n

X

i=1

lnxi

#

≤ 1 n

n

X

i=1

exp(lnxi) = 1 n

n

X

i=1

xi.

Cetteinégalité arithmético-géométriques’étend à toutx1, . . . , xn≥0.

Le résultat suivant donne une caractérisation de la convexité à l’ordre 2 pour les fonctions de classeC².

Proposition 5. SoientU ⊂Rⁿ un ouvert,f une fonction de classeC² surU etC⊂U un ensemble convexe. Alors les propriétés suivantes sont équivalentes :

(i) f est convexe sur C;

(ii) pour tout x et y∈C, [D²f(x)(y−x)]·(y−x)≥0.

Démonstration. (i) =⇒ (ii) : Supposons f convexe sur C et soient x, y ∈ C. Par convexité de C, si t ∈ ]0,1], on a ty+ (1−t)x = x+t(y −x) ∈ C puis, d’après la Proposition 4,

(∇f(x+t(y−x))− ∇f(x))·(y−x)≥0.

On divise l’inégalité précédente par t puis on passe à la limite quand t → 0 ce qui implique [D²f(x)(y−x)]·(y−x)≥0.

(ii) =⇒ (i) : Soient x ety∈C. Commex∈U qui est ouvert, il existe r >0 tel que B(x, r) ⊂ U. Pour tout t ∈ I := ]−r/kx−yk, r/kx−yk[, on a que x+t(y−x) ∈ B(x, r) ⊂ U. On peut donc définir la fonction φ :I → R par φ(t) = f(x+t(y−x)) pour tout t ∈ I. La fonction φ est de classe C² sur I comme composée de fonctions de classe C². De plus, par le théorème de différentiation des fonctions composées, on a φ⁰(t) =∇f(x+t(y−x))·(y−x) etφ⁰⁰(t) = [D²f(x+t(y−x))(y−x)]·(y−x). D’après la formule de Taylor-Lagrange, il existe ¯t∈[0,1] tel que

φ(1) =φ(0) +φ⁰(0) + 1 2φ⁰⁰(¯t).

En posant ¯z= ¯tx+ (1−t)y, il vient¯

f(y) =f(x) +∇f(x)·(y−x) +1

2[D²f(¯z)(y−x)]·(y−x).

Or [D²f(¯z)(y−x)]·(y−x) = _(1−¯¹_t)2[D²f(¯z)(x−z)]¯ ·(x−z)¯ ≥0 ce qui implique que f(y)≥f(x) +∇f(x)·(y−x).

La convexit´e de f r´esulte de la Proposition 4.

(8)

2 Optimisation sur un ouvert

Soient U est un ouvert de Rⁿ et f une fonction de classe C¹ sur U. Nous avons déjà vu dans le cours de calcul différentiel que si f admet un minimum (ou même un extremum) local enx0∈U, alorsx0 est un point critique def :

∇f(x₀) = 0. (1)

Il s’agit d’une condition nécessaire d’optimalité d’ordre 1 également appeléeéquation d’Euler-Lagrange. De plus, si f est de classe C² sur U, alors les valeurs propres de la matrice hessienne D²f(x₀) sont toutes positives ou nulles, ce qui se traduit par le fait que la matrice D²f(x0) est positive, i.e.,

hD²f(x₀)u, ui ≥0 pour tout u∈Rⁿ.

La condition (1) n’est en général pas suffisante (pensez par exemple à la fonction f : x ∈ R 7→ x³ dont la dérivée s’annule en 0 qui n’est pas un point d’extremum local). En revanche, dans le cas des fonctions convexes, cette condition est également suffisante.

Proposition 6. Soit f :U →R une fonction de classe C¹ sur un ouvertU ⊂Rⁿ. On suppose que x₀ ∈U est un point critique de f et que f est convexe dans un voisinage convexe de x0. Alors x0 est un point de minimum local de f sur U.

Démonstration. Soitr >0 tel queB(x0, r)⊂U etfest convexe surB(x0, r). D’après la caractérisation à l’ordre 1 des fonctions convexes, on a pour tout y∈B(x0, r),

f(y)≥f(x₀) +h∇f(x₀), y−x₀i=f(x₀),

ce qui montre effectivement que x₀ est un point minimum de f sur B(x₀, r), et donc

un point de minimum local de f surU.

Exemple 3. Soit f :Rⁿ→Rla fonctionnelle quadratique d´efinie par f(x) = 1

2hAx, xi − hb, xi pour tout x∈Rⁿ,

o`u A∈ M_n(R) est sym´etrique etb∈Rⁿ. Il s’agit d’une fonction de classe C^∞ sur Rⁿ. De plus, pour tout x∈Rⁿ, on a

∇f(x) =Ax−b, D²f(x) =A.

Donc si f admet un minimum en x0, alors x0 est solution du système linéaire Ax = b et la matrice A est positive, autrement dit, la fonction f est convexe d’après la caractérisation à l’ordre 2 de la convexité. Réciproquement, sif est convexe surRⁿ, i.e.

siA est positive, et si x0 est un point critique def, alors x0 est un point de minimum (global) surRⁿ.

(9)

3 Optimisation sur un convexe

Commen¸cons par un résultat général d’existence et d’unicité.

Proposition 7. Soit C ⊂Rⁿ un ensemble fermé non vide et f :C →R une fonction semi-continue inférieurement. On suppose soitC borné, soit f coercive, i.e.

kxk→∞lim f(x) = +∞.

Alors f admet des points de minimum sur C. Si de plus C est convexe et f est strictement convexe, il y a unicit´e du point de minimum.

Démonstration. On définit I = infCf et on note que I < +∞ (à ce stade, il n’est pas exclu queI =−∞). Par définition de l’infimum, pour toutk∈N^∗, il existex_k∈C tel que

— siI =−∞, alors I ≤f(xk)≤ −k;

— siI ∈R, alors I ≤f(x_k)≤I+ 1/k.

On définit ainsi une suite (x_k)k∈N d’éléments de C ayant la propriété lim_kf(x_k) = I.

Une telle suite s’appelle suite minimisante.

On prétend que la suite (x_k)k∈N est bornée. Si l’ensemble C est borné, cette pro- priété est immédiate. Si f est coercive, supposons par l’absurde que, pour une sous- suite (x_ϕ(k))k∈N de (xk)k∈N, on ait kx_ϕ(k)k →+∞. Par coercivité def, on aurait que f(x_ϕ(k))→+∞ ce qui rentre en contradiction avec le fait que

k→+∞lim f(x_ϕ(k)) = lim

k→+∞f(x_k) =I <+∞.

On en déduit que dans cet autre cas, la suite (x_k)k∈N ne peut être que bornée.

D’après le théorème de Bolzano-Weierstrass, on peut extraire de (x_k)_k∈_N une sous- suite (x_σ(k))k∈N qui converge vers un élément ¯x ∈C (car C est fermé). Comme f est semi-continue inférieurement, on en déduit que

f(¯x)≤lim inf

k→+∞f(x_σ(k)) = lim

k→+∞f(x_k) =I ≤f(y) pour touty∈C.

Pour l’unicité, considérons deux points de minimum ¯x₁ et ¯x₂ ∈C tels que ¯x₁ 6= ¯x₂. Par convexité deC, on a que ^x^¯¹^+¯₂^x² ∈C et par stricte convexité de f, il vient

I ≤f

x¯1+ ¯x2

2

< 1

2(f(¯x1) +f(¯x2)) =I,

ce qui est absurde. Par cons´equent ¯x₁= ¯x₂.

Nous nous intéressons à présent à une condition nécessaire et suffisante d’optimalité dans le cas convexe.

(10)

Proposition 8. Soitf :U →R une fonction convexe et de classeC¹ sur un ouvert U de Rⁿ. Soit C⊂U un ensemble convexe, ferm´e non vide. Alors x¯∈C est solution de

x∈Cinf f(x)

si et seulement si x¯ est solution de l’in´equation d’Euler h∇f(¯x), y−xi ≥¯ 0 pour tout y ∈C.

Démonstration. Commen¸cons par la condition nécessaire. Il s’agit de faire des petites variations autour du point ¯x, mais dans des directions admissibles de fa¸con à rester dans le convexe. Pour ce faire, on considèret∈]0,1[ et y∈C de sorte que, par convexité de C,ty+ (1−t)¯x= ¯x+t(y−x)¯ ∈C. Par conséquent,

f(¯x)≤f(¯x+t(y−x)),¯ d’o`u

h∇f(¯x), y−xi¯ = lim

t→0⁺

f(¯x+t(y−x))¯ −f(¯x)

t ≥0.

Pour la condition suffisante, nous utilisons la caractérisation à l’ordre 1 de la convexité qui donne, pour tout y∈C,

f(y)≥f(¯x) +h∇f(¯x), y−xi ≥¯ f(¯x),

ce qui conclut la preuve de la proposition.

Exemple 4. On s’intéresse à la projection orthogonale d’un élément x ∈ Rⁿ sur un convexe fermé non videCdeRⁿ. Pour ce faire on considère le problème de minimisation

y∈Cinf kx−yk², (2)

oùk · kest une norme euclidienne sur Rⁿ. On posef(y) =kx−yk² (attention, icixest fixé ety est la variable). La fonction f est de classe C^∞ surRⁿ, car polynômiale. Elle est strictement convexe car siy₁ ety₂ ∈Rⁿ avec y₁6=y₂ ett∈]0,1[, alors

f(ty₁+ (1−t)y₂) = kt(x−y₁) + (1−t)y₂k²

= tkx−y1k²+ (1−t)kx−y2k²−t(1−t)ky₁−y2k²

< tf(y1) + (1−t)f(y2).

La fonctionf est coercive car, par l’in´egalit´e de Cauchy-Schwarz,

f(y) =kyk²−2hx, yi+kxk² ≥ kyk²−2kxkkyk+kxk²=P(kyk),

oùP(t) =t²−2kxkt+kxk² →+∞ quandt→+∞. D’après la Proposition 7, il existe un unique ¯y solution de (2). Il s’agit du projeté orthogonal de x sur C, parfois noté PC(x).

(11)

Question : pourquoi cette preuve d’existence et d’unicité de la projection orthogonale ne fonctionne pas dans un espace de Hilbert général ?

Le calcul du gradient de f donne, pour tout y∈Rⁿ,

∇f(y) = 2(y−x)

de sorte que la condition nécessaire et suffisante donnée par la Proposition 8 s’écrit ici h¯y−x, y−yi ≥¯ 0 pour touty∈C

ou encore

hx−P_C(x), y−P_C(x)i ≤0 pour touty∈C.

Question : cela vous rappelle-t-il quelque chose ?