4.3 Théorème de Fenchel-Rockafellar et applications

(1)

Optimisation

4.1 Sous-diérentiel d'une somme et optimalité

Proposition 68. Soient f, g:E→R deux fonctions convexes propres et semi- continues inférieurement. Alors,

∀φ∈E^∗, (f +g)^∗(φ)≤(f^∗g^∗)(φ) (4.1)

∀x∈E, ∂(f+g)(x)⊇∂f(x) +∂g(x) (4.2) Démonstration. Soitφ₀dansE^∗. Par inégalité de Young, on a pour tout pointx∈E et toute forme linéaireφ∈E^∗,

f(x) +f^∗(φ)≥ hx|φi

g(x) +g^∗(φ₀−φ)≥ hx|φ₀−φi.

En prenant la somme de ces inégalités on obtient

f(x) +g(x) +f^∗(φ) +g^∗(φ0−φ)≥ hx|φ₀i, ou encore

f^∗(φ) +g^∗(φ0−φ)≥ hx|φ₀i −f(x) +g(x).

En prenant le suprémum surx du membre de droite et l'inmum sur φdu membre de gauche on obtient l'inégalité (4.1). L'inclusion (4.2) est laissée en exercice.

Théorème 69. Soient f, g : E → R deux fonctions convexes semi-continues inférieurement. On suppose que la condition de qualication suivante est vériée :

∃x₀ ∈dom(f)∩dom(g), tel que f est continue en x0 (Q)

43

(2)

Alors,

∀φ∈E^∗, (f +g)^∗(φ) = (f^∗g^∗)(φ) (4.3)

∀x∈E, ∂(f+g)(x) =∂f(x) +∂g(x) (4.4) De plus, l'inmum dans la dénition de f^∗g^∗ est atteint.

Lemme 70. Sous les mêmes hypothèses que celle du théorème, la fonction h(u) = inf

x∈Ef(x) +g(x+u) est convexe et continue en l'origine.

Démonstration. Soitx₀ un point deEvériant la condition de qualication (Q). Par continuité def enx0, il existe une constanteK etr >0telle quef ≤K sur la boule B(x₀, r)⊆E, et on a donc

∀u∈B(0, r), h(u)≤f(x0) +g(x0+u)≤f(x0) +K.

La fonctionh est bornée au voisinage de l'origine, et y est donc continue.

Démonstration de la formule (4.3). On commence par démontrer la formule (4.3) lorsque φ= 0. Cette formule se réécrit de la manière suivante :

(f+g)^∗(0) = (f^∗g^∗)(0)

⇐⇒ −inf

x∈Ef(x) +g(x) = inf

φ∈E^∗f^∗(φ) +g^∗(−φ).

Comme on sait déjà que(f +g)^∗(0)≤(f^∗g^∗)(0), il nous sut de démontrer que h(0) = inf

x∈Ef(x) +g(x)≤ − inf

φ∈E^∗f^∗(φ) +g^∗(−φ), (4.5) où h est la fonction déne dans le lemme. Par continuité de h en l'origine, il existe une forme linéaireφ₀ dans le sous-diérentiel ∂h(0), ce qui signie que

∀u∈E, h(0) +hφ₀|u−0i ≤h(u).

Alors,

∀u∈E, h(0)≤h(u)− hφ₀|ui= inf

x∈Ef(x) +g(x+u)− hφ₀|ui ou de manière équivalente

∀x, u∈E, h(0)≤f(x) +g(x+u)− hφ₀|ui

=f(x) +hφ₀|xi+g(x+u)− hφ_O|x+ui

Ainsi, en prenant d'abord l'inmum suru∈E dans le second membre on obtient

∀x∈E, h(0)≤f(x) +hφ₀|xi+ inf

u∈Eg(x+u)− hφ₀|x+ui

=f(x) +hφ₀|xi −g^∗(φ0),

(3)

puis en prenant l'inmum sur x on a h(0)≤ −f^∗(−φ₀)−g^∗(φ0), qui implique bien l'inégalité voulue (4.5). On se rend de plus compte queφ₀ réalise l'inmum dans la dénition de(f^∗g^∗)(0).

Nous passons maintenant à la démonstration dans le cas général. Soit φ0 dans E^∗ et soit h=g−φ0. Un calcul simple montre que h^∗(φ) =g^∗(φ+φ0) de sorte que

(f +h)^∗(0) = sup

x∈E

φ0(x)−f(x) +g(x) = (f+g)^∗(φ0) (f^∗h^∗)(0) = inf

φ f^∗(φ) +h^∗(−φ) = (f^∗g^∗)(φ₀)

En appliquant l'égalité (4.3) àf eth en φ= 0, on trouve l'égalité (4.3) pourf etg en φ=φ0.

Démonstration de la formule (4.4). Soit x un point de E et φ₀ ∈ ∂(f +g)(x). Il s'agit de démontrer queφ0 peut s'écrire comme la somme d'un élément de∂f(x) et d'un élément de∂g(x). Si l'on poseh=g−φ0, on voit que0∈∂(f+h)(x) et donc quexest un minimum global def+h. En appliquant la formule (4.3) (et le fait que l'inmum est atteint), on sait qu'il existe unφ1∈E^∗ tel que

f(x) +h(x) = inf

z∈Ef(z) +g(z) =−(f+h)^∗(0) =−f^∗(φ₁)−h^∗(−φ₁) c'est-à-direA+B = 0 où

A=f(x) +f^∗(φ1)− hx|φ₁i etB =h(x) +h^∗(−φ₁)− hx| −φ1i

Par inégalité de Fenchel-Young on sait de plus queAetB sont positifs. Ceci montre que A et B sont nuls. Par la caractérisation du cas d'égalité dans l'inégalité de Fenchel-Young, on en déduit queφ₁ ∈∂f(x)et−φ₁ ∈∂h(x). Commeh=g−φ₀, la seconde inclusion impliqueφ₀−φ₁∈∂g(x). Conclusion,

φ₀ =φ₁+ (φ₀−φ₁) oùφ1 ∈∂f(x) etφ0−φ1∈∂g(x)comme annoncé.

Corollaire 71. Soientf₁, . . . , f_n:E →Rdes fonctions convexes semi-continues inférieurement. On suppose que la condition de qualication suivante est vériée :

∃x₀∈dom(f₁)∩. . .∩dom(f_n), tel que f₂, . . . , f_n sont continues en x₀ (Q) alors,

∀x∈E, ∂(f1+. . .+fn)(x) =∂f1(x) +. . .+∂fn(x).

(4)

Exemple : problème à frontière libre On s'intéresse au problème suivant, qu'on peut voir comme la discrétisation d'un problème à frontière libre :

x∈minRⁿ,x≥p

1 2kGxk²

où G est une matrice dénie positive. On peut réécrire le problème sous la forme suivante, où l'on a poséC_i ={x∈Rⁿ|x_i≥p_i}etf(x) = ¹₂kGxk² :

x∈minRⁿ

f(x) + X

1≤i≤n

i_C_i(x) Soitx^∗ un minimum global. Alors,

0∈∂(f+ X

1≤i≤n

i_C_i)(x^∗).

Commef est continue surRⁿ, les conditions du théorème sont vériées et on a donc, en utilisant∂f(x) ={∇f(x)},

∂(f + X

1≤i≤n

i_C_i)(x^∗) =∇f(x^∗) + X

1≤i≤n

∂i_C_i(x^∗)

Nous posonsL=G^tG, de sorte que∇f(x) =Lx. Un calcul élémentaire montre que

∂i_C_i(x) =







0 six_i< p_i R⁻ei six=pi

∅ sinon

Ainsi, on obtient 0 = x^∗+Pn

i=1λiei,où λi ≤0 et λi = 0 si fi =gi. Ainsi, on voit quex^∗ est caractérisé par le système

(Lx^∗≥0

∀i∈ω,(Lx^∗)i = 0 oùω ={i∈ {1, . . . , n} |gi< fi}

Lemme 72. Soit E un espace vectoriel normé, φ0 une forme linéaire continue sur E, a∈R et C={x∈E| hφ₀|xi ≤a}. Alors,

∂iC(x) =







0 si hφ₀|xi< a R⁺φ₀ si hφ₀|xi=a

∅ sinon

Démonstration. Sihφ₀|xi< a,xest dans l'intérieur deC, doncf⁺(x,·) = 0, de sorte que ∂i_C(x) = 0. On suppose désormais que hφ₀|xi=a, et on se donneφ∈ ∂i_C(x), c'est-à-dire que

∀x∈C, hφ|x−x0i ≤0.

SoitH ={v∈E| hφ₀|vi= 0}. On vérie facilement quex0+H⊆C de sorte que,

∀v∈H,hφ|vi ≤0.

(5)

En remplaçant v par −v, on obtient φ|_H = 0 ou encore φ ∈H^⊥. Par un argument standard d'algèbre linéaire on en déduit que φ = λφ₀ où λ ∈ R. En eet, soit w ∈ E \H et λ = hφ|wi/hφ₀|wi. Alors, la forme linéaire φ −λφ₀ s'annule sur l'hyperplan H et en w et est donc nulle. Il reste à déterminer le signe de λ. Pour cela, on prend un vecteurx∈int(C), c'est-à-dire tel quehφ₀|x−x0i<0. Alors,

hφ₀|x−x0i=λhφ|x−x0i ≤0, soit λ≥0

Exemple : projection sur un polyèdre SoitHun espace de Hilbert, etv1, . . . , vn∈ Hdes vecteurs, eta₁, . . . , a_ndes scalaires. On suppose que l'intersection des convexes Ci = {x ∈H | hv_i|xi ≤ ai} a un intérieur non vide. On s'intéresse au problème de projection d'un point x0

x∈∩miniCi

1

2kx−x0k² = min

x∈Hf(x) + X

1≤i≤n

iCi(x),

où f(x) = ¹₂kx−x₀k². On peut appliquer le théorème sur la somme des sous- diérentiels pour obtenir quex^∗ est un minimiseur si et seulement si

0∈ ∇f(x) + X

1≤i≤n

∂iCi(x).

De plus, on vérie que

∂iCi(x) =







0 sihv_i|xi< ai

R⁺vi sihv_i|xi=ai

+∞ sinon

Ainsi, la condition d'optimalité peut s'écrire de la façon suivante : 0 =x^∗−x₀+

n

X

i=0

λ_iv_i,

oùλ_i ≥0etλ_i = 0si hv_i|xi< a_i.

4.2 Sous-diérentiel, cône normal et théorème KKT

Dénition 24. Soit K un ensemble convexe fermé dans un espace vectoriel normé E etx∈K. On appelle cône normal de K en x l'ensemble

NxK ={φ∈E^∗ | ∀y∈K, φ(y)≤φ(x)}.

Lemme 73. SoitK convexe fermé et x∈K. Alors, N_xK =−∂i_K(x).

(6)

Démonstration. Par dénition de la fonction indicatrice convexe, φ∈NxK ⇐⇒ ∀y ∈K, φ(y)≤φ(x)

⇐⇒ ∀y ∈K, φ(y) +iK(y)≤φ(x) +iK(x)

⇐⇒ ∀y ∈E, φ(y) +i_K(y)≤φ(x) +i_K(x)

⇐⇒φ∈∂i_K(x)

Exemple 20. Soit K ⊆E un convexe fermé et f :E → Rune fonction convexe sci.

On suppose une des deux hypothèses de qualication suivante :

∃x₀ ∈int(K)∩dom(f) (Q1)

∃x₀ ∈K t.q.f est continue en x₀ (Q2) Alors, en appliquant le théorème sur la somme des sous-diérentiel à f +i_K, on a les équivalences suivantes :

x^∗ est minimum global def ⇐⇒ ∃φ∈∂f(x)t.q. −φ∈∂iK(x)

⇐⇒ ∃φ∈∂f(x)t.q. φ∈∂N_K(x)

⇐⇒ ∃φ∈∂f(x)t.q. ∀y∈K, φ(y)≤f(x).

Proposition 74. Soit g : E → R une fonction convexe continue, et soit K l'ensemble K ={x∈E|g(x)≤0}. On suppose la condition de Slater vériée :

∃x₀ ∈K t.q. f(x0)<0 (S) Alors pour tout x∈K, le cône normal à K en x est égal au cône engendré par le sous-diérentiel de g enx :

NxK =

({0} si g(x)<0 R⁺∂g(x) si g(x) = 0, ou on a noté R⁺C={λx|λ≥0, x∈C}.

Remarque 19. En d'autre termes,φ∈NxK est équivalent à l'existence de λ≥0 tel queλg(x) = 0 etφ∈λ∂g(x).

Démonstration. Sig(x)<0, alorsi_Cest localement constante au voisinage dexdonc dérivable et de gradient nul, i.e.∂iC(x) ={0}. On suppose désormais que g(x) = 0, et il s'agit de démontrer queA=B oùA=N_xK =∂i_K(x)etB =R⁺∂g(x). Étape 1 Commençons par l'inclusion facileB ⊆A : soit φ∈∂g(x) etλ≥0, on a

∀y∈E, g(y)≥ hφ|y−xi+g(x) =hφ|y−xi de sorte que,

∀y∈K,0≥λg(y)≥λhφ|y−xi, i.e. λφ∈NxK

(7)

Étape 2 On veut maintenant montrer l'inclusion réciproque. Soit φ∈NxK et soit H le demi-espaceH := {y ∈E | hφ|yi ≥ hφ|xi}. Par dénition du cône normal, on sait queC⊆E\int(H). En utilisant de plus C={g≤0} on obtient

y ∈int(H) =⇒y6∈C =⇒g(y)≥g(x) = 0

Autrement dit, le point xest le minimum de la fonctiong surH, c'est-à-dire 0∈∂(g+i_H)(x) =∂g(x) +R⁺{−φ}.

Ainsi, il existeψ∈∂g(x) etλ≥0tels queλφ=ψ. Pour conclure, il sut d'exclure le casλ= 0: si c'était le cas on aurait0∈∂g(x), i.e.min_Eg= 0ce qui contredirait la condition de Slaterg(x₀)<0.

Théorème 75 (Karush-Kuhn-Tucker). Soit f :E →R une fonction convexe sci et g1, . . . , gN :E→R des fonctions convexes continues. On suppose :

∃x₀ ∈dom(f) t.q. ∀i∈ {1, . . . , N}, g_i(x0)<0.

Alors il y a équivalence entre

(i) x est un minimum global de f sur l'ensemble C ={x∈E |gi(x)≤0}. (ii) il existe λ₁, . . . , λ_N ∈R+ tels que

(0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x) λ_ig_i(x) = 0 ∀i∈ {1, . . . , N}

Démonstration. On pose Ci = {x ∈ E | gi ≤ 0}. La condition de qualication du théorème sur la somme de sous-diérentiels est vériée, de sorte que

∀x∈E, ∂(f +i_C₁+. . .+i_C_N)(x).

Ainsi,x est minimiseur global def surC=T

iCi si et seulement si 0∈∂(f +iC1+. . .+iCN)(x) =∂f(x) +∂iC1(x) +. . .+∂iCN(x),

i.e. il existe φ∈∂f(x) etφi ∈∂iCi(x) tels que φ+φ1+. . .+φN = 0. On a montré précédemment queφi∂i_C_i(x)⇐⇒ ∃λ_i≥0 tel que λigi(x) = 0 etφi∈λi∂gi(x). Exemple 21. Soientf etg₁, . . . , g_N comme dans le théorème et on supposef coercive pour avoir l'existence d'un minimum global. Pour λ1, . . . , λN ∈R⁺, on considère le problème pénalisé

minx∈Ef(x) +λ₁g₁(x) +. . .+λ_Ng_N(x).

Alors, avecC={x∈E | ∀i, g_i(x)≤0} on a minx∈Cf(x)≥min

x∈Ef(x) +λ₁g₁(x) +. . .+λ_Ng_N(x),

c'est-à-dire que le minimum du problème pénalisé est toujours plus petit que le minimum du problème avec contraintes. En d'autre termes,

sup

λ1,...,λN≥0

minx∈Ef(x) +λ1g1(x) +. . .+λ_Ng_N(x)≤min

x∈Cf(x)

(8)

Une question naturelle est de déterminer s'il existe desλ1, . . . , λN ≥0tels qu'on ait égalité.

Le théorème de Karush-Kuhn-Tucker répond à cette question. Il existe λ_i ∈R⁺ tel que

0∈∂f(x) +λ1∂g1(x) +. . .+λ_N∂g_N(x), de sorte que

0∈∂(f+λ₁g₁+. . .+λ_Ng_N)(x).

Ainsi,x est aussi le minimum global du problème pénalisé, on parle alors de pénali- sation exacte.

Exemple 22. On se donne un ensemble ni y1, . . . , yN ∈ R^d et on s'intéresse au problème de déterminer le rayon de la plus petite sphère contenant ces points, i.e.

min{r≥0| ∃x∈R^d,∀i∈ {1, . . . , N},ky_i−xk ≤r}.

On introduit g_i : R^N⁺¹ → R,(x, r) 7→ ky_i−xk − r, de sorte que g_i(x, r) si et seulement siky_i−xk ≤r. On peut alors réécrire le problème comme

(x,r)∈Cmin f(x, r), où f(x, r) = r,C = T

iC_i et C_i = {g_i ≤ 0}. Les hypothèses du théorème Karush- Kuhn-Tucker sont vériée : tout le point (x, R) est dans l'intérieur de C si R >

max_ikx_i−xk. Un point (x, r) ∈ R^d×R résoud ce problème si et seulement si il existe λ₁, . . . , λ_N ≥0 vériantλ_ig_i(x) = 0et tels que

0∈∂f(x) +λ₁∂g₁(x) +. . .+λ_N∂g_N(x).

On remarque d'abord que six=yi, alorsgi(x)<0 (sinon,r = 0ety1 =. . .=yN), de sorte que λi = 0. Six6=yi, on a ∂gi(x) ={∇g_i(x)}où

∇g_i(x) = ((x−yi)/kx−yik,−1).

Ainsi,

0 = (0,1) + X

i|kx−yik=r

λi((x−yi)/kx−yik,−1), En regardant la dernière coordonnée, on a 1 = P

iλi. De plus, en observant les d premières coordonnées on obtient

0 = X

i|kx−y_ik=r

λ_i x−y_i kx−y_ik = 1

r X

i|kx−y_ik=r

λ_i(x−y_i)

Autrement dit, (x, r) est un minimiseur global si et seulement x est combinaison convexe des pointsy_i tels queky_i−xk=r.

4.3 Théorème de Fenchel-Rockafellar et applications

(9)

Théorème 76 (Fenchel-Rockafellar). Soit E un espace vectoriel normé, f, g : E → R deux fonctions convexes sci vériant l'hypothèse de qualication (Q).

On suppose de plus inf_Ef+g >+∞. Alors,

x∈Einf f(x) +g(x) = max

φ∈E^∗−f^∗(−φ)−g^∗(φ) (4.6) Démonstration. On a par dénition de la conjuguée,

x∈Einf f(x) +g(x) =−(f+g)^∗(0),

et la conclusion suit par le théorème sur la transformée de Legendre-Fenchel d'une somme (Théorème 69 et plus précisément (4.3)) appliqué enφ= 0 :

(f +g)^∗(φ) = inf

ψ∈E^∗f(φ−ψ) +g(ψ).

Dénition 25 (Plan de transport). SoientXetY deux ensembles nis etµ:X→R etν : Y → Rdeux mesures de probabilité sur X et Y respectivement (c'est-à-dire queµ, ν ≥0 etP

xµ(x) =P

yν(y) = 1). On appelle plan de transport entre µ etν une matriceγ :X×Y →Rvériant

∀(x, y)∈X×Y, γ(x, y)≥0 (4.7) (∀x∈X, P

y∈Y γ(x, y) =µ(x)

∀y∈Y, P

x∈Xγ(x, y) =ν(y) (4.8)

L'ensemble des plans de transport entreX etY est noté Γ(X, Y).

On se donne de plus une fonctionc:X×Y →Rmesurant le coût de déplacement d'une unité de masse d'un pointx∈Xvers un pointy∈Y. Le problème du transport optimal entre µetν pour le coût c consiste à minimiser

P = inf

γ∈Γ(X,Y)

X

(x,y)∈X×Y

γ(x, y)c(x, y) (K)

Ce problème est appelle problème de Kantorovich primal. Un minimiseur de ce pro- blème d'optimisation est appelé plan de transport optimal entre X etY.

Théorème 77 (Kantorovich). Le problème de Kantorovich primal est équivalent au problème de Kantorovich dual, i.e. P =Doù

D= sup





 X

x∈X

φ(x)µ(x) +X

y∈Y

φ(y)ν(y)|φ∈R^X, ψ∈R^Y, φ(x) +ψ(y)≤c(x, y)





 .

(4.9) Remarque 20. Interprétation économique du problème dual.

(10)

Remarque 21. Commençons par montrer comment retrouver ce résultat de manière informelle par la méthode des multiplicateurs de Lagrange. On écriti≥0 la fonction indicatrice des γ vériant la contrainte (4.7) et i_µ et i_ν celles associée aux deux contraintes (4.8)

i≥0(γ) = sup

σ:X×Y→R,σ≥0

− X

(x,y)∈X×Y

γ(x, y)σ(x, y)

i_µ(γ) = sup

φ:X→R

X

x∈X

φ(x)



µ(x)−X

y∈Y

γ(x, y)





i_ν(γ) = sup

ψ:Y→R

X

y∈Y

ψ(y) ν(y)−X

x∈X

γ(x, y)

!

Alors, P = inf

γ∈Γ(X,Y)

X

(x,y)∈X×Y

γ(x, y)c(x, y)

= inf

γ

X

x,y

γ(x, y)c(x, y) +i≥0(γ) +i_µ(γ) +i_ν(γ)

= inf

γ sup

σ≥0,φ,ψ

X

x,y

γ(x, y)(c(x, y)−σ(x, y)−µ(x)−ν(y)) +X

x

φ(x)µ(x) +X

y

ψ(y)γ(y)

Pour trouver le problème dual, on inverse l'inmum et le supremum (cette opération sera justiée par Fenchel-Rockafellar),

D:= sup

σ≥0,φ,ψ

infγ

X

x,y

γ(x, y)(c(x, y)−σ(x, y)−µ(x)−ν(y))+X

x

φ(x)µ(x)+X

y

ψ(y)ν(y).

Ensuite, on écrit les conditions nécessaires d'optimalité du problème de minimisation interne inf_γ, les valeurs deσ, φ, ψ étant xées :

c(x, y) =σ(x, y) +φ(x) +ψ(y)

En utilisant ces conditions dans la formule précédente, on voit que les termes dans la double somme P

x,y s'annulent, de sorte que D= sup

σ≥0,φ,ψ

X

x

φ(x)µ(x) +X

y

ψ(y)γ(y),

sous la contraintec(x, y) =σ(x, y) +φ(x) +ψ(y). On peut supprimer la variable σ et se retrouver avec l'équation (4.9).

Démonstration du théorème 77. Le problème de Kantorovich revient à minimiser la sommef +g sur l'espaceE=R^X^×Y, où

f(γ) = (P

(x,y)∈X×Y γ(x, y)c(x, y) siγ ≥0

+∞ sinon , (4.10)

g(γ) =i_µ(γ) +i_ν(γ) =

(0 si (4.8) est veriee

+∞ sinon (4.11)

(11)

Dans les calculs suivant, on munit l'espaceE de la structure Euclidienne canonique, et on l'identie avec son dual. On a :

f^∗(π) = sup

γ∈E

hπ|γi −f(γ)

= sup

γ∈E,γ≥0

X

(x,y)∈X×Y

(π(x, y)−c(x, y))γ(x, y)

=

(0 si∀(x, y)∈X×Y t.q.π(x, y)≤c(x, y) +∞ sinon

Passons maintenant au calcul de la conjuguée deg: g^∗(π) = sup

γ∈E

hπ|γi −g(γ)

= sup





 X

(x,y)∈X×Y

π(x, y)γ(x, y)| ∀x∈X,X

y∈Y

γ(x, y) =µx et∀y∈Y,X

x∈X

γ(x, y) =νy





 Par la remarque 21, on s'attend à ce queπ(x, y) =φ(x) +φ(y)oùφ∈R^X etψ∈R^Y.

Supposons dans un premier temps que c'est bien le cas. Alors, pour toutγ vériant les conditions de marge,

X

(x,y)∈X×Y

π(x, y)γ(x, y) = X

x∈X

φ(x)X

y∈Y

γ(x, y) +X

y∈Y

ψ(y)X

x∈X

γ(x, y)

= X

x∈X

φ(x)µ(x) +X

y∈Y

φ(y)ν(y)

Supposons maintenant que π(x, y) n'est pas de la forme φ(x) +ψ(y). Ceci signie qu'il existex06=x1∈X tels queπ(x0,·)−π(x1,·) n'est pas constant surY, i.e.

∃y₀ 6=y₁ ∈y t.q. π(x₀, y₀)−π(x₁, y₀)6=π(x₀, y₁)−π(x₁, y₁)

On supposera (par exemple) que π(x₀, y₀) +π(x₁, y₁) > π(x₁, y₀) +π(x₀, y₁). Soit δ∈R^X×Y déni parδ(x₀, y₀) =δ(x₁, y₁) = 1etδ(x₀, y₁) =δ(x₁, y₀) =−1. Alors, si γ vérie les conditions de marge,γ+tδ les vérie aussi. De plus,

X

(x,y)∈X×Y

π(x, y)(γ+tδ)(x, y) = X

(x,y)∈X×Y

π(x, y)γ(x, y)+t(π(x₀, y₀)+π(x₁, y₁)−π(x₁, y₀)−π(x₀, y₁)), de sorte qu'en faisant tendretvers+∞, on voit que le supremum dans la dénition

de g^∗ vaut +∞. En conclusion, g^∗(π) =

(P

x∈Xφ(x)ν(x) +P

y∈Y φ(y)ν(y) si∃φ∈R^X, ψ∈R^Y, π(x, y) =φ(x) +ψ(y)

+∞ sinon

Pour conclure, il sut donc de vérier qu'on est bien dans les conditions d'application du théorème de Fenchel-Rockafellar, et en particulier que la la condition de

(12)

qualication (Q) est vériée. Soit π0(x, y) = µ(x)ν(y), π0 ∈ E. Ce π0 satisfait les conditions de marge (4.8), de sorte queπ ∈dom(g). De plus,π ≥minµ·minν >0 de sorte que π est à l'intérieur du domaine de f, et donc en dimension nie, f est continue en π. Ainsi,

P = sup

π

−f^∗(π)−g^∗(−π) = sup

φ,ψ|φ+ψ≤c

X

x∈X

µ(x)φ(x) +X

y∈Y

ν(y)ψ(y).

Théorème 78 (Fenchel-Rockafellar). Soit E un espace vectoriel normé, Λ : E → F une application linéaire continue et f : E → R et g : F → R deux fonctions convexes sci vériant l'hypothèse de qualication

∃x∈E, t.q. x∈dom(f) etg continue en Λx (Q') On suppose de plus que inf_Ef +g◦Λ > −∞. Pour ψ ∈ F^∗, on pose Λ^∗ψ = ψ◦Λ∈E^∗. Alors,

x∈Einf f(x) +g(Λx) = max

ψ∈F^∗−f^∗(−Λ^∗ψ)−g^∗(ψ) (4.12) Démonstration. On va chercher à appliquer la précédente version du théorème de Fenchel-Rockafellar sur l'espace produitE×F. On pose

f₁:E×F →R, (x, y)7→

(f(x) siy= Λx 0 sinon

g1:E×F →R, (x, y)7→g(y)

On a alors facilement que inf_Ef +g◦ Λ = infE×F f₁ +g₁. Il s'agit maintenant d'appliquer la précédente version du théorème de Fenchel-Rockafellar à ce deuxième problème. On identie(E×F)^∗ à E^∗×F^∗. Pourφ∈E^∗ etψ∈F^∗, on a

f₁^∗(φ, ψ) = sup

x∈E,y∈F

hφ|xi+hψ|yi −f₁(x) = sup

x,y|Λx=y

hφ|xi+hψ|yi −f(x)

= sup

x,y|Λx=y

hφ|xi+hψ|Λxi −f(x) = sup

x,y|Λx=y

hφ+ Λ^∗ψ|xi −f(x)

=f^∗(φ+ Λ^∗ψ) g^∗₁(φ, ψ) = sup

x∈E,y∈F

hφ|xi+hψ|yi −g₁(x) = sup

x∈E,y∈F

hφ|xi+hψ|yi −g(x)

=

(+∞ si ψ6= 0 g^∗(ψ) sinon

Ainsi, par thèorème de Fenchel-Rockafellar et en utilisant les calculs précédents, infE f+g◦Λ = inf

E×Ff₁+g₁ =− sup

(φ,ψ)∈E^∗×F^∗

f₁^∗(−φ,−ψ) +g₁^∗(φ, ψ)

=− sup

ψ∈F^∗

f(−Λ^∗ψ) +g(ψ)

(13)

Exemple 23. On considère le problème de minimisation surRⁿ, oùAest une matrice àm lignes etn colonnes,x₀∈Rⁿ :

x∈minRⁿ

1

2kx−x0k²₂+kAxk₁ = min

x∈Rⁿ

f(x) +g(Ax).

Commef etgsont continues, on peut appliquer le théorème de Fenchel-Rockafellar.

Calculons maintenant les conjuguées def etg : f^∗(y) = sup

x∈Rⁿ

hx|yi −1

2kx−x₀k²

=hx₀|yi+ sup

x∈Rⁿ

hx−x0|yi −1

2kx−x0k²₂

=hx₀|yi+1

2kyk²₂= 1

2ky+x0k²₂−1

2kx₀k²₂, où l'on a utilisé (¹₂k.k²₂)^∗ = ¹₂k.k²₂. De plus,

g^∗(y) = sup

x∈R^m

X

i

xiyi−X

i

|x_i|= X

1≤i≤m

h^∗(yi), où l'on a poséh:x∈R→ |x|. De plus,

h^∗(r) = sup

s∈R

rs− |s|=

(0 sir ∈[−1,1]

+∞ sinon

Ainsi, g^∗ est la fonction indicatrice de [−1,1]^m (qui est la boule unité pour k.k_∞).

Ainsi,

x∈minRⁿ

1

2kx−x0k²₂+kAxk₁ = min

x∈Rⁿ

f(x) +g(Ax)

= max

y∈Rⁿ

−f^∗(−A^ty)−g^∗(y)

= min

y∈[−1,1]ⁿ

1 2

A^ty−x0

2 2−1

2kx₀k²

4.4 Algorithme du point proximal

Dans cette dernière section, on suppose queE est un espace de Hilbert, que l'on identiera à son dual. On rappelle qu'une fonctionf :E → Rest dite 0-coercive si lim_kxk→∞f(x) = +∞.

Dénition 26. Soit f :E →R une fonction convexe propre et semi-continue infé- rieurement. Pour γ >0, on dénit l'opérateur proximal def par

prox_γf(x) = arg min

y∈E

1

2γkx−yk²+f(y).

(14)

Exemple 24. SiiC oùC est un ensemble convexe fermé deH,prox_γiC =pC. L'opé- rateur proximal généralise la fonction projection sur un ensemble convexe, et possède un certain nombre de ses propriétés.

Proposition 79. Soit f :E →R est convexe propre, semi-continue inférieurement etγ >0. Alors,

(i) Le problème de minimisation suivant admet un unique minimiseur.

miny∈E

1

2γ kx−yk²+f(y), et lopérateur proximal def est donc bien déni.

(ii) Le point p= prox_γf(x) est caractérisé par la relation x∈(id +γ∂f) (p).

(iii) Le point x est un minimiseur global de la fonction f sur E si et seulement s'il est point xe de l'opérateur proximal, i.e.x= prox_γf(x).

Démonstration. Soit g = _2γ¹ kx− ·k² et h = f +g (i) La fonction h est convexe propre, semi-continue inférieurement pour la topologie forte, et elle est 0-coercive (i.e.lim_kyk→∞h(y) = +∞). Soitr >infh: le sous niveauK ={h≤r}est convexe, fortement fermé et donc faiblement fermé. Comme de plusK est borné,K est donc faiblement compact. La fonctionf est convexe et fortement semi-continue inférieu- rement et donc faiblement semi-continue inférieurement. Elle atteint donc son minimum (global) surK. Par stricte convexité de kx− ·k²,h est strictement convexe et le minimum est donc unique.

(ii) En utilisant le théorème sur la somme des sous-diérentiels, on voit que p= prox_γf(x) si et seulement si

0∈∂(f +g)(p) =∂f(p) +1

γ {p−x} ⇐⇒x∈(id +γ∂f)(p).

(iii) Le pointx est un minimiseur global de f si et seulement si 0∈∂f(x)⇐⇒x∈(id +γ∂f)(x)⇐⇒x= prox_γf(x).

Exemple 25. Soith:R→R, x7→ |x|. On a

∂h(y) =







−1 siy <0 [−1,1] siy= 0 1 siy >0

=⇒ (id +γ∂h)(y) =







y−γ siy <0 [−γ, γ] siy = 0 y+γ siy >0 .

Par la caractérisation donnée dans la proposition précédente, on obtient

prox_γh(x) =







x−γ six≥γ

0 si −γ ≤x≤γ x+γ six≤ −γ.

(15)

On note Rγ = prox_γh. Cette fonction est appelée opérateur de seuillage doux (ou soft thresholding) en statistique et en traitement d'image. Soit maintenant E =Rⁿ muni de la norme euclidienne et f(x) =kxk₁ =P

1≤i≤n|x_i|. Alors,

y∈minRⁿ

1

2γ kx−yk²₂+f(y) = min

y∈Rⁿ

X

1≤i≤n

1

2γ(xi−yi)²+|y_i|, de sorte que prox_γf(x) = (R_γ(x₁), . . . , R_γ(x_n)).

La caractérisation donnée en (iii) du minimum global comme un minimiseur def invite à utiliser l'algorithme de point xe pour résoudre numériquement le problème d'optimisation :

(x0 ∈E

xn+1= prox_γf(xn) (PPA)

Cet algorithme est appelé algorihtme du point proximal et a été introduit Martinet (puis généralisé par Rockafellar) dans les années 1960. Avant de pouvoir montrer la convergence de cet algorithme, nous avons besoin de plus d'informations sur l'opé- rateur proximal.

Dénition 27. Un opérateurF :E →E est dit fermement non-expansif s'il vérie une des conditions équivalentes suivantes

(i) ∀x, y∈E, kF(x)−F(y)k² ≤ hF(x)−F(y)|x−yi

(ii) ∀x, y∈E, kF(x)−F(y)k² ≤ kx−yk²− k(x−F(x))−(y−F(y))k² Pour voir l'équivalence entre ces deux conditions, il sut de remarquer que k(x−F(x))−(y−F(y))k² =kx−yk²+kF(x)−F(y)k²−2hx−y|F(x)−F(y)i Proposition 80. Soit f : E → R une fonction convexe, propre et semi-continue inférieurement et γ >0. Alors

(i) Le point p= prox_γf(x) est caractérisé par l'inégalité

∀q∈E, 1

γhx−p|q−pi ≤f(q)−f(p) (ii) L'opérateur F :x7→prox_γf(x) est fermement non-expansif.

Démonstration. (i) Le pointp= prox_λf(x) est caractérisé parx∈(id +γ∂f)(p) ou de manière équivalente par _γ¹(x−p)∈∂f(p). C'est-à-dire,

∀q ∈E, f(q)≥f(p) +1

γhx−p|q−pi.

(ii) Soient x₁, x₂ et p_i = prox_γf(x_i). Appliquons l'inégalité de (i) en prenant d'abordx=x1,p=p1 etq =p2 puis en inversant les rôles :

f(p₂)−f(p₁)≥ 1

γhx₁−p₁|p₂−p₁i f(p₁)−f(p₂)≥ 1

γhx₂−p₂|p₁−p₂i

(16)

En additionnant ces inégalités puis en multipliant par γ, on obtient kp₂−p1k²≤ hp₁−p2|x₁−x2i.

Remarquons que le caractère seulement1-Lipschitz deF = prox_γf ne permet pas d'appliquer le théorème du point xe contractant (il faudrait queF soit k-Lipschitz avec k <1). Cependant, la propriété de de non-expansivité ferme permet d'obtenir un théorème de convergence.

Théorème 81. Soit f :E→ Rune fonction convexe semi-continue inférieurement et0-coercive. Alors, la suite de points déni par lalgorithme du point proximal (PPA) converge faiblement vers un minimum global de f.

La démonstration de ce théorème provient des trois lemmes suivants, où l'on a posé F = prox_γf. Les deux premiers lemmes sont valables pour toute opérateur fermement non expansifF.

Lemme 82. Soit F : E → E un opérateur fermement non-expansif admettant un point xe. Alors, la suite dénie par xn+1 =F(xn) est bornée et

n→∞lim kx_n−xn+1k= 0.

Démonstration. Soitc un point xe deF. La non-expansivité ferme donne : kF x_n−F ck²≤ kx_n−ck²− k(x_n−F(xn))−(c−F(c))k². En utilisantF xn=xn+1 etF(c) =c, cette inégalité implique

kx_n+1−ck² ≤ kx_n−ck²− kx_n−xn+1k²

La suite kx_n−ck_n≥1 est décroissante et minorée donc convergente, de sorte que kx_n−xn+1k²≤ kx_n−ck²− kx_n+1−ck² −→

n→+∞0

Lemme 83. SoitF :E→E un opérateur non-expansif admettant un point xe. On suppose que tout point d'accumulation faible de la suite (x_n)n≥1 est un point xe de F. Alors (xn)n≥1 converge faiblement vers un point xe deF.

Démonstration. Soientc1etc2deux points d'accumulation faibles de(xn)n≥0, qui par hypothèses sont des points xes deF. On a remarqué au cours de la démonstration du lemme précédent quekx_n+1−c_ik² ≤ kx_n−c_ik², ce qui implique que la suite

kx_nk²−2hx_n|c_ii=kx_n−c_ik²− kc_ik²,

est décroissante donc convergente. En soustrayant ces suites pouri= 1 et2, (kx_nk²−2hx_n|c₁i)−(kx_nk²−2hx_n|c₂i) = 2hx_n|c₁−c₂i

est convergente. Comme c₁ etc₂ sont des points d'accumulation (faibles) de x_n, on a donc en passant à la limite des sous-suites correspondantes

hc₁|c₁−c2i=hc₂|c₁−c2i

ce qui implique quekc₁−c2k²= 0, soitc1 =c2. La suite(xn)n≥1 est bornée et a un unique point d'accumulation faible : elle est donc faiblement convergente.

(17)

Lemme 84. Soit F = prox_γf où f est convexe, propre, sci et 0-coercive. Alors tout point d'accumulation faible de la suite(x_n)n≥0 est un point xe de F.

Démonstration. L'application F admet un point xe car la fonction f admet un minimum global sur f. Par la caractérisation de x_n+1 = prox_γf(x_n) en terme de sous-diérentiel, on a

x_n∈(id + 1

λ∂f)(x_n+1) =x_n+1+ 1

λ∂f(x_n+1) Autrement dit,

∀x∈E, f(x)≥f(x_n+1) +1

γhx−x_n+1|x_n−xn−1i Soit(x_n_k) une sous-suite faiblement convergente de la suite(x_n). On a

∀x∈E, f(x)≥f(x_n_k₊₁) +1

γhx−x_n_k₊₁|x_n_k−x_n_k₊₁i

≥f(x_n_k₊₁)−1

γ kx−x_n_k₊₁k kx_n_k−x_n_k₊₁k

Or, on sait par un des lemmes précédents quelimn→+∞kx_n_k−xnk+1k= 0, de sorte qu'en passant à la limite faible (et en utilisant la semi-continuité faible def),x_n_k →

¯

x∈E, on a

∀x∈E, f(x)≥f(¯x),

ce qui implique quex¯est un minimum global def et donc un point xe de l'opérateur F.

Algorithme forward-backward On suppose que la fonction f minimisée peut être décomposée sous la forme f = f1 +f2 où f1 : E → R et f2 : E → R sont deux fonctions convexes semi-continues inférieurement, propres et 0-coercives. On demande de plus quef₂ soit diérentiable.

Proposition 85. Les assertions suivantes sont équivalentes (i) x∈E est un minimum global de f =f₁+f₂;

(ii) x est un point xe de l'opérateurF :x7→prox_γf₁(x−γ∇f₂(x)). Démonstration. x= arg minEf si et seulement si

0∈∂(f₁+f₂)(x) =∂f₁(x) +{∇f₂(x)}

⇐⇒ −∇f₂(x)∈∂f₁(x)

⇐⇒x−γ∇f₂(x)∈(id +γ∂f₁)(x)

⇐⇒x= prox_γf1(x−γ∇f₂(x))

(18)

Théorème 86. Soit f =f1+f2, oùf1:E →R etf2 :E →R sont deux fonctions convexes semi-continues inférieurement, propres et0-coercives. On demande de plus quef₂ soit diérentiable et x∈E 7→ ∇f₂(x) est L-Lipschitz. Soit γ ≤1/L, et

(x0∈E

xn+1 = prox_γf1(xn−γf2(xn)).

Alors, la suite(xn) converge faiblement vers un minimiseur de f.

Exemple 26. Soit E = Rⁿ, f1(x) = kxk₁ et f2(x) = ¹₂kAx−bk²₂. Alors, ∇f₂(x) = A^T(Ax−b), et prox_γf1 = Rγ est l'opérateur de seuillage doux. Dans ce contexte, l'algorithme décrit par le théorème est donné parx₀∈E et

xn+1 =Rγ(xn−γA^T(Axn−b)),

et est connu sous le nom de iterative shrinking-thresholding algorithm (ISTA) en statistique, traitement d'image et peut-être plus généralement être appliqué pour résoudre des problèmes inverses linéaires.