• Aucun résultat trouvé

4.3 Théorème de Fenchel-Rockafellar et applications

N/A
N/A
Protected

Academic year: 2022

Partager "4.3 Théorème de Fenchel-Rockafellar et applications"

Copied!
18
0
0

Texte intégral

(1)

Optimisation

4.1 Sous-diérentiel d'une somme et optimalité

Proposition 68. Soient f, g:E→R deux fonctions convexes propres et semi- continues inférieurement. Alors,

∀φ∈E, (f +g)(φ)≤(fg)(φ) (4.1)

∀x∈E, ∂(f+g)(x)⊇∂f(x) +∂g(x) (4.2) Démonstration. Soitφ0dansE. Par inégalité de Young, on a pour tout pointx∈E et toute forme linéaireφ∈E,

f(x) +f(φ)≥ hx|φi

g(x) +g0−φ)≥ hx|φ0−φi.

En prenant la somme de ces inégalités on obtient

f(x) +g(x) +f(φ) +g0−φ)≥ hx|φ0i, ou encore

f(φ) +g0−φ)≥ hx|φ0i −f(x) +g(x).

En prenant le suprémum surx du membre de droite et l'inmum sur φdu membre de gauche on obtient l'inégalité (4.1). L'inclusion (4.2) est laissée en exercice.

Théorème 69. Soient f, g : E → R deux fonctions convexes semi-continues inférieurement. On suppose que la condition de qualication suivante est vériée :

∃x0 ∈dom(f)∩dom(g), tel que f est continue en x0 (Q)

43

(2)

Alors,

∀φ∈E, (f +g)(φ) = (fg)(φ) (4.3)

∀x∈E, ∂(f+g)(x) =∂f(x) +∂g(x) (4.4) De plus, l'inmum dans la dénition de fg est atteint.

Lemme 70. Sous les mêmes hypothèses que celle du théorème, la fonction h(u) = inf

x∈Ef(x) +g(x+u) est convexe et continue en l'origine.

Démonstration. Soitx0 un point deEvériant la condition de qualication (Q). Par continuité def enx0, il existe une constanteK etr >0telle quef ≤K sur la boule B(x0, r)⊆E, et on a donc

∀u∈B(0, r), h(u)≤f(x0) +g(x0+u)≤f(x0) +K.

La fonctionh est bornée au voisinage de l'origine, et y est donc continue.

Démonstration de la formule (4.3). On commence par démontrer la formule (4.3) lorsque φ= 0. Cette formule se réécrit de la manière suivante :

(f+g)(0) = (fg)(0)

⇐⇒ −inf

x∈Ef(x) +g(x) = inf

φ∈Ef(φ) +g(−φ).

Comme on sait déjà que(f +g)(0)≤(fg)(0), il nous sut de démontrer que h(0) = inf

x∈Ef(x) +g(x)≤ − inf

φ∈Ef(φ) +g(−φ), (4.5) où h est la fonction déne dans le lemme. Par continuité de h en l'origine, il existe une forme linéaireφ0 dans le sous-diérentiel ∂h(0), ce qui signie que

∀u∈E, h(0) +hφ0|u−0i ≤h(u).

Alors,

∀u∈E, h(0)≤h(u)− hφ0|ui= inf

x∈Ef(x) +g(x+u)− hφ0|ui ou de manière équivalente

∀x, u∈E, h(0)≤f(x) +g(x+u)− hφ0|ui

=f(x) +hφ0|xi+g(x+u)− hφO|x+ui

Ainsi, en prenant d'abord l'inmum suru∈E dans le second membre on obtient

∀x∈E, h(0)≤f(x) +hφ0|xi+ inf

u∈Eg(x+u)− hφ0|x+ui

=f(x) +hφ0|xi −g0),

(3)

puis en prenant l'inmum sur x on a h(0)≤ −f(−φ0)−g0), qui implique bien l'inégalité voulue (4.5). On se rend de plus compte queφ0 réalise l'inmum dans la dénition de(fg)(0).

Nous passons maintenant à la démonstration dans le cas général. Soit φ0 dans E et soit h=g−φ0. Un calcul simple montre que h(φ) =g(φ+φ0) de sorte que

(f +h)(0) = sup

x∈E

φ0(x)−f(x) +g(x) = (f+g)0) (fh)(0) = inf

φ f(φ) +h(−φ) = (fg)(φ0)

En appliquant l'égalité (4.3) àf eth en φ= 0, on trouve l'égalité (4.3) pourf etg en φ=φ0.

Démonstration de la formule (4.4). Soit x un point de E et φ0 ∈ ∂(f +g)(x). Il s'agit de démontrer queφ0 peut s'écrire comme la somme d'un élément de∂f(x) et d'un élément de∂g(x). Si l'on poseh=g−φ0, on voit que0∈∂(f+h)(x) et donc quexest un minimum global def+h. En appliquant la formule (4.3) (et le fait que l'inmum est atteint), on sait qu'il existe unφ1∈E tel que

f(x) +h(x) = inf

z∈Ef(z) +g(z) =−(f+h)(0) =−f1)−h(−φ1) c'est-à-direA+B = 0 où

A=f(x) +f1)− hx|φ1i etB =h(x) +h(−φ1)− hx| −φ1i

Par inégalité de Fenchel-Young on sait de plus queAetB sont positifs. Ceci montre que A et B sont nuls. Par la caractérisation du cas d'égalité dans l'inégalité de Fenchel-Young, on en déduit queφ1 ∈∂f(x)et−φ1 ∈∂h(x). Commeh=g−φ0, la seconde inclusion impliqueφ0−φ1∈∂g(x). Conclusion,

φ01+ (φ0−φ1) oùφ1 ∈∂f(x) etφ0−φ1∈∂g(x)comme annoncé.

Corollaire 71. Soientf1, . . . , fn:E →Rdes fonctions convexes semi-continues inférieurement. On suppose que la condition de qualication suivante est vériée :

∃x0∈dom(f1)∩. . .∩dom(fn), tel que f2, . . . , fn sont continues en x0 (Q) alors,

∀x∈E, ∂(f1+. . .+fn)(x) =∂f1(x) +. . .+∂fn(x).

(4)

Exemple : problème à frontière libre On s'intéresse au problème suivant, qu'on peut voir comme la discrétisation d'un problème à frontière libre :

x∈minRn,x≥p

1 2kGxk2

où G est une matrice dénie positive. On peut réécrire le problème sous la forme suivante, où l'on a poséCi ={x∈Rn|xi≥pi}etf(x) = 12kGxk2 :

x∈minRn

f(x) + X

1≤i≤n

iCi(x) Soitx un minimum global. Alors,

0∈∂(f+ X

1≤i≤n

iCi)(x).

Commef est continue surRn, les conditions du théorème sont vériées et on a donc, en utilisant∂f(x) ={∇f(x)},

∂(f + X

1≤i≤n

iCi)(x) =∇f(x) + X

1≤i≤n

∂iCi(x)

Nous posonsL=GtG, de sorte que∇f(x) =Lx. Un calcul élémentaire montre que

∂iCi(x) =





0 sixi< pi Rei six=pi

∅ sinon

Ainsi, on obtient 0 = x+Pn

i=1λiei,où λi ≤0 et λi = 0 si fi =gi. Ainsi, on voit quex est caractérisé par le système

(Lx≥0

∀i∈ω,(Lx)i = 0 oùω ={i∈ {1, . . . , n} |gi< fi}

Lemme 72. Soit E un espace vectoriel normé, φ0 une forme linéaire continue sur E, a∈R et C={x∈E| hφ0|xi ≤a}. Alors,

∂iC(x) =





0 si hφ0|xi< a R+φ0 si hφ0|xi=a

∅ sinon

Démonstration. Sihφ0|xi< a,xest dans l'intérieur deC, doncf+(x,·) = 0, de sorte que ∂iC(x) = 0. On suppose désormais que hφ0|xi=a, et on se donneφ∈ ∂iC(x), c'est-à-dire que

∀x∈C, hφ|x−x0i ≤0.

SoitH ={v∈E| hφ0|vi= 0}. On vérie facilement quex0+H⊆C de sorte que,

∀v∈H,hφ|vi ≤0.

(5)

En remplaçant v par −v, on obtient φ|H = 0 ou encore φ ∈H. Par un argument standard d'algèbre linéaire on en déduit que φ = λφ0 où λ ∈ R. En eet, soit w ∈ E \H et λ = hφ|wi/hφ0|wi. Alors, la forme linéaire φ −λφ0 s'annule sur l'hyperplan H et en w et est donc nulle. Il reste à déterminer le signe de λ. Pour cela, on prend un vecteurx∈int(C), c'est-à-dire tel quehφ0|x−x0i<0. Alors,

0|x−x0i=λhφ|x−x0i ≤0, soit λ≥0

Exemple : projection sur un polyèdre SoitHun espace de Hilbert, etv1, . . . , vn∈ Hdes vecteurs, eta1, . . . , andes scalaires. On suppose que l'intersection des convexes Ci = {x ∈H | hvi|xi ≤ ai} a un intérieur non vide. On s'intéresse au problème de projection d'un point x0

x∈∩miniCi

1

2kx−x0k2 = min

x∈Hf(x) + X

1≤i≤n

iCi(x),

où f(x) = 12kx−x0k2. On peut appliquer le théorème sur la somme des sous- diérentiels pour obtenir quex est un minimiseur si et seulement si

0∈ ∇f(x) + X

1≤i≤n

∂iCi(x).

De plus, on vérie que

∂iCi(x) =





0 sihvi|xi< ai

R+vi sihvi|xi=ai

+∞ sinon

Ainsi, la condition d'optimalité peut s'écrire de la façon suivante : 0 =x−x0+

n

X

i=0

λivi,

oùλi ≥0etλi = 0si hvi|xi< ai.

4.2 Sous-diérentiel, cône normal et théorème KKT

Dénition 24. Soit K un ensemble convexe fermé dans un espace vectoriel normé E etx∈K. On appelle cône normal de K en x l'ensemble

NxK ={φ∈E | ∀y∈K, φ(y)≤φ(x)}.

Lemme 73. SoitK convexe fermé et x∈K. Alors, NxK =−∂iK(x).

(6)

Démonstration. Par dénition de la fonction indicatrice convexe, φ∈NxK ⇐⇒ ∀y ∈K, φ(y)≤φ(x)

⇐⇒ ∀y ∈K, φ(y) +iK(y)≤φ(x) +iK(x)

⇐⇒ ∀y ∈E, φ(y) +iK(y)≤φ(x) +iK(x)

⇐⇒φ∈∂iK(x)

Exemple 20. Soit K ⊆E un convexe fermé et f :E → Rune fonction convexe sci.

On suppose une des deux hypothèses de qualication suivante :

∃x0 ∈int(K)∩dom(f) (Q1)

∃x0 ∈K t.q.f est continue en x0 (Q2) Alors, en appliquant le théorème sur la somme des sous-diérentiel à f +iK, on a les équivalences suivantes :

x est minimum global def ⇐⇒ ∃φ∈∂f(x)t.q. −φ∈∂iK(x)

⇐⇒ ∃φ∈∂f(x)t.q. φ∈∂NK(x)

⇐⇒ ∃φ∈∂f(x)t.q. ∀y∈K, φ(y)≤f(x).

Proposition 74. Soit g : E → R une fonction convexe continue, et soit K l'ensemble K ={x∈E|g(x)≤0}. On suppose la condition de Slater vériée :

∃x0 ∈K t.q. f(x0)<0 (S) Alors pour tout x∈K, le cône normal à K en x est égal au cône engendré par le sous-diérentiel de g enx :

NxK =

({0} si g(x)<0 R+∂g(x) si g(x) = 0, ou on a noté R+C={λx|λ≥0, x∈C}.

Remarque 19. En d'autre termes,φ∈NxK est équivalent à l'existence de λ≥0 tel queλg(x) = 0 etφ∈λ∂g(x).

Démonstration. Sig(x)<0, alorsiCest localement constante au voisinage dexdonc dérivable et de gradient nul, i.e.∂iC(x) ={0}. On suppose désormais que g(x) = 0, et il s'agit de démontrer queA=B oùA=NxK =∂iK(x)etB =R+∂g(x). Étape 1 Commençons par l'inclusion facileB ⊆A : soit φ∈∂g(x) etλ≥0, on a

∀y∈E, g(y)≥ hφ|y−xi+g(x) =hφ|y−xi de sorte que,

∀y∈K,0≥λg(y)≥λhφ|y−xi, i.e. λφ∈NxK

(7)

Étape 2 On veut maintenant montrer l'inclusion réciproque. Soit φ∈NxK et soit H le demi-espaceH := {y ∈E | hφ|yi ≥ hφ|xi}. Par dénition du cône normal, on sait queC⊆E\int(H). En utilisant de plus C={g≤0} on obtient

y ∈int(H) =⇒y6∈C =⇒g(y)≥g(x) = 0

Autrement dit, le point xest le minimum de la fonctiong surH, c'est-à-dire 0∈∂(g+iH)(x) =∂g(x) +R+{−φ}.

Ainsi, il existeψ∈∂g(x) etλ≥0tels queλφ=ψ. Pour conclure, il sut d'exclure le casλ= 0: si c'était le cas on aurait0∈∂g(x), i.e.minEg= 0ce qui contredirait la condition de Slaterg(x0)<0.

Théorème 75 (Karush-Kuhn-Tucker). Soit f :E →R une fonction convexe sci et g1, . . . , gN :E→R des fonctions convexes continues. On suppose :

∃x0 ∈dom(f) t.q. ∀i∈ {1, . . . , N}, gi(x0)<0.

Alors il y a équivalence entre

(i) x est un minimum global de f sur l'ensemble C ={x∈E |gi(x)≤0}. (ii) il existe λ1, . . . , λN ∈R+ tels que

(0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x) λigi(x) = 0 ∀i∈ {1, . . . , N}

Démonstration. On pose Ci = {x ∈ E | gi ≤ 0}. La condition de qualication du théorème sur la somme de sous-diérentiels est vériée, de sorte que

∀x∈E, ∂(f +iC1+. . .+iCN)(x).

Ainsi,x est minimiseur global def surC=T

iCi si et seulement si 0∈∂(f +iC1+. . .+iCN)(x) =∂f(x) +∂iC1(x) +. . .+∂iCN(x),

i.e. il existe φ∈∂f(x) etφi ∈∂iCi(x) tels que φ+φ1+. . .+φN = 0. On a montré précédemment queφi∂iCi(x)⇐⇒ ∃λi≥0 tel que λigi(x) = 0 etφi∈λi∂gi(x). Exemple 21. Soientf etg1, . . . , gN comme dans le théorème et on supposef coercive pour avoir l'existence d'un minimum global. Pour λ1, . . . , λN ∈R+, on considère le problème pénalisé

minx∈Ef(x) +λ1g1(x) +. . .+λNgN(x).

Alors, avecC={x∈E | ∀i, gi(x)≤0} on a minx∈Cf(x)≥min

x∈Ef(x) +λ1g1(x) +. . .+λNgN(x),

c'est-à-dire que le minimum du problème pénalisé est toujours plus petit que le minimum du problème avec contraintes. En d'autre termes,

sup

λ1,...,λN≥0

minx∈Ef(x) +λ1g1(x) +. . .+λNgN(x)≤min

x∈Cf(x)

(8)

Une question naturelle est de déterminer s'il existe desλ1, . . . , λN ≥0tels qu'on ait égalité.

Le théorème de Karush-Kuhn-Tucker répond à cette question. Il existe λi ∈R+ tel que

0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x), de sorte que

0∈∂(f+λ1g1+. . .+λNgN)(x).

Ainsi,x est aussi le minimum global du problème pénalisé, on parle alors de pénali- sation exacte.

Exemple 22. On se donne un ensemble ni y1, . . . , yN ∈ Rd et on s'intéresse au problème de déterminer le rayon de la plus petite sphère contenant ces points, i.e.

min{r≥0| ∃x∈Rd,∀i∈ {1, . . . , N},kyi−xk ≤r}.

On introduit gi : RN+1 → R,(x, r) 7→ kyi−xk − r, de sorte que gi(x, r) si et seulement sikyi−xk ≤r. On peut alors réécrire le problème comme

(x,r)∈Cmin f(x, r), où f(x, r) = r,C = T

iCi et Ci = {gi ≤ 0}. Les hypothèses du théorème Karush- Kuhn-Tucker sont vériée : tout le point (x, R) est dans l'intérieur de C si R >

maxikxi−xk. Un point (x, r) ∈ Rd×R résoud ce problème si et seulement si il existe λ1, . . . , λN ≥0 vériantλigi(x) = 0et tels que

0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x).

On remarque d'abord que six=yi, alorsgi(x)<0 (sinon,r = 0ety1 =. . .=yN), de sorte que λi = 0. Six6=yi, on a ∂gi(x) ={∇gi(x)}où

∇gi(x) = ((x−yi)/kx−yik,−1).

Ainsi,

0 = (0,1) + X

i|kx−yik=r

λi((x−yi)/kx−yik,−1), En regardant la dernière coordonnée, on a 1 = P

iλi. De plus, en observant les d premières coordonnées on obtient

0 = X

i|kx−yik=r

λi x−yi kx−yik = 1

r X

i|kx−yik=r

λi(x−yi)

Autrement dit, (x, r) est un minimiseur global si et seulement x est combinaison convexe des pointsyi tels quekyi−xk=r.

4.3 Théorème de Fenchel-Rockafellar et applications

(9)

Théorème 76 (Fenchel-Rockafellar). Soit E un espace vectoriel normé, f, g : E → R deux fonctions convexes sci vériant l'hypothèse de qualication (Q).

On suppose de plus infEf+g >+∞. Alors,

x∈Einf f(x) +g(x) = max

φ∈E−f(−φ)−g(φ) (4.6) Démonstration. On a par dénition de la conjuguée,

x∈Einf f(x) +g(x) =−(f+g)(0),

et la conclusion suit par le théorème sur la transformée de Legendre-Fenchel d'une somme (Théorème 69 et plus précisément (4.3)) appliqué enφ= 0 :

(f +g)(φ) = inf

ψ∈Ef(φ−ψ) +g(ψ).

Dénition 25 (Plan de transport). SoientXetY deux ensembles nis etµ:X→R etν : Y → Rdeux mesures de probabilité sur X et Y respectivement (c'est-à-dire queµ, ν ≥0 etP

xµ(x) =P

yν(y) = 1). On appelle plan de transport entre µ etν une matriceγ :X×Y →Rvériant

∀(x, y)∈X×Y, γ(x, y)≥0 (4.7) (∀x∈X, P

y∈Y γ(x, y) =µ(x)

∀y∈Y, P

x∈Xγ(x, y) =ν(y) (4.8)

L'ensemble des plans de transport entreX etY est noté Γ(X, Y).

On se donne de plus une fonctionc:X×Y →Rmesurant le coût de déplacement d'une unité de masse d'un pointx∈Xvers un pointy∈Y. Le problème du transport optimal entre µetν pour le coût c consiste à minimiser

P = inf

γ∈Γ(X,Y)

X

(x,y)∈X×Y

γ(x, y)c(x, y) (K)

Ce problème est appelle problème de Kantorovich primal. Un minimiseur de ce pro- blème d'optimisation est appelé plan de transport optimal entre X etY.

Théorème 77 (Kantorovich). Le problème de Kantorovich primal est équivalent au problème de Kantorovich dual, i.e. P =Doù

D= sup

 X

x∈X

φ(x)µ(x) +X

y∈Y

φ(y)ν(y)|φ∈RX, ψ∈RY, φ(x) +ψ(y)≤c(x, y)

 .

(4.9) Remarque 20. Interprétation économique du problème dual.

(10)

Remarque 21. Commençons par montrer comment retrouver ce résultat de manière informelle par la méthode des multiplicateurs de Lagrange. On écriti≥0 la fonction indicatrice des γ vériant la contrainte (4.7) et iµ et iν celles associée aux deux contraintes (4.8)

i≥0(γ) = sup

σ:X×YR,σ≥0

− X

(x,y)∈X×Y

γ(x, y)σ(x, y)

iµ(γ) = sup

φ:XR

X

x∈X

φ(x)

µ(x)−X

y∈Y

γ(x, y)

iν(γ) = sup

ψ:YR

X

y∈Y

ψ(y) ν(y)−X

x∈X

γ(x, y)

!

Alors, P = inf

γ∈Γ(X,Y)

X

(x,y)∈X×Y

γ(x, y)c(x, y)

= inf

γ

X

x,y

γ(x, y)c(x, y) +i≥0(γ) +iµ(γ) +iν(γ)

= inf

γ sup

σ≥0,φ,ψ

X

x,y

γ(x, y)(c(x, y)−σ(x, y)−µ(x)−ν(y)) +X

x

φ(x)µ(x) +X

y

ψ(y)γ(y)

Pour trouver le problème dual, on inverse l'inmum et le supremum (cette opération sera justiée par Fenchel-Rockafellar),

D:= sup

σ≥0,φ,ψ

infγ

X

x,y

γ(x, y)(c(x, y)−σ(x, y)−µ(x)−ν(y))+X

x

φ(x)µ(x)+X

y

ψ(y)ν(y).

Ensuite, on écrit les conditions nécessaires d'optimalité du problème de minimisation interne infγ, les valeurs deσ, φ, ψ étant xées :

c(x, y) =σ(x, y) +φ(x) +ψ(y)

En utilisant ces conditions dans la formule précédente, on voit que les termes dans la double somme P

x,y s'annulent, de sorte que D= sup

σ≥0,φ,ψ

X

x

φ(x)µ(x) +X

y

ψ(y)γ(y),

sous la contraintec(x, y) =σ(x, y) +φ(x) +ψ(y). On peut supprimer la variable σ et se retrouver avec l'équation (4.9).

Démonstration du théorème 77. Le problème de Kantorovich revient à minimiser la sommef +g sur l'espaceE=RX×Y, où

f(γ) = (P

(x,y)∈X×Y γ(x, y)c(x, y) siγ ≥0

+∞ sinon , (4.10)

g(γ) =iµ(γ) +iν(γ) =

(0 si (4.8) est veriee

+∞ sinon (4.11)

(11)

Dans les calculs suivant, on munit l'espaceE de la structure Euclidienne canonique, et on l'identie avec son dual. On a :

f(π) = sup

γ∈E

hπ|γi −f(γ)

= sup

γ∈E,γ≥0

X

(x,y)∈X×Y

(π(x, y)−c(x, y))γ(x, y)

=

(0 si∀(x, y)∈X×Y t.q.π(x, y)≤c(x, y) +∞ sinon

Passons maintenant au calcul de la conjuguée deg: g(π) = sup

γ∈E

hπ|γi −g(γ)

= sup

 X

(x,y)∈X×Y

π(x, y)γ(x, y)| ∀x∈X,X

y∈Y

γ(x, y) =µx et∀y∈Y,X

x∈X

γ(x, y) =νy

 Par la remarque 21, on s'attend à ce queπ(x, y) =φ(x) +φ(y)oùφ∈RX etψ∈RY.

Supposons dans un premier temps que c'est bien le cas. Alors, pour toutγ vériant les conditions de marge,

X

(x,y)∈X×Y

π(x, y)γ(x, y) = X

x∈X

φ(x)X

y∈Y

γ(x, y) +X

y∈Y

ψ(y)X

x∈X

γ(x, y)

= X

x∈X

φ(x)µ(x) +X

y∈Y

φ(y)ν(y)

Supposons maintenant que π(x, y) n'est pas de la forme φ(x) +ψ(y). Ceci signie qu'il existex06=x1∈X tels queπ(x0,·)−π(x1,·) n'est pas constant surY, i.e.

∃y0 6=y1 ∈y t.q. π(x0, y0)−π(x1, y0)6=π(x0, y1)−π(x1, y1)

On supposera (par exemple) que π(x0, y0) +π(x1, y1) > π(x1, y0) +π(x0, y1). Soit δ∈RX×Y déni parδ(x0, y0) =δ(x1, y1) = 1etδ(x0, y1) =δ(x1, y0) =−1. Alors, si γ vérie les conditions de marge,γ+tδ les vérie aussi. De plus,

X

(x,y)∈X×Y

π(x, y)(γ+tδ)(x, y) = X

(x,y)∈X×Y

π(x, y)γ(x, y)+t(π(x0, y0)+π(x1, y1)−π(x1, y0)−π(x0, y1)), de sorte qu'en faisant tendretvers+∞, on voit que le supremum dans la dénition

de g vaut +∞. En conclusion, g(π) =

(P

x∈Xφ(x)ν(x) +P

y∈Y φ(y)ν(y) si∃φ∈RX, ψ∈RY, π(x, y) =φ(x) +ψ(y)

+∞ sinon

Pour conclure, il sut donc de vérier qu'on est bien dans les conditions d'appli- cation du théorème de Fenchel-Rockafellar, et en particulier que la la condition de

(12)

qualication (Q) est vériée. Soit π0(x, y) = µ(x)ν(y), π0 ∈ E. Ce π0 satisfait les conditions de marge (4.8), de sorte queπ ∈dom(g). De plus,π ≥minµ·minν >0 de sorte que π est à l'intérieur du domaine de f, et donc en dimension nie, f est continue en π. Ainsi,

P = sup

π

−f(π)−g(−π) = sup

φ,ψ|φ+ψ≤c

X

x∈X

µ(x)φ(x) +X

y∈Y

ν(y)ψ(y).

Théorème 78 (Fenchel-Rockafellar). Soit E un espace vectoriel normé, Λ : E → F une application linéaire continue et f : E → R et g : F → R deux fonctions convexes sci vériant l'hypothèse de qualication

∃x∈E, t.q. x∈dom(f) etg continue en Λx (Q') On suppose de plus que infEf +g◦Λ > −∞. Pour ψ ∈ F, on pose Λψ = ψ◦Λ∈E. Alors,

x∈Einf f(x) +g(Λx) = max

ψ∈F−f(−Λψ)−g(ψ) (4.12) Démonstration. On va chercher à appliquer la précédente version du théorème de Fenchel-Rockafellar sur l'espace produitE×F. On pose

f1:E×F →R, (x, y)7→

(f(x) siy= Λx 0 sinon

g1:E×F →R, (x, y)7→g(y)

On a alors facilement que infEf +g◦ Λ = infE×F f1 +g1. Il s'agit maintenant d'appliquer la précédente version du théorème de Fenchel-Rockafellar à ce deuxième problème. On identie(E×F) à E×F. Pourφ∈E etψ∈F, on a

f1(φ, ψ) = sup

x∈E,y∈F

hφ|xi+hψ|yi −f1(x) = sup

x,y|Λx=y

hφ|xi+hψ|yi −f(x)

= sup

x,y|Λx=y

hφ|xi+hψ|Λxi −f(x) = sup

x,y|Λx=y

hφ+ Λψ|xi −f(x)

=f(φ+ Λψ) g1(φ, ψ) = sup

x∈E,y∈F

hφ|xi+hψ|yi −g1(x) = sup

x∈E,y∈F

hφ|xi+hψ|yi −g(x)

=

(+∞ si ψ6= 0 g(ψ) sinon

Ainsi, par thèorème de Fenchel-Rockafellar et en utilisant les calculs précédents, infE f+g◦Λ = inf

E×Ff1+g1 =− sup

(φ,ψ)∈E×F

f1(−φ,−ψ) +g1(φ, ψ)

=− sup

ψ∈F

f(−Λψ) +g(ψ)

(13)

Exemple 23. On considère le problème de minimisation surRn, oùAest une matrice àm lignes etn colonnes,x0∈Rn :

x∈minRn

1

2kx−x0k22+kAxk1 = min

x∈Rn

f(x) +g(Ax).

Commef etgsont continues, on peut appliquer le théorème de Fenchel-Rockafellar.

Calculons maintenant les conjuguées def etg : f(y) = sup

x∈Rn

hx|yi −1

2kx−x0k2

=hx0|yi+ sup

x∈Rn

hx−x0|yi −1

2kx−x0k22

=hx0|yi+1

2kyk22= 1

2ky+x0k22−1

2kx0k22, où l'on a utilisé (12k.k22) = 12k.k22. De plus,

g(y) = sup

x∈Rm

X

i

xiyi−X

i

|xi|= X

1≤i≤m

h(yi), où l'on a poséh:x∈R→ |x|. De plus,

h(r) = sup

s∈R

rs− |s|=

(0 sir ∈[−1,1]

+∞ sinon

Ainsi, g est la fonction indicatrice de [−1,1]m (qui est la boule unité pour k.k).

Ainsi,

x∈minRn

1

2kx−x0k22+kAxk1 = min

x∈Rn

f(x) +g(Ax)

= max

y∈Rn

−f(−Aty)−g(y)

= min

y∈[−1,1]n

1 2

Aty−x0

2 2−1

2kx0k2

4.4 Algorithme du point proximal

Dans cette dernière section, on suppose queE est un espace de Hilbert, que l'on identiera à son dual. On rappelle qu'une fonctionf :E → Rest dite 0-coercive si limkxk→∞f(x) = +∞.

Dénition 26. Soit f :E →R une fonction convexe propre et semi-continue infé- rieurement. Pour γ >0, on dénit l'opérateur proximal def par

proxγf(x) = arg min

y∈E

1

2γkx−yk2+f(y).

(14)

Exemple 24. SiiC oùC est un ensemble convexe fermé deH,proxγiC =pC. L'opé- rateur proximal généralise la fonction projection sur un ensemble convexe, et possède un certain nombre de ses propriétés.

Proposition 79. Soit f :E →R est convexe propre, semi-continue inférieurement etγ >0. Alors,

(i) Le problème de minimisation suivant admet un unique minimiseur.

miny∈E

1

2γ kx−yk2+f(y), et lopérateur proximal def est donc bien déni.

(ii) Le point p= proxγf(x) est caractérisé par la relation x∈(id +γ∂f) (p).

(iii) Le point x est un minimiseur global de la fonction f sur E si et seulement s'il est point xe de l'opérateur proximal, i.e.x= proxγf(x).

Démonstration. Soit g = 1 kx− ·k2 et h = f +g (i) La fonction h est convexe propre, semi-continue inférieurement pour la topologie forte, et elle est 0-coercive (i.e.limkyk→∞h(y) = +∞). Soitr >infh: le sous niveauK ={h≤r}est convexe, fortement fermé et donc faiblement fermé. Comme de plusK est borné,K est donc faiblement compact. La fonctionf est convexe et fortement semi-continue inférieu- rement et donc faiblement semi-continue inférieurement. Elle atteint donc son mini- mum (global) surK. Par stricte convexité de kx− ·k2,h est strictement convexe et le minimum est donc unique.

(ii) En utilisant le théorème sur la somme des sous-diérentiels, on voit que p= proxγf(x) si et seulement si

0∈∂(f +g)(p) =∂f(p) +1

γ {p−x} ⇐⇒x∈(id +γ∂f)(p).

(iii) Le pointx est un minimiseur global de f si et seulement si 0∈∂f(x)⇐⇒x∈(id +γ∂f)(x)⇐⇒x= proxγf(x).

Exemple 25. Soith:R→R, x7→ |x|. On a

∂h(y) =





−1 siy <0 [−1,1] siy= 0 1 siy >0

=⇒ (id +γ∂h)(y) =





y−γ siy <0 [−γ, γ] siy = 0 y+γ siy >0 .

Par la caractérisation donnée dans la proposition précédente, on obtient

proxγh(x) =





x−γ six≥γ

0 si −γ ≤x≤γ x+γ six≤ −γ.

(15)

On note Rγ = proxγh. Cette fonction est appelée opérateur de seuillage doux (ou soft thresholding) en statistique et en traitement d'image. Soit maintenant E =Rn muni de la norme euclidienne et f(x) =kxk1 =P

1≤i≤n|xi|. Alors,

y∈minRn

1

2γ kx−yk22+f(y) = min

y∈Rn

X

1≤i≤n

1

2γ(xi−yi)2+|yi|, de sorte que proxγf(x) = (Rγ(x1), . . . , Rγ(xn)).

La caractérisation donnée en (iii) du minimum global comme un minimiseur def invite à utiliser l'algorithme de point xe pour résoudre numériquement le problème d'optimisation :

(x0 ∈E

xn+1= proxγf(xn) (PPA)

Cet algorithme est appelé algorihtme du point proximal et a été introduit Martinet (puis généralisé par Rockafellar) dans les années 1960. Avant de pouvoir montrer la convergence de cet algorithme, nous avons besoin de plus d'informations sur l'opé- rateur proximal.

Dénition 27. Un opérateurF :E →E est dit fermement non-expansif s'il vérie une des conditions équivalentes suivantes

(i) ∀x, y∈E, kF(x)−F(y)k2 ≤ hF(x)−F(y)|x−yi

(ii) ∀x, y∈E, kF(x)−F(y)k2 ≤ kx−yk2− k(x−F(x))−(y−F(y))k2 Pour voir l'équivalence entre ces deux conditions, il sut de remarquer que k(x−F(x))−(y−F(y))k2 =kx−yk2+kF(x)−F(y)k2−2hx−y|F(x)−F(y)i Proposition 80. Soit f : E → R une fonction convexe, propre et semi-continue inférieurement et γ >0. Alors

(i) Le point p= proxγf(x) est caractérisé par l'inégalité

∀q∈E, 1

γhx−p|q−pi ≤f(q)−f(p) (ii) L'opérateur F :x7→proxγf(x) est fermement non-expansif.

Démonstration. (i) Le pointp= proxλf(x) est caractérisé parx∈(id +γ∂f)(p) ou de manière équivalente par γ1(x−p)∈∂f(p). C'est-à-dire,

∀q ∈E, f(q)≥f(p) +1

γhx−p|q−pi.

(ii) Soient x1, x2 et pi = proxγf(xi). Appliquons l'inégalité de (i) en prenant d'abordx=x1,p=p1 etq =p2 puis en inversant les rôles :

f(p2)−f(p1)≥ 1

γhx1−p1|p2−p1i f(p1)−f(p2)≥ 1

γhx2−p2|p1−p2i

(16)

En additionnant ces inégalités puis en multipliant par γ, on obtient kp2−p1k2≤ hp1−p2|x1−x2i.

Remarquons que le caractère seulement1-Lipschitz deF = proxγf ne permet pas d'appliquer le théorème du point xe contractant (il faudrait queF soit k-Lipschitz avec k <1). Cependant, la propriété de de non-expansivité ferme permet d'obtenir un théorème de convergence.

Théorème 81. Soit f :E→ Rune fonction convexe semi-continue inférieurement et0-coercive. Alors, la suite de points déni par lalgorithme du point proximal (PPA) converge faiblement vers un minimum global de f.

La démonstration de ce théorème provient des trois lemmes suivants, où l'on a posé F = proxγf. Les deux premiers lemmes sont valables pour toute opérateur fermement non expansifF.

Lemme 82. Soit F : E → E un opérateur fermement non-expansif admettant un point xe. Alors, la suite dénie par xn+1 =F(xn) est bornée et

n→∞lim kxn−xn+1k= 0.

Démonstration. Soitc un point xe deF. La non-expansivité ferme donne : kF xn−F ck2≤ kxn−ck2− k(xn−F(xn))−(c−F(c))k2. En utilisantF xn=xn+1 etF(c) =c, cette inégalité implique

kxn+1−ck2 ≤ kxn−ck2− kxn−xn+1k2

La suite kxn−ckn≥1 est décroissante et minorée donc convergente, de sorte que kxn−xn+1k2≤ kxn−ck2− kxn+1−ck2 −→

n→+∞0

Lemme 83. SoitF :E→E un opérateur non-expansif admettant un point xe. On suppose que tout point d'accumulation faible de la suite (xn)n≥1 est un point xe de F. Alors (xn)n≥1 converge faiblement vers un point xe deF.

Démonstration. Soientc1etc2deux points d'accumulation faibles de(xn)n≥0, qui par hypothèses sont des points xes deF. On a remarqué au cours de la démonstration du lemme précédent quekxn+1−cik2 ≤ kxn−cik2, ce qui implique que la suite

kxnk2−2hxn|cii=kxn−cik2− kcik2,

est décroissante donc convergente. En soustrayant ces suites pouri= 1 et2, (kxnk2−2hxn|c1i)−(kxnk2−2hxn|c2i) = 2hxn|c1−c2i

est convergente. Comme c1 etc2 sont des points d'accumulation (faibles) de xn, on a donc en passant à la limite des sous-suites correspondantes

hc1|c1−c2i=hc2|c1−c2i

ce qui implique quekc1−c2k2= 0, soitc1 =c2. La suite(xn)n≥1 est bornée et a un unique point d'accumulation faible : elle est donc faiblement convergente.

(17)

Lemme 84. Soit F = proxγf où f est convexe, propre, sci et 0-coercive. Alors tout point d'accumulation faible de la suite(xn)n≥0 est un point xe de F.

Démonstration. L'application F admet un point xe car la fonction f admet un minimum global sur f. Par la caractérisation de xn+1 = proxγf(xn) en terme de sous-diérentiel, on a

xn∈(id + 1

λ∂f)(xn+1) =xn+1+ 1

λ∂f(xn+1) Autrement dit,

∀x∈E, f(x)≥f(xn+1) +1

γhx−xn+1|xn−xn−1i Soit(xnk) une sous-suite faiblement convergente de la suite(xn). On a

∀x∈E, f(x)≥f(xnk+1) +1

γhx−xnk+1|xnk−xnk+1i

≥f(xnk+1)−1

γ kx−xnk+1k kxnk−xnk+1k

Or, on sait par un des lemmes précédents quelimn→+∞kxnk−xnk+1k= 0, de sorte qu'en passant à la limite faible (et en utilisant la semi-continuité faible def),xnk

¯

x∈E, on a

∀x∈E, f(x)≥f(¯x),

ce qui implique quex¯est un minimum global def et donc un point xe de l'opérateur F.

Algorithme forward-backward On suppose que la fonction f minimisée peut être décomposée sous la forme f = f1 +f2 où f1 : E → R et f2 : E → R sont deux fonctions convexes semi-continues inférieurement, propres et 0-coercives. On demande de plus quef2 soit diérentiable.

Proposition 85. Les assertions suivantes sont équivalentes (i) x∈E est un minimum global de f =f1+f2;

(ii) x est un point xe de l'opérateurF :x7→proxγf1(x−γ∇f2(x)). Démonstration. x= arg minEf si et seulement si

0∈∂(f1+f2)(x) =∂f1(x) +{∇f2(x)}

⇐⇒ −∇f2(x)∈∂f1(x)

⇐⇒x−γ∇f2(x)∈(id +γ∂f1)(x)

⇐⇒x= proxγf1(x−γ∇f2(x))

(18)

Théorème 86. Soit f =f1+f2, oùf1:E →R etf2 :E →R sont deux fonctions convexes semi-continues inférieurement, propres et0-coercives. On demande de plus quef2 soit diérentiable et x∈E 7→ ∇f2(x) est L-Lipschitz. Soit γ ≤1/L, et

(x0∈E

xn+1 = proxγf1(xn−γf2(xn)).

Alors, la suite(xn) converge faiblement vers un minimiseur de f.

Exemple 26. Soit E = Rn, f1(x) = kxk1 et f2(x) = 12kAx−bk22. Alors, ∇f2(x) = AT(Ax−b), et proxγf1 = Rγ est l'opérateur de seuillage doux. Dans ce contexte, l'algorithme décrit par le théorème est donné parx0∈E et

xn+1 =Rγ(xn−γAT(Axn−b)),

et est connu sous le nom de iterative shrinking-thresholding algorithm (ISTA) en statistique, traitement d'image et peut-être plus généralement être appliqué pour résoudre des problèmes inverses linéaires.

Références