Optimisation
4.1 Sous-diérentiel d'une somme et optimalité
Proposition 68. Soient f, g:E→R deux fonctions convexes propres et semi- continues inférieurement. Alors,
∀φ∈E∗, (f +g)∗(φ)≤(f∗g∗)(φ) (4.1)
∀x∈E, ∂(f+g)(x)⊇∂f(x) +∂g(x) (4.2) Démonstration. Soitφ0dansE∗. Par inégalité de Young, on a pour tout pointx∈E et toute forme linéaireφ∈E∗,
f(x) +f∗(φ)≥ hx|φi
g(x) +g∗(φ0−φ)≥ hx|φ0−φi.
En prenant la somme de ces inégalités on obtient
f(x) +g(x) +f∗(φ) +g∗(φ0−φ)≥ hx|φ0i, ou encore
f∗(φ) +g∗(φ0−φ)≥ hx|φ0i −f(x) +g(x).
En prenant le suprémum surx du membre de droite et l'inmum sur φdu membre de gauche on obtient l'inégalité (4.1). L'inclusion (4.2) est laissée en exercice.
Théorème 69. Soient f, g : E → R deux fonctions convexes semi-continues inférieurement. On suppose que la condition de qualication suivante est vériée :
∃x0 ∈dom(f)∩dom(g), tel que f est continue en x0 (Q)
43
Alors,
∀φ∈E∗, (f +g)∗(φ) = (f∗g∗)(φ) (4.3)
∀x∈E, ∂(f+g)(x) =∂f(x) +∂g(x) (4.4) De plus, l'inmum dans la dénition de f∗g∗ est atteint.
Lemme 70. Sous les mêmes hypothèses que celle du théorème, la fonction h(u) = inf
x∈Ef(x) +g(x+u) est convexe et continue en l'origine.
Démonstration. Soitx0 un point deEvériant la condition de qualication (Q). Par continuité def enx0, il existe une constanteK etr >0telle quef ≤K sur la boule B(x0, r)⊆E, et on a donc
∀u∈B(0, r), h(u)≤f(x0) +g(x0+u)≤f(x0) +K.
La fonctionh est bornée au voisinage de l'origine, et y est donc continue.
Démonstration de la formule (4.3). On commence par démontrer la formule (4.3) lorsque φ= 0. Cette formule se réécrit de la manière suivante :
(f+g)∗(0) = (f∗g∗)(0)
⇐⇒ −inf
x∈Ef(x) +g(x) = inf
φ∈E∗f∗(φ) +g∗(−φ).
Comme on sait déjà que(f +g)∗(0)≤(f∗g∗)(0), il nous sut de démontrer que h(0) = inf
x∈Ef(x) +g(x)≤ − inf
φ∈E∗f∗(φ) +g∗(−φ), (4.5) où h est la fonction déne dans le lemme. Par continuité de h en l'origine, il existe une forme linéaireφ0 dans le sous-diérentiel ∂h(0), ce qui signie que
∀u∈E, h(0) +hφ0|u−0i ≤h(u).
Alors,
∀u∈E, h(0)≤h(u)− hφ0|ui= inf
x∈Ef(x) +g(x+u)− hφ0|ui ou de manière équivalente
∀x, u∈E, h(0)≤f(x) +g(x+u)− hφ0|ui
=f(x) +hφ0|xi+g(x+u)− hφO|x+ui
Ainsi, en prenant d'abord l'inmum suru∈E dans le second membre on obtient
∀x∈E, h(0)≤f(x) +hφ0|xi+ inf
u∈Eg(x+u)− hφ0|x+ui
=f(x) +hφ0|xi −g∗(φ0),
puis en prenant l'inmum sur x on a h(0)≤ −f∗(−φ0)−g∗(φ0), qui implique bien l'inégalité voulue (4.5). On se rend de plus compte queφ0 réalise l'inmum dans la dénition de(f∗g∗)(0).
Nous passons maintenant à la démonstration dans le cas général. Soit φ0 dans E∗ et soit h=g−φ0. Un calcul simple montre que h∗(φ) =g∗(φ+φ0) de sorte que
(f +h)∗(0) = sup
x∈E
φ0(x)−f(x) +g(x) = (f+g)∗(φ0) (f∗h∗)(0) = inf
φ f∗(φ) +h∗(−φ) = (f∗g∗)(φ0)
En appliquant l'égalité (4.3) àf eth en φ= 0, on trouve l'égalité (4.3) pourf etg en φ=φ0.
Démonstration de la formule (4.4). Soit x un point de E et φ0 ∈ ∂(f +g)(x). Il s'agit de démontrer queφ0 peut s'écrire comme la somme d'un élément de∂f(x) et d'un élément de∂g(x). Si l'on poseh=g−φ0, on voit que0∈∂(f+h)(x) et donc quexest un minimum global def+h. En appliquant la formule (4.3) (et le fait que l'inmum est atteint), on sait qu'il existe unφ1∈E∗ tel que
f(x) +h(x) = inf
z∈Ef(z) +g(z) =−(f+h)∗(0) =−f∗(φ1)−h∗(−φ1) c'est-à-direA+B = 0 où
A=f(x) +f∗(φ1)− hx|φ1i etB =h(x) +h∗(−φ1)− hx| −φ1i
Par inégalité de Fenchel-Young on sait de plus queAetB sont positifs. Ceci montre que A et B sont nuls. Par la caractérisation du cas d'égalité dans l'inégalité de Fenchel-Young, on en déduit queφ1 ∈∂f(x)et−φ1 ∈∂h(x). Commeh=g−φ0, la seconde inclusion impliqueφ0−φ1∈∂g(x). Conclusion,
φ0 =φ1+ (φ0−φ1) oùφ1 ∈∂f(x) etφ0−φ1∈∂g(x)comme annoncé.
Corollaire 71. Soientf1, . . . , fn:E →Rdes fonctions convexes semi-continues inférieurement. On suppose que la condition de qualication suivante est vériée :
∃x0∈dom(f1)∩. . .∩dom(fn), tel que f2, . . . , fn sont continues en x0 (Q) alors,
∀x∈E, ∂(f1+. . .+fn)(x) =∂f1(x) +. . .+∂fn(x).
Exemple : problème à frontière libre On s'intéresse au problème suivant, qu'on peut voir comme la discrétisation d'un problème à frontière libre :
x∈minRn,x≥p
1 2kGxk2
où G est une matrice dénie positive. On peut réécrire le problème sous la forme suivante, où l'on a poséCi ={x∈Rn|xi≥pi}etf(x) = 12kGxk2 :
x∈minRn
f(x) + X
1≤i≤n
iCi(x) Soitx∗ un minimum global. Alors,
0∈∂(f+ X
1≤i≤n
iCi)(x∗).
Commef est continue surRn, les conditions du théorème sont vériées et on a donc, en utilisant∂f(x) ={∇f(x)},
∂(f + X
1≤i≤n
iCi)(x∗) =∇f(x∗) + X
1≤i≤n
∂iCi(x∗)
Nous posonsL=GtG, de sorte que∇f(x) =Lx. Un calcul élémentaire montre que
∂iCi(x) =
0 sixi< pi R−ei six=pi
∅ sinon
Ainsi, on obtient 0 = x∗+Pn
i=1λiei,où λi ≤0 et λi = 0 si fi =gi. Ainsi, on voit quex∗ est caractérisé par le système
(Lx∗≥0
∀i∈ω,(Lx∗)i = 0 oùω ={i∈ {1, . . . , n} |gi< fi}
Lemme 72. Soit E un espace vectoriel normé, φ0 une forme linéaire continue sur E, a∈R et C={x∈E| hφ0|xi ≤a}. Alors,
∂iC(x) =
0 si hφ0|xi< a R+φ0 si hφ0|xi=a
∅ sinon
Démonstration. Sihφ0|xi< a,xest dans l'intérieur deC, doncf+(x,·) = 0, de sorte que ∂iC(x) = 0. On suppose désormais que hφ0|xi=a, et on se donneφ∈ ∂iC(x), c'est-à-dire que
∀x∈C, hφ|x−x0i ≤0.
SoitH ={v∈E| hφ0|vi= 0}. On vérie facilement quex0+H⊆C de sorte que,
∀v∈H,hφ|vi ≤0.
En remplaçant v par −v, on obtient φ|H = 0 ou encore φ ∈H⊥. Par un argument standard d'algèbre linéaire on en déduit que φ = λφ0 où λ ∈ R. En eet, soit w ∈ E \H et λ = hφ|wi/hφ0|wi. Alors, la forme linéaire φ −λφ0 s'annule sur l'hyperplan H et en w et est donc nulle. Il reste à déterminer le signe de λ. Pour cela, on prend un vecteurx∈int(C), c'est-à-dire tel quehφ0|x−x0i<0. Alors,
hφ0|x−x0i=λhφ|x−x0i ≤0, soit λ≥0
Exemple : projection sur un polyèdre SoitHun espace de Hilbert, etv1, . . . , vn∈ Hdes vecteurs, eta1, . . . , andes scalaires. On suppose que l'intersection des convexes Ci = {x ∈H | hvi|xi ≤ ai} a un intérieur non vide. On s'intéresse au problème de projection d'un point x0
x∈∩miniCi
1
2kx−x0k2 = min
x∈Hf(x) + X
1≤i≤n
iCi(x),
où f(x) = 12kx−x0k2. On peut appliquer le théorème sur la somme des sous- diérentiels pour obtenir quex∗ est un minimiseur si et seulement si
0∈ ∇f(x) + X
1≤i≤n
∂iCi(x).
De plus, on vérie que
∂iCi(x) =
0 sihvi|xi< ai
R+vi sihvi|xi=ai
+∞ sinon
Ainsi, la condition d'optimalité peut s'écrire de la façon suivante : 0 =x∗−x0+
n
X
i=0
λivi,
oùλi ≥0etλi = 0si hvi|xi< ai.
4.2 Sous-diérentiel, cône normal et théorème KKT
Dénition 24. Soit K un ensemble convexe fermé dans un espace vectoriel normé E etx∈K. On appelle cône normal de K en x l'ensemble
NxK ={φ∈E∗ | ∀y∈K, φ(y)≤φ(x)}.
Lemme 73. SoitK convexe fermé et x∈K. Alors, NxK =−∂iK(x).
Démonstration. Par dénition de la fonction indicatrice convexe, φ∈NxK ⇐⇒ ∀y ∈K, φ(y)≤φ(x)
⇐⇒ ∀y ∈K, φ(y) +iK(y)≤φ(x) +iK(x)
⇐⇒ ∀y ∈E, φ(y) +iK(y)≤φ(x) +iK(x)
⇐⇒φ∈∂iK(x)
Exemple 20. Soit K ⊆E un convexe fermé et f :E → Rune fonction convexe sci.
On suppose une des deux hypothèses de qualication suivante :
∃x0 ∈int(K)∩dom(f) (Q1)
∃x0 ∈K t.q.f est continue en x0 (Q2) Alors, en appliquant le théorème sur la somme des sous-diérentiel à f +iK, on a les équivalences suivantes :
x∗ est minimum global def ⇐⇒ ∃φ∈∂f(x)t.q. −φ∈∂iK(x)
⇐⇒ ∃φ∈∂f(x)t.q. φ∈∂NK(x)
⇐⇒ ∃φ∈∂f(x)t.q. ∀y∈K, φ(y)≤f(x).
Proposition 74. Soit g : E → R une fonction convexe continue, et soit K l'ensemble K ={x∈E|g(x)≤0}. On suppose la condition de Slater vériée :
∃x0 ∈K t.q. f(x0)<0 (S) Alors pour tout x∈K, le cône normal à K en x est égal au cône engendré par le sous-diérentiel de g enx :
NxK =
({0} si g(x)<0 R+∂g(x) si g(x) = 0, ou on a noté R+C={λx|λ≥0, x∈C}.
Remarque 19. En d'autre termes,φ∈NxK est équivalent à l'existence de λ≥0 tel queλg(x) = 0 etφ∈λ∂g(x).
Démonstration. Sig(x)<0, alorsiCest localement constante au voisinage dexdonc dérivable et de gradient nul, i.e.∂iC(x) ={0}. On suppose désormais que g(x) = 0, et il s'agit de démontrer queA=B oùA=NxK =∂iK(x)etB =R+∂g(x). Étape 1 Commençons par l'inclusion facileB ⊆A : soit φ∈∂g(x) etλ≥0, on a
∀y∈E, g(y)≥ hφ|y−xi+g(x) =hφ|y−xi de sorte que,
∀y∈K,0≥λg(y)≥λhφ|y−xi, i.e. λφ∈NxK
Étape 2 On veut maintenant montrer l'inclusion réciproque. Soit φ∈NxK et soit H le demi-espaceH := {y ∈E | hφ|yi ≥ hφ|xi}. Par dénition du cône normal, on sait queC⊆E\int(H). En utilisant de plus C={g≤0} on obtient
y ∈int(H) =⇒y6∈C =⇒g(y)≥g(x) = 0
Autrement dit, le point xest le minimum de la fonctiong surH, c'est-à-dire 0∈∂(g+iH)(x) =∂g(x) +R+{−φ}.
Ainsi, il existeψ∈∂g(x) etλ≥0tels queλφ=ψ. Pour conclure, il sut d'exclure le casλ= 0: si c'était le cas on aurait0∈∂g(x), i.e.minEg= 0ce qui contredirait la condition de Slaterg(x0)<0.
Théorème 75 (Karush-Kuhn-Tucker). Soit f :E →R une fonction convexe sci et g1, . . . , gN :E→R des fonctions convexes continues. On suppose :
∃x0 ∈dom(f) t.q. ∀i∈ {1, . . . , N}, gi(x0)<0.
Alors il y a équivalence entre
(i) x est un minimum global de f sur l'ensemble C ={x∈E |gi(x)≤0}. (ii) il existe λ1, . . . , λN ∈R+ tels que
(0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x) λigi(x) = 0 ∀i∈ {1, . . . , N}
Démonstration. On pose Ci = {x ∈ E | gi ≤ 0}. La condition de qualication du théorème sur la somme de sous-diérentiels est vériée, de sorte que
∀x∈E, ∂(f +iC1+. . .+iCN)(x).
Ainsi,x est minimiseur global def surC=T
iCi si et seulement si 0∈∂(f +iC1+. . .+iCN)(x) =∂f(x) +∂iC1(x) +. . .+∂iCN(x),
i.e. il existe φ∈∂f(x) etφi ∈∂iCi(x) tels que φ+φ1+. . .+φN = 0. On a montré précédemment queφi∂iCi(x)⇐⇒ ∃λi≥0 tel que λigi(x) = 0 etφi∈λi∂gi(x). Exemple 21. Soientf etg1, . . . , gN comme dans le théorème et on supposef coercive pour avoir l'existence d'un minimum global. Pour λ1, . . . , λN ∈R+, on considère le problème pénalisé
minx∈Ef(x) +λ1g1(x) +. . .+λNgN(x).
Alors, avecC={x∈E | ∀i, gi(x)≤0} on a minx∈Cf(x)≥min
x∈Ef(x) +λ1g1(x) +. . .+λNgN(x),
c'est-à-dire que le minimum du problème pénalisé est toujours plus petit que le minimum du problème avec contraintes. En d'autre termes,
sup
λ1,...,λN≥0
minx∈Ef(x) +λ1g1(x) +. . .+λNgN(x)≤min
x∈Cf(x)
Une question naturelle est de déterminer s'il existe desλ1, . . . , λN ≥0tels qu'on ait égalité.
Le théorème de Karush-Kuhn-Tucker répond à cette question. Il existe λi ∈R+ tel que
0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x), de sorte que
0∈∂(f+λ1g1+. . .+λNgN)(x).
Ainsi,x est aussi le minimum global du problème pénalisé, on parle alors de pénali- sation exacte.
Exemple 22. On se donne un ensemble ni y1, . . . , yN ∈ Rd et on s'intéresse au problème de déterminer le rayon de la plus petite sphère contenant ces points, i.e.
min{r≥0| ∃x∈Rd,∀i∈ {1, . . . , N},kyi−xk ≤r}.
On introduit gi : RN+1 → R,(x, r) 7→ kyi−xk − r, de sorte que gi(x, r) si et seulement sikyi−xk ≤r. On peut alors réécrire le problème comme
(x,r)∈Cmin f(x, r), où f(x, r) = r,C = T
iCi et Ci = {gi ≤ 0}. Les hypothèses du théorème Karush- Kuhn-Tucker sont vériée : tout le point (x, R) est dans l'intérieur de C si R >
maxikxi−xk. Un point (x, r) ∈ Rd×R résoud ce problème si et seulement si il existe λ1, . . . , λN ≥0 vériantλigi(x) = 0et tels que
0∈∂f(x) +λ1∂g1(x) +. . .+λN∂gN(x).
On remarque d'abord que six=yi, alorsgi(x)<0 (sinon,r = 0ety1 =. . .=yN), de sorte que λi = 0. Six6=yi, on a ∂gi(x) ={∇gi(x)}où
∇gi(x) = ((x−yi)/kx−yik,−1).
Ainsi,
0 = (0,1) + X
i|kx−yik=r
λi((x−yi)/kx−yik,−1), En regardant la dernière coordonnée, on a 1 = P
iλi. De plus, en observant les d premières coordonnées on obtient
0 = X
i|kx−yik=r
λi x−yi kx−yik = 1
r X
i|kx−yik=r
λi(x−yi)
Autrement dit, (x, r) est un minimiseur global si et seulement x est combinaison convexe des pointsyi tels quekyi−xk=r.
4.3 Théorème de Fenchel-Rockafellar et applications
Théorème 76 (Fenchel-Rockafellar). Soit E un espace vectoriel normé, f, g : E → R deux fonctions convexes sci vériant l'hypothèse de qualication (Q).
On suppose de plus infEf+g >+∞. Alors,
x∈Einf f(x) +g(x) = max
φ∈E∗−f∗(−φ)−g∗(φ) (4.6) Démonstration. On a par dénition de la conjuguée,
x∈Einf f(x) +g(x) =−(f+g)∗(0),
et la conclusion suit par le théorème sur la transformée de Legendre-Fenchel d'une somme (Théorème 69 et plus précisément (4.3)) appliqué enφ= 0 :
(f +g)∗(φ) = inf
ψ∈E∗f(φ−ψ) +g(ψ).
Dénition 25 (Plan de transport). SoientXetY deux ensembles nis etµ:X→R etν : Y → Rdeux mesures de probabilité sur X et Y respectivement (c'est-à-dire queµ, ν ≥0 etP
xµ(x) =P
yν(y) = 1). On appelle plan de transport entre µ etν une matriceγ :X×Y →Rvériant
∀(x, y)∈X×Y, γ(x, y)≥0 (4.7) (∀x∈X, P
y∈Y γ(x, y) =µ(x)
∀y∈Y, P
x∈Xγ(x, y) =ν(y) (4.8)
L'ensemble des plans de transport entreX etY est noté Γ(X, Y).
On se donne de plus une fonctionc:X×Y →Rmesurant le coût de déplacement d'une unité de masse d'un pointx∈Xvers un pointy∈Y. Le problème du transport optimal entre µetν pour le coût c consiste à minimiser
P = inf
γ∈Γ(X,Y)
X
(x,y)∈X×Y
γ(x, y)c(x, y) (K)
Ce problème est appelle problème de Kantorovich primal. Un minimiseur de ce pro- blème d'optimisation est appelé plan de transport optimal entre X etY.
Théorème 77 (Kantorovich). Le problème de Kantorovich primal est équivalent au problème de Kantorovich dual, i.e. P =Doù
D= sup
X
x∈X
φ(x)µ(x) +X
y∈Y
φ(y)ν(y)|φ∈RX, ψ∈RY, φ(x) +ψ(y)≤c(x, y)
.
(4.9) Remarque 20. Interprétation économique du problème dual.
Remarque 21. Commençons par montrer comment retrouver ce résultat de manière informelle par la méthode des multiplicateurs de Lagrange. On écriti≥0 la fonction indicatrice des γ vériant la contrainte (4.7) et iµ et iν celles associée aux deux contraintes (4.8)
i≥0(γ) = sup
σ:X×Y→R,σ≥0
− X
(x,y)∈X×Y
γ(x, y)σ(x, y)
iµ(γ) = sup
φ:X→R
X
x∈X
φ(x)
µ(x)−X
y∈Y
γ(x, y)
iν(γ) = sup
ψ:Y→R
X
y∈Y
ψ(y) ν(y)−X
x∈X
γ(x, y)
!
Alors, P = inf
γ∈Γ(X,Y)
X
(x,y)∈X×Y
γ(x, y)c(x, y)
= inf
γ
X
x,y
γ(x, y)c(x, y) +i≥0(γ) +iµ(γ) +iν(γ)
= inf
γ sup
σ≥0,φ,ψ
X
x,y
γ(x, y)(c(x, y)−σ(x, y)−µ(x)−ν(y)) +X
x
φ(x)µ(x) +X
y
ψ(y)γ(y)
Pour trouver le problème dual, on inverse l'inmum et le supremum (cette opération sera justiée par Fenchel-Rockafellar),
D:= sup
σ≥0,φ,ψ
infγ
X
x,y
γ(x, y)(c(x, y)−σ(x, y)−µ(x)−ν(y))+X
x
φ(x)µ(x)+X
y
ψ(y)ν(y).
Ensuite, on écrit les conditions nécessaires d'optimalité du problème de minimisation interne infγ, les valeurs deσ, φ, ψ étant xées :
c(x, y) =σ(x, y) +φ(x) +ψ(y)
En utilisant ces conditions dans la formule précédente, on voit que les termes dans la double somme P
x,y s'annulent, de sorte que D= sup
σ≥0,φ,ψ
X
x
φ(x)µ(x) +X
y
ψ(y)γ(y),
sous la contraintec(x, y) =σ(x, y) +φ(x) +ψ(y). On peut supprimer la variable σ et se retrouver avec l'équation (4.9).
Démonstration du théorème 77. Le problème de Kantorovich revient à minimiser la sommef +g sur l'espaceE=RX×Y, où
f(γ) = (P
(x,y)∈X×Y γ(x, y)c(x, y) siγ ≥0
+∞ sinon , (4.10)
g(γ) =iµ(γ) +iν(γ) =
(0 si (4.8) est veriee
+∞ sinon (4.11)
Dans les calculs suivant, on munit l'espaceE de la structure Euclidienne canonique, et on l'identie avec son dual. On a :
f∗(π) = sup
γ∈E
hπ|γi −f(γ)
= sup
γ∈E,γ≥0
X
(x,y)∈X×Y
(π(x, y)−c(x, y))γ(x, y)
=
(0 si∀(x, y)∈X×Y t.q.π(x, y)≤c(x, y) +∞ sinon
Passons maintenant au calcul de la conjuguée deg: g∗(π) = sup
γ∈E
hπ|γi −g(γ)
= sup
X
(x,y)∈X×Y
π(x, y)γ(x, y)| ∀x∈X,X
y∈Y
γ(x, y) =µx et∀y∈Y,X
x∈X
γ(x, y) =νy
Par la remarque 21, on s'attend à ce queπ(x, y) =φ(x) +φ(y)oùφ∈RX etψ∈RY.
Supposons dans un premier temps que c'est bien le cas. Alors, pour toutγ vériant les conditions de marge,
X
(x,y)∈X×Y
π(x, y)γ(x, y) = X
x∈X
φ(x)X
y∈Y
γ(x, y) +X
y∈Y
ψ(y)X
x∈X
γ(x, y)
= X
x∈X
φ(x)µ(x) +X
y∈Y
φ(y)ν(y)
Supposons maintenant que π(x, y) n'est pas de la forme φ(x) +ψ(y). Ceci signie qu'il existex06=x1∈X tels queπ(x0,·)−π(x1,·) n'est pas constant surY, i.e.
∃y0 6=y1 ∈y t.q. π(x0, y0)−π(x1, y0)6=π(x0, y1)−π(x1, y1)
On supposera (par exemple) que π(x0, y0) +π(x1, y1) > π(x1, y0) +π(x0, y1). Soit δ∈RX×Y déni parδ(x0, y0) =δ(x1, y1) = 1etδ(x0, y1) =δ(x1, y0) =−1. Alors, si γ vérie les conditions de marge,γ+tδ les vérie aussi. De plus,
X
(x,y)∈X×Y
π(x, y)(γ+tδ)(x, y) = X
(x,y)∈X×Y
π(x, y)γ(x, y)+t(π(x0, y0)+π(x1, y1)−π(x1, y0)−π(x0, y1)), de sorte qu'en faisant tendretvers+∞, on voit que le supremum dans la dénition
de g∗ vaut +∞. En conclusion, g∗(π) =
(P
x∈Xφ(x)ν(x) +P
y∈Y φ(y)ν(y) si∃φ∈RX, ψ∈RY, π(x, y) =φ(x) +ψ(y)
+∞ sinon
Pour conclure, il sut donc de vérier qu'on est bien dans les conditions d'appli- cation du théorème de Fenchel-Rockafellar, et en particulier que la la condition de
qualication (Q) est vériée. Soit π0(x, y) = µ(x)ν(y), π0 ∈ E. Ce π0 satisfait les conditions de marge (4.8), de sorte queπ ∈dom(g). De plus,π ≥minµ·minν >0 de sorte que π est à l'intérieur du domaine de f, et donc en dimension nie, f est continue en π. Ainsi,
P = sup
π
−f∗(π)−g∗(−π) = sup
φ,ψ|φ+ψ≤c
X
x∈X
µ(x)φ(x) +X
y∈Y
ν(y)ψ(y).
Théorème 78 (Fenchel-Rockafellar). Soit E un espace vectoriel normé, Λ : E → F une application linéaire continue et f : E → R et g : F → R deux fonctions convexes sci vériant l'hypothèse de qualication
∃x∈E, t.q. x∈dom(f) etg continue en Λx (Q') On suppose de plus que infEf +g◦Λ > −∞. Pour ψ ∈ F∗, on pose Λ∗ψ = ψ◦Λ∈E∗. Alors,
x∈Einf f(x) +g(Λx) = max
ψ∈F∗−f∗(−Λ∗ψ)−g∗(ψ) (4.12) Démonstration. On va chercher à appliquer la précédente version du théorème de Fenchel-Rockafellar sur l'espace produitE×F. On pose
f1:E×F →R, (x, y)7→
(f(x) siy= Λx 0 sinon
g1:E×F →R, (x, y)7→g(y)
On a alors facilement que infEf +g◦ Λ = infE×F f1 +g1. Il s'agit maintenant d'appliquer la précédente version du théorème de Fenchel-Rockafellar à ce deuxième problème. On identie(E×F)∗ à E∗×F∗. Pourφ∈E∗ etψ∈F∗, on a
f1∗(φ, ψ) = sup
x∈E,y∈F
hφ|xi+hψ|yi −f1(x) = sup
x,y|Λx=y
hφ|xi+hψ|yi −f(x)
= sup
x,y|Λx=y
hφ|xi+hψ|Λxi −f(x) = sup
x,y|Λx=y
hφ+ Λ∗ψ|xi −f(x)
=f∗(φ+ Λ∗ψ) g∗1(φ, ψ) = sup
x∈E,y∈F
hφ|xi+hψ|yi −g1(x) = sup
x∈E,y∈F
hφ|xi+hψ|yi −g(x)
=
(+∞ si ψ6= 0 g∗(ψ) sinon
Ainsi, par thèorème de Fenchel-Rockafellar et en utilisant les calculs précédents, infE f+g◦Λ = inf
E×Ff1+g1 =− sup
(φ,ψ)∈E∗×F∗
f1∗(−φ,−ψ) +g1∗(φ, ψ)
=− sup
ψ∈F∗
f(−Λ∗ψ) +g(ψ)
Exemple 23. On considère le problème de minimisation surRn, oùAest une matrice àm lignes etn colonnes,x0∈Rn :
x∈minRn
1
2kx−x0k22+kAxk1 = min
x∈Rn
f(x) +g(Ax).
Commef etgsont continues, on peut appliquer le théorème de Fenchel-Rockafellar.
Calculons maintenant les conjuguées def etg : f∗(y) = sup
x∈Rn
hx|yi −1
2kx−x0k2
=hx0|yi+ sup
x∈Rn
hx−x0|yi −1
2kx−x0k22
=hx0|yi+1
2kyk22= 1
2ky+x0k22−1
2kx0k22, où l'on a utilisé (12k.k22)∗ = 12k.k22. De plus,
g∗(y) = sup
x∈Rm
X
i
xiyi−X
i
|xi|= X
1≤i≤m
h∗(yi), où l'on a poséh:x∈R→ |x|. De plus,
h∗(r) = sup
s∈R
rs− |s|=
(0 sir ∈[−1,1]
+∞ sinon
Ainsi, g∗ est la fonction indicatrice de [−1,1]m (qui est la boule unité pour k.k∞).
Ainsi,
x∈minRn
1
2kx−x0k22+kAxk1 = min
x∈Rn
f(x) +g(Ax)
= max
y∈Rn
−f∗(−Aty)−g∗(y)
= min
y∈[−1,1]n
1 2
Aty−x0
2 2−1
2kx0k2
4.4 Algorithme du point proximal
Dans cette dernière section, on suppose queE est un espace de Hilbert, que l'on identiera à son dual. On rappelle qu'une fonctionf :E → Rest dite 0-coercive si limkxk→∞f(x) = +∞.
Dénition 26. Soit f :E →R une fonction convexe propre et semi-continue infé- rieurement. Pour γ >0, on dénit l'opérateur proximal def par
proxγf(x) = arg min
y∈E
1
2γkx−yk2+f(y).
Exemple 24. SiiC oùC est un ensemble convexe fermé deH,proxγiC =pC. L'opé- rateur proximal généralise la fonction projection sur un ensemble convexe, et possède un certain nombre de ses propriétés.
Proposition 79. Soit f :E →R est convexe propre, semi-continue inférieurement etγ >0. Alors,
(i) Le problème de minimisation suivant admet un unique minimiseur.
miny∈E
1
2γ kx−yk2+f(y), et lopérateur proximal def est donc bien déni.
(ii) Le point p= proxγf(x) est caractérisé par la relation x∈(id +γ∂f) (p).
(iii) Le point x est un minimiseur global de la fonction f sur E si et seulement s'il est point xe de l'opérateur proximal, i.e.x= proxγf(x).
Démonstration. Soit g = 2γ1 kx− ·k2 et h = f +g (i) La fonction h est convexe propre, semi-continue inférieurement pour la topologie forte, et elle est 0-coercive (i.e.limkyk→∞h(y) = +∞). Soitr >infh: le sous niveauK ={h≤r}est convexe, fortement fermé et donc faiblement fermé. Comme de plusK est borné,K est donc faiblement compact. La fonctionf est convexe et fortement semi-continue inférieu- rement et donc faiblement semi-continue inférieurement. Elle atteint donc son mini- mum (global) surK. Par stricte convexité de kx− ·k2,h est strictement convexe et le minimum est donc unique.
(ii) En utilisant le théorème sur la somme des sous-diérentiels, on voit que p= proxγf(x) si et seulement si
0∈∂(f +g)(p) =∂f(p) +1
γ {p−x} ⇐⇒x∈(id +γ∂f)(p).
(iii) Le pointx est un minimiseur global de f si et seulement si 0∈∂f(x)⇐⇒x∈(id +γ∂f)(x)⇐⇒x= proxγf(x).
Exemple 25. Soith:R→R, x7→ |x|. On a
∂h(y) =
−1 siy <0 [−1,1] siy= 0 1 siy >0
=⇒ (id +γ∂h)(y) =
y−γ siy <0 [−γ, γ] siy = 0 y+γ siy >0 .
Par la caractérisation donnée dans la proposition précédente, on obtient
proxγh(x) =
x−γ six≥γ
0 si −γ ≤x≤γ x+γ six≤ −γ.
On note Rγ = proxγh. Cette fonction est appelée opérateur de seuillage doux (ou soft thresholding) en statistique et en traitement d'image. Soit maintenant E =Rn muni de la norme euclidienne et f(x) =kxk1 =P
1≤i≤n|xi|. Alors,
y∈minRn
1
2γ kx−yk22+f(y) = min
y∈Rn
X
1≤i≤n
1
2γ(xi−yi)2+|yi|, de sorte que proxγf(x) = (Rγ(x1), . . . , Rγ(xn)).
La caractérisation donnée en (iii) du minimum global comme un minimiseur def invite à utiliser l'algorithme de point xe pour résoudre numériquement le problème d'optimisation :
(x0 ∈E
xn+1= proxγf(xn) (PPA)
Cet algorithme est appelé algorihtme du point proximal et a été introduit Martinet (puis généralisé par Rockafellar) dans les années 1960. Avant de pouvoir montrer la convergence de cet algorithme, nous avons besoin de plus d'informations sur l'opé- rateur proximal.
Dénition 27. Un opérateurF :E →E est dit fermement non-expansif s'il vérie une des conditions équivalentes suivantes
(i) ∀x, y∈E, kF(x)−F(y)k2 ≤ hF(x)−F(y)|x−yi
(ii) ∀x, y∈E, kF(x)−F(y)k2 ≤ kx−yk2− k(x−F(x))−(y−F(y))k2 Pour voir l'équivalence entre ces deux conditions, il sut de remarquer que k(x−F(x))−(y−F(y))k2 =kx−yk2+kF(x)−F(y)k2−2hx−y|F(x)−F(y)i Proposition 80. Soit f : E → R une fonction convexe, propre et semi-continue inférieurement et γ >0. Alors
(i) Le point p= proxγf(x) est caractérisé par l'inégalité
∀q∈E, 1
γhx−p|q−pi ≤f(q)−f(p) (ii) L'opérateur F :x7→proxγf(x) est fermement non-expansif.
Démonstration. (i) Le pointp= proxλf(x) est caractérisé parx∈(id +γ∂f)(p) ou de manière équivalente par γ1(x−p)∈∂f(p). C'est-à-dire,
∀q ∈E, f(q)≥f(p) +1
γhx−p|q−pi.
(ii) Soient x1, x2 et pi = proxγf(xi). Appliquons l'inégalité de (i) en prenant d'abordx=x1,p=p1 etq =p2 puis en inversant les rôles :
f(p2)−f(p1)≥ 1
γhx1−p1|p2−p1i f(p1)−f(p2)≥ 1
γhx2−p2|p1−p2i
En additionnant ces inégalités puis en multipliant par γ, on obtient kp2−p1k2≤ hp1−p2|x1−x2i.
Remarquons que le caractère seulement1-Lipschitz deF = proxγf ne permet pas d'appliquer le théorème du point xe contractant (il faudrait queF soit k-Lipschitz avec k <1). Cependant, la propriété de de non-expansivité ferme permet d'obtenir un théorème de convergence.
Théorème 81. Soit f :E→ Rune fonction convexe semi-continue inférieurement et0-coercive. Alors, la suite de points déni par lalgorithme du point proximal (PPA) converge faiblement vers un minimum global de f.
La démonstration de ce théorème provient des trois lemmes suivants, où l'on a posé F = proxγf. Les deux premiers lemmes sont valables pour toute opérateur fermement non expansifF.
Lemme 82. Soit F : E → E un opérateur fermement non-expansif admettant un point xe. Alors, la suite dénie par xn+1 =F(xn) est bornée et
n→∞lim kxn−xn+1k= 0.
Démonstration. Soitc un point xe deF. La non-expansivité ferme donne : kF xn−F ck2≤ kxn−ck2− k(xn−F(xn))−(c−F(c))k2. En utilisantF xn=xn+1 etF(c) =c, cette inégalité implique
kxn+1−ck2 ≤ kxn−ck2− kxn−xn+1k2
La suite kxn−ckn≥1 est décroissante et minorée donc convergente, de sorte que kxn−xn+1k2≤ kxn−ck2− kxn+1−ck2 −→
n→+∞0
Lemme 83. SoitF :E→E un opérateur non-expansif admettant un point xe. On suppose que tout point d'accumulation faible de la suite (xn)n≥1 est un point xe de F. Alors (xn)n≥1 converge faiblement vers un point xe deF.
Démonstration. Soientc1etc2deux points d'accumulation faibles de(xn)n≥0, qui par hypothèses sont des points xes deF. On a remarqué au cours de la démonstration du lemme précédent quekxn+1−cik2 ≤ kxn−cik2, ce qui implique que la suite
kxnk2−2hxn|cii=kxn−cik2− kcik2,
est décroissante donc convergente. En soustrayant ces suites pouri= 1 et2, (kxnk2−2hxn|c1i)−(kxnk2−2hxn|c2i) = 2hxn|c1−c2i
est convergente. Comme c1 etc2 sont des points d'accumulation (faibles) de xn, on a donc en passant à la limite des sous-suites correspondantes
hc1|c1−c2i=hc2|c1−c2i
ce qui implique quekc1−c2k2= 0, soitc1 =c2. La suite(xn)n≥1 est bornée et a un unique point d'accumulation faible : elle est donc faiblement convergente.
Lemme 84. Soit F = proxγf où f est convexe, propre, sci et 0-coercive. Alors tout point d'accumulation faible de la suite(xn)n≥0 est un point xe de F.
Démonstration. L'application F admet un point xe car la fonction f admet un minimum global sur f. Par la caractérisation de xn+1 = proxγf(xn) en terme de sous-diérentiel, on a
xn∈(id + 1
λ∂f)(xn+1) =xn+1+ 1
λ∂f(xn+1) Autrement dit,
∀x∈E, f(x)≥f(xn+1) +1
γhx−xn+1|xn−xn−1i Soit(xnk) une sous-suite faiblement convergente de la suite(xn). On a
∀x∈E, f(x)≥f(xnk+1) +1
γhx−xnk+1|xnk−xnk+1i
≥f(xnk+1)−1
γ kx−xnk+1k kxnk−xnk+1k
Or, on sait par un des lemmes précédents quelimn→+∞kxnk−xnk+1k= 0, de sorte qu'en passant à la limite faible (et en utilisant la semi-continuité faible def),xnk →
¯
x∈E, on a
∀x∈E, f(x)≥f(¯x),
ce qui implique quex¯est un minimum global def et donc un point xe de l'opérateur F.
Algorithme forward-backward On suppose que la fonction f minimisée peut être décomposée sous la forme f = f1 +f2 où f1 : E → R et f2 : E → R sont deux fonctions convexes semi-continues inférieurement, propres et 0-coercives. On demande de plus quef2 soit diérentiable.
Proposition 85. Les assertions suivantes sont équivalentes (i) x∈E est un minimum global de f =f1+f2;
(ii) x est un point xe de l'opérateurF :x7→proxγf1(x−γ∇f2(x)). Démonstration. x= arg minEf si et seulement si
0∈∂(f1+f2)(x) =∂f1(x) +{∇f2(x)}
⇐⇒ −∇f2(x)∈∂f1(x)
⇐⇒x−γ∇f2(x)∈(id +γ∂f1)(x)
⇐⇒x= proxγf1(x−γ∇f2(x))
Théorème 86. Soit f =f1+f2, oùf1:E →R etf2 :E →R sont deux fonctions convexes semi-continues inférieurement, propres et0-coercives. On demande de plus quef2 soit diérentiable et x∈E 7→ ∇f2(x) est L-Lipschitz. Soit γ ≤1/L, et
(x0∈E
xn+1 = proxγf1(xn−γf2(xn)).
Alors, la suite(xn) converge faiblement vers un minimiseur de f.
Exemple 26. Soit E = Rn, f1(x) = kxk1 et f2(x) = 12kAx−bk22. Alors, ∇f2(x) = AT(Ax−b), et proxγf1 = Rγ est l'opérateur de seuillage doux. Dans ce contexte, l'algorithme décrit par le théorème est donné parx0∈E et
xn+1 =Rγ(xn−γAT(Axn−b)),
et est connu sous le nom de iterative shrinking-thresholding algorithm (ISTA) en statistique, traitement d'image et peut-être plus généralement être appliqué pour résoudre des problèmes inverses linéaires.