Examen du cours d’optimisation différentiable
Durée : 2 heures
Les documents ainsi que les calculatrices ne sont pas autorisés.
**********************
Exercice 0.1 (transformée de Fenchel)
Soit φ:Rd→R. La transformée de Fenchel de φ est définie pour tout u∈Rd par φ∗(u) = sup
v∈Rd
u, v
−φ(v) .
1. Calculer la transformée de Fenchel de φ(v) = (1/2)kvk22 où kvk2 est la norme `d2 de v∈Rd. 2. On considère la fonction suivante : pour tout v= (vj)dj=1 ∈Rd,
φ(v) =
d
X
j=1
exp(vj).
2.1 Calculer la transformée φ∗ de φ en tout point u = (uj)dj=1 ∈ Rd où uj > 0 pour j= 1, . . . , d.
2.2 Calculer ∇φ∗(u) en tout point u= (uj)dj=1 ∈Rd oùuj >0 pour j= 1, . . . , d.
2.3 Soit u= (uj)dj=1 ∈Rd oùuj >0 pour j= 1, . . . , d. Calculer ∇φ∗(∇φ(u)).
**********************
Correction de l’exercice 0.1 1.Soit u∈Rd. On posef(v) = u, v
−φ(v) = u, v
−(1/2)kvk22. On a
∇f(v) =u−v et∇2f(v) =−Id≺0. Donc f est strictement concave. On a donc v∗ ∈argmaxv∈f(v) si et seulement si∇(v∗) = 0 càdv∗ =u. On obtient alors
φ∗(u) = u, v∗
−φ(v∗) = u, u
−kuk22
2 = kuk22
2 =φ(u).
2.1Soitu∈Rdun vecteur à coordonnées strictement positives. On a φ∗(u) = sup
v∈Rd
u, v
−
d
X
j=1
exp(vj)
= sup
v∈Rd
d
X
j=1
ujvj−exp(vj)
=
d
X
j=1
sup
vj∈R
(ujvj−exp(vj)).
Par ailleurs, comme g:x∈R→ tx−exp(x) atteint son maximum enx= log(t) dès que t >0 et vaut en ce point t(log(t)−1), on a
φ∗(u) =
d
X
j=1
uj(log(uj)−1).
2.2On a pour toutu∈Rd à coordonnées strictement positives,
∇φ∗(u) = (log(uj))dj=1.
2.3On a alors pour toutu∈Rd à coordonnées strictement positives,
∇φ∗(∇φ(u)) =∇φ∗
(exp(uj))dj=1
= (uj)dj=1 =u.
**********************
Exercice 0.2
Soit le problème d’optimisation suivant
min
yz+y2+z2 :z≤ −1
. (1)
1. Réduire le problème de minimisation (1) à un problème de la forme mint∈Kf(t)
où f est une fonction à valeurs réelles et
K={t:g(t)≤0}
avec g:R2 →R convexe de classe C1. 2. Montrer que f est convexe.
3. Montrer que la contrainte K est qualifiée.
4. Écrire le lagrangien de (P).
5. Écrire le problème dual de (P) et le résoudre.
6. Écrire les conditions KKT de (P) et résoudre (P) à partir de ces équations.
**********************
Correction de l’exercice 0.2
1. On considère le problème suivant :
mint∈Kf(t)
où f est une fonction de R2 dansRdonnée parf(y, z) =yz+y2+z2 et K ={(y, z)>∈R2:g(y, z)≤0}
avec g(y, z) =z+ 1convexe de classe C1
2. On a f(y, z) = (y+z/2)2 + 3z2/4. C’est une somme de carré de formes linéaires donc c’est une fonction convexe.
3. Il n’a y qu’une contrainte d’inégalité affine et la contrainte K est non vide donc la contrainte est qualifiée.
4. Le Lagrangien de (P) est donné pour tout(y, z)>∈R2 etλ≥0 par
L((y, z), λ) =f(y, z) +λg(y, z) =yz+y2+z2+λ(z+ 1).
5. Le problème dual est
sup
λ≥0
d(λ) où d(λ) = min
t∈R2
L(t, λ) = −λ2 3 +λ qui a pour solutionλ∗= 3/2.
6. On rappelle que(y∗, z∗, λ∗)> ∈R3 vérifient les conditions KKT du problème (2) quand (a) (y∗, z∗)>∈K,λ∗ ≥0,
(b) ∇(y,z)L((y∗, z∗), λ∗) = 0, (c) λ∗g(y∗, z∗) = 0.
Le problème (2) est un problème d’OCD donc(y∗, z∗)est solution du problème (2) si et seulement si il existeλ∗ une solution du problème dual tel que(y∗, z∗, λ∗)> ∈R3vérifient les conditions KKT. En résolvant les conditions KKT, on obtient que y∗ = 1/2 et z∗ =−1. Donc la valeur du problème d’optimisation est 1.75 atteint en(y∗, z∗) = (1/2,−1)>.
**********************
Exercice 0.3 Résoudre
min x21+x22+x23+x24:x1+x2+x3+x4 = 1
(2)
**********************
Correction de l’exercice 0.3 La fonction de Lagrange associée à (2) est définie en tout point x = (xj)4j=1∈R4 etλ∈Rpar
L(x, λ) =x21+x22+x23+x24+λ(x1+x2+x3+x4−1).
Le problème dual associé est
maxλ∈R
Ψ(λ)où Ψ(λ) = inf
x∈R4
L(x, λ).
Commex∈R4→L(x, λ)est convexe et deux fois différentiable,L(·, λ)atteint son minimum sur R4 en un point x∗ si et seulement si∇L(x∗, λ) = 0 càd pour2x∗i +λ= 0 pouri= 1,2,3,4. On a alors
Ψ(λ) =L((−λ/2)4i=1, λ) =−λ2−λ.
AinsiΨest maximale en λ=−1/2.
Le problème (2) est un problème d’OCD dont la contrainte est qualifiée vue que toutes les contraintes sont affines et la contrainte est non vide. On a donc, d’après KKT, l’équivalence entre les deux points suivant :
1. x∗ est solution de (2)
2. il existeλ∗ solution du problème dual tel que
i) x∗ ∈K
ii) ∇xL(x∗, λ∗) = 0
(Il n’y a pas de “complementary slackness condition” pour ce problème vu qu’il n’y a pas de contraintes d’inégalité).
On en déduit donc quex∗ est solution de (2) si et seulement si 1. x1+x2+x3+x4= 1
2. 2x∗i +λ∗ = 0 pouri= 1,2,3,4 etλ∗ =−1/2.
Ainsi l’unique solution de (2) est(1/4)4i=1.
Rem. : On aurait pu ne pas utiliser le fait queλ∗ est solution du problème dual ici car la valeur de λ∗ aurait pu être déduite de l’équation “x1+x2+x3+x4= 1”.
**********************
Exercice 0.4 (Descente de gradient et régularisation)
Soit T fonctions linéaires f1, . . . , fT :Rd → R et η >0. On considère l’algorithme de descente de gradient suivant :
at+1=at−η∇ft(at), ∀t= 0, . . . , T, a0 = 0.
Montrer que
aT+1 ∈argmin
a∈Rd T
X
t=1
ft(a) + 1 2ηkak22
!
où on rappelle que kak2 est la norme `d2 de a∈Rd définie par
kak2 =
d
X
j=1
a2j
1/2
et pour toute fonctions f :Rd→R, argmina∈Rdf(a) ={a∈Rd:f(a)≤f(b),∀b∈Rd}.
**********************
Correction de l’exercice 0.4 On note f(a) =
T
X
t=1
ft(a) + 1 2ηkak22.
f est une fonction convexe de classe C∞sur Rd. Les minima def sont les points critiques def, càd argmin
a∈Rd
f(a) =n
a∈Rd:∇f(a) = 0o .
Par ailleurs, on a
∇f(a) =
T
X
t=1
∇ft(a) +a η.
On a donc a∈argmina∈Rdf(a) si et seulement si a=−η
T
X
t=1
∇ft(a).
De plus, les fonctionsft, t= 1, . . . , T sont linéaires, on aft(a) = gt, a
pour un certaingt, on obtient que a∈argmina∈Rdf(a)si et seulement si
a=−η
T
X
t=1
∇ft(a) =−η
T
X
t=1
gt.
Par ailleurs, l’algorithme de descente de gradient pour des fonctions linéaires est tel que aT+1=aT −η∇fT(aT) =aT −ηgT =−η
T
X
t=1
gt
cara0 = 0.