solution

(1)

TP4 : OPTIMISATION CONVEXE

COURS D’APPRENTISSAGE, ECOLE NORMALE SUP ´ERIEURE

Rapha¨el Berthier raphael.berthier@inria.fr

1. Choix des pas dans la descente de gradient pour la minimisation de quadratiques 1) De ∇f(x^∗) = 0 il d´ecoule que Hx^∗ =b. Par cons´equent,

x_t+1−x^∗ =x_t−γ(Hx_t−b)−x^∗=x_t−x^∗−γH(x_t−x^∗) = (I_d−γH)(x_t−x^∗).

2) La matrice H´etant la hessienne def, on cherche donc µetLtels queµI_d4H 4LI_d.L=λ₁ et µ=λn sont les constantes optimales.

3)

hx_t+1−x^∗, u_ii=h(I_d−γH)(x_t−x^∗), u_ii

=hx_t−x^∗,(I_d−γH)u_ii carH est sym´etrique

=hx_t−x^∗,(1−γλ_i)u_ii

= (1−γλi)hx_t−x^∗, uii, et le r´esultat suit par r´ecurrence.

4) On a donc kx_t−x^∗k²₂ =Pd

i=1(1−γλi)^2thx₀−x^∗, uii². Pour minimiser la vitesse de convergence, il faut minimiser enγ la quantit´e

i=1,...,dmax |1−γλi|= max(1−γµ, γL−1). Ceci est minimal enγ = 2/(L+µ). La vitesse de convergence associ´ee est

kx_t−x^∗k₂ ≤

L−µ L+µ

t

kx₀−x^∗k₂.

5) Si on notea_t=hx_t−x^∗, u_ii, alorsa_t+1 = (1−γλ_i)a_t+β(a_t−a_t−1). On applique ensuite la méthode classique de résolution des équations linéaires d’ordre 2. Après quelques calculs, le discriminant du polynôme caractéristique vaut δ = 16λ_i(λ_i −L−µ)/(√

L+√

µ)⁴, qui est négatif. Le polynôme caractéristique a deux racines complexes conjuguées z+, z−. La vitesse de décroissance de at est donnée para_t=O(m^t), où m=|z₊|=|z₋|. Le calcul donne m= (√

L−√ µ)/(√

L+√ µ).

2. Descente de gradient pour la r´egression ridge

6) On vérifieH = ¹_nX^TX+λId,b= ¹_nX^Ty. Puisquep > n, on a que X^TX ne peut pas être de rang plein. Par conséquence, µ=λ. Par ailleurs, L=λ+λmax(X^TX)/n.

7)

w^∗ = 1

nX^TX+λI −1

1 nX^Ty .

(2)

2 COURS D’APPRENTISSAGE, ECOLE NORMALE SUP ´ERIEURE

8) 9) 10) Voir Jupyter notebook.

11) Lorsque λ → 0, le problème devient de moins en moins bien conditionné, de sorte que (a) la vitesse asymptotique de la méthode heavy ball devient infiniment meileure que la descente de gradient simple, et (b) l’optimisation, pour les deux méthodes, devient de plus en plus difficile.