Le Lasso La solution component wise

(1)

Le Lasso

La solution component wise

S.Canu

APPS ITI /INSA de Rouen Normandie

11 octobre 2021

(2)

Le Lasso

Données

I X ∈R^n×p lespvariables observéesnfois

I y∈Rⁿ la variable réponse Inconnues

I β∈R^p

hypothèses : pas de biais (pas de terme constant)

I mean(X) =0

I kXjk²=1

I mean(y) =0

le cout pénalisé

J_λ(β) = ¹₂kXβ−yk²+λkβk₁, Les conditions d’optimalité

0∈∂J_λ(β) = X^>(Xβ−y) +λ∂(kβk₁),

(3)

La notion de chemin de régularisation

β∈Rmin^p J_λ(β) avec J_λ(β) = ¹₂kXβ−yk²+λ

p

X

j=1

|β_j|

∂J(β) =X^>(Xβ−y) +λs(β) avec sj(β) =







1 siβ_j >0 [−1,1] siβj =0

−1 siβ_j <0 β optimal si 0∈∂J(β)c’est-à-dire si pour g(β) =X^>(Xβ−y)







gj(β) +λ=0 siβj >0

−λ≤g ≤λ siβ_j =0 g_j(β)−λ=0 siβ_j <0 Un cas intéressant :

siλ≥max

j (X^>y)_j alors β =0

(4)

La notion de chemin de régularisation

β(λ)

λlarge ⇒β=0 so that|X^>y| ≤λ

the first non zero component for vectorβ appears forλ= max|X^>y|

the regularization path is piecewise linear

(5)

Algo CW pour le Lasso

J_λ(β) = ¹₂kXβ−yk²+λ

p

X

j=1

|β_j|,

Algo CW pour le Lasso

itérer, tant que on n’a pas convergé : Pourj =1,p

fixer toutes les variables saufβ_j résoudre le Lasso en une dimension :

βˆ_j = arg min

β∈R

J_λ^(j)(β)

(1)

Le cout du Lasso en une dimension J_λ^(j)(β) = ¹₂kX_jβ−

y−Xβ^(−j)

k²+λ|β|

(6)

Le Lasso en 1d

minβ∈R

J_λ^(1d)(β) avec J_λ^(1d)(β) = ¹₂kxβ−rk²+λ|β|

∂_βJ_λ^(1d)(β) =x^>(xβ−r) +

λα ifβ =0 λsign(β) else.

0∈∂βJ_λ^(1d)(β) ⇔

∃α∈[−1,1],−x^>r+λα=0 ifβ =0 kxk²β−x^>r+λsign(β) =0 else.

The differential part :

( if β >0 β= ^x_kxk^>^r−λ2 it works whenx^>r > λ if β <0 β= ^x_kxk^>^r+λ2 it works whenx^>r <−λ It remains the non differential part : when −λ <x^>r < λthenβ =0

(7)

Le Lasso en 1d

The differential part :

( if β >0 β= ^x_kxk^>^r−λ2 it works whenx^>r > λ if β <0 β= ^x_kxk^>^r+λ2 it works whenx^>r <−λ It remains the non differential part : when −λ <x^>r < λthenβ =0 if kxk² =1

βˆ_Lasso1d =

0 if|x^>r| ≤λ sign(x^>r)(|x^>r| −λ) else.

Or in one line :

sign(x^>r) max (|x^>r| −λ),0

(8)

Algo CW pour le Lasso

Pourj =1,p : ˆβ_j = arg min

β∈R

J^(j⁾(β)

J^(j⁾(β) = ¹₂ky−Xβ^(−j⁾−Xjβk²+λ|β|

= ¹₂kr−X_jβk²+λ|β|

avecr =y−Xβ^(−j) et β^(−j) = (β₁, . . . , β_j−1,0, β_j+1, . . . , β_p) (2)

Maths Info

Pour j =1,p for j in range(p) :

β^(−j⁾= (β₁, . . . , βj−1,0, β_j₊₁, . . . , β_p) bj=beta;bj[j] =0;

r =y−Xβ^(−j⁾ r=y−X@bj βˆ_j = arg min

β∈R

J^(j⁾(β,X_j,z) beta[j] =sign(x^>r) max (|x^>r| −λ),0

fin de pour end

(9)

Codage

1 let’s begin withβ =0

2 in that case r ←y since Xβ=0

3 fit a single (thejth) component of vector β : β[j] =sign(x^>r) max (|x^>r| −λ),0

4 update r :r←r−X[:,j]β[j]

5 choose another componentj⁰

6 r ←r+X[:,j⁰]β[j⁰]

7 fit the other component j⁰ :β[j⁰] =sign(x^>r) max (|x^>r| −λ),0

8 update r :r←r−X[:,j⁰]β[j⁰]

9 . . .iterate (go to 5)

(10)

Sklearn et le Lasso

Lasso LassoCV lasso_path LassoLars LassoLarsCV lars_path

sklearn.decomposition.sparse_encode

(11)

(12)

Lasso et Elastic Net

Le Lasso

J_λ(β) = ¹₂kX⁰β−y⁰k²+λkβk₁ , Elastic Net

Jel(β) = ¹₂kXβ−yk²+λkβk₁+γkβk²₂ , Lasso = Elastic Net withγ =0,X =X⁰,y =y⁰

Elastic Net = Lasso with X⁰ = (X^>,√

γI_p)^>,y⁰ = (y^>,0p)^>

kXβ−yk²₂+γkβk²₂

| {z } k^√γβk²₂

=

X

√γIp

| {z }

=:X⁰

β− y

0_p

| {z }

=:y

¯

0

2

=

X⁰β−y⁰

2 2.

Regularization and variable selection via the elastic net H Zou, T Hastie, 2005

(13)

Reweigthed least square (Lasso and Ridge)

p

X

j=1

|β_j|= β_j²

|β_j| ,

the idea : iterate the weighted rigde towards a fixed point β^(k⁺¹⁾ = arg min

β 1

2kXβ−yk²+λ

p

X

j=1

β_j²

|β_j^(k)| =w_j β_j²,

with w_j =1/|β_j^(k)|, that is

β^(k+1) = (X^>X +λW)⁻¹X^>y withdiag(W) = 1

|β^(k_j ⁾| W = Identité

Tantque on n’a pas convergé

β = arg min¹₂kXβ−yk²+λβ^>Wβ W =diag(1/|β|)

fin de tantque

(14)

The adaptive Lasso

p

X

j=1

w_j|β_j|,

wj = 1

|βˆ⁽ls) j |^γ

w = np.linalg.solve(X.T@X,X.T@y) w = 1/np.sqrt(np.abs(w))

X_c = X/w

c = mon_lasso(X_c,y,lambda) beta = c/w

The Adaptive Lasso and Its Oracle Properties, H. Zou, JASA, 2012