L’algorithme LARS-Lasso - Modélisation de phénomènes biologiques complexes : application à l'ét

      γ_k ∈R⁺, k=1, ..., K. g(x^∗) 60 ∇xL(γ, x^∗) =0 gk(x^∗)γ_k =0, k=1, ..., K. (2.7)

La condition fondamentale (par rapport aux extrema liés) est la qua-trième, dont nous verrons qu’elle aura une importance de première ordre dans la résolution Lasso par la méthode LARS-Lasso. Cette dernière stipule que, si une condition k n’est pas saturée (i.e. gk(x^∗)6= 0), alors forcément

γ_k =0.

Le théorème, que nous donnons ici sans démonstration, permet de ré-soudre le problème de minimisation avec des contraintes sous forme d’inéga-lités :

Théorème 18 Soit (P) le problème de la recherche d’un x^∗ tel que :

x^∗ ∈argmin

x∈RM g(x)60K

f(x),

avec f et g deux fonctions convexes comme décrites précédemment, et f continûment différentiable. Le problème (P) admet une solution si et seule-ment si il existe γ∈R^K tel que les conditions KKT soient remplies.

Ce théorème, utile pour résoudre le problème dans sa première tion (2.3), peut s’écrire de manière équivalente, pour la deuxième formula-tion (2.5), en annulant le gradient de :

f(β) = N

∑

n=1 yn− M

∑

m=1 βmxnm !2 +λ2 M

∑

m=1 |βm|·

Une remarque pour clore cette section :

Remarque 19 Sauf dans le cas où la matrice tX X est symétrique définie positive,

l’exis-tence d’une solution unique n’est pas assur´ee, puisque le probl`eme n’est plus strictement convexe.

2.5 L’algorithme LARS-Lasso

A partir de maintenant, et sauf mention contraire, le problème Lasso référera toujours `a la deuxième écriture (2.5). Ainsi nous écrirons ˆβ^L(λ) à la place de ˆβ^{Lasso 2}(λ2).

D’autre part, nous supposerons que les régresseurs, ainsi que la variable réponse, sont centrés et réduits.

En utilisant les résultats de la partie précédente, nous obtenons les condi-tions d’optimalité suivantes :

2.5. L’ALGORITHME LARS-LASSO 45

Théorème 20 (Conditions d’optimalité) Le vecteur ˆβ^L(λ) est solution du problème Lasso dans sa deuxième écriture (2.5) si et seulement si :

         tX^"y−X ˆβ^L(λ) =λγ ∀i=1, ..., p : γi sgn(ˆβL i(λ)), quand ˆβL i(λ)6=0 ∈ [−1; 1] quand ˆβL i(λ) =0. (2.8)

Il est facile de voir que nous retrouvons la r´egression ordinaire lorsque

λ =0. En effet, si λ=0 dans l’équation (2.8), la condition d’optimalité se résume à :

tX^"y−X ˆβ^L(0)=0.

Autrement dit, β^L(0)est solution du problème Lasso si et seulement si les résidus sont orthogonaux à l’ensemble des prédicteurs, ce qui est exac-tement une condition nécessaire et suffisante dans la méthode des moindres carrés ordinaires.

Un examen approfondi du théorème 20 permet de comprendre comment le Lasso fonctionne. Pour cela, remarquons que ce théorème implique, entre autre, pour tout i=1, ..., M :

ˆβL

i(λ)6=0⇒

^tx_i^"y−X ˆβ^L(λ)=λ (2.9)

⇔ ˆβL

i(λ)6=0⇒ |<x_i, ε>| =λ,

en notant ε les r´esidus de la r´egression : ε =

Y−X ˆβ^L(λ)_.

Notons que dans le cadre présent de variables réduites, le cœfficient de parcimonie λ peut être associé à un facteur de corrélation maximale. Ainsi, si λ > 1, le modèle choisi est le modèle nul, où le cœfficient de tous les régresseurs est nul (i.e., β=0M).

Heuristiquement, les moindres carrés ordinaires “prennent” toute l’infor-mation des prédicteurs susceptibles d’expliquer les variations de la variable réponse. Dans la régression Lasso, seule une partie, définie par le cœfficient

λ est prise en compte. Par cons´equent, les covariables ne permettant

d’ex-pliquer qu’une faible partie de la variable r´eponse sont ignor´ees.

L’algorithme LARS-Lasso se dessine alors tout naturellement. Définis-sons tout d’abord l’ensemble des prédicteurs dont la corrélation linéaire avec les résidus est maximale (i.e., dont la corrélation vaut λ) :

∆=ⁿi∈1, ..., M t.q.

^tx_i^"y−X ˆβ^L(λ)=λô· (2.10) Alternativement, cet ensemble décrit le support de la régression : Remarque 21 Il est facile de voir que :

— Si i∈∆ alors ˆβ_i^L(λ)6=0. — Si i /∈∆ alors ˆβ_i^L(λ) =0.

Cet ensemble permet aussi de définir la sous-matrice de X composée des régresseurs inclus dans le support :

Définition 22 Notons X∆ la sous-matrice de X o`u nous avons sélectionné les colonnes correspondant aux indices dans ∆.

Etant donné que nous souhaitons travailler dans les cas où M>> N, se pose le problème de l’inversibilité de la matrice^tX X ; c’est pourquoi nous

al-lons devoir nous satisfaire d’une notion un peu plus faible, dont la d´efinition est donn´ee ci-dessous :

Définition 23 (Pseudo-inverse) Soit A une matrice réelle. Une matrice A⁺ est appelée pseudo-inverse de A si :        AA⁺A= A A⁺AA⁺= A⁺ t^"AA⁺= AA⁺ t^"A⁺A= A⁺A (2.11)

Propriété 24 Dans le cas des matrices réelles :

— Le pseudo-inverse d’une matrice nulle est sa transpos´ee. — Le pseudo-inverse peut ˆetre vu comme limite :

lim

δ→0

"_t

AA+δId⁻^1tA.

— Dans le cas où la matrice est carrée et non singulière, la définition de pseudo-inverse co¨ıncide avec la notion d’inverse.

— Le pseudo-inverse, lorsqu’il existe, est unique.

En utilisant les conditions d’optimalité de la propriété 2.8 (réécrit dans l’équation (2.9)), et l’ensemble ∆ de la définition 22 :

tX∆

y−X∆ˆβ^L_∆(λ) =λγ_∆. (2.12)

Dans l’´equation (2.12) ci-dessus, le vecteur λγ∆est dans l’image de^tX∆. Par cons´equent : tX∆tX⁺_∆λγ_∆ = ^tX∆tX⁺_∆^tX∆" y−X∆ˆβ_∆^L(λ) de f 23 = ^tX∆" y−X∆ˆβ^L_∆(λ) = λγ∆.

Autrement dit, la propriété démontrée ci-dessus indique qu’une matrice multipliée par son pseudo-inverse agit comme l’identité lorsque que le vec-teur appartient à l’image de ladite matrice.

2.5. L’ALGORITHME LARS-LASSO 47

En reprenant, `a partir de l’´equation (2.12) :

tX∆ " y−X∆ˆβ_∆^L(λ)= λγ∆ ⇔ tX∆X∆ˆβ^L_∆(λ) =tX∆y−tX∆tX⁺_∆λγ_∆ ⇔ tX∆X∆ˆβ^L_∆(λ) =tX∆" y−tX⁺_∆λγ∆ ⇔ tX⁺_∆^tX∆X∆ˆβ^L_∆(λ) =tX⁺_∆^tX∆ " y−tX⁺_∆λγ∆ (2.13) ⇔ ^ˆβ^L∆(λ) =X⁺_∆X∆X_∆⁺^"y−tX⁺_∆λγ_∆+h (2.14) ⇔ ^ˆβ∆^L(λ) =X⁺_∆^"y−tX⁺_∆λγ_∆+h ⇔ ^ˆβ^L∆(λ) =X⁺_∆y | {z } R1 −λ×X⁺_∆^tX⁺_∆γ_∆ | {z } R2 +h,

avec h un élément du noyau de X∆. Si ce noyau se réduit à zéro, alors la solution au problème Lasso est unique. Ce problème est traité par Tibshirani (2012), où l’auteur montre que si les variables sont issues d’une distribution continue, alors ce noyau est toujours réduit au vecteur nul. Nous supposons donc, `a partir de maintenant h=0 (et donc l’unicité de la solution Lasso). L’étonnant est ici que la solution ˆβ^L_∆(λ) est linéaire en λ, pour peu que nous connaissons le support ∆. Une fois cette remarque faite, l’algorithme est naturel. L’idée va être de commencer par λ>1 de sorte à avoir ˆβ^L∆(λ) =0 et de le faire décroˆıtre. En prenant en compte les conditions d’optimalité (équations (2.8)), il est alors possible de chercher la première variable à en-trer dans l’ensemble ∆. Une fois celle-ci trouvée, la trajectoire des cœfficients, bien que toujours linéaire, est modifiée. Calculs faits de ces modifications, il est alors possible de chercher la première variable à entrer ou sortir de l’ensemble ∆, lorsque λ continue à décroˆıtre. Ainsi, à la fin de ce processus de calcul, nous aurons identifié tout le chemin des solutions (en fonction de

λ). Ce chemin est lin´eaire par morceaux, et les nœuds (i.e. les points o`u

la pente change) correspondent chacun à une entrée ou à une sortie d’une variable dans l’ensemble ∆.

L’algorithme est d´ecrit en pseudo-code ci-dessous : 1. Commencer avec λ= +∞. Dans ce cas : ˆβ^L=0M.

2. Nous faisons d´ecroˆıtre λ vers 0 jusqu’`a ce qu’une variable x_i₁ soit telle que i₁ rejoint ∆.

3. Nous continuons `a faire d´ecroˆıtre λ vers 0. L’ensemble ∆ peut alors changer pour deux raisons :

— Un indice ik qui n’appartenait pas `a ∆ rejoint cet ensemble. — Un indice ik′ qui appartenait `a ∆ n’y appartient plus.

4. L’algorithme s’arrête quand λ=0. Le problème Lasso pour tout λ est alors résolu.

Il reste maintenant `a d´eterminer quand une variable entre ou sort de cet ensemble.

Entr´ee et sortie des variables dans ∆

Entrée : L’algorithme LARS-Lasso repose donc sur un ensemble de nœuds, chacun d’entre eux représentant le moment où une variable intègre ou sort de l’ensemble ∆. Supposons que nous nous retrouvons au moment o`u λ=λ(tk).

Une variable xi qui appartient `a l’ensemble ∆ sort de celui-ci lorsque (voir ´equation (2.13)) :

ˆβL

i(λ) =R_1,i−λR_2,i =0,

ou encore, en supposant R_2,i 6=0 :

λ= ^R^1,i

R2,i· (2.15)

Sortie : Notons tout

k,i le moment de sortie de chaque variable. Le premier moment de sortie est alors calcul´e de la fa¸con suivante :

t^out_k =max

i∈∆

tôut_k,i tôut_k,i <λ(t_k)· (2.16) Une variable Xi ∈/ ∆ rejoindra l’ensemble ∆ dès lors que (voir équation (2.8)) :

tX_i(y−X ˆβ_i^L(λ)) =±λ. (2.17)

En utilisant l’´equation (2.13), nous obtenons :

tX_i^"y−X(R1,i−λR_2,i)=±λ. (2.18) Le moment d’entr´ee dans l’ensemble ∆ est alors :

t^join_k,i =

tX_i^"X_iR₁−y

tX_iX_iR₂±1 ^. ^(2.19)

Remarque 25 t^join_k,i semble ne pas être bien défini, mais nous choisissons celui des deux qui est dans l’intervalle d’intérêt [0; λ(tk)].

Conclusion : Soit donc λ(tk) le dernier nœud sur lequel nous nous sommes arrêtés. Le prochain nœud est alors défini, en utilisant (2.16) et (25) par :

λ(t_k+1) =max(t_k^join, t^out_k ).

Nous donnons un exemple de fonctionnement du LARS-Lasso dans la figure 2.5. L’algorithme va d’abord chercher la variable avec laquelle il forme le plus angle. Cette variable ´etant de plus en plus prise en compte alors que

2.5. L’ALGORITHME LARS-LASSO 49 Response Group 1 covariables Group 2 covariables Response Group 1 covariables Group 2 covariables Response Group 1 covariables Group 2 covariables Residuals Response Group 1 covariables Group 2 covariables Residuals

Dans le document Modélisation de phénomènes biologiques complexes : application à l'étude de la réponse antigénique de lymphocytes B sains et tumoraux (Page 66-72)