• Aucun résultat trouvé

vraisemblance ou quasi-vraisemblance négative. Les critères de sélection de modèles font

intervenir une mesure de complexité de modèleP(.) discrète. Cette mesure comprend

sou-vent une pénalitéL

0

sur le vecteur de paramètreβce qui revient au nombre de paramètres

non nuls du modèle. On appelle cela la méthode duBest Subset Selection. Un simple

chan-gement dans la base de données peut conduire à un modèle final différent, ce qui apporte

du biais et de l’instabilité (Breiman et al. [1996]; Miller [2002]; Dziak and Li [2006]). Motivé

par cette faiblesse, les méthodes de régularisation proposent d’utiliser une fonction pénalité

continue en β.

2.1 Les régressions pénalisées

L’objectif des régressions pénalisées est de minimiser la RSS en imposant une contrainte

sur les coefficients du modèle afin de combiner bonne prédiction et sparsité du modèle.

2.1.1 La régression Bridge

Introduit par Frank and Friedman [1993], la régression Bridge propose le problème

d’optimisation suivant :

min

β

||y−Xβ||

22

, X

j

j

|

γ

< c (2.2)

On cherche alors à minimiser la RSS sous contrainte où pour chaque c≥0 il existe un

λ≥0 tel que le problème d’optimisation (2.2) puisse s’écrire :

min

β

||yXβ||

2 2

+λX

j

j

|

γ

(2.3)

Le paramètre de régularisation λcontrôle l’importance de la pénalité. Plus

particuliè-rement, pourλ= 0aucune pénalité n’est appliquée, on retrouve l’estimateur des moindres

carrés et pourλ=∞toutes les variables sont associées à un coefficient nul. Le paramètre

γ permet de définir différentes régions de contraintes (figure 2.1). Fu [1998] étudie les

pro-priétés de l’estimateur pour γ ≥1 et propose l’algorithme du Modified Newton Raphson

(M-N-R) pourγ >1.

2.1. LES RÉGRESSIONS PÉNALISÉES

γ =0.1 γ =0.5 γ =1 γ =2 γ =4

Figure 2.1 – Régions de contraintes en fonction deγ pour deux paramètres (β

1

, β

2

)

La figure 2.2 représente la pénalité Bridge pour différentes valeurs de γ. Les zones de

contraintes P

j

j

|

γ

< c associées sont représentées dans la figure 2.1. Plus le paramètre

γ est faible, plus la zone de contrainte est restreinte à une faible zone de possibilités pour

l’estimateur. L’objectif est alors de trouver le compromis entre une zone de contrainte

restreinte et un estimateur le moins biaisé possible. Pour γ < 2, les zones de contraintes

admettent des sommets, c’est cette particularité qui permet la sélection, si l’optimum se

trouve sur un sommet de la zone alors un paramètre est estimé exactement à zéro, plus il y

a de sommets, plus il y a de chances d’avoir des coefficients nuls. Pourγ ≥1 les pénalités

sont convexes ce qui permet d’obtenir des propriétés intéressantes, utiles à la résolution du

problème d’optimisation.

β P ( β ) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 γ =0.1 γ =0.5 γ =1 γ =2 γ =4

2.1. LES RÉGRESSIONS PÉNALISÉES

Le choix deγ peut être arbitraire ou par optimisation d’un critère basé sur les données,

cependant ce paramètre supplémentaire augmente la complexité de la méthode (Friedman

et al. [2001]). Deux cas particuliers de cette pénalité ont été largement étudiés, la régression

Ridge pour γ = 2et le Least Absolute Shrinkage and Selection Operatot (LASSO) pour

γ = 1 de Tibshirani [1996].

2.1.2 Ridge

La régression Ridge utilise une pénalité en norme L

2

, qui permet de rétrécir les

coeffi-cients (ce que on appelle leshrinkage) mais ne les met pas à zéro. Elle permet de stabiliser

l’estimation des coefficients dans un contexte de fortes corrélations inter-variables.

L’esti-mateur est solution de :

min

β

||y−Xβ||

22

+λ||β||

22

(2.4)

Il existe un λà partir duquel l’inverse de la matriceX

T

X+λI existe. On trouve donc

un problème d’optimisation convexe qui possède une solution analytique :

ˆ

β

Ridge

= (X

T

X+λI)

−1

X

T

y (2.5)

Cet estimateur fut introduit par Hoerl and Kennard [1970] afin d’améliorer les

capa-cités de prédiction du modèle. Bien que biaisé, l’estimateur βˆ

Ridge

possède une variance

plus faible que l’éstimateur des moindre carré, problème bien connu du compromis

biais-variance. Le fait d’ajouter un terme sur la diagonale de la matrice de Gram X

T

X permet

de stabiliser les calcul de l’inverse, ce qui rend cet estimateur plus robuste au problème de

multi-colinéarité.

2.1.3 LASSO

Introduit par Tibshirani [1996], le LASSO propose une normeL

1

sur le vecteur de

para-mètresβqui peut combiner les capacités d’une normeL

0

à supprimer automatiquement les

petits coefficients, et les capacités d’une norme L

2

à stabiliser les coefficients (shrinkage).

Le LASSO est solution du problème d’optimisation suivant :

2.1. LES RÉGRESSIONS PÉNALISÉES

min

β

||y−Xβ||

22

+λ||β||

1

(2.6)

L’utilisation de la norme L1 permet de réduire les petits coefficients à zéro et donc de

simplifier les modèles. Cette norme a l’avantage d’être convexe et donc de garantir l’unicité

de la solution. L’inconvénient de cette pénalité est que sa non différentiabilité en zéro,

représentée dans les figures 2.1 et 2.2, complique son calcul, il n’existe plus de solution

analytique linéaire enβ comme pour la pénalité Ridge. De nombreux algorithmes ont été

développés pour trouver la solution au problème d’optimisation (2.6). Tibshirani [1996]

propose un programme linéaire, Fu [1998] propose l’algorithme du "shooting LASSO", Fan

and Li [2001] propose une méthode de Newton modifiée et l’algorithme Least Angle

Re-gression (LARS) est détaillé par Efron et al. [2004]. Le LASSO peut biaiser les estimations

en écrasant trop fortement les coefficients. Pour remédier à cette problématique Fan and

Li [2001] proposent la pénalité (SCAD) qui pénalise plus fortement les coefficients les plus

élevés (en valeurs absolues).

D’autres pénalités ont été proposées pour adapter la régularisation à divers contextes

comme l’Elastic-Net, de Zou and Hastie [2005], composé d’une pénalité Ridge et d’une

pé-nalité LASSO ou l’adaptive LASSO de Zou [2006] qui utilise des poids spécifiques à chaque

variable. Dans le contexte de données issues de génétique le smooth-LASSO (Tibshirani

et al. [2005]) et le fused-LASSO (Hebiri et al. [2011]) utilisent une pénalité LASSO associée

à une pénalité sur la différence entre deux paramètres consécutifs du vecteurβ.

2.1.4 Group-LASSO

Initialement, le LASSO fut introduit pour des covariables continues ou binaire.

Lors-qu’une des covariables est qualitative àdmodalités, cette dernière est convertie en un bloc

ded−1indicatrices. Une sélection qui ne ferait apparaitre qu’une partie du bloc qui définit

la variable qualitative a peu de sens. Sélectionner une variable n’est pas sélectionner une

ou plusieurs de ces modalités, il faut pouvoir sélectionner le bloc des indicatrices. Pour

pallier cette difficulté, Yuan and Lin [2006] ont introduit le Group-LASSO qui permet de

raisonner en groupes de variables. Cette méthode utilise une pénalité sur le groupe qui

Documents relatifs