Les régressions pénalisées

γ =0.1 γ =0.5 γ =1 γ =2 γ =4

β P ( β ) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 γ =0.1 γ =0.5 γ =1 γ =2 γ =4

vraisemblance ou quasi-vraisemblance négative. Les critères de sélection de modèles font

intervenir une mesure de complexité de modèleP(.) discrète. Cette mesure comprend

sou-vent une pénalitéL

sur le vecteur de paramètreβce qui revient au nombre de paramètres

non nuls du modèle. On appelle cela la méthode duBest Subset Selection. Un simple

chan-gement dans la base de données peut conduire à un modèle final différent, ce qui apporte

du biais et de l’instabilité (Breiman et al. [1996]; Miller [2002]; Dziak and Li [2006]). Motivé

par cette faiblesse, les méthodes de régularisation proposent d’utiliser une fonction pénalité

continue en β.

2.1 Les régressions pénalisées

L’objectif des régressions pénalisées est de minimiser la RSS en imposant une contrainte

sur les coefficients du modèle afin de combiner bonne prédiction et sparsité du modèle.

2.1.1 La régression Bridge

Introduit par Frank and Friedman [1993], la régression Bridge propose le problème

d’optimisation suivant :

min

||y−Xβ||

, X

|β

|

< c (2.2)

On cherche alors à minimiser la RSS sous contrainte où pour chaque c≥0 il existe un

λ≥0 tel que le problème d’optimisation (2.2) puisse s’écrire :

min





||y−Xβ||

+λX

|β

|





 (2.3)

Le paramètre de régularisation λcontrôle l’importance de la pénalité. Plus

particuliè-rement, pourλ= 0aucune pénalité n’est appliquée, on retrouve l’estimateur des moindres

carrés et pourλ=∞toutes les variables sont associées à un coefficient nul. Le paramètre

γ permet de définir différentes régions de contraintes (figure 2.1). Fu [1998] étudie les

pro-priétés de l’estimateur pour γ ≥1 et propose l’algorithme du Modified Newton Raphson

(M-N-R) pourγ >1.

2.1. LES RÉGRESSIONS PÉNALISÉES

Figure 2.1 – Régions de contraintes en fonction deγ pour deux paramètres (β

, β

)

La figure 2.2 représente la pénalité Bridge pour différentes valeurs de γ. Les zones de

contraintes P

|β

|

< c associées sont représentées dans la figure 2.1. Plus le paramètre

γ est faible, plus la zone de contrainte est restreinte à une faible zone de possibilités pour

l’estimateur. L’objectif est alors de trouver le compromis entre une zone de contrainte

restreinte et un estimateur le moins biaisé possible. Pour γ < 2, les zones de contraintes

admettent des sommets, c’est cette particularité qui permet la sélection, si l’optimum se

trouve sur un sommet de la zone alors un paramètre est estimé exactement à zéro, plus il y

a de sommets, plus il y a de chances d’avoir des coefficients nuls. Pourγ ≥1 les pénalités

sont convexes ce qui permet d’obtenir des propriétés intéressantes, utiles à la résolution du

problème d’optimisation.

2.1. LES RÉGRESSIONS PÉNALISÉES

Le choix deγ peut être arbitraire ou par optimisation d’un critère basé sur les données,

cependant ce paramètre supplémentaire augmente la complexité de la méthode (Friedman

et al. [2001]). Deux cas particuliers de cette pénalité ont été largement étudiés, la régression

Ridge pour γ = 2et le Least Absolute Shrinkage and Selection Operatot (LASSO) pour

γ = 1 de Tibshirani [1996].

2.1.2 Ridge

La régression Ridge utilise une pénalité en norme L

, qui permet de rétrécir les

coeffi-cients (ce que on appelle leshrinkage) mais ne les met pas à zéro. Elle permet de stabiliser

l’estimation des coefficients dans un contexte de fortes corrélations inter-variables.

L’esti-mateur est solution de :

min

||y−Xβ||

+λ||β||

(2.4)

Il existe un λà partir duquel l’inverse de la matriceX

X+λI existe. On trouve donc

un problème d’optimisation convexe qui possède une solution analytique :

ˆ

β

= (X

X+λI)

^||^y⁻^X^β^||

 ^(2.3)

Figure ^{2.1 – Régions de contraintes en fonction de}γ pour deux paramètres (β

capa-cités de prédiction du modèle. Bien que biaisé, l’estimateur _βˆ

_{possède une variance}