vraisemblance ou quasi-vraisemblance négative. Les critères de sélection de modèles font
intervenir une mesure de complexité de modèleP(.) discrète. Cette mesure comprend
sou-vent une pénalitéL
0sur le vecteur de paramètreβce qui revient au nombre de paramètres
non nuls du modèle. On appelle cela la méthode duBest Subset Selection. Un simple
chan-gement dans la base de données peut conduire à un modèle final différent, ce qui apporte
du biais et de l’instabilité (Breiman et al. [1996]; Miller [2002]; Dziak and Li [2006]). Motivé
par cette faiblesse, les méthodes de régularisation proposent d’utiliser une fonction pénalité
continue en β.
2.1 Les régressions pénalisées
L’objectif des régressions pénalisées est de minimiser la RSS en imposant une contrainte
sur les coefficients du modèle afin de combiner bonne prédiction et sparsité du modèle.
2.1.1 La régression Bridge
Introduit par Frank and Friedman [1993], la régression Bridge propose le problème
d’optimisation suivant :
min
β||y−Xβ||
22, X
j|β
j|
γ< c (2.2)
On cherche alors à minimiser la RSS sous contrainte où pour chaque c≥0 il existe un
λ≥0 tel que le problème d’optimisation (2.2) puisse s’écrire :
min
β
||y−Xβ||
2 2+λX
j|β
j|
γ
(2.3)
Le paramètre de régularisation λcontrôle l’importance de la pénalité. Plus
particuliè-rement, pourλ= 0aucune pénalité n’est appliquée, on retrouve l’estimateur des moindres
carrés et pourλ=∞toutes les variables sont associées à un coefficient nul. Le paramètre
γ permet de définir différentes régions de contraintes (figure 2.1). Fu [1998] étudie les
pro-priétés de l’estimateur pour γ ≥1 et propose l’algorithme du Modified Newton Raphson
(M-N-R) pourγ >1.
2.1. LES RÉGRESSIONS PÉNALISÉES
γ =0.1 γ =0.5 γ =1 γ =2 γ =4
Figure 2.1 – Régions de contraintes en fonction deγ pour deux paramètres (β
1, β
2)
La figure 2.2 représente la pénalité Bridge pour différentes valeurs de γ. Les zones de
contraintes P
j
|β
j|
γ< c associées sont représentées dans la figure 2.1. Plus le paramètre
γ est faible, plus la zone de contrainte est restreinte à une faible zone de possibilités pour
l’estimateur. L’objectif est alors de trouver le compromis entre une zone de contrainte
restreinte et un estimateur le moins biaisé possible. Pour γ < 2, les zones de contraintes
admettent des sommets, c’est cette particularité qui permet la sélection, si l’optimum se
trouve sur un sommet de la zone alors un paramètre est estimé exactement à zéro, plus il y
a de sommets, plus il y a de chances d’avoir des coefficients nuls. Pourγ ≥1 les pénalités
sont convexes ce qui permet d’obtenir des propriétés intéressantes, utiles à la résolution du
problème d’optimisation.
β P ( β ) −2 −1 0 1 2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 γ =0.1 γ =0.5 γ =1 γ =2 γ =42.1. LES RÉGRESSIONS PÉNALISÉES
Le choix deγ peut être arbitraire ou par optimisation d’un critère basé sur les données,
cependant ce paramètre supplémentaire augmente la complexité de la méthode (Friedman
et al. [2001]). Deux cas particuliers de cette pénalité ont été largement étudiés, la régression
Ridge pour γ = 2et le Least Absolute Shrinkage and Selection Operatot (LASSO) pour
γ = 1 de Tibshirani [1996].
2.1.2 Ridge
La régression Ridge utilise une pénalité en norme L
2, qui permet de rétrécir les
coeffi-cients (ce que on appelle leshrinkage) mais ne les met pas à zéro. Elle permet de stabiliser
l’estimation des coefficients dans un contexte de fortes corrélations inter-variables.
L’esti-mateur est solution de :
min
β
||y−Xβ||
22+λ||β||
22(2.4)
Il existe un λà partir duquel l’inverse de la matriceX
TX+λI existe. On trouve donc
un problème d’optimisation convexe qui possède une solution analytique :
ˆ
β
Ridge= (X
TX+λI)
−1X
Ty (2.5)
Cet estimateur fut introduit par Hoerl and Kennard [1970] afin d’améliorer les
capa-cités de prédiction du modèle. Bien que biaisé, l’estimateur βˆ
Ridgepossède une variance
plus faible que l’éstimateur des moindre carré, problème bien connu du compromis
biais-variance. Le fait d’ajouter un terme sur la diagonale de la matrice de Gram X
TX permet
de stabiliser les calcul de l’inverse, ce qui rend cet estimateur plus robuste au problème de
multi-colinéarité.
2.1.3 LASSO
Introduit par Tibshirani [1996], le LASSO propose une normeL
1sur le vecteur de
para-mètresβqui peut combiner les capacités d’une normeL
0à supprimer automatiquement les
petits coefficients, et les capacités d’une norme L
2à stabiliser les coefficients (shrinkage).
Le LASSO est solution du problème d’optimisation suivant :
2.1. LES RÉGRESSIONS PÉNALISÉES
min
β
||y−Xβ||
22+λ||β||
1(2.6)
L’utilisation de la norme L1 permet de réduire les petits coefficients à zéro et donc de
simplifier les modèles. Cette norme a l’avantage d’être convexe et donc de garantir l’unicité
de la solution. L’inconvénient de cette pénalité est que sa non différentiabilité en zéro,
représentée dans les figures 2.1 et 2.2, complique son calcul, il n’existe plus de solution
analytique linéaire enβ comme pour la pénalité Ridge. De nombreux algorithmes ont été
développés pour trouver la solution au problème d’optimisation (2.6). Tibshirani [1996]
propose un programme linéaire, Fu [1998] propose l’algorithme du "shooting LASSO", Fan
and Li [2001] propose une méthode de Newton modifiée et l’algorithme Least Angle
Re-gression (LARS) est détaillé par Efron et al. [2004]. Le LASSO peut biaiser les estimations
en écrasant trop fortement les coefficients. Pour remédier à cette problématique Fan and
Li [2001] proposent la pénalité (SCAD) qui pénalise plus fortement les coefficients les plus
élevés (en valeurs absolues).
D’autres pénalités ont été proposées pour adapter la régularisation à divers contextes
comme l’Elastic-Net, de Zou and Hastie [2005], composé d’une pénalité Ridge et d’une
pé-nalité LASSO ou l’adaptive LASSO de Zou [2006] qui utilise des poids spécifiques à chaque
variable. Dans le contexte de données issues de génétique le smooth-LASSO (Tibshirani
et al. [2005]) et le fused-LASSO (Hebiri et al. [2011]) utilisent une pénalité LASSO associée
à une pénalité sur la différence entre deux paramètres consécutifs du vecteurβ.
2.1.4 Group-LASSO
Initialement, le LASSO fut introduit pour des covariables continues ou binaire.
Lors-qu’une des covariables est qualitative àdmodalités, cette dernière est convertie en un bloc
ded−1indicatrices. Une sélection qui ne ferait apparaitre qu’une partie du bloc qui définit
la variable qualitative a peu de sens. Sélectionner une variable n’est pas sélectionner une
ou plusieurs de ces modalités, il faut pouvoir sélectionner le bloc des indicatrices. Pour
pallier cette difficulté, Yuan and Lin [2006] ont introduit le Group-LASSO qui permet de
raisonner en groupes de variables. Cette méthode utilise une pénalité sur le groupe qui
Dans le document
Contribution à la sélection de variables en présence de données longitudinales
(Page 55-59)