Regularization Methods for Linear Regression
Mathilde Mougeot
ENSIIE
2017-2018
Variable selection
Variable selection Linear model
Mathilde Mougeot (ENSIIE) MRR2017 2 / 54
Variable selection
Regression illustration
Model :
consommation= 1+ 2income+ 3price+ 4temp+✏ R output :
Variable selection
The laws
With an assumption of normality of the residuals, we have : for the coefficients : ˆ⇠N( , 2(XTX) 1)
ˆj j
p 2
Sjj ⇠N(0,1) with Sj,j j`eme term of the diagnonal of (XTX) 1 for the Residual Variance : n p2 ˆ2 ⇠ 2n p with ˆ2 = ||n pˆ✏||2
We then have : pˆj 2 j
Sjj
/q
n p
2 ˆ2/(n p) = pˆj j
ˆ2Sjj ⇠T(n p) Recall : Student theorem.
U ⇠N(0,1) and V ⇠ 2(d) ,U and V are independant, then we have Z = pU
V/d follows a Student law of parameterd.
Mathilde Mougeot (ENSIIE) MRR2017 4 / 54
Significativity test of ˆ
j,
2unknown
• Student Statistics : T
• Significativity test (bilateral)
⇢ H0: j = 0 H1: j 6= 0
• Decision with a risk ↵, Reject of H0 if
• pˆˆ2jS
j,j >tn p(1 ↵/2) withSj,j jthterm of diagonal of (XTX) 1
• pvalue<↵
• Conclusion (if H0 is rejected) :
• j is significatively di↵erent of zero
• Xj a une influence dans le mod`ele
Not appropriate if there exists collinearity between the variables
Student laws
−4 −2 0 2 4
0.00.10.20.30.4
t
Student
df1 df5 df10 N(0,1)
Variable selection
Regression illustration
Model :
consommation= 1+ 2income+ 3price+ 4temp+✏ R output :
Example : Impact of dependance...
Model :Y = 0+ 1X1+ 2X2+✏
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.08 0.03 -2.31 0.0226 *
X1 1.24 0.62 1.98 0.0497 *
X2 0.82 0.66 1.24 0.2169
Model :Y =↵0+ 1X1+✏
Estimate Std. Error t value Pr(>|t|) (Intercept) -0.11 0.03 -3.833 0.000224 ***
X[, 1] 2.01 0.07 25.731 <2e-16 ***
Model :Y = 0+ 2X2+✏
Estimate Std. Error t value Pr(>|t|) (Intercept) -0.03 0.02 -1.315 0.192
X[, 2] 2.12 0.08 25.377 <2e-16 ***
n= 100;X =cbind(((1 :n)/n)3,((1 :n)/n)4);Y =X%⇤%c(1,1) +rnorm(n)/4;
Global significativity of the model
Test of the model with a risk ↵
H0 : 2 = 3 =. . .= p= 0
H1 : 9j = 2, . . . ,p, j 6= 0 Statistics
F = n pp 1||Yˆ Y¯ˆ||2
||Y Yˆ||2 ⇠Fisher(p 1,n p) Remarque : n pp 1||Yˆ Y¯ˆ||2
||Y Yˆ||2 = SSE/(pSSR/(n p)1) (E :Estimated ; R : Residuals) Decision rule
• si Fobs >qF↵,H0 is rejected, and there exist a coefficient which is not zero.At least one covariable is ”useful” to explain the target
• siFobs q↵F,H0 is acceted, all the coefficients are supposed to be null The covariable are not ”useful” to explain the model
Global significativity of the model
• Fisher Statistic
• Significativity test (bilateral)
• H0 : 2=. . .= p= 0
• H1 :9 j6= 0
• Decision with a rish↵,Reject H0 if
• si n pp 11R2R2 >fp 1,n p(1 ↵)
• si pvalue<↵
! The global linear model has an added value
Variable selection
Regression result illustration
Model :
consommation= 1+ 2income+ 3price+ 4temp+✏ R output :
Model selection
Linear model model selection
Mathilde Mougeot (ENSIIE) MRR2017 12 / 54
Model selection
Probl`emes de grande dimension
1er exemple : en g´en´etique
• On s’int´eresse `a la production par une cellule d’une certaine mol´ecule, dont on note Yi la concentration au terme de la ie exp´erience.
• Pour chaque exp´erience, on peut mesurer l’expressionXi,1, . . . ,Xi,p de quantit´es (p 1) de g`enes. On a donc un grand nombre de variables d’entr´ee.
Model selection
Objectifs
s´election correcte des variables importantes
• Qu’est-ce que veut dire importante?
• screening: trouver au moins toutes les variables importantes.
• selection : trouver les variables importantes et seulement celles-ci.
• Besoin d’interpr´etabilit´eet de parcimonie.
Estimation correcte des sus-dites variables
• Besoin de mod´elisation, de pr´ediction. Objectif di↵´erent. . . pr´ediction correcte de futures observations
• Comment l’´evaluer ? Attention `a l’exc`es d’optimisme.
• R´e-´echantillonage (bootstrap) ou partitionnement des donn´ees (validation crois´ee).
• Crit`eres d’information (AIC, BIC,Cp).
Mathilde Mougeot (ENSIIE) MRR2017 14 / 54
Plan
R´egression. Recherche de mod`eles parcimonieux
• Mod`ele Lin´eaire
• Estimation, et pr´ediction
• Tests de significativit´e
• Recherche de mod`eles parcimonieux
• Evaluation et s´election de mod`eles par vraisemblance p´enalis´ee
• M´ethodes de r´egression p´enalis´ee
• la r´egression Ridge,
• la r´egression lasso
Rappels
Rappel : Mod`ele de base
Mod`ele
Observations (Yi,Xi)2R⇥Rp,i = 1, . . . ,n 8i,Yi =XiT +✏i ou Y =X +✏
2Rp,✏d´ecoll´el´ees, centr´es, X d´eterministe.
Cas inversible
Si X est de rang colonne plein (colonne ind´ependantes), alors XTX est inversible et
ˆMCO=arg min
↵2Rp kY X↵k2= (XTX) 1XTY Algorithme
• Choleski enp3+Np2/2
• QR enNp2
Mathilde Mougeot (ENSIIE) MRR2017 16 / 54
Rappels
R´esultat d’ ”optimalit´e”
Th´eor`eme de Gauss-Markov : ˆMCOdef= arg min
↵2Rp kY X↵k2= (XTX) 1XTY .
est optimal au sens du risque quadratique dans la classe des estimateurs sans biais (BLUE :best linear unbiased estimator).
• Preuve ;
• Corollaire : LeBLUE de (i) est ˆ(j):= ( ˆMCO)(j)
Limite
Le MSE =E[( ˆ )2] :
MSE=biais2+variance
λ
<−− Moins de lissage Lissage optimal Plus de lissage −−>
MSE Variance Biais au carré
s´election de variables et choix de mod`eles
Linear model model selection
Mathilde Mougeot (ENSIIE) MRR2017 18 / 54
s´election de variables et choix de mod`eles
M´ethodes classiques de s´election de mod`eles
Objectif :
Trouver un Mod`ele simple avec un fort potentiel pr´edictifparmi tous les mod`eles lin´eaires
Y =XM +✏ o`uM⇢{1, . . . ,p}et XM= [Xi,jk]i=1,...,n;jk2M. Meilleure sous-famille (best subset)
•
RSS(M)def= kY XM(XMXM) 1XTMYk2,
• Mˆ def= arg min
M⇢{1,...,p}
RSS(M) +p´enalit´e
• 2p mod`ees `a tester ! Condition (XTX) inversible.
• Algorithmes malins (typebranch and boundcf. Furnival & Wilson, 1974), faisable jusqu’a p⇠50. (RSS : Residual Sum of Square)
Mod`ele lin´eaire et S´election de variables
Y =X +✏ avec ✏⇠N(0, 2) Di↵´erentes approches :
1 Best Subset (m´ethode exhaustive)
2 R´egression Forward (m´ethode incr´ementale)
3 R´egression Backward (m´ethode incr´ementale)
4 R´egression Stepwise (m´ethode incr´ementale)
le R
2ajust´e
• Rappel : coefficient de D´etermination
• R2= Var(YVarYˆ) =SSTSSE 2[0,1]
• SSE : Sum Squared Estimated ; SST : Sum Squared Total
• R2, augmente m´ecaniquement en fonction du nombre de variables
• Coefficient de D´etermination ajust´e
• p´enalisation en fonction de nb de var
• Radj2 = 1 (1 R2)nn p1= 1 RSSSSTnn p1
• Avec :
• RSS/(n p) estimation non biais´ee de l’erreur r´esiduelle,
• TSS/(n 1) estimation non biais´ee de la variance
• Radj2 peut ˆetre n´egatif
adjr2 (Intercept) Age S Ed Ex0 Ex1 LF M N NW U1 U2 W X
0.46 0.56 0.64 0.67 0.68 0.69 0.7 0.7 0.7 0.71 0.71 0.71 0.71
s´election de variables et choix de mod`eles
Best subset
• Le nombre p de variables n’est pas trop grand, p<30
• Etude de tous les mod`eles (2p) (algorithme de Furnival, Wilson 1974)
• Ap fix´e on choisit le mod`ele correspondant au plus grandR2
• Entre deux mod`eles avec un nombre de variables di↵´erents, on choisit le mod`ele avec Radj2 le plus grand.
adjr2 (Intercept) Age S Ed Ex0 Ex1 LF M N NW U1 U2 W X
0.46 0.56 0.64 0.67 0.68 0.69 0.7 0.7 0.7 0.71 0.71 0.71 0.71
s´election Best subset. Sortie du logiciel R
Mathilde Mougeot (ENSIIE) MRR2017 22 / 54
s´election de variables et choix de mod`eles
M´ethodes incr´ementales (”Greedy”, cf TP)
m´ethode ascendante pas `a pas (forward selection)
• On part des donn´ees centr´ees et du Mod`ele M0 nul ;
• Etapek, on ajoute au Mod`eleMk le r´egresseur qui augmente le plus le R2 global parmi les r´egresseurs significatifs.
• On it`ere jusqu’`a ce qu’aucun r´egresseur candidat ne soit significativement non nul.
m´ethode descendante pas `a pas (backward elimination)
• On part des donn´ees centr´ees et du Mod`ele complet ;
• On retire au Mod`ele Mk le r´egresseur non significatif qui porte le score Z le plus faible.
• On it`ere jusqu’`a ce que tous les r´egresseurs restant soient significatifs.
s´election de variables et choix de mod`eles
m´ethode ascendante par ´etape (stepwise selection)
• On part des donn´ees centr´ees et du Mod`ele nulM0;
• Etapek
• on ajoute au Mod`eleMk le r´egresseur qui augmente le plus leR2 global.
• on rejette les r´egresseurs non pertinents.
• on arr`ete lorsque rien ne bouge.
Limitations
• Instabilit´es (cf Breiman, 1996)
• Sous-optimalit´e (car exploration incompl`ete) (”Greedy” method)
Mathilde Mougeot (ENSIIE) MRR2017 24 / 54
CV, Crit`eres d’information
Evaluation du pouvoir pr´edictif du Mod`ele
Principe fondamental
• Si on utilise le mˆeme Echantillon pour ajuster un Mod`ele et pour en estimer son pouvoir pr´edictif,on p`eche par optimisme.
• Soit ˆ = ˆ((Xi,Yi)) et de nouvelles observations (Xi,Yi0) 1
nE(X,Y0)[kY0 Xˆk2|(X,Y)] = 1 n
X(Yi Xiˆ)2
| {z }
=n 1kˆ✏k2=erreur r´esiduelle
+Terme>0 .
CV, Crit`eres d’information
Evaluation du pouvoir pr´edictif du Mod`ele
Approche de l’homme riche : partitionnement des donn´ees
• Validation Crois´ee
• 50% pour entrainer les mod`eles (training set) ;
• 25% pour les Evaluer un `a un et garder le meilleur (validation set) ;
• 25% pour tester le vainqueur (testing set).
• K Fold
• Leave one out
Les approches pr´ec´edentes sont tr`es utilis´ees pour ´evaluer les performances de di↵´erents mod`eles.
Probl`eme : parfois on est pauvre, il faut d’autres approches
Mathilde Mougeot (ENSIIE) MRR2017 26 / 54
CV, Crit`eres d’information
Evaluation of the predictive power in practice
Model comparisons and choice with K fold
M1 M2 M3 M4 M5
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
Polynomial regression
Variables
• Y :Target variable,Y 2R
• X : Explanatory variable,X 2R
Model :Y = 0+ 1X+ 2X2+. . .+ p 1Xp 1 Goal :
! Given a set of data, we aim to recover the appropriate expression, p ? j?
Mathilde Mougeot (ENSIIE) MRR2017 28 / 54
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
Polynomial regression
x
y
x
y
x
y
x
y
x
y
x
y
x
y
x
y
y y
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
Crit`ere d’Akaike (AIC, 1973)
Expression g´en´erale de l’AIC :
2E(logfˆ(X,Y))' 2E(log lik) + 2p
n ' 2log lik +2p n
def= AIC avec loglik =P
log(fˆ(X,Y)) et ˆ : estimateur du max. de vrais.
Cas du Mod`ele Lin´eaire gaussien
• L’estimateur des MCO est aussi celui de MV.
• p est le nombre de degr´es de libert´e du Mod`ele (nb. param`etres)
Mathilde Mougeot (ENSIIE) MRR2017 30 / 54
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
Crit`ere d’information bay`esien (BIC, Schwarz, 1976)
Expression g`en`erale du BIC
BICdef= 2loglik +lognp n
Comparaison avec AIC
• Justification bay´esienne.
• P´enalit´e plus forte (logn 2) ;
• BIC pr´econisera des mod`eles plus parcimonieux ;
• en g´en´eral AIC inclut des variables importantes.
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
Crit`ere C
pde Mallows (1968)
Expression Cp de Mallows : Cp= ˆE(Y Xˆ)2=n 1X
(Yi XTi ˆ)2+2p
n |{z}ˆ2
sur Mod`ele complet
.
Cas du Mod`ele Lin´eaire gaussien
• L’estimateur des MCO est aussi celui de MV.
• p est le nombre de degr´es de libert´e du Mod`ele (nb. param`etres)
Mathilde Mougeot (ENSIIE) MRR2017 32 / 54
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
R´egression avec p´enalisations
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
M´ethodes de r´egression avec p´enalisations
Introduction de contraintes sur les coefficients
• Ridge : E( ) =||Y X ||2 sous la contrainteP
j 2 j c
• Lasso : E( ) =||Y X ||2 sous la contrainteP
j| j|1c Les solutions sont bas´ees sur :
! Convex Optimization for L1, non convex Opti.
! Non sparse solutions for ridge regression
Mathilde Mougeot (ENSIIE) MRR2017 34 / 54
CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)
M´ethodes de r´egression avec p´enalisations
R´egressions p´enalis´ees Lasso et Ridge
R´egression Ridge
CV, Crit`eres d’information Ridge
Ridge Regression
Trois points de vue :
1 Solution d’un probl`eme de moindres carr´es p´enalis´e
2 Contraction de la solution des MCO
3 Estimation bay´esienne selon un apriori Gaussien
CV, Crit`eres d’information Ridge
Ridge Regression. Moindres carr´es p`enalis´es.
Quand p >>n alors (XTX) est une matrice non inversible.
La r´egression Ridge va r´egulariser la matrice de variance-covariance.
L’erreur est d`efinie par des moindres carr´es p`analis´es :
E( ) = (Y X )T(Y X ) contrainte || ||2c
Illustration
Mathilde Mougeot (ENSIIE) MRR2017 38 / 54
CV, Crit`eres d’information Ridge
Ridge Regression. Moindres carr´es p`enalis´es.
• L’erreur est d´efinie par des moindres carr´es p´enalis´es :
E( ) = (Y X )T(Y X ) contrainte || ||2 c
• Multiplicateurs de Lagrange :
( ) = (Y X )T(Y X ) +kPp j=1 2
j
= (Y X )T(Y X ) +k T avec k 0
• ˆRR minimise ( ) :
ˆRR = (XTX +kIp) 1XTY
CV, Crit`eres d’information Ridge
Regression Ridge. Application sous R
Remarque :
• Renormalisation des donn´ees (variablesXj 1j p) pour apporter une mˆeme p´enalisation `a tous les coefficients.
• On nep´enalise pas la constante ( ) = (Y X )T(Y X ) +kPp
j=2 2 j
Instructions sous R :
- modridge=lm.ridge(Y ⇠X,data=Z,lambda=5) ; print(summary(modridge)) ;
- les champs :
coef / lambda / scales / ym / xm / GCV
- modridge$coef ; Coefficients dans un contexte de normalisation - coef(modridge) ; Coefficients contexte initial
Mathilde Mougeot (ENSIIE) MRR2017 40 / 54
CV, Crit`eres d’information Ridge
Ridge Regression. Contraction de la solution des MC0
Comparaison des solutions Ridge et des MCO
Cas Particulier XTX orthonorm´ee :
• Estimation de ˆRR = (XTX+kIp) 1XTY
• Cas orthonorm`e : XTX =Ip
Pour chaque coordonn´ee j de RR j
RR = 1+k1 MC0j
|| RRj ||2 = (1+k1 )2|| MC0j ||2
! Contraction des coefficientsproportionnelle `a 1/(1 +k) Shrinkage estimator
CV, Crit`eres d’information Ridge
Ridge Regression. Apriori Gaussien
On consid`ereY =X +✏avec ✏⇠Nn(0, 2In), 2 connu.
On a : Y ⇠Nn(X , 2In) La vraisemblance est :
L(Y/{ , }) / exp{ 212(Y X )T(Y X )} / exp{ 212( ˆ)TXTX( ˆ)}
On notera la similarit´e : avec ⇠Nn( ˆ, 2(XTX) 1)
Mathilde Mougeot (ENSIIE) MRR2017 42 / 54
CV, Crit`eres d’information Ridge
Ridge Regression. Interpr´etation bay´esienne.
A priori Gaussien sur :
⇠Np(0, 2) et ⇡( )/exp{ 2T2} aveck = 2/ 2. La densit`a a posteriori de est
p( /Y, ) = L(Y/ , )⇡( )
/ exp{ 212[( ˆ)TXTX( ˆ) +k T ]} / exp{ 212[( ˆ(k))T(XTX +kIp)( ˆ(k))]} En posant : ˆ = ˆ(k) + ˆ(k) ˆ et = ( ˆ(k)) + la densit`a a posteriori de est N( ˆRRk , 2(XTX +kIp) 1) Ridge : Estimateur de Bayes avec un apriori Gaussien sur
Si 2 grand (k petit), alors peu d’apriori sur , l’estimateur Ridge est similaire `a celui des MC0.
CV, Crit`eres d’information Ridge
Ridge Regression
choix du param`atre k...
• Equilibre biais-variance
• K-fold cross-validation
Mathilde Mougeot (ENSIIE) MRR2017 44 / 54
R´egression Lasso
lasso (gauche), ridge (droite)
CV, Crit`eres d’information Lasso
Lasso Regression
• Moindres carr´es p`enalis´es :
E( ) = (Y X )T(Y X ) contrainte | |c
• Multiplicateurs de Lagrange :
( ) = (Y X )T(Y X ) +kPp
j=1| j| aveck 0
• ˆLasso minimise ( ) :
Algorithme Lars d’optimisation pour le calcul du chemin de r´egularisation
Mathilde Mougeot (ENSIIE) MRR2017 46 / 54
CV, Crit`eres d’information Lasso
R´egression Ridge et Lasso
Matrice de design orthonorm´e : XTX =Ip
Estimation Expression Best Subset ˆj
MCO1{rang(|ˆj
MCO|)M} (taille M)
Ridge ˆ
j MCO
1+ ( =k)
Lasso Sign( ˆMCOj )(| MCOj | /2)+ Soft Thresholding
CV, Crit`eres d’information Lasso
R´egressions Ridge et Lasso
−4 −2 0 2 4
−4−2024
Best Subset
(0,0)
−4 −2 0 2 4
−4−2024
Ridge
(0,0)
−4 −2 0 2 4
−4−2024
Lasso
(0,0)
R´egression Best Subset Ridge et Lasso
Mathilde Mougeot (ENSIIE) MRR2017 48 / 54
CV, Crit`eres d’information Lasso
R´egression Ridge et Lasso
Comparaison des chemins de r´egularisation
Evolution des coefficients pour di↵´erentes valeur du param`etrek
R´egressions Ridge (gauche) et Lasso (droite)
CV, Crit`eres d’information Lasso
Application
Etude : cancer de la prostate, n= 97 observations
*
*
*
**
* * *
*
0.0 0.2 0.4 0.6 0.8 1.0
0246
|beta|/max|beta|
Standardized Coefficients
* * *
**
* * * *
* * * ** *
* *
*
* * * **
*
* * *
* *
*
**
* * *
*
* * * ** * * *
*
* * * ** * * * *
* * * **
* * *
* LASSO
678251
0 1 2 3 5 6 8
R´egression Best Subset Ridge et Lasso
Mathilde Mougeot (ENSIIE) MRR2017 50 / 54
CV, Crit`eres d’information Lasso
Ridge Regression. Application
Etude de cancer de la prostate, n= 97 observations Y lpsa
X 8 lcavol, lweight, age, lbph, svi, lcp, gleason, pgg45
0 20 40 60 80 100
0.00.20.40.6
x$lambda
t(x$coef)
Evolution
CV, Crit`eres d’information Lasso
Ridge Regression. Application
Application : cancer data
Evolution des coefficients en fonction du param`etre de p´enalisation
lcavol age lbph svi lcpgleason
Ridge, l=0.0
−0.20.20.40.60.81.0
lcavol age lbph svi lcpgleason
Ridge, l=6.5
−0.20.20.40.60.81.0
lcavol age lbph svi lcpgleason
Ridge, l=100.0
−0.20.20.40.60.81.0
lcavol age lbph svi lcpgleason
Ridge, l=1000.0
−0.20.20.40.60.81.0
Mathilde Mougeot (ENSIIE) MRR2017 52 / 54
CV, Crit`eres d’information Lasso
Ridge Regression. Application
Application : cancer data
Evolution de l’erreur de validation en fonction du param`etre de p´enalisation
0 10 20 30 40 50
0.004150.004250.004350.00445
llambda
res_ridge$GCV
CV, Crit`eres d’information Lasso
Ridge Regression. Algorithme
library(MASS); # PROSTATE DATA
tab0 = read.table(’prostate.data’); names(data) tab=tab0[,1:(ncol(tab0)-1)]; names(tab);
tab=data.frame(scale(tab));
#Utilisation de la fonction solve pour calculer les coeffs de r´egression
X=as.matrix(cbind( rep(1,nrow(tab)),tab[,-ncol(tab)])); dim(X) Y=tab[,ncol(tab)];
betasolve=solve(t(X)%*%X,t(X)%*%matrix(Y,nrow=nrow(tab),1));
#Utilisation de la fonction solve pour calculer les coeffs de Ridge
lambda=100; Id=diag(rep(1,ncol(X)));Id[1,1]=0; S=t(X)%*%X + lambda*Id*nrow(tab);
betaridgesolve=solve(S,t(X)%*%matrix(Y,nrow=nrow(tab),1));
print(betaridgesolve)
#lambda tabaux=cbind( rep(1,nrow(tab)),tab);
names(tabaux)[1]=’cst’; names(tabaux)
resridge = lm.ridge(’lpsa .’,data=tab,model=F, lambda
=nrow(tab)*100);
attributes(resridge)
reridge$coef; coef(resridge);
Mathilde Mougeot (ENSIIE) MRR2017 54 / 54