Regularization Methods for Linear Regression

(1)

Regularization Methods for Linear Regression

Mathilde Mougeot

ENSIIE

2017-2018

(2)

Variable selection

Variable selection Linear model

Mathilde Mougeot (ENSIIE) MRR2017 2 / 54

(3)

Variable selection

Regression illustration

Model :

consommation= 1+ 2income+ 3price+ 4temp+✏ R output :

(4)

Variable selection

The laws

With an assumption of normality of the residuals, we have : for the coefficients : ˆ⇠N( , ²(X^TX) ¹)

ˆ_j _j

p ₂

S_jj ⇠N(0,1) with Sj,j j`eme term of the diagnonal of (X^TX) ¹ for the Residual Variance : ^{n p}2 ˆ² ⇠ ²n p with ˆ² = ^||_{n p}^ˆ^✏^||²

We then have : p^ˆ^j ₂ ^j

Sjj

/q

n p

2 ˆ²/(n p) = p^ˆ^j ^j

ˆ²Sjj ⇠T(n p) Recall : Student theorem.

U ⇠N(0,1) and V ⇠ ²(d) ,U and V are independant, then we have Z = p^U

V/d follows a Student law of parameterd.

(5)

Significativity test of ˆ

j

,

²

unknown

• Student Statistics : T

• Significativity test (bilateral)

⇢ H0: j = 0 H1: j 6= 0

• Decision with a risk ↵, Reject of H0 if

• p_ˆ^ˆ₂^j_S

j,j >t_{n p}(1 ↵/2) withS_j,j j^thterm of diagonal of (X^TX) ¹

• pvalue<↵

• Conclusion (if H0 is rejected) :

• j is significatively di↵erent of zero

• X_j a une influence dans le mod`ele

Not appropriate if there exists collinearity between the variables

(6)

Student laws

−4 −2 0 2 4

0.00.10.20.30.4

t

Student

df1 df5 df10 N(0,1)

(7)

Variable selection

Regression illustration

Model :

(8)

Example : Impact of dependance...

Model :Y = 0+ 1X1+ 2X2+✏

Estimate Std. Error t value Pr(>|t|)

(Intercept) -0.08 0.03 -2.31 0.0226 *

X1 1.24 0.62 1.98 0.0497 *

X2 0.82 0.66 1.24 0.2169

Model :Y =↵₀+ 1X1+✏

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.11 0.03 -3.833 0.000224 ***

X[, 1] 2.01 0.07 25.731 <2e-16 ***

Model :Y = 0+ 2X2+✏

Estimate Std. Error t value Pr(>|t|) (Intercept) -0.03 0.02 -1.315 0.192

X[, 2] 2.12 0.08 25.377 <2e-16 ***

n= 100;X =cbind(((1 :n)/n)³,((1 :n)/n)⁴);Y =X%⇤%c(1,1) +rnorm(n)/4;

(9)

Global significativity of the model

Test of the model with a risk ↵

H0 : 2 = 3 =. . .= p= 0

H1 : 9j = 2, . . . ,p, j 6= 0 Statistics

F = ^{n p}_p ₁^||^Y^ˆ ^Y^¯^ˆ^||²

||Y Yˆ||² ⇠Fisher(p 1,n p) Remarque : ^{n p}_p ₁^||^Y^ˆ ^Y^¯^ˆ^||²

||Y Yˆ||² = ^SSE/(p_{SSR/(n p)}¹⁾ (E :Estimated ; R : Residuals) Decision rule

• si Fobs >q^F_↵,H0 is rejected, and there exist a coefficient which is not zero.At least one covariable is ”useful” to explain the target

• siFobs q_↵^F,H0 is acceted, all the coefficients are supposed to be null The covariable are not ”useful” to explain the model

(10)

Global significativity of the model

• Fisher Statistic

• Significativity test (bilateral)

• H₀ : ₂=. . .= _p= 0

• H1 :9 ^j6= 0

• Decision with a rish↵,Reject H0 if

• si ^{n p}_p ₁₁^R²_R2 >f_p _{1,n p}(1 ↵)

• si pvalue<↵

! The global linear model has an added value

(11)

Variable selection

Regression result illustration

Model :

(12)

Model selection

Linear model model selection

(13)

Model selection

Probl`emes de grande dimension

1er exemple : en g´en´etique

• On s’intéresse à la production par une cellule d’une certaine molécule, dont on note Yi la concentration au terme de la iê expérience.

• Pour chaque expérience, on peut mesurer l’expressionXi,1, . . . ,Xi,p de quantités (p 1) de gènes. On a donc un grand nombre de variables d’entrée.

(14)

Model selection

Objectifs

s´election correcte des variables importantes

• Qu’est-ce que veut dire importante?

• screening: trouver au moins toutes les variables importantes.

• selection : trouver les variables importantes et seulement celles-ci.

• Besoin d’interpr´etabilit´eet de parcimonie.

Estimation correcte des sus-dites variables

• Besoin de modélisation, de prédiction. Objectif di↵érent. . . prédiction correcte de futures observations

• Comment l’évaluer ? Attention à l’excès d’optimisme.

• Ré-échantillonage (bootstrap) ou partitionnement des données (validation croisée).

• Crit`eres d’information (AIC, BIC,Cp).

(15)

Plan

R´egression. Recherche de mod`eles parcimonieux

• Mod`ele Lin´eaire

• Estimation, et pr´ediction

• Tests de significativit´e

• Recherche de mod`eles parcimonieux

• Evaluation et sélection de modèles par vraisemblance pénalisée

• Méthodes de régression pénalisée

• la r´egression Ridge,

• la r´egression lasso

(16)

Rappels

Rappel : Mod`ele de base

Mod`ele

Observations (Yi,Xi)2R⇥R^p,i = 1, . . . ,n 8i,Yi =X_i^T +✏_i ou Y =X +✏

2R^p,✏décollélées, centrés, X déterministe.

Cas inversible

Si X est de rang colonne plein (colonne ind´ependantes), alors X^TX est inversible et

ˆ^MCO=arg min

↵2R^p kY X↵k²= (X^TX) ¹X^TY Algorithme

• Choleski enp³+Np²/2

• QR enNp²

(17)

Rappels

R´esultat d’ ”optimalit´e”

Th´eor`eme de Gauss-Markov : ˆ^MCO^def= arg min

↵2R^p kY X↵k²= (X^TX) ¹X^TY .

est optimal au sens du risque quadratique dans la classe des estimateurs sans biais (BLUE :best linear unbiased estimator).

• Preuve ;

• Corollaire : LeBLUE de ⁽ⁱ⁾ est ˆ^(j⁾:= ( ˆ^MCO)^(j)

Limite

Le MSE =E[( ˆ )²] :

MSE=biais²+variance

λ

<−− Moins de lissage Lissage optimal Plus de lissage −−>

MSE Variance Biais au carré

(18)

s´election de variables et choix de mod`eles

Linear model model selection

(19)

Méthodes classiques de sélection de modèles

Objectif :

Trouver un Modèle simple avec un fort potentiel prédictifparmi tous les modèles linéaires

Y =X_M +✏ o`uM⇢{1, . . . ,p}et X_M= [Xi,jk]i=1,...,n;jk2M. Meilleure sous-famille (best subset)

•

RSS(M)^def= kY X_M(X_MX_M) ¹X^T_MYk²,

• Mˆ ^def= arg min

M⇢{1,...,p}

RSS(M) +p´enalit´e

• 2^p mod`ees `a tester ! Condition (X^TX) inversible.

• Algorithmes malins (typebranch and boundcf. Furnival & Wilson, 1974), faisable jusqu’a p⇠50. (RSS : Residual Sum of Square)

(20)

Modèle linéaire et Sélection de variables

Y =X +✏ avec ✏⇠N(0, ²) Di↵´erentes approches :

1 Best Subset (m´ethode exhaustive)

2 Régression Forward (méthode incrémentale)

3 Régression Backward (méthode incrémentale)

4 Régression Stepwise (méthode incrémentale)

(21)

le R

²

ajust´e

• Rappel : coefficient de D´etermination

• R²= _Var(Y^Var^Y^ˆ₎ =_SST^SSE 2[0,1]

• SSE : Sum Squared Estimated ; SST : Sum Squared Total

• R², augmente m´ecaniquement en fonction du nombre de variables

• Coefficient de D´etermination ajust´e

• p´enalisation en fonction de nb de var

• R_adj² = 1 (1 R²)ⁿ_{n p}¹= 1 ^RSS_SSTⁿ_{n p}¹

• Avec :

• RSS/(n p) estimation non biais´ee de l’erreur r´esiduelle,

• TSS/(n 1) estimation non biais´ee de la variance

• R_adj² peut ˆetre n´egatif

adjr2 (Intercept) Age S Ed Ex0 Ex1 LF M N NW U1 U2 W X

0.46 0.56 0.64 0.67 0.68 0.69 0.7 0.7 0.7 0.71 0.71 0.71 0.71

(22)

Best subset

• Le nombre p de variables n’est pas trop grand, p<30

• Etude de tous les mod`eles (2^p) (algorithme de Furnival, Wilson 1974)

• Ap fix´e on choisit le mod`ele correspondant au plus grandR²

• Entre deux modèles avec un nombre de variables di↵érents, on choisit le modèle avec R_adj² le plus grand.

adjr2 (Intercept) Age S Ed Ex0 Ex1 LF M N NW U1 U2 W X

0.46 0.56 0.64 0.67 0.68 0.69 0.7 0.7 0.7 0.71 0.71 0.71 0.71

s´election Best subset. Sortie du logiciel R

(23)

M´ethodes incr´ementales (”Greedy”, cf TP)

m´ethode ascendante pas `a pas (forward selection)

• On part des données centrées et du Modèle M0 nul ;

• Etapek, on ajoute au ModèleMk le régresseur qui augmente le plus le R² global parmi les régresseurs significatifs.

• On itère jusqu’à ce qu’aucun régresseur candidat ne soit significativement non nul.

m´ethode descendante pas `a pas (backward elimination)

• On part des données centrées et du Modèle complet ;

• On retire au Mod`ele Mk le r´egresseur non significatif qui porte le score Z le plus faible.

• On itère jusqu’à ce que tous les régresseurs restant soient significatifs.

(24)

m´ethode ascendante par ´etape (stepwise selection)

• On part des données centrées et du Modèle nulM0;

• Etapek

• on ajoute au Mod`eleM^k le r´egresseur qui augmente le plus leR² global.

• on rejette les r´egresseurs non pertinents.

• on arr`ete lorsque rien ne bouge.

Limitations

• Instabilit´es (cf Breiman, 1996)

• Sous-optimalit´e (car exploration incompl`ete) (”Greedy” method)

(25)

CV, Crit`eres d’information

Evaluation du pouvoir pr´edictif du Mod`ele

Principe fondamental

• Si on utilise le même Echantillon pour ajuster un Modèle et pour en estimer son pouvoir prédictif,on pèche par optimisme.

• Soit ˆ = ˆ((Xi,Yi)) et de nouvelles observations (Xi,Y_i⁰) 1

nE(X,Y⁰)[kY⁰ Xˆk²|(X,Y)] = 1 n

X(Y_i X_iˆ)²

| {z }

=n ¹kˆ✏k²=erreur r´esiduelle

+Terme>0 .

(26)

Evaluation du pouvoir pr´edictif du Mod`ele

Approche de l’homme riche : partitionnement des donn´ees

• Validation Crois´ee

• 50% pour entrainer les mod`eles (training set) ;

• 25% pour les Evaluer un `a un et garder le meilleur (validation set) ;

• 25% pour tester le vainqueur (testing set).

• K Fold

• Leave one out

Les approches précédentes sont très utilisées pour évaluer les performances de di↵érents modèles.

Probl`eme : parfois on est pauvre, il faut d’autres approches

(27)

Evaluation of the predictive power in practice

Model comparisons and choice with K fold

M1 M2 M3 M4 M5

(28)

CV, Crit`eres d’information Crit`ere d’information (AIC, BIC)

Polynomial regression

Variables

• Y :Target variable,Y 2R

• X : Explanatory variable,X 2R

Model :Y = 0+ 1X+ 2X²+. . .+ p 1X^p ¹ Goal :

! Given a set of data, we aim to recover the appropriate expression, p ? j?

(29)

Polynomial regression

x

y

x

y

x

y

x

y

x

y

x

y

x

y

x

y

y y

(30)

Crit`ere d’Akaike (AIC, 1973)

Expression g´en´erale de l’AIC :

2E(logfˆ(X,Y))' 2E(log lik) + 2p

n ' 2log lik +2p n

def= AIC avec loglik =P

log(fˆ(X,Y)) et ˆ : estimateur du max. de vrais.

Cas du Mod`ele Lin´eaire gaussien

• L’estimateur des MCO est aussi celui de MV.

• p est le nombre de degrés de liberté du Modèle (nb. paramètres)

(31)

Crit`ere d’information bay`esien (BIC, Schwarz, 1976)

Expression g`en`erale du BIC

BIC^def= 2loglik +lognp n

Comparaison avec AIC

• Justification bay´esienne.

• P´enalit´e plus forte (logn 2) ;

• BIC pr´econisera des mod`eles plus parcimonieux ;

• en g´en´eral AIC inclut des variables importantes.

(32)

Crit`ere C

p

de Mallows (1968)

Expression Cp de Mallows : Cp= ˆE(Y Xˆ)²=n ¹X

(Yi X^T_i ˆ)²+2p

n |{z}ˆ²

sur Mod`ele complet

.

Cas du Mod`ele Lin´eaire gaussien

• L’estimateur des MCO est aussi celui de MV.

• p est le nombre de degrés de liberté du Modèle (nb. paramètres)

(33)

R´egression avec p´enalisations

(34)

Méthodes de régression avec pénalisations

Introduction de contraintes sur les coefficients

• Ridge : E( ) =||Y X ||² sous la contrainteP

j 2 j c

• Lasso : E( ) =||Y X ||² sous la contrainteP

j| j|¹c Les solutions sont bas´ees sur :

! Convex Optimization for L1, non convex Opti.

! Non sparse solutions for ridge regression

(35)

Méthodes de régression avec pénalisations

Régressions pénalisées Lasso et Ridge

(36)

R´egression Ridge

(37)

CV, Crit`eres d’information Ridge

Ridge Regression

Trois points de vue :

1 Solution d’un problème de moindres carrés pénalisé

2 Contraction de la solution des MCO

3 Estimation bay´esienne selon un apriori Gaussien

(38)

Ridge Regression. Moindres carrés pènalisés.

Quand p >>n alors (X^TX) est une matrice non inversible.

La r´egression Ridge va r´egulariser la matrice de variance-covariance.

L’erreur est dèfinie par des moindres carrés pànalisés :

E( ) = (Y X )^T(Y X ) contrainte || ||²c

Illustration

(39)

Ridge Regression. Moindres carrés pènalisés.

• L’erreur est définie par des moindres carrés pénalisés :

E( ) = (Y X )^T(Y X ) contrainte || ||² c

• Multiplicateurs de Lagrange :

( ) = (Y X )^T(Y X ) +kPp j=1 2

j

= (Y X )^T(Y X ) +k ^T avec k 0

• ˆ_RR minimise ( ) :

ˆ_RR = (X^TX +kIp) ¹X^TY

(40)

Regression Ridge. Application sous R

Remarque :

• Renormalisation des données (variablesXj 1j p) pour apporter une même pénalisation à tous les coefficients.

• On nep´enalise pas la constante ( ) = (Y X )^T(Y X ) +kPp

j=2 2 j

Instructions sous R :

- modridge=lm.ridge(Y ⇠X,data=Z,lambda=5) ; print(summary(modridge)) ;

- les champs :

coef / lambda / scales / ym / xm / GCV

- modridge$coef ; Coefficients dans un contexte de normalisation - coef(modridge) ; Coefficients contexte initial

(41)

Ridge Regression. Contraction de la solution des MC0

Comparaison des solutions Ridge et des MCO

Cas Particulier X^TX orthonorm´ee :

• Estimation de ˆ_RR = (X^TX+kIp) ¹X^TY

• Cas orthonorm`e : X^TX =Ip

Pour chaque coordonn´ee j de RR j

RR = _1+k¹ _MC0^j

|| RR^j ||² = (_1+k¹ )²|| MC0^j ||²

! Contraction des coefficientsproportionnelle `a 1/(1 +k) Shrinkage estimator

(42)

Ridge Regression. Apriori Gaussien

On consid`ereY =X +✏avec ✏⇠Nn(0, ²In), ² connu.

On a : Y ⇠Nn(X , ²In) La vraisemblance est :

L(Y/{ , }) / exp{ ₂¹²(Y X )^T(Y X )} / exp{ ₂¹²( ˆ)^TX^TX( ˆ)}

On notera la similarit´e : avec ⇠Nn( ˆ, ²(X^TX) ¹)

(43)

Ridge Regression. Interpr´etation bay´esienne.

A priori Gaussien sur :

⇠Np(0, ²) et ⇡( )/exp{ ₂^T²} aveck = ²/ ². La densit`a a posteriori de est

p( /Y, ) = L(Y/ , )⇡( )

/ exp{ ₂¹2[( ˆ)^TX^TX( ˆ) +k ^T ]} / exp{ ₂¹²[( ˆ(k))^T(X^TX +kIp)( ˆ(k))]} En posant : ˆ = ˆ(k) + ˆ(k) ˆ et = ( ˆ(k)) + la densit`a a posteriori de est N( ˆ_RR^k , ²(X^TX +kIp) ¹) Ridge : Estimateur de Bayes avec un apriori Gaussien sur

Si ² grand (k petit), alors peu d’apriori sur , l’estimateur Ridge est similaire `a celui des MC0.

(44)

Ridge Regression

choix du param`atre k...

• Equilibre biais-variance

• K-fold cross-validation

(45)

R´egression Lasso

lasso (gauche), ridge (droite)

(46)

CV, Crit`eres d’information Lasso

Lasso Regression

• Moindres carrés pènalisés :

E( ) = (Y X )^T(Y X ) contrainte | |c

• Multiplicateurs de Lagrange :

( ) = (Y X )^T(Y X ) +kPp

j=1| j| aveck 0

• ˆ_Lasso minimise ( ) :

Algorithme Lars d’optimisation pour le calcul du chemin de r´egularisation

(47)

R´egression Ridge et Lasso

Matrice de design orthonorm´e : X^TX =Ip

Estimation Expression Best Subset ˆ^j

MCO1{rang(|ˆ^j

MCO|)M} (taille M)

Ridge ^ˆ

j MCO

1+ ( =k)

Lasso Sign( ˆ_MCO^j )(| _MCO^j | /2)+ Soft Thresholding

(48)

R´egressions Ridge et Lasso

−4 −2 0 2 4

−4−2024

Best Subset

(0,0)

−4 −2 0 2 4

−4−2024

Ridge

(0,0)

−4 −2 0 2 4

−4−2024

Lasso

(0,0)

R´egression Best Subset Ridge et Lasso

(49)

R´egression Ridge et Lasso

Comparaison des chemins de r´egularisation

Evolution des coefficients pour di↵´erentes valeur du param`etrek

R´egressions Ridge (gauche) et Lasso (droite)

(50)

Application

Etude : cancer de la prostate, n= 97 observations

*

**

* * *

*

0.0 0.2 0.4 0.6 0.8 1.0

0246

|beta|/max|beta|

Standardized Coefficients

* * *

**

* * * *

* * * ** *

* *

*

* * * **

*

* * *

* *

*

**

* * *

*

* * * ** * * *

*

* * * ** * * * *

* * * **

* * *

* LASSO

678251

0 1 2 3 5 6 8

R´egression Best Subset Ridge et Lasso

(51)

Ridge Regression. Application

Etude de cancer de la prostate, n= 97 observations Y lpsa

X 8 lcavol, lweight, age, lbph, svi, lcp, gleason, pgg45

0 20 40 60 80 100

0.00.20.40.6

x$lambda

t(x$coef)

Evolution

(52)

Ridge Regression. Application

Application : cancer data

Evolution des coefficients en fonction du param`etre de p´enalisation

lcavol age lbph svi lcpgleason

Ridge, l=0.0

−0.20.20.40.60.81.0

Ridge, l=6.5

−0.20.20.40.60.81.0

Ridge, l=100.0

−0.20.20.40.60.81.0

Ridge, l=1000.0

−0.20.20.40.60.81.0

(53)

Ridge Regression. Application

Application : cancer data

Evolution de l’erreur de validation en fonction du param`etre de p´enalisation

0 10 20 30 40 50

0.004150.004250.004350.00445

llambda

res_ridge$GCV

(54)

Ridge Regression. Algorithme

library(MASS); # PROSTATE DATA

tab0 = read.table(’prostate.data’); names(data) tab=tab0[,1:(ncol(tab0)-1)]; names(tab);

tab=data.frame(scale(tab));

#Utilisation de la fonction solve pour calculer les coeffs de r´egression

X=as.matrix(cbind( rep(1,nrow(tab)),tab[,-ncol(tab)])); dim(X) Y=tab[,ncol(tab)];

betasolve=solve(t(X)%*%X,t(X)%*%matrix(Y,nrow=nrow(tab),1));

#Utilisation de la fonction solve pour calculer les coeffs de Ridge

lambda=100; Id=diag(rep(1,ncol(X)));Id[1,1]=0; S=t(X)%*%X + lambda*Id*nrow(tab);

betaridgesolve=solve(S,t(X)%*%matrix(Y,nrow=nrow(tab),1));

print(betaridgesolve)

#lambda tabaux=cbind( rep(1,nrow(tab)),tab);

names(tabaux)[1]=’cst’; names(tabaux)

resridge = lm.ridge(’lpsa .’,data=tab,model=F, lambda

=nrow(tab)*100);

attributes(resridge)

reridge$coef; coef(resridge);