HAL Id: inria-00494841
https://hal.inria.fr/inria-00494841
Submitted on 24 Jun 2010
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de
Sélection de modèle incluant des composantes principales
Alois Kneip, Pascal Sarda
To cite this version:
Alois Kneip, Pascal Sarda. Sélection de modèle incluant des composantes principales. 42èmes Journées
de Statistique, 2010, Marseille, France, France. �inria-00494841�
S´ election de mod` ele incluant des composantes principales
Alois Kneip
1& Pascal Sarda
21
Statistische Abteilung, Department of Economics and Hausdorff, Center for Mathematics, Universit¨at Bonn, Adenauerallee 24-26, 53113 Bonn, Germany
2
Institut de Math´ematiques, UMR 5219, ´ Equipe Statistique et Probabilit´es, 118, Route de Narbonne, 31062 Toulouse Cedex, France
R´ esum´ e . Nous consid´erons un mod`ele de r´egression lin´eaire de grande dimension et plus pr´ecis´ement le cas d’un mod`ele factoriel pour lequel le vecteur des variables explicatives se d´ecompose en la somme de deux termes al´eatoires d´ecrivant respectivement la variabilit´e sp´ecifique et commune des pr´edicteurs. Nous montrons tout d’abord que les proc´edures de s´election de variables et d’estimation usuelles telles que le lasso ou le s´electeur Dantzig sont performantes dans ce contexte et sous l’hypoth`ese additionnelle que le vecteur des param`etres est sparse. Cette hypoth`ese peut ˆetre cependant restrictive. Nous introduisons ainsi un mod`ele de r´egression augment´e qui inclut les composantes principales. Nous mon- trons que ces composantes peuvent ˆetre convenablement estim´ees `a partir de l’´echantillon et nous nous concentrons ensuite sur les propri´et´es th´eoriques du mod`ele augment´e.
Abstract. We consider a high dimensional linear regression model and more precisely the case of a factor model where the vector of explanatory variables can be decomposed as a sum of two random terms representing respectively specific and common variability of the predictors. We show at first that usual prameter estimation and variable selection procedures such as Lasso or Dantzig selector are efficient in this context with the additional assumption that the vector of parameters is sparse. Such an assumption may be however restrictive. We thus introduce an augmented regression model which includes principal components. We show that these components can be accurately estimated from the sample and then we concentrate on the theoretical properties of the augmented model.
Mots cl´es. Mod`ele de r´egression lin´eaire, grande dimension, s´election de variables, com- posantes principales, Lasso, s´electeur Dantzig.
1 Introduction
Dans de nombreuses applications le nombre de variables ou de param`etres est tr`es
´elev´e voire plus grand que la taille de l’´echantillon. Une large litt´erature statistique est d´esormais consacr´ee `a l’´etude de probl`emes en grande dimension. Un des mod`eles les plus souvent consid´er´es est le mod`ele de r´egression lin´eaire :
Y
i= β
TX
i+ ǫ
i, i = 1, . . . , n, (1)
o` u (Y
i, X
i), i = 1, . . . , n, sont des couples al´eatoires avec Y
i∈ R et X
i= (X
i1, . . . , X
ip)
T∈ R
p. Dans le mod`ele (1) β est un vecteur de param`etres dans R
pet (ǫ
i)
i=1,...,nsont des v.a.r. i.i.d., ind´ependantes de X
i, centr´ees et telles que V ar(ǫ
i) = σ
2. La dimension p du vecteur des param`etres est ici ´elev´ee comparativement `a la taille de l’´echantillon n.
Le mod`ele (1) d´ecrit deux situations qui ont donn´e lieu `a deux branches relativement ind´ependantes de la litt´erature statistique. La premi`ere correspond au cas o` u X
irepr´esente un vecteur (de grande dimension) de diff´erents pr´edicteurs alors qu’une autre situation apparaˆıt lorsque les variables explicatives sont p points de discr´etisation d’une mˆeme courbe. Dans ce dernier cas le mod`ele (1) est une version discr`ete du mod`ele lin´eaire fonctionnel. Pour chacune de ces situations des strat´egies tr`es diff´erentes ont ´et´e adopt´ees afin d’estimer le vecteur des param`etres β et les hypoth`eses structurelles sous-jacents semblent ˆetre incompatibles.
Dans le premier cas les travaux reposent sur l’hypoth`ese que seul un nombre relati- vement petit de variables explicatives ont une influence significative sur la r´eponse Y
iou qu’en d’autres termes le vecteur des coefficients β
jest sparse : S := # { β
j| β
j6 = 0 } ≪ p.
Cette hypoth`ese s’accompagne d’une condition sur les corr´elations entre les diff´erentes variables explicatives qui doivent ˆetre “suffisamment” faibles. Les proc´edures les plus po- pulaires pour identifier et estimer les coefficients non nuls sont le Lasso et le s´electeur Dantzig : voir par exemple Tibshirani (1996), Bickel et al. (2009) et Candes and Tao (2007). Dans les travaux ayant trait `a la statistique fonctionnelle on adopte des hypoth`eses tr`es diff´erentes. Si on consid`ere le cas le plus simple o` u X
ij= X
i(t
j) pour des fonctions al´eatoires X
i∈ L
2([0, 1]) observ´ees en des points ´equidistants t
j=
jp, on a alors β
j:=
β(tpj), o` u β(t) ∈ L
2([0, 1]) et lorsque p → ∞ , P
j
β
jX
ij= P
j β(tj)
p
X
i(t
j) → R
10
β(t)X
i(t)dt. Par ailleurs, les corr´elations entre les variables X
ij= X
i(t
j) et X
il= X
i(t
l), j 6 = l, sont tr`es fortes : lorsque p → ∞ , corr(X
i(t
j), X
i(t
j+m)) → 1 pour tout m fix´e. Dans ce contexte, aucune variable X
ij= X
i(t
j) n’a une influence particuli`ere sur Y
i, et il y a une grand nombre de coefficients β
jqui sont proportionnels `a 1/p. Bien entendu, la r´eduction de dimension est ´egalement pr´esente dans le cadre fonctionnel mais cependant elle s’obtient ici en r´e´ecrivant le mod`ele en termes d’une d´ecompositon des pr´edicteurs sur une base
“sparse”, c’est-`a-dire sur un petit nombre k de fonctions de base. Il est alors bien connu que la meilleure base possible au sens de l’erreur L
2est celle fournie par les fonctions propres correspondant aux plus grande valeurs propres de l’op´erateur de covariance de X
i. Parmi les nombreuses r´ef´erences sur le mod`ele lin´eaire fonctionnel citons Ramsay et Dalzell (1981), Cardot et al. (1999), Cai et Hall (2007), Hall et Horowitz (2007), Cardot et al. (2007) et Crambes et al. (2009).
Le but de notre travail est de montrer qu’une combinaison des id´ees d´evelopp´ees dans
les deux approches ci-dessus conduit, pour le mod`ele “discret” (1), `a une proc´edure d’es-
timation nouvelle qui peut ˆetre utile dans de nombreuses applications. Nous mous pla¸cons
dans un cadre g´en´eral dans lequel les variables explicatives peuvent provenir ou pas de la
discr´etisation d’une mˆeme courbe. Par ailleurs, nous consid´erons un mod`ele factoriel de
la forme
X
i= W
i+ Z
i, i = 1, . . . , n, (2) o` u W
iet Z
isont deux vecteurs al´eatoires ind´ependants de R
p. Nous supposons que W
ijet Z
ijrepr´esentent des parties non n´egligeables de la variance de X
ij: chaque variable X
ij, j = 1, . . . , p poss`ede une variabilit´e sp´ecifique induite par Z
ijqui peut expliquer une partie de la r´eponse Y
i. D’un autre cˆot´e le terme W
ijrepr´esente une variabilit´e commune et les composantes principales, qui quantifient cette variabilit´e simultan´ee des r´egresseurs, peuvent ´egalement contribuer aux variations de la r´eponses. Ces arguments ont motiv´e l’utilisation d’un mod`ele de r´egression “augment´e” qui inclut les composantes principales comme variables explicatives additionnelles.
2 Le cadre de l’´ etude
Consid´erons le mod`ele de r´egression lin´eaire (1) avec des variables explicatives X
iqui peuvent ˆetre d´ecompos´ees selon (2). On suppose de plus que E (X
ij) = 0 pour tout j = 1, . . . , p, et que
sup
j
E (X
ij2) ≤ D
0< ∞ . (3)
La matrice de variances-covariances de Σ de X
ise d´ecompose sous la forme Σ = Γ + Ψ, o` u Γ = E ( W
iW
Ti), alors que Ψ est une matrice diagonale. On note dans la suite Σ b =
1 n
P
ni=1
X
iX
Tila matrice de variances-covariances empirique bas´ee sur l’´echantillon X
i, i = 1, . . . , n.
Les variables ind´ependantes Z
ij, j = 1, . . . , p, avec var(Z
ij) = σ
j2, sont suppos´ees v´erifier la condition suivante : il existe deux constantes positives D
1et D
2telles que (A.1) 0 < D
1< σ
2j< D
2.
Nous supposons par ailleurs l’hypoth`ese suivante
(A.2) Il existe C
0< ∞ tel que les ´ev´enements sup
1≤j,l≤p
| 1 n
X
ni=1
W
ijW
il− cov(W
ij, W
il) | ≤ C
0r log p
n , (4)
sup
1≤j,l≤p
| 1 n
X
ni=1
Z
ijZ
il− cov(Z
ij, Z
il) | ≤ C
0r log p
n , (5)
sup
1≤j,l≤p
| 1 n
X
ni=1
Z
ijW
il| ≤ C
0r log p
n , (6)
sup
1≤j,l≤p
| 1 n
X
nX
ijX
il− cov(X
ij, X
il) | ≤ C
0r log p
n , (7)
sont r´ealis´es simulatan´ement avec la probabilit´e A(n, p) > 0, o` u A(n, p) → 1 as n, p → ∞ ,
logp
n
→ 0.
On montre que si les composantes W
iet Z
ide X
iv´erifient W
i∼ N (0, Γ) et Z
i∼ N (0, Ψ), alors X
i∼ N (0, Γ + Ψ) et l’hypoth`ese (A.2) est alors satisfaite.
Concernant les variables W
ij, nous supposerons par ailleurs qu’un petit nombre de vecteurs propres de Γ suffit `a bien approximer W
i(voir conditon (A.3) ci-dessous).
Envisageons pour le moment le cas d’un vecteur de param`etres β sparse :
♯ { β
j| β
j6 = 0 } ≤ S for some S ≤
p2.
Les proc´edures les plus populaires pour identifier et estimer les coefficients non nuls β
jsont Lasso et le s´electeur Dantzig. Dans un article r´ecent Bickel et al. (2009) analysent ces m´ethodes. Ils donnent des conditions, restricted eigenvalue assumptions, portant sur les corr´elations entre les variables X
ijet X
il, j 6 = l, sous lesquelles ils obtiennent entre autres des bornes pour l’erreur L
q, 1 ≤ q ≤ 2. On montre qu’une version de ces conditions, RE(S, S, c
0), c
0= 1, 3, est v´erifi´ee par les variables explicatives ayant la structure (2) et lorsque (A.1) et (A.2) sont v´erifi´ees. Notons que les variables X
ijsont pr´ealablement nor- malis´ees de telle sorte que les ´el´ements diagonaux de la matrice de variances-covariances empririque soient ´egaux `a 1.
Nous avons remarqu´e plus haut que les variables W
ijpeuvent ´egalement avoir une influence sp´ecifique sur la r´eponse Y
iau travers d’un vecteur de param`etres non sparse.
Dans ce cadre, nous pouvons int´egrer les composantes principales aux variables explica- tives. Nous pr´esentons dans la section suivante le mod`ele augment´e r´esultant.
3 Le mod` ele augment´ e
Nous notons dans la suite λ
1≥ λ
2≥ . . . les valeurs propres de
1pΓ, µ
1≥ µ
2≥ . . ., les valeurs propres de
1p
Σ et b λ
1≥ λ b
2≥ les valeurs propres de la matrice de variances- covariances
1pΣ, alors que b ψ
1, ψ
2, . . . δ
1, δ
2, . . . et ψ b
1, ψ b
2, . . . sont des vecteurs propres orthonorm´es correspondant.
Le mod`ele incluant les composantes principales s’´ecrit
Y
i= X
kr=1
α
rξ
ir+ β
∗TX
i+ ǫ
i, i = 1, . . . , n, (8)
o` u ξ
ir= δ
TrX
i/ √ pµ
r, α = (α
1, . . . , α
k)
T∈ R
ket β
∗∈ R
psont des vecteurs de param`etres.
Nous supposons en outre que le vecteur β
∗est sparse.
La premi`ere ´etape d’estimation du param`etres (α
1, . . . , α
k, β
1∗, . . . , β
p∗) consiste `a pro-
jeter le mod`ele `a l’aide de la matrice de la projection sur l’espace engendr´e par les vecteurs
propres correspondant aux k plus grandes valeurs propres de
1pΣ b
P b
k= I
p− X
kr=1
ψ b
rψ b
Tr.
Le mod`ele (8) s’´ecrit alors pour i = 1, . . . , n Y
i=
X
kr=1
α
∗rξ b
ir+ X
pj=1
β
j∗∗( P b
kX
i)
j 1 nP
ni=1
( P b
kX
i)
2j1/2+ ǫ
∗i+ ǫ
i, (9) o` u ξ b
ir= ψ b
TrX
i/
q
p b λ
r, α
∗r= α
r+ q
p b λ
rP
pj=1
ψ b
rjβ
j∗, β
j∗∗= β
j∗1 n
P
ni=1
( P b
kX
i)
2j1/2and ǫ
∗i= P
kr=1
α
r(ξ
ir− ξ b
ir).
Nous montrons tout d’abord dans la proposition ci-dessous que les valeurs et vecteurs propres th´eoriques sont bien approxim´es par leurs versions empiriques. Nous faisons les hypoth`eses additionnelles suivantes
(A.3) Il existe 1 ≥ v (k) ≥ 3C
0(log p/n)
1/2tel que les valeurs propres de
1pΓ sont telles que
j,l≤k,j6=l
min | λ
j− λ
l| ≥ v(k), min
j≤k
λ
j≥ v(k).
Enfin nous supposons que n et p sont suffisamment grands pour que l’hypoth`eses suivante soit v´erifi´ee
(A.4) C
0(log p/n)
1/2≥
pv(k)D0.
Proposition 1 Sous les hypoth`eses (A.2)-(A.4) et sous les ´ev´enemnts (4) - (7) on a pour tout r ≤ k et tout j = 1, . . . , p
| λ
r− b λ
r| ≤ D
2p + C
0(log p/n)
1/2, | µ
r− b λ
r| ≤ C
0(log p/n)
1/2(10) k ψ
r− ψ b
rk
2≤ 5
D2
p