Mod`ele lin´eaire
A. Godichon-Baggioni
I. Mod`ele lin´eaire
MODELE DE R` EGRESSION´
L’objectif est d’expliquer une variableYen fonction de variables explicativesX. Plus pr´ecis´ement, un mod`ele de regression est un mod`ele o `u on consid`ere :
I des variables al´eatoires `a expliquerY1, . . . ,Yn
I des vecteursX1, . . . ,Xn∈Rp(variables explicatives) I une fonction de r´egressiong:Rp−→R
I des variables al´eatoires ind´ependantes et centr´ees 1, . . . , n
Le mod`ele de r´egression est d´efini comme Yi=g(Xi) +i.
EXEMPLE 1 : Yi = ax2i +bxi+c+i
−2 −1 0 1 2
0246
X
Y
EXEMPLE 2 : Yi = axi+ b+i
−2 −1 0 1 2
−6−4−2024
X
Y
MODELE LIN` EAIRE´
D´efinition
Lorsque la fonction de r´egr´ession est lin´eaire, i.e de la forme g(X) =XTβ
avecβ∈Rp, le mod`ele de r´egression associ´e est dit lin´eaire.
FORME MATRICIELLE
On consid`ere le mod`ele lin´eaire
Yi=g(Xi) +i=XTiβ+i. On noteY= (Y1, . . . ,Yn)T,= (1, . . . , n)Tet
X= (X1, . . . ,Xn)T=
X1,1 . . . X1,p
... . .. ... Xn,1 . . . Xn,p
.
La forme matricielle du mod`ele lin´eaire s’´ecrit alors Y=Xβ+.
EXEMPLE 1 : MODELE LIN` EAIRE SIMPLE´
On ax1, . . . ,xn∈Ret pour touti yi=a+bxi+i. Le mod`ele s’´ecrit sous la forme
Y=Xβ+.
avec
X=
1 x1
... ... 1 xn
, et β = a
b
.
La fonctionx7−→a+bxest dite droite de r´egression.
EXEMPLE 2 : REGRESSION POLYNOMIALE´
On ax1, . . . ,xn∈Ret pour touti
yi=a0+a1xi+. . .+apxpi +i. Le mod`ele s’´ecrit sous la forme
Y=Xβ+. avec
X=
1 x1 . . . xp1 ... ... ... 1 xn . . . xpn
, et β =
a0
... ap
.
Comment estimer β ?
II. M´ethode des moindres carr´es
ESTIMATEUR DES MOINDRES CARRES´
La m´ethode des moindres carr´es consiste `a chercherβˆ∈Rpqui minimise la quantit´e suivante :
kY−Xβ0k2 =
n
X
i=1
Yi−XTiβ02 .
βˆest appel´e estimateur des moindres carr´es.
I Existence d’une solution ? I Unicit´e ?
EXISTENCE ET UNICITE´
Th´eor`eme
SiXest de rang p, alors l’estimateur des moindres carr´es est unique et est d´efini par
βˆ= XTX−1 XTY
PROPOSITION
Proposition
La matriceXTXest semi-d´efinie positive. De plus, elle est positive si et seulement siXest de rang p.
Remarque : La matriceXne peut ˆetre de rangpque sin≥p.
MOINDRES CARRES ET PROJECTION´
On doteD⊂Rple sous espace vectoriel engendr´e par les colonnes deX. Le probl`eme de minimization peut s’´ecrire comme
min
β0∈RpkY−Xβ0k2 = min
h∈DkY−hk2
et chercher le minimum revient donc `a cherche la projection orthogonale deYsurD.
Remarque : dim(D) =rang(X).
MOINDRES CARRES ET PROJECTION´
Th´eor`eme
Si rang(X) =p, i.e siXTXest inversible, alors la matrice PD=X XTX−1
XT
est la matrice de projection orthogonale sur D et rang(H) =p.
PROPRIET´ ES DE L´ ’ESTIMATEUR DES MOINDRES CARRES´
Proposition
Soit= (1, . . . , n)avecE[] =0Rnet Var[] =σ2In,σ2>0. On suppose de plus que rang(X) =p. Alors
E hβˆi
=β et Varh βˆi
=σ2 XTX−1 .
D ´EFINITIONS
D´efinition
1. On appelle
ˆ
=Y−Xβˆ le vecteur des r´esidus.
2. On appelle
SCR=kˆk2= Y−Xβˆ
2
la somme des carr´es des r´esidus.
ESTIMATION DE σ2
Th´eor`eme
Soit= (1, . . . , n)avecE[] =0Rnet Var[] =σ2In,σ2>0. On suppose de plus que rang(X) =p. Alors
ˆ σ2=
Y−Xβˆ
2
n−p = 1
n−p
n
X
i=1
Yi−XiTβˆ2
est un estimateur sans biais deσ2.
III. Mod`ele lin´eaire gaussien
MODELE LIN` EAIRE GAUSSIEN´
D´efinition
Le mod`ele de r´egression lin´eaire
Y=Xβ+
est dit mod`ele lin´eaire gaussien siest un vecteur gaussien de loi N 0, σ2In
avecσ2>0.
Proposition
Dans le cadre du mod`ele lin´eaire gaussien, l’estimateur des moindres carr´es co¨ıncide avec l’estimateur du maximum de vraisemblance.
PROPRIET´ ES DES ESTIMATEURS´
Th´eor`eme
Soit∼ N 0, σ2In
,σ2 >0. On suppose de plus que rang(X) =p.
Alors
1. βˆ∼ N
β, σ2 XTX−1 . 2. βˆetσˆ2sont ind´ependantes.
3. (n−p)σ2 σˆ2∼χ2n−p.
INTERVALLE DE CONFIANCE
Th´eor`eme
Soit x0∈Rp. Un intervalle de confiance de niveau1−αpour xT0β est donn´e par
h
xT0βˆ−σˆ√
v0tn−p,1−α/2;xT0βˆ+ ˆσ√
v0tn−p,1−α/2
i
avec v0=xT0 XTX−1
x0et tn−p,1−α/2est le quantile d’ordre 1−α/2de la loi de Student `a n−p degr´es de libert´e.
INTERVALLES DE PREDICTION´
Th´eor`eme
Soit x0∈Rp. Un intervalle de pr´ediction de niveau1−αde y0est donn´e par
h
xT0βˆ−σˆp
1+v0tn−p,1−α/2;xT0βˆ+ ˆσp
1+v0tn−p,1−α/2
i
avec v0=xT0 XTX−1
x0et tn−p,1−α/2est le quantile d’ordre 1−α/2de la loi de Student `a n−p degr´es de libert´e.
Remarque : L’intervalle de pr´ediction est plus grand que l’intervalle de confiance car il doit ´egalement prendre en compte la variance de0.
TEST DE SIGNIFICATIVITE D´ ’UN PARAMETRE`
Soitk∈ {1, ...,p}, on souhaite tester
H0: ”βk=0” contre H1: ”βk6=0”.
Proposition
Dans le cadre du mod`ele lin´eaire gaussien, un test de significativit´e du k-`eme coefficient de niveauαest donn´e par la zone de rejet
ZRα,k=n 0∈/ h
βˆk±σˆ√
vktn−p,1−α/2
io ,
o `uvk=
XTX−1
k,kest lek-`eme coefficient diagonal de XTX−1
ettn−p,1−α/2est le quantile d’ordre 1−α/2 de la loi de Student `an−pdegr´es de libert´e.
TEST DE SIGNIFICATIVITE DE PLUSIEURS´
COEFFICIENTS´
On souhaite tester la significativit´e de plusieurs coefficients βi1, . . . , βik. Pour simplifier les notations, on souhaite tester
H0: ”βp0+1, . . . , βp=0” contre H1: ”∃i∈ {p0+1, . . . ,p}, βi6=0”.
TEST DE SIGNIFICATIVITE DE PLUSIEURS´
COEFFICIENTS´
On note I X0=
X1, . . . ,Xp0
∈Rn×(p0) I X1=
Xp0+1, . . . ,Xp
∈Rn×(p−p0) I X= [X0,X1]∈Rn×p.
Le test de significativit´e revient `a faire la comparaison de mod`eles suivante :
H0: ”Y=X0β0+” contre ”H1:Y=Xβ+”.
TEST DE SIGNIFICATIVITE DE PLUSIEURS´
COEFFICIENTS´
Th´eor`eme
On consid`ere la statistique de test
F=
Yˆ−Yˆ0
2
(p−p0) ˆσ2 =: ˆσ02 ˆ σ2,
avecYˆ0 =X0βˆ0, etβˆ0est l’estimateur des moindres carr´es dans le mod`ele H0. Alors, sous H0,
F∼ F(p−p0,n−p).
Corollaire
Tester la significativit´e des coefficients au risqueαrevient `a consid´erer la zone de rejet
ZRα=
F>f1−α,p−p0,n−p
o `u f1−α,p−p0,n−pest le quantile d’ordre1−αde la loi de Fisher de param`etres p−p0et n−p.
IV. Mod`eles emboit´es
MODELES EMBOIT` ES´
Le test de Fisher pr´ec´edent est un cas particulier du test entre mod`eles emboit´es. On consid`ere :
I Y∼ N µ, σ2In
avecσ2>0.
I M0⊂ M1 ⊂Rndeux sous espaces vectoriels deRn On souhaite tester
H0:E[Y] =µ∈ M0 contre H1:E[Y] =µ∈ M1.
CONSTRUCTION DE LA STATISTIQUE DE TEST
On consid`erePM0,PM1les projections orthogonales surM0et M1. On consid`ere la statistique
F= dim M⊥1
kPM0Y−PM1Yk2 (dim(M1)−dim(M0))
PM⊥
1 Y
2
Proposition
Sous H0,
F ∼F dim(M1)−dim(M0),dim M⊥1
TEST DES MODELES EMBOIT` ES´
Corollaire
Faire le test des mod`eles emboit´es revient donc `a consid´erer la zone de rejet
ZRα=n
F>f1−α,dim(M1)−dim(M0),dim(M⊥1) o