Sorbonne Université Année 2019/2020
1ère année ISUP Deuxième semestre
Correction de la feuille de TD 3 : Théorème de Cochran et modèle linéaire
Exercice : Le principe de la régression linéaire est de modéliser une variable y à partir de variables explicatives x = x
1, . . . , x
pT, i.e de considérer y = β
1x
1+ . . . + β
px
p, où β = x
1, . . . , x
pest inconnu. En pratique, on dispose d’un échantillon ( x
1, y
1) , . . . , ( x
n, y
n) , mais on obtient jamais réellement une droite (erreurs de mesures...). On va donc considérer le modèle linéaire
y = β
1x
1+ . . . + β
px
p+ e avec e ∼ N 0, σ
2. On parle alors de modèle linéaire gaussien. On suppose maintenant que les données suivent le modèle suivant :
Y
i= β
1x
i,1+ . . . + β
px
i,p+ e
i, avec
— Y
iest une variable aléatoire et on observe les réalisations y
i.
— Les x
i= x
i,1, . . . , x
i,pTsont déterministes.
— Le paramètre β = β
1, . . . , β
pTest inconnu et déterministe.
— Les e
isont i.i.d et e
1∼ N 0, σ
2. 1. Ecrire le modèle de manière matricielle.
Y = Xβ + e,
avec Y = ( Y
1, . . . , Y
n)
T, e = ( e
1, . . . , e
n)
Tet
X =
x
1,1. . . x
1,p.. . .. . .. . x
n,1.. . x
n,p
Pour tout i, on a bien
Y [ i ] = x
i,1, . . . , x
i,pTβ + e
i= x
i,1β
1+ . . . + x
i,pβ
p+ e
i= Y
i.
2. Donner la loi du vecteur Y. Quelle est la loi de Y
i? On a e ∼ N 0, σ
2I
pet donc
Y ∼ N Xβ, σ
2I
pet en particulier Y
i∼ N ( Xβ )[ i ] , σ
2.
On considère à partir de maintenant que rang ( X ) = p, et on note D = Im ( X ) . On s’intéresse à l’estimateur des moindres carrés défini par
β ˆ = arg min
h∈Rp
k Y − Xh k
2Montrer que la matrice X
TX est inversible et en déduire ˆ β.
La matrice X
TX est clairement symétrique. De plus pour tout h, h
TX
TXh = k Xh k
2≥ 0.
De plus, comme X est de taille n × d et de rang p, elle est injective, donc Xh = 0 = ⇒ h = 0
Rp.
On note G ( h ) = k Y − Xh k
2.
∇ G ( h ) = − 2X
T( Y − Xh ) et ∇
2G ( h ) = X
TX.
Comme X
TX est positive, la fonction est fortement convexe et si le gradient admet un 0, c’est donc l’unique minimiseur. On résout donc
∇ G ( h ) = 0 ⇔ X
TY − − X
TXh = 0 ⇔ h = X
TX
−1X
TY On obtient donc ˆ β = X
TX
−1X
TY qui est l’unique minimiseur des moindres carrés.
3. Montrer que P
D= X X
TX
−1X
Test le projecteur orthogonale sur D parallèlement à D
⊥. P
Dest clairement symétrique et
P
D2= X
X
TX
−1X
TX
X
TX
−1X
T= X
X
TX
−1X
TX X
TX
−1X
T= P
D. De plus pour tout h
0∈ D, il existe h ∈ R
ptel que h
0= Xh. On a donc
P
D( h
0) = P
D( Xh ) = X
X
TX
−1X
TXh = X
X
TX
−1( X
TX ) h = Xh = h
0Pour tout h
0∈ D
⊥⇔ ∀ h ∈ R
p, ( Xh )
Th
0= 0. De plus, pour tout h ∈ R
pet h
0∈ D
⊥, on a P
D( h
0)
Th = h
0|{z}
∈D⊥
P
DTh
|{z}
=PD(h)∈D
= 0
et donc P
D( h
0) = 0.
4. Que pouvez vous en déduire sur X β ˆ ? On a
X β ˆ = X
X
TX
−1X
TY = P
DY et X β ˆ est donc la projection orthogonale de Y sur D.
5. Donner la loi de X β ˆ et en déduire celle de ˆ β.
Comme Y ∼ N β, σ
2I
p, on obtient
X β ˆ ∼ N P
DXβ, σ
2P
DI
pP
DTComme Xβ ∈ D et P
Dest une projection orthogonale, on obtient
X β ˆ ∼ N Xβ, σ
2P
DEn multipliant par X
T, on obtient
X
TX β ˆ ∼ N X
TXβ, σ
2X
TP
DX et comme X
TX est inversible, et en remarquant que X
TX
−1X
TP
DX = X
TX
−1, β ˆ ∼ N
β, σ
2X
TX
−1.
6. On suppose σ
2connu. Soit x
0∈ R
p\{ 0 } , donner un intervalle de confiance de niveau au moins 1 − α de x
0Tβ.
On a
x
0Tβ ˆ ∼ N
x
T0β, σ
2x
T0X
TX
−1x
0. En remarquant que x
T0X
TX
−1x
0∈ R
∗+, on obtient (en centrant et réduisant) x
0Tβ ˆ − x
T0β
σ q
x
T0( X
TX )
−1x
0∼ N ( 0, 1 ) .
On a donc 1 − α = P
− q
1−α≤ x
T0
β ˆ − x
0Tβ σ
q
x
T0( X
TX )
−1x
0≤ q
1−α
= P
x
0Tβ ∈ x
T0β ˆ ± q
1−ασ q
x
0T( X
TX )
−1x
0.
7. On suppose maintenant que σ
2est inconnu et on considère l’estimateur ˆ
σ
2= 1 n − p
Y − X β ˆ
2
(a) Expliquer ce choix d’estimateur.
Comme σ
2est la variance des e
i(et en particulier le moment d’ordre 2), un estimateur naturel aurait été
˜ σ
2= 1
n
∑
n i=1e
2i= 1 n
∑
n i=1( Y
i− Xβ )
2= 1
n k Y − Xβ k
2.
Cependant, comme β est inconnu, on le remplace par son estimateur. Le remplaçement de n par n − p permet (a priori) d’obtenir un estimateur sans biais de σ
2.
(b) Exprimer ˆ σ
2à l’aide de projections.
On a 1
n − p σ ˆ
2= 1 n − p
Y − X β ˆ
2
= 1
n − p k Y − P
DY k
2= 1
n − p k P
D⊥Y k
2(c) Enoncer le théorème de Cochran dans ce cas. On a R
p= D ⊕ D
⊥. Ainsi, X β ˆ = P
D( Y ) et P
D⊥( Y ) sont indépendants et comme Xβ ∈ D,
1
σ
2k P
D⊥Y − P
D⊥Xβ k
2= n − p
σ
2σ ˆ
2∼ χ
2n−pet en particulier, ˆ β et ˆ σ
2sont indépendants. De plus, on a
1 σ
2Xβ − X β ˆ
2
∼ χ
2pet est également indépendants de ˆ σ
2.
(d) En déduire un intervalle de confiance pour x
T0β.
Grâce à la question précédente, on a
x
0Tβ ˆ − x
T0β ˆ
σ q
x
T0( X
TX )
−1x
0∼ T
n−p.
On a donc 1 − α = P
− t
n−p,1−α≤ x
0T
β ˆ − x
T0β ˆ
σ q
x
T0( X
TX )
−1x
0≤ t
n−p,1−α
= P
x
0Tβ ∈ x
T0β ˆ ± t
n−p,1−ασ ˆ q
x
T0( X
TX )
−1x
0.
(e) En déduire un test de niveau α pour tout tester β
j= β
j,0.
En notant e
j= ( 0, . . . , 1, 0, . . . , 0 )
T, on a β
j= e
Tjβ. On a donc l’intervalle de confiance IC
1−αβ
j=
x
T0β ˆ ± t
n−p,1−ασ ˆ
X
TX
−1[ j, j ]
où X
TX
−1[ j, j ] est la j, j-ème coordonnée de X
TX
−1. On rejette donc le test si β
j,0n’est pas dans l’intervalle de confiance.
(f) Construire un intervalle de confiance pour σ.
Comme
n − p
σ
2σ ˆ
2∼ χ
2n−pen notant k
α/2et k
1−α/2les quantiles d’ordre α/2 et 1 − α/2, on obtient l’intervalle IC
1−ασ
2=
( n − p ) σ ˆ
2k
1−α/2; ( n − p ) σ ˆ
2k
α/2(g) Construire un test di niveau α pour tester β = β
0. D’après la question c), on a
1 σ
2Xβ − X β ˆ
2
∼ χ
2pet n − p
σ
2σ ˆ
2∼ χ
2n−pet ces deux variables sont indépendantes. On a donc
Xβ − X β ˆ
2
σ ˆ
2∼ F ( p, n − p ) . On cherche donc c
αtel que
P
"
Xβ − X β ˆ
2