Sorbonne Université Année 2020/2021
L3 Deuxième semestre
Correction de la feuille de TD 4 : Théorème de Cochran et modèle linéaire
Exercice : Le principe de la régression linéaire est de modéliser une variable y à partir de variables explicatives x = x
1, . . . , x
pT, i.e de considérer y = β
1x
1+ . . . + β
px
p, où β = x
1, . . . , x
pest inconnu. En pratique, on dispose d’un échantillon ( x
1, y
1) , . . . , ( x
n, y
n) , mais on obtient jamais réellement une droite (erreurs de mesures...). On va donc considérer le modèle linéaire
y = β
1x
1+ . . . + β
px
p+ e avec e ∼ N 0, σ
2. On parle alors de modèle linéaire gaussien. On suppose maintenant que les données suivent le modèle suivant :
Y
i= β
1x
i,1+ . . . + β
px
i,p+ e
i, avec
— Y
iest une variable aléatoire et on observe les réalisations y
i.
— Les x
i= x
i,1, . . . , x
i,pTsont déterministes.
— Le paramètre β = β
1, . . . , β
pTest inconnu et déterministe.
— Les e
isont i.i.d et e
1∼ N 0, σ
2.
1. Vérifier que le modèle peut s’écrire comme
Y = Xβ + e,
avec Y = ( Y
1, . . . , Y
n)
T, e = ( e
1, . . . , e
n)
Tet
X =
x
1,1. . . x
1,p.. . .. . .. . x
n,1.. . x
n,p
Pour tout i, on a bien
Y [ i ] = x
i,1, . . . , x
i,pTβ + e
i= x
i,1β
1+ . . . + x
i,pβ
p+ e
i= Y
i.
2. Donner la loi de e et en déduire la loi de Y. Quelle est la loi de Y
i? On a e ∼ N 0, σ
2I
pet donc
Y ∼ N Xβ, σ
2I
pet en particulier Y
i∼ N ( Xβ )[ i ] , σ
2.
On considère à partir de maintenant que rang ( X ) = p, et on note D = Im ( X ) . On s’intéresse à l’estimateur des moindres carrés défini par
β ˆ = arg min
h∈Rp
k Y − Xh k
23. Montrer que la matrice X
TX est symétrique et définie positive. On rappellera qu’une matrice p × p M symétrique est définie positive si pour tout h ∈ R
p\{ 0 } ,
h
TMh > 0 Elle est clairement symétrique. De plus pour tout h,
h
TX
TXh = k Xh k
2≥ 0.
De plus, comme X est de taille n × d et de rang p, elle est injective, donc Xh = 0 = ⇒ h = 0
Rp.
4. On note G ( h ) = k Y − Xh k
2. Calculer le gradient et la Hessienne de G et en déduire ˆ β.
On a pour tout h,
∇ G ( h ) = − 2X
T( Y − Xh ) et ∇
2G ( h ) = X
TX.
Comme X
TX est positive, la fonction est fortement convexe et si le gradient admet un 0, c’est donc l’unique minimiseur. A noter que comme X
TX est symétrique positive, elle est inversible et d’inverse symétrique. On résout donc
∇ G ( h ) = 0 ⇔ X
TY − − X
TXh = 0 ⇔ h = X
TX
−1X
TY On obtient donc ˆ β = X
TX
−1X
TY qui est l’unique minimiseur des moindres carrés.
5. Soit R
d= E ⊗
⊥F. Soit P une matrice p × p. On rappelle que P est le projecteur orthogonale sur E (parallèlement à F) si
— P est symétrique.
— P
2= P.
— Pour tout h ∈ E, P ( h ) = h.
— Pour tout h ∈ F, P ( h ) = 0.
Montrer que P
D= X X
TX
−1X
Test le projecteur orthogonale sur D parallèlement à D
⊥. P
Dest clairement symétrique et
P
D2= X X
TX
−1X
TX X
TX
−1X
T= X X
TX
−1X
TX X
TX
−1X
T= P
D. De plus pour tout h
0∈ D, il existe h ∈ R
ptel que h
0= Xh. On a donc
P
D( h
0) = P
D( Xh ) = X
X
TX
−1X
TXh = X
X
TX
−1( X
TX ) h = Xh = h
0Pour tout h
0∈ D
⊥⇔ ∀ h ∈ R
p, ( Xh )
Th
0= 0. De plus, pour tout h ∈ R
pet h
0∈ D
⊥, on a P
D( h
0)
Th = h
0|{z}
∈D⊥
P
DTh
|{z}
=PD(h)∈D
= 0
et donc P
D( h
0) = 0.
6. Que pouvez vous en déduire sur X β ˆ ? On a
X β ˆ = X
X
TX
−1X
TY = P
DY et X β ˆ est donc la projection orthogonale de Y sur D.
7. Donner la loi de X β ˆ et en déduire celle de ˆ β.
Comme Y ∼ N β, σ
2I
p, on obtient
X β ˆ ∼ N P
DXβ, σ
2P
DI
pP
DTComme Xβ ∈ D et P
Dest une projection orthogonale, on obtient
X β ˆ ∼ N Xβ, σ
2P
DEn multipliant par X
T, on obtient
X
TX β ˆ ∼ N X
TXβ, σ
2X
TP
DX et comme X
TX est inversible, et en remarquant que X
TX
−1X
TP
DX = X
TX
−1, β ˆ ∼ N
β, σ
2X
TX
−1.
8. On suppose σ
2connu. Soit x
0∈ R
p\{ 0 } , donner un intervalle de confiance de niveau au moins 1 − α de x
0Tβ. Que se passe-t-il si σ
2est inconnu ?
On a
x
0Tβ ˆ ∼ N
x
T0β, σ
2x
T0X
TX
−1x
0.
En remarquant que x
T0X
TX
−1x
0∈ R
∗+, on obtient (en centrant et réduisant) x
0Tβ ˆ − x
T0β
σ q
x
T0( X
TX )
−1x
0∼ N ( 0, 1 ) .
On a donc 1 − α = P
− q
1−α≤ x
T0
β ˆ − x
0Tβ σ
q
x
T0( X
TX )
−1x
0≤ q
1−α
= P
x
0Tβ ∈ x
T0β ˆ ± q
1−ασ q
x
0T( X
TX )
−1x
0.
Si σ
2est inconnu, pour le moment on est mort.
9. On suppose maintenant que σ
2est inconnu et on considère l’estimateur ˆ
σ
2= 1 n − p
Y − X β ˆ
2
(a) Expliquer ce choix d’estimateur.
Comme σ
2est la variance des e
i(et en particulier le moment d’ordre 2), un estimateur naturel aurait été
˜ σ
2= 1
n
∑
n i=1e
2i= 1 n
∑
n i=1( Y
i− Xβ )
2= 1
n k Y − Xβ k
2.
Cependant, comme β est inconnu, on le remplace par son estimateur. Le remplaçement de n par n − p permet (a priori) d’obtenir un estimateur sans biais de σ
2.
(b) Exprimer ˆ σ
2à l’aide de projections.
On a 1
n − p σ ˆ
2= 1 n − p
Y − X β ˆ
2
= 1
n − p k Y − P
DY k
2= 1
n − p k P
D⊥Y k
2(c) Enoncer le théorème de Cochran dans ce cas. On a R
p= D ⊕ D
⊥. Ainsi, X β ˆ = P
D( Y ) et P
D⊥( Y ) sont indépendants et comme Xβ ∈ D,
1
σ
2k P
D⊥Y − P
D⊥Xβ k
2= n − p
σ
2σ
2∼ χ
2n−pet en particulier, ˆ β et ˆ σ
2sont indépendants.
(d) En déduire un intervalle de confiance pour x
T0β.
Grâce à la question précédente, on a
x
0Tβ ˆ − x
T0β ˆ
σ q
x
T0( X
TX )
−1x
0∼ T
n−p.
On a donc 1 − α = P
− t
n−p,1−α≤ x
0T