Correction de la feuille de TD 4 : Théorème de Cochran et modèle linéaire

(1)

Sorbonne Université Année 2020/2021

L3 Deuxième semestre

Correction de la feuille de TD 4 : Théorème de Cochran et modèle linéaire

Exercice : Le principe de la régression linéaire est de modéliser une variable y à partir de variables explicatives x = x

₁

, . . . , x

_p

T

, i.e de considérer y = β

₁

x

₁

+ . . . + β

_p

x

_p

, où β = x

₁

, . . . , x

_p

est inconnu. En pratique, on dispose d’un échantillon ( x

1

, y

₁

) , . . . , ( x

n

, y

_n

) , mais on obtient jamais réellement une droite (erreurs de mesures...). On va donc considérer le modèle linéaire

y = β

₁

x

₁

+ _{. . .} + β

_p

x

_p

+ e avec e ∼ N 0, σ

²

. On parle alors de modèle linéaire gaussien. On suppose maintenant que les données suivent le modèle suivant :

Y

_i

= β

₁

x

_i,1

+ . . . + β

_p

x

_i,p

+ e

_i

, avec

— Y

_i

est une variable aléatoire et on observe les réalisations y

_i

.

— Les x

_i

= x

_i,1

, . . . , x

_i,p

T

sont déterministes.

— Le paramètre β = β

₁

, . . . , β

p

T

est inconnu et déterministe.

— Les e

_i

sont i.i.d et e

₁

∼ N 0, σ

²

.

1. Vérifier que le modèle peut s’écrire comme

Y = Xβ + e,

avec Y = ( Y

₁

, . . . , Y

n

)

^T

, e = ( e

₁

, . . . , e

n

)

^T

et

X =







x

_1,1

. . . x

_1,p

.. . .. . .. . x

_n,1

.. . x

_n,p







Pour tout i, on a bien

Y [ i ] = x

_i,1

, . . . , x

_i,p

T

β + e

_i

= x

_i,1

β

₁

+ . . . + x

_i,p

β

_p

+ e

_i

= Y

_i

.

(2)

2. Donner la loi de e et en déduire la loi de Y. Quelle est la loi de Y

_i

? On a e ∼ N 0, σ

²

I

_p

et donc

Y ∼ N Xβ, σ

²

I

_p

et en particulier Y

_i

∼ N ( Xβ )[ i ] , σ

²

.

On considère à partir de maintenant que rang ( X ) = p, et on note D = Im ( X ) . On s’intéresse à l’estimateur des moindres carrés défini par

β ˆ = arg min

h∈_R^p

k Y − Xh k

²

3. Montrer que la matrice X

^T

X est symétrique et définie positive. On rappellera qu’une matrice p × p M symétrique est définie positive si pour tout h ∈ _R

^p

\{ 0 } ,

h

^T

Mh > ₀ Elle est clairement symétrique. De plus pour tout h,

h

^T

X

^T

Xh = k Xh k

²

≥ 0.

De plus, comme X est de taille n × d et de rang p, elle est injective, donc Xh = 0 = ⇒ h = 0

_R^p

.

4. On note G ( h ) = k Y − Xh k

²

. Calculer le gradient et la Hessienne de G et en déduire ˆ β.

On a pour tout h,

∇ G ( h ) = − 2X

^T

( Y − Xh ) et ∇

²

G ( h ) = X

^T

X. Comme X

^T

X est positive, la fonction est fortement convexe et si le gradient admet un 0, c’est donc l’unique minimiseur. A noter que comme X

^T

X est symétrique positive, elle est inversible et d’inverse symétrique. On résout donc

∇ G ( h ) = 0 ⇔ X

^T

Y − − X

^T

Xh = 0 ⇔ h = X

^T

X

−1

X

^T

Y On obtient donc ˆ β = X

^T

X

−1

X

^T

Y qui est l’unique minimiseur des moindres carrés.

5. Soit R

^d

= E ⊗

_⊥

F. Soit P une matrice p × p. On rappelle que P est le projecteur orthogonale sur E (parallèlement à F) si

— P est symétrique.

— P

²

= P.

— Pour tout h ∈ E, P ( h ) = h.

— Pour tout h ∈ F, P ( h ) = 0.

(3)

Montrer que P

D

= X X

^T

X

−1

X

^T

est le projecteur orthogonale sur D parallèlement à D

^⊥

. P

_D

est clairement symétrique et

P

_D²

= _X _X

^T

_X

⁻¹

_X

^T

_X _X

^T

_X

⁻¹

_X

^T

= _X _X

^T

_X

⁻¹

_X

^T

_X _X

^T

_X

⁻¹

_X

^T

= _P

_D

_. De plus pour tout h

⁰

∈ D, il existe h ∈ _R

^p

tel que h

⁰

= Xh. On a donc

P

_D

( h

⁰

) = P

_D

( Xh ) = X

X

^T

X

−1

X

^T

Xh = X

X

^T

X

−1

( X

^T

X ) h = Xh = h

⁰

Pour tout h

⁰

∈ D

^⊥

⇔ ∀ h ∈ _R

^p

, ( Xh )

^T

h

⁰

= 0. De plus, pour tout h ∈ _R

^p

et h

⁰

∈ D

^⊥

, on a P

_D

( h

⁰

)

^T

h = h

⁰

|{z}

∈D^⊥

P

_D^T

h

|{z}

=P_D(h)∈D

= 0

et donc P

_D

( h

⁰

) = 0.

6. Que pouvez vous en déduire sur X β ˆ ? On a

X β ˆ = X

X

^T

X

−1

X

^T

Y = P

_D

Y et X β ˆ est donc la projection orthogonale de Y sur D.

7. Donner la loi de X β ˆ et en déduire celle de ˆ β.

Comme Y ∼ N _β, σ

²

I

_p

, on obtient

X β ˆ ∼ N P

_D

Xβ, σ

²

P

_D

I

_p

P

_D^T

Comme Xβ ∈ D et P

D

est une projection orthogonale, on obtient

X β ˆ ∼ N Xβ, σ

²

P

_D

En multipliant par X

^T

, on obtient

X

^T

X β ˆ ∼ N X

^T

Xβ, σ

²

X

^T

P

_D

X et comme X

^T

X est inversible, et en remarquant que X

^T

X

−1

X

^T

P

_D

X = X

^T

X

−1

, β ˆ ∼ N

β, σ

²

X

^T

X

−1

.

8. On suppose σ

²

connu. Soit x

₀

∈ _R

^p

\{ 0 } , donner un intervalle de confiance de niveau au moins 1 − α de x

₀^T

β. Que se passe-t-il si σ

²

est inconnu ?

On a

x

₀^T

β ˆ ∼ N

x

^T₀

β, σ

²

x

^T₀

X

^T

X

−1

x

₀

.

(4)

En remarquant que x

^T₀

X

^T

X

−1

x

0

∈ _R

^∗₊

, on obtient (en centrant et réduisant) x

₀^T

β ˆ − x

^T₀

β

σ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

∼ N ( 0, 1 ) .

On a donc 1 − α = _P



 − q

₁−α

≤ ^x

T0

β ˆ − x

₀^T

β σ

q

x

^T₀

( X

^T

X )

⁻¹

x

₀

≤ q

₁−α



 = _P

x

₀^T

β ∈ x

^T₀

β ˆ ± q

₁−α

σ q

x

₀^T

( X

^T

X )

⁻¹

x

₀

.

Si σ

²

est inconnu, pour le moment on est mort.

9. On suppose maintenant que σ

²

est inconnu et on considère l’estimateur ˆ

σ

²

= ¹ n − p

Y − X β ˆ

2

(a) Expliquer ce choix d’estimateur.

Comme σ

²

est la variance des e

_i

(et en particulier le moment d’ordre 2), un estimateur naturel aurait été

˜ σ

²

= ¹

n

∑

n i=1

e

²_i

= ¹ n

∑

n i=1

( Y

_i

− Xβ )

²

= ¹

n k Y − Xβ k

²

.

Cependant, comme β est inconnu, on le remplace par son estimateur. Le remplaçement de n par n − p permet (a priori) d’obtenir un estimateur sans biais de σ

²

.

(b) Exprimer ˆ σ

²

à l’aide de projections.

On a 1

n − p σ ˆ

²

= ¹ n − p

Y − X β ˆ

2

= ¹

n − p k Y − P

_D

Y k

²

= ¹

n − p k P

_D^⊥

Y k

²

(c) Enoncer le théorème de Cochran dans ce cas. On a R

^p

= D ⊕ D

^⊥

. Ainsi, X β ˆ = P

_D

( Y ) et P

_D⊥

( Y ) sont indépendants et comme Xβ ∈ D,

1 σ

²

k P

_D⊥

Y − P

_D⊥

Xβ k

²

= ⁿ − p

σ

²

σ

²

∼ χ

²_n₋_p

et en particulier, ˆ β et ˆ σ

²

sont indépendants.

(d) En déduire un intervalle de confiance pour x

^T₀

β.

Grâce à la question précédente, on a

x

₀^T

β ˆ − x

^T₀

β ˆ

σ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

∼ T

_n−p

.

(5)

On a donc 1 − α = _P



 − t

_n₋_p,1₋_α

≤ ^x

0T

β ˆ − x

^T₀

β ˆ

σ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

≤ t

_n₋_p,1₋_α



 = _P

x

₀^T

β ∈ x

^T₀

β ˆ ± t

_n₋_p,1₋_α

σ ˆ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

.