Correction de la feuille de TD 3 : Théorème de Cochran et modèle linéaire

(1)

Sorbonne Université Année 2019/2020

1ère année ISUP Deuxième semestre

Correction de la feuille de TD 3 : Théorème de Cochran et modèle linéaire

Exercice : Le principe de la régression linéaire est de modéliser une variable y à partir de variables explicatives x = x

₁

, . . . , x

_p

T

, i.e de considérer y = β

₁

x

₁

+ . . . + β

_p

x

_p

, où β = x

₁

, . . . , x

_p

est inconnu. En pratique, on dispose d’un échantillon ( x

1

, y

₁

) , . . . , ( x

n

, y

_n

) , mais on obtient jamais réellement une droite (erreurs de mesures...). On va donc considérer le modèle linéaire

y = β

₁

x

₁

+ _{. . .} + β

_p

x

_p

+ e avec e ∼ N 0, σ

²

. On parle alors de modèle linéaire gaussien. On suppose maintenant que les données suivent le modèle suivant :

Y

_i

= β

₁

x

_i,1

+ . . . + β

_p

x

_i,p

+ e

_i

, avec

— Y

_i

est une variable aléatoire et on observe les réalisations y

_i

.

— Les x

_i

= x

_i,1

, . . . , x

_i,p

T

sont déterministes.

— Le paramètre β = β

₁

, . . . , β

p

T

est inconnu et déterministe.

— Les e

_i

sont i.i.d et e

₁

∼ N 0, σ

²

. 1. Ecrire le modèle de manière matricielle.

Y = Xβ + e,

avec Y = ( Y

₁

, . . . , Y

n

)

^T

, e = ( e

₁

, . . . , e

n

)

^T

et

X =







x

_1,1

. . . x

_1,p

.. . .. . .. . x

_n,1

.. . x

_n,p







Pour tout i, on a bien

Y [ i ] = x

_i,1

, . . . , x

_i,p

T

β + e

_i

= x

_i,1

β

₁

+ . . . + x

_i,p

β

_p

+ e

_i

= Y

_i

.

(2)

2. Donner la loi du vecteur Y. Quelle est la loi de Y

_i

? On a e ∼ N 0, σ

²

I

p

et donc

Y ∼ N Xβ, σ

²

I

_p

et en particulier Y

_i

∼ N ( Xβ )[ i ] , σ

²

.

On considère à partir de maintenant que rang ( X ) = p, et on note D = Im ( X ) . On s’intéresse à l’estimateur des moindres carrés défini par

β ˆ = arg min

h∈_R^p

k Y − Xh k

²

Montrer que la matrice X

^T

X est inversible et en déduire ˆ β.

La matrice X

^T

X est clairement symétrique. De plus pour tout h, h

^T

X

^T

Xh = k Xh k

²

≥ 0.

De plus, comme X est de taille n × d et de rang p, elle est injective, donc Xh = 0 = ⇒ h = 0

_R^p

.

On note G ( h ) = k Y − Xh k

²

.

∇ G ( h ) = − 2X

^T

( Y − Xh ) et ∇

²

G ( h ) = X

^T

X. Comme X

^T

X est positive, la fonction est fortement convexe et si le gradient admet un 0, c’est donc l’unique minimiseur. On résout donc

∇ G ( h ) = 0 ⇔ X

^T

Y − − X

^T

Xh = 0 ⇔ h = X

^T

X

−1

X

^T

Y On obtient donc ˆ β = X

^T

X

−1

X

^T

Y qui est l’unique minimiseur des moindres carrés.

3. Montrer que P

_D

= X X

^T

X

−1

X

^T

est le projecteur orthogonale sur D parallèlement à D

^⊥

. P

_D

est clairement symétrique et

P

_D²

= X

X

^T

X

−1

X

^T

X

^T

X

−1

X

^T

= X

X

^T

X

−1

X

^T

X X

^T

X

−1

X

^T

= P

_D

. De plus pour tout h

⁰

∈ D, il existe h ∈ _R

^p

tel que h

⁰

= Xh. On a donc

P

D

( h

⁰

) = P

D

( Xh ) = X

X

^T

X

−1

X

^T

Xh = X

X

^T

X

−1

( X

^T

X ) h = Xh = h

⁰

(3)

Pour tout h

⁰

∈ D

^⊥

⇔ ∀ h ∈ _R

^p

, ( Xh )

^T

h

⁰

= 0. De plus, pour tout h ∈ _R

^p

et h

⁰

∈ D

^⊥

, on a P

D

( h

⁰

)

^T

h = h

⁰

|{z}

∈D^⊥

P

_D^T

h

|{z}

=PD(h)∈D

= 0

et donc P

_D

( h

⁰

) = 0.

4. Que pouvez vous en déduire sur X β ˆ ? On a

X β ˆ = X

X

^T

X

−1

X

^T

Y = P

_D

Y et X β ˆ est donc la projection orthogonale de Y sur D.

5. Donner la loi de X β ˆ et en déduire celle de ˆ β.

Comme Y ∼ N _β, σ

²

I

_p

, on obtient

X β ˆ ∼ N P

_D

Xβ, σ

²

P

_D

I

_p

P

_D^T

Comme Xβ ∈ D et P

D

est une projection orthogonale, on obtient

X β ˆ ∼ N Xβ, σ

²

P

_D

En multipliant par X

^T

, on obtient

X

^T

X β ˆ ∼ N X

^T

Xβ, σ

²

X

^T

P

_D

X et comme X

^T

X est inversible, et en remarquant que X

^T

X

−1

X

^T

P

_D

X = X

^T

X

−1

, β ˆ ∼ N

β, σ

²

X

^T

X

−1

.

6. On suppose σ

²

connu. Soit x

₀

∈ _R

^p

\{ ₀ } , donner un intervalle de confiance de niveau au moins 1 − α de x

₀^T

β.

On a

x

₀^T

β ˆ ∼ N

x

^T₀

β, σ

²

x

^T₀

X

^T

X

−1

x

₀

. En remarquant que x

^T₀

X

^T

X

−1

x

₀

∈ _R

^∗₊

, on obtient (en centrant et réduisant) x

₀^T

β ˆ − x

^T₀

β

σ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

∼ N ( 0, 1 ) .

(4)

On a donc 1 − α = _P



 − q

₁₋_α

≤ ^x

T0

β ˆ − x

₀^T

β σ

q

x

^T₀

( X

^T

X )

⁻¹

x

₀

≤ q

₁₋_α



 = _P

x

₀^T

β ∈ x

^T₀

β ˆ ± q

₁₋_α

σ q

x

₀^T

( X

^T

X )

⁻¹

x

₀

.

7. On suppose maintenant que σ

²

est inconnu et on considère l’estimateur ˆ

σ

²

= ¹ n − p

Y − X β ˆ

2

(a) Expliquer ce choix d’estimateur.

Comme σ

²

est la variance des e

_i

(et en particulier le moment d’ordre 2), un estimateur naturel aurait été

˜ σ

²

= ¹

n

∑

n i=1

e

²_i

= ¹ n

∑

n i=1

( Y

_i

− Xβ )

²

= ¹

n k Y − Xβ k

²

.

Cependant, comme β est inconnu, on le remplace par son estimateur. Le remplaçement de n par n − p permet (a priori) d’obtenir un estimateur sans biais de σ

²

.

(b) Exprimer ˆ σ

²

à l’aide de projections.

On a 1

n − p σ ˆ

²

= ¹ n − p

Y − X β ˆ

2

= ¹

n − p k Y − P

_D

Y k

²

= ¹

n − p k P

_D⊥

Y k

²

(c) Enoncer le théorème de Cochran dans ce cas. On a R

^p

= D ⊕ D

^⊥

. Ainsi, X β ˆ = P

_D

( Y ) _et P

_D⊥

( Y ) sont indépendants et comme Xβ ∈ D,

1 σ

²

k P

_D^⊥

Y − P

_D^⊥

Xβ k

²

= ⁿ − p

σ

²

σ ˆ

²

∼ χ

²_n₋_p

et en particulier, ˆ β et ˆ σ

²

sont indépendants. De plus, on a

1 σ

²

Xβ − X β ˆ

2

∼ χ

²_p

et est également indépendants de ˆ σ

²

.

(d) En déduire un intervalle de confiance pour x

^T₀

β.

Grâce à la question précédente, on a

x

₀^T

β ˆ − x

^T₀

β ˆ

σ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

∼ T

_n−p

.

(5)

On a donc 1 − α = _P



 − t

_n₋_p,1₋_α

≤ ^x

0T

β ˆ − x

^T₀

β ˆ

σ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

≤ t

_n₋_p,1₋_α



 = _P

x

₀^T

β ∈ x

^T₀

β ˆ ± t

_n₋_p,1₋_α

σ ˆ q

x

^T₀

( X

^T

X )

⁻¹

x

₀

.

(e) En déduire un test de niveau α pour tout tester β

_j

= β

_j,0

.

En notant e

_j

= ( 0, . . . , 1, 0, . . . , 0 )

^T

, on a β

_j

= e

^T_j

β. On a donc l’intervalle de confiance IC

₁₋_α

β

_j

=

x

^T₀

β ˆ ± t

_n₋_p,1₋_α

σ ˆ

X

^T

X

−1

[ j, j ]

où X

^T

X

−1

[ j, j ] est la j, j-ème coordonnée de X

^T

X

−1

. On rejette donc le test si β

_j,0

n’est pas dans l’intervalle de confiance.

(f) Construire un intervalle de confiance pour σ.

Comme

n − p

σ

²

σ ˆ

²

∼ χ

²_n₋_p

en notant k

_α/2

et k

₁−α/2

les quantiles d’ordre α/2 et 1 − α/2, on obtient l’intervalle IC

₁−α

σ

²

=

( n − p ) σ ˆ

²

k

₁₋_α/2

; ( n − p ) σ ˆ

²

k

_α/2

(g) Construire un test di niveau α pour tester β = β

₀

. D’après la question c), on a

1 σ

²

Xβ − X β ˆ

2

∼ χ

²_p

et n − p

σ

²

σ ˆ

²

∼ χ

²_n₋_p

et ces deux variables sont indépendantes. On a donc

Xβ − X β ˆ

2

σ ˆ

²

∼ F ( p, n − p ) . On cherche donc c

_α

tel que

P

"

Xβ − X β ˆ

2

ˆ

σ

²

≥ c

α

#

= α ⇔ _P [F ( p, n − p ) ≥ c

α

] ⇔ c

α

= f

_p,n−p,1−α

où f

_p,n₋_p,1₋_α

est le quantile d’ordre 1 − α d’une loi de Fisher de paramètre p, n − p.

8. On considère maintenant une n + 1-ème donnée x

_n+1

et on souhaite prédire Y

_n+1

. (a) Proposer un prédicteur ˆ Y

_n+1

. On considère ˆ Y

_n+1

= x

_n^T₊₁

β. ˆ

(b) Donner sa loi.

(6)

On a

x

_n^T₊₁

β ˆ ∼ N

x

_n^T₊₁

β, σ

²

x

^T_n₊₁

X

^T

X

−1

x

_n+1

. (c) Donner la loi de l’erreur de prédiction ˆ e

_n+1

= Y

_n+1

− Y ^ˆ

_n+1

.

On a

Y

_n+1

− Y ^ˆ

_n+1

= x

_n^T₊₁

β − x

_n+1

β ˆ + e

_n+1

∼ N

0, σ

²

x

_n^T₊₁

X

^T

X

−1

x

_n+1

+ σ

²

(d) En déduire un intervalle de prédiction.

D’après la question précédente, et comme ˆ σ

²

et ˆ β sont indépendants, on a Y

_n+1

− Y ^ˆ

_n+1

σ ˆ q

x

^T_n₊₁

( X

^T

X )

⁻¹

x

_n+1

+ 1

∼ T

_n−p

.

On obtient donc l’intervalle de prédiction IP

₁−α

( Y

_n+1

) =

Y ˆ

_n+1

± t

_n−p,1−α/2

σ ˆ q

x

^T_n₊₁

( X

^T

X )

⁻¹

x

_n+1

+ 1