• Aucun résultat trouvé

Correction de la feuille de TD 4 : Théorème de Cochran et modèle linéaire

N/A
N/A
Protected

Academic year: 2022

Partager "Correction de la feuille de TD 4 : Théorème de Cochran et modèle linéaire"

Copied!
5
0
0

Texte intégral

(1)

Sorbonne Université Année 2020/2021

L3 Deuxième semestre

Correction de la feuille de TD 4 : Théorème de Cochran et modèle linéaire

Exercice : Le principe de la régression linéaire est de modéliser une variable y à partir de variables explicatives x = x

1

, . . . , x

p

T

, i.e de considérer y = β

1

x

1

+ . . . + β

p

x

p

, où β = x

1

, . . . , x

p

est inconnu. En pratique, on dispose d’un échantillon ( x

1

, y

1

) , . . . , ( x

n

, y

n

) , mais on obtient jamais réellement une droite (erreurs de mesures...). On va donc considérer le modèle linéaire

y = β

1

x

1

+ . . . + β

p

x

p

+ e avec e ∼ N 0, σ

2

. On parle alors de modèle linéaire gaussien. On suppose maintenant que les données suivent le modèle suivant :

Y

i

= β

1

x

i,1

+ . . . + β

p

x

i,p

+ e

i

, avec

— Y

i

est une variable aléatoire et on observe les réalisations y

i

.

— Les x

i

= x

i,1

, . . . , x

i,p

T

sont déterministes.

— Le paramètre β = β

1

, . . . , β

p

T

est inconnu et déterministe.

— Les e

i

sont i.i.d et e

1

∼ N 0, σ

2

.

1. Vérifier que le modèle peut s’écrire comme

Y = Xβ + e,

avec Y = ( Y

1

, . . . , Y

n

)

T

, e = ( e

1

, . . . , e

n

)

T

et

X =

x

1,1

. . . x

1,p

.. . .. . .. . x

n,1

.. . x

n,p

Pour tout i, on a bien

Y [ i ] = x

i,1

, . . . , x

i,p

T

β + e

i

= x

i,1

β

1

+ . . . + x

i,p

β

p

+ e

i

= Y

i

.

(2)

2. Donner la loi de e et en déduire la loi de Y. Quelle est la loi de Y

i

? On a e ∼ N 0, σ

2

I

p

et donc

Y ∼ N Xβ, σ

2

I

p

et en particulier Y

i

∼ N ( Xβ )[ i ] , σ

2

.

On considère à partir de maintenant que rang ( X ) = p, et on note D = Im ( X ) . On s’intéresse à l’estimateur des moindres carrés défini par

β ˆ = arg min

h∈Rp

k Y − Xh k

2

3. Montrer que la matrice X

T

X est symétrique et définie positive. On rappellera qu’une matrice p × p M symétrique est définie positive si pour tout h ∈ R

p

\{ 0 } ,

h

T

Mh > 0 Elle est clairement symétrique. De plus pour tout h,

h

T

X

T

Xh = k Xh k

2

≥ 0.

De plus, comme X est de taille n × d et de rang p, elle est injective, donc Xh = 0 = ⇒ h = 0

Rp

.

4. On note G ( h ) = k Y − Xh k

2

. Calculer le gradient et la Hessienne de G et en déduire ˆ β.

On a pour tout h,

∇ G ( h ) = − 2X

T

( Y − Xh ) et ∇

2

G ( h ) = X

T

X.

Comme X

T

X est positive, la fonction est fortement convexe et si le gradient admet un 0, c’est donc l’unique minimiseur. A noter que comme X

T

X est symétrique positive, elle est inversible et d’inverse symétrique. On résout donc

∇ G ( h ) = 0 ⇔ X

T

Y − − X

T

Xh = 0 ⇔ h = X

T

X

−1

X

T

Y On obtient donc ˆ β = X

T

X

−1

X

T

Y qui est l’unique minimiseur des moindres carrés.

5. Soit R

d

= E ⊗

F. Soit P une matrice p × p. On rappelle que P est le projecteur orthogonale sur E (parallèlement à F) si

— P est symétrique.

— P

2

= P.

— Pour tout h ∈ E, P ( h ) = h.

— Pour tout h ∈ F, P ( h ) = 0.

(3)

Montrer que P

D

= X X

T

X

−1

X

T

est le projecteur orthogonale sur D parallèlement à D

. P

D

est clairement symétrique et

P

D2

= X X

T

X

1

X

T

X X

T

X

1

X

T

= X X

T

X

1

X

T

X X

T

X

1

X

T

= P

D

. De plus pour tout h

0

∈ D, il existe h ∈ R

p

tel que h

0

= Xh. On a donc

P

D

( h

0

) = P

D

( Xh ) = X

X

T

X

−1

X

T

Xh = X

X

T

X

−1

( X

T

X ) h = Xh = h

0

Pour tout h

0

∈ D

⇔ ∀ h ∈ R

p

, ( Xh )

T

h

0

= 0. De plus, pour tout h ∈ R

p

et h

0

∈ D

, on a P

D

( h

0

)

T

h = h

0

|{z}

∈D

P

DT

h

|{z}

=PD(h)∈D

= 0

et donc P

D

( h

0

) = 0.

6. Que pouvez vous en déduire sur X β ˆ ? On a

X β ˆ = X

X

T

X

−1

X

T

Y = P

D

Y et X β ˆ est donc la projection orthogonale de Y sur D.

7. Donner la loi de X β ˆ et en déduire celle de ˆ β.

Comme Y ∼ N β, σ

2

I

p

, on obtient

X β ˆ ∼ N P

D

Xβ, σ

2

P

D

I

p

P

DT

Comme Xβ ∈ D et P

D

est une projection orthogonale, on obtient

X β ˆ ∼ N Xβ, σ

2

P

D

En multipliant par X

T

, on obtient

X

T

X β ˆ ∼ N X

T

Xβ, σ

2

X

T

P

D

X et comme X

T

X est inversible, et en remarquant que X

T

X

−1

X

T

P

D

X = X

T

X

−1

, β ˆ ∼ N

β, σ

2

X

T

X

−1

.

8. On suppose σ

2

connu. Soit x

0

R

p

\{ 0 } , donner un intervalle de confiance de niveau au moins 1 − α de x

0T

β. Que se passe-t-il si σ

2

est inconnu ?

On a

x

0T

β ˆ ∼ N

x

T0

β, σ

2

x

T0

X

T

X

−1

x

0

.

(4)

En remarquant que x

T0

X

T

X

−1

x

0

R

+

, on obtient (en centrant et réduisant) x

0T

β ˆ − x

T0

β

σ q

x

T0

( X

T

X )

1

x

0

∼ N ( 0, 1 ) .

On a donc 1 − α = P

 − q

1α

x

T0

β ˆ − x

0T

β σ

q

x

T0

( X

T

X )

1

x

0

≤ q

1α

 = P

x

0T

β ∈ x

T0

β ˆ ± q

1α

σ q

x

0T

( X

T

X )

1

x

0

.

Si σ

2

est inconnu, pour le moment on est mort.

9. On suppose maintenant que σ

2

est inconnu et on considère l’estimateur ˆ

σ

2

= 1 n − p

Y − X β ˆ

2

(a) Expliquer ce choix d’estimateur.

Comme σ

2

est la variance des e

i

(et en particulier le moment d’ordre 2), un estimateur naturel aurait été

˜ σ

2

= 1

n

n i=1

e

2i

= 1 n

n i=1

( Y

i

− Xβ )

2

= 1

n k Y − Xβ k

2

.

Cependant, comme β est inconnu, on le remplace par son estimateur. Le remplaçement de n par n − p permet (a priori) d’obtenir un estimateur sans biais de σ

2

.

(b) Exprimer ˆ σ

2

à l’aide de projections.

On a 1

n − p σ ˆ

2

= 1 n − p

Y − X β ˆ

2

= 1

n − p k Y − P

D

Y k

2

= 1

n − p k P

D

Y k

2

(c) Enoncer le théorème de Cochran dans ce cas. On a R

p

= D ⊕ D

. Ainsi, X β ˆ = P

D

( Y ) et P

D

( Y ) sont indépendants et comme Xβ ∈ D,

1

σ

2

k P

D

Y − P

D

Xβ k

2

= n − p

σ

2

σ

2

χ

2np

et en particulier, ˆ β et ˆ σ

2

sont indépendants.

(d) En déduire un intervalle de confiance pour x

T0

β.

Grâce à la question précédente, on a

x

0T

β ˆ − x

T0

β ˆ

σ q

x

T0

( X

T

X )

1

x

0

∼ T

n−p

.

(5)

On a donc 1 − α = P

 − t

np,1α

x

0T

β ˆ − x

T0

β ˆ

σ q

x

T0

( X

T

X )

1

x

0

≤ t

np,1α

 = P

x

0T

β ∈ x

T0

β ˆ ± t

np,1α

σ ˆ q

x

T0

( X

T

X )

1

x

0

.

Références

Documents relatifs

Estimer, à l’aide de l’équation de cette droite d’ajustement linéaire, le nombre de mariages entre personnes de sexes différents en France

Chaque année, on considère que la population augmente du même nombre, donc on a faire à un modèle

Elles décrivent quatre grands thèmes : la démographie, l’emploi, la fiscalité directe locale et la criminalité.. Les indicateurs sont mesurés sur

Rappeler la définition du modèle ainsi que les expressions des estimateurs des différents paramètres vus dans le cours2. Rappeler la définition du coefficient R 2 vu dans le

Ce jeu de données intéresse les démographes pour analyser les raisons qui ont conduit à une réduction du taux de natalité dans les pays occidentaux avec le développement

On donnera toutes les commandes R utilisées sur la copie On considère dans cet exercice le modèle GLM Poisson avec pour lien la fonction ln et deux variables explicatives2.

On considère dans cet exercice le modèle de régression linéaire simple dans lequel le nombre de variable explicative est p = 1.. On utilise les notations

Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme