• Aucun résultat trouvé

ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression multiple

N/A
N/A
Protected

Academic year: 2022

Partager "ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression multiple"

Copied!
98
0
0

Texte intégral

(1)

ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression multiple

Steve Ambler

D´epartement des sciences ´economiques Ecole des sciences de la gestion´ Universit´e du Qu´ebec `a Montr´eal

2018: Steve Amblerc

Hiver 2018

(2)

Objectifs

1. Pr´esenter le mod`ele de r´egression multiple.

2. D´eriver l’estimateur MCO.

3. Etudier ses propri´´ et´es alg´ebriques.

4. Regarder les hypoth`eses statistiques du mod`ele et analyser leurs cons´equences (absence de biais, convergence, efficience).

5. Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques.

6. Analyser les tests d’hypoth`esesimples et le calcul d’intervalles de confiance dans le cadre du mod`ele.

7. Les tests d’hypoth`esesjointes et les ensembles de confiance.

(3)

Introduction

I Presque rien de nouveau par rapport au mod`ele de r´egression simple.

I Quasiment un rappel de la mati`ere d’avant l’examen intra.

I Introduction et utilisation de la notation matricielle.

I Nouveau concept : tester les hypoth`eses jointes.

(4)

Biais dˆ u ` a une variable omise

I Fa¸con de motiverle mod`ele de r´egression multiple.

I Si nous omettons un ou des facteurs qui ont un impact sur la variable d´ependante, l’estim´e de l’impact de la variable explicative d’int´erˆet peut ˆetre biais´e.

(5)

Biais dˆ u ` a une variable omise (suite)

I L’estimateur ˆβ1 est ´egal `a βˆ11+

1 n

Pn

i=1 Xi −X¯ ui

1 n

Pn

i=1 Xi −X¯2 .

I Modifions les hypoth`ese statistiques : 1

n

n

X

i=1

Xi−X¯

ui −→p Cov (u, X) = Corr (u, X)σuσX, et

1 n

n

X

i=1

Xi−X¯2 p

→σ2X.

(6)

Biais dˆ u ` a une variable omise (suite)

I On a βˆ1

−→p β1+Corr (u , X)σuσX

σ2X1+ Corr (u, X) σu

σX.

I L’estimateur ne converge plus `aβ1 en probabilit´e.

I Le signe du biais d´epend (mˆeme lorsquen → ∞) du signe de la corr´elation entre Xi et ui.

I Notez que dans ce cas-ci

E (ui|X =Xi)6= 0.

I S’il y a une variable dans la banque de donn´ees qui en principe pourrait affecter la variable d´ependante de l’´etude et qui risque d’ˆetre corr´el´ee avec une variable qui est incluse comme variable explicative dans le mod`ele, il y a probablement un probl`eme de variable omise.

(7)

Exemple

I Nous pouvons ˆetre encore plus explicite.

I Suppons que le vrai mod`ele est donn´e par Yi01X1i2X2i +ui

I Le mod`ele estim´e est

Yi01X1i + ˜ui

I Le terme d’erreur du mod`ele estim´e incorpore la variable omiseX2i avec le vrai terme d’erreurui.

(8)

Exemple (suite)

I Nous avons βˆ1=

1 n

Pn

i=1 X1i−X¯1

Yi −Y¯

1 n

Pn

i=1 X1i−X¯1

2 =

1 n

Pn

i=1 X1i −X¯1

β01X1i2X2i +ui−β0−β11−β22−u¯

1 n

Pn

i=1 X1i −X¯1

2

1

1 n

Pn

i=1 X1i −X¯12 1

n

Pn

i=1 X1i −X¯1

22

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i −X¯1

2

+

1 n

Pn

i=1 X1i −X¯1

(ui −u)¯

1 n

Pn

i=1 X1i−X¯12

(9)

Exemple (suite)

I ce qui doit enfin ˆetre ´egal `a

12 1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i −X¯12

+

1 n

Pn

i=1 X1i−X¯1

(ui−u)¯

1 n

Pn

i=1 X1i −X¯1

2 .

I Calculant l’esp´erance de ˆβ1, nous obtenons E ˆβ112E

1 n

Pn

i=1 X1i −X¯1

X2i −X¯2

1 n

Pn

i=1 X1i−X¯12

!

+E +

1 n

Pn

i=1 X1i −X¯1

E ((ui−u)¯ |X11,X12, . . . ,X1n)

1 n

Pn

i=1 X1i −X¯12

!

(10)

Exemple (suite)

I ce qui doit enfin ˆetre ´egal `a

12E

1 n

Pn

i=1 X1i −X¯1

X2i −X¯2

1 n

Pn

i=1 X1i −X¯12

!

par la loi des esp´erances it´er´ees.

I En g´en´eral E

1 n

Pn

i=1 X1i−X¯1

X2i−X¯2

1 n

Pn

i=1 X1i −X¯12

! 6= 0.

I L’estimateur est biais´e, le biais ´etant donn´e par la valeur de l’esp´erance dans l’´equation pr´ec´edente.

(11)

Exemple (suite)

I Nous avons 1 n

n

X

i=1

X1i −X¯1

X2i −X¯2

qui est (presque) la covariance ´echantillonnale entre X1 et X2.

I Et

1 n

n

X

i=1

X1i−X¯1

2

est (presque) la variance ´echantillonnale deX1.

(12)

Exemple (suite)

I Si les deux expressions sont des estimateurs convergents de leurs ´equivalents dans la population, nous avons :

1 n

n

X

i=1

X1i −X¯1

X2i −X¯2 p

−→Cov (X1 , X2)

I et

1 n

n

X

i=1

X1i−X¯12 p

→Var (X1).

(13)

Exemple (suite)

I Th´eor`eme de Slutsky =>

βˆ1 −→p β12Cov (X1 , X2) Var (X1)

I L’´ecart entre ˆβ1 et sa vraie valeur est approximativement

´

egale `a la vraie valeur de β2 fois le ratio de la covariance entre X1 etX2 et la variance de X1.

I Si on connaˆıt au moins le signe de β2 et de la covariance, on peut pr´edire le signe de cet ´ecart. Aussi, nous savons que

Cov (X1, X2) Var (X1)

est la valeur (asymptotique) du coefficient de pente d’une r´egression o`u X2 est la variable d´ependante et X1 est la variable explicative.

(14)

Mod` ele de r´ egression multiple

I Mod`ele :

Yi0+X1iβ1+X2iβ2+. . .+Xkiβk +ui.

I Version matricielle :

Y =Xβ+U,

I Il faut d´efinir les matrices/vecteurs (page suivante).

(15)

Mod` ele de r´ egression multiple (suite)

Y ≡

Y1 Y2 . . . Yn

0

X ≡

1 X11 X21 . . . Xk1

1 X12 X22 . . . Xk2 ... ... ... . .. ... 1 X1n X2n . . . Xkn

 ,

β ≡

β0 β1 β2 . . . βk 0

U ≡

u1 u2 . . . un

0

(16)

Estimateur MCO

I Probl`eme de minimisation : min

β U0U.

I Rempla¸cons U par sa d´efinition.

minβ (Y −Xβ)0(Y −Xβ).

I Equivalent `´ a :

minβ Y0Y −β0X0Y −Y0Xβ+β0X0Xβ .

(17)

Estimateur MCO (suite)

I CPOs (d´eriv´ee par rapport `a β) :

−X0Y −X0Y +X0Xβ+ X0X0

β = 0

⇒2X0Xβ−2X0Y = 0

⇒X0Xβ =X0Y.

I Nous avons k+ 1 ´equations lin´eaires pour trouver k+ 1 inconnus (les ´el´ements deβ).

I Nous appelons commun´ement ces ´equations les´equations normales.

(18)

Estimateur MCO (suite)

I Nous obtenons X0X−1

X0Xβ = X0X−1

X0Y =β.

I R´esultat fondamental :

βˆ= X0X−1

X0Y

(19)

Diff´ erentiation matricielle

I Application de :

y ∂y∂x

Ax A0 x0A A x0x 2x x0Ax Ax +A0x

I Etudiez bien la CPO pour comprendre pourquoi c’est une´ application de ces r`egles.

I Etudiez bien les exemples simples dans les notes.´

(20)

Approche non matricielle

I Le probl`eme est

β0min1,...,βk

n

X

i=1

(Yi−β0−X1iβ1−X2iβ2−. . .−Xkiβk)2.

I CPOs :

β0 : 0 =−2

n

X

i=1

(Yi −β0−X1iβ1−. . .−Xkiβk) ;

βj : 0 =−2

n

X

i=1

Xji(Yi−β0−X1iβ1−. . .−Xkiβk) pour j 6= 0.

I k+ 1 ´equations (lin´eaires) enk+ 1 inconnus.

(21)

Approche non matricielle (suite)

I Nous obtenons

n

X

i=1

Yi =

n

X

i=1

0+X1iβ1+. . .+Xkiβk) ;

n

X

i=1

X1iYi =

n

X

i=1

X1i0+X1iβ1+. . .+Xkiβk) ;

n

X

i=1

X2iYi =

n

X

i=1

X2i0+X1iβ1+. . .+Xkiβk) ; . . .

n

X

i=1

XkiYi =

n

X

i=1

Xki0+X1iβ1+. . .+Xkiβk).

(22)

Approche non matricielle (suite)

I Nous pouvons maintenant convertir en notation matricielle.

1 . . . 1

 Y1

... Yn

=

1 . . . 1 Xβ;ˆ

X11 . . . X1n

 Y1

... Yn

=

X11 . . . X1n Xβ;ˆ ...

Xk1 . . . Xkn

 Y1

... Yn

=

Xk1 . . . Xkn Xβ,ˆ

(23)

Approche non matricielle (suite)

I Onempile les k+ 1 ´equations les unes pardessus les autres :

1 . . . 1 X11 . . . X1n X21 . . . X2n

... ... ... Xk1 . . . Xkn

 Y1

... Yn

=

1 . . . 1 X11 . . . X1n X21 . . . X2n

... ... ... Xk1 . . . Xkn

 Xβˆ

⇒X0Y =X0Xβˆ

⇒βˆ= (X0X)−1X0Y.

I On obtient la mˆeme solution (pas surprenant).

(24)

Propri´ et´ es alg´ ebriques de l’estimateur MCO

I Plus facile de les d´eriver en notation matricielle.

I Orthogonalit´e : les ´equations normales sont X0Xβˆ=X0Y

⇒X0

Xβˆ−Y

= 0

⇒X0

Y −Xβˆ

= 0.

Y −Xβb≡Ub. Donc, nous avons :

X0Ub= 0.

I Une cons´equence directe est que la somme des r´esidus est

´

egale `a z´ero.

(25)

Orthogonalit´ e (suite)

I Mˆeme interpr´etation g´eom´etrique que dans le mod`ele de r´egression simple.

Figure 1

(26)

Propri´ et´ es alg´ ebriques (suite)

I D´efinissons

Yˆ ≡Xβ,ˆ

I Nous avons Yˆ0Ub=

X X0X−1

X0Y 0

Ub=Y0X X0X−1

X0Ub= 0.

I Les valeurs pr´edites de Y sont orthogonales aux r´esidus.

I Finalement, nous avons X0

Yb−Y

=X0

X X0X−1

X0Y −Y

=X0X X0X−1

X0Y −X0Y =X0Y −X0Y = 0.

I Cons´equence : la moyenne ´echantillonnale des valeurs pr´edites est ´egale `a ¯Y.

(27)

Ecart type de la r´ ´ egression

I On d´efinit

SER≡su, o`u

su2 ≡ 1 n−k−1

n

X

i=1

ˆ

u2i = SSR

n−k−1 = Ub0Ub n−k−1.

I Donc SSR est la somme des r´esidus au carr´e. On divise par (n−k−1) afin d’obtenir un estim´e non biais´e de la variance de l’erreur dans l’´equation de r´egression (si les erreurs sont homosc´edastiques).

(28)

Ajustement statistique

I La mesure R2 est d´efinie de la mˆeme fa¸con que dans le cas du mod`ele de r´egression simple :

R2= ESS

TSS = 1− SSR TSS, o`u on d´efinit

ESS≡

n

X

i=1

i −Y¯2

,

o`u ¯Y est la moyenne ´echantillonnale desYi, et TSS≡

n

X

i=1

Yi−Y¯2

(29)

Ajustement statistique (suite)

I Il faut montrer que TSS = ESS + SSR.

I Puisque Y ≡Yˆ +Ub, nous avons TSS = Y −Y¯0

Y −Y¯

=

Yˆ +Ub−Y¯0

Yˆ +Ub−Y¯

=

Yˆ−Y¯

+Ub 0

Yˆ −Y¯

+Ub

=

Yˆ−Y¯ 0

Yˆ−Y¯

+

Yˆ −Y¯ 0

Ub+Ub0

Yˆ −Y¯

+Ub0Ub

=

Yˆ −Y¯0

Yˆ −Y¯ +Ub0Ub

≡ESS + SSR, ce qui fut `a d´emontrer.

(30)

Ajustement statistique (suite)

I R2 est aussi ´egal `a la corr´elation (´echantillonnale) au carr´e entre Y et ˆY.

I Pour rendre la preuve plus facile, introduisons un peu de notation.

M0

I−i i0i−1

i0 .

I On a

M0Y =Y −Y,¯

M00=M0, et M0M0 =M0.

I M0 est une matrice idempotente.

(31)

Ajustement statistique (suite)

I Nous pouvons r´e´ecrire leR2 comme

R2 ≡ ESS TSS =

Yˆ −Y¯0

Yˆ −Y¯ Y −Y¯0

Y −Y¯

= Yˆ0M0Yˆ Y0M0Y. Nous avons aussi

M0Uˆ= ˆU puisque la somme des r´esidus est z´ero.

(32)

Ajustement statistique (suite)

I Donc, nous avons

0M0Yˆ = ˆY0M0

Y −Uˆ

= ˆY0M0Y −Yˆ0M0

= ˆY0M0Y −Yˆ0

= ˆY0M0Y −βˆ0X0Uˆ (puisque ˆY ≡Xβ)ˆ

= ˆY0M0Y −0 = ˆY0M0Y

puisque X0Uˆ= 0 (orthogonalit´e entre les variables expicatives et les r´esidus).

(33)

Ajustement statistique (suite)

I Nous pouvons donc ´ecrire leR2 comme R2 = Yˆ0M0Y

Y0M0Y

= Yˆ0M0Y Y0M0Y

0M0Y Yˆ0M0Y

(multipliant num´erateur et d´enominateur par la mˆeme chose)

=

0M0Y Yˆ0M0Y (Y0M0Y)

0M0Y

=

0M0Y Yˆ0M0Y (Y0M0Y)

0M0Yˆ .

(34)

Ajustement statistique (suite)

I On peut r´e´ecrire ceci en notation non matricielle pour obtenir Yˆ0M0Y Yˆ0M0Y

(Y0M0Y)

0M0Yˆ =

0M0M0Y Yˆ0M0M0Y (Y0M0M0Y)

0M0M0

=

Pn i=1

i−Y¯

Yi −Y¯2

Pn

i=1 Yi −Y¯2 Pn

i=1

i−Y¯ 2

=

1 n−1

Pn i=1

i −Y¯

Yi−Y¯2

1 n−1

Pn

i=1 Yi −Y¯2

1 n−1

Pn i=1

i −Y¯ 2

(35)

Ajustement statistique (suite)

=

1 n−1

Pn i=1

i−Y¯

Yi−Y¯ q 1

n−1

Pn

i=1 Yi−Y¯2

r

1 n−1

Pn i=1

i −Y¯2

2

≡ Corr

Y,Yˆ2

.

I Le R2 nous dit `a quel point le mod`ele de r´egression permet de pr´edire les variations de la variable d´ependante autour de sa moyenne (mesur´e par la corr´elation entre les valeurs pr´edites et les valeurs r´ealis´ees).

(36)

Ajustement statistique (suite)

I Dans le cas du mod`ele de r´egression simple, nous avons Yˆi−Y¯

= Xi−X¯βˆ1.

I Nous avons tout de suite

1 n−1

Pn i=1

i−Y¯

Yi −Y¯ q 1

n−1

Pn

i=1 Yi −Y¯2

r

1 n−1

Pn i=1

i −Y¯2

2

=

1 n−1

Pn i=1

Xi −X¯βˆ1

Yi−Y¯ q 1

n−1

Pn

i=1 Yi −Y¯2

r

1 n−1

Pn i=1

Xi−X¯βˆ12

2

(37)

Ajustement statistique (suite)

=

1 n−1

Pn

i=1 Xi −X¯

Yi −Y¯ q 1

n−1

Pn

i=1 Yi −Y¯2q

1 n−1

Pn

i=1 Xi−X¯2

2

≡ Corr (Y,X)2

⇒R2 = Corr (Y,X)2

.

I On voit que le r´esultat trouv´e dans le chapitre sur le mod`ele de r´egression simple n’est qu’un cas sp´ecial du r´esultat g´en´eral d´evelopp´e ici.

(38)

R

2

ajust´ e

I Ajouter une variable explicative au mod`ele ne peut que faire augmenter R2.

I Avec autant de variables explicatives que d’observations ((k+ 1) =n), on aura R2 = 1.X est alors une matrice carr´ee et on a

0 =U =Y −Xβˆ

⇒Y =Xβ.ˆ

⇒βˆ=X−1Y.

I Donc, unR2 ´elev´e n’est pas toujours et partout une bonne chose.

(39)

R

2

ajust´ e (suite)

I Une autre mesure qui p´enalisel’ajustement lorsqu’on ajoute des variables explicatives.

2≡1− n−1 n−k−1

SSR

TSS = 1− su2ˆ sY2 .

I Trois propri´et´es importantes du ¯R2. 1. n−k−1n−1 >1, et donc ¯R2<R2.

2. Ajouter une variable explicative suppl´ementaire a deux effets sur ¯R2. 1) SSR doit baisser, ce qui fait augmenter ¯R2. 2) Le facteur n−kn−1−1 augmente, ce qui fait diminuer ¯R2. L’effet net est ambigu.

3. R¯2peut ˆetre n´egatif.

(40)

R

2

ajust´ e (suite)

I La d´efinition du R2 ajust´e semble arbitraire.

I Elle a une justificationstatistique.

I Si on ajoute une variable explicative additionnelle Xk+1 `a un mod`ele, on peut tester sa significativit´e.

I Si la statistique t normalis´ee pour le test `a une valeur absolue sup´erieure `a 1, leR2 ajust´e augmente. Si non, il diminue.

I Nous allons revenir `a cette question apr`es la section sur les tests d’hypoth`ese.

(41)

Propri´ et´ es statistiques de l’estimateur MCO

I Hypoth`eses de base : 1. E (ui|Xi) = 0.

2. (Xi, Yi) i.i.d.

3. Xi etui ont des quatri`emes moments non nuls et finis.

4. X est de rang plein en colonnes. En fait, cette hypoth`ese est ecessaire pour que l’estimateur MCO existe.

I Hypoth`eses additionnelles : 1. Var (ui|Xi) =σ2u.

2. La distribution deui conditionnelle `a la valeur deXi suit une loi normale.

(42)

Absence de biais

I Nous avons

βˆ= (X0X)−1X0Y

= (X0X)−1X0(Xβ+U)

=β+ (X0X)−1X0U

→E βˆ

=β+ E (X0X)−1X0U

=β+ E (X0X)−1X0E (U|X)

=β.

La derni`ere ´egalit´e d´epend de la loi des esp´erances it´er´ees.

(43)

Th´ eor` eme de Slutsky

I Sous certaines conditions, Xn−→p X ⇒h(Xn)−→p h(X).

I En g´en´eral,

Zn=f (Xn,Yn), et si Xn

−→p X et Yn

−→p Y, alors Zn

p

→f(X,Y).

I Convergence en probabilit´e et en distribution. Sian

−→p ao`u a est une constante et si Sn−→d S, alors

an+Sn−→d a+S, anSn−→d aS, et si a6= 0,

Sn

an

−→d S a.

(44)

Convergence

I Nous avons

βˆ= (X0X)−1X0Y

= (X0X)−1X0(Xβ+U)

=β+ (X0X)−1X0U

→ βˆ−β

=

(X0X) n

−1 (X0U)

n

Nous avons divis´e et multipli´e par le scalaire n afin de pouvoir parler de convergence en probabilit´e. (Xn0X) est une matrice dont l’´el´ement i,j est donn´e par

Xi0Xj n = 1

n

n

X

l=1

Xi−1,lXj−1,l.

(45)

Convergence (suite)

I Par une des hypoth`eses du mod`ele de r´egression multiple, nous avons

n→∞lim Xi0Xj

n = E Xi0Xj .

I Ceci veut dire qu’il y a convergence en probabilit´e vers l’esp´erance deXi0Xj. Donc, (Xn0X) converge en probabilit´e `a Qx, qui est d´efinie comme

Qx ≡E X0X

n

.

I Donc, le premier terme converge en probabilit´e `a (Qx)−1

(46)

Convergence (suite)

I Le 2e terme converge en probabilit´e `a z´ero. Voici l’argument.

E

(X0U) n

= E

(X0E (U|X)) n

= 0.

I Si on consid`ere l’i`eme colonne de la matrice X, nous avons Var

1 nXi0U

= 1

n 2

Var Xi0U

= 1

n 2

Var

n

X

l=1

Xi−1,lUl

!

= 1

n 2 n

X

l=1

Var (Xi−1,lUl). D´efinissonsXi−1,lUl ≡Vi,l. Nous avons

Var 1

nXi0

U

= 1

n 2 n

X

l=1

Var (Vi,l) = 1

n 2

nVar (Vi)

= 1

n

Var (Vi).

(47)

Convergence (suite)

I Avec une esp´erance de z´ero et une variance qui tend vers z´ero, on a (presque) la preuve de la convergence :

(X0U) n

p

→0.

I Les hypoth`eses du th´eor`eme de Slutsky sont satisfaites, donc la limite de probabilit´e du produit est le produit des limites de probabilit´e. Donc, nous avons :

βˆ−β p

→0.

(48)

Covariances en notation matricielle

I Notation matricielle pour les covariances. Consid´erons (Y −E(Y)) (Y −E(Y))0.

I L’´el´ement (i,j) est :

(Yi−E (Yi)) (Yj −E (Yj)).

I Donc son esp´erance est une covariance (variance si i =j).

E ((Yi−E (Yi)) (Yj −E (Yj)))

I Donc, la matrice suivante contient toutes les variances et covariances possibles entre les ´el´ements de Y.

E (Y −E(Y)) (Y −E(Y))0 .

(49)

Distribution ´ echantillonnale de ˆ β

I Nous avons √

n

βˆ−β

=

(X0X) n

−1 (X0U)

√n

.

I Nous avons d´ej`a vu que E

βˆ−β

= 0.

I Donc, une expression qui nous donne la matrice de variance-covariance de√

n βˆ−β

est donn´ee par :

E

n

βˆ−β βˆ−β 0

(50)

Distribution ´ echantillonnale de ˆ β (suite)

I Nous devons examiner le comportement en grand ´echantillon de

(X0X) n

−1 (X0U)

√n

!

(X0X) n

−1 (X0U)

√n !0

=

(X0X) n

−1 (X0U)

√n

(X0U)

√n 0

(X0X) n

−1

.

I Nous avons d´ej`a vu que(X0X) n

−1 p

−→(Qx)−1. Regardons (X0U)

√n

(X0U)

√n 0

.

(51)

Distribution ´ echantillonnale de ˆ β (suite)

I Nous avons :

(X0U) =

n

X

i=1

 ui

X1iui X2iui

... Xkiui

n

X

i=1

Vi.

I Selon leKey Concept 18.1, les Vi sont i.i.d., donc 1

n

n

X

i=1

Vi

−→p 0,

√1 n

n

X

i=1

Vi −→d N(0, ΣV), ΣV ≡E ViVi0

.

(52)

Distribution ´ echantillonnale de ˆ β (suite)

I Donc (th´eor`eme de Slutsky)

√n

βˆ−β d

−→N 0k+1 , Qx−1

ΣVQx−1 ,

(53)

Cas homosc´ edastique

I Nous pouvons ´ecrire

E UU0

2uIn. Nous avons

(X0U)

√n

(X0U)

√n 0

=

X0UU0X n

p

−→E 1

2uX0InX

= E 1

2uX0X

2uQx.

I Donc

√n

βˆ−β d

−→N 0k+1 , σu2Qx−1QxQx−1

=N 0k+1, σu2Qx−1 .

(54)

Estimateurs convergents

I Nous rempla¸cons QX avec

x ≡ (X0X) n .

I Nous rempla¸cons ΣV avec ΣˆV ≡ 1

n−k−1

n

X

i=1

XiXi0( ˆui)2

I Nous pouvons finalement ´ecrire βˆ≈N

β , 1

n

x−1

Σˆv

x−1

≡N

β , Σˆβˆ .

(55)

Cas homosc´ edastique

I Un estimateur convergent de σu2 est donn´e par su2 ≡ 1

n−k−1

n

X

i=1

ˆ ui2.

Nous utilisons le mˆeme estimateur deQx, et donc βˆ≈N

β , 1

n

x−1

su2

xx−1

≡N

β , Σ˜βˆ ,

βˆ≈N

β , 1 nsu2

x−1

≡N

β , Σ˜βˆ ,

(56)

Gauss-Markov

I Dans le cas homosc´edastique, si ˜β est n’importe quel estimateur lin´eaire et non biais´e de β, il faut que

Var

c0βˆ

≤Var

c0β˜

pour toute combinaison lin´eairec0β.

I Il y a une preuve dans la section 18.5 du manuel.

I Notez que cette preuve ne suppose pas la normalit´e du terme d’erreur. Voir Giles (2011b).

I Il y a aussi une preuve simple si on suppose que les variables explicatives X sont fixes ou non stochastiques. Voir la page suivante.

(57)

Gauss-Markov : preuve

I Soit ˜β=CY un autre estimateur lin´eaire de β.

I On suppose que C peut s’´ecrireC = (X0X)−1X0+D o`u D est une matrice non nulle.

I Nous avons

E(CY) =E

X0X−1

X0+D

(Xβ+U)

=

X0X−1

X0+D

Xβ+E

X0X−1

X0+D U

=β+DXβ+E

X0X−1

X0+D

E(U|X)

=β+DXβ

(58)

Gauss-Markov : preuve (suite)

I Nous voulons prouver que ˆβ a la plus petite variance parmi les estimateursnon biais´es. Il faut donc queDX = 0

I Nous avons

Var(CY|X,D) =CVar(Y|X,D)C0

=CVar(U|X)C02uCC0

2u

X0X−1

X0X X0X−1

+ X0X−1

X0D0 +DX X0X−1

+DD0

u2 X0X−1

u2DD0 o`u DD0 est positive semi-d´efinie.

(59)

Gauss-Markov : preuve (suite)

I Nous avons

Var β˜

−Var βˆ

2uDD0

⇒Var c0β˜

−Var c0βˆ

2uc0DD0c ≥0, ce qui fut `a d´emontrer.

(60)

Tests d’hypoth` eses simples par rapport ` a un seul coefficient

I Nous utilison la statistiquet donn´ee par t =

βˆi −βiH0 sβˆ

i

.

I Toutela discussion du chapitre sur la statistique et l’inf´erence s’applique. Nous avons

t∼N(0, 1).

I Si H1i 6=βiH0 nous avons

Φ (−|ta|) = Pr (t ≤ −|ta|)

= Pr t≤ −

βˆi−βiH0 sβˆ

i

! .

(61)

Tests d’hypoth` eses simples : H

1

unilat´ erale 1

I On a

H0iiH0 et

H1i > βiH0,

I Lap-value du test est donn´ee par p= Pr z >tact

= 1−Φ tact .

(62)

Tests d’hypoth` eses simples : H

1

unilat´ erale 2

I On a

H0iiH0 et

H1i < βiH0,

I Lap-value du test est donn´ee par p= Pr z <tact

= Φ tact .

(63)

Tests par rapport ` a une combinaison lin´ eaire de coefficients

I Mod`ele en notation non matricielle :

Yi0+X1iβ1+X2iβ2+. . .+Xkiβk +ui.

I Nous voulons tester la restriction suivante : H0 : β12 = 1, contre

H1 : β12 6= 1.

(64)

Combinaison lin´ eaire de coefficients (suite)

I Version ´equivalente au mod`ele original :

Yi0+X1i12) + (X2i−X1i2+. . .+Xkiβk+ui.

I Nous pouvons r´e´ecrire le mod`ele comme

Yi0+X1iγ1+Ziβ2+. . .+Xkiβk +ui, o`u Zi ≡X2i −X1i et γ1 ≡β12.

I Tester H0 : β12 = 1 revient `a testerH0: γ1= 1.

(65)

Les tests s´ equentiels ne sont pas valides

I Supposons que nous voulons tester l’hypoth`ese jointe suivante :

H0 : β12= 0.

contre

H1 : ∃i, i = 1,2 tel que βi 6= 0.

I Pourquoi pas tester les 2 hypoth`eses de fa¸con s´equentielle ? t1 = βˆ1−β1H0

sβˆ1

,

t2 = βˆ2−β2H0 sβˆ2

.

I On pourrait rejeter si une des deux hypoth`eses est rejet´ee par un test d’hypoth`ese simple.

(66)

Les tests s´ equentiels ne sont pas valides (suite)

I Le probl`eme avec cette id´ee est qu’il s’agit de distributions de probabilit´e jointes.

I Prenons le cas simple o`u les 2 coefficients sont ind´ependamment distribu´es.

I Dans les deux cas, on ne rejetterait pas l’hypoth`ese nulle `a un niveau de significativit´e marginal de 5% si |t1|<1.96 et

|t2|<1.96.

I La probabilit´e d’obtenir au moins un rejet en effectuant deux tests si les hypoth`eses nulles sont vraies serait ´egale `a 1−0.952.

I Il faudrait au moins ajuster le niveau de significativit´e marginal.

(67)

Test Bonferroni

I L’annexe (7.1) du livre d´ecrit une fa¸con d’ajuster les niveaux de significativit´e marginaux pour tenir compte de la

corr´elation non nulle entre les coefficients.

I Cette m´ethodologie peut ˆetre utile dans certains cas,

notamment lorsqu’on lit les r´esultats de r´egressions rapport´es dans des articles publi´es ou des cahiers de recherche o`u onne donne pasla matrice variance-covariance compl`ete des coefficients estim´es.

(68)

Test Bonferroni

I Choisir une valeur critique o`u la probabilit´e de rejeter H0 ne d´epasse pas la probabilit´e de la rejeter si on tient compte de la non-ind´ependance entre les hypoth`eses faisant partie de l’hypoth`ese jointe.

I On rejetteH0 si on rejette au moins une des hypoth`eses individuelles.

I Cas de 2 hypoth`eses simples : appelonsA l’´ev´enement que nous rejetons la premi`ere hypoth`ese, etB l’´ev´enement que nous rejetons la 2e hypoth`ese simple :

Pr (A∪B)≤Pr (A) + Pr (B),

I Avec des p-values identiques, on va choisir desp-values tel que leur somme soit ´egale `a la p-value d´esir´ee du test joint.

I Le test Bonferroni est tr`es conservateur : minimiser la probabilit´e de rejeter H0 (jointe) lorsqu’elle est vraie.

(69)

Tests d’hypoth` eses jointes

I Reprenons l’exemple de la sous-section pr´ec´edente.

L’hypoth`ese nulle `a tester est

H0 : β12 = 1,

I Nous pouvons ´ecrire cette hypoth`ese sous forme matricielle de la fa¸con suivante :

0 1 1 0 . . . 0

 β0

β1 β2

β3

... βk

= 1

I Ceci est de la forme :

Rβ=r,

(70)

Tests d’hypoth` eses jointes (suite)

I Prenons un cas o`u le nombre d’hypoth`eses est ´egal `a deux.

H012= 0 et

H1 :∃i, i = 1,2 tel que βi 6= 0.

I Sous forme matricielle, nous avons

H0 :

0 1 0 0 . . . 0 0 0 1 0 . . . 0

 β0 β1

β2 β3 ... βk

= 0

0

.

(71)

Tests d’hypoth` eses jointes (suite)

I On peut montrer que la statistique suivante ob´eit, (en grand

´

echantillon et sous H0) `a une loiFq,∞ : F ≡

Rβˆ−r0h

RΣˆβˆR0i−1

Rβˆ−r /q.

I Ici, on aq le nombre de restrictions que l’on veut tester et ˆΣβˆ

la matrice variance-covariance de l’estim´e ˆβ.

I Dans l’exemple que nous venons d’´etudier, q= 2, et donc F −→d Fq,∞.

I La plupart des logiciels de r´egression, dontRoffrent la possibilit´e de sp´ecifier les ´equivalents deR et r afin de tester des hypoth`eses jointes quelconques.

(72)

Une seule restriction comme cas sp´ ecial

I Dans les cas q = 1, la statistiqueF est le carr´e de la statistique t.

I Nous ne pouvons pas faire la distinction entre une statistique t qui serait grande en valeur absolue et n´egative et une statistique t grande en valeur absolue et positive.

I Pour illustrer l’´equivalence prenons l’exempleH01= 0.

Sous forme matricielle

0 1 0 . . . 0

 β0 β1

β2 ... βk

1 = 0.

(73)

Une seule restriction comme cas sp´ ecial (suite)

I Nous avons dans ce cas

F =

βˆ1−0

0 1 0 . . . 0 Σˆβˆ

 0 1 0 ... 0

−1

βˆ1−0

.

I On peut montrer (exercice) que

0 1 0 . . . 0 Σˆβˆ

 0 1 0 ... 0

= ˆσ2ˆ

β1,

(74)

Une seule restriction comme cas sp´ ecial (suite)

I Donc, nous avons

F = βˆ1−0 sβˆ

1

!2

=t2.

I Deuxi`eme exemple :

H012= 1.

I Sous forme matricelle :

0 1 1 0 . . . 0

 β0

β1 β2 β3

... βk

12 = 1.

(75)

Une seule restriction comme cas sp´ ecial (suite)

I Dans ce cas

F =

βˆ1+ ˆβ2−1

 0 1 1 0 ... 0

0

Σˆβˆ

 0 1 1 0 ... 0

−1

βˆ1+ ˆβ2−1

.

I On peut v´erifier que

0 1 1 0 . . . 0 Σˆβˆ

 0 1 1 0 ... 0

=s2ˆ

β1+s2ˆ

β2+ 2sβˆ

1,βˆ2

(76)

Une seule restriction comme cas sp´ ecial (suite)

I Ici, sβˆ

1,βˆ2 est l’´el´ement hors-diagonale de la matrice

variance-covariance, un estim´e convergent de la covariance entre ˆβ1 et ˆβ2.

I Il s’agit donc de l’estimateur convergent de la variance de βˆ1+ ˆβ2.

I La statistique F devient

F =

βˆ1+ ˆβ2−12

s2ˆ

β1+s2ˆ

β2+ 2sβˆ1,βˆ2

=t2.

I On voit l’´equivalence entre la statistique F et le carr´e de la statistique t.

(77)

Significativit´ e de la r´ egression

I Souvent, on veut tester l’hypoth`ese nulle selon laquelle tous les coefficients de la r´egression sauf la constante sont ´egaux

` a z´ero.

I Nous pouvons ´ecrire cette restriction sous forme matricielle sans probl`eme avec

R =

0 1 0 0 . . . 0 0 0 1 0 . . . 0 0 0 0 1 . . . 0 ... ... ... ... . .. ...

0 0 0 0 . . . 1

 ,

et

r =

 0 0 0 ... 0

 .

(78)

Cas homosc´ edastique

I Rien de diff´erent par rapport au cas g´en´eral. On remplace ˆΣβˆ par ˜Σβˆ.

I Donc, nous avons : F ≡

Rβˆ−r0h

RΣ˜βˆR0i−1

Rβˆ−r /q,

I Alternative : estimer le mod`ele sous l’hypoth`ese nulle et sous l’hypoth`ese alternative, et utiliser la formule suivante :

F = (SSRrestricted −SSRunrestricted)/q SSRunrestricted/(n−kunrestricted −1).

(79)

Cas homosc´ edastique (suite)

I Formule ´equivalente :

F = Runrestricted2 −Rrestricted2 /q 1−Runrestricted2

/(n−kunrestricted −1),

I Vous devriez montrer alg´ebriquement comment passer de la premi`ere `a la deuxi`eme version de ce test. La d´emonstration est en fait tr`es simple.

I Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homosc´edastique peuvent ˆetre

´

ecrites sous cette forme. Voir par exemple Greene (2000).

Références

Documents relatifs

La fonction residuals fournit diff´ erents types de r´ esidus ` a partir d’un mod` ele ajust´ e avec la fonction glm du package stats, charg´ e par d´ efaut. On peut effectuer

En occultant ensuite cette information, ajuster un ou plusieurs mod` eles (soit de type AR/MA/ARMA/ARIMA/SARIMA, soit de type r´ egression avec tendance et/ou saisonnalit´ e

1.2 Diagnostics pour d´ etecter des observations qui ont une influence d´ emesur´ ee sur les r´ esultats de l’estimation (coefficients, valeurs pr´ edites, variance estim´ ee

I D´ efinissons ˆ β (i ) comme le vecteur de param` etres estim´ es apr` es avoir laiss´ e tomber l’observation i de l’´ echantillon, et ˆ Y (i) le vecteur de valeurs pr´

En d´epit de l’insistance sur une variance des erreurs qui n’est pas constante dans les donn´ees, on ne pr´esente pas de tests statistiques formels dans le manuel de Stock et

I Th´ eor` eme de la limite centrale : la moyenne d’un nombre suffisamment ´ elev´ e de variables al´ eatoires qui sont ind´ ependamment distribu´ ees et qui ont une moyenne et

I But : pr´ esenter quelques strat´ egies g´ en´ erales pour sp´ ecifier et estimer des mod` eles ´ econom´ etriques non lin´ eaires.. I Mod` eles non lin´ eaires dans les

• Attention aux autres manuels. La plupart des manuels classiques d´eveloppent le mod`ele de r´egression simple et le mod`ele de r´egression multiple sous les hypoth`eses suivantes: