ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression multiple
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion´ Universit´e du Qu´ebec `a Montr´eal
2018: Steve Amblerc
Hiver 2018
Objectifs
1. Pr´esenter le mod`ele de r´egression multiple.
2. D´eriver l’estimateur MCO.
3. Etudier ses propri´´ et´es alg´ebriques.
4. Regarder les hypoth`eses statistiques du mod`ele et analyser leurs cons´equences (absence de biais, convergence, efficience).
5. Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques.
6. Analyser les tests d’hypoth`esesimples et le calcul d’intervalles de confiance dans le cadre du mod`ele.
7. Les tests d’hypoth`esesjointes et les ensembles de confiance.
Introduction
I Presque rien de nouveau par rapport au mod`ele de r´egression simple.
I Quasiment un rappel de la mati`ere d’avant l’examen intra.
I Introduction et utilisation de la notation matricielle.
I Nouveau concept : tester les hypoth`eses jointes.
Biais dˆ u ` a une variable omise
I Fa¸con de motiverle mod`ele de r´egression multiple.
I Si nous omettons un ou des facteurs qui ont un impact sur la variable d´ependante, l’estim´e de l’impact de la variable explicative d’int´erˆet peut ˆetre biais´e.
Biais dˆ u ` a une variable omise (suite)
I L’estimateur ˆβ1 est ´egal `a βˆ1 =β1+
1 n
Pn
i=1 Xi −X¯ ui
1 n
Pn
i=1 Xi −X¯2 .
I Modifions les hypoth`ese statistiques : 1
n
n
X
i=1
Xi−X¯
ui −→p Cov (u, X) = Corr (u, X)σuσX, et
1 n
n
X
i=1
Xi−X¯2 p
−
→σ2X.
Biais dˆ u ` a une variable omise (suite)
I On a βˆ1
−→p β1+Corr (u , X)σuσX
σ2X =β1+ Corr (u, X) σu
σX.
I L’estimateur ne converge plus `aβ1 en probabilit´e.
I Le signe du biais d´epend (mˆeme lorsquen → ∞) du signe de la corr´elation entre Xi et ui.
I Notez que dans ce cas-ci
E (ui|X =Xi)6= 0.
I S’il y a une variable dans la banque de donn´ees qui en principe pourrait affecter la variable d´ependante de l’´etude et qui risque d’ˆetre corr´el´ee avec une variable qui est incluse comme variable explicative dans le mod`ele, il y a probablement un probl`eme de variable omise.
Exemple
I Nous pouvons ˆetre encore plus explicite.
I Suppons que le vrai mod`ele est donn´e par Yi =β0+β1X1i+β2X2i +ui
I Le mod`ele estim´e est
Yi =β0+β1X1i + ˜ui
I Le terme d’erreur du mod`ele estim´e incorpore la variable omiseX2i avec le vrai terme d’erreurui.
Exemple (suite)
I Nous avons βˆ1=
1 n
Pn
i=1 X1i−X¯1
Yi −Y¯
1 n
Pn
i=1 X1i−X¯1
2 =
1 n
Pn
i=1 X1i −X¯1
β0+β1X1i+β2X2i +ui−β0−β1X¯1−β2X¯2−u¯
1 n
Pn
i=1 X1i −X¯1
2
=β1
1 n
Pn
i=1 X1i −X¯12 1
n
Pn
i=1 X1i −X¯1
2 +β2
1 n
Pn
i=1 X1i−X¯1
X2i−X¯2
1 n
Pn
i=1 X1i −X¯1
2
+
1 n
Pn
i=1 X1i −X¯1
(ui −u)¯
1 n
Pn
i=1 X1i−X¯12
Exemple (suite)
I ce qui doit enfin ˆetre ´egal `a
=β1+β2 1 n
Pn
i=1 X1i−X¯1
X2i−X¯2
1 n
Pn
i=1 X1i −X¯12
+
1 n
Pn
i=1 X1i−X¯1
(ui−u)¯
1 n
Pn
i=1 X1i −X¯1
2 .
I Calculant l’esp´erance de ˆβ1, nous obtenons E ˆβ1 =β1+β2E
1 n
Pn
i=1 X1i −X¯1
X2i −X¯2
1 n
Pn
i=1 X1i−X¯12
!
+E +
1 n
Pn
i=1 X1i −X¯1
E ((ui−u)¯ |X11,X12, . . . ,X1n)
1 n
Pn
i=1 X1i −X¯12
!
Exemple (suite)
I ce qui doit enfin ˆetre ´egal `a
=β1+β2E
1 n
Pn
i=1 X1i −X¯1
X2i −X¯2
1 n
Pn
i=1 X1i −X¯12
!
par la loi des esp´erances it´er´ees.
I En g´en´eral E
1 n
Pn
i=1 X1i−X¯1
X2i−X¯2
1 n
Pn
i=1 X1i −X¯12
! 6= 0.
I L’estimateur est biais´e, le biais ´etant donn´e par la valeur de l’esp´erance dans l’´equation pr´ec´edente.
Exemple (suite)
I Nous avons 1 n
n
X
i=1
X1i −X¯1
X2i −X¯2
qui est (presque) la covariance ´echantillonnale entre X1 et X2.
I Et
1 n
n
X
i=1
X1i−X¯1
2
est (presque) la variance ´echantillonnale deX1.
Exemple (suite)
I Si les deux expressions sont des estimateurs convergents de leurs ´equivalents dans la population, nous avons :
1 n
n
X
i=1
X1i −X¯1
X2i −X¯2 p
−→Cov (X1 , X2)
I et
1 n
n
X
i=1
X1i−X¯12 p
−
→Var (X1).
Exemple (suite)
I Th´eor`eme de Slutsky =>
βˆ1 −→p β1+β2Cov (X1 , X2) Var (X1)
I L’´ecart entre ˆβ1 et sa vraie valeur est approximativement
´
egale `a la vraie valeur de β2 fois le ratio de la covariance entre X1 etX2 et la variance de X1.
I Si on connaˆıt au moins le signe de β2 et de la covariance, on peut pr´edire le signe de cet ´ecart. Aussi, nous savons que
Cov (X1, X2) Var (X1)
est la valeur (asymptotique) du coefficient de pente d’une r´egression o`u X2 est la variable d´ependante et X1 est la variable explicative.
Mod` ele de r´ egression multiple
I Mod`ele :
Yi =β0+X1iβ1+X2iβ2+. . .+Xkiβk +ui.
I Version matricielle :
Y =Xβ+U,
I Il faut d´efinir les matrices/vecteurs (page suivante).
Mod` ele de r´ egression multiple (suite)
Y ≡
Y1 Y2 . . . Yn
0
X ≡
1 X11 X21 . . . Xk1
1 X12 X22 . . . Xk2 ... ... ... . .. ... 1 X1n X2n . . . Xkn
,
β ≡
β0 β1 β2 . . . βk 0
U ≡
u1 u2 . . . un
0
Estimateur MCO
I Probl`eme de minimisation : min
β U0U.
I Rempla¸cons U par sa d´efinition.
minβ (Y −Xβ)0(Y −Xβ).
I Equivalent `´ a :
minβ Y0Y −β0X0Y −Y0Xβ+β0X0Xβ .
Estimateur MCO (suite)
I CPOs (d´eriv´ee par rapport `a β) :
−X0Y −X0Y +X0Xβ+ X0X0
β = 0
⇒2X0Xβ−2X0Y = 0
⇒X0Xβ =X0Y.
I Nous avons k+ 1 ´equations lin´eaires pour trouver k+ 1 inconnus (les ´el´ements deβ).
I Nous appelons commun´ement ces ´equations les´equations normales.
Estimateur MCO (suite)
I Nous obtenons X0X−1
X0Xβ = X0X−1
X0Y =β.
I R´esultat fondamental :
βˆ= X0X−1
X0Y
Diff´ erentiation matricielle
I Application de :
y ∂y∂x
Ax A0 x0A A x0x 2x x0Ax Ax +A0x
I Etudiez bien la CPO pour comprendre pourquoi c’est une´ application de ces r`egles.
I Etudiez bien les exemples simples dans les notes.´
Approche non matricielle
I Le probl`eme est
β0,βmin1,...,βk
n
X
i=1
(Yi−β0−X1iβ1−X2iβ2−. . .−Xkiβk)2.
I CPOs :
β0 : 0 =−2
n
X
i=1
(Yi −β0−X1iβ1−. . .−Xkiβk) ;
βj : 0 =−2
n
X
i=1
Xji(Yi−β0−X1iβ1−. . .−Xkiβk) pour j 6= 0.
I k+ 1 ´equations (lin´eaires) enk+ 1 inconnus.
Approche non matricielle (suite)
I Nous obtenons
n
X
i=1
Yi =
n
X
i=1
(β0+X1iβ1+. . .+Xkiβk) ;
n
X
i=1
X1iYi =
n
X
i=1
X1i(β0+X1iβ1+. . .+Xkiβk) ;
n
X
i=1
X2iYi =
n
X
i=1
X2i(β0+X1iβ1+. . .+Xkiβk) ; . . .
n
X
i=1
XkiYi =
n
X
i=1
Xki(β0+X1iβ1+. . .+Xkiβk).
Approche non matricielle (suite)
I Nous pouvons maintenant convertir en notation matricielle.
1 . . . 1
Y1
... Yn
=
1 . . . 1 Xβ;ˆ
X11 . . . X1n
Y1
... Yn
=
X11 . . . X1n Xβ;ˆ ...
Xk1 . . . Xkn
Y1
... Yn
=
Xk1 . . . Xkn Xβ,ˆ
Approche non matricielle (suite)
I Onempile les k+ 1 ´equations les unes pardessus les autres :
1 . . . 1 X11 . . . X1n X21 . . . X2n
... ... ... Xk1 . . . Xkn
Y1
... Yn
=
1 . . . 1 X11 . . . X1n X21 . . . X2n
... ... ... Xk1 . . . Xkn
Xβˆ
⇒X0Y =X0Xβˆ
⇒βˆ= (X0X)−1X0Y.
I On obtient la mˆeme solution (pas surprenant).
Propri´ et´ es alg´ ebriques de l’estimateur MCO
I Plus facile de les d´eriver en notation matricielle.
I Orthogonalit´e : les ´equations normales sont X0Xβˆ=X0Y
⇒X0
Xβˆ−Y
= 0
⇒X0
Y −Xβˆ
= 0.
Y −Xβb≡Ub. Donc, nous avons :
X0Ub= 0.
I Une cons´equence directe est que la somme des r´esidus est
´
egale `a z´ero.
Orthogonalit´ e (suite)
I Mˆeme interpr´etation g´eom´etrique que dans le mod`ele de r´egression simple.
Figure 1
Propri´ et´ es alg´ ebriques (suite)
I D´efinissons
Yˆ ≡Xβ,ˆ
I Nous avons Yˆ0Ub=
X X0X−1
X0Y 0
Ub=Y0X X0X−1
X0Ub= 0.
I Les valeurs pr´edites de Y sont orthogonales aux r´esidus.
I Finalement, nous avons X0
Yb−Y
=X0
X X0X−1
X0Y −Y
=X0X X0X−1
X0Y −X0Y =X0Y −X0Y = 0.
I Cons´equence : la moyenne ´echantillonnale des valeurs pr´edites est ´egale `a ¯Y.
Ecart type de la r´ ´ egression
I On d´efinit
SER≡su, o`u
su2 ≡ 1 n−k−1
n
X
i=1
ˆ
u2i = SSR
n−k−1 = Ub0Ub n−k−1.
I Donc SSR est la somme des r´esidus au carr´e. On divise par (n−k−1) afin d’obtenir un estim´e non biais´e de la variance de l’erreur dans l’´equation de r´egression (si les erreurs sont homosc´edastiques).
Ajustement statistique
I La mesure R2 est d´efinie de la mˆeme fa¸con que dans le cas du mod`ele de r´egression simple :
R2= ESS
TSS = 1− SSR TSS, o`u on d´efinit
ESS≡
n
X
i=1
Yˆi −Y¯2
,
o`u ¯Y est la moyenne ´echantillonnale desYi, et TSS≡
n
X
i=1
Yi−Y¯2
Ajustement statistique (suite)
I Il faut montrer que TSS = ESS + SSR.
I Puisque Y ≡Yˆ +Ub, nous avons TSS = Y −Y¯0
Y −Y¯
=
Yˆ +Ub−Y¯0
Yˆ +Ub−Y¯
=
Yˆ−Y¯
+Ub 0
Yˆ −Y¯
+Ub
=
Yˆ−Y¯ 0
Yˆ−Y¯
+
Yˆ −Y¯ 0
Ub+Ub0
Yˆ −Y¯
+Ub0Ub
=
Yˆ −Y¯0
Yˆ −Y¯ +Ub0Ub
≡ESS + SSR, ce qui fut `a d´emontrer.
Ajustement statistique (suite)
I R2 est aussi ´egal `a la corr´elation (´echantillonnale) au carr´e entre Y et ˆY.
I Pour rendre la preuve plus facile, introduisons un peu de notation.
M0 ≡
I−i i0i−1
i0 .
I On a
M0Y =Y −Y,¯
M00=M0, et M0M0 =M0.
I M0 est une matrice idempotente.
Ajustement statistique (suite)
I Nous pouvons r´e´ecrire leR2 comme
R2 ≡ ESS TSS =
Yˆ −Y¯0
Yˆ −Y¯ Y −Y¯0
Y −Y¯
= Yˆ0M0Yˆ Y0M0Y. Nous avons aussi
M0Uˆ= ˆU puisque la somme des r´esidus est z´ero.
Ajustement statistique (suite)
I Donc, nous avons
Yˆ0M0Yˆ = ˆY0M0
Y −Uˆ
= ˆY0M0Y −Yˆ0M0Uˆ
= ˆY0M0Y −Yˆ0Uˆ
= ˆY0M0Y −βˆ0X0Uˆ (puisque ˆY ≡Xβ)ˆ
= ˆY0M0Y −0 = ˆY0M0Y
puisque X0Uˆ= 0 (orthogonalit´e entre les variables expicatives et les r´esidus).
Ajustement statistique (suite)
I Nous pouvons donc ´ecrire leR2 comme R2 = Yˆ0M0Y
Y0M0Y
= Yˆ0M0Y Y0M0Y
Yˆ0M0Y Yˆ0M0Y
(multipliant num´erateur et d´enominateur par la mˆeme chose)
=
Yˆ0M0Y Yˆ0M0Y (Y0M0Y)
Yˆ0M0Y
=
Yˆ0M0Y Yˆ0M0Y (Y0M0Y)
Yˆ0M0Yˆ .
Ajustement statistique (suite)
I On peut r´e´ecrire ceci en notation non matricielle pour obtenir Yˆ0M0Y Yˆ0M0Y
(Y0M0Y)
Yˆ0M0Yˆ =
Yˆ0M0M0Y Yˆ0M0M0Y (Y0M0M0Y)
Yˆ0M0M0Yˆ
=
Pn i=1
Yˆi−Y¯
Yi −Y¯2
Pn
i=1 Yi −Y¯2 Pn
i=1
Yˆi−Y¯ 2
=
1 n−1
Pn i=1
Yˆi −Y¯
Yi−Y¯2
1 n−1
Pn
i=1 Yi −Y¯2
1 n−1
Pn i=1
Yˆi −Y¯ 2
Ajustement statistique (suite)
=
1 n−1
Pn i=1
Yˆi−Y¯
Yi−Y¯ q 1
n−1
Pn
i=1 Yi−Y¯2
r
1 n−1
Pn i=1
Yˆi −Y¯2
2
≡ Corr
Y,Yˆ2
.
I Le R2 nous dit `a quel point le mod`ele de r´egression permet de pr´edire les variations de la variable d´ependante autour de sa moyenne (mesur´e par la corr´elation entre les valeurs pr´edites et les valeurs r´ealis´ees).
Ajustement statistique (suite)
I Dans le cas du mod`ele de r´egression simple, nous avons Yˆi−Y¯
= Xi−X¯βˆ1.
I Nous avons tout de suite
1 n−1
Pn i=1
Yˆi−Y¯
Yi −Y¯ q 1
n−1
Pn
i=1 Yi −Y¯2
r
1 n−1
Pn i=1
Yˆi −Y¯2
2
=
1 n−1
Pn i=1
Xi −X¯βˆ1
Yi−Y¯ q 1
n−1
Pn
i=1 Yi −Y¯2
r
1 n−1
Pn i=1
Xi−X¯βˆ12
2
Ajustement statistique (suite)
=
1 n−1
Pn
i=1 Xi −X¯
Yi −Y¯ q 1
n−1
Pn
i=1 Yi −Y¯2q
1 n−1
Pn
i=1 Xi−X¯2
2
≡ Corr (Y,X)2
⇒R2 = Corr (Y,X)2
.
I On voit que le r´esultat trouv´e dans le chapitre sur le mod`ele de r´egression simple n’est qu’un cas sp´ecial du r´esultat g´en´eral d´evelopp´e ici.
R
2ajust´ e
I Ajouter une variable explicative au mod`ele ne peut que faire augmenter R2.
I Avec autant de variables explicatives que d’observations ((k+ 1) =n), on aura R2 = 1.X est alors une matrice carr´ee et on a
0 =U =Y −Xβˆ
⇒Y =Xβ.ˆ
⇒βˆ=X−1Y.
I Donc, unR2 ´elev´e n’est pas toujours et partout une bonne chose.
R
2ajust´ e (suite)
I Une autre mesure qui p´enalisel’ajustement lorsqu’on ajoute des variables explicatives.
R¯2≡1− n−1 n−k−1
SSR
TSS = 1− su2ˆ sY2 .
I Trois propri´et´es importantes du ¯R2. 1. n−k−1n−1 >1, et donc ¯R2<R2.
2. Ajouter une variable explicative suppl´ementaire a deux effets sur ¯R2. 1) SSR doit baisser, ce qui fait augmenter ¯R2. 2) Le facteur n−kn−1−1 augmente, ce qui fait diminuer ¯R2. L’effet net est ambigu.
3. R¯2peut ˆetre n´egatif.
R
2ajust´ e (suite)
I La d´efinition du R2 ajust´e semble arbitraire.
I Elle a une justificationstatistique.
I Si on ajoute une variable explicative additionnelle Xk+1 `a un mod`ele, on peut tester sa significativit´e.
I Si la statistique t normalis´ee pour le test `a une valeur absolue sup´erieure `a 1, leR2 ajust´e augmente. Si non, il diminue.
I Nous allons revenir `a cette question apr`es la section sur les tests d’hypoth`ese.
Propri´ et´ es statistiques de l’estimateur MCO
I Hypoth`eses de base : 1. E (ui|Xi) = 0.
2. (Xi, Yi) i.i.d.
3. Xi etui ont des quatri`emes moments non nuls et finis.
4. X est de rang plein en colonnes. En fait, cette hypoth`ese est n´ecessaire pour que l’estimateur MCO existe.
I Hypoth`eses additionnelles : 1. Var (ui|Xi) =σ2u.
2. La distribution deui conditionnelle `a la valeur deXi suit une loi normale.
Absence de biais
I Nous avons
βˆ= (X0X)−1X0Y
= (X0X)−1X0(Xβ+U)
=β+ (X0X)−1X0U
→E βˆ
=β+ E (X0X)−1X0U
=β+ E (X0X)−1X0E (U|X)
=β.
La derni`ere ´egalit´e d´epend de la loi des esp´erances it´er´ees.
Th´ eor` eme de Slutsky
I Sous certaines conditions, Xn−→p X ⇒h(Xn)−→p h(X).
I En g´en´eral,
Zn=f (Xn,Yn), et si Xn
−→p X et Yn
−→p Y, alors Zn
−p
→f(X,Y).
I Convergence en probabilit´e et en distribution. Sian
−→p ao`u a est une constante et si Sn−→d S, alors
an+Sn−→d a+S, anSn−→d aS, et si a6= 0,
Sn
an
−→d S a.
Convergence
I Nous avons
βˆ= (X0X)−1X0Y
= (X0X)−1X0(Xβ+U)
=β+ (X0X)−1X0U
→ βˆ−β
=
(X0X) n
−1 (X0U)
n
Nous avons divis´e et multipli´e par le scalaire n afin de pouvoir parler de convergence en probabilit´e. (Xn0X) est une matrice dont l’´el´ement i,j est donn´e par
Xi0Xj n = 1
n
n
X
l=1
Xi−1,lXj−1,l.
Convergence (suite)
I Par une des hypoth`eses du mod`ele de r´egression multiple, nous avons
n→∞lim Xi0Xj
n = E Xi0Xj .
I Ceci veut dire qu’il y a convergence en probabilit´e vers l’esp´erance deXi0Xj. Donc, (Xn0X) converge en probabilit´e `a Qx, qui est d´efinie comme
Qx ≡E X0X
n
.
I Donc, le premier terme converge en probabilit´e `a (Qx)−1
Convergence (suite)
I Le 2e terme converge en probabilit´e `a z´ero. Voici l’argument.
E
(X0U) n
= E
(X0E (U|X)) n
= 0.
I Si on consid`ere l’i`eme colonne de la matrice X, nous avons Var
1 nXi0U
= 1
n 2
Var Xi0U
= 1
n 2
Var
n
X
l=1
Xi−1,lUl
!
= 1
n 2 n
X
l=1
Var (Xi−1,lUl). D´efinissonsXi−1,lUl ≡Vi,l. Nous avons
Var 1
nXi0
U
= 1
n 2 n
X
l=1
Var (Vi,l) = 1
n 2
nVar (Vi)
= 1
n
Var (Vi).
Convergence (suite)
I Avec une esp´erance de z´ero et une variance qui tend vers z´ero, on a (presque) la preuve de la convergence :
(X0U) n
−p
→0.
I Les hypoth`eses du th´eor`eme de Slutsky sont satisfaites, donc la limite de probabilit´e du produit est le produit des limites de probabilit´e. Donc, nous avons :
βˆ−β p
−
→0.
Covariances en notation matricielle
I Notation matricielle pour les covariances. Consid´erons (Y −E(Y)) (Y −E(Y))0.
I L’´el´ement (i,j) est :
(Yi−E (Yi)) (Yj −E (Yj)).
I Donc son esp´erance est une covariance (variance si i =j).
E ((Yi−E (Yi)) (Yj −E (Yj)))
I Donc, la matrice suivante contient toutes les variances et covariances possibles entre les ´el´ements de Y.
E (Y −E(Y)) (Y −E(Y))0 .
Distribution ´ echantillonnale de ˆ β
I Nous avons √
n
βˆ−β
=
(X0X) n
−1 (X0U)
√n
.
I Nous avons d´ej`a vu que E
βˆ−β
= 0.
I Donc, une expression qui nous donne la matrice de variance-covariance de√
n βˆ−β
est donn´ee par :
E
n
βˆ−β βˆ−β 0
Distribution ´ echantillonnale de ˆ β (suite)
I Nous devons examiner le comportement en grand ´echantillon de
(X0X) n
−1 (X0U)
√n
!
(X0X) n
−1 (X0U)
√n !0
=
(X0X) n
−1 (X0U)
√n
(X0U)
√n 0
(X0X) n
−1
.
I Nous avons d´ej`a vu que(X0X) n
−1 p
−→(Qx)−1. Regardons (X0U)
√n
(X0U)
√n 0
.
Distribution ´ echantillonnale de ˆ β (suite)
I Nous avons :
(X0U) =
n
X
i=1
ui
X1iui X2iui
... Xkiui
≡
n
X
i=1
Vi.
I Selon leKey Concept 18.1, les Vi sont i.i.d., donc 1
n
n
X
i=1
Vi
−→p 0,
√1 n
n
X
i=1
Vi −→d N(0, ΣV), ΣV ≡E ViVi0
.
Distribution ´ echantillonnale de ˆ β (suite)
I Donc (th´eor`eme de Slutsky)
√n
βˆ−β d
−→N 0k+1 , Qx−1
ΣVQx−1 ,
Cas homosc´ edastique
I Nous pouvons ´ecrire
E UU0
=σ2uIn. Nous avons
(X0U)
√n
(X0U)
√n 0
=
X0UU0X n
p
−→E 1
nσ2uX0InX
= E 1
nσ2uX0X
=σ2uQx.
I Donc
√n
βˆ−β d
−→N 0k+1 , σu2Qx−1QxQx−1
=N 0k+1, σu2Qx−1 .
Estimateurs convergents
I Nous rempla¸cons QX avec
Qˆx ≡ (X0X) n .
I Nous rempla¸cons ΣV avec ΣˆV ≡ 1
n−k−1
n
X
i=1
XiXi0( ˆui)2
I Nous pouvons finalement ´ecrire βˆ≈N
β , 1
n
Qˆx−1
Σˆv
Qˆx−1
≡N
β , Σˆβˆ .
Cas homosc´ edastique
I Un estimateur convergent de σu2 est donn´e par su2 ≡ 1
n−k−1
n
X
i=1
ˆ ui2.
Nous utilisons le mˆeme estimateur deQx, et donc βˆ≈N
β , 1
n
Qˆx−1
su2
Qˆx Qˆx−1
≡N
β , Σ˜βˆ ,
βˆ≈N
β , 1 nsu2
Qˆx−1
≡N
β , Σ˜βˆ ,
Gauss-Markov
I Dans le cas homosc´edastique, si ˜β est n’importe quel estimateur lin´eaire et non biais´e de β, il faut que
Var
c0βˆ
≤Var
c0β˜
pour toute combinaison lin´eairec0β.
I Il y a une preuve dans la section 18.5 du manuel.
I Notez que cette preuve ne suppose pas la normalit´e du terme d’erreur. Voir Giles (2011b).
I Il y a aussi une preuve simple si on suppose que les variables explicatives X sont fixes ou non stochastiques. Voir la page suivante.
Gauss-Markov : preuve
I Soit ˜β=CY un autre estimateur lin´eaire de β.
I On suppose que C peut s’´ecrireC = (X0X)−1X0+D o`u D est une matrice non nulle.
I Nous avons
E(CY) =E
X0X−1
X0+D
(Xβ+U)
=
X0X−1
X0+D
Xβ+E
X0X−1
X0+D U
=β+DXβ+E
X0X−1
X0+D
E(U|X)
=β+DXβ
Gauss-Markov : preuve (suite)
I Nous voulons prouver que ˆβ a la plus petite variance parmi les estimateursnon biais´es. Il faut donc queDX = 0
I Nous avons
Var(CY|X,D) =CVar(Y|X,D)C0
=CVar(U|X)C0 =σ2uCC0
=σ2u
X0X−1
X0X X0X−1
+ X0X−1
X0D0 +DX X0X−1
+DD0
=σu2 X0X−1
+σu2DD0 o`u DD0 est positive semi-d´efinie.
Gauss-Markov : preuve (suite)
I Nous avons
Var β˜
−Var βˆ
=σ2uDD0
⇒Var c0β˜
−Var c0βˆ
=σ2uc0DD0c ≥0, ce qui fut `a d´emontrer.
Tests d’hypoth` eses simples par rapport ` a un seul coefficient
I Nous utilison la statistiquet donn´ee par t =
βˆi −βiH0 sβˆ
i
.
I Toutela discussion du chapitre sur la statistique et l’inf´erence s’applique. Nous avons
t∼N(0, 1).
I Si H1 :βi 6=βiH0 nous avons
Φ (−|ta|) = Pr (t ≤ −|ta|)
= Pr t≤ −
βˆi−βiH0 sβˆ
i
! .
Tests d’hypoth` eses simples : H
1unilat´ erale 1
I On a
H0 :βi =βiH0 et
H1 :βi > βiH0,
I Lap-value du test est donn´ee par p= Pr z >tact
= 1−Φ tact .
Tests d’hypoth` eses simples : H
1unilat´ erale 2
I On a
H0 :βi =βiH0 et
H1 :βi < βiH0,
I Lap-value du test est donn´ee par p= Pr z <tact
= Φ tact .
Tests par rapport ` a une combinaison lin´ eaire de coefficients
I Mod`ele en notation non matricielle :
Yi =β0+X1iβ1+X2iβ2+. . .+Xkiβk +ui.
I Nous voulons tester la restriction suivante : H0 : β1+β2 = 1, contre
H1 : β1+β2 6= 1.
Combinaison lin´ eaire de coefficients (suite)
I Version ´equivalente au mod`ele original :
Yi =β0+X1i(β1+β2) + (X2i−X1i)β2+. . .+Xkiβk+ui.
I Nous pouvons r´e´ecrire le mod`ele comme
Yi =β0+X1iγ1+Ziβ2+. . .+Xkiβk +ui, o`u Zi ≡X2i −X1i et γ1 ≡β1+β2.
I Tester H0 : β1+β2 = 1 revient `a testerH0: γ1= 1.
Les tests s´ equentiels ne sont pas valides
I Supposons que nous voulons tester l’hypoth`ese jointe suivante :
H0 : β1=β2= 0.
contre
H1 : ∃i, i = 1,2 tel que βi 6= 0.
I Pourquoi pas tester les 2 hypoth`eses de fa¸con s´equentielle ? t1 = βˆ1−β1H0
sβˆ1
,
t2 = βˆ2−β2H0 sβˆ2
.
I On pourrait rejeter si une des deux hypoth`eses est rejet´ee par un test d’hypoth`ese simple.
Les tests s´ equentiels ne sont pas valides (suite)
I Le probl`eme avec cette id´ee est qu’il s’agit de distributions de probabilit´e jointes.
I Prenons le cas simple o`u les 2 coefficients sont ind´ependamment distribu´es.
I Dans les deux cas, on ne rejetterait pas l’hypoth`ese nulle `a un niveau de significativit´e marginal de 5% si |t1|<1.96 et
|t2|<1.96.
I La probabilit´e d’obtenir au moins un rejet en effectuant deux tests si les hypoth`eses nulles sont vraies serait ´egale `a 1−0.952.
I Il faudrait au moins ajuster le niveau de significativit´e marginal.
Test Bonferroni
I L’annexe (7.1) du livre d´ecrit une fa¸con d’ajuster les niveaux de significativit´e marginaux pour tenir compte de la
corr´elation non nulle entre les coefficients.
I Cette m´ethodologie peut ˆetre utile dans certains cas,
notamment lorsqu’on lit les r´esultats de r´egressions rapport´es dans des articles publi´es ou des cahiers de recherche o`u onne donne pasla matrice variance-covariance compl`ete des coefficients estim´es.
Test Bonferroni
I Choisir une valeur critique o`u la probabilit´e de rejeter H0 ne d´epasse pas la probabilit´e de la rejeter si on tient compte de la non-ind´ependance entre les hypoth`eses faisant partie de l’hypoth`ese jointe.
I On rejetteH0 si on rejette au moins une des hypoth`eses individuelles.
I Cas de 2 hypoth`eses simples : appelonsA l’´ev´enement que nous rejetons la premi`ere hypoth`ese, etB l’´ev´enement que nous rejetons la 2e hypoth`ese simple :
Pr (A∪B)≤Pr (A) + Pr (B),
I Avec des p-values identiques, on va choisir desp-values tel que leur somme soit ´egale `a la p-value d´esir´ee du test joint.
I Le test Bonferroni est tr`es conservateur : minimiser la probabilit´e de rejeter H0 (jointe) lorsqu’elle est vraie.
Tests d’hypoth` eses jointes
I Reprenons l’exemple de la sous-section pr´ec´edente.
L’hypoth`ese nulle `a tester est
H0 : β1+β2 = 1,
I Nous pouvons ´ecrire cette hypoth`ese sous forme matricielle de la fa¸con suivante :
0 1 1 0 . . . 0
β0
β1 β2
β3
... βk
= 1
I Ceci est de la forme :
Rβ=r,
Tests d’hypoth` eses jointes (suite)
I Prenons un cas o`u le nombre d’hypoth`eses est ´egal `a deux.
H0:β1=β2= 0 et
H1 :∃i, i = 1,2 tel que βi 6= 0.
I Sous forme matricielle, nous avons
H0 :
0 1 0 0 . . . 0 0 0 1 0 . . . 0
β0 β1
β2 β3 ... βk
= 0
0
.
Tests d’hypoth` eses jointes (suite)
I On peut montrer que la statistique suivante ob´eit, (en grand
´
echantillon et sous H0) `a une loiFq,∞ : F ≡
Rβˆ−r0h
RΣˆβˆR0i−1
Rβˆ−r /q.
I Ici, on aq le nombre de restrictions que l’on veut tester et ˆΣβˆ
la matrice variance-covariance de l’estim´e ˆβ.
I Dans l’exemple que nous venons d’´etudier, q= 2, et donc F −→d Fq,∞.
I La plupart des logiciels de r´egression, dontRoffrent la possibilit´e de sp´ecifier les ´equivalents deR et r afin de tester des hypoth`eses jointes quelconques.
Une seule restriction comme cas sp´ ecial
I Dans les cas q = 1, la statistiqueF est le carr´e de la statistique t.
I Nous ne pouvons pas faire la distinction entre une statistique t qui serait grande en valeur absolue et n´egative et une statistique t grande en valeur absolue et positive.
I Pour illustrer l’´equivalence prenons l’exempleH0:β1= 0.
Sous forme matricielle
0 1 0 . . . 0
β0 β1
β2 ... βk
=β1 = 0.
Une seule restriction comme cas sp´ ecial (suite)
I Nous avons dans ce cas
F =
βˆ1−0
0 1 0 . . . 0 Σˆβˆ
0 1 0 ... 0
−1
βˆ1−0
.
I On peut montrer (exercice) que
0 1 0 . . . 0 Σˆβˆ
0 1 0 ... 0
= ˆσ2ˆ
β1,
Une seule restriction comme cas sp´ ecial (suite)
I Donc, nous avons
F = βˆ1−0 sβˆ
1
!2
=t2.
I Deuxi`eme exemple :
H0 :β1+β2= 1.
I Sous forme matricelle :
0 1 1 0 . . . 0
β0
β1 β2 β3
... βk
=β1+β2 = 1.
Une seule restriction comme cas sp´ ecial (suite)
I Dans ce cas
F =
βˆ1+ ˆβ2−1
0 1 1 0 ... 0
0
Σˆβˆ
0 1 1 0 ... 0
−1
βˆ1+ ˆβ2−1
.
I On peut v´erifier que
0 1 1 0 . . . 0 Σˆβˆ
0 1 1 0 ... 0
=s2ˆ
β1+s2ˆ
β2+ 2sβˆ
1,βˆ2
Une seule restriction comme cas sp´ ecial (suite)
I Ici, sβˆ
1,βˆ2 est l’´el´ement hors-diagonale de la matrice
variance-covariance, un estim´e convergent de la covariance entre ˆβ1 et ˆβ2.
I Il s’agit donc de l’estimateur convergent de la variance de βˆ1+ ˆβ2.
I La statistique F devient
F =
βˆ1+ ˆβ2−12
s2ˆ
β1+s2ˆ
β2+ 2sβˆ1,βˆ2
=t2.
I On voit l’´equivalence entre la statistique F et le carr´e de la statistique t.
Significativit´ e de la r´ egression
I Souvent, on veut tester l’hypoth`ese nulle selon laquelle tous les coefficients de la r´egression sauf la constante sont ´egaux
` a z´ero.
I Nous pouvons ´ecrire cette restriction sous forme matricielle sans probl`eme avec
R =
0 1 0 0 . . . 0 0 0 1 0 . . . 0 0 0 0 1 . . . 0 ... ... ... ... . .. ...
0 0 0 0 . . . 1
,
et
r =
0 0 0 ... 0
.
Cas homosc´ edastique
I Rien de diff´erent par rapport au cas g´en´eral. On remplace ˆΣβˆ par ˜Σβˆ.
I Donc, nous avons : F ≡
Rβˆ−r0h
RΣ˜βˆR0i−1
Rβˆ−r /q,
I Alternative : estimer le mod`ele sous l’hypoth`ese nulle et sous l’hypoth`ese alternative, et utiliser la formule suivante :
F = (SSRrestricted −SSRunrestricted)/q SSRunrestricted/(n−kunrestricted −1).
Cas homosc´ edastique (suite)
I Formule ´equivalente :
F = Runrestricted2 −Rrestricted2 /q 1−Runrestricted2
/(n−kunrestricted −1),
I Vous devriez montrer alg´ebriquement comment passer de la premi`ere `a la deuxi`eme version de ce test. La d´emonstration est en fait tr`es simple.
I Nous n’allons pas montrer formellement pourquoi les statistiques F dans le cas homosc´edastique peuvent ˆetre
´
ecrites sous cette forme. Voir par exemple Greene (2000).