ECO 4272: Introduction `a l’ ´ Econom´etrie Examen final: R´eponses
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal
c 2014, Steve Ambler Automne 2014
1 R´eponses courtes (20 points)
1. Les estim´es βˆ1 et ˆγ doivent ˆetre identiques. C’est le th´eor`eme Frisch- Waugh-Lovell qui garantit ce r´esultat. C’est un autre r´esultat alg´ebrique qui est ind´ependant des caract´eristiques statistiques des donn´ees. Voir l’en- cadr´e sur la r´egression partitionn´ee qui commence `a la page 52 du chapitre sur le mod`ele de r´egression multiple. Nous avons aussi invoqu´e ce r´esultat dans le chapitre sur les tests diagnostics dans le contexte des diagrammes de variables ajout´ees. Lorsqu’on r´egresse une variable d´ependante purge´e des effets d’une variable (X2 ici) sur une variable explicative purg´ee des effets de la mˆeme variable (X2), on doit retrouver le mˆeme coefficient es- tim´e que si on avait inclus la variable (X2) dans le mod`ele.
2. Lorsqu’on veut tester des hypoth`eses jointes, il n’est pas possible de tes- ter contre des alternatives unilat´erales. Donc la r´eponse est non. On construit une statistiqueF pour tester une hypoth`ese jointe. Par construc- tion, la contribution d’une d´eviation plus grande deβˆ1ou deβˆ2par rapport
`a l’hypoth`ese nulle, peu importe son signe, va faire augmenter la taille de la statistique F calcul´ee, qui est toujours positive. On ne peut distinguer entre une d´eviation positive par rapport `aH0versus une d´eviation n´egative par rapport `aH0.
3. La d´efinition duR¯2est
R¯2 ≡1− n−1 n−k−1
SSR TSS.
L’ajout d’une variable doit faire diminuer la valeur de SSR, ce qui fait augmenter R¯2. Si on compare l’estimation du mod`ele avec une variable additionnelle avec l’estimation du mod`ele sans cette variable, l’estimation du dernier mod`ele revient `a r´esoudre un probl`eme de miminisation avec une contrainte additionnelle. Pour cette raison, la somme des r´esidus au carr´e doit ˆetre au moins aussi ´elev´ee. L’ajout d’une variable fait augmenter la valeur dek, le nombre de variables explicatives `a part la constante, ce qui a pour effet de faire baisser la valeur duR¯2. L’impact net est ambigu. Nous avons vu que l’ajout d’une variable fait augmenter le R¯2 si et seulement si la statitiquet pour tester sa significativit´e est sup´erieure `a un en valeur absolue. Il ne fallait pas ´ecrire ceci pour avoir tous les points.
4. Faux. Il d´epend aussi de la valeur du coefficient associ´e `a la variable omise et des variances de la variable incluse et de la variance omise. Voir l’ex- pression `a la page 7 des notes de cours sur le mod`ele de r´egression mul- tiple. S’il y a plusieures variables incluses et une variable omise c’est en- core plus compliqu´e : voir le r´esultat `a la page 52 des notes de cours. Notez que la question porte sur latailledu biais et non seulement sur le signe.
2 Estimateur MCO (20 points)
1. On trouve l’estimateur MCO en choisissant les valeurs des param`etres qui minimisent la somme des erreurs au carr´e. Le probl`eme peut s’´ecrire
βmin1,β2
n
X
i=1
(ui−u)¯ 2
!
ou (en substituant(ui−u))¯ min
β1,β2
Xn
i=1
Yi−Y¯
−β1 X1i−X¯1
−β2 X2i−X¯2 2 . Les variables de choix sont bien sˆurβ1 etβ2.
2. Les CPOs par rapport aux choix de β1 et de β2 peuvent s’´ecrire comme suit.
β1 :−2
n
X
i=1
X1i−X¯1
Yi−Y¯
−β1 X1i−X¯1
−β2 X2i−X¯2
= 0
⇒
n
X
i=1
X1i−X¯1
Yi−Y¯
−β1 X1i−X¯1
−β2 X2i−X¯2 = 0;
β2 :−2
n
X
i=1
X2i−X¯2
Yi−Y¯
−β1 X1i−X¯1
−β2 X2i−X¯2
= 0
⇒
n
X
i=1
X2i−X¯2
Yi−Y¯
−β1 X1i−X¯1
−β2 X2i−X¯2 = 0.
3. On peut tout simplement ´ecrire
(X0X)β−X0Y = 0
⇒βˆ= (X0X)−1X0Y.
Il n’´etait pas n´ecessaire de red´eriver les CPOs en notation matricielle. Il fallait tout simplement ´ecrire cette ´equation. Si on voulait ´elaborer un peu plus, on pourrait noter que la premi`ere CPO peut se r´e´ecrire comme suit :
n
X
i=1
X1i −X¯1
Yi−Y¯
=β1
n
X
i=1
X1i−X¯12
+β2
2
X
i=1
X1i −X¯1
X2i−X¯2 , que l’on peut r´e´ecrire en notation matricielle comme
X10
Y =
X10X1 X10X2 β1
β2
.
De mani`ere semblable, la deuxi`eme CPO peut se r´e´ecrire comme X20Y =
X20
X1 X20
X2
β1
β2
.
Mettant ensemble les deux ´equations, on obtient en notation matricielle X10
X20
Y =
X10X1 X10X2 X20X1 X20X2
β1 β2
ou
X0Y = (X0X)β, ce qui donne directement
βˆ= (X0X)−1X0Y.
4. `A partir des CPOs sous forme matricielle on a directement βˆ=
X10X1 X10X2 X20
X1 X20
X2
−1 X10Y X20
Y
. Utilisant la formule fournie on peut r´e´ecrire
βˆ= 1
X10X1X20X2−(X10X2)2
X20
X2 −X10
X2
−X20X1 X10X1
X10
Y X20Y
=
X20X2X10Y−X10X2X20Y X10X1X20X2−(X10X2)2
X10X1X20Y−X20X1X10Y X10X1X20X2−(X10X2)2
puisqueX10X2 =X20X2 (les deux sont scalaires).
5. La solution est d´ej`a presque sous forme de variances et covariances. Nous avons (en divisant les num´erateurs et les d´enominateurs par(n−1)2),
βˆ=
1
n−1X20X2 1
n−1X10Y−n−11 X10X2 1 n−1X20Y
1
n−1X10X1 1
n−1X20X2−(n−11 X10X2)2
1
n−1X10X1 1
n−1X20Y−n−11 X20X1 1 n−1X10Y
1
n−1X10X1 1
n−1X20X2−(n−11 X10X2)2
=
Var(X2)Cov(X1,Y)−Cov(X1,X2)Cov(X2,Y)
Var(X1)Var(X2)−
Cov(X1,X2) 2
Var(X1)Cov(X2,Y)−Cov(X1,X2)Cov(X1,Y)
Var(X1)Var(X2)−
Cov(X1,X2)2
.
Notez que puisque nous avons soustrait les moyennes ´echantillonnales de Y, de X1 et deX2, les moments bruts ici sont aussi des moments centr´es (des variances et descovariances). Il y a eu beaucoup de r´eponses qui ont appliqu´e un op´erateur d’esp´erance `a la solution de la sous-question pr´ec´edente. Notez bien que le questionnaire vous demande d’exprimer la solution comme une fonction de variances et de covariances ´echantillo- nnales. Cela veut dire qu’`a ce stade-ci il y a plusieurs personnes qui n’ont pas compris la diff´erence entre un moment dans la population et un mo- ment ´echantillonnal.
3 Mod`ele de r´egression multiple (45 points)
1. La statistique calcul´ee pour tester la significativit´e de la r´egression a une distribution F (q, n−k−1) (sous les hypoth`eses d’homosc´edasticit´e et de normalit´e de l’erreur, ce que la plupart des logiciels prennent comme des hypoth`eses par d´efaut). Donc, on a
n−k−1 = 3541.
Aveck = 3, on an= 3545.
2. Pour chaque coefficient estim´eβˆi, l’hypoth`ese nulle estH0 :βi = 0contre H1 bilat´erale. La statistique t `a utiliser pour effectuer le test sera dans chaque cas
tact=
βˆi−0
˜ σβˆ
1
.
J’ai ´ecrit˜σβˆ1puisque les r´esultats ont ´et´e produits avec la matrice variance- covariance non robuste. Lap-value dans chaque cas sera
p= 2Φ − tact
.
L’estim´e βˆ0 n’est pas significatif. Son ´ecart type est plus grand que sa valeur estim´ee. Autrement dit
p= 2Φ
−
5.41 7.50
>0.05.
En fait
p= 2Φ
−
5.41 7.50
>0.10.
Doncβˆ0 n’est pas significatif `a 10% (et donc a fortiori il n’est pas signifi- catif `a 5% et `a 1% non plus).βˆ1 a une valeur un peu plus de deux fois son
´ecart type. ´Etant donn´ees les valeurs deΦ (·)dans le pr´eambule du ques- tionnaire, il est donc significatif `a un niveau de 5% mais non `a un niveau de 1%. Autrement dit
p= 2Φ
−
1.42 0.65
<0.05 mais
p= 2Φ
−
1.42 0.65
>0.01.
La valeur estim´ee de βˆ2 est au moins trois fois son ´ecart type. Il est donc significatif `a 1%, et donc aussi `a 5% et `a 10%. Autrement dit,
p= 2Φ
−
−0.97 0.32
<0.01.
La valeur estim´ee de βˆ3 est de loin inf´erieure `a deux fois son ´ecart type.
En fait, sans calculatrice on peut voir tout de suite que 0.460.35 < 1.33. Il est non significatif `a un niveau de 5%. Il est non significatif aussi `a 10%. Il ne fallait pas dire ceci, puisique je ne vous ai pas fourni
Φ (−1.64)≈0.05 et donc
p= 2Φ
−
0.46 0.35
>0.1.
3. On pourrait utiliser une ou plusieur des mesures ´etudi´ees dans le chapitre sur les tests dignostics, par exemple : regarder un graphique des r´esidus contre les valeurs pr´edites de la variable d´ependante, un graphique des r´esidus contre les variables explicatives (une `a la fois), des diagrammes de variables ajout´ees, des diagrammes de r´esidus partiels, les mˆemes gra- phiques que les graphiques pr´ec´edents mais utilisant les r´esidus norma- lis´es, un calcul des hat values des observations, des mesures de par combien les valeurs pr´edites de Y changent lorsqu’on laisse tomber l’i`eme observation (DFFITiou DFFITSi), des mesures de par combien les coefficients estim´es changent lorsqu’on laisse tomber l’i`eme observation (DFBETASj,(i)), les distances de Cook, etc.
4. On peut utiliser la commande (dans Rou un autre logiciel semblable) le test Breusch-Pagan (appliqu´e au mod`ele estim´e), qui par d´efaut utilise les r´esidus normalis´es, ou on peut tout simplement estimer un mod`ele qui a comme variable d´ependante les r´esidus au carr´e du mod`ele estim´e et les mˆemes variables explicatives que le mod`ele estim´e. Dans le deuxi`eme cas, on teste la significativit´e de la r´egression avec une statistique F. C’est essentiellement ce que fait le test Breusch-Pagan aussi. On peut aussi ef- fectuer un test White, qui ajoute des polynˆomes des variables explicatives
`a la r´egression avec les r´esidus au carr´e comme variable d´ependante.
5. L’hypoth`ese nulle est
H0 :β1 =β2 =β3 = 0.
L’hypoth`ese alternative est
H1 :β1 6= 0et/ouβ2 6= 0 et/ouβ3 6= 0.
6. Elle peut s’´ecrire
0 1 0 0 0 0 1 0 0 0 0 1
β0 β1 β2 β3
=
0 0 0
7. Il faut ´ecrire la statistiqueF `a partir de l’hypoth`ese nulle ´ecrite sous forme matricielle. L’hypoth`ese nulle peut s’´ecrire
0 0 1 0 0 0 0 1
β0 β1 β2 β3
= 0
0
qui est de la forme
Rβ =r.
La statistique F devient (pas n´ecessaire de s’en souvenir pour avoir les points)
F2,∞=
Rβˆ−r0
RΣˆβˆR0 Rβˆ−r /q.
8. Oui, mais pour que la statistique F soit valide il faut que les erreurs du mod`ele soient homosc´edastiques. Le mod`ele `a estimer serait
Yi =β0+β1X1i+ ˜ui.
On pourrait utiliser lesR2des deux mod`eles ou lesSSRdes deux mod`eles pour calculer la statistiqueF.
9. Pour un changement donn´e (∆X2) on a
∆ ˆY = ˆβ2∆X2
comme changement pr´edit. Nous avons tout de suite Var
Yˆ
= (∆X2)2Var βˆ2 et donc en termes d’´ecart type
SE
∆ ˆY
= ∆X2SE βˆ2
. Donc l’intervalle de confiance peut s’´ecrire
∆ ˆY = ∆X2βˆ2±z∆X2σˆβˆ
2
o`uσˆβˆ
2 est comme d’habitude un estimateur convergent de l’´ecart type de βˆ2.
10. Dans la mesure o`u la vraie valeur deβ4 est positive, le changement capte le fait qu’il doit y avoir un biais de variable omise dans le mod`ele initial.
Si la covariance entre X1 etX4 est positive et l’impact de X4 sur Y est positive, dans le mod`ele inital βˆ2 capte l’effet direct deX1 surY et aussi partiellement l’effet de X4 sur Y. Donc βˆ1 est biais´e vers le haut et sa valeur diminue lorqu’on ajouteX4au mod`ele comme variable explicative.
11. Le R2 doit augmenter puisque le nouveau probl`eme de minimisation des erreurs au carr´e a une contrainte de moins que le probl`eme initial.
12. L’effet est ambigu en g´en´eral. Par contre, on dit dans l’´enonc´e de la sous- question (10) que βˆ4 est significatif. S’il est significatif `a des niveaux conventionnels (donc `a 10% au moins sinon 5% ou 1%), on sait que la statistiquetassoci´ee `a ce test de significativit´e est ´egale `a au moins un en valeur absolue. Donc, on sait que dans ce cas particulier le R¯2 doit aug- menter.
4 Mod`eles de r´egression non lin´eaires (25 points)
1. Non, le mod`ele est lin´eaire dans les param`etres et non lin´eaire seulement dans les variables. Yi est une fonction lin´eaire de chacun des param`etres.
Nous avons
∂Yi
∂β0 = 1,
ce qui n’est pas une fonction des param`etres. De fac¸on similaire,
∂Yi
∂β1
=X1i,
∂Yi
∂β2 =X1i2,
∂Yi
∂β3 =X3i,
et ∂Yi
∂β4 =X1iX2i.
Toutes ces d´eriv´ees partielles ne d´ependent pas des param`etres du mod`ele.
2. Nous avons
Yˆ2 = ˆβ0+ ˆβ1X12+ ˆβ2X122+ ˆβ3X21+ ˆβ4X12X21 et
Yˆ1 = ˆβ0+ ˆβ1X11+ ˆβ2X112+ ˆβ3X21+ ˆβ4X11X21
Si nous soustrayons la deuxi`eme ´equation de la premi`ere nous obtenons
∆ ˆY = ˆβ1∆X1+ ˆβ2 X122−X112
+ ˆβ4X21∆X1. Utilisant l’approximation dans l’´enonc´e nous obtenons
∆ ˆY = ˆβ1∆X1+ 2 ˆβ2∆X1X11+ ˆβ4X21∆X1. 3. Nous avons
∆ ˆY
∆X1 = ˆβ1+ 2X11βˆ2+X21βˆ4
=
0 1 2X11 0 X21 βˆ≡δ0β.ˆ
Nous avons
Var δ0βˆ
=Var
δ0
βˆ−β
=E
δ0
βˆ−β βˆ−β0
δ
=δ0E
βˆ−β βˆ−β0 δ
=δ0Σβˆδ
o`uΣβˆest la matrice variance-covariance des param`etres estim´es. Rempla- c¸antΣβˆpar un estimateur convergent, nous avons donc
SE ∆ ˆY
∆X1 ≈ q
δ0Σˆβˆδ.
Ceci permet d’´ecrire l’intervalle de confiance comme
∆ ˆY = ∆X1δ0βˆ±z∆X1 q
δ0Σˆβˆδ
o`uz >0est la r´ealisation d’une variable al´eatoire normale centr´ee r´eduite tel que
Pr(−z <0< z) =X/100 o`uXest le niveau de confiance voulu.
4. Il faut ´ecrire le mod`ele pour qu’un des coefficients soit ´egal `a β1+ 2X11β2+X21β4
et, pour que ce soit un mod`ele ´equivalent, il faut soustraire tous les termes qu’on ajoute. Un choix naturel serait d’associer ce nouveau coefficient `a la variableX1i. Nous obtenons ainsi le mode`ele
Yi =β0 + (β1+ 2X11β2+X21β4)X1i+β2 X1i2−2X11X1i +β3X2i+β4(X1iX2i−X21X1i) +ui.
≡β0 +γX1i+β2Z1i+β3X2i+β4Z1i+ui
o`u γ, Z1i et Z2i ont les d´efinitions ´evidentes. Une fois ce mod`ele estim´e, c’est l’estim´e de l’´ecart type de γˆ qui permet de calculer l’intervalle de confiance, que l’on peut ´ecrire comme
∆ ˆY = ∆X1γˆ±z∆X1σˆγˆ
o`uσˆγˆ est l’estim´e de l’´ecart type fourni directement par le logiciel qu’on utilise (cet estim´e sera normalement l’estim´e robuste de l’ecart type).
5. Il est n´ecessaire de calculer l’´ecart type de βˆ1+ 2X11βˆ2+X21βˆ4
afin de calculer l’intervalle de confiance. Donc l’hypoth`ese nulle `a tester serait
H0 :β1+ 2X11β2+X21β4 = 0 avec
H1 :β1+ 2X11β2+X21β4 6= 0.
Sous forme matricielle : Rβ =
0 1 2X11 0 X21
β =r= 0 avec
H1 :Rβ 6= 0.
Le logiciel va calculer la statistiqueF, et nous savons que
Fact =t2 = δ0βˆ ˆ σδ0βˆ
!2
⇒σˆδ0βˆ=
δ0βˆ
√Fact .
Nous pouvons utiliser ce r´esultat pour ´ecrire l’intervalle de confiance :
∆ ˆY = ∆X1δ0βˆ±z∆X1σˆδ0βˆ.
5 Convergence (15 points en bonus)
J’ai conc¸u cette question pour qu’elle soit relativement facile si vous avez bien r´epondu `a la question (2). La derni`ere sous-question de la question (2) vous de- mande d’´ecrire l’estimateur comme fonction des variances et covariances´echanti- llonnales. On peut affirmer que, lorsque n → ∞, les variances et covariances
´echantillonnales vont converger aux variances et covariances dans la population.
Nous pouvons donc ´ecrire
βˆ−→p
Var(X2)Cov(X1,Y)−Cov(X1,X2)Cov(X2,Y)
Var(X1)Var(X2)−(Cov(X1,X2))2 Var(X1)Cov(X2,Y)−Cov(X1,X2)Cov(X1,Y)
Var(X1)Var(X2)−(Cov(X1,X2))2
=
Var(X2)Cov(X1,Y)
Var(X1)Var(X2)
Var(X1)Cov(X2,Y)
Var(X1)Var(X2)
=
Cov(X1,Y)
Var(X1)
Cov(X2,Y)
Var(X2)
puisque par hypoth`ese Cov(X1, X2) = 0. Substituant Y dans cette expression, nous obtenons
βˆ−→p
Cov(X1,β1X1+β2X2+u)
Var(X1)
Cov(X2,β1X1+β2X2+u)
Var(X2)
=
β1Var(X1)+β2Cov(X1,X2)+Cov(X1,u)
Var(X1)
β1Cov(X1,X2)+β2Var(X2)+Cov(X2,u)
Var(X2)
=
β1+ Cov(X1,u)
Var(X1)
β2+ Cov(X2,u)
Var(X2)
=
β1 β2+ Cov(X2,u)
Var(X2)
puisque par hypoth`ese Cov(X1, u) = 0et Cov(X2, u)6= 0.
Nous avons tout de suite les deux r´esultats demand´es, `a savoir : 1. βˆ1
−p
→β1;
2. βˆ2 −→p β2+ Cov(X2,u)
Var(X2) 6=β2.
Notez que l’hypoth`ese Cov(X1, X2) = 0 est importante pour montrer la convergence en probabilit´e deβˆ1. Sans cette hypothese, nous avons
βˆ1
−p
→β1+β2
Cov(X1, X2) Var(X1) 6=β1
dans la mesure o`uβ2 6= 0. Parmi les peu de personnes qui ont tent´e de r´epondre `a cette question, personne n’a tenu compte de cette source de biais (asymptotique) additionnelle.
document cr´e´e le : 13/12/2014