ECO 4272: Introduction `a l’ ´ Econom´etrie Examen Final: R´eponses
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal
c 2011, Steve Ambler Hiver 2011
1 R´eponses courtes (20 points)
1. Oui, on peut tester l’hypoth`ese avec une statistiqueF. Chacune des trois hy- poth`eses est une fonction lin´eaire desβ. Nous pouvons ´ecrire les hypoth`eses
`a tester sous forme matricielle comme
0 1 0 0 0 . . . 0 0 1 0 0 . . . 0 1 −2 1 −1 . . .
β0 β1 β2 β3 β4 ...
=
1 3 0
2. Non. Nous avons vu en classe que, dans le cas d’une hypoth`ese simple, la statistique F est le carr´e de la statistique t. Il est impossible de distinguer entre des valeurs n´egatives et positives de la statistique normalise qui est donn´ee par βˆ1σˆ−0.5
βˆ1
. Donc, mˆeme siβˆ1 < 0.5 la statistique F pourrait nous mener `a rejeterH0, tandis qu’une telle statistique ne serait pas une ´evidence en faveur de l’hypoth`ese alternative unilat´erale. On doit utiliser une statis- tiquetqui permet de distinguer entre une statistique normalis´ee positive et une statistique normalis´ee n´egative.
3. Il y a moyen d’effectuer le test, avec la m´ethode Bonferroni. Nous l’avons vu en passant en classe, et il y a une r´ef´erence dans les notes. Il ne fallait pas donner de d´etails pour avoir tous les points.
4. L’estimateur MCO est la solution `a un probl`eme de minimisation sous con- trainte. Lorsqu’on ajoute une variable explicative `a un mod`ele de r´egression lin´eaire, c’est comme on relˆache une des contraintes du probl`eme (la con- trainte qui impose une valeur de z´ero sur le coefficient). Le minimum que l’on peut atteindre doit ˆetre au moins aussi faible. Ce minimum est la somme des r´esidus au carr´e. Donc, le R2, qui d´epend de fac¸on n´egative de cette somme, doit ˆetre au moins aussi ´elev´e.
2 Propri´et´es d’estimateurs (20 points)
1. Un estimateur non biais´e est ´egal en moyenne `a la vraie valeur qu’on essaie d’estimer. Si l’estimateur estβˆet la vraie valeur estβ, il faut que
E βˆ
=β.
2. Une variable al´eatoire (qui peut ˆetre un estimateur) qui d´epend de la taille de l’´echantillonnutilis´e pour la construire converge en probabilit´e converge en probabilit´e `a une valeur donn´ee si sa moyenne est ´egale `a la valeur donn´ee et si, au fur est `a mesure quenaugmente, sa variance diminue (et tend vers z´ero). Formellement (pas n´ecessaire pour avoir tous les points), nous avons
X −→p X¯
si la valeur de X se trouve dans une r´egion arbitrairement petit autour de X, autrement dit dans un intervale¯ X¯±o`uest une constante positive qui peut ˆetre arbitrairement petit avec une probabilit´e qui tend vers un lorsque ntend vers l’infini.
3. Il y a convergence en distribution lorsqu’une variable al´eatoireXqui d´epend d’un param`etren(la plupart du tempsnindique la taille de l’´echantillon) est distribu´ee selon une loi de probabilit´e connue lorsquentend vers l’infini.
4. Nous avons vu en classe que la matrice variance-covariance de βˆ est pro- portionnelle `a n1 o`unest la taille de l’´echantillon. Donc, cette matrice tend vers un matrice de z´eros lorsquen tend vers l’infini, et donc les estim´esβˆ tendent vers des constantes (convergence en probabilit´e). Si on veut ´etudier
les propri´et´es asymptotiquesstochastiquesdeβ, il faut normaliser quelqueˆ chose pour que βˆreste des variables al´eatoires mˆeme lorsquen tend vers l’infini. La matrice variance-covariance de√
n
βˆ−β
ne d´ecroˆıt pas avec n. On soustraitβ pour que l’esp´erance de l’estimateur que l’on ´etudie soit z´ero, ce qui facilite le calcul de sa variance.
5. Un estimateur scalaire est plus efficient qu’un autre s’il a une variance plus faible (on suppose que les deux estimateurs sont non biais´es). Un estima- teur d’un vecteur de param`etres est plus efficient qu’un autre si la variance de n’importe quelle combinaison lin´eaire des ´el´ements du vecteur est plus faible que pour l’autre. Alg´ebriquement, si on a
Var c0βˆ
≤Var c0β˜
pour n’importe quel vecteur de constantesc, l’estimateurβˆest plus efficient que l’estimateurβ.˜
6. Lorsqu’on d´erive la matrice de variance-covarianceΣˆβˆ, onne suppose pas l’homosc´edasticit´e, qui fait partie des hypoth`eses utilis´ees pour prouver le th´eor`eme Gauss-Markov. Nous savons pour cette raison que l’estimateur MCO n’est pas forc´ement le plus efficient. En fait, on sait que l’estimateur MCG est plus efficient que l’estimateur MCO dans ce contexte (ce n’´etait pas n´ecessaire d’´ecrire ceci). On se contente du fait que l’estimateur MCO est sans biais et convergent.
3 Mod`ele de r´egression multiple (40 points)
1. Un test de la significativit´e d’un coefficient est un test de l’hypoth`ese nulle qu’il est ´egal `a z´ero. Donc, nous avons pour le coefficientβi,
t=
βˆi−0 sβˆi
o`u sβˆi est un estimateur convergent de l’´ecart type de l’estim´e (la racine carr´ee de l’´el´ement diagonal appropri´e de la matrice variance-covariance calcul´ee). Notez la forme de la statistique : valeur calcul´ee de la statistique, moins sa valeur sous l’hypoth`ese nulle, le tout divis´e par son ´ecart type ou par un estim´e convergent de son ´ecart type. Les valeurs num´eriques sont :
4.321395 0.019174;
0.077473 0.000880;
−0.001316 0.000019 ; 0.086673 0.001272;
−0.243364 0.012918 .
2. Dans chaque cas sauf le troisi`eme, la valeur estim´ee du coefficient est au moins dix fois en valeur absolue plus grande que son ´ecart type estim´e.
Mˆeme dans le troisi`eme cas, le ratio est ´egal `a preque 7 en valeur absolue.
Donc, les coefficients sont tous significatifs `a des niveaux de 10%, de 5% et de 1%. En fait, les p-values des tests sont toutes extrˆemement faibles.
3. L’hypoth`ese nulle test´ee est que tous les coefficients sauf la constante sont nuls. Alg´ebriquement,
H0 : β1 =β2 =β3 =β4 =β5 = 0, avec
H1 :∃i, i= 1. . .5tel queβi 6= 0.
4. Sous forme matricielle,
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1
β0 β1 β2 β3 β4 β5
=
0 0 0 0 0
5. On indique que les degr´es de libert´e de la statistique calcul´ee sont 4 et 21850. Donc, la p-value est pour un nombre fini d’observations.
6. La diff´erence entreF4,21850 etF4,∞ sera extrˆemement faible. Avec 21 850 observations, l’approximation `a une distributionF4,∞sera presque exacte.
7. Puisque le salaire paraˆıt comme variable explicative au premier degr´e et au deuxi`eme degr´e, tester sa significativit´e est un test d’hypoth`ese jointe.
L’hypoth`ese nulle est
H0 : β1 =β2 = 0.
Sous forme matricielle, nous avons
0 1 0 0 0 0 0 0 1 0 0 0
β0 β1 β2
β3 β4 β5
= 0
0
8. Il est possible d’utiliser l’ajustement statistique R2 pour effectuer le test.
Dans ce cas-ci, le mod`ele contraint est simplement Yi =β0+ui.
9. Il ne faut pas vraiment estimer le mod`ele contraint, puisqu’on sait qu’avec seulement une constante dans le mod`ele, l’estimateur MCO sera la moyenne
´echantillonnale de la variable d´ependante, et le R2 de cette r´egression sera z´ero. Comme on a vu en classe et dans les notes (ce n’´etait pas n´ecessaire de donner la formule exacte pour avoir tous les points), la statistiqueF est donn´ee par
F == R2 (1−R2)
(n−k−1)
k .
10. Le mod`ele `a estimer sera
Yi =β0+β1EXPi+β2EXPi2+β3EDUi+β4AF Ri +β5EDUiAF Ri+ui.
On ajoute une variable d’interaction entre la variable EDU et la variable AF R. Le test `a effectuer est un test d’hypoth`ese simple, qui est
H0 : β5 = 0.
11. Dans ce cas, il faut inclure des termes d’interaction entre toutes les variables explicatives etAF R. Le mod`ele devient :
Yi =β0+β1EXPi+β2EXPi2+β3EDUi+β4AF Ri +β5EXPiAF Ri +β6EXPi2AF Ri+β7EDUiAF Ri+ui. L’hypoth`ese `a tester est maintenant une hypoth`ese jointe :
H0 : β5 =β6 =β7 = 0.
12. Nous avons
∆ ˆYi = ˆβ1∂EXPi
∂EXPi∆EXPi+ ˆβ2∂EXPi2
∂EXPi∆EXPi
= (β1+β22EXP1) ∆EXPi.
Il faut ´evaluer la d´eriv´ee partielle au point de d´epart, et donc le changement pr´edit d´epend du niveau initial de l’´education.
13. Il faut d’abord calculer l’´ecart type du changement pr´edit. La variance est donn´ee par
Var
∆ ˆYi
= (∆EXPi)2Var
βˆ1+ ˆβ22EXP1
= (∆EXPi)2×
Var βˆ1
+ 4(EXP1)2Var βˆ2
+ 4EXP1Cov
βˆ1,βˆ2
.
L’´ecart type de ∆ ˆYi est la racine carr´ee de cette expression. Appelons-le s∆ ˆY
i. Pour une variable normale centr´ee r´eduitez et une valeurz0 > 0tel que
Pr(−z0 < z < z0) = X 100 l’intervalle de confiance de X% est donn´e par
∆ ˆYi±z0s∆ ˆY
i. 14. Le changement pr´edit est
∆ ˆYi =Y2−Y1
o`uY2est la valeur finale etY1est la valeur initiale de la variable d´ependante en logs. En niveaux, le changement pr´edit sera
exp(Y2) exp(Y1).
L’intervalle de confiance sera approximativement exp(Y2)
exp(Y1) 1±z0s∆ ˆY
i
,
Les bornes sontproportionnellement sym´etriques, mais non sym´etriques en niveau.
4 Moindres carr´es pond´er´es (20 points)
1. Nous avons
u0i = 1 σiui
⇒Var 1
σiui|X
= 1
σ2iVar(ui|X)
= 1
σ2iσi2 = 1.
La variance est non seulement constante, elle est unitaire. Notez qu’il s’agit d’une application simple de la r`egle de calcul des variances.
2. Nous avons
W Y
=
1
σ1 0 0 0 . . . 0 0 σ1
2 0 0 . . . 0 0 0 σ1
3 0 . . . 0 ... ... 0 . .. . . . 0 0 0 0 0 σ1
n−1 0
0 0 0 0 0 σ1
n
Y1 Y2
Y3 ... Yn−1
Yn
=
Y1/σ1 Y2/σ2 Y3/σ3 ...
Yn−1/σn−1
Yn/σn
.
Donc l’i`eme rang´ee dans le syst`eme d’´equations matriciel est donn´ee par 1
σiYi
qui est la variable d´ependante du mod`ele transform´e. De mani`ere semblable, on peut v´erifier que l’i`eme rang´ee du cˆot´e droit est donn´ee par
1
σiβ0+ 1
σiβ1X1i+ 1
σiβ2X2i+. . .+ 1
σiβkXki+u0i.
3. Dans le contexte pr´esent, une expression alg´ebrique pour l’estimateur est donn´e par
βˆ= (W X)0(W X)−1
(W X)0(W Y)
= (X0W0W X)−1X0W0W Y
= (X0ZX)−1X0ZY, ce qui fut `a montrer.
4. L’estimateur est effectivement l’estimateur MCO du mod`ele transform´e, mais non du mod`ele initial, `a cause de la pr´esence desZ dans l’expression pour l’estimateur.
5. Nous avons
(X0ZX)−1X0ZY
= (X0ZX)−1X0Z(Xβ+U)
= (X0ZX)−1(X0ZX)β+ (X0ZX)−1X0ZU
=β+ (X0ZX)−1X0ZU.
Nous avons tout de suite que
E (X0ZX)−1X0ZY
=β+E (X0ZX)−1X0ZU
=β+E (X0ZX)−1X0ZE(U|X)
=β.
L’avant-derni`ere ´egalit´e tient `a cause de la loi des esp´erances it´er´ees.
6. Le mod`ele transform´e a des erreurs homosc´edastiques, et donc satisfait cette hypoth`ese additionnelle dont on a besoin pour prouver le th´eor`eme Gauss- Markov.
5 Mod`eles de r´egression non lin´eaires (20 points)
1. Chaque param`etre paraˆıt du cˆot´e droit en premier degr´e seulement. Nous avons
∂Yi
∂β0 = 1,
∂Yi
∂β1 = log (X1i),
∂Yi
∂β2 =X2i,
∂Yi
∂β3 =X1iX2i.
Chaque d´eriv´ee est fonction des variables explicatives seulement. Donc le mod`ele est lin´eaire dans les param`etres.
2. Nous avons
∆ ˆYi = ˆβ1∂logX1i
∂X1i ∆X1i+ ˆβ3X21∆X1i βˆ1 1
X11
∆X1i+ ˆβ3X21∆X1i.
Il faut ´evaluer la d´eriv´ee du log deX1iau niveau initialX11. Le changement pr´edit d´epend du niveau initial deX2 et du niveau initial deX1.
3. Nous avons
∆ ˆYi = ∆X1i
0 1/X11 0 X21
βˆ0
βˆ1 βˆ2 βˆ3
4. Nous avons
Var(∆Yi) = Var δβˆ
=Var δ
βˆ−β
=E
δ
βˆ−β δ
βˆ−β0
=δE
βˆ−β βˆ−β0 δ0
=δΣˆβˆδ0, ce qui fut `a montrer.
5. Nous avons une expression pour la variance du changement pr´edit. L’´ecart type est la racine carr´ee de ceci. Pourz0 >0tel que
Pr(−z0 < z < z0) = 0.95
aveczune variable al´eatoire normale centr´ee r´eduite, l’intervalle de confiance de 95% est donn´e par
∆ ˆYi±z0 q
∆X1iδΣˆβˆδ0 6. Nous avons
X11δβ =
0 1 0 X11X21
β0 β1 β2 β3
Le mod`ele transform´e est
Yi =β0+ (β1+β3X11X21) log (X1i) + +β2X2i +β3(X1iX2i −X11X21log (X1i)) +ui.
L’´ecart type du coefficient transform´e associ´e `a la variable explicative log(X1i)est `a une normalisation pr`es l’´ecart type dont nous avons besoin.
document cr´e´e le : 30/04/2011