ECO 4272: Introduction `a l’ ´ Econom´etrie Examen Final: R´eponses
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal
c 2011, Steve Ambler Hiver 2012
1 R´eponses courtes (15 points)
1. La contrainte est une fonctionnon lin´eairedes param`etres du mod`ele. On ne peut pas l’´ecrire sous la formeRβ =ro`uRest une matrice (vecteur dans ce cas) de dimensionsq×(k+ 1)et o`urest un vecteur de
dimensionsq×1o`uqest le nombre de restrictions. On ne peut donc utiliser un testtou un testF pour tester la restriction. Il y a des fac¸ons plus compliqu´ees qu’on peut utiliser pour effectuer des tests semblables, mais cela d´epasse le cadre de ce cours.
2. Pour effectuer n’importe quel test d’une hypoth`ese jointe, il faut connaˆıtre la matrice variance-covariance compl`ete des coefficients estim´es, qui n’est pas normalement fournie par l’article en question. On peut utiliser le test Bonferronique l’on mentionne dans les notes et qui est d´ecrit en d´etail dans l’annexe au chapitre 7 du manuel. Il n’est pas aussi puissant qu’un test qui utiliser l’information concernant les covariances entre les param`etres estim´es, mais il permet d’arriver `a un crit`ere pour rejeter l’hypoth`ese nulle qui ne sousestime pas lap-value du test. Pour cette raison, il ne m`ene pas trop souvent `a rejeter l’hypoth`ese nulle lorsqu’elle est vraie. Il ne fallait pas donner tous ces d´etails pour avoir tous les points.
3. Le deuxi`eme mod`ele est une version contrainte du premier mod`ele. Si on impose la restrictionβ1 =−β3dans le premier mod`ele, on a un mod`ele qui ´equivaut au deuxi`eme. Puisque le deuxi`eme mod`ele est donc une version contrainte du premier, saSSRdoit ˆetre au moins aussi ´elev´ee (et fort probablement strictement plus ´elev´ee).
2 Propri´et´es d’estimateurs (15 points)
1. L’estimateur converge en probabilit´e `a la valeurβ. On peut pr´esumer queβ est la vraie valeur du param`etre dans la population. Il s’agit donc d’un estimateur convergent. Sa distribution ´echantillonnale est de plus en plus concentr´ee autour de cette vraie valeur. Techniquement (pas n´ecessaire pour avoir tous les points), la probabilit´e que l’estimateurβˆse retrouve dans un intervalle arbitrairement petit autour deβtend vers un lorsque le nombre d’observations tend vers l’infini.
2. L’estimateur converge en distribution `a une variable al´eatoire qui ob´eit `a une loi normale dont la moyenne estβ et dont la variance est ´egale `aσβ2. Implicitement, on suppose qu’on a normalis´e l’estimateur pour empˆecher sa variance de diminuer avec le nombre d’observations.
3. On parle d’efficience relative dans le cadre d’estimateurs non biais´es. Donc il faut que les conditions pour l’absence de biais de l’estimateur tiennent, notamment l’esp´erance conditionnelle nulle des termes d’erreur du mod`ele (E(ui|Xi) = 0, o`uXiest l’i`eme observations sur les variables explicatives X. Il faut aussi que la variance conditionnelle des erreurs soit constante (l’hypoth`ese d’homosc´edasticit´e) :
Var(ui|Xi) = σ2u.
Sous ces conditions, c’est le th´eor`eme Gauss-Markov qui nous dit que l’estimateur MCO est le plus efficient parmi les estimateurs lin´eaires.
4. Gr˜ace au th´eor`eme de Slutsky, on peut dire tout de suite que le produit converge au produit d’une constante (on peut traiterY comme une
constante asymptotiquement) fois une variable al´eatoire qui ob´eit `a une loi normale. Donc, on peut dire que
Y Z −→d N Y µ¯ Z , Y¯2σ2Z .
Notez qu’il s’agit d’une application standard des r`egles pour le calcul d’esp´erances et de variances.
3 Mod`ele de r´egression multiple (50 points)
Cette question ne contient aucune surprise. Elle est bas´ee sur la compr´ehension de l’output standard de l’estimation d’un mod`ele conventionnel. Les
sous-questions couvrent ce tout ´econom`etre appliqu´e aura `a faire dans son travail de tous les jours.
1. Le calcul de l’´ecart type de la r´egression est bas´e sur laSSR, la somme des r´esidus au carr´e, qui est fournie. Une expression pour l’´ecart type de la r´egression est donn´ee par
r 1
n−k−1SSR.
2. Lorsqu’on teste la significativit´e d’un coefficient, l’hypoth`ese nulle est toujours que sa valeur est ´egale `a z´ero et l’hypoth`ese alternative est (presque) toujours bilat´erale. Pour le coefficient estim´eβˆi, la statistique sera de la forme
tβˆi =
βˆi−0 ˆ σβˆ
i
.
Les valeurs num´eriques sont : tβˆ
1 : 0.299 0.069; tβˆ2 : 0.412
0.051; tβˆ3 : 5.298
0.364.
3. Toutes les statistiques ont une valeur (absolue) plus grande que 4. Donc ont peut dire tout de suite qu’elles ont desp-values largement inf´erieures `a 0.01, et donc on va rejeter `a un taux marginal de significativit´e de 1%, puisque
Pr(|z|>4) = 2Φ (−4)<0.01,
o`uzest une variable al´eatoire venant de la distribution normale centr´ee r´eduite etΦ (z)est la valeur de la distribution normale centr´ee r´eduite cumul´ee ´evalu´ee au pointz.
4. C’est un test de lasignificativit´e de la r´egressiono`u l’hypoth`ese nulle est que tous les coefficients saufβ0sont ´egaux `a z´ero, et l’hypoth`ese alternative est qu’au moins un des coefficients a une valeur non nulle, autrement dit nous avons
H0 :β1 =β2 =β3 = 0, et
H1 :β1 6= 0 et/ouβ2 6= 0et/ouβ3 6= 0.
5. L’hypoth`ese nulle peut s’´ecrire
0 1 0 0 0 0 1 0 0 0 0 1
β0
β1 β2 β3
=
0 0 0
6. Le tableau indique le nombre de degr´es de libert´e. On litF (3,1656), ce qui veut dire que la statistique est pour un nombre d’observationsfiniet o`u 3donne le nombre de restrictions qui sont test´ees. Donc, on suppose ici une statistique qui ob´eit `a une loitF avec un nombre fini d’observations. Il ne s’agit pas de la convergence en distribution et donc il ne s’agit pas de l’inf´erence asymptotique.
7. Il ne devrait y avoir presqu’aucune diff´erence entre la valeur de la distribution cumul´ee pourF(3,1656)etF (3,∞). En fait, au del`a de quelques centaines d’observations, la diff´erence entre lap-value pour la distribution exacte et lap-value asymptotique devrait ˆetre n´egligeable. Je vous ai conseill´e de regarder les tables de la distributionF pour avoir une id´ee des diff´erences qu’il peut y avoir entre les valeurs de laF cumul´ee pour des nombres diff´erents d’observations. Ceux qui ont suivi ce conseil ne devaient avoir aucune difficult´e `a r´epondre `a cette question.
8. Le param`etreβ1donne l’impact de la grandeur du p`ere. Le param`etreβ2 donne l’impact de la grandeur de la m`ere. Un test de leur significativit´e jointe revient `a tester
H0 :β1 =β2 = 0.
Sous forme matricielle, l’hypoth`ese peut s’´ecrire 0 1 0 0
0 0 1 0
β0 β1 β2 β3
= 0
0
9. La version contrainte du mod`ele serait un mod`ele o`u la grandeur des parents n’affecte pas la grandeur de l’individu. Le mod`ele peut s’´ecrire
Yi =β0+β3X3i+ui.
Ici, j’aurais pu utiliser une autre notation pour le terme d’erreur puisque ce n’est pas le mˆeme mod`ele que le mod`ele non contraint, mais je crois que c’est clair `a partir du contexte.
10. La statistiqueF peut ˆetre bas´ee sur le calcul duR2 des deux mod`eles ou le calcul de laSSRdes deux mod`eles. Les deux calculs sont ´equivalents. Il ne fallait pas donner les formules pour avoir tous les points, mais elles sont (voir les notes sur le mod`ele de r´egression multiple) soit
F = (SSRrestricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1), soit
F = (R2unrestricted−R2restricted)/q
(1−Runrestricted2 )/(n−kunrestricted−1).
11. Il faut introduire des termes d’interaction entre le sexe de l’individu et la grandeur des parents, tout en conservant dans le mod`ele toutes les variables explicatives du mod`ele initial. Le mod`ele peut s’´ecrire
Yi =β0+β1X1i+β2X2i+β3X3i+β4X1iX3i+β5X2iX3i+ui. Encore une fois, j’aurais pu changer de notation pour souligner le fait qu’il s’agit d’un mod`ele diff´erent, mais ceci devrait ˆetre clair `a partir du
contexte.
12. L’hypoth`ese nulle `a tester est
H0 :β4 =β5 = 0.
Sous forme matricielle l’hypoth`ese peut s’´ecrire
0 0 0 1 0 0 0 0 0 1
β0 β1 β2 β3 β4 β5
= 0
0
13. Il s’agit tout simplement de l’intervalle de confiance de 95% pour notre estim´eβˆ2 qui donne l’impact de la grandeur de la m`ere. Vous ´etiez
nombreux `a penser que la question ´etait beaucoup plus compliqu´ee qu’elle ne l’est. Cet intervalle peut s’´ecrire
βˆ2 ±z0σˆβˆ2
o`uz0 >0est la valeur tel que
2Φ (−z0) = 100−95 100
avecΦ (−z0)(comme d’habitude) la loi normale centr´ee r´eduite cumul´ee
´evalu´ee au point−z0.
14. Une ellipse. C’est dans les notes de cours et c’est dans le manuel.
4 Mod`eles de r´egression non lin´eaires (20 points)
1. Nous avons
∂Yi
∂β0 = 1;
∂Yi
∂β1 =X1i;
∂Yi
∂β2
=X1i2;
∂Yi
∂β3 =X2i.
Ces d´eriv´ees ne d´ependent pas desβi. Pour cette raison, le mod`ele est non lin´eaire dans les variables (X1iest au premier et au deuxi`eme degr´es) mais non dans les param`etres.
2. Nous avons
Yˆ2 = ˆβ0+ ˆβ1X12+ ˆβ2X122+ ˆβ3X21 et
Yˆ1 = ˆβ0+ ˆβ1X11+ ˆβ2X112+ ˆβ3X21 Soustrayant,
Yˆ2−Yˆ1 ≡∆ ˆY = ˆβ1(X12−X11) + ˆβ2 X122−X112
≈βˆ1(X12−X11) + 2X11βˆ2(X12−X11)
≡∆X1
βˆ1 + 2X11βˆ2
o`u nous avons utilis´e l’approximation fournie.
3. En notation matricielle nous avons
∆ ˆY = ∆X1
0 1 2X11 0
βˆ0
βˆ1 βˆ2 βˆ3
≡∆X1δβˆ
Notez que l’expression du cˆot´e droit de l’´egalit´e, mˆeme si c’est en notation matricielle, est unscalaire. Ceci est logique puisque∆ ˆY est un scalaire.
J’ai lu plusieurs r´eponses o`u ce n’´etait pas le cas.
4. Nous avons
Var
∆ ˆY
=Var
∆X1δβˆ
= (∆X1)2Var
δ
βˆ−β
= (∆X1)2E
δ
βˆ−β βˆ−β0
δ0
= (∆X1)2δE
βˆ−β βˆ−β0 δ0
≡(∆X1)2δΣˆβˆδ0.
Notez qu’il s’agit d’applications successives de nos r`egles de base pour le calcul d’esp´erances et de variances.
5. Nous venons de calculer la variance de∆ ˆY. Appelons cette varianceσˆ2
∆ ˆY . L’intervalle de confiance de 95% peut s’´ecrire
∆ ˆY ±z0σˆ∆ ˆY
o`u comme d’habitude
2Φ (−z0) = 100−95 100 .
6. Le mod`ele peut s’´ecrire
Yi =β0+ (β1+X11β2)X1i+β2 X2i2−X11X1i
+β3X3i+ui. ou
Yi =β0+γX1i+β2Zi+β3X3i+ui. avec
γ ≡β1+X11β2, Zi ≡X2i2−X11X1i.
Le mod`ele est ´equivalent au mod`ele initial mais le coefficient associ´e `aX1i est celui dont l’´ecart type est n´ecessaire pour calculer l’intervalle de
confiance.
5 Variables instrumentales (15 points)
1. La formule pour l’estimateur est la formule standard pour l’estimateur MCO mais utilisant les variables transform´ees :
βˆV I =
X˜0X˜−1
X˜0Y .˜
2. Substituant les d´efinitions deX˜ etY˜ nous obtenons βˆV I =
X˜0X˜−1
X˜0Y .˜
=
W(W0W)−1W0X0
W(W0W)−1W0X−1
W(W0W)−1W0X0
W(W0W)−1W0Y
=
X0W(W0W)−1W0W(W0W)−1W0X−1
X0W(W0W)−1W0W(W0W)−1W0Y
=
X0W(W0W)−1W0X−1
X0W(W0W)−1W0Y ce qui fut `a d´emontrer
3. Nous avons βˆV I =
X0W(W0W)−1W0X−1
X0W(W0W)−1W0(Xβ+U)
=β+
X0W(W0W)−1W0X−1
X0W(W0W)−1W0U.
4. Nous avons
X0W(W0W)−1W0X−1
X0W(W0W)−1W0U
= X0W n
W0W n
−1 W0X
n
!−1
X0W n
W0W n
−1 W0U
n .
Si Xn0W et Wn0W convergent `a leurs moments dans la population, alors par le th´eor`eme de Slutsky l’expression converge en probabilit´e `a z´ero (un
vecteur de z´eros), et l’estimateur est convergent.
document cr´e´e le : 06/05/2012