Examen intra Examen final x
Sigle Groupe Trimestre
ECO4272 50 20171
Titre Introduction `a l’´econom´etrie
Enseignant(e) Steve Ambler
Solutions d´etaill´ees 1 R´eponses courtes
1. Il y a 2 restrictions. Elles sont toutes les 2 des fonctionslin´eairesdes param`etres. On peut les ´ecrire en format matriciel sous la formeRβ =r.
Donc, oui on peut utiliser une statistiqueF pour tester cette hypoth`ese jointe. Je ne vous ai pas demander d’´ecrireRour, mais on a (si k+ 1 = 6),
R =
0 0 1 0 0 0 0 0 0 1 −1 2
et
r= 1
0
.
2. Normalement pour ´ecrire une statistiqueF pour tester une hypoth`ese jointe on a besoin de la matrice variance-covariance des param`etres estim´es. Si tout ce qu’on a c’est l’article, on a les valeurs estim´ees des param`etres et leurs ´ecarts types, mais non la matrice variance-covariance au complet. On n’a pas non plus les donn´ees pour pouvoir r´e´estimer le mod`ele ou pour estimer une version contrainte du mod`ele. Donc on ne peut ´ecrire une statistiqueF pour effectuer le test. Le seul recours possible serait le test de Bonferroni, qui repose sur l’hypoth`ese que la probabilit´e de rejeter au moins une des hypoth`eses faisant partie de l’hypoth`ese jointe est inf´erieure `a la somme des probabilit´es de rejeter chacune des hypoth`eses individuelles. On effectue le test avec des statistiquest.
3. Si on compare les probl`emes `a r´esoudre pour trouver les estimateurs MCO, on constate que le probl`eme avec une variable de moins est une version contrainte du probl`eme de minimisation lorsqu’on inclut la variable. Donc, le minimum qu’on va trouver avec une variable de plus est au moins aussi petit. Donc, la somme des r´esidus au carr´e est inf´erieure sinon strictement inf´erieure. Donc leR2 doit ˆetre au moins aussi ´elev´e. Notez que la question porte surR2et non surR¯2.
4. Le biais d´epend de la valeur du coefficient associ´e `a la variable omise et aussi de la corr´elation entre la variable omise et la variable incluse. Voir la r´eponse `a la question bonus.
2 Propri´et´es d’estimateurs (25 points)
1. Un estimateurβ˜est non biais´e s’il est ´egal en moyenne `a sa vraie valeur.
Autrement dit,
E βˆ
=β.
2. L’estimateurβ˜converge en probabilit´e `a sa vraie valeur. Ceci veut dire que, lorsque le nombre d’observations tend vers l’infini, la probabilit´e d’obtenir une valeur r´ealis´ee de l’estimateur qui est en dehors d’un intervalle arbitrairement petit autour de la vraie valeur tend vers z´ero.
3. Comme j’ai dit peut-ˆetre cent fois en classe, si on montre qu’un estimateur est non biais´e et que sa variance tend vers z´ero lorsque le nombre d’observations tend vers l’infinine revient pas`a montrer rigoureusement que la condition pour la convergence en probabilit´e est satisfaite (voir la sous-question pr´ec´edante). Autrement dit, ces deux conditions ne sont pas strictement suffisantes pour montrer la convergence en probabilit´e. Par contre, c’est seulement pour des cas aberrants o`u la variance peut tendre vers z´ero mais il n’y a pas convergence en
probabilit´e. Donc, comme j’ai dit, pour les fins du cours si on d´emontre qu’un estimateur est non biais´e et que sa variance tend vers z´ero on va conclure qu’il y a (`a toutes fins pratiques) convergence en probabilit´e.
4. C’est la diff´erence entre convergence en probabilit´e (convergence vers une constante) et convergence en distribution (convergence vers une variable al´eatoire suivant une distribution bien d´efinie, typiquemente la normale).
5. L’erreur d’un estimateurβˆest
βˆ−β.
L’erreur quadratique est donc
βˆ−β2
. L’erreur quadratique moyenne est donc
E
βˆ−β2
.
On peut montrer (voir les notes de cours) que l’erreur quadratique
moyenne est ´egale `a la somme de la variance de l’estimateur plus le carr´e de son biais. Il existe des estimateurs pour certains probl`emes qui sont biais´es mais qui n´eanmoins ont une erreur quadratique moyenne faible puisqu’ils ont une tr`es petite variance. On a (ce n’´etait pas n´ecessaire d’´ecrire ce qui suit pour avoir tous les points)
E
βˆ−β 2
= E
βˆ−E βˆ
+
E
βˆ
−β 2
= E
βˆ
−β2
+ E
βˆ−E βˆ2
+2E E
βˆ
−β βˆ−E βˆ
=
E βˆ
−β 2
+ E
βˆ−E βˆ
2
+2 E
βˆ
−β E
βˆ−E βˆ
= E
βˆ
−β2
+ E
βˆ−E βˆ2
E
βˆ
−β 2
+ E
βˆ−E βˆ
2
+2 E
βˆ
−β
×0
≡biais2+ Var βˆ
.
6. Dans le premier cas, la matrice variance-covariance tend vers une matrice de z´eros lorsque le nombre d’observationsntend vers l’infini. On parle de convergence en distribution mais c’est comme l’estimateur tend vers une constante ou un vecteur de constantes. Dans le deuxi`eme cas, la matrice variance-covariance tend vers des constantes qui sont (typiquement) non nulles. Donc l’estimateur tend vers une variable qui reste une variable al´eatoire ou un vecteur qui reste un vecteur de variables al´eatoires.
7. Nous sommes dans un contexte de r´egression multiple. La notion de
variance d’unvecteurde variables al´eatoires est ambigu¨e. Donc dans ce cas on dit qu’un estimateurβˆ(non biais´e) est efficient si n’importe quelle combinaison lin´eairecβˆa une variance plus petite que la variance decβ˜ouβ˜est un autre estimateur non biais´e.
8. Le mod`ele doit satisfaire les hypoth`eses de base du mod`ele de r´egression multiple ´enonc´ees dans le livreplusl’hypoth`ese de l’homosc´edasticit´e de l’erreur, qui (comme j’ai r´ep´et´e maintes fois)ne fait pas partie des hypoth`eses de basedans l’approche de Stock et Watson.
3 Mod`ele de r´egression multiple (35 points)
1. La formule g´en´erale pour l’´ecart type de la r´egression est SER≡
r SSR n−k−1.
o`u SSR est la somme des r´esidus au carr´e,nest le nombre d’observations, etkest le nombre de param`etres estim´es `a part la constante.
2. Pour un test de significativit´e, l’hypoth`ese nulle est toujours que la valeur du coefficient est ´egale `a z´ero. Nous avons
tacti = βˆ ˆ σβˆ
, pouri= 0. . .5. Donc
tact0 = 4.53 0.571, tact1 = −1.439 0.466 ,
tact2 = 0.341 0.120, tact3 = 0.937
0.102, tact4 = 0.198
0.132, tact5 = 0.288
9.194,
3. Les valeurs absolues des statistiques sont sup´erieures `a 2.57 (voir le pr´eambule du questionnaire) pouri= 0,1,2,3. Donc on rejette l’hypoth`ese nulle dans ces cas `a 1% (et donc `a 5% et 10% aussi). Pour i= 4, la valeur absolue est ´egale `a 1.5, et donc on rejette `a
4. L’hypoth`ese nulle est celle de la non-significativit´e de la r´egression, autrement dit que tous les coefficients sauf la constante sont nuls :
H0 :β1 =β2 =β3 =β4 =β5 = 0, H1 :∃i, i= 1. . .5 tel que βi 6= 0.
5. L’hypoth`ese nulle peut s’´ecrire
0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1
β0
β1 β2 β3
β4 β5
=
0 0 0 0 0
6. La variable d´ependante (ventes de caf´e) ainsi que les ventes totales sont mesur´ees en logs, et donc l’hypoth`ese nulle est tout simplement
H0 :β3 = 1.
Siβ3 = 1les ventes de caf´e varient de fac¸on proportionnelle au ventes totales. On peut tester l’hypoth`ese avec une statistiquet, o`u latcalcul´ee sera
tact = 0.937−1.000
0.102 = −0.063 0.102 .
Puisque la statistique normalis´ee est (de loin) inf´erieure `a un en valeur absolue, on ne rejettera pas l’hypoth`ese nulle `a des niveaux
conventionnels.
7. L’hypoth`ese nulle peut s’´ecrire
0 0 0 0 1 0 0 0 0 0 0 1
β0 β1 β2 β3 β4 β5
= 0
0
La statistiqueF sera la statistique habituelle (pas n´ecessaire de l’´ecrire au complet pour avoir les points) :
F ≡
Rβˆ−r0h
RΣˆβˆR0i−1
Rβˆ−r /q,
o`uqest le nombre de restrictions que l’on veut tester, et o`uΣˆβˆest la matrice variance-covariance de l’estim´eβ. Dans l’exemple que nousˆ venons d’´etudier,q = 2. Autrement dit,
F −→d Fq,∞, avec la notation habituelle.
8. Le mod`ele contraint `a estimer sera celui qui omet les deux derni`eres variables explicatives :
Yi =β0+β1X1i+β2X2i+β3X3i+ ˜ui.
Notez que les mod`ele contraint et non contraintne sont pas´equivalents, et donc les termes d’erreur ne sont pas identiques. La statistiqueF peut s’´ecrire soit utilisant la somme des r´esidus carr´es des deux mod`eles soit utilisant lesR2des deux mod`eles (pas n´ecessaire d’´ecrire les formules pour avoir les points) :
F = (SSRrestricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1) ou
F = (R2unrestricted−R2restricted)/q
(1−R2unrestricted)/(n−kunrestricted−1).
Pour que les statistiquesF soient exactes (en ´echantillon fini) il faut aussi supposer la normalit´e de l’erreur du mod`ele. Sinon, il faut supposer que le nombre d’observations soit assez ´elev´e pour que les statistiquesF soient approximativement ´egales aux statistiquesFq,∞.
9. Les statistiquesF ´ecrites de cette fac¸on sont valides seulement dans le cas o`u le terme d’erreur (du mod`ele non contraint) esthomosc´edastique.
10. L’impact pr´edit d’un changement du prix du th´e sur les ventes du caf´e peut s’´ecrire
∆ ˆY = ∆X2βˆ2.
Pour construire l’inervalle de confiance il faut calculer l’´ecart type de ceci. On a
Var
∆ ˆY
= (∆X2)2σˆ2ˆ
β.
Donc l’ecart type du changement est∆X2ˆσβˆ, et l’invervalle de confiance peut s’´ecrire
∆X2βˆ2±z0×∆X2σˆβˆ
o`u comme d’habitudez0 est la valeur (positive) de la normale centr´ee r´eduite pour laquelle
Pr (−z0 < z < z0) = X 100 o`uXest le niveau de confiance voulu en pourcentage.
11. L’ensemble de confiance prend la forme d’une ellipse (pour deux param`etres) ou bien d’une hyper-ellipse (plus que deux param`etres).
4 Mod`eles de r´egression non lin´eaires (20 points)
1. Les d´eriv´ees partielles du cˆot´e droit de l’´equation du mod`ele par rapport aux param`etres ne sont pas fonctions des param`etres. Donc le mod`ele est lin´eaire dans le param`etres (mais non lin´eaire dans les variables).
2. Nous avons les valeurs pr´edites suivantes dans les situations finale et initiale :
Yˆ2 = ˆβ0+ ˆβ1X11+ ˆβ2X22+ ˆβ3X31+ ˆβ4X222
+ ˆβ5X11X22
et
Yˆ1 = ˆβ0 + ˆβ1X11+ ˆβ2X21+ ˆβ3X31+ ˆβ4X212+ ˆβ5X11X21. Notez bien que c’estseulement la valeur deX2 qui change. Soustrayant la deuxi`eme ´equation de la premi`ere nous obtenons
∆ ˆY = ˆβ2∆X2+ ˆβ4 X222−X212
+ ˆβ5X11∆X2.
Utilisant l’approximation qui est donn´ee nous obtenons
∆ ˆY ≈βˆ2∆X2+ ˆβ42X21∆X2+ ˆβ5X11∆X2.
⇒ ∆ ˆY
∆X2 = ˆβ2+ ˆβ42X21+ ˆβ5X11.
=
0 0 1 0 2X21 X11
βˆ0 βˆ1 βˆ2
βˆ3 βˆ4 βˆ5
≡δ0βˆ
3. Nous avons
∆ ˆY
∆X2 =δ0βˆ
⇒Var ∆ ˆY
∆X2
!
= Var δ0βˆ
= Var δ0
βˆ−β
=δ0E
δ0( ˆβ−β)( ˆβ−β)0δ
=δ0Σˆβˆδ.
Donc l’´ecart type du changement pr´edit∆ ˆY peut s’´ecrire
∆X2 q
δ0Σˆβˆδ.
Nous pouvons ´ecrire l’intervalle de confiance comme
∆X2×δ0βˆ±z0∆X2 q
δ0Σˆβˆδ.
o`u comme d’habitudez0 est la valeur (positive) de la normale centr´ee r´eduite pour laquelle
Pr (−z0 < z < z0) = X 100 o`uXest le niveau de confiance voulu en pourcentage.
4. Il faut transformer le mod`ele en un mod`ele ´equivalento`u l’un des coefficients `a estimer est ´egal `a la combinaison lin´eaire d’int´erˆet,
β2+ 2X21β4+X11β5. Nous avons
Yi =β0+β1X1i+ (β2+ 2X21β4+X11β5)X2i+β3X3i
+β4 X2i2−2X21X2i
+β5(X1iX2i−X11X2i) +ui. Notez bien que chaque fois qu’on ajoute un terme il faut soustraire exactement le mˆeme terme pour que le mod`ele transform´e soit ´equivalent au mod`ele initial. D´efinissons
(β2+ 2X21β4+X11β5)≡γ.
Si nous estimons ce mod`ele le logiciel nous fournira automatiquement un estim´e de l’´ecart type deγ. Donc l’´ecart type du changement pr´edit peutˆ s’´ecrire
r Var
∆ ˆY
= ∆X2σˆγˆ
et l’intervalle de confiance sera
∆X2γˆ±z0∆X2σˆˆγ. 5. Nous avons dans ce cas-ci
Rβ ≡
0 0 1 0 2X21 X11
β0 β1 β2 β3 β4 β5
= 0≡r.
Cette expression donne l’hypoth`ese nulle. L’hypoth`ese alernative est forc´ement bilat´erale puisque nous utilisons une statistiqueF et, puisque l’hypoth`ese nulle est une hypoth`ese simple laF calcul´ee doit ˆetre ´egale au carr´e de la statistiquetpour tester la mˆeme hypoth`ese. Notre logiciel
nous fournira automatiquement la valeur calcul´ee de la statistiqueF (ave, par exemple, la commandelinearHypothesisdansR). Nous avons
Fact≡t2 =
βˆ2+ 2X21βˆ4+X11βˆ5 SE
!2
⇒SE =
βˆ2+ 2X21βˆ4+X11βˆ5
√ Fact
,
ce qui nous donne l’´ecart type dont nous avons besoin pour ´ecrire l’intervalle de confiance, qui est
∆X2×δ0βˆ±z0∆X2SE,
o`u j’ai ´ecrit le changement pr´edit utilisant la notation g´en´eraleδ0βˆ.
5 Biais d ˆu `a des variables omises (20 points en bonus)
Soit le mod`ele de r´egression multiple donn´e par
Y =Xβ+U =X1β1+X2β2+U
avec la notation habituelle, et o`uX1etX2 regroupent des sous-ensembles des variables explicatives. Vous estimez le mod`ele donn´e par
Y =X1β1+ ˜U o`uU˜ ≡X2β2+U.
1. Notez que l’estimateur que nous voulons est celui du mod`ele qui est estim´e, qui est celui sansβ2Le probl`eme peut s’´ecrire
minβ1
U˜0U˜ = (Y −X1β1)0(Y −X1β1) .
2. Il n’y a qu’une seule CPO (matricielle) pour le choix deβ1. Nous avons
∂U˜0U˜
∂β1 = 0
⇒ −X10Y −X10Y +X10X1β1+X10X1β1 = 0
⇒βˆ1 = (X10
X1)−1X10
Y.
C’´etait possible d’´ecrire les CPOs sous forme non matricielle mais notez bien queβ1 est unvecteurde param`etres. L’´ecrire sous cette forme ne facilite pas la solution non plus.
3. Notez que la forme de la solution (voir la sous-question pr´ec´edente) a la mˆeme forme que le(X0X)−1X0Y qui devrait maintenant ˆetre familier.
4. On suit la d´emarche habituelle, qui est de substituer levraimod`ele (avec β2) dans la solution :
βˆ1 = (X10X1)−1X10(X1β1+X2β2+U)
=β1+ (X10X1)−1X10X2β2+ (X10X1)−1X10U.
On peut maintenant calculer l’esp´erance de notre estimateur en utilisant la loi des esp´erances it´er´ees :
E βˆ1
=β1+ E
(X10X1)−1X10X2 β2,
o`u j’ai saut´e l’´etape o`u on applique la loi des esp´erances it´er´ees pour se d´ebarasser du terme d’erreur.
5. Le dernier terme donne le biais. Notez que (X10X1)−1X10X2
a l’interpr´etation d’unematricede coefficients obtenus si on r´egresse chaque ´el´ement dansX2surX1. Donc on a un r´esultat qui est une extension du cas d’une seule variable omise. Le biais d´epend des vraies valeurs des coefficientsβ2 et aussi de la projection lin´eaire des ´el´ements deX2 surX1. En fait
1 nX10X1
−1 1 nX10X2
p
−
→(E (X10X1))−1E (X10X2) o`uE (X10X1)est la matrice des deuxi`eme moments (bruts) deX1et E (X10
X2)est la matrice qui donne tous les deuxi`eme moments bruts entre les ´el´ements deX1 et deX2.
6. Un peu difficile. Si tous les ´el´ements deβ2 sont nuls il n’y a pas de biais puisque lesX2ne devraient pas ˆetre incluses dans le mod`ele. Si lesX2 ne sont pas expliqu´ees par lesX1 (dans le sens de la projection lin´eaire) alors on aurait
(X10X1)−1X10X2 = 0 et il n’y aurait pas de biais non plus.
7. La r´eponse courte — pas grand’chose. Le signe d´epend des signes de tous les ´el´ements deβ2 et aussi des signes de la matrice
(X10
X1)−1X10
X2
qui est de dimensionsk1×k2 o`uk1 est le nombre de variables
explicatives dansX1 etk2est le nombre de variables explicatives dans X2.
document cr´e´e le : 03/05/2017