ECO 4272-50: Introduction `a l’´econom´etrie Examen intra : R´eponses
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec Montr´eal
c 2018, Steve Ambler Hiver 2018
1 R´eponses courtes
1. C’est un exemple d’h´et´erosc´edasticit´e conditionnelle. Le cas ici
correspond au graphique du panneau gauche dans Auld (2012). Dans un cas comme celui-ci, une variation de la valeur du coefficient estim´e fait varier moins la somme des erreurs au carr´e qu’en l’absence d’une telle relation. Ceci veut dire que l’´ecart type non robuste va sur-estimer la pr´ecision avec laquelle on peut estimer la valeur du param`etre. L’´ecart type robuste va ˆetre plus ´elev´e pour refl´eter cette incertitude accrue.
2. Parmi les hypoth`eses de base du mod`ele pr´esent´ees dans les notes de cours ou dans le manuel de Stock et Watson, onne suppose pasune variance constante de l’erreur du mod`ele. Autrement dit, on ne suppose pas
Var(ui|X =Xi) = Var(ui) =σu2.
Cette hypoth`ese est n´ecessaire pour montrer l’efficience de l’estimateur MCO. Elle fait partie des hypoth`eses de base du th´eor`eme Gauss-Markov.
Voir les notes de cours ou le blogue de Giles (2011b).
3. Il est utilis´e entre autres parce qu’il donne un estimateur qui est relativement simple `a calculer. La fonction objectif `a minimiser est
quadratique dans les variables de choix. Donc, les conditions du premier ordre pour trouver les param`etres estim´es donnent un syst`eme
d’´equations lin´eaires. Une deuxi`eme raison de l’utiliser est son efficience (sous certaines conditions). Sous l’hypoth`ese de l’homosc´edasticit´e du terme d’erreur (voir la sous-question pr´ec´edente), on peut montrer que l’estimateur MCO est l’estimateur le plus efficient parmi la classe des estimateurs lin´eaires.
4. L’´enonc´e est faux. Le calcul des ´ecarts types robustes et non rubustes utilise les r´esidusuˆi, qui sont calcul´es `a partir de la solution dumˆeme probl`eme de minimisation de la somme des erreurs au carr´e. Reregardez les expressions pourσˆ2ˆ
β1 etσ˜2ˆ
β1 dans les sections 7.1 et 7.1 des notes de cours. Dans les deux expressions, ce sont les mˆemesuˆ2i qui paraissent.
2 Distributions de probabilit´e jointes
1. Il faut que la somme de toutes les probabilit´es jointes soit ´egale `a un, et donc la valeur qui manque est .04.
2. Nous avons
Pr(X = 0)
=Pr(X = 0|Y = 1) +Pr(X = 0|Y = 2) +Pr(X = 0|Y = 3)
=.08 +.08 +.04 =.20, Pr(X = 1)
=Pr(X = 1|Y = 1) +Pr(X = 1|Y = 2) +Pr(X = 1|Y = 3)
=.10 +.05 +.04 =.19, Pr(X = 2)
=Pr(X = 2|Y = 1) +Pr(X = 2|Y = 2) +Pr(X = 2|Y = 3)
=.10 +.22 +.04 =.36, Pr(X = 3)
=Pr(X = 3|Y = 1) +Pr(X = 3|Y = 2) +Pr(X = 3|Y = 3)
=.02 +.05 +.18 =.25.
Ce n’´etait pas n´ecessaire de simplifier les r´eponses.
3. Nous avons
E(X) = 0×.20 + 1×.19 + 2×.36 + 3×.25 = 1.66.
Ce n’´etait pas n´ecessaire de simplifier la r´eponse.
4. Nous avons
Pr(Y = 1)
=Pr(Y = 1|X = 0)+Pr(Y = 1|X = 1)+Pr(Y = 1|X = 2)+Pr(Y = 1|X = 3)
=.08 +.10 +.10 +.02 =.30, Pr(Y = 2)
=Pr(Y = 2|X = 0)+Pr(Y = 2|X = 1)+Pr(Y = 2|X = 2)+Pr(Y = 2|X = 3)
=.08 +.05 +.22 +.05 =.40, Pr(Y = 2)
=Pr(Y = 2|X = 0)+Pr(Y = 2|X = 1)+Pr(Y = 2|X = 2)+Pr(Y = 2|X = 3)
=.04 +.04 +.04 +.18 =.30.
Ce n’´etait pas n´ecessaire de simplifier les r´eponses.
5. Nous avons
E(Y) = 1×.30 + 2×.40 + 3×.30 = 2.
Ce n’´etait pas n´ecessaire de simplifier la r´eponse.
6. Nous avons
E(X|Y = 2) =
0×Pr(X = 0|Y = 2)+1×Pr(X = 1|Y = 2)+2×Pr(X = 2|Y = 2)+3×Pr(X = 3|Y = 2)
= 0× Pr(X = 0, Y = 2)
Pr(Y = 2) + 1× Pr(X = 1, Y = 2) Pr(Y = 2) +2× Pr(X = 2, Y = 2)
Pr(Y = 2) + 3×Pr(X = 3, Y = 2) Pr(Y = 2)
= 1× .05
.40+ 2×.22
.40 + 3× .05 .40 = .64
.40. Ce n’´etait pas n´ecessaire de simplifier la r´eponse.
7. Nous avons
E(Y|X = 2) =
1×Pr(Y = 1|X = 2) + 2×Pr(Y = 2|X = 2) + 3×Pr(Y = 3|X = 2)
= 1×Pr(X = 2, Y = 1)
Pr(X = 2) +2×Pr(X = 2, Y = 2)
Pr(X = 2) +3×Pr(X = 2, Y = 3) Pr(X = 2)
= 1× .10
.36+ 2×.22
.36 + 3× .04 .36 = .66
.36. Ce n’´etait pas n´ecessaire de simplifier la r´eponse.
8. Non. Il suffit de trouver un cas o`u
Pr(X =i, Y =j)6=Pr(X =i)Pr(Y =j). En fait, nous avons
Pr(X = 1, Y = 1) =.106=Pr(X = 1)Pr(Y = 1) =.19×.30.
3 Estimateur de la moyenne d’une variable al´eatoire
1. Si on interpr`eteβ0 comme la meilleure pr´ediction (non conditionnelle) de Yi, alorsuiest l’erreur de pr´ediction, et en termes de variables
observables ou variables de choix l’erreur est ´egale `a(Yi−β0). On veut minimiser la somme des erreurs au carr´e. Donc, le programme peut s’´ecrire
minβ0
n
X
i=1
(Yi−β0)2
! .
Notez bien qu’il y antermes dans la fonction `a minimiser o`uβ0paraˆıt.
Donc, la CPO (sous-question suivante) pour le choix deβ0va devoir comporterntermes.
2. La CPO pour le choix dexest β0 :
n
X
i=1
−2 (Yi−β0) = 0.
3. Nous avons
n
X
i=1
−2 (Yi−β0) = 0
⇒
n
X
i=1
(Yi−β0) = 0
⇒
n
X
i=1
Yi =
n
X
i=1
β0
⇒
n
X
i=1
Yi =nβ0
⇒βˆ0 = 1 n
n
X
i=1
Yi ≡Y .¯
Bien sˆur, ceci est tout simplement la moyenne ´echantillonnale.
4. Pour estimer la variance dans la population nous utilisons habituellement la variance ´echantillonnale. Nous avons vu dans le chapitre de rappel sur l’estimation et l’inf´erence que la variance ´echantillonnale est un
estimateur convergent de la variance dans la population. Nous l’avons pas d´emontr´e, mais il y a une preuve dans la section 7.6.1 des notes de cours que la variance ´echantillonnale est un estimateur non biais´e de la
variance. Si nous ´ecrivons cet estimateurσˆY2 nous avons ˆ
σY2 = 1 n−1
n
X
i=1
Yi−Y¯2
.
Comme nous avons vu en classe (sans le d´emontrer), il est conventionnel de diviser parn−1pour obtenir un estimateur non biais´e de la variance.
5. Nous utilisons une statistique normalis´ee en soustrayant la valeur sousH0 et en divisant par un estimateur convergent de l’´ecart type :
tact =
Y¯ −µ0Y ˆ σY¯
.
Notez que nous divisons par un estimateur de l’´ecart type de la moyenne
´echantillonnaleY¯, o`u
ˆ σY2¯ = 1
nσˆY2
6. Cette sous-question ´etait une question pi`ege. Si nous ne connaissons pas la distribution de probabilit´e qui g´en`ere lesYi, nous ne connaissons pas la distribution de probabilit´e `a laquelle ob´eitY¯, qui est une combinaison lin´eaire desYi. Ceci est un principe tr`es important. J’ai insist´e l`a-dessus `a plusieurs reprises dans le cours. En fait, c¸a fait partie de la philosophie de base du livre de Stock et Watson — l’id´ee qu’en g´en´eral on ne connaˆıt pas les lois de probabilit´e qui g´en`erent les donn´ees que nous utilisons en
´econom´etrie appliqu´ee, ce qui justifie l’utilisation du th´eor`eme de la limite centrale et la convergence en probabilit´e ou la convergence en distribution de nos statistiques vers une loi normale.
7. La statistique est une moyenne ´echantillonnale. Nous pouvons supposer la convergence en distribution `a une loi normale. Puisque nous
soustrayons la valeur sousH0et nous divisons par un estimateur
convergent de son ´ecart type, l’esp´erance de la statistique (siH0 est vraie) est z´ero et sa variance est unitaire. Donc, il y a convergence en
distribution `a une loi normale centr´ee r´eduite.
8. Oui. Entre autres, on suppose que lesYi sont i.i.d. et on supppose que la distribution qui g´en`ere leYi a une variance finie. De cette fac¸on nous pouvons invoquer le th´eor`eme de la limite centrale.
4 R´egression simple, tests d’hypoth`ese et intervalles de confiance
1. βˆ1 donne l’impact d’une augmentation d’une ann´ee de la dur´ee d’´etudes sur le salaire horaire d’un individu.
2. Par d´efinition, nous avons
SER= r 1
n−2SSR
⇒SSR= (n−2)×SER2 = (2753−2)×9.24632. 3. Une des d´efinitions possibles de l’ajustement statistique est
R2 = 1− SSR T SS.
Le tableau de r´esultats fournitT SS et on peut calculerSSR `a partir de SER(vour la r´eponse `a la sous-question pr´ec´edente).
4. Un test de significativit´e est toujours un test de l’hypoth`ese nulle que le coefficient est ´egal `a z´ero,
H0 :β1 = 0.
Donc la statistiquetserait
tact=
βˆ1−0 ˆ σβˆ1
= −3.5828 1.0900 .
L’hypoth`ese alternative est toujours (ou presque) bilat´erale : H1 :β1 6= 0.
5. L’hypoth`ese alternative est bilat´erale. Donc, lap-value est la probabilit´e d’obtenir une valeur au moins aussi ´elev´eeen valeur absoluede la statistiquetsiH0 est vraie. Nous avons
p=Pr(z ≥ |tact|) = 2×Φ (−|tact|) o`uΦ (·)est la fonction normale centr´ee r´eduite cumul´ee.
6. Un ´ecart type robuste tient compte de la possibilit´e d’interaction entre les valeurs r´ealis´ees des variables explicatives (lesXi) et la variance du terme d’erreur du mod`ele. Donc il tient compte de la possibilit´e
d’h´et´erosc´edasticit´e conditionnelle.
7. Oui. Sa valeur absolue est sup´erieure `a 3, bien au del`a du chiffre magique de 1.96.
8. Nous ´ecrivons la statistiquetnormalis´ee de la fac¸on habituelle : tact =
βˆ1−(−1.0) ˆ σβˆ
1
= −2.5828 1.0900 .
9. L’hypoth`ese alternative estunilat´erale. Nous rejetons l’hypoth`ese nulle si la probabilit´e d’obtenir une valeur au moins aussin´egativede la statistique normalis´ee est suffisamment faible siH0 est vraie. Nous avons
p=Pr(z < tact) = Φ (−2.5828/1.0900).
10. Nous avons
0.95 =Pr −1.96≤ βˆ1−β1 ˆ σβˆ1
≤1.96
!
=Pr
−1.96×σˆβˆ1 ≤βˆ1−β1 ≤1.96×σˆβˆ1
=Pr
−1.96×σˆβˆ1 ≤β1−βˆ1 ≤1.96×σˆβˆ1
=Pr
βˆ1−1.96×σˆβˆ1 ≤β1 ≤βˆ1+ 1.96×σˆβˆ1
. Ainsi, nous pouvons exprimer l’intervalle de confiance comme
βˆ1±1.96×σˆβˆ
1.
11. Il serait plus large, puisqu’on veut ˆetre plus confiant que la vraie valeur se trouve `a l’int´erieur de l’intervalle calcul´e. En fait, la probabilit´e qu’une r´ealisation de la normale centr´ee r´eduite soit entre -2.58 et 2.58 est ´egale
`a 0.99. Autrement dit,
0.99−Pr(−2.58≤z ≤2.58) o`u
z ∼N(0,1).
5 R´egression simple : estimateurs non biais´es
1. Non. Il est facile de montrer (je ne vous ai pas demand´e de le faire) que l’estimateur MCO serait
βˆ1 = Pn
i=1XiYi Pn
i=1Xi2 ,
qui ressemble `a l’estimateur deβ1dans le mod`ele de base ´etudi´e en classe. Il n’est pas l’estimateur propos´e dans l’´enonc´e de la question.
Minimiser la somme des erreurs au carr´e revient `a r´esoudre le programme suivant :
minβ1
2
X
i=1
(Yi−β1Xi)2
! ,
qui a comme CPO β1 :
n
X
i=1
−2Xi(Yi−β1Xi) = 0
⇒
n
X
i=1
Xi(Yi−β1Xi) = 0
⇒
n
X
i=1
YiXi =β1
n
X
i=1
Xi2
⇒βˆ1 = Pn
i=1XiYi Pn
i=1Xi2 .
Je ne vous ai pas demand´e de faire cette d´emonstration.
2. Nous avons
β˜1 = 1
X1Y1+ 1
X2Y2+. . .+ 1 XnYn, qui est clairement une fonction lin´eaire desYi.
3. Si nous remplac¸onsYi parβ1Xi, nous obtenons β˜1 = 1
n
n
X
i=1
β1Xi+ui Xi
= 1 n
n
X
i=1
β1Xi Xi
+ 1 n
n
X
i=1
ui Xi
=β1+ 1 n
n
X
i=1
ui Xi
⇒E β˜1
=β1+ 1 nE
n
X
i=1
ui Xi
!
=β1+ 1 n
n
X
i=1
E ui
Xi
=β1+ 1 n
n
X
i=1
E
E ui
Xi
X =Xi
=β1 + 1 n
n
X
i=1
E
E(ui|X =Xi) Xi
=β1
dans la mesure o`u nous pouvons supposer que E(ui|X =Xi) = 0, ∀i, ce qui fait partie des hypoth`eses de base du mod`ele de r´egression simple
´etudi´e en classe.
4. Nous avons
Var β˜1
=Var β1+ 1 n
n
X
i=1
ui Xi
!
=Var 1 n
n
X
i=1
ui Xi
!
= 1 n2
n
X
i=1
Var ui
Xi
= 1 n2
n
X
i=1
Var(vi)
= 1 n2
n
X
i=1
σv2 = σv2 n .
Dans la mesure o`uσ2v <∞, nous avons
n→∞lim σ2v
n = 0.
Ici j’ai suppos´e des observations i.i.d. afin de passer de la variance d’une somme `a la somme de variances.
5. Nous avons montr´e l’absence de biais de l’estimateur et que sa variance tend vers z´ero lorsquentend vers l’infini. Ceci n’est pas une preuve 100% rigoureuse de la convergence en probabilit´e, mais `a part des distributions aberrantes ceci est normalement suffisant pour la
convergence. J’ai insist´e `a plusieurs reprises dans le cours sur ce dernier point. Revoir la d´efinition de la convergence en probabilit´e dans la section 4.2 du chapitre sur l’estimation et l’inf´erence. L’absence de biais et une variance qui tend vers z´ero ne reviennent pas exactement `a la d´efinition de la convergence en probabilit´e.
6. Non. Si la variance deui est constante, l’estimateur efficient par une version du th´eor`eme Gauss-Markov serait l’estimateur MCO. Si la variance deuin’est pas constante mais si elle est reli´ee `a des variables observables, l’estimateur le plus efficient serait une version de
l’estimateur des moindres carr´es g´en´eralis´es. Il ne fallait pas ´ecrire la derni`ere phrase pour avoir tous les points. L’estimateur propos´e dans l’´enonc´e de la question n’est pas l’estimateur MCO (ni MCG).
cette version : 02/03/2018