Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

(1)

ECO 4272-50: Introduction à l’économétrie Examen intra : Réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

c 2018, Steve Ambler Hiver 2018

1 R´eponses courtes

1. C’est un exemple d’hétéroscédasticité conditionnelle. Le cas ici

correspond au graphique du panneau gauche dans Auld (2012). Dans un cas comme celui-ci, une variation de la valeur du coefficient estimé fait varier moins la somme des erreurs au carré qu’en l’absence d’une telle relation. Ceci veut dire que l’écart type non robuste va sur-estimer la précision avec laquelle on peut estimer la valeur du paramètre. L’écart type robuste va être plus élevé pour refléter cette incertitude accrue.

2. Parmi les hypothèses de base du modèle présentées dans les notes de cours ou dans le manuel de Stock et Watson, onne suppose pasune variance constante de l’erreur du modèle. Autrement dit, on ne suppose pas

Var(u_i|X =X_i) = Var(u_i) =σ_u².

Cette hypothèse est nécessaire pour montrer l’efficience de l’estimateur MCO. Elle fait partie des hypothèses de base du théorème Gauss-Markov.

Voir les notes de cours ou le blogue de Giles (2011b).

3. Il est utilisé entre autres parce qu’il donne un estimateur qui est relativement simple à calculer. La fonction objectif à minimiser est

(2)

quadratique dans les variables de choix. Donc, les conditions du premier ordre pour trouver les paramètres estimés donnent un système

d’équations linéaires. Une deuxième raison de l’utiliser est son efficience (sous certaines conditions). Sous l’hypothèse de l’homoscédasticité du terme d’erreur (voir la sous-question précédente), on peut montrer que l’estimateur MCO est l’estimateur le plus efficient parmi la classe des estimateurs linéaires.

4. L’énoncé est faux. Le calcul des écarts types robustes et non rubustes utilise les résidusuˆ_i, qui sont calculés à partir de la solution dumême problème de minimisation de la somme des erreurs au carré. Reregardez les expressions pourσˆ²_ˆ

β1 etσ˜²_ˆ

β1 dans les sections 7.1 et 7.1 des notes de cours. Dans les deux expressions, ce sont les mˆemesuˆ²_i qui paraissent.

2 Distributions de probabilit´e jointes

1. Il faut que la somme de toutes les probabilités jointes soit égale à un, et donc la valeur qui manque est .04.

2. Nous avons

Pr(X = 0)

=Pr(X = 0|Y = 1) +Pr(X = 0|Y = 2) +Pr(X = 0|Y = 3)

=.08 +.08 +.04 =.20, Pr(X = 1)

=Pr(X = 1|Y = 1) +Pr(X = 1|Y = 2) +Pr(X = 1|Y = 3)

=.10 +.05 +.04 =.19, Pr(X = 2)

=Pr(X = 2|Y = 1) +Pr(X = 2|Y = 2) +Pr(X = 2|Y = 3)

=.10 +.22 +.04 =.36, Pr(X = 3)

=Pr(X = 3|Y = 1) +Pr(X = 3|Y = 2) +Pr(X = 3|Y = 3)

=.02 +.05 +.18 =.25.

Ce n’était pas nécessaire de simplifier les réponses.

(3)

3. Nous avons

E(X) = 0×.20 + 1×.19 + 2×.36 + 3×.25 = 1.66.

Ce n’était pas nécessaire de simplifier la réponse.

4. Nous avons

Pr(Y = 1)

=Pr(Y = 1|X = 0)+Pr(Y = 1|X = 1)+Pr(Y = 1|X = 2)+Pr(Y = 1|X = 3)

=.08 +.10 +.10 +.02 =.30, Pr(Y = 2)

=.08 +.05 +.22 +.05 =.40, Pr(Y = 2)

=.04 +.04 +.04 +.18 =.30.

Ce n’était pas nécessaire de simplifier les réponses.

5. Nous avons

E(Y) = 1×.30 + 2×.40 + 3×.30 = 2.

Ce n’était pas nécessaire de simplifier la réponse.

6. Nous avons

E(X|Y = 2) =

0×Pr(X = 0|Y = 2)+1×Pr(X = 1|Y = 2)+2×Pr(X = 2|Y = 2)+3×Pr(X = 3|Y = 2)

= 0× Pr(X = 0, Y = 2)

Pr(Y = 2) + 1× Pr(X = 1, Y = 2) Pr(Y = 2) +2× Pr(X = 2, Y = 2)

Pr(Y = 2) + 3×Pr(X = 3, Y = 2) Pr(Y = 2)

= 1× .05

.40+ 2×.22

.40 + 3× .05 .40 = .64

.40. Ce n’était pas nécessaire de simplifier la réponse.

(4)

7. Nous avons

E(Y|X = 2) =

1×Pr(Y = 1|X = 2) + 2×Pr(Y = 2|X = 2) + 3×Pr(Y = 3|X = 2)

= 1×Pr(X = 2, Y = 1)

Pr(X = 2) +2×Pr(X = 2, Y = 2)

Pr(X = 2) +3×Pr(X = 2, Y = 3) Pr(X = 2)

= 1× .10

.36+ 2×.22

.36 + 3× .04 .36 = .66

.36. Ce n’était pas nécessaire de simplifier la réponse.

8. Non. Il suffit de trouver un cas o`u

Pr(X =i, Y =j)6=Pr(X =i)Pr(Y =j). En fait, nous avons

Pr(X = 1, Y = 1) =.106=Pr(X = 1)Pr(Y = 1) =.19×.30.

3 Estimateur de la moyenne d’une variable al´eatoire

1. Si on interprèteβ₀ comme la meilleure prédiction (non conditionnelle) de Y_i, alorsu_iest l’erreur de prédiction, et en termes de variables

observables ou variables de choix l’erreur est égale à(Yi−β0). On veut minimiser la somme des erreurs au carré. Donc, le programme peut s’écrire

minβ0

n

X

i=1

(Y_i−β₀)²

! .

Notez bien qu’il y antermes dans la fonction `a minimiser o`uβ₀paraˆıt.

Donc, la CPO (sous-question suivante) pour le choix deβ₀va devoir comporterntermes.

2. La CPO pour le choix dexest β₀ :

n

X

i=1

−2 (Y_i−β₀) = 0.

(5)

3. Nous avons

n

X

i=1

−2 (Y_i−β₀) = 0

⇒

n

X

i=1

(Y_i−β₀) = 0

⇒

n

X

i=1

Yi =

n

X

i=1

β0

⇒

n

X

i=1

Yi =nβ0

⇒βˆ₀ = 1 n

n

X

i=1

Y_i ≡Y .¯

Bien sˆur, ceci est tout simplement la moyenne ´echantillonnale.

4. Pour estimer la variance dans la population nous utilisons habituellement la variance échantillonnale. Nous avons vu dans le chapitre de rappel sur l’estimation et l’inférence que la variance échantillonnale est un

estimateur convergent de la variance dans la population. Nous l’avons pas démontré, mais il y a une preuve dans la section 7.6.1 des notes de cours que la variance échantillonnale est un estimateur non biaisé de la

variance. Si nous ´ecrivons cet estimateurσˆ_Y² nous avons ˆ

σ_Y² = 1 n−1

n

X

i=1

Y_i−Y¯2

.

Comme nous avons vu en classe (sans le d´emontrer), il est conventionnel de diviser parn−1pour obtenir un estimateur non biais´e de la variance.

5. Nous utilisons une statistique normalis´ee en soustrayant la valeur sousH₀ et en divisant par un estimateur convergent de l’´ecart type :

t_act =

Y¯ −µ⁰_Y ˆ σY¯

.

Notez que nous divisons par un estimateur de l’´ecart type de la moyenne

´echantillonnaleY¯, o`u

ˆ σY²¯ = 1

nσˆ_Y²

(6)

6. Cette sous-question était une question piège. Si nous ne connaissons pas la distribution de probabilité qui génère lesY_i, nous ne connaissons pas la distribution de probabilité à laquelle obéitY¯, qui est une combinaison linéaire desY_i. Ceci est un principe très important. J’ai insisté là-dessus à plusieurs reprises dans le cours. En fait, ça fait partie de la philosophie de base du livre de Stock et Watson — l’idée qu’en général on ne connaˆıt pas les lois de probabilité qui génèrent les données que nous utilisons en

économétrie appliquée, ce qui justifie l’utilisation du théorème de la limite centrale et la convergence en probabilité ou la convergence en distribution de nos statistiques vers une loi normale.

7. La statistique est une moyenne ´echantillonnale. Nous pouvons supposer la convergence en distribution `a une loi normale. Puisque nous

soustrayons la valeur sousH₀et nous divisons par un estimateur

convergent de son écart type, l’espérance de la statistique (siH0 est vraie) est zéro et sa variance est unitaire. Donc, il y a convergence en

distribution à une loi normale centrée réduite.

8. Oui. Entre autres, on suppose que lesY_i sont i.i.d. et on supppose que la distribution qui génère leY_i a une variance finie. De cette façon nous pouvons invoquer le théorème de la limite centrale.

4 R´egression simple, tests d’hypoth`ese et intervalles de confiance

1. βˆ₁ donne l’impact d’une augmentation d’une année de la durée d’études sur le salaire horaire d’un individu.

2. Par d´efinition, nous avons

SER= r 1

n−2SSR

⇒SSR= (n−2)×SER² = (2753−2)×9.2463². 3. Une des d´efinitions possibles de l’ajustement statistique est

R² = 1− SSR T SS.

Le tableau de résultats fournitT SS et on peut calculerSSR à partir de SER(vour la réponse à la sous-question précédente).

(7)

4. Un test de significativité est toujours un test de l’hypothèse nulle que le coefficient est égal à zéro,

H₀ :β₁ = 0.

Donc la statistiquetserait

t_act=

βˆ₁−0 ˆ σβˆ1

= −3.5828 1.0900 .

L’hypoth`ese alternative est toujours (ou presque) bilat´erale : H₁ :β₁ 6= 0.

5. L’hypothèse alternative est bilatérale. Donc, lap-value est la probabilité d’obtenir une valeur au moins aussi élevéeen valeur absoluede la statistiquetsiH0 est vraie. Nous avons

p=Pr(z ≥ |t_act|) = 2×Φ (−|t_act|) oùΦ (·)est la fonction normale centrée réduite cumulée.

6. Un écart type robuste tient compte de la possibilité d’interaction entre les valeurs réalisées des variables explicatives (lesX_i) et la variance du terme d’erreur du modèle. Donc il tient compte de la possibilité

d’hétéroscédasticité conditionnelle.

7. Oui. Sa valeur absolue est supérieure à 3, bien au delà du chiffre magique de 1.96.

8. Nous écrivons la statistiquetnormalisée de la façon habituelle : t_act =

βˆ₁−(−1.0) ˆ σ_β_ˆ

1

= −2.5828 1.0900 .

9. L’hypothèse alternative estunilatérale. Nous rejetons l’hypothèse nulle si la probabilité d’obtenir une valeur au moins aussinégativede la statistique normalisée est suffisamment faible siH₀ est vraie. Nous avons

p=Pr(z < t_act) = Φ (−2.5828/1.0900).

(8)

10. Nous avons

0.95 =Pr −1.96≤ βˆ₁−β₁ ˆ σβˆ1

≤1.96

!

=Pr

−1.96×σˆβˆ1 ≤βˆ1−β1 ≤1.96×σˆβˆ1

=Pr

−1.96×σˆβˆ1 ≤β₁−βˆ₁ ≤1.96×σˆβˆ1

=Pr

βˆ1−1.96×σˆβˆ1 ≤β1 ≤βˆ1+ 1.96×σˆβˆ1

. Ainsi, nous pouvons exprimer l’intervalle de confiance comme

βˆ₁±1.96×σˆ_β_ˆ

1.

11. Il serait plus large, puisqu’on veut être plus confiant que la vraie valeur se trouve à l’intérieur de l’intervalle calculé. En fait, la probabilité qu’une réalisation de la normale centrée réduite soit entre -2.58 et 2.58 est égale

`a 0.99. Autrement dit,

0.99−Pr(−2.58≤z ≤2.58) o`u

z ∼N(0,1).

5 R´egression simple : estimateurs non biais´es

1. Non. Il est facile de montrer (je ne vous ai pas demand´e de le faire) que l’estimateur MCO serait

βˆ₁ = Pn

i=1X_iY_i Pn

i=1X_i² ,

qui ressemble à l’estimateur deβ₁dans le modèle de base étudié en classe. Il n’est pas l’estimateur proposé dans l’énoncé de la question.

Minimiser la somme des erreurs au carré revient à résoudre le programme suivant :

minβ1

2

X

i=1

(Y_i−β₁X_i)²

! ,

(9)

qui a comme CPO β₁ :

n

X

i=1

−2X_i(Y_i−β₁X_i) = 0

⇒

n

X

i=1

X_i(Y_i−β₁X_i) = 0

⇒

n

X

i=1

Y_iX_i =β₁

n

X

i=1

X_i²

⇒βˆ₁ = Pn

i=1X_iY_i Pn

i=1X_i² .

Je ne vous ai pas demand´e de faire cette d´emonstration.

2. Nous avons

β˜₁ = 1

X₁Y₁+ 1

X₂Y₂+. . .+ 1 X_nY_n, qui est clairement une fonction lin´eaire desY_i.

3. Si nous remplac¸onsY_i parβ₁X_i, nous obtenons β˜₁ = 1

n

X

i=1

β₁X_i+u_i X_i

= 1 n

n

X

i=1

β₁X_i Xi

+ 1 n

n

X

i=1

u_i Xi

=β₁+ 1 n

n

X

i=1

u_i X_i

⇒E β˜1

=β1+ 1 nE

n

X

i=1

u_i X_i

!

=β₁+ 1 n

n

X

i=1

E ui

X_i

=β₁+ 1 n

n

X

i=1

E

E u_i

X_i

X =X_i

(10)

=β1 + 1 n

n

X

i=1

E

E(u_i|X =X_i) X_i

=β1

dans la mesure où nous pouvons supposer que E(u_i|X =X_i) = 0, ∀i, ce qui fait partie des hypothèses de base du modèle de régression simple

´etudi´e en classe.

4. Nous avons

Var β˜₁

=Var β₁+ 1 n

n

X

i=1

u_i X_i

!

=Var 1 n

n

X

i=1

u_i X_i

!

= 1 n²

n

X

i=1

Var ui

X_i

= 1 n²

n

X

i=1

Var(v_i)

= 1 n²

n

X

i=1

σ_v² = σ_v² n .

Dans la mesure o`uσ²_v <∞, nous avons

n→∞lim σ²_v

n = 0.

Ici j’ai suppos´e des observations i.i.d. afin de passer de la variance d’une somme `a la somme de variances.

5. Nous avons montré l’absence de biais de l’estimateur et que sa variance tend vers zéro lorsquentend vers l’infini. Ceci n’est pas une preuve 100% rigoureuse de la convergence en probabilité, mais à part des distributions aberrantes ceci est normalement suffisant pour la

convergence. J’ai insisté à plusieurs reprises dans le cours sur ce dernier point. Revoir la définition de la convergence en probabilité dans la section 4.2 du chapitre sur l’estimation et l’inférence. L’absence de biais et une variance qui tend vers zéro ne reviennent pas exactement à la définition de la convergence en probabilité.

(11)

6. Non. Si la variance deu_i est constante, l’estimateur efficient par une version du théorème Gauss-Markov serait l’estimateur MCO. Si la variance deuin’est pas constante mais si elle est reliée à des variables observables, l’estimateur le plus efficient serait une version de

l’estimateur des moindres carrés généralisés. Il ne fallait pas écrire la dernière phrase pour avoir tous les points. L’estimateur proposé dans l’énoncé de la question n’est pas l’estimateur MCO (ni MCG).

cette version : 02/03/2018