Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

(1)

ECO 4272: Introduction à l’économétrie Examen intra: Solutions

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

c 2014, Steve Ambler Automne 2014

1 Moments de variables al´eatoires (10 points)

Il faut commencer avec la définition de la covariance entre les deux variables aléatoires discrètesX etY. Supposonskréalisations distinctes possibles pourX etlréalisations distinctes possibles pourY. Nous avons

Cov(X, Y)≡

k

X

i=1 l

X

j=1

(X_i−E(X)) (Y_i−E(Y))Pr(X =X_i, Y =Y_j). Comme tout moment (dans la population), on additionne toutes les réalisations distinctes pondérées par leurs probabilités. À partir de la définition, on simplifie.

Nous avons

Cov(X, Y) =

k

X

i=1 l

X

j=1

X_iY_jPr(X =X_i, Y =Y_j)

−

k

X

i=1 l

X

j=1

X_iE(Y)Pr(X =X_i, Y =Y_j)

(2)

−

k

X

i=1 l

X

j=1

Y_jE(X)Pr(X =X_i, Y =Y_j)

+

k

X

i=1 l

X

j=1

E(X)E(X)

=

k

X

i=1 l

X

j=1

X_iY_jPr(X =X_i, Y =Y_j)

−

k

X

i=1

Xi l

X

j=1

E(Y)Pr(X =Xi, Y =Yj)

−

l

X

j=1

Y_j

k

X

i=1

E(X)Pr(X =X_i, Y =Y_j)

+E(X)E(Y)

k

X

i=1 l

X

j=1

1

=E(XY)

−E(Y)

k

X

i=1

X_i

l

X

j=1

Pr(X =X_i, Y =Y_j)

−E(X)

l

X

j=1

Y_j

k

X

i=1

Pr(X =X_i, Y =Y_j) +E(X)E(Y)

=E(XY)

−E(Y)

k

X

i=1

X_iPr(X=X_i)−E(X)

l

X

j=1

Y_jPr(Y =Y_j) +E(X)E(Y)

=E(XY)−E(Y)E(X)−E(X)E(Y) +E(X)E(Y)

=E(XY)−E(X)E(Y),

(3)

ce qui fut à démontrer. C’est un exercice pour tester vos capacités de manipuler les sommations et aussi pour tester si vous maˆıtrisez comment aller de probabilités jointes aux probabilités marginales. J’ai utilisé les relations

k

X

i=1

Pr(X =Xi, Y =Yj) = Pr(Y =Yj) et

l

X

j=1

Pr(X =X_i, Y =Y_j) =Pr(X =X_i)

2 Distributions de probabilit´e jointes (20 points)

Nous avons

Pr(X = 1) = 1/3, Pr(X = 2) = 1/3, Pr(X = 3) = 1/3.

Si nous avonsX = 1, nous faisons pile ou face une fois, et nous pouvons obtenir soit z´ero soit une pile. Nous avons

Pr(Y = 0|X = 1) = 1/2, Pr(Y = 1|X = 1) = 1/2.

Si nous avonsX = 2, nous faisons pile ou face deux fois, et nous pouvons obtenir z´ero, une ou deux piles. Nous avons

Pr(Y = 0|X= 2) = 1/4, Pr(Y = 1|X = 2) = 1/2, Pr(Y = 2|X = 2) = 1/4.

Pour calculer ces probabilités conditionnelles, il fallait seulement compter le nombre de réalisations distinctes (sur quatre réalisations distinctes possibles) qui donne soit zéro, soit une, soit deux piles. Si nous avonsX = 3, nous faisons pile ou face trois fois, et nous pouvons obtenir zéro, une, deux ou trois piles. Nous avons

Pr(Y = 0|X = 3) = 1/8, Pr(Y = 1|X = 3) = 3/8, Pr(Y = 2|X = 3) = 3/8, Pr(Y = 3|X = 3) = 1/8.

Maintenant, pour calculer les probabilit´es jointes nous utilisons Pr(X =X_i, Y =Y_j) = Pr(X =X_i|Y =Y_j)Pr(Y =Y_j) et

Pr(X =X_i, Y =Y_j) = Pr(Y =Y_j|X =X_i)Pr(X =X_i).

(4)

1. Le tableau doit ressembler `a ce qui suit :

Y\X X=1 X=2 X=3

Y=0 1/6 1/12 1/24 7/24

Y=1 1/6 1/6 3/24 11/24

Y=2 0 1/12 3/24 5/24

Y=3 0 0 1/24 1/24

1/3 1/3 1/3 1

2. Les probabilités marginales pour X sont dans la dernière rangée du tableau. Les probabilités marginales pourY sont dans la dernière colonne.

3. Nous avons :

E(X|Y = 2) = 1×Pr(X = 1|Y = 2) + 2×Pr(X = 2|Y = 2) +3×Pr(X = 3|Y = 2)

= 1× Pr(X = 1, Y = 2) Pr(Y = 2) +2× Pr(X = 2, Y = 2)

Pr(Y = 2) +3× Pr(X = 3, Y = 2)

Pr(Y = 2)

= 1× 0

5/24 + 2× 1/12

5/24 + 3× 3/24 5/24. Ce n’était pas nécessaire de simplifier les réponses 4. Nous avons :

= 0× Pr(Y = 0, X = 3) Pr(X = 3) +1× Pr(Y = 1, X = 3)

Pr(X = 3) +2× Pr(Y = 2, X = 3)

Pr(X = 3)

(5)

+3× Pr(Y = 3, X = 3) Pr(X = 3)

= 0×1/24

1/3 + 1×3/24

1/3 + 2×3/24

1/3 + 3×1/24 1/3 . Ce n’était pas nécessaire de simplifier les réponses

5. Nous avons :

E(X|Y = 0) = 1×Pr(X = 1|Y = 0) + 2×Pr(X = 2|Y = 0) +3×Pr(X = 3|Y = 0)

= 1× Pr(X = 1, Y = 0) Pr(Y = 0) +2× Pr(X = 2, Y = 0)

Pr(Y = 0) +3× Pr(X = 3, Y = 0)

Pr(Y = 0)

= 1× 1/6

7/24 + 2× 1/12

7/24 + 3× 1/24 7/24. Ce n’était pas nécessaire de simplifier les réponses

6. Les deux variables ne sont pas ind´ependantes. Il suffit de trouver un contre- exemple pour lequel nous avons

Pr(X =Xi, Y =Yj)6=Pr(X =Xi)Pr(Y =Yj). Nous avons

Pr(X = 1, Y = 0) = 1/66= 7/24×1/3 = Pr(X = 1)Pr(Y = 0).

3 Tests d’hypoth`ese (30 points)

1. La statistique calculée (l’estimateur) est la médiane échantillonnale. Il faut la normaliser en soustrayant sa valeur sous l’hypothèse nulle et en divisant le tout par la racine carrée de la variance échantillonnale de la médiane

échantillonnale. Nous avons (selon l’énoncé) Var(m) = 1

n 1 4

√1 2πσ²

2 = 1 nσ²2π

4 = 1 nσ²π

2.

(6)

Donc, la statistique t que nous pouvons utiliser pour tester l’hypoth`ese nulle s’´ecrit comme

t^act = m−µ₀ q1

nσ²π/2 2. Nous avons

E





m−µ₀ q1

nσ²π/2





= 1

q1 nσ²π/2

E(m−µ₀)

= 1

q1 nσ²π/2

(µ₀−µ₀) = 0

si l’hypothèse nulle est vraie, puisque par hypothèse m est un estimateur non biaisé (puisque nous savons que la variable aléatoire Y est distribuée comme une variable normale, qui est une distribution symétrique).

3. Nous avons

Var t^act

=Var





m−µ0

q1 nσ²π/2





=Var



 m q1

nσ²π/2





= 1

1

nσ²π/2Var(m)

= 1

1 nσ²π/2

1 nσ²π

2 = 1, ce qui fut `a d´emontrer.

4. Oui. Cette question est un peu subtile. Par hypothèse Y suit une distribution normale, et on utilise la variance de la médiane échantillonnale qui est supposée être connue. Donc, on pourrait supposer que la statistiquetsuivrait une loi normale même en petit échantillon. J’ai donné presque tous les points à ceux qui ont écrit ceci. Par contre, la médiane échantillonnale est

(7)

une fonctionne non linéaire des observations. Elle n’a pas une distribution normale en petit échantillon même si l’échantillon provient d’observations d’une variable aléatoire normale. Donc, il faut avoir assez d’observations pour invoquer le théorème de la limite centrale pour effectuer le test. Si- non, on ne connaˆıt pas la distribution exacte de la statistique.

5. Si l’hypothèse alternative est bilatérale (il faut écrire ceci puisque ce n’est pas spécifié dans l’énoncé du problème), nous avons

p= 2×Φ −|t^act| .

6. Il faut remplacer la variance de la médiane échantillonnale par un estimateur convergent de cette variance. Sachant que la variance est pro- portionelle à σ², si on connaˆıt un estimateur convergent pour σ² on peut construire un estimateur convergent pour la variance de la médiane échan- tillonnale. On peut donc utiliser la variance échantillonnale pour estimer σ², et construire l’estimateur pour Var(m) à partir de cet estimé.

7. Si l’estimateur de la variance de la médiane échantillonnale est convergent, nous pouvons le traiter comme une constante dans le calcul de l’espérance et de la variance de tâct. L’espérance est toujours zéro et la variance est toujours unitaire.

8. Nous avons selon la sous-question (1) que Var(m) = 1

nσ²π 2.

La variance de la moyenne ´echantillonnale est donn´ee par Var Y¯

= 1 nσ². Donc,

Var(m)>Var Y¯ ,

pour n’importe quelle valeur den.Même sans ce résultat, nous savons que l’estimateur MCO (qui estY¯) est l’estimateur linéaire le plus efficient si les observations ont une variance constante (un exemple du théorème Gauss-Markov). Encore une petite subtilité : la médiane est une statistique d’ordrequi n’est pas une fonction linéaire des observations, et donc on ne peut pas automatiquement invoquer le théorème Gauss-Markov, qui permet de savoir quel est l’estimateurlinéairele plus efficient. Il ne fallait pas noter ceci pour avoir tous les points.

(8)

4 R´egression simple, tests d’hypoth`ese et intervalles de confiance (40 points)

1. Oui, la productivité semble être affectée par le nombre d’heures travaillées.

Le coefficient estim´eβb₁ est n´egatif et sa valeur est au moins trois fois son

écart type. Même sans test formel on peut répondre oui.

2. Nous avons rRSS

n−2 ≡SER ⇒RSS =SER²×(n−2) = 1.71²×(240−2).

Ce n’´etait pas n´ecessaire de simplifier.

3. Nous avons

R² ≡1− RSS T SS

⇒T SS = RSS

1−R² = RSS 1−0.19.

Ce n’´etait pas n´ecessaire de simplifier. La valeur de RSS provient de la sous-question 1.

4. Question qui demande un peu de réflection. Ç a serait la productivité (nombre d’appels par heure) avec zéro heures de travail, ce qui n’est pas très lo- gique. Cela suppose que la relation entre heures travaillées et productivité, qui est approximativement linéaire lorsque les heures travaillées dépassent 30.5 (valeur minimale dans l’échantillon), continue à être linéaire lorsque les heures tendent vers zéro, ce qui n’est pas très plausible. Autrement dit, l’ordonnée à l’origine n’a pas une interprétation claire dans ce cas-ci.

5. Nous savons que

Corr(X, Y)2

=R².

L’ajustement statistique doit être égal au carré du coefficient de corrélation entre la variable explicative et la variable dépendante. Le signe du coefficient de corrélation va correspondre au signe deβb₁, qui est négatif. Donc

Corr(X, Y) = −√ 0.19.

(9)

6. La statistiquetpeut s’´ecrire

t^act= βb₁ −0 σb_β_ˆ

1

= −0.14 0.04 .

L’hypoth`ese nulle estH₀ : β₁ = 0. L’hypoth`ese alternative estH₁ : β₁ 6=

0.

7. Lap-value est donn´ee par

p= 2×Φ −|t^act|

= 2×Φ (−0.14/0.04).

On suppose qu’il y a assez d’observations pour que la statistiquetsoit dis- tribuée approximativement comme une variable normale centrée réduite.

8. La statistique t normalisée dépasse 3 en valeur absolue et donc on va re- jeter l’hypothèse nulle de non-significativité aux niveaux conventionnels.

On sait donc que le coefficient est significatif `a un taux marginal de 5%. Si on se souvient (pas n´ecessaire pour avoir les points) que

2×Φ (−2.57) ≈0.01, on sait qu’il est significatif `a un taux de 1% aussi.

9. L’hypothèse alternative est maintenant unilatérale. C’est toujours la même statistique, mais lap-value est donnée par

p= Φ t^act

= Φ (−0.14/0.04). 10. Soitz >¯ 0o`u

0.99 =Pr(−¯z < z <z)¯ avecz ∼N(0,1). Alors nous avons

0.99 = Pr −¯z < βb₁−β₁ bσ_β_b

1

<z¯

!

=Pr

−¯zbσ_β_b

1 <

βb1−β1

<z¯σb_β_b

1

=Pr

−¯zbσ_β_b

1 <

β₁−βb₁

<z¯σb_β_b

1

=Pr

βb₁−z¯bσ

βb1 < β₁ <βb₁+ ¯zbσ

βb1

. Donc, l’intervalle de confiance de 99% peut s’´ecrire

βb₁±z¯bσ_β_b

1

(10)

11. Nous avons

Yb =βb₀+βb₁Xe o`uXe est la valeur impos´ee deX. Nous avons donc

Yb = 19.8−0.14×30.0.

12. Nous avons

∆Yb =βb₁∆X

o`u∆X est le changement impos´e dans la valeur deX. Donc nous avons

∆Yb =−0.14×5.0.

Ce n’´etait pas n´ecessaire de simplifier 13. Nous avons

∆Yb =βb₁∆X

⇒Var

∆Yb

= (∆X)²bσ²

βb1

Soitz >¯ 0o`u

0.95 =Pr(−¯z < z <z)¯ avecz ∼N(0,1). Alors nous avons

0.95 = Pr



−¯z <

∆X

βb₁−β₁ (∆X)bσ_β_b

1

<z¯





Pr

−¯z(∆X)σb

βb1 <∆X

βb₁−β₁

<z¯(∆X)bσ

βb1

Pr

−¯z(∆X)σb

βb1 <∆X

β₁−βb₁

<z¯(∆X)bσ

βb1

Pr

∆Xβb₁−z¯(∆X)σb_β_b

1 <∆Xβ₁ <∆Xβb₁+ ¯z(∆X)bσ_β_b

1

. Donc, l’intervalle de confiance peut s’´ecrire

∆Xβb₁±z¯(∆X)bσ

βb1.

14. Il faudrait supposer la normalité de l’erreur avec une variance constante. Si on fait cette hypothèse, la statistiquetsuivrait une distributiontde Student avecn−2degrés de liberté.

(11)

5 Estimateurs (20 points en bonus)

1. Nous avons

βe₁ ≡

1 n−1

Pn

i=2(Y_i−Yi−1)

1 n−1

Pn

i=2(X_i−Xi−1)

=

1 n−1

Pn

i=2(β0+β1Xi+ui−β0−β1Xi−1−ui−1)

1 n−1

Pn

i=2(X_i−Xi−1)

=

1 n−1

Pn

i=2(β₁(X_i −Xi−1) + (u_i−ui−1))

1 n−1

Pn

i=2(X_i−X_i−1)

= β₁_n−1¹ Pn

i=2(X_i−Xi−1)

1 n−1

Pn

i=2(X_i−Xi−1) +

1 n−1

Pn

i=2(u_i−ui−1)

1 n−1

Pn

i=2(X_i−Xi−1)

=β₁ +

1 n−1

Pn

i=2(u_i−u_i−1)

1 n−1

Pn

i=2(X_i−Xi−1).

Maintenant il s’agit de calculer l’esp´erance de l’estimateur. Nous avons E

βe₁

=β₁ +E

1 n−1

Pn

i=2(u_i−ui−1)

1 n−1

Pn

i=2(X_i−Xi−1)

!

=β1+E

1 n−1

Pn

i=2E((u_i−ui−1)|X)

1 n−1

Pn

i=2(X_i−X_i−1)

!

=β1,

ce qui fut à démontrer. Nous avons utilisé la loi des espérances itérées pour passer à l’avant-dernière ligne.

2. Nous avons

1 n−1

n

X

i=2

(Y_i−Yi−1)

= 1

n−1

n

X

i=2

Yi− 1 n−1

n−1

X

i=1

Yi

= ¯Y₂ −Y¯₁

(12)

oùY¯₂ est la moyenne échantillonnale deY en omettant la première observation et oùY¯₁est la moyenne échantillonnale deY en omettant la dernière observation. Nous avons

E Y¯2

=E Y¯1

=µY.

Les deux sont des estimateurs non biais´es de la moyenne (population) de la variable al´eatoireY. Nous avons aussi

Var Y¯₂

= 1

n−1 2 n

X

i=2

E(Y_i)

= 1

n−1 2 n

X

i=2

µ_Y = µ_Y n−1. Nous avons

n→∞lim Var Y¯₂

= 0 et donc nous pouvons conclure que

Y¯₂ −→^p µ_Y.

De mani`ere semblable, nous pouvons conclure que Y¯1

−p

→µY

et donc

Y¯₂−Y¯₁ p

−

→0,

ce qui fut à démontrer. J’utilise ici la preuve non rigoureuse de la convergence (absence de biais et une variance qui tend vers zéro).

3. La démarche est identique par rapport à la sous-question précédente.

4. Notre estimateur est le ratio de deux variables aléatoires qui convergent en probabilité à zéro. La limite de probabilité du ratio (qui est le ratio des limites de probabilité) n’est même pas définie. Donc, il n’y a pas convergence en probabilité à β₁. Le problème ici est que le dénominateur de l’estimateur converge vers zéro aussi rapidement que le numérateur. Pour cette raison, la variance de l’estimateur ne diminue pas avecn.

cr´e´e le : 18/10/2014