Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

(1)

ECO 4272: Introduction à l’économétrie Examen intra: Réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

c 2010, Steve Ambler Hiver 2011

1 Variances et covariances (10 points)

1. L’expression qu’il fallait ´ecrire est le ratio de la covariance

échantillonnaleet du produit des écarts typeséchantillonnaux:

1 n−1

Pn

i=1(Y_1i−Y¯₁)(Y_2i−Y¯₂) q 1

n−1

Pn

i=1(Y_1i−Y¯₁)²q

1 n−1

Pn

i=1(Y_2i−Y¯₂)²

oùY¯₁etY¯₂ sont les moyennes échantillonnales. Il était très important d’utiliser la covariance et les variances échantillonnales. J’ai été

relativement sévère si vous avez utilisé des moments de la populations, par exemple des opérateurs d’espérance, j’ai enlevé des points. L’énoncé de la question dit clairementsur la base d’un échantillon denobservations. Il y a encore beaucoup de confusion entre moments dans la population et moments échantillonnaux.

2. La moyenne échantillonnale dea+bY₁est tout simplementa+bY¯₁oùY¯₁ est la moyenne échantillonnale deY₁, et la moyenne échantillonnale de c+dY₂estc+dY¯₂. Nous avons

Corr(a+bY₁, c+dY₂)

(2)

=

1 n−1

Pn

i=1(a+bY_1i−a−bY¯₁)(c+dY_2i −c−dY¯₂) q 1

n−1

Pn

i=1(a+bY_1i−a−bY¯₁)²q

1 n−1

Pn

i=1(c+dY_2i−c−dY¯₂)²

=

1 n−1

Pn

i=1(bY_1i−bY¯₁)(dY_2i−dY¯₂) q 1

n−1

Pn

i=1(bY_1i−bY¯₁)²q

1 n−1

Pn

i=1(dY_2i−dY¯₂)²

=

1 n−1

Pn

i=1bd(Y_1i−Y¯₁)(Y_2i −Y¯₂) q 1

n−1

Pn

i=1b²(Y1i−Y¯1)² q 1

n−1

Pn

i=1d²(Y2i−Y¯2)²

= bd_n−1¹ Pn

i=1(Y_1i−Y¯₁)(Y_2i−Y¯₂) bdq

1 n−1

Pn

i=1(Y_1i−Y¯₁)²q

1 n−1

Pn

i=1(Y_2i−Y¯₂)²

=

Pn

i=1(Y1i−Y¯1)(Y2i−Y¯2) pPn

i=1(Y_1i−Y¯₁)²pPn

i=1(Y_2i −Y¯₂)²

≡Corr(Y₁, Y₂), ce qui fut `a d´emontrer.

2 Distributions de probabilit´e jointes (15 points)

1. Nous avons

E(Y) = 0×Pr(Y = 0) + 1×Pr(Y = 1)

= 0×0.046 + 1×0.954 = 0.954.

2. C’est la même chose que la probabilité d’être au chômage, soit 0.046.

3. Nous avons

E(Y|X = 1) = 0×Pr(Y = 0|X = 1) + 1×Pr(Y = 1|X = 1)

= 0× Pr(Y = 0, X = 1)

Pr(X = 1) + 1×Pr(Y = 1, X = 1) Pr(X = 1)

= 0×0.009

0.341 + 1× 0.332

0.341 = 0.332 0.341.

(3)

4. Nous avons

E(Y|X = 0) = 0×Pr(Y = 0|X = 0) + 1×Pr(Y = 1|X = 0)

= 0× Pr(Y = 0, X = 0)

Pr(X = 0) + 1×Pr(Y = 1, X = 0) Pr(X = 0)

= 0×0.037

0.659 + 1× 0.622

0.659 = 0.622 0.659. 5. Le taux de chômage des diplômés est donné par

Pr(Y = 0|X = 1) = Pr(Y = 0, X = 1)

Pr(X = 1) = 0.009

0.341 <0.03.

Le taux de chômage des non diplômés est donné par Pr(Y = 0|X = 0) = Pr(Y = 0, X = 0)

Pr(X = 0) = 0.037

0.659 >0.03.

6. Pour l’ind´ependance, il faut que

Pr(X =X_i, Y =Y_j) = Pr(X =X_i)×Pr(Y =Y_j) ∀i, j.

Il est toujours le cas que

Pr(X =X_i, Y =Y_j) = Pr(Y =Y_j|X =X_i)×Pr(X =X_j) ∀i, j, et donc il faut que

Pr(Y =Y_j|X =X_i) = Pr(Y =Y_j) ∀i, j.

Donc, une façon simple de voir si les variables sont indépendantes serait de vérifier si le taux de chômage est identique pour les diplômés et les non diplômés, ce qui évidemment n’est pas le cas étant donnée la réponse à la partie précédente. C’est possible aussi de répondre à la question en vérifiant directement la première égalité.

(4)

3 Estimateur de l’asym´etrie d’une variable al´eatoire (15 points)

1. La réponse est très simple. Il s’agit encore de l’application d’une de nos règles de base. Nous avons

Var A˜_Y

=Var 1 n−1

n

X

i=1

Y_i−Y¯3

!

= 1

n−1 2 n

X

i=1

Var

Y_i−Y¯3

= 1

n−1 2 n

X

i=1

σ_A²

= n

(n−1)²σ²_A

La variance de la somme est la somme des variances puisque (par

hypoth`ese) les observations sont ind´ependantes. La variance de1/(n−1) fois la somme est1/(n−1)² fois la variance de la somme.

2. Nous utilisons la statistique normalisée habituelle pour effectuer un test d’hypothèse simple, à savoir la valeur calculée de la statistique moins sa valeur sous l’hypothèse nulle, divisée par la racine carrée d’un estimateur convergent de la variance de la statistique calculée. De cette façon, comme d’habitude, on a une statistique normalisée dont la moyenne est zéro si l’hypothèse nulle est vraie et dont la variance est unitaire. L’hypothèse nulle est que la distribution estsymétrique. Pour n’importe quelle distribution symétrique, la valeur de la mesure de l’asymétrie estzéro.

J’étais assez surpris par le nombre d’élèves qui n’ont pas compris ce principe simple. L’estimateur convergent de la variance de la statistique est

n

(n−1)²s²_A,

puisque par hypoth`eses²_Aest un estimateur convergent deσ_A². Donc la statistique pour effectuer le test serait

A˜_Y −0 q .

(5)

3. Dans l’énoncé, on ne dit pas quelle est la distribution qui génèreY (j’ai même écritexplicitementqueY provenait d’une distribution inconnue).

Pour cette raison, la statistique, qui est la somme de fonctions non linéaires de variables aléatoires provenant d’une distribution inconnue doit suivre une loi qui estinconnue. J’essaie d’insister sur ce principe depuis le début du trimestre. Une statistique est une fonction des observations, donc des valeurs réalisées d’une ou de plusieurs variables aléatoires. Si nous ne connaissons pas la loi exacte qui génère la ou les variables aléatoires,en

échantillon fininous ne pouvons connaˆıtre à quelle loi obéit la statistique.

D’où l’intérêt, si nous avons assez d’observations, d’utiliser une version du théorème de la limite centrale et de construire des statistiques qui vont se comporter (approximativement) comme si elles obéissent à une loi normale centrée réduite.

4. Par hypothèse on a des observations indépendantes. La statistique proposée est la moyenne d’observations indépendantes d’une variable aléatoire. Par hypothèse la variance de chaque terme de la sommation est constante. En principe, en grand échantillon la statistique devrait suivre

approximativementune loi normale centr´ee r´eduite.

5. C’est une version du th´eor`eme de la limite centrale.

4 R´egression simple, tests d’hypoth`ese et intervalles de confiance (40 points)

1. Le coefficient donne l’impact d’une variation du prix par citation sur le nombre d’abonnements. Puisque les deux variables sont mesurées en logs, l’impact a l’interprétation d’une élasticité (variation proportionnelle dans le nombre d’abonnements résultant d’une variation proportionnelle donnée dans le prix par citation). Ce n’était pas nécessaire d’utiliser ce terme pour avoir tous les points. Plusieurs étudiants ont écrit que cela mesurait le nombre moyen d’abonnements, ce qui n’est clairement pas le cas.

2. Il fallait utiliser l’identit´e suivante, sur laquelle on a pass´e beaucoup de temps au cours :

T SS =ESS+SSR= 125.9 + 100.1 = 226.0.

(6)

3. Deux fac¸ons ´equivalentes de le calculer : R² = ESS

T SS = 1− SSR

T SS = 125.9 226.0. 4. La r´eponse est

rSSR n−2.

5. L’hypoth`ese nulle est que la variable n’est pas significative, ce qui veut dire qu’elle n’aide pas `a expliquer les variations dans le nombre

d’abonnements, ce qui veut dire que sa valeur estzéro. J’ai insisté à plusieurs reprises en classe quetest de significativitésignifiait un test de l’hypothèse nulleH_o: ˆβ₁ = 0. La statistique est

t =

βˆ₁−0 s_β_ˆ

1

= −0.5331−0 0.0356 , o`us_β_ˆ

1 est la racine carrée d’un estimateur convergent de la variance deβˆ₁. Sa valeur vous était donnée.

6. Un test de significativité est toujours bilatéral (l’hypothèse alternative étant que la variable en question aide à expliquer les variations de la variable dépendante, peu importe le signe). La p-value est donnée par

p-value = 2Φ

−

−0.5331 0.0356

.

On suppose que le nombre d’observations est suffisamment élevé pour que la statistique utilisée suive approximativement une loi normale centrée réduite.

7. La valeur absolue de la statistique dépasse 10. Il ne fallait pas se souvenir du chiffre exact de 1.96 pour savoir qu’on est très très très loin de la moyenne de la statistique si l’hypothèse nulle tient (zéro). On va rejeter à 5%. On va rejeter à 1%. On va probablement rejeter à 0.0001% (je n’ai pas vérifié).

8. Il s’agit maintenant d’une hypoth`ese avec une alternative unilat´erale, mais la forme de la statistique ne change pas :

−

(7)

= −0.5331−(−0.5)

0.0356 = −0.0331 0.0356 .

9. On va rejeter si la surface `a gauchede la valeur calcul´ee est suffisamment petite. On a

p-value= Φ

−0.0331 0.0356

.

Je remarque en passant (je ne vous l’ai pas demandé) qu’en valeur absolue la statistique est inférieure à 1, donc on ne rejette ni à 5% ni à 10%.

10. On a

X

100 =Pr −z ≤ βˆ₁−β₁ ˆ σ_β_ˆ

1

≤z

!

=Pr

−zσˆ_β_ˆ

1 ≤

βˆ₁−β₁

≤zσˆ_β_ˆ

1

=Pr

−zσˆβˆ1 ≤

β₁−βˆ₁

≤zσˆβˆ1

=Pr

βˆ₁−zσˆ_β_ˆ

1 ≤β₁ ≤βˆ₁+zˆσ_β_ˆ

1

=Pr(−0.5331−z0.0356≤β1 ≤ −0.5331 +z0.0356). L’intervalle de confiance est

−0.5331±z×0.0356 =−0.5331±1.96×0.0356.

Evidemment, il n’´etait pas n´ecessaire de savoir que dans ce cas´ z = 1.96 pour avoir tous les points.

5 R´egression simple : estimateurs non biais´es (20 points)

1. L’estimateur MCO est donné par le ratio de la covariance échantillonnale entreY etXsur la variance échantillonnale deX. L’estimateur proposé n’est évidemment pas l’estimateur MCO. Il ne minimise pas donc la somme des erreurs au carréPn

i=1(Y_i−β₀−β₁X_i)².

(8)

2. Nous avons

β˜₁ =

n

X

i=2

Y_i−Yi−1

Xi−Xi−1

=−Y₁ 1

X₂−X₁ +Y₂

1

X₂−X₁ − 1 X₃−X₂

+Y₃

1 X3−X2

− 1 X4−X3

+. . . +Yn−1

1 Xn−1 −Xn−2

− 1

X_n−Xn−1

+Y_n 1 X_n−Xn−1

,

ce qui est clairement une fonction linéaire desY_i. J’ai posé cette question pour renforcer la notion d’unestimateur linéaire lorsqu’on parle d’un estimateurBLUE.

3. Nous avons

n

X

i=2

Y_i−Yi−1

X_i−Xi−1

=

n

X

i=2

β₀+β₁X_i+u_i−β₀−β₁Xi−1−ui−1

X_i−Xi−1

=

n

X

i=2

β₁(X_i−Xi−1) +u_i−ui−1

X_i−Xi−1

=β₁

n

X

i=2

(X_i−Xi−1) (X_i−X_i−1) +

n

X

i=2

u_i−ui−1

X_i−X_i−1.

= (n−1)β₁+

n

X

i=2

u_i−ui−1

Xi−Xi−1

.

A ce stade-ci, j’ai une confession à faire. J’ai écrit l’estimateur avec` l’intention de revenir en arrière et le multiplier par une fraction qui allait faire en sorte qu’il soit non biaisé. Évidemment, la fraction en question est

1

n−1 et, évidemment, j’ai oublié de l’écrire. J’ai donné tous les points à

(9)

ceux qui ont suivi la bonne démarche jusqu’à l’avant-dernière ligne ci-dessus. Si on a

β˜₁ = 1 n−1

n

X

i=2

Y_i−Yi−1

X_i−Xi−1

ceci nous donne

β˜₁ =β₁+ 1 n−1

n

X

i=2

u_i−ui−1

X_i−Xi−1

.

Appliquant l’op´erateur d’esp´erance, on a E

β˜₁

=β₁+E 1 n−1

n

X

i=2

u_i−ui−1

X_i−Xi−1

!

=β₁+E 1 n−1

n

X

i=2

E(u_i|X_i)−E(ui−1|Xi−1) Xi−Xi−1

!

= 0.

Dans l’avant-dernière ligne, j’utilise la loi des espérances itérées.

4. L’estimateur est non baisé, même en échantillon fini. Sa variance est donnée par

Var β˜₁

=

Var 1

n−1

n

X

i=2

u_i−ui−1

X_i−Xi−1

!

= 1

n−1 2

Var

n

X

i=2

u_i−ui−1

X_i−X_i−1 !

.

Sans faire d’argument formel, on constate que la variance de la somme augmente de façon linéaire enn, mais elle est divisée par un terme qui augmente proportionellement avecn². Donc, la variance devrait tendre vers 0 lorsquentend vers l’infini. L’absence de biais et une variance qui tend vers 0 ne sont pas tout à fait suffisants pour la convergence. On peut trouver des exceptions, mais des exceptions qui sont assez tordues. Donc, on peut avoir confiance que l’estimateur est convergent.

(10)

5. Nous savons qu’en présence d’homoscédasticité (et avec une variance finie des erreurs), l’estimateur MCO est plus efficient. Il fallait écrire pouquoi (erreurs homoscédastiques) l’estimateur MCO est le plus efficient dans ce cas.

cr´e´e le : 09/03/2011