Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

(1)

ECO 4272: Introduction à l’ ´ Econométrie Examen final : réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

c 2013, Steve Ambler Hiver 2013

1 R´eponses courtes (15 points)

1. LeR² doit augmenter ou au moins non diminuer. Si on compare les fonc- tions à minimiser avec et sans la variable additionnelle, on constate que la fonction à minimiser sans la variable additionnelle est identique au problème de minimiser la fonction avec la variable additionnelle mais avec une contrainte additionnelle. La solution au problème avec une contrainte additionnelle doit être au moins aussi élevée, et donc le R² sera inférieur sinon stricte- ment inférieur.

2. Pour calculer la statistique F pour effectuer le test d’hypothèses jointes, il faut utiliser la matrice variance-covariance de β. Si on n’a pas accès àb la matrice variance-covariance complète des paramètres estimés (souvent le cas dans le cas d’études publiées), la seule possibilité est de faire une suite de teststdes hypothèses individuelles. Il faut utiliser la méthodologie développée par Bonferroni. L’inégalité de Bonferroni dit que la probabi- lité qu’au moins une des hypothèses simples est rejetée est inférieure à la somme des probabilités que les deux hypothèses sont rejetées. (Il ne fallait pas définir l’inégalité de Bonferroni pour avoir tous les points.)

(2)

3. Le deuxième modèle est l’équivalent au premier en imposant la contrainte β₃ = 1 +β₁. En imposant cette contrainte, nous obtenons

Y_i =β₀+β₁X_1i+β₂X_2i+ (1 +β₁)X_3i+u_i. Maintenant, si on soustraitX_3ides deux cˆot´es on obtient

(Yi−X3i) = β0+β1(X1i+X3i) +β2X2i+ ˜ui.

Donc, le deuxième modèle est une version contrainte du premier. Il a seulement 3 paramètres libres, tandis que le premier en a 4. LaSSRdu deuxième modèle doit être au moins aussi élevé. Dans la mesure où la contrainte est mordante, les estimés des paramètresβ₀,β₁ estβ₂seront différents.

2 Propri´et´es d’estimateurs (20 points)

1. Le mod`ele peut s’´ecrire

Y =Xβ+U.

Ici, Y est le vecteur de dimensions n × 1 d’observations sur la variable d´ependante,X est la matrice de dimensionsn×k+ 1o`u chaque colonne contient les n observations sur une variable explicative individuelle, et U est le vecteur de dimensionsn×1de termes d’erreur. Nous avons

Y⁰ =

Y₁ , Y₂ , . . . , Y_n , β⁰ =

β₀ , β₁ , . . . , β_k , U⁰ =

U₁ , U₂ , . . . , U_n ,

X =







1 X₁₁ X₂₁ X₃₁ . . . X_k1 1 X₁₂ X₂₂ X₃₂ . . . X_k2 ... ... ... ... ... ... 1 X_1n X_2n X_3n . . . X_kn





 .

2. Le probl`eme de minimisation peut s’´ecrire min

β0,β1,...,βk

n

X

i=1

(Y_i−β₀−β₁X_1i−β₂X_2i−. . .−β_kX_ki)².

(3)

3. Les variables de choix du probl`eme sontβ₀,β₁,. . .,β_k. 4. La CPO par rapport `aβ₀ est

−2

n

X

i=1

(Y_i−β₀−β₁X_1i−β₂X_2i−. . .−β_kX_ki) = 0.

On peut réécrire cette égalité comme β₀

n

X

i=1

=

n

X

i=1

Y_i−β₁

n

X

i=1

X_i1−β₂

n

X

i=1

X_2i−. . .−β_k

n

X

i=1

X_ki

⇒nβ₀ =

n

X

i=1

Y_i−β₁

n

X

i=1

X_i1−β₂

n

X

i=1

X_2i−. . .−β_k

n

X

i=1

X_ki

⇒β₀ = 1 n

n

X

i=1

Y_i−β₁1 n

n

X

i=1

X_i1−β₂1 n

n

X

i=1

X_2i−. . .−β_k1 n

n

X

i=1

X_ki

⇒βb0 = ¯Y −βb1X¯1−. . .−βbkX¯k, ce qui fut `a montrer.

5. Nous avons

n

X

i=1

X Y¯ _i−Y¯

= ¯X

n

X

i=1

Yi−Y¯

= ¯X n1 n

n

X

i=1

Y_i−nY¯

!

= ¯X nY¯ −nY¯

= 0.

Donc nous avons

n

X

i=1

X_i Y_i−Y¯

=

n

X

i=1

X_i Y_i−Y¯

−

n

X

i=1

X Y¯ _i−Y¯

=

n

X

i=1

X_i−X¯

Y_i−Y¯ , ce qui fut `a montrer.

(4)

6. Dans ce cas, la CPO par rapport `aβ₁est

−2

n

X

i=1

X1i(Yi−β0−β1X1i) = 0.

⇒

n

X

i=1

X1i(Yi−β0−β1X1i) = 0.

Substituant la solution que nous avons déjà trouvée pourβb₀, nous avons

n

X

i=1

X_1i Y_i−Y¯ +β₁X¯₁−β₁X_1i

= 0

⇒

n

X

i=1

X_1i Y_i−Y¯

=β₁

n

X

i=1

X_1i X_1i−X¯₁

⇒

n

X

i=1

X_1i−X¯₁

Y_i−Y¯

=β₁

n

X

i=1

X_1i−X¯₁

⇒βb₁ = Pn

i=1 X_1i−X¯₁

Y_i−Y¯ Pn

i=1 X_1i−X¯₁2 ,

ce qui fut à montrer. Pour passer à l’avant-dernière ligne, nous avons utilisé le résultat de la sous-question précédente.

3 Mod`ele de r´egression multiple (45 points)

1. L’écart type de la régression est donné par r SSR

n−k−1 =

r 645.26 872−5−1. 2. Nous avons

(a) Significativit´e deβb₀:

H₀ :β₀ = 0, H₁ :β₀ 6= 0.

t_act=

βˆ₀−0 ˆ σ_β_ˆ

0

= 4.53 0.571.

(5)

(b) Significativit´e deβb₁:

H₀ :β₁ = 0, H₁ :β₁ 6= 0.

t_act=

βˆ₁−0 ˆ σ_β_ˆ

1

= −1.439 0.466 . (c) Significativit´e deβb₂:

H0 :β2 = 0, H1 :β2 6= 0.

t_act=

βˆ₂−0 ˆ σβˆ2

= 0.341 0.120. (d) Significativit´e deβb₃:

H0 :β3 = 0, H1 :β3 6= 0.

t_act=

βˆ3−0 ˆ σβˆ3

= 0.937 0.102. (e) Significativit´e deβb₄:

H₀ :β₄ = 0, H₁ :β₄ 6= 0.

tact=

βˆ₄−0 ˆ σβˆ4

= 0.198 0.132. (f) Significativit´e deβb5:

H₀ :β₅ = 0, H₁ :β₅ 6= 0.

t_act= βˆ₅−0 ˆ σβˆ5

= 0.288 9.194. 3. Regardant les six tests, nous avons

(a) Significativité deβb₀: La valeur calculée de la statistique est supérieure

à 7 en valeur absolue. Donc, la p-value du test est inférieure à 1%.

Nous rejetons l’hypoth`ese nulle `a tous les niveaux conventionnels.

(6)

(b) Significativité deβb₁: La valeur calculée de la statistique est supérieure

(c) Significativité deβb2: La valeur calculée de la statistique est supérieure

à 2.6 en valeur absolue. Donc, lap-value du test est inférieure à 1%.

Nous rejetons l’hypothèse nulle à tous les niveaux conventionnels. (Ce cas est le seul cas qui implique une connaisance précise de la valeur de z pour laquelleΦ (z) = 0.005. J’ai interprété la réponse à cette partie de façon généreuse.)

(d) Significativité deβb₃: La valeur calculée de la statistique est supérieure

(e) Significativité deβb₄ : La valeur calculée de la statistique est approxi- mativement égale à 1.5. Nous pouvons rejeter l’hypothèse nulle à un niveau de 10% mais non à 5%.

(f) Significativité de βb₅ : La valeur absolue calculée de la statistique est inférieure à 0.1. À tous les niveaux de significativité convinetionnels, nous ne pouvons rejeter l’hypothèse nulle.

4. L’hypothèse nulle qui est testée est que tous les coefficients du modèle à partβ0 sont égaux à zéro.

H₀ :β₁ =β₂ =β₃ =β₄ =β₅ = 0.

L’hypoth`ese alternative qui est test´ee est :

H₁ :∃i, i= 1,2, . . . ,5tel queβ_i 6= 0.

Il est très important de comprendre ceci. L’hypothèse nulle est que tous les coefficients saufβ₀ sont égaux à zéro. Si l’hypothèse nulle ne tient pas, cela impliquequ’au moins undes coefficients n’est pas égal à zéro. Il ne fallait surtout pas écrire que l’hypothèse alternative est que tous les coefficients à partβ₀ ne sont pas égaux à zéro.

5. Sous forme matricielle, l’hypoth`ese nulle est







0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1











 β₀ β₁ β₂ β₃ β₄ β₅







=





 0 0 0 0 0





 .

(7)

6. L’hypoth`ese nulle est

H₀ :β₃ = 1.

Puisque la variable dépendante et la valeur totale des ventes sont toutes les deux mesurées en logs, le paramètreβ₃qui est égal à_∂X^∂Y

3 est l’élasticité de la valeur du café vendue par rapport à la valeur des ventes totales. L’hypothèse alternative est

H₁ :β₃ 6= 1.

La statistiquetpour tester cette hypoth`ese peut s’´ecrire t_act = βb₃−1

ˆ σ_β_b

3

= 0.937−1.0 0.102 , et on a

|t_act|<1, doncH₀ n’est pas rejet´ee.

7. Oui. Si on impose la contrainteβ₃ = 1nous obtenons le mod`ele suivant : (Y_i−X_3i) =β₀+β₁X_1i+β₂X_2i+β₄X_4i+β₅X_5i+u_i.

En définissant une nouvelle variable dépendante, nous pouvons facilement estimer la version contrainte du modèle. Pour que cette démarche soit va- lide, il faut supposer que le terme d’erreur du modèle est homoscédastique.

8. L’hypoth`ese nulle (jointe) est

H₀ :β₄ =β₅ = 0.

L’hypoth`ese alternative est

H₁ :β₄ 6= 0 et/ouβ₅ 6= 0.

Sous forme matricielle :

0 0 0 0 1 0 0 0 0 0 0 1





 β₀ β₁ β₂ β₃ β₄ β₅







=





 0 0 0 0 0





 ,

(8)

qui est de la forme Rβ = r. La statistique F peut s’ecrire `a l’aide de

Rβb−r

et la matrice variance-covariance de l’estim´e β. Il ne fallait pasb l’´ecrire pour avoir tous les points, mais la voici :

F_act =

Rβb−r0h R

Σb

βb

R⁰i−1

Rβb−r /q, o`uq= 2, le nombre de restrictions test´e.

9. Il faut estimer le mod`ele

Y_i =β₀+β₁X_1i+β₂X_2i+β₃X_3i+ ˜u_i.

Ensuite, il faut construire la statistique F utilisant soit les R² des deux mod`eles, soit les SSR des deux mod`eles. Les formules sont disponibles

`a la page 70 des notes de cours. Il ne fallait pas les ´ecrire pour avoir tous les points.

10. Il faut supposer un terme d’erreur homosc´edastique.

11. Individuellement, les deux coefficients sont non significatifs. (β₄ est significatif à un niveau de 10% seulement.) Chaque fois qu’il y a un bloc de coefficients qui est significatif tandis que les coefficients individuels ne le sont pas, il faut soupçonner la multicollinéarité. C’est probablement dû au fait que les deux variables sont fortement corrélées. Il s’agit d’un problème de multicollinéarité imparfaite. La multicollinéarité peut rendre impossible (avec les données qu’on a) de distinguer entre l’impact individuel de cha- cune d’un groupe de variables, même si le groupe a un impact significatif.

12. Pour construire l’intervalle de confiance, il faut utiliser la valeur estim´ee du coefficient et son ´ecart type. Nous avons

β₂ =βb₂±z×σˆ_β_b

2

où z > 0et 0.025 = Φ (−z), la fonction Φ (·) étant la la normale centrée réduite cumulée.

13. Il prendrait la forme d’une ellipse.

4 Modèles de régression non linéaires (20 points)

1. Ce n’est pas non lin´eaire dans les param`etres. Dans tous les cas, nous avons

∂Y_i

∂β_i

(9)

n’est pas une fonction des param`etres.

2. Nous avons

Yb₂ =βb₀ +βb₁X₁₂+βb₂X₁₂² +βb₃X₁₂X₂₁ et nous avons

Yb₁ =βb₀+βb₁X₁₁+βb₂X₁₁² +βb₃X₁₁X₂₁. Donc nous avons

∆Yb =Yb₂−Yb₁

=βb₁∆X₁ +βb₂ X₁₂² −X₁₁²

+βb₃X₂₁∆X₁. Utilisant l’approximation fournie dans l’´enonc´e, nous avons

∆Yb =βb₁∆X₁+βb₂2X₁₁∆X₁+βb₃X₂₁∆X₁. 3. Nous avons

∆Yb = ∆X₁δ⁰β.ˆ o`u

δ⁰ =

0 1 2X₁₁ X₂₁ 4. Nous avons

Var

∆Yb

=Var

∆X₁δ⁰βˆ

= (∆X₁)²Var

δ⁰βˆ

= (∆X₁)²Var δ⁰

βˆ−β

= (∆X₁)²E

δ⁰

βˆ−β2

= (∆X₁)²E

δ⁰

βˆ−β βˆ−β0

δ

= (∆X1)²δ⁰E

βˆ−β βˆ−β 0

δ

= (∆X₁)²δ⁰Σb

βbδ, ce qui fut `a montrer.

(10)

5. L’intervalle de confiance de 95% est donn´e par

∆Y = ∆Yb ±z r

Var

∆Yb o`uz >0tel que0.025 = Φ (−z).

6. Le modèle équivalent peut s’écrire

Y_i =β₀+ (β₁+β₂2X₁₁+β₃X₂₁)X_1i +β₂ X_2i²−2X₁₁X_1i

+β₃(X_1iX_2i−X₂₁X_1i) +u_i.

Chaque fois que nous avons ajouté un terme nous l’avons soustrait, et donc le modèle est équivalent au modèle initial. Le coefficient associé à X1i est la combinaison linéaire dont nous avons besoin pour calculer l’écart type nécessaire pour calculer l’intervalle de confiance.

5 Variables instrumentales (20 points en bonus)

1. Le nombre de rangées dansZ(qui pré-multiplie l’expression qui définitX)b est n. Le nombre de colonnes dans X (qui post-multiplie l’expression qui définitX) estb (k+ 1). Donc,Xbest de dimensionsnpar(k+ 1). Le nombre de rangées dansZ⁰ (qui pré-multiplie l’expression qui définitbγ) est(k₂+ 1) Le nombre de colonnes dansX (qui post-multiplie l’expression qui définit bγ) est(k+ 1). Doncbγ est de dimensions(k₂+ 1)par(k+ 1).

2. L’estimateur MCO s’´ecrit de la fac¸on habituelle (en fonction deX) :b βb_{V I} =

Xb⁰Xb−1

Xb⁰Y

=

Z(Z⁰Z)⁻¹Z⁰X0

Z(Z⁰Z)⁻¹Z⁰X−1

Z(Z⁰Z)⁻¹Z⁰X0

Y

=

X⁰Z(Z⁰Z)⁻¹Z⁰Z(Z⁰Z)⁻¹Z⁰X⁻¹

X⁰Z(Z⁰Z)⁻¹Z⁰Y

=

X⁰Z(Z⁰Z)⁻¹Z⁰X−1

X⁰Z(Z⁰Z)⁻¹Z⁰(Xβ+U)

=

X⁰Z(Z⁰Z)⁻¹Z⁰X⁻¹

X⁰Z(Z⁰Z)⁻¹Z⁰X β

(11)

+

X⁰Z(Z⁰Z)⁻¹Z⁰X⁻¹

X⁰Z(Z⁰Z)⁻¹Z⁰U

=β+

X⁰Z(Z⁰Z)⁻¹Z⁰X−1

X⁰Z(Z⁰Z)⁻¹Z⁰U ce qui fut `a montrer.

3. Il faut diviser et multiplier plusiers fois parn. Nous avons

βb_{V I} =β+ X⁰Z n

Z⁰Z n

⁻¹ Z⁰X

n

!−1

X⁰Z n

Z⁰Z n

⁻¹ Z⁰U

n . On peut facilement vérifier qu’on a divisé par n le même nombre de fois qu’on a multiplié parn. On peut supposer que toutes les matrices de deuxième moments bruts convergent à leurs espérances dans la population, ou au moins à des matrices des constantes finies. Par exemple, on peut supposer que

X⁰Z n

−p

→E

X⁰Z n

. Maintenant, puisque l’´enonc´e nous donne que

Z⁰U n

−p

→Cov(U, Z) = 0, nous avons tout de suite par le th´eor`eme de Slutsky

βb_{V I} −→^p β+ E X⁰Z

n E

Z⁰Z n

−1

E

Z⁰X n

!−1

E X⁰Z

n E

Z⁰Z n

⁻¹

Cov(U, Z)

⇒βb_{V I} −→^p β, ce qui fut `a montrer.

document cr´e´e le : 20/04/2013