Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

(1)

ECO 4272: Introduction à l’ ´ Econométrie Examen final: Réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

c 2014, Steve Ambler Automne 2014

1 R´eponses courtes (20 points)

1. Les estimés βˆ₁ et ˆγ doivent être identiques. C’est le théorème Frisch- Waugh-Lovell qui garantit ce résultat. C’est un autre résultat algébrique qui est indépendant des caractéristiques statistiques des données. Voir l’en- cadré sur la régression partitionnée qui commence à la page 52 du chapitre sur le modèle de régression multiple. Nous avons aussi invoqué ce résultat dans le chapitre sur les tests diagnostics dans le contexte des diagrammes de variables ajoutées. Lorsqu’on régresse une variable dépendante purgeé des effets d’une variable (X₂ ici) sur une variable explicative purgée des effets de la même variable (X2), on doit retrouver le même coefficient es- timé que si on avait inclus la variable (X₂) dans le modèle.

2. Lorsqu’on veut tester des hypothèses jointes, il n’est pas possible de tester contre des alternatives unilatérales. Donc la réponse est non. On construit une statistiqueF pour tester une hypothèse jointe. Par construc- tion, la contribution d’une déviation plus grande deβˆ₁ou deβˆ₂par rapport

à l’hypothèse nulle, peu importe son signe, va faire augmenter la taille de la statistique F calculée, qui est toujours positive. On ne peut distinguer entre une déviation positive par rapport àH₀versus une déviation négative par rapport àH₀.

(2)

3. La d´efinition duR¯²est

R¯² ≡1− n−1 n−k−1

SSR TSS.

L’ajout d’une variable doit faire diminuer la valeur de SSR, ce qui fait augmenter R¯². Si on compare l’estimation du modèle avec une variable additionnelle avec l’estimation du modèle sans cette variable, l’estimation du dernier modèle revient à résoudre un problème de miminisation avec une contrainte additionnelle. Pour cette raison, la somme des résidus au carré doit être au moins aussi élevée. L’ajout d’une variable fait augmenter la valeur dek, le nombre de variables explicatives à part la constante, ce qui a pour effet de faire baisser la valeur duR¯². L’impact net est ambigu. Nous avons vu que l’ajout d’une variable fait augmenter le R¯² si et seulement si la statitiquet pour tester sa significativité est supérieure à un en valeur absolue. Il ne fallait pas écrire ceci pour avoir tous les points.

4. Faux. Il dépend aussi de la valeur du coefficient associé à la variable omise et des variances de la variable incluse et de la variance omise. Voir l’expression à la page 7 des notes de cours sur le modèle de régression multiple. S’il y a plusieures variables incluses et une variable omise c’est en- core plus compliqué : voir le résultat à la page 52 des notes de cours. Notez que la question porte sur latailledu biais et non seulement sur le signe.

2 Estimateur MCO (20 points)

1. On trouve l’estimateur MCO en choisissant les valeurs des paramètres qui minimisent la somme des erreurs au carré. Le problème peut s’écrire

βmin1,β2

n

X

i=1

(ui−u)¯ ²

!

ou (en substituant(u_i−u))¯ min

β1,β2

Xⁿ

i=1

Y_i−Y¯

−β₁ X_1i−X¯₁

−β₂ X_2i−X¯₂ ² . Les variables de choix sont bien sˆurβ₁ etβ₂.

(3)

2. Les CPOs par rapport aux choix de β₁ et de β₂ peuvent s’´ecrire comme suit.

β₁ :−2

n

X

i=1

X_1i−X¯₁

Y_i−Y¯

−β₁ X_1i−X¯₁

−β₂ X_2i−X¯₂

= 0

⇒

n

X

i=1

X_1i−X¯₁

Y_i−Y¯

−β₁ X_1i−X¯₁

−β₂ X_2i−X¯₂ = 0;

β₂ :−2

n

X

i=1

X_2i−X¯₂

Y_i−Y¯

−β₁ X_1i−X¯₁

−β₂ X_2i−X¯₂

= 0

⇒

n

X

i=1

X2i−X¯2

Yi−Y¯

−β1 X1i−X¯1

−β2 X2i−X¯2 = 0.

3. On peut tout simplement ´ecrire

(X⁰X)β−X⁰Y = 0

⇒βˆ= (X⁰X)⁻¹X⁰Y.

Il n’était pas nécessaire de redériver les CPOs en notation matricielle. Il fallait tout simplement écrire cette équation. Si on voulait élaborer un peu plus, on pourrait noter que la première CPO peut se réécrire comme suit :

n

X

i=1

X_1i −X¯₁

Y_i−Y¯

=β₁

n

X

i=1

X_1i−X¯₁2

+β₂

2

X

i=1

X_1i −X¯₁

X_2i−X¯₂ , que l’on peut r´e´ecrire en notation matricielle comme

X10

Y =

X₁⁰X₁ X₁⁰X₂ β1

β₂

.

De manière semblable, la deuxième CPO peut se réécrire comme X₂⁰Y =

X20

X1 X20

X2

β₁

β₂

.

(4)

Mettant ensemble les deux ´equations, on obtient en notation matricielle X₁⁰

X₂⁰

Y =

X₁⁰X₁ X₁⁰X₂ X₂⁰X₁ X₂⁰X₂

β₁ β₂

ou

X⁰Y = (X⁰X)β, ce qui donne directement

βˆ= (X⁰X)⁻¹X⁰Y.

4. `A partir des CPOs sous forme matricielle on a directement βˆ=

X₁⁰X₁ X₁⁰X₂ X20

X1 X20

X2

−1 X₁⁰Y X20

Y

. Utilisant la formule fournie on peut r´e´ecrire

βˆ= 1

X₁⁰X₁X₂⁰X₂−(X₁⁰X₂)²

X20

X2 −X10

X2

−X₂⁰X₁ X₁⁰X₁

X10

Y X₂⁰Y

=







X20X2X10Y−X₁⁰X2X20Y X10X1X20X2−(X10X2)²

X10X1X20Y−X20X1X10Y X10X1X20X2−(X10X2)²







puisqueX₁⁰X₂ =X₂⁰X₂ (les deux sont scalaires).

5. La solution est déjà presque sous forme de variances et covariances. Nous avons (en divisant les numérateurs et les dénominateurs par(n−1)²),

βˆ=







1

n−1X20X2 1

n−1X10Y−_n−1¹ X10X2 1 n−1X20Y

1

n−1X10X1 1

n−1X20X2−(n−1¹ X10X2)²

1

n−1X10X1 1

n−1X20Y−_n−1¹ X20X1 1 n−1X10Y

1

n−1X10X1 1

n−1X20X2−(n−1¹ X10X2)²







=







Var(X2)Cov(X1,Y)−Cov(X1,X2)Cov(X2,Y)

Var(X1)Var(X2)−

Cov(X1,X2) 2

Var(X1)Cov(X2,Y)−Cov(X1,X2)Cov(X1,Y)

Var(X1)Var(X2)−

Cov(X1,X2)2





 .

(5)

Notez que puisque nous avons soustrait les moyennes échantillonnales de Y, de X₁ et deX₂, les moments bruts ici sont aussi des moments centrés (des variances et descovariances). Il y a eu beaucoup de réponses qui ont appliqué un opérateur d’espérance à la solution de la sous-question précédente. Notez bien que le questionnaire vous demande d’exprimer la solution comme une fonction de variances et de covariances échantillo- nnales. Cela veut dire qu’à ce stade-ci il y a plusieurs personnes qui n’ont pas compris la différence entre un moment dans la population et un moment échantillonnal.

3 Mod`ele de r´egression multiple (45 points)

1. La statistique calculée pour tester la significativité de la régression a une distribution F (q, n−k−1) (sous les hypothèses d’homoscédasticité et de normalité de l’erreur, ce que la plupart des logiciels prennent comme des hypothèses par défaut). Donc, on a

n−k−1 = 3541.

Aveck = 3, on an= 3545.

2. Pour chaque coefficient estiméβˆ_i, l’hypothèse nulle estH₀ :β_i = 0contre H₁ bilatérale. La statistique t à utiliser pour effectuer le test sera dans chaque cas

t^act=

βˆ_i−0

˜ σ_β_ˆ

1

.

J’ai écrit˜σβˆ1puisque les résultats ont été produits avec la matrice variance- covariance non robuste. Lap-value dans chaque cas sera

p= 2Φ − t^act

.

L’estimé βˆ₀ n’est pas significatif. Son écart type est plus grand que sa valeur estimée. Autrement dit

p= 2Φ

−

5.41 7.50

>0.05.

En fait

p= 2Φ

−

5.41 7.50

>0.10.

(6)

Doncβˆ₀ n’est pas significatif à 10% (et donc a fortiori il n’est pas significatif à 5% et à 1% non plus).βˆ₁ a une valeur un peu plus de deux fois son

écart type. Étant données les valeurs deΦ (·)dans le préambule du questionnaire, il est donc significatif à un niveau de 5% mais non à un niveau de 1%. Autrement dit

p= 2Φ

−

1.42 0.65

<0.05 mais

p= 2Φ

−

1.42 0.65

>0.01.

La valeur estimée de βˆ₂ est au moins trois fois son écart type. Il est donc significatif à 1%, et donc aussi à 5% et à 10%. Autrement dit,

p= 2Φ

−

−0.97 0.32

<0.01.

La valeur estimée de βˆ₃ est de loin inférieure à deux fois son écart type.

En fait, sans calculatrice on peut voir tout de suite que ^0.46_0.35 < 1.33. Il est non significatif `a un niveau de 5%. Il est non significatif aussi `a 10%. Il ne fallait pas dire ceci, puisique je ne vous ai pas fourni

Φ (−1.64)≈0.05 et donc

p= 2Φ

−

0.46 0.35

>0.1.

3. On pourrait utiliser une ou plusieur des mesures étudiées dans le chapitre sur les tests dignostics, par exemple : regarder un graphique des résidus contre les valeurs prédites de la variable dépendante, un graphique des résidus contre les variables explicatives (une à la fois), des diagrammes de variables ajoutées, des diagrammes de résidus partiels, les mêmes graphiques que les graphiques précédents mais utilisant les résidus norma- lisés, un calcul des hat values des observations, des mesures de par combien les valeurs prédites de Y changent lorsqu’on laisse tomber l’ième observation (DFFITiou DFFITSi), des mesures de par combien les coefficients estimés changent lorsqu’on laisse tomber l’ième observation (DFBETAS_j,(i)), les distances de Cook, etc.

(7)

4. On peut utiliser la commande (dans Rou un autre logiciel semblable) le test Breusch-Pagan (appliqué au modèle estimé), qui par défaut utilise les résidus normalisés, ou on peut tout simplement estimer un modèle qui a comme variable dépendante les résidus au carré du modèle estimé et les mêmes variables explicatives que le modèle estimé. Dans le deuxième cas, on teste la significativité de la régression avec une statistique F. C’est essentiellement ce que fait le test Breusch-Pagan aussi. On peut aussi effectuer un test White, qui ajoute des polynômes des variables explicatives

à la régression avec les résidus au carré comme variable dépendante.

5. L’hypoth`ese nulle est

H₀ :β₁ =β₂ =β₃ = 0.

L’hypoth`ese alternative est

H₁ :β₁ 6= 0et/ouβ₂ 6= 0 et/ouβ₃ 6= 0.

6. Elle peut s’´ecrire





0 1 0 0 0 0 1 0 0 0 0 1









 β₀ β₁ β₂ β₃







=



 0 0 0





7. Il faut écrire la statistiqueF à partir de l’hypothèse nulle écrite sous forme matricielle. L’hypothèse nulle peut s’écrire

0 0 1 0 0 0 0 1





 β₀ β₁ β₂ β₃







= 0

0

qui est de la forme

Rβ =r.

La statistique F devient (pas n´ecessaire de s’en souvenir pour avoir les points)

F2,∞=

Rβˆ−r0

RΣˆβˆR⁰ Rβˆ−r /q.

(8)

8. Oui, mais pour que la statistique F soit valide il faut que les erreurs du modèle soient homoscédastiques. Le modèle à estimer serait

Y_i =β₀+β₁X_1i+ ˜u_i.

On pourrait utiliser lesR²des deux mod`eles ou lesSSRdes deux mod`eles pour calculer la statistiqueF.

9. Pour un changement donn´e (∆X₂) on a

∆ ˆY = ˆβ₂∆X₂

comme changement pr´edit. Nous avons tout de suite Var

Yˆ

= (∆X₂)²Var βˆ₂ et donc en termes d’´ecart type

SE

∆ ˆY

= ∆X₂SE βˆ₂

. Donc l’intervalle de confiance peut s’´ecrire

∆ ˆY = ∆X₂βˆ₂±z∆X₂σˆ_β_ˆ

2

o`uσˆ_β_ˆ

2 est comme d’habitude un estimateur convergent de l’´ecart type de βˆ2.

10. Dans la mesure o`u la vraie valeur deβ₄ est positive, le changement capte le fait qu’il doit y avoir un biais de variable omise dans le mod`ele initial.

Si la covariance entre X₁ etX₄ est positive et l’impact de X₄ sur Y est positive, dans le modèle inital βˆ₂ capte l’effet direct deX₁ surY et aussi partiellement l’effet de X4 sur Y. Donc βˆ1 est biaisé vers le haut et sa valeur diminue lorqu’on ajouteX₄au modèle comme variable explicative.

11. Le R² doit augmenter puisque le nouveau problème de minimisation des erreurs au carré a une contrainte de moins que le problème initial.

12. L’effet est ambigu en général. Par contre, on dit dans l’énoncé de la sous- question (10) que βˆ₄ est significatif. S’il est significatif à des niveaux conventionnels (donc à 10% au moins sinon 5% ou 1%), on sait que la statistiquetassociée à ce test de significativité est égale à au moins un en valeur absolue. Donc, on sait que dans ce cas particulier le R¯² doit augmenter.

(9)

4 Modèles de régression non linéaires (25 points)

1. Non, le modèle est linéaire dans les paramètres et non linéaire seulement dans les variables. Y_i est une fonction linéaire de chacun des paramètres.

Nous avons

∂Y_i

∂β₀ = 1,

ce qui n’est pas une fonction des param`etres. De fac¸on similaire,

∂Y_i

∂β1

=X_1i,

∂Y_i

∂β₂ =X_1i²,

∂Yi

∂β₃ =X_3i,

et ∂Y_i

∂β₄ =X_1iX_2i.

Toutes ces dérivées partielles ne dépendent pas des paramètres du modèle.

2. Nous avons

Yˆ₂ = ˆβ₀+ ˆβ₁X₁₂+ ˆβ₂X₁₂²+ ˆβ₃X₂₁+ ˆβ₄X₁₂X₂₁ et

Yˆ₁ = ˆβ₀+ ˆβ₁X₁₁+ ˆβ₂X₁₁²+ ˆβ₃X₂₁+ ˆβ₄X₁₁X₂₁

Si nous soustrayons la deuxième équation de la première nous obtenons

∆ ˆY = ˆβ₁∆X₁+ ˆβ₂ X₁₂²−X₁₁²

+ ˆβ₄X₂₁∆X₁. Utilisant l’approximation dans l’´enonc´e nous obtenons

∆ ˆY = ˆβ₁∆X₁+ 2 ˆβ₂∆X₁X₁₁+ ˆβ₄X₂₁∆X₁. 3. Nous avons

∆ ˆY

∆X₁ = ˆβ₁+ 2X₁₁βˆ₂+X₂₁βˆ₄

=

0 1 2X₁₁ 0 X₂₁ βˆ≡δ⁰β.ˆ

(10)

Nous avons

Var δ⁰βˆ

=Var

δ⁰

βˆ−β

=E

δ⁰

βˆ−β βˆ−β0

δ

=δ⁰E

βˆ−β βˆ−β0 δ

=δ⁰Σβˆδ

oùΣβêst la matrice variance-covariance des paramètres estimés. Rempla- çantΣβˆpar un estimateur convergent, nous avons donc

SE ∆ ˆY

∆X₁ ≈ q

δ⁰Σˆβˆδ.

Ceci permet d’´ecrire l’intervalle de confiance comme

∆ ˆY = ∆X₁δ⁰βˆ±z∆X₁ q

δ⁰Σˆβˆδ

oùz >0est la réalisation d’une variable aléatoire normale centrée réduite tel que

Pr(−z <0< z) =X/100 o`uXest le niveau de confiance voulu.

4. Il faut écrire le modèle pour qu’un des coefficients soit égal à β₁+ 2X₁₁β₂+X₂₁β₄

et, pour que ce soit un modèle équivalent, il faut soustraire tous les termes qu’on ajoute. Un choix naturel serait d’associer ce nouveau coefficient à la variableX_1i. Nous obtenons ainsi le modeèle

Y_i =β₀ + (β₁+ 2X₁₁β₂+X₂₁β₄)X_1i+β₂ X_1i²−2X₁₁X_1i +β₃X_2i+β₄(X_1iX_2i−X₂₁X_1i) +u_i.

≡β₀ +γX_1i+β₂Z_1i+β₃X_2i+β₄Z_1i+u_i

(11)

où γ, Z_1i et Z_2i ont les définitions évidentes. Une fois ce modèle estimé, c’est l’estimé de l’écart type de γˆ qui permet de calculer l’intervalle de confiance, que l’on peut écrire comme

∆ ˆY = ∆X₁γˆ±z∆X₁σˆ_γ_ˆ

oùσˆ_γ_ˆ est l’estimé de l’écart type fourni directement par le logiciel qu’on utilise (cet estimé sera normalement l’estimé robuste de l’ecart type).

5. Il est n´ecessaire de calculer l’´ecart type de βˆ₁+ 2X₁₁βˆ₂+X₂₁βˆ₄

afin de calculer l’intervalle de confiance. Donc l’hypoth`ese nulle `a tester serait

H₀ :β₁+ 2X₁₁β₂+X₂₁β₄ = 0 avec

H₁ :β₁+ 2X₁₁β₂+X₂₁β₄ 6= 0.

Sous forme matricielle : Rβ =

0 1 2X₁₁ 0 X₂₁

β =r= 0 avec

H₁ :Rβ 6= 0.

Le logiciel va calculer la statistiqueF, et nous savons que

F^act =t² = δ⁰βˆ ˆ σ_δ0βˆ

!2

⇒σˆ_δ0βˆ=

δ⁰βˆ

√F^act .

Nous pouvons utiliser ce r´esultat pour ´ecrire l’intervalle de confiance :

∆ ˆY = ∆X₁δ⁰βˆ±z∆X₁σˆ_δ0βˆ.

(12)

5 Convergence (15 points en bonus)

J’ai conçu cette question pour qu’elle soit relativement facile si vous avez bien répondu à la question (2). La dernière sous-question de la question (2) vous demande d’écrire l’estimateur comme fonction des variances et covarianceséchanti- llonnales. On peut affirmer que, lorsque n → ∞, les variances et covariances

´echantillonnales vont converger aux variances et covariances dans la population.

Nous pouvons donc ´ecrire

βˆ−→^p







Var^(X2)Cov^(X1,Y)−Cov^(X1,X2)Cov^(X2,Y)

Var(X1)Var(X2)−(Cov(X1,X2))² Var(X1)Cov(X2,Y)−Cov(X1,X2)Cov(X1,Y)

Var(X1)Var(X2)−(Cov(X1,X2))²







=







Var(X2)Cov(X1,Y)

Var(X1)Var(X2)

Var(X1)Cov(X2,Y)

Var(X1)Var(X2)







=







Cov^(X1,Y)

Var(X1)

Cov^(X2,Y)

Var(X2)







puisque par hypoth`ese Cov(X₁, X₂) = 0. Substituant Y dans cette expression, nous obtenons

βˆ−→^p







Cov(X1,β1X1+β2X2+u)

Var(X1)

Cov(X2,β1X1+β2X2+u)

Var(X2)







=







β1Var(X1)+β2Cov(X1,X2)+Cov(X1,u)

Var^(X1)

β1Cov(X1,X2)+β2Var(X2)+Cov(X2,u)

Var^(X2)







=







β₁+ Cov(X1,u)

Var(X1)

β₂+ Cov(X2,u)

Var(X2)







(13)

=







β₁ β₂+ Cov(X2,u)

Var(X2)







puisque par hypoth`ese Cov(X1, u) = 0et Cov(X2, u)6= 0.

Nous avons tout de suite les deux résultats demandés, à savoir : 1. βˆ1

−p

→β1;

2. βˆ₂ −→^p β₂+ Cov^(X2,u)

Var(X2) 6=β₂.

Notez que l’hypoth`ese Cov(X₁, X₂) = 0 est importante pour montrer la convergence en probabilit´e deβˆ₁. Sans cette hypothese, nous avons

βˆ1

−p

→β1+β2

Cov(X₁, X₂) Var(X₁) 6=β1

dans la mesure oùβ₂ 6= 0. Parmi les peu de personnes qui ont tenté de répondre à cette question, personne n’a tenu compte de cette source de biais (asymptotique) additionnelle.

document cr´e´e le : 13/12/2014