Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

(1)

ECO 4272: Introduction à l’ ´ Econométrie Examen Final: Réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

c 2011, Steve Ambler Hiver 2012

1 R´eponses courtes (15 points)

1. La contrainte est une fonctionnon linéairedes paramètres du modèle. On ne peut pas l’écrire sous la formeRβ =roùRest une matrice (vecteur dans ce cas) de dimensionsq×(k+ 1)et oùrest un vecteur de

dimensionsq×1oùqest le nombre de restrictions. On ne peut donc utiliser un testtou un testF pour tester la restriction. Il y a des façons plus compliquées qu’on peut utiliser pour effectuer des tests semblables, mais cela dépasse le cadre de ce cours.

2. Pour effectuer n’importe quel test d’une hypothèse jointe, il faut connaˆıtre la matrice variance-covariance complète des coefficients estimés, qui n’est pas normalement fournie par l’article en question. On peut utiliser le test Bonferronique l’on mentionne dans les notes et qui est décrit en détail dans l’annexe au chapitre 7 du manuel. Il n’est pas aussi puissant qu’un test qui utiliser l’information concernant les covariances entre les paramètres estimés, mais il permet d’arriver à un critère pour rejeter l’hypothèse nulle qui ne sousestime pas lap-value du test. Pour cette raison, il ne mène pas trop souvent à rejeter l’hypothèse nulle lorsqu’elle est vraie. Il ne fallait pas donner tous ces détails pour avoir tous les points.

(2)

3. Le deuxième modèle est une version contrainte du premier modèle. Si on impose la restrictionβ₁ =−β₃dans le premier modèle, on a un modèle qui équivaut au deuxième. Puisque le deuxième modèle est donc une version contrainte du premier, saSSRdoit être au moins aussi élevée (et fort probablement strictement plus élevée).

2 Propri´et´es d’estimateurs (15 points)

1. L’estimateur converge en probabilité à la valeurβ. On peut présumer queβ est la vraie valeur du paramètre dans la population. Il s’agit donc d’un estimateur convergent. Sa distribution échantillonnale est de plus en plus concentrée autour de cette vraie valeur. Techniquement (pas nécessaire pour avoir tous les points), la probabilité que l’estimateurβˆse retrouve dans un intervalle arbitrairement petit autour deβtend vers un lorsque le nombre d’observations tend vers l’infini.

2. L’estimateur converge en distribution à une variable aléatoire qui obéit à une loi normale dont la moyenne estβ et dont la variance est égale àσ_β². Implicitement, on suppose qu’on a normalisé l’estimateur pour empêcher sa variance de diminuer avec le nombre d’observations.

3. On parle d’efficience relative dans le cadre d’estimateurs non biaisés. Donc il faut que les conditions pour l’absence de biais de l’estimateur tiennent, notamment l’espérance conditionnelle nulle des termes d’erreur du modèle (E(u_i|X_i) = 0, oùX_iest l’ième observations sur les variables explicatives X. Il faut aussi que la variance conditionnelle des erreurs soit constante (l’hypothèse d’homoscédasticité) :

Var(u_i|X_i) = σ²_u.

Sous ces conditions, c’est le théorème Gauss-Markov qui nous dit que l’estimateur MCO est le plus efficient parmi les estimateurs linéaires.

4. Grãce au théorème de Slutsky, on peut dire tout de suite que le produit converge au produit d’une constante (on peut traiterY comme une

constante asymptotiquement) fois une variable aléatoire qui obéit à une loi normale. Donc, on peut dire que

Y Z −→^d N Y µ¯ _Z , Y¯²σ²_Z .

Notez qu’il s’agit d’une application standard des r`egles pour le calcul d’esp´erances et de variances.

(3)

3 Mod`ele de r´egression multiple (50 points)

Cette question ne contient aucune surprise. Elle est basée sur la compréhension de l’output standard de l’estimation d’un modèle conventionnel. Les

sous-questions couvrent ce tout économètre appliqué aura à faire dans son travail de tous les jours.

1. Le calcul de l’écart type de la régression est basé sur laSSR, la somme des résidus au carré, qui est fournie. Une expression pour l’écart type de la régression est donnée par

r 1

n−k−1SSR.

2. Lorsqu’on teste la significativité d’un coefficient, l’hypothèse nulle est toujours que sa valeur est égale à zéro et l’hypothèse alternative est (presque) toujours bilatérale. Pour le coefficient estiméβˆ_i, la statistique sera de la forme

tβˆi =

βˆ_i−0 ˆ σ_β_ˆ

i

.

Les valeurs num´eriques sont : t_β_ˆ

1 : 0.299 0.069; tβˆ2 : 0.412

0.051; tβˆ3 : 5.298

0.364.

3. Toutes les statistiques ont une valeur (absolue) plus grande que 4. Donc ont peut dire tout de suite qu’elles ont desp-values largement inférieures à 0.01, et donc on va rejeter à un taux marginal de significativité de 1%, puisque

Pr(|z|>4) = 2Φ (−4)<0.01,

oùzest une variable aléatoire venant de la distribution normale centrée réduite etΦ (z)est la valeur de la distribution normale centrée réduite cumulée évaluée au pointz.

(4)

4. C’est un test de lasignificativité de la régressionoù l’hypothèse nulle est que tous les coefficients saufβ₀sont égaux à zéro, et l’hypothèse alternative est qu’au moins un des coefficients a une valeur non nulle, autrement dit nous avons

H₀ :β₁ =β₂ =β₃ = 0, et

H₁ :β₁ 6= 0 et/ouβ₂ 6= 0et/ouβ₃ 6= 0.

5. L’hypoth`ese nulle peut s’´ecrire





0 1 0 0 0 0 1 0 0 0 0 1









 β0

β₁ β₂ β3







=



 0 0 0





6. Le tableau indique le nombre de degrés de liberté. On litF (3,1656), ce qui veut dire que la statistique est pour un nombre d’observationsfiniet où 3donne le nombre de restrictions qui sont testées. Donc, on suppose ici une statistique qui obéit à une loitF avec un nombre fini d’observations. Il ne s’agit pas de la convergence en distribution et donc il ne s’agit pas de l’inférence asymptotique.

7. Il ne devrait y avoir presqu’aucune différence entre la valeur de la distribution cumulée pourF(3,1656)etF (3,∞). En fait, au delà de quelques centaines d’observations, la différence entre lap-value pour la distribution exacte et lap-value asymptotique devrait être négligeable. Je vous ai conseillé de regarder les tables de la distributionF pour avoir une idée des différences qu’il peut y avoir entre les valeurs de laF cumulée pour des nombres différents d’observations. Ceux qui ont suivi ce conseil ne devaient avoir aucune difficulté à répondre à cette question.

8. Le paramètreβ₁donne l’impact de la grandeur du père. Le paramètreβ₂ donne l’impact de la grandeur de la mère. Un test de leur significativité jointe revient à tester

H₀ :β₁ =β₂ = 0.

Sous forme matricielle, l’hypoth`ese peut s’´ecrire 0 1 0 0

0 0 1 0





 β₀ β₁ β₂ β₃







= 0

0

(5)

9. La version contrainte du modèle serait un modèle où la grandeur des parents n’affecte pas la grandeur de l’individu. Le modèle peut s’écrire

Y_i =β₀+β₃X_3i+u_i.

Ici, j’aurais pu utiliser une autre notation pour le terme d’erreur puisque ce n’est pas le même modèle que le modèle non contraint, mais je crois que c’est clair à partir du contexte.

10. La statistiqueF peut être basée sur le calcul duR² des deux modèles ou le calcul de laSSRdes deux modèles. Les deux calculs sont équivalents. Il ne fallait pas donner les formules pour avoir tous les points, mais elles sont (voir les notes sur le modèle de régression multiple) soit

F = (SSR_restricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1), soit

F = (R²unrestricted−R²_restricted)/q

(1−Runrestricted² )/(n−kunrestricted−1).

11. Il faut introduire des termes d’interaction entre le sexe de l’individu et la grandeur des parents, tout en conservant dans le modèle toutes les variables explicatives du modèle initial. Le modèle peut s’écrire

Yi =β0+β1X1i+β2X2i+β3X3i+β4X1iX3i+β5X2iX3i+ui. Encore une fois, j’aurais pu changer de notation pour souligner le fait qu’il s’agit d’un modèle différent, mais ceci devrait être clair à partir du

contexte.

12. L’hypoth`ese nulle `a tester est

H₀ :β₄ =β₅ = 0.

Sous forme matricielle l’hypoth`ese peut s’´ecrire

0 0 0 1 0 0 0 0 0 1





 β₀ β₁ β₂ β₃ β₄ β₅







= 0

0

(6)

13. Il s’agit tout simplement de l’intervalle de confiance de 95% pour notre estiméβˆ₂ qui donne l’impact de la grandeur de la mère. Vous étiez

nombreux à penser que la question était beaucoup plus compliquée qu’elle ne l’est. Cet intervalle peut s’écrire

βˆ₂ ±z₀σˆβˆ2

o`uz₀ >0est la valeur tel que

2Φ (−z₀) = 100−95 100

avecΦ (−z₀)(comme d’habitude) la loi normale centrée réduite cumulée

´evalu´ee au point−z₀.

14. Une ellipse. C’est dans les notes de cours et c’est dans le manuel.

4 Modèles de régression non linéaires (20 points)

1. Nous avons

∂Y_i

∂β₀ = 1;

∂Y_i

∂β₁ =X_1i;

∂Y_i

∂β2

=X_1i²;

∂Y_i

∂β₃ =X2i.

Ces dérivées ne dépendent pas desβ_i. Pour cette raison, le modèle est non linéaire dans les variables (X1iest au premier et au deuxième degrés) mais non dans les paramètres.

2. Nous avons

Yˆ₂ = ˆβ₀+ ˆβ₁X₁₂+ ˆβ₂X₁₂²+ ˆβ₃X₂₁ et

Yˆ₁ = ˆβ₀+ ˆβ₁X₁₁+ ˆβ₂X₁₁²+ ˆβ₃X₂₁ Soustrayant,

Yˆ₂−Yˆ₁ ≡∆ ˆY = ˆβ₁(X₁₂−X₁₁) + ˆβ₂ X₁₂²−X₁₁²

(7)

≈βˆ₁(X₁₂−X₁₁) + 2X₁₁βˆ₂(X₁₂−X₁₁)

≡∆X₁

βˆ₁ + 2X₁₁βˆ₂

o`u nous avons utilis´e l’approximation fournie.

3. En notation matricielle nous avons

∆ ˆY = ∆X₁

0 1 2X₁₁ 0





 βˆ0

βˆ₁ βˆ₂ βˆ3







≡∆X₁δβˆ

Notez que l’expression du côté droit de l’égalité, même si c’est en notation matricielle, est unscalaire. Ceci est logique puisque∆ ˆY est un scalaire.

J’ai lu plusieurs réponses où ce n’était pas le cas.

4. Nous avons

Var

∆ ˆY

=Var

∆X₁δβˆ

= (∆X1)²Var

δ

βˆ−β

= (∆X₁)²E

δ

βˆ−β βˆ−β0

δ⁰

= (∆X₁)²δE

βˆ−β βˆ−β0 δ⁰

≡(∆X₁)²δΣˆ_β_ˆδ⁰.

Notez qu’il s’agit d’applications successives de nos r`egles de base pour le calcul d’esp´erances et de variances.

5. Nous venons de calculer la variance de∆ ˆY. Appelons cette varianceσˆ²

∆ ˆY . L’intervalle de confiance de 95% peut s’´ecrire

∆ ˆY ±z₀σˆ_{∆ ˆ}_Y

o`u comme d’habitude

2Φ (−z0) = 100−95 100 .

(8)

6. Le mod`ele peut s’´ecrire

Y_i =β₀+ (β₁+X₁₁β₂)X_1i+β₂ X_2i²−X₁₁X_1i

+β₃X_3i+u_i. ou

Y_i =β₀+γX_1i+β₂Z_i+β₃X_3i+u_i. avec

γ ≡β₁+X₁₁β₂, Z_i ≡X_2i²−X₁₁X_1i.

Le modèle est équivalent au modèle initial mais le coefficient associé àX_1i est celui dont l’écart type est nécessaire pour calculer l’intervalle de

confiance.

5 Variables instrumentales (15 points)

1. La formule pour l’estimateur est la formule standard pour l’estimateur MCO mais utilisant les variables transform´ees :

βˆ_{V I} =

X˜⁰X˜−1

X˜⁰Y .˜

2. Substituant les d´efinitions deX˜ etY˜ nous obtenons βˆ_{V I} =

X˜⁰X˜−1

X˜⁰Y .˜

=

W(W⁰W)⁻¹W⁰X0

W(W⁰W)⁻¹W⁰X⁻¹

W(W⁰W)⁻¹W⁰X0

W(W⁰W)⁻¹W⁰Y

=

X⁰W(W⁰W)⁻¹W⁰W(W⁰W)⁻¹W⁰X−1

X⁰W(W⁰W)⁻¹W⁰W(W⁰W)⁻¹W⁰Y

=

X⁰W(W⁰W)⁻¹W⁰X−1

X⁰W(W⁰W)⁻¹W⁰Y ce qui fut `a d´emontrer

(9)

3. Nous avons βˆ_{V I} =

X⁰W(W⁰W)⁻¹W⁰(Xβ+U)

=β+

X⁰W(W⁰W)⁻¹W⁰U.

4. Nous avons

X⁰W(W⁰W)⁻¹W⁰X⁻¹

X⁰W(W⁰W)⁻¹W⁰U

= X⁰W n

W⁰W n

⁻¹ W⁰X

n

!−1

X⁰W n

W⁰W n

⁻¹ W⁰U

n .

Si ^X_n⁰^W et ^W_n⁰^W convergent à leurs moments dans la population, alors par le théorème de Slutsky l’expression converge en probabilité à zéro (un

vecteur de z´eros), et l’estimateur est convergent.

document cr´e´e le : 06/05/2012