Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

(1)

ECO 4272: Introduction `a l’ ´ Econom´etrie Examen Final

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

c 2013, Steve Ambler Hiver 2013

Voici quelques consignes importants.

– Il est important d’écrire lisiblement. Je ne vais pas passer trop de temps à déchiffrer les réponses barbouillées.

– J’accorde toujours plus de points pour le raisonnement que pour la réponse finale. Si la réponse est erronée et il n’y a pas de raisonnement, je ne peux pas accorder des points partiels. Même si la réponse est bonne, je ne don- nerai que des points partiels s’il n’y a pas d’explication.

– Les justifications peuvent être graphiques, algébriques, ou en mots : la co- hérence et la logique sont primordiales.

– Ne pas simplifier les réponses.Si vous simplifiez vos réponses, je ne peux retracer vos erreurs éventuelles, ce qui ne me permettra pas d’accorder des points partiels.

– Les calculatricesne sont pas permises. Relire le consigne pr´ec´edent.

1 R´eponses courtes (15 points)

1. L’ajustement statistique (R²) peut augmenter ou diminuer suite à l’addition d’une variable explicative additionnelle à un modèle de régression. Vrai, faux ou incertain ? Expliquez en détail.

(2)

2. Dans quelles circonstances doit-on tester une hypothèse nulle jointe en util- isant des statistiques tpour tester chacune des hypothèses nulles individu- elles de l’hypothèse jointe ? Sans rentrer dans les détails, quelle méthodologie doit-on utiliser dans ce cas ?

3. Voici deux modèles linéaires de régression multiple pour expliquer les vari- ations de la variableY.

Y_i =β₀+β₁X_1i+β₂X_2i+β₃X_3i+u_i; (Yi−X3i) = β0+β1(X1i+X3i) +β2X2i+ ˜ui.

Est-ce qu’il y a un modèle dont laSSR(somme des résidus au carré) devrait être moins élevée ? Est-ce que les estimés deβ₀, deβ₁et deβ₂devraient être identiques ou différents ? Expliquez en détail.

2 Propri´et´es d’estimateurs (20 points)

Soit le mod`ele de r´egression multiple habituelle. En notation non matricielle, Y_i =β₀+β₁X_1i+β₂X_2i+. . .+β_kX_ki+u_i.

1. Écrivez le modèle de régression multiple en notation matricielle. Donnez la définition et les dimensions de toutes les variables du modèle.

2. ´Ecrivez la fonction (en notation non matricielle) qu’il faut minimiser pour trouver les estimateursβˆ₀, βˆ₁, . . . , βˆ_k.

3. Quelle sont les variables de choix de ce problème de minimisation ? 4. Montrez que l’estimateur deβ₀, soitβb₀doit être égal à

βb₀ = ¯Y −βb₁X¯₁−. . .−βb_kX¯_k,

o`u, comme d’habitude, les barres indiquent des moyennes ´echantillonnales.

5. Montrer que pour des variables al´eatoires quelconquesXetY et un ´echantillon quelconque de taillen,

n

X

i=1

Xi Yi−Y¯

=

n

X

i=1

Xi−X¯

Yi−Y¯ .

6. Pour le cas simple o`uk = 1, montrez que βb₁ =

n

X

i=1

X_1i−X¯₁

Y_1i−Y¯₁ X_1i−X¯₁2 .

Indice — vous allez devoir utiliser le résultat de la sous-question précédente.

(3)

3 Mod`ele de r´egression multiple (45 points)

Soit le modèle de régression multiple estimé avec des données sur 872 maga- sins. Les variables sont :

– Y : la variable dépendante, la valeur du café vendue, mesurée en logs.

– X₁ : le log du prix du caf´e.

– X₂ : le log du prix du th´e.

– X3 : le log de la valeur des ventes totales du magasin.

– X₄ : le prix moyen des maisons dans le quartier du magasin, en logs.

– X₅ : le revenu moyen des individus dans le quartier du magasin, en logs.

Le mod`ele estim´e est

Y_i =β₀+β₁X_1i+β₂X_2i+β₃X_3i+β₄X_4i+β₅X_5i+u_i

Les r´esultats de l’estimation sont comme suit.

Coefficient Variable Estim´e Ecart type´

βˆ₀ Constante 4.53 0.571

βˆ1 X1 -1.439 0.466

βˆ₂ X₂ 0.341 0.120

βˆ₃ X₃ 0.937 0.102

βˆ4 X4 0.198 0.132

βˆ₅ X₅ 0.288 9.194

R² : 0.18 R¯² 0.18

SSR 645.26

F (3,868) 3.41e+2 Prob> F 0.000 Le modèle a été estimésansl’optionrobuste.

1. Montrez comment calculer l’´ecart type de la r´egression.

2. Écrivez les statistiques que l’on pourrait utiliser pour tester la significativité de chacun des coefficients individuels (tests d’hypothèses simples). Écrivez les valeurs numériques des ces statistiques,sans les simplifier. Écrivez ex- plicitement quelle est l’hypothèse nulle testée dans chaque cas.

3. Sansutiliser de table, est-ce les coefficients individuels sont significatifs `a un niveau de 10% ? De 5% ? De 1% ? Expliquez.

(4)

4. Quelle est l’hypothèse nulle testée par la Statistique F dans la deuxième partie du tableau ? Quelle est l’hypothèse alternative ?

5. ´Ecrivez cette hypoth`ese (jointe) sous forme matricielle.

6. Décrivez comment tester l’hypothèse que les ventes de café sont proportion- nelles aux ventes totales du magasin (autrement, l’hypothèse nulle d’une

élasticité unitaire des ventes de café par rapport aux ventes totales). Sans utiliser de table, est-ce que l’hypothèse nulle est rejetée ?

7. Serait-il possible de tester l’hypothèse de la sous-question précédente en estimant une version contrainte du modèle ? Quel serait le modèle estimé ? Quelle hypothèse doit tenir pour que cette approche soit valide ?

8. Expliquez comment tester l’hypothèse de la significativité des deux dernières variables (le prix des maisons et le revenu des individus) avec une approche matricielle.

9. Expliquez en détail comment construire la statistiqueF de la sous-question précédente en estimant une version contrainte du modèle.

10. Par rapport à la sous-question précédente, quelle hypothèse faut-il faire con- cernant le terme d’erreur du modèle pour que cette approche soit valide ? 11. Supposez que vous rejetez l’hypothèse nulle (jointe) dans les sous-questions

(7) et (8). À la lumière de votre réponse à la sous-question (2), fournissez une explication possible pour ce que vous trouvez.

12. Expliquez bri`evement comment construire l’intervalle de confiance de 95%

pour l’impact du prix du th´e sur les ventes du caf´e.

13. Quelle serait la forme géométrique de l’ensemble de confiance de 95% pour les impacts des deux dernières variables. Vous ne devez pas fournir une formule algébrique.

4 Modèles de régression non linéaires (20 points)

Soit le modèle de régression non linéaire suivant :

Y_i =β₀+β₁X_1i+β₂X_1i² +β₃X_1iX_2i+u_i

Vous avez estimé ce modèle et vous voulez prédire l’impact surY_id’une augmen- tation duniveaudeX2i.

(5)

1. Est-ce que ce modèle est non linéaire dans les paramètres ? Expliquez claire- ment en donnant une réponse mathématique ainsi qu’en mots.

2. Dérivez une expression algébrique pour le changement prédit ∆Y ≡ (Y2−Y1)suite à un changement de la valeur de la variable explicativeX1

deX₁₁ àX₁₂. Autrement dit,∆X₁ =X₁₂−X₁₁. Ici,Y₂ indique la valeur deY après le changement de la valeur deX₁, etY₁ indique sa valeur avant le changement.X11indique la valeur initiale deX1 etX12indique sa valeur après le changement. La valeur deX₂reste inchangée. Vous pouvez utilisez l’approximation suivante (approximation de Taylor d’ordre un deX₁₂² au- tour du pointX112

) :

X₁₂²

≈X₁₁²+ 2×X₁₁(X₁₂−X₁₁)

⇒X₁₂² −X₁₁² ≈2×X₁₁(X₁₂−X₁₁).

3. Exprimez ce changement en notation matricielle (vectorielle) comme

∆Y = ∆X₁δ⁰β.ˆ

Autrement dit, précisez les éléments du veteurδ. Notez queβest un vecteur qui comprend tous les coefficients du modèle.

4. ´Ecrivez une expression pour la variance de∆Y ou Var(∆Y)

en fonction de l’expression du côté droit de l’équation ci-dessus. Simplifiez cette expression et exprimez la variance de ∆Y en fonction de la matrice variance-covariance de l’estimateurβ.ˆ

5. Étant donné cette variance, expliquez en détail comment construire l’intervalle de confiance de 95% pour∆Y.

6. Écrivez une version équivalente du modèle où le δβˆ de la partie 3 (ou plutôtδβ si vous écrivez le modèle de la population) est directement un des paramètres du modèle transformé (de cette façon, le logiciel de régression calcule automatiquement l’écart type dont nous avons besoin pour calculer l’intervalle de confiance).

(6)

5 Variables instrumentales (20 points en bonus)

Soit le modèle de régression multiple donné par Y =Xβ+U

avec la notation habituelle et avec(k+ 1)variables explicatives avec la constante.

Supposons que l’hypothèse d’indépendance conditionnelle des termes d’erreurs n’est pas vérifiée et donc

E(U|X)6= 0.

Il y a par contre des variables Z (une matrice de dimensions n ×(k2 + 1) o`u k₂ ≥k) qui satisfait l’hypoth`ese

Cov(U, Z) = 0.

Considérez le modèle de régression modifié suivant.

Y =Xβb +Ue

où on remplace les variablesXpar leurs valeurs prédites provenant de régressions linéaires de chaque variable dansXsur lesZcomme variables explicatives. Autrement dit,

Xb =Z(Z⁰Z)⁻¹Z⁰X ≡Zbγ o`u donc

bγ ≡(Z⁰Z)⁻¹Z⁰X

est lamatricede paramètres estimés provenant de ces régressions.

1. Quelles sont les dimensions de la matriceXb et de la matricebγ? 2. Montrez en d´etail qu’on peut ´ecrire l’estimateur comme

βbV I =β+

X⁰Z(Z⁰Z)⁻¹Z⁰X −1

X⁰Z(Z⁰Z)⁻¹Z⁰U.

3. Montrez que l’estimateur converge en probabilit´e `a β. (Pour l’estimateur

`a variables instrumentales, on ne peut pas montrer l’absence de biais en

´echantillon fini.) Vous pouvez utiliser le r´esultat suivant : Z⁰U

n

−p

→Cov(U, Z)

document cr´e´e le : 20/04/2013