Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

(1)

ECO 4272: Introduction `a l’ ´ Econom´etrie Examen Final

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

c 2012, Steve Ambler Automne 2012

Voici quelques consignes importants.

– Il est important d’écrire lisiblement. Je ne vais pas passer trop de temps à déchiffrer les réponses barbouillées.

– J’accorde toujours plus de points pour le raisonnement que pour la réponse finale. Si la réponse est erronée et il n’y a pas de raisonnement, je ne peux pas accorder des points partiels. Même si la réponse est bonne, je ne donne- rai que des points partiels s’il n’y a pas d’explication.

– Les justifications peuvent être graphiques, algébriques, ou en mots : la co- hérence et la logique sont primordiales.

– Ne pas simplifier les réponses.Si vous simplifiez vos réponses, je ne peux retracer vos erreurs éventuelles, ce qui ne me permettra pas d’accorder des points partiels.

– Les calculatricesne sont pas permises. Relire le consigne pr´ec´edent.

1 R´eponses courtes (15 points)

1. Il est toujours possible d’écrire un modèle qui permet d’expliquer toute la variation de la variable dépendante autour de sa moyenne. Vrai, faux ou incertain ? Expliquez en détail.

(2)

2. Cette question s’enchaˆıne par rapport à la sous-question précédente. Est- ce qu’un modèle qui explique toute la variation de la variable dépendante autour de sa moyenne sera un bon modèle pour prédire les valeurs de la variable dépendante ? Expliquez en détail.

3. Voici deux modèles linéaires de régression multiple pour expliquer les va- riations de la variableY.

Y_i =β₀+β₁X_1i+β₂X_2i+β₃X_3i+u_i;

Yi =β0+ (β1+β2)X1i+β2(X2i−X1i) +β3X3i+ ˜ui.

Est-ce qu’il y a un modèle dont la SSR (somme des résidus au carré) de- vrait être moins élevée ? Est-ce que les estimés deβ₀ et deβ₃ devraient être différents ? Expliquez en détail.

2 Propri´et´es d’estimateurs (15 points)

1. Écrivez le modèle de régression multiple en notation matricielle. Donnez la définition et les dimensions de toutes les variables du modèle.

2. Nous savons que l’estimateur MCO du modèle de régression multiple est donné par

βˆ= (X⁰X)⁻¹X⁰Y.

Montrezen détailque l’estimateur doit être égal à βˆ=β+ (X⁰X)⁻¹X⁰U.

3. Quelle hypothèse statistique concernant le modèle de régression multiple permet de démontrer que l’estimateur MCO est non biaisé ?

4. Montrez en d´etail que la variance (matrice variance-covariance) de l’estimateur√

nβˆdoit converger `a Q⁻¹E

(X⁰U)

√n

(U⁰X)

√n

Q⁻¹ o`u

Q=E(X⁰X) n . Notez que je ne vous demande pas d’´evaluer E

(X√⁰U) n

(U√⁰X) n

.

(3)

3 Mod`ele de r´egression multiple (50 points)

Soit le modèle de régression multiple estimé avec des données sur 2 735 indi- vidus. Les variables sont :

– Y : la variable d´ependante, le salaire-horaire r´eel de ’individu en dollars constants par heure ;

– X₁: le nombre d’années de scolarisation de l’individu (11 pour un diplôme secondaire, 13 pour un diplôme du niveau C ÉGEP, etc.) ;

– X₂ : une variable dichotomique qui prend la valeur 1 si l’individu est un homme, 0 si l’individu est une femme ;

– X3 : le revenu familial annuel des parents de l’individu en dizaines de milliers de dollars.

Le mod`ele estim´e est

Y_i =β₀+β₁X_1i+β₂X_2i+β₃X_3i+u_i Les r´esultats de l’estimation sont comme suit.

Coefficient Variable Estim´e Ecart type´ βˆ₀ Constante : 3.241 0.487

βˆ₁ X₁: 0.675 0.129

βˆ2 X2: 1.341 0.297

βˆ₃ X₃ 0.148 0.002

R²: 0.134

R¯² 0.133

SSR 394.126

F (3,2371) 1.23e+2 Prob> F 0.000 Le modèle a été estimésansl’optionrobuste.

1. Montrez comment calculer l’´ecart type de la r´egression.

2. Écrivez les statistiques que l’on pourrait utiliser pour tester la significativité de chacun des coefficients individuels (tests d’hypothèse simples). Écrivez les valeurs numériques des ces statistiques,sans les simplifier. Écrivez ex- plicitement quelle est l’hypothèse nulle testée dans chaque cas.

3. Sansutiliser de table, est-ce les coefficients individuels sont significatifs `a un niveau de 10% ? De 5% ? De 1% ? Expliquez.

(4)

4. Quelle est l’hypothèse nulle testée par la Statistique F dans la deuxième partie du tableau ? Quelle est l’hypothèse alternative ?

5. ´Ecrivez cette hypoth`ese (jointe) sous forme matricielle.

6. Quel serait le salaire-horaire pr´edit pour un homme avec un diplˆome de Bacc. (16 ans de scolarisation) dont les parents ont un revenu annuel de 57.6 milliers de dollars ?

7. De quelle information auriez-vous besoin pour pr´edire le salaire-horaire d’un homme avec le nombre moyen d’ann´ees de scolarisation et dont les parents gagnent le revenu annuel moyen ?

8. Vous soupçonnez que l’impact de l’éducation sur le revenu pourrait dépendre du sexe de l’individu. Comment pourriez-vous modifier le modèle pour tenir compte de cette possibilité ?

9. Dans le contexte de ce modèle modifié, expliquez comment tester la significativité (jointe) de l’impact de l’éducation sur le salaire, soit indépendamment du sexe de l’individu soit dépendant du sexe de l’individu.

Ecrivez l’hypoth`ese nulle qui est test´ee sous forme matricielle.´

10. Soit la variable dichotomiqueX4i qui prend la valeur 1 si l’individu est une femme, 0 si l’individu est un homme. Vous ajoutez cette variable au mod`ele original. Qu’est-ce qui arrive lorsque vous estimez le mod`ele ?

11. Tel qu’indiqué dans l’énoncé de la question, les résultatsne sont pasbasés sur l’estimation robuste. Expliquez une façon de tester la significativité (jointe) de l’impact de l’éducation (pour le modèle modifié) en estimant une version contrainte du modèle. Écrivez cette version du modèle sous forme non matricielle.

12. Expliquez comment construire la statistique F de la partie précédente sur la base de l’output standard du logiciel. Je ne vous demande pas d’écrire la formule complète. Il suffit d’indiquer quelles sont les informations requises.

13. Expliquez bri`evement comment construire l’intervalle de confiance de 95%

pour l’impact de l’´education sur le salaire (pour la version originale du mod`ele).

14. Quelle serait la forme géométrique de l’ensemble de confiance de 95% pour les impacts de l’éducation et le sexe sur le salaire (version originale du modèle) ? Vous ne devez pas fournir une formule algébrique.

(5)

4 Modèles de régression non linéaires (20 points)

Soit le modèle de régression non linéaire suivant :

Y_i =β₀+β₁X_1i+β₂X_1iX_2i+β₃X_2i+β₄X_2i²+u_i

Vous avez estimé ce modèle et vous voulez prédire l’impact surY_id’une augmen- tation duniveaudeX_2i.

1. Est-ce que ce modèle est non linéaire dans les paramètres ? Expliquez clai- rement en donnant une réponse mathématique ainsi qu’en mots.

2. Dérivez une expression algébrique pour le changement prédit∆Y ≡(Y₂ −Y₁) suite à un changement de la valeur de la variable explicative deX₂₁ àX₂₂. Autrement dit, ∆X2 = X22−X21. Ici, Y2 indique la valeur de Y après le changement de la valeur de X₂, et Y₁ indique sa valeur avant le changement.X₂₁indique la valeur initiale deX₂ etX₂₂indique sa valeur après le changement. La valeur deX1 reste inchangée.

3. Exprimez ce changement en notation matricielle (vectorielle) comme

∆Y = ∆X₂δβ.ˆ Autrement dit, précisez les éléments deδ.

4. ´Ecrivez une expression pour la variance de∆Y ou Var(∆Y)

en fonction de l’expression du côté droit de l’équation ci-dessus. Simplifiez cette expression et exprimez la variance de ∆Y en fonction de la matrice variance-covariance de l’estimateurβ.ˆ

5. Étant donné cette variance, expliquez en détail comment construire l’intervalle de confiance de 95% pour∆Y.

6. Écrivez une version équivalente du modèle où leδβˆde la partie 3 (ou plutôt δβ si vous écrivez le modèle de la population) est directement un des pa- ramètres du modèle transformé (de cette façon, le logiciel de régression calcule automatiquement l’écart type dont nous avons besoin pour calculer l’intervalle de confiance).

(6)

5 Moindres carrés pondérés (Weighted Least Squares) (15 points en bonus)

Soit le modèle de régression multiple donné par Y =Xβ+U

avec la notation habituelle et avec(k+ 1)variables explicatives avec la constante.

Supposons que l’hypothèse d’indépendance conditionnelle des termes d’erreurs est vérifie et donc

E(U|X) = 0.

L’hypothèse d’homoscédasticité n’est pas vérifiée, mais par contre on sait que la matrice variance-covariance des erreurs satisfait

Var(U|X) = Ω

avecΩune matrice diagonale où l’ième élément sur la diagonale est égal à Var(u_i)≡ σ_i².

1. Considérez le vecteur d’erreurs transformé en prémultipliant par Ω^−1/2, la matrice diagonale avec éléments sur la diagonale égaux à1/σ_i. Autrement dit, considérez

Ue ≡Ω^−1/2U

Quelle serait sa matrice variance-covariance ? Indice — il faut calculer l’esp´erance deUeUe⁰.

2. Quel serait l’estimateur MCO du modèle où on prémultiplie le modèle entier par Ω^−1/2? Indice — On peut écrire le modèle en variables transformées comme

Ye =Xβe +U .e

3. Si on ne connaˆıt pas les valeurs desσ_i, suggérez un estimateur basé sur des choses observables. Indice — l’estimateur MCO dans ce cas est convergent mais non efficient. Pensez à un estimateur en deux étapes, où dans la première

étape on estime le modèle non transformé par MCO. Je ne vous demande pas bien sûr de démontrer la convergence de cet estimateur.

4. Est-ce que vous pensez que ce nouvel estimateur serait plus éfficient que l’estimateur MCO du modèle non transformé ? Pourquoi ou pourquoi pas ? document créé le : 20/12/2012