ECO 4272: Introduction `a l’´econom´etrie Exercice 3
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec Montr´eal
c 2014, Steve Ambler Automne 2014
Veuillez ´ecrire lisiblement. Veuillez bienagraferles feuilles de votre tp ensemble avant de le remettre. Date de remise du tp : avant la fin du labo du 8 d´ecembre. Je vais afficher les solutions tout de suite apr`es la date de remise. Pour cette raison, les copies remises en retard ne seront pas accept´ees. Vous ˆetes libres de travailler seul(e)s ou en groupe. J’encourage la collaboration – discuter avec les coll`egues est sans doute la meilleure fac¸on d’apprendre. Par contre, le nombre maximal de noms sur chaque copie est 4, et vous devez produire les r´esultats et
´ecrire les r´eponses finales ind´ependamment par rapport aux autres ´equipes.
Veuillez remettre seulement une copie en notant clairement les noms et les codes permanents de tous les membres du groupe sur la premi`ere page.
En r´epondant `a toutes les questions du tp,expliquezce que vous faites et montrezvotre travail. Vous devriez fournir avec vos r´eponses un script enR, GRETL,STATAou dans le langage que vous avez utilis´e pour r´epondre aux questions. Lorsque je vous demande de commenter ce que vous trouvez, vous pouvez inclure ces r´eponses sur une feuille `a part.
1
Exercice empirique
Pr´eambule
Je vous demande de travailler (comme c’´etait le cas pour le tp2) avec la base de donn´eesCollegeDistanceprovenant du site du livre de Stock et Watson. En principe, vous avez t´el´echarg´e les donn´ees pour r´epondre aux questions du tp2.
Exercice
1. Vous avez d´ej`a sorti des statistiques descriptives des donn´ees pour le tp2 (et des histogrammes). Sortez une matrice de corr´elations entre toutes les paires possibles de variables dans la base de donn´ees afin de d´eceler des probl`emes potentiels de multicollin´earit´e. Attention : certaines des s´eries dans la base de donn´ees pourraient ne pas ˆetre en valeurs “num´eriques”.
Ceci pourrait d´ependre de la version deRque vous utilisez et/ou du syst`eme d’exploitation (Windows/Mac/Linux). Si vous obtenez des messages d’erreurs il faudrait utiliser la commande
cor(data.matrix(CollegeDistance))afin d’´eviter ce probl`eme.
2. `A la lumi`ere des r´esultats de la sous-question pr´ec´edente, expliquez quelles sont les variables qui, potentiellement, pourraient mener `a des probl`emes de multicollin´earit´e imparfaite.
3. Estimez un mod`ele de r´egression lin´eaire avec le nombre d’ann´ees d’´education (ed) comme variable d´ependante et comme variables explicatives la distance (dist), le sexe (homme/femme), le groupe ethnique (blanc/hispanique/noir), l’´education des parents, le revenu (´elev´e/non ´elev´e), et le fait d’ˆetre propri´etaire d’une maison ou non.
4. Avec le mod`ele estim´e, utilisez la commandecoeftest(·)pour obtenir des r´esultats avec la matrice variance-covariance robuste.
5. Commentez ce que vous trouvez (R2, significativit´e des coefficients individuels, significativit´e de la r´egression, diff´erences entre ´ecarts types non robustes et robustes, etc).
6. Avec les mˆemes m´ethodes que dans le tp2, (r´egression avec les r´esidus au carr´e comme variable d´ependante et test Breusch-Pagan), testez
l’hypoth`ese nulle d’absence d’h´et´erosc´edasticit´e du terme d’erreur du mod`ele.
2
7. Testez la significativit´e du groupe ethnique sur l’´education. (Attention : il s’agit d’une hypoth`ese jointe.) Utilisez la matrice variance-covariance robuste.
8. Testez la mˆeme hypoth`ese que dans la sous-question pr´ec´edente, toujours avec la commandelinearHypothesis(·)du packagecarmais cette fois-ci avec la matrice variance-covariance non robuste.
9. Testez la mˆeme hypoth`ese que dans la sous-question pr´ec´edente, mais cette fois-ci en estimant la version contrainte du mod`ele et utilisant l’une des deux formules ´etudi´ees en classe pour calculer la statistiqueF. 10. Comparez les statistiquesF et lesp-values des trois sous-questions
pr´ec´edentes. Expliquez en d´etail ce que vous trouvez et pourquoi.
11. Ajoutez la variablestwmfg80, qui mesure le salaire horaire moyen dans le secteur manufacturier. Testez sa significativit´e (m´ethodes non robuste et robuste). Commentez ce que vous trouvez. Qu’est-ce qui arrive au coefficient associ´e `a la variabledis? Pourquoi ? Essayez de donner une explication d´etaill´ee.
12. Question avec plus d’une r´eponse possible. Trouvez votre
sp´ecification pr´ef´er´ee du mod`ele (autrement dit, votre choix pr´ef´er´e de variables explicatives). Justifiez votre choix en ´ecrivant quelques paragraphes qui justifient l’inclusion ou l’exclusion des variables dans la base de donn´ees.
R´ef´erence
Rouse, Cecilia (1995), “Democratization or Diversion ? The Effect of
Community Colleges on Educational Attainment.”Journal of Business and Economic Statistics12, 217–224
cr´e´e le 21/11/2014
3