Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

(1)

ECO 4272: Introduction à l’économétrie Exercice 3

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec Montréal

c 2017, Steve Ambler Hiver 2017

Veuillez ´ecrire lisiblement. Veuillez bienagraferles feuilles de votre tp

ensemble avant de le remettre. Date de remise du tp : avant la fin du labo du 12 décembre. Je vais afficher les solutions tout de suite après la date de remise. Pour cette raison, les copies remises en retard ne seront pas acceptées. Vous êtes libres de travailler seul(e)s ou en groupe. J’encourage la collaboration – discuter avec les collègues est sans doute la meilleure façon d’apprendre. Par contre, le nombre maximal de noms sur chaque copie est 4, et vous devez produire les résultats et

écrire les réponses finales indépendamment par rapport aux autres équipes.

Veuillez remettre seulement une copie en notant clairement les noms et les codes permanents de tous les membres du groupe sur la premi`ere page.

En répondant à toutes les questions du tp,expliquezce que vous faites et montrezvotre travail. Vous devriez fournir avec vos réponses un script enR, GRETL,STATAou dans le langage que vous avez utilisé pour répondre aux questions. Lorsque je vous demande de commenter ce que vous trouvez, vous pouvez inclure ces réponses sur une feuille à part.

1

(2)

Exercice empirique

Pr´eambule

Je vous demande de travailler avec la mˆeme base de donn´ees que pour le tp2, soit

CPS1985, décrite en détail à la page 25 du document suivant :

https://cran.r-project.org/web/packages/AER/AER.pdf.

Vous devez utiliser les mêmes commandes pour les importer que pour le tp2, à moins de les avoir sauvegardé en formatR. D’abord, installer le packageAER.

Utilisez (enLinuxc’est mieux de le faire comme super-utilisateur ou root) : R> library("AER")

R> data(CPS1985) R> attach(CPS1985)

La dernière commande vous permet d’appeler les variables dans la base de données directement, sans faire référence au nom de la base de données.

Si vous utilisez un autre logiciel, je peux (sur demande) convertir les donn´ees dans un autre format qui va vous faciliter votre travail.

Exercice

1. Vous avez déjà sorti des statistiques descriptives des données pour le tp2.

Sortez une matrice de corrélations entre toutes les paires possibles de variables dans la base de données (avec les quelques exceptions – voir plus loin) afin de déceler des problèmes potentiels de multicollinéarité.

Indice : certaines des variables dans la base de données n’ont pas des valeurs numériques, ce qui est nécessaire pour calculer un coefficient de corrélation. Dans ce cas-ci, l’opération n’est pas facile. On peut convertir une variable non numérique en une variable numérique avec la

commandeas.numeric(·), mais si on essaie de le faire à l’ensemble de données au complet, on reçoit un message d’erreur, i.e.

as.numeric(CPS1985)ne fonctionne pas. Pour le faire, créer une base de données numériques avec les commandes suivantes.

nregion <- as.numeric(region) ngender <- as.numeric(gender) nunion <- as.numeric(union) nmarried < as.numeric(married)

2

(3)

NCPS <- data.frame(wage, education, experience, age, nregion, ngender, nunion, nmarried)

Comme ça, vous créez une nouvelle base de données avec des variables numérique seulement, ce qui permet d’utiliser la commandecor(·) appliquée à la base de données entière. Pour les variables qui prennent plus que deux valeurs (ethnicity,occupation,sector) je suggère de ne pas convertir en valeurs numériques pour calculer des corrélations. Est-ce que vous pouvez expliquer pourquoi ?

2. À la lumière des résultats de la sous-question précédente, expliquez quelles sont les variables qui, potentiellement, pourraient mener à des problèmes de multicollinéarité imparfaite.

3. Estimez un modèle linéaire oùoccupationest la seule variable explicative et oùlog(wage)est la variable dépendante. Sortez un graphique des résultats avec les commandesplot(·)

abline(·).Commentez ce que vous trouvez. (Le but de cette

sous-question est de vous apprendre ce que faitRen présence de variables catégoriques qui ont plus que deux catégories possibles).

4. Répétez l’exercice précédent mais avecgendercomme la seule variable explicative. Commentez ce que vous trouvez.

5. Estimez un modèle de régression linéaire avec le salaire (log(wage)) comme variable dépendante et comme variables explicatives l’éducation (education), l’expérience (experience), l’âge (age), l’ethnicité (ethnicity), l’occupation (occupation) et le sexe (gender).

Sortez le résumé des résultats avec la commandesummary(·).

Commentez ce que vous trouvez (R², significativité des coefficients, significativité de la régression, etc.).

6. Utilisez la commandecoeftest(·)pour obtenir des résultats avec la matrice variance-covariance robuste. Commentez les différences par rapport àsummary(·).

7. Avec les mêmes méthodes que dans le tp2, (régression avec les résidus au carré comme variable dépendante et test Breusch-Pagan), testez

l’hypothèse nulle d’absence d’hétéroscédasticité du terme d’erreur du modèle.

8. Testez l’hypoth`ese nulle jointe de la non-significativit´e de l’occupation comme une influence importante sur le salaire. (Indice : la variable

3

(4)

occupationest une variable catégorique avec 6 catégories différentes.

Rcrée automatiquement des variables dichotomiques et évite le prob1ème de latrappe des variables dichotomiques. La

non-significativité de la variableoccupationrevient à dire qu’il n’y a aucune hétérogénéité entre les occupations différentes. Pour plus de détails voir la référence à Fox (2010).) Effectuez le test avec la matrice variance-covariance non robuste et avec la matrice variance-covariance robuste (utilisez la commandelinearHypothesis(·)du package car– voir les notes de cours pour un exemple détaillé). Commentez ce que vous trouvez et commentez les différences entre les résultats avec les deux façons d’effectuer le test.

9. Testez la même hypothèse que dans la sous-question précédente, mais cette fois-ci en estimant la version contrainte du modèle et utilisant les deux formules étudiées en classe pour calculer la statistiqueF (celle qui utilise leR²et celle qui utilise la somme des résidus au carré).

Commentez ce que vous trouvez.

10. Calculez l’intervalle de confiance de 95% pour la diff´erence moyenne entre le log du salaire d’un travailleur dans le secteurofficeet d’un travailleur dans le secteurservices.

11. Maintenant, avec le modèle estimé dans la sous-question (5), et où les résultats ont été sauvegardés (par exemple) dans l’objetmodelname exécutez la commandeplot(modelname,which=1:6).

Commentez brièvement ce que vous trouvez. (Ceci est basé sur le dernier chapitre des notes de cours.) Je ne demande pas une réponse trop élaborée ici puisque nous allons étudier le sujet des tests diagnostics seulement lors du dernier cours.

R´ef´erence

Fox, John (2010), “Dummy-Variable Regression.”

http://socserv.socsci.mcmaster.ca/jfox/Courses/

SPIDA/dummy-regression-notes.pdf cr´e´e le 24/03/2017

4