Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

(1)

ECO 4272: Introduction à l’ ´ Econométrie Examen Final: Réponses

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

c 2011, Steve Ambler Hiver 2011

1 R´eponses courtes (20 points)

1. Oui, on peut tester l’hypothèse avec une statistiqueF. Chacune des trois hy- pothèses est une fonction linéaire desβ. Nous pouvons écrire les hypothèses

`a tester sous forme matricielle comme





0 1 0 0 0 . . . 0 0 1 0 0 . . . 0 1 −2 1 −1 . . .









 β₀ β₁ β₂ β₃ β₄ ...







=



 1 3 0





2. Non. Nous avons vu en classe que, dans le cas d’une hypothèse simple, la statistique F est le carré de la statistique t. Il est impossible de distinguer entre des valeurs négatives et positives de la statistique normalise qui est donnée par ^β^ˆ¹_σ_ˆ^−0.5

βˆ1

. Donc, même siβˆ₁ < 0.5 la statistique F pourrait nous mener à rejeterH₀, tandis qu’une telle statistique ne serait pas une évidence en faveur de l’hypothèse alternative unilatérale. On doit utiliser une statis- tiquetqui permet de distinguer entre une statistique normalisée positive et une statistique normalisée négative.

(2)

3. Il y a moyen d’effectuer le test, avec la méthode Bonferroni. Nous l’avons vu en passant en classe, et il y a une référence dans les notes. Il ne fallait pas donner de détails pour avoir tous les points.

4. L’estimateur MCO est la solution à un problème de minimisation sous con- trainte. Lorsqu’on ajoute une variable explicative à un modèle de régression linéaire, c’est comme on relâche une des contraintes du problème (la con- trainte qui impose une valeur de zéro sur le coefficient). Le minimum que l’on peut atteindre doit être au moins aussi faible. Ce minimum est la somme des résidus au carré. Donc, le R², qui dépend de façon négative de cette somme, doit être au moins aussi élevé.

2 Propri´et´es d’estimateurs (20 points)

1. Un estimateur non biaisé est égal en moyenne à la vraie valeur qu’on essaie d’estimer. Si l’estimateur estβêt la vraie valeur estβ, il faut que

E βˆ

=β.

2. Une variable aléatoire (qui peut être un estimateur) qui dépend de la taille de l’échantillonnutilisé pour la construire converge en probabilité converge en probabilité à une valeur donnée si sa moyenne est égale à la valeur donnée et si, au fur est à mesure quenaugmente, sa variance diminue (et tend vers zéro). Formellement (pas nécessaire pour avoir tous les points), nous avons

X −→^p X¯

si la valeur de X se trouve dans une région arbitrairement petit autour de X, autrement dit dans un intervale¯ X¯±oùest une constante positive qui peut être arbitrairement petit avec une probabilité qui tend vers un lorsque ntend vers l’infini.

3. Il y a convergence en distribution lorsqu’une variable aléatoireXqui dépend d’un paramètren(la plupart du tempsnindique la taille de l’échantillon) est distribuée selon une loi de probabilité connue lorsquentend vers l’infini.

4. Nous avons vu en classe que la matrice variance-covariance de βˆ est pro- portionnelle à _n¹ oùnest la taille de l’échantillon. Donc, cette matrice tend vers un matrice de zéros lorsquen tend vers l’infini, et donc les estimésβˆ tendent vers des constantes (convergence en probabilité). Si on veut étudier

(3)

les propriétés asymptotiquesstochastiquesdeβ, il faut normaliser quelqueˆ chose pour que βˆreste des variables aléatoires même lorsquen tend vers l’infini. La matrice variance-covariance de√

n

βˆ−β

ne décroˆıt pas avec n. On soustraitβ pour que l’espérance de l’estimateur que l’on étudie soit zéro, ce qui facilite le calcul de sa variance.

5. Un estimateur scalaire est plus efficient qu’un autre s’il a une variance plus faible (on suppose que les deux estimateurs sont non biaisés). Un estimateur d’un vecteur de paramètres est plus efficient qu’un autre si la variance de n’importe quelle combinaison linéaire des éléments du vecteur est plus faible que pour l’autre. Algébriquement, si on a

Var c⁰βˆ

≤Var c⁰β˜

pour n’importe quel vecteur de constantesc, l’estimateurβˆest plus efficient que l’estimateurβ.˜

6. Lorsqu’on dérive la matrice de variance-covarianceΣˆβˆ, onne suppose pas l’homoscédasticité, qui fait partie des hypothèses utilisées pour prouver le théorème Gauss-Markov. Nous savons pour cette raison que l’estimateur MCO n’est pas forcément le plus efficient. En fait, on sait que l’estimateur MCG est plus efficient que l’estimateur MCO dans ce contexte (ce n’était pas nécessaire d’écrire ceci). On se contente du fait que l’estimateur MCO est sans biais et convergent.

3 Mod`ele de r´egression multiple (40 points)

1. Un test de la significativité d’un coefficient est un test de l’hypothèse nulle qu’il est égal à zéro. Donc, nous avons pour le coefficientβ_i,

t=

βˆ_i−0 sβˆi

où sβî est un estimateur convergent de l’écart type de l’estimé (la racine carrée de l’élément diagonal approprié de la matrice variance-covariance calculée). Notez la forme de la statistique : valeur calculée de la statistique, moins sa valeur sous l’hypothèse nulle, le tout divisé par son écart type ou par un estimé convergent de son écart type. Les valeurs numériques sont :

4.321395 0.019174;

(4)

0.077473 0.000880;

−0.001316 0.000019 ; 0.086673 0.001272;

−0.243364 0.012918 .

2. Dans chaque cas sauf le troisième, la valeur estimée du coefficient est au moins dix fois en valeur absolue plus grande que son écart type estimé.

Même dans le troisième cas, le ratio est égal à preque 7 en valeur absolue.

Donc, les coefficients sont tous significatifs `a des niveaux de 10%, de 5% et de 1%. En fait, les p-values des tests sont toutes extrˆemement faibles.

3. L’hypothèse nulle testée est que tous les coefficients sauf la constante sont nuls. Algébriquement,

H₀ : β₁ =β₂ =β₃ =β₄ =β₅ = 0, avec

H₁ :∃i, i= 1. . .5tel queβ_i 6= 0.

4. Sous forme matricielle,







0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1











 β₀ β₁ β₂ β₃ β₄ β₅







=





 0 0 0 0 0







5. On indique que les degrés de liberté de la statistique calculée sont 4 et 21850. Donc, la p-value est pour un nombre fini d’observations.

6. La différence entreF_4,21850 etF_4,∞ sera extrêmement faible. Avec 21 850 observations, l’approximation à une distributionF4,∞sera presque exacte.

7. Puisque le salaire paraˆıt comme variable explicative au premier degré et au deuxième degré, tester sa significativité est un test d’hypothèse jointe.

L’hypoth`ese nulle est

H₀ : β₁ =β₂ = 0.

(5)

Sous forme matricielle, nous avons

0 1 0 0 0 0 0 0 1 0 0 0





 β₀ β₁ β2

β₃ β₄ β5







= 0

0

8. Il est possible d’utiliser l’ajustement statistique R² pour effectuer le test.

Dans ce cas-ci, le mod`ele contraint est simplement Y_i =β₀+u_i.

9. Il ne faut pas vraiment estimer le mod`ele contraint, puisqu’on sait qu’avec seulement une constante dans le mod`ele, l’estimateur MCO sera la moyenne

échantillonnale de la variable dépendante, et le R² de cette régression sera zéro. Comme on a vu en classe et dans les notes (ce n’était pas nécessaire de donner la formule exacte pour avoir tous les points), la statistiqueF est donnée par

F == R² (1−R²)

(n−k−1)

k .

10. Le mod`ele `a estimer sera

Y_i =β₀+β₁EXP_i+β₂EXP_i²+β₃EDU_i+β₄AF R_i +β₅EDU_iAF R_i+u_i.

On ajoute une variable d’interaction entre la variable EDU et la variable AF R. Le test `a effectuer est un test d’hypoth`ese simple, qui est

H₀ : β₅ = 0.

11. Dans ce cas, il faut inclure des termes d’interaction entre toutes les variables explicatives etAF R. Le mod`ele devient :

Y_i =β₀+β₁EXP_i+β₂EXP_i²+β₃EDU_i+β₄AF R_i +β5EXPiAF Ri +β6EXP_i²AF Ri+β7EDUiAF Ri+ui. L’hypothèse à tester est maintenant une hypothèse jointe :

H₀ : β₅ =β₆ =β₇ = 0.

(6)

12. Nous avons

∆ ˆY_i = ˆβ₁∂EXP_i

∂EXP_i∆EXP_i+ ˆβ₂∂EXP_i²

∂EXP_i∆EXP_i

= (β₁+β₂2EXP₁) ∆EXP_i.

Il faut évaluer la dérivée partielle au point de départ, et donc le changement prédit dépend du niveau initial de l’éducation.

13. Il faut d’abord calculer l’écart type du changement prédit. La variance est donnée par

Var

∆ ˆY_i

= (∆EXP_i)²Var

βˆ₁+ ˆβ₂2EXP₁

= (∆EXP_i)²×

Var βˆ1

+ 4(EXP1)²Var βˆ2

+ 4EXP1Cov

βˆ1,βˆ2

.

L’´ecart type de ∆ ˆY_i est la racine carr´ee de cette expression. Appelons-le s_{∆ ˆ}_Y

i. Pour une variable normale centr´ee r´eduitez et une valeurz₀ > 0tel que

Pr(−z₀ < z < z₀) = X 100 l’intervalle de confiance de X% est donn´e par

∆ ˆYi±z0s_{∆ ˆ}_Y

i. 14. Le changement pr´edit est

∆ ˆY_i =Y₂−Y₁

oùY₂est la valeur finale etY₁est la valeur initiale de la variable dépendante en logs. En niveaux, le changement prédit sera

exp(Y₂) exp(Y1).

L’intervalle de confiance sera approximativement exp(Y₂)

exp(Y₁) 1±z₀s_{∆ ˆ}_Y

i

,

Les bornes sontproportionnellement sym´etriques, mais non sym´etriques en niveau.

(7)

4 Moindres carrés pondérés (20 points)

1. Nous avons

u⁰_i = 1 σ_iui

⇒Var 1

σ_iu_i|X

= 1

σ²_iVar(u_i|X)

= 1

σ²_iσ_i² = 1.

La variance est non seulement constante, elle est unitaire. Notez qu’il s’agit d’une application simple de la r`egle de calcul des variances.

2. Nous avons

W Y

=







1

σ1 0 0 0 . . . 0 0 _σ¹

2 0 0 . . . 0 0 0 _σ¹

3 0 . . . 0 ... ... 0 . .. . . . 0 0 0 0 0 _σ¹

n−1 0

0 0 0 0 0 _σ¹

n











 Y₁ Y2

Y₃ ... Yn−1

Y_n







=





 Y₁/σ₁ Y₂/σ₂ Y₃/σ₃ ...

Yn−1/σn−1

Yn/σn





 .

Donc l’ième rangée dans le système d’équations matriciel est donnée par 1

σ_iY_i

qui est la variable dépendante du modèle transformé. De manière semblable, on peut vérifier que l’ième rangée du côté droit est donnée par

1

σ_iβ₀+ 1

σ_iβ₁X_1i+ 1

σ_iβ₂X_2i+. . .+ 1

σ_iβ_kX_ki+u⁰_i.

(8)

3. Dans le contexte présent, une expression algébrique pour l’estimateur est donné par

βˆ= (W X)⁰(W X)⁻¹

(W X)⁰(W Y)

= (X⁰W⁰W X)⁻¹X⁰W⁰W Y

= (X⁰ZX)⁻¹X⁰ZY, ce qui fut `a montrer.

4. L’estimateur est effectivement l’estimateur MCO du modèle transformé, mais non du modèle initial, à cause de la présence desZ dans l’expression pour l’estimateur.

5. Nous avons

(X⁰ZX)⁻¹X⁰ZY

= (X⁰ZX)⁻¹X⁰Z(Xβ+U)

= (X⁰ZX)⁻¹(X⁰ZX)β+ (X⁰ZX)⁻¹X⁰ZU

=β+ (X⁰ZX)⁻¹X⁰ZU.

Nous avons tout de suite que

E (X⁰ZX)⁻¹X⁰ZY

=β+E (X⁰ZX)⁻¹X⁰ZU

=β+E (X⁰ZX)⁻¹X⁰ZE(U|X)

=β.

L’avant-dernière égalité tient à cause de la loi des espérances itérées.

6. Le modèle transformé a des erreurs homoscédastiques, et donc satisfait cette hypothèse additionnelle dont on a besoin pour prouver le théorème Gauss- Markov.

5 Modèles de régression non linéaires (20 points)

1. Chaque paramètre paraˆıt du côté droit en premier degré seulement. Nous avons

∂Yi

∂β₀ = 1,

(9)

∂Y_i

∂β₁ = log (X_1i),

∂Y_i

∂β₂ =X_2i,

∂Y_i

∂β₃ =X_1iX_2i.

Chaque dérivée est fonction des variables explicatives seulement. Donc le modèle est linéaire dans les paramètres.

2. Nous avons

∆ ˆY_i = ˆβ₁∂logX_1i

∂X_1i ∆X_1i+ ˆβ₃X₂₁∆X_1i βˆ₁ 1

X11

∆X_1i+ ˆβ₃X₂₁∆X_1i.

Il faut évaluer la dérivée du log deX_1iau niveau initialX₁₁. Le changement prédit dépend du niveau initial deX2 et du niveau initial deX1.

3. Nous avons

∆ ˆY_i = ∆X_1i

0 1/X₁₁ 0 X₂₁





 βˆ0

βˆ₁ βˆ₂ βˆ3







4. Nous avons

Var(∆Y_i) = Var δβˆ

=Var δ

βˆ−β

=E

δ

βˆ−β δ

βˆ−β0

=δE

βˆ−β βˆ−β0 δ⁰

=δΣˆβˆδ⁰, ce qui fut `a montrer.

(10)

5. Nous avons une expression pour la variance du changement prédit. L’écart type est la racine carrée de ceci. Pourz₀ >0tel que

Pr(−z₀ < z < z₀) = 0.95

aveczune variable aléatoire normale centrée réduite, l’intervalle de confiance de 95% est donné par

∆ ˆY_i±z₀ q

∆X_1iδΣˆ_β_ˆδ⁰ 6. Nous avons

X₁₁δβ =

0 1 0 X₁₁X₂₁





 β₀ β₁ β₂ β₃







Le mod`ele transform´e est

Y_i =β₀+ (β₁+β₃X₁₁X₂₁) log (X_1i) + +β₂X_2i +β₃(X_1iX_2i −X₁₁X₂₁log (X_1i)) +u_i.

L’écart type du coefficient transformé associé à la variable explicative log(X_1i)est à une normalisation près l’écart type dont nous avons besoin.

document cr´e´e le : 30/04/2011