3 Mod`ele de r´egression multiple (35 points)

(1)

Examen intra Examen final x

Sigle Groupe Trimestre

ECO4272 50 20171

Titre Introduction à l’économétrie

Enseignant(e) Steve Ambler

Solutions détaillées 1 Réponses courtes

1. Il y a 2 restrictions. Elles sont toutes les 2 des fonctionslinéairesdes paramètres. On peut les écrire en format matriciel sous la formeRβ =r.

Donc, oui on peut utiliser une statistiqueF pour tester cette hypoth`ese jointe. Je ne vous ai pas demander d’´ecrireRour, mais on a (si k+ 1 = 6),

R =

0 0 1 0 0 0 0 0 0 1 −1 2

et

r= 1

0

.

2. Normalement pour écrire une statistiqueF pour tester une hypothèse jointe on a besoin de la matrice variance-covariance des paramètres estimés. Si tout ce qu’on a c’est l’article, on a les valeurs estimées des paramètres et leurs écarts types, mais non la matrice variance-covariance au complet. On n’a pas non plus les données pour pouvoir rééstimer le modèle ou pour estimer une version contrainte du modèle. Donc on ne peut écrire une statistiqueF pour effectuer le test. Le seul recours possible serait le test de Bonferroni, qui repose sur l’hypothèse que la probabilité de rejeter au moins une des hypothèses faisant partie de l’hypothèse jointe est inférieure à la somme des probabilités de rejeter chacune des hypothèses individuelles. On effectue le test avec des statistiquest.

(2)

3. Si on compare les problèmes à résoudre pour trouver les estimateurs MCO, on constate que le problème avec une variable de moins est une version contrainte du problème de minimisation lorsqu’on inclut la variable. Donc, le minimum qu’on va trouver avec une variable de plus est au moins aussi petit. Donc, la somme des résidus au carré est inférieure sinon strictement inférieure. Donc leR² doit être au moins aussi élevé. Notez que la question porte surR²et non surR¯².

4. Le biais dépend de la valeur du coefficient associé à la variable omise et aussi de la corrélation entre la variable omise et la variable incluse. Voir la réponse à la question bonus.

2 Propri´et´es d’estimateurs (25 points)

1. Un estimateurβ˜est non biaisé s’il est égal en moyenne à sa vraie valeur.

Autrement dit,

E βˆ

=β.

2. L’estimateurβ˜converge en probabilité à sa vraie valeur. Ceci veut dire que, lorsque le nombre d’observations tend vers l’infini, la probabilité d’obtenir une valeur réalisée de l’estimateur qui est en dehors d’un intervalle arbitrairement petit autour de la vraie valeur tend vers zéro.

3. Comme j’ai dit peut-être cent fois en classe, si on montre qu’un estimateur est non biaisé et que sa variance tend vers zéro lorsque le nombre d’observations tend vers l’infinine revient pasà montrer rigoureusement que la condition pour la convergence en probabilité est satisfaite (voir la sous-question précédante). Autrement dit, ces deux conditions ne sont pas strictement suffisantes pour montrer la convergence en probabilité. Par contre, c’est seulement pour des cas aberrants où la variance peut tendre vers zéro mais il n’y a pas convergence en

probabilité. Donc, comme j’ai dit, pour les fins du cours si on démontre qu’un estimateur est non biaisé et que sa variance tend vers zéro on va conclure qu’il y a (à toutes fins pratiques) convergence en probabilité.

4. C’est la différence entre convergence en probabilité (convergence vers une constante) et convergence en distribution (convergence vers une variable aléatoire suivant une distribution bien définie, typiquemente la normale).

(3)

5. L’erreur d’un estimateurβˆest

βˆ−β.

L’erreur quadratique est donc

βˆ−β2

. L’erreur quadratique moyenne est donc

E

βˆ−β2

.

On peut montrer (voir les notes de cours) que l’erreur quadratique

moyenne est égale à la somme de la variance de l’estimateur plus le carré de son biais. Il existe des estimateurs pour certains problèmes qui sont biaisés mais qui néanmoins ont une erreur quadratique moyenne faible puisqu’ils ont une très petite variance. On a (ce n’était pas nécessaire d’écrire ce qui suit pour avoir tous les points)

E

βˆ−β 2

= E

βˆ−E βˆ

+

E

βˆ

−β 2

= E

βˆ

−β2

+ E

βˆ−E βˆ2

+2E E

βˆ

−β βˆ−E βˆ

=

E βˆ

−β 2

+ E

βˆ−E βˆ

2

+2 E

βˆ

−β E

βˆ−E βˆ

= E

βˆ

−β2

+ E

βˆ−E βˆ2

E

βˆ

−β 2

+ E

βˆ−E βˆ

2

+2 E

βˆ

−β

×0

≡biais²+ Var βˆ

.

(4)

6. Dans le premier cas, la matrice variance-covariance tend vers une matrice de zéros lorsque le nombre d’observationsntend vers l’infini. On parle de convergence en distribution mais c’est comme l’estimateur tend vers une constante ou un vecteur de constantes. Dans le deuxième cas, la matrice variance-covariance tend vers des constantes qui sont (typiquement) non nulles. Donc l’estimateur tend vers une variable qui reste une variable aléatoire ou un vecteur qui reste un vecteur de variables aléatoires.

7. Nous sommes dans un contexte de r´egression multiple. La notion de

variance d’unvecteurde variables aléatoires est ambiguë. Donc dans ce cas on dit qu’un estimateurβˆ(non biaisé) est efficient si n’importe quelle combinaison linéairecβâ une variance plus petite que la variance decβõuβ˜est un autre estimateur non biaisé.

8. Le modèle doit satisfaire les hypothèses de base du modèle de régression multiple énoncées dans le livreplusl’hypothèse de l’homoscédasticité de l’erreur, qui (comme j’ai répété maintes fois)ne fait pas partie des hypothèses de basedans l’approche de Stock et Watson.

3 Mod`ele de r´egression multiple (35 points)

1. La formule générale pour l’écart type de la régression est SER≡

r SSR n−k−1.

où SSR est la somme des résidus au carré,nest le nombre d’observations, etkest le nombre de paramètres estimés à part la constante.

2. Pour un test de significativité, l’hypothèse nulle est toujours que la valeur du coefficient est égale à zéro. Nous avons

t^act_i = βˆ ˆ σβˆ

, pouri= 0. . .5. Donc

t^act₀ = 4.53 0.571, t^act₁ = −1.439 0.466 ,

(5)

t^act₂ = 0.341 0.120, t^act₃ = 0.937

0.102, t^act₄ = 0.198

0.132, t^act₅ = 0.288

9.194,

3. Les valeurs absolues des statistiques sont supérieures à 2.57 (voir le préambule du questionnaire) pouri= 0,1,2,3. Donc on rejette l’hypothèse nulle dans ces cas à 1% (et donc à 5% et 10% aussi). Pour i= 4, la valeur absolue est égale à 1.5, et donc on rejette à

4. L’hypothèse nulle est celle de la non-significativité de la régression, autrement dit que tous les coefficients sauf la constante sont nuls :

H₀ :β₁ =β₂ =β₃ =β₄ =β₅ = 0, H₁ :∃i, i= 1. . .5 tel que β_i 6= 0.

5. L’hypoth`ese nulle peut s’´ecrire







0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1











 β0

β₁ β₂ β3

β₄ β₅







=





 0 0 0 0 0







6. La variable dépendante (ventes de café) ainsi que les ventes totales sont mesurées en logs, et donc l’hypothèse nulle est tout simplement

H₀ :β₃ = 1.

Siβ₃ = 1les ventes de café varient de façon proportionnelle au ventes totales. On peut tester l’hypothèse avec une statistiquet, où latcalculée sera

t^act = 0.937−1.000

0.102 = −0.063 0.102 .

Puisque la statistique normalisée est (de loin) inférieure à un en valeur absolue, on ne rejettera pas l’hypothèse nulle à des niveaux

conventionnels.

(6)

7. L’hypoth`ese nulle peut s’´ecrire

0 0 0 0 1 0 0 0 0 0 0 1





 β₀ β₁ β₂ β₃ β₄ β₅







= 0

0

La statistiqueF sera la statistique habituelle (pas n´ecessaire de l’´ecrire au complet pour avoir les points) :

F ≡

Rβˆ−r0h

RΣˆ_β_ˆR⁰i−1

Rβˆ−r /q,

oùqest le nombre de restrictions que l’on veut tester, et oùΣˆβêst la matrice variance-covariance de l’estiméβ. Dans l’exemple que nousˆ venons d’étudier,q = 2. Autrement dit,

F −→^d Fq,∞, avec la notation habituelle.

8. Le modèle contraint à estimer sera celui qui omet les deux dernières variables explicatives :

Y_i =β₀+β₁X_1i+β₂X_2i+β₃X_3i+ ˜u_i.

Notez que les modèle contraint et non contraintne sont paséquivalents, et donc les termes d’erreur ne sont pas identiques. La statistiqueF peut s’écrire soit utilisant la somme des résidus carrés des deux modèles soit utilisant lesR²des deux modèles (pas nécessaire d’écrire les formules pour avoir les points) :

F = (SSR_restricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1) ou

F = (R²unrestricted−R²_restricted)/q

(1−R²unrestricted)/(n−kunrestricted−1).

Pour que les statistiquesF soient exactes (en échantillon fini) il faut aussi supposer la normalité de l’erreur du modèle. Sinon, il faut supposer que le nombre d’observations soit assez élevé pour que les statistiquesF soient approximativement égales aux statistiquesFq,∞.

(7)

9. Les statistiquesF écrites de cette façon sont valides seulement dans le cas où le terme d’erreur (du modèle non contraint) esthomoscédastique.

10. L’impact prédit d’un changement du prix du thé sur les ventes du café peut s’écrire

∆ ˆY = ∆X₂βˆ₂.

Pour construire l’inervalle de confiance il faut calculer l’´ecart type de ceci. On a

Var

∆ ˆY

= (∆X₂)²σˆ²_ˆ

β.

Donc l’ecart type du changement est∆X₂ˆσ_β_ˆ, et l’invervalle de confiance peut s’´ecrire

∆X2βˆ2±z0×∆X2σˆβˆ

où comme d’habitudez₀ est la valeur (positive) de la normale centrée réduite pour laquelle

Pr (−z₀ < z < z₀) = X 100 o`uXest le niveau de confiance voulu en pourcentage.

11. L’ensemble de confiance prend la forme d’une ellipse (pour deux param`etres) ou bien d’une hyper-ellipse (plus que deux param`etres).

4 Modèles de régression non linéaires (20 points)

1. Les dérivées partielles du côté droit de l’équation du modèle par rapport aux paramètres ne sont pas fonctions des paramètres. Donc le modèle est linéaire dans le paramètres (mais non linéaire dans les variables).

2. Nous avons les valeurs pr´edites suivantes dans les situations finale et initiale :

Yˆ2 = ˆβ0+ ˆβ1X11+ ˆβ2X22+ ˆβ3X31+ ˆβ4X222

+ ˆβ5X11X22

et

Yˆ₁ = ˆβ₀ + ˆβ₁X₁₁+ ˆβ₂X₂₁+ ˆβ₃X₃₁+ ˆβ₄X₂₁²+ ˆβ₅X₁₁X₂₁. Notez bien que c’estseulement la valeur deX₂ qui change. Soustrayant la deuxième équation de la première nous obtenons

∆ ˆY = ˆβ₂∆X₂+ ˆβ₄ X₂₂²−X₂₁²

+ ˆβ₅X₁₁∆X₂.

(8)

Utilisant l’approximation qui est donn´ee nous obtenons

∆ ˆY ≈βˆ₂∆X₂+ ˆβ₄2X₂₁∆X₂+ ˆβ₅X₁₁∆X₂.

⇒ ∆ ˆY

∆X₂ = ˆβ₂+ ˆβ₄2X₂₁+ ˆβ₅X₁₁.

=

0 0 1 0 2X₂₁ X₁₁





 βˆ₀ βˆ₁ βˆ2

βˆ₃ βˆ₄ βˆ5







≡δ⁰βˆ

3. Nous avons

∆ ˆY

∆X₂ =δ⁰βˆ

⇒Var ∆ ˆY

∆X2

!

= Var δ⁰βˆ

= Var δ⁰

βˆ−β

=δ⁰E

δ⁰( ˆβ−β)( ˆβ−β)⁰δ

=δ⁰Σˆ_β_ˆδ.

Donc l’écart type du changement prédit∆ ˆY peut s’écrire

∆X₂ q

δ⁰Σˆβˆδ.

Nous pouvons ´ecrire l’intervalle de confiance comme

∆X₂×δ⁰βˆ±z₀∆X₂ q

δ⁰Σˆβˆδ.

où comme d’habitudez₀ est la valeur (positive) de la normale centrée réduite pour laquelle

Pr (−z₀ < z < z₀) = X 100 o`uXest le niveau de confiance voulu en pourcentage.

(9)

4. Il faut transformer le modèle en un modèle équivalentoù l’un des coefficients à estimer est égal à la combinaison linéaire d’intérêt,

β₂+ 2X₂₁β₄+X₁₁β₅. Nous avons

Yi =β0+β1X1i+ (β2+ 2X21β4+X11β5)X2i+β3X3i

+β₄ X_2i²−2X₂₁X_2i

+β₅(X_1iX_2i−X₁₁X_2i) +u_i. Notez bien que chaque fois qu’on ajoute un terme il faut soustraire exactement le même terme pour que le modèle transformé soit équivalent au modèle initial. Définissons

(β2+ 2X21β4+X11β5)≡γ.

Si nous estimons ce modèle le logiciel nous fournira automatiquement un estimé de l’écart type deγ. Donc l’écart type du changement prédit peutˆ s’écrire

r Var

∆ ˆY

= ∆X2σˆγˆ

et l’intervalle de confiance sera

∆X₂γˆ±z₀∆X₂σˆ_ˆ_γ. 5. Nous avons dans ce cas-ci

Rβ ≡

0 0 1 0 2X₂₁ X₁₁





 β₀ β₁ β₂ β₃ β₄ β₅







= 0≡r.

Cette expression donne l’hypothèse nulle. L’hypothèse alernative est forcément bilatérale puisque nous utilisons une statistiqueF et, puisque l’hypothèse nulle est une hypothèse simple laF calculée doit être égale au carré de la statistiquetpour tester la même hypothèse. Notre logiciel

(10)

nous fournira automatiquement la valeur calcul´ee de la statistiqueF (ave, par exemple, la commandelinearHypothesisdansR). Nous avons

F^act≡t² =

βˆ₂+ 2X₂₁βˆ₄+X₁₁βˆ₅ SE

!2

⇒SE =

βˆ2+ 2X21βˆ4+X11βˆ5

√ F^act

,

ce qui nous donne l’´ecart type dont nous avons besoin pour ´ecrire l’intervalle de confiance, qui est

∆X₂×δ⁰βˆ±z₀∆X₂SE,

où j’ai écrit le changement prédit utilisant la notation généraleδ⁰βˆ.

5 Biais d ˆu `a des variables omises (20 points en bonus)

Soit le modèle de régression multiple donné par

Y =Xβ+U =X₁β₁+X₂β₂+U

avec la notation habituelle, et oùX₁etX₂ regroupent des sous-ensembles des variables explicatives. Vous estimez le modèle donné par

Y =X₁β₁+ ˜U o`uU˜ ≡X₂β₂+U.

1. Notez que l’estimateur que nous voulons est celui du modèle qui est estimé, qui est celui sansβ₂Le problème peut s’écrire

minβ1

U˜⁰U˜ = (Y −X₁β₁)⁰(Y −X₁β₁) .

2. Il n’y a qu’une seule CPO (matricielle) pour le choix deβ₁. Nous avons

∂U˜⁰U˜

∂β₁ = 0

(11)

⇒ −X₁⁰Y −X₁⁰Y +X₁⁰X₁β₁+X₁⁰X₁β₁ = 0

⇒βˆ1 = (X10

X1)⁻¹X10

Y.

C’était possible d’écrire les CPOs sous forme non matricielle mais notez bien queβ1 est unvecteurde paramètres. L’écrire sous cette forme ne facilite pas la solution non plus.

3. Notez que la forme de la solution (voir la sous-question précédente) a la même forme que le(X⁰X)⁻¹X⁰Y qui devrait maintenant être familier.

4. On suit la d´emarche habituelle, qui est de substituer levraimod`ele (avec β₂) dans la solution :

βˆ₁ = (X₁⁰X₁)⁻¹X₁⁰(X₁β₁+X₂β₂+U)

=β₁+ (X₁⁰X₁)⁻¹X₁⁰X₂β₂+ (X₁⁰X₁)⁻¹X₁⁰U.

On peut maintenant calculer l’espérance de notre estimateur en utilisant la loi des espérances itérées :

E βˆ₁

=β₁+ E

(X₁⁰X₁)⁻¹X₁⁰X₂ β₂,

où j’ai sauté l’étape où on applique la loi des espérances itérées pour se débarasser du terme d’erreur.

5. Le dernier terme donne le biais. Notez que (X₁⁰X₁)⁻¹X₁⁰X₂

a l’interprétation d’unematricede coefficients obtenus si on régresse chaque élément dansX₂surX₁. Donc on a un résultat qui est une extension du cas d’une seule variable omise. Le biais dépend des vraies valeurs des coefficientsβ₂ et aussi de la projection linéaire des éléments deX₂ surX₁. En fait

1 nX₁⁰X₁

⁻¹ 1 nX₁⁰X₂

p

−

→(E (X₁⁰X₁))⁻¹E (X₁⁰X₂) o`uE (X₁⁰X₁)est la matrice des deuxi`eme moments (bruts) deX₁et E (X10

X2)est la matrice qui donne tous les deuxième moments bruts entre les éléments deX₁ et deX₂.

(12)

6. Un peu difficile. Si tous les éléments deβ₂ sont nuls il n’y a pas de biais puisque lesX₂ne devraient pas être incluses dans le modèle. Si lesX₂ ne sont pas expliquées par lesX1 (dans le sens de la projection linéaire) alors on aurait

(X₁⁰X₁)⁻¹X₁⁰X₂ = 0 et il n’y aurait pas de biais non plus.

7. La réponse courte — pas grand’chose. Le signe dépend des signes de tous les éléments deβ₂ et aussi des signes de la matrice

(X10

X1)⁻¹X10

X2

qui est de dimensionsk₁×k₂ o`uk₁ est le nombre de variables

explicatives dansX₁ etk₂est le nombre de variables explicatives dans X2.

document cr´e´e le : 03/05/2017