• Aucun résultat trouvé

3 Mod`ele de r´egression multiple (35 points)

N/A
N/A
Protected

Academic year: 2022

Partager "3 Mod`ele de r´egression multiple (35 points)"

Copied!
12
0
0

Texte intégral

(1)

Examen intra Examen final x

Sigle Groupe Trimestre

ECO4272 50 20171

Titre Introduction `a l’´econom´etrie

Enseignant(e) Steve Ambler

Solutions d´etaill´ees 1 R´eponses courtes

1. Il y a 2 restrictions. Elles sont toutes les 2 des fonctionslin´eairesdes param`etres. On peut les ´ecrire en format matriciel sous la formeRβ =r.

Donc, oui on peut utiliser une statistiqueF pour tester cette hypoth`ese jointe. Je ne vous ai pas demander d’´ecrireRour, mais on a (si k+ 1 = 6),

R =

0 0 1 0 0 0 0 0 0 1 −1 2

et

r= 1

0

.

2. Normalement pour ´ecrire une statistiqueF pour tester une hypoth`ese jointe on a besoin de la matrice variance-covariance des param`etres estim´es. Si tout ce qu’on a c’est l’article, on a les valeurs estim´ees des param`etres et leurs ´ecarts types, mais non la matrice variance-covariance au complet. On n’a pas non plus les donn´ees pour pouvoir r´e´estimer le mod`ele ou pour estimer une version contrainte du mod`ele. Donc on ne peut ´ecrire une statistiqueF pour effectuer le test. Le seul recours possible serait le test de Bonferroni, qui repose sur l’hypoth`ese que la probabilit´e de rejeter au moins une des hypoth`eses faisant partie de l’hypoth`ese jointe est inf´erieure `a la somme des probabilit´es de rejeter chacune des hypoth`eses individuelles. On effectue le test avec des statistiquest.

(2)

3. Si on compare les probl`emes `a r´esoudre pour trouver les estimateurs MCO, on constate que le probl`eme avec une variable de moins est une version contrainte du probl`eme de minimisation lorsqu’on inclut la variable. Donc, le minimum qu’on va trouver avec une variable de plus est au moins aussi petit. Donc, la somme des r´esidus au carr´e est inf´erieure sinon strictement inf´erieure. Donc leR2 doit ˆetre au moins aussi ´elev´e. Notez que la question porte surR2et non surR¯2.

4. Le biais d´epend de la valeur du coefficient associ´e `a la variable omise et aussi de la corr´elation entre la variable omise et la variable incluse. Voir la r´eponse `a la question bonus.

2 Propri´et´es d’estimateurs (25 points)

1. Un estimateurβ˜est non biais´e s’il est ´egal en moyenne `a sa vraie valeur.

Autrement dit,

E βˆ

=β.

2. L’estimateurβ˜converge en probabilit´e `a sa vraie valeur. Ceci veut dire que, lorsque le nombre d’observations tend vers l’infini, la probabilit´e d’obtenir une valeur r´ealis´ee de l’estimateur qui est en dehors d’un intervalle arbitrairement petit autour de la vraie valeur tend vers z´ero.

3. Comme j’ai dit peut-ˆetre cent fois en classe, si on montre qu’un estimateur est non biais´e et que sa variance tend vers z´ero lorsque le nombre d’observations tend vers l’infinine revient pas`a montrer rigoureusement que la condition pour la convergence en probabilit´e est satisfaite (voir la sous-question pr´ec´edante). Autrement dit, ces deux conditions ne sont pas strictement suffisantes pour montrer la convergence en probabilit´e. Par contre, c’est seulement pour des cas aberrants o`u la variance peut tendre vers z´ero mais il n’y a pas convergence en

probabilit´e. Donc, comme j’ai dit, pour les fins du cours si on d´emontre qu’un estimateur est non biais´e et que sa variance tend vers z´ero on va conclure qu’il y a (`a toutes fins pratiques) convergence en probabilit´e.

4. C’est la diff´erence entre convergence en probabilit´e (convergence vers une constante) et convergence en distribution (convergence vers une variable al´eatoire suivant une distribution bien d´efinie, typiquemente la normale).

(3)

5. L’erreur d’un estimateurβˆest

βˆ−β.

L’erreur quadratique est donc

βˆ−β2

. L’erreur quadratique moyenne est donc

E

βˆ−β2

.

On peut montrer (voir les notes de cours) que l’erreur quadratique

moyenne est ´egale `a la somme de la variance de l’estimateur plus le carr´e de son biais. Il existe des estimateurs pour certains probl`emes qui sont biais´es mais qui n´eanmoins ont une erreur quadratique moyenne faible puisqu’ils ont une tr`es petite variance. On a (ce n’´etait pas n´ecessaire d’´ecrire ce qui suit pour avoir tous les points)

E

βˆ−β 2

= E

βˆ−E βˆ

+

E

βˆ

−β 2

= E

βˆ

−β2

+ E

βˆ−E βˆ2

+2E E

βˆ

−β βˆ−E βˆ

=

E βˆ

−β 2

+ E

βˆ−E βˆ

2

+2 E

βˆ

−β E

βˆ−E βˆ

= E

βˆ

−β2

+ E

βˆ−E βˆ2

E

βˆ

−β 2

+ E

βˆ−E βˆ

2

+2 E

βˆ

−β

×0

≡biais2+ Var βˆ

.

(4)

6. Dans le premier cas, la matrice variance-covariance tend vers une matrice de z´eros lorsque le nombre d’observationsntend vers l’infini. On parle de convergence en distribution mais c’est comme l’estimateur tend vers une constante ou un vecteur de constantes. Dans le deuxi`eme cas, la matrice variance-covariance tend vers des constantes qui sont (typiquement) non nulles. Donc l’estimateur tend vers une variable qui reste une variable al´eatoire ou un vecteur qui reste un vecteur de variables al´eatoires.

7. Nous sommes dans un contexte de r´egression multiple. La notion de

variance d’unvecteurde variables al´eatoires est ambigu¨e. Donc dans ce cas on dit qu’un estimateurβˆ(non biais´e) est efficient si n’importe quelle combinaison lin´eairecβˆa une variance plus petite que la variance decβ˜ouβ˜est un autre estimateur non biais´e.

8. Le mod`ele doit satisfaire les hypoth`eses de base du mod`ele de r´egression multiple ´enonc´ees dans le livreplusl’hypoth`ese de l’homosc´edasticit´e de l’erreur, qui (comme j’ai r´ep´et´e maintes fois)ne fait pas partie des hypoth`eses de basedans l’approche de Stock et Watson.

3 Mod`ele de r´egression multiple (35 points)

1. La formule g´en´erale pour l’´ecart type de la r´egression est SER≡

r SSR n−k−1.

o`u SSR est la somme des r´esidus au carr´e,nest le nombre d’observations, etkest le nombre de param`etres estim´es `a part la constante.

2. Pour un test de significativit´e, l’hypoth`ese nulle est toujours que la valeur du coefficient est ´egale `a z´ero. Nous avons

tacti = βˆ ˆ σβˆ

, pouri= 0. . .5. Donc

tact0 = 4.53 0.571, tact1 = −1.439 0.466 ,

(5)

tact2 = 0.341 0.120, tact3 = 0.937

0.102, tact4 = 0.198

0.132, tact5 = 0.288

9.194,

3. Les valeurs absolues des statistiques sont sup´erieures `a 2.57 (voir le pr´eambule du questionnaire) pouri= 0,1,2,3. Donc on rejette l’hypoth`ese nulle dans ces cas `a 1% (et donc `a 5% et 10% aussi). Pour i= 4, la valeur absolue est ´egale `a 1.5, et donc on rejette `a

4. L’hypoth`ese nulle est celle de la non-significativit´e de la r´egression, autrement dit que tous les coefficients sauf la constante sont nuls :

H012345 = 0, H1 :∃i, i= 1. . .5 tel que βi 6= 0.

5. L’hypoth`ese nulle peut s’´ecrire

0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1

 β0

β1 β2 β3

β4 β5

=

 0 0 0 0 0

6. La variable d´ependante (ventes de caf´e) ainsi que les ventes totales sont mesur´ees en logs, et donc l’hypoth`ese nulle est tout simplement

H03 = 1.

Siβ3 = 1les ventes de caf´e varient de fac¸on proportionnelle au ventes totales. On peut tester l’hypoth`ese avec une statistiquet, o`u latcalcul´ee sera

tact = 0.937−1.000

0.102 = −0.063 0.102 .

Puisque la statistique normalis´ee est (de loin) inf´erieure `a un en valeur absolue, on ne rejettera pas l’hypoth`ese nulle `a des niveaux

conventionnels.

(6)

7. L’hypoth`ese nulle peut s’´ecrire

0 0 0 0 1 0 0 0 0 0 0 1

 β0 β1 β2 β3 β4 β5

= 0

0

La statistiqueF sera la statistique habituelle (pas n´ecessaire de l’´ecrire au complet pour avoir les points) :

F ≡

Rβˆ−r0h

RΣˆβˆR0i−1

Rβˆ−r /q,

o`uqest le nombre de restrictions que l’on veut tester, et o`uΣˆβˆest la matrice variance-covariance de l’estim´eβ. Dans l’exemple que nousˆ venons d’´etudier,q = 2. Autrement dit,

F −→d Fq,∞, avec la notation habituelle.

8. Le mod`ele contraint `a estimer sera celui qui omet les deux derni`eres variables explicatives :

Yi01X1i2X2i3X3i+ ˜ui.

Notez que les mod`ele contraint et non contraintne sont pas´equivalents, et donc les termes d’erreur ne sont pas identiques. La statistiqueF peut s’´ecrire soit utilisant la somme des r´esidus carr´es des deux mod`eles soit utilisant lesR2des deux mod`eles (pas n´ecessaire d’´ecrire les formules pour avoir les points) :

F = (SSRrestricted−SSRunrestricted)/q SSRunrestricted/(n−kunrestricted−1) ou

F = (R2unrestricted−R2restricted)/q

(1−R2unrestricted)/(n−kunrestricted−1).

Pour que les statistiquesF soient exactes (en ´echantillon fini) il faut aussi supposer la normalit´e de l’erreur du mod`ele. Sinon, il faut supposer que le nombre d’observations soit assez ´elev´e pour que les statistiquesF soient approximativement ´egales aux statistiquesFq,∞.

(7)

9. Les statistiquesF ´ecrites de cette fac¸on sont valides seulement dans le cas o`u le terme d’erreur (du mod`ele non contraint) esthomosc´edastique.

10. L’impact pr´edit d’un changement du prix du th´e sur les ventes du caf´e peut s’´ecrire

∆ ˆY = ∆X2βˆ2.

Pour construire l’inervalle de confiance il faut calculer l’´ecart type de ceci. On a

Var

∆ ˆY

= (∆X2)2σˆ2ˆ

β.

Donc l’ecart type du changement est∆X2ˆσβˆ, et l’invervalle de confiance peut s’´ecrire

∆X2βˆ2±z0×∆X2σˆβˆ

o`u comme d’habitudez0 est la valeur (positive) de la normale centr´ee r´eduite pour laquelle

Pr (−z0 < z < z0) = X 100 o`uXest le niveau de confiance voulu en pourcentage.

11. L’ensemble de confiance prend la forme d’une ellipse (pour deux param`etres) ou bien d’une hyper-ellipse (plus que deux param`etres).

4 Mod`eles de r´egression non lin´eaires (20 points)

1. Les d´eriv´ees partielles du cˆot´e droit de l’´equation du mod`ele par rapport aux param`etres ne sont pas fonctions des param`etres. Donc le mod`ele est lin´eaire dans le param`etres (mais non lin´eaire dans les variables).

2. Nous avons les valeurs pr´edites suivantes dans les situations finale et initiale :

2 = ˆβ0+ ˆβ1X11+ ˆβ2X22+ ˆβ3X31+ ˆβ4X222

+ ˆβ5X11X22

et

1 = ˆβ0 + ˆβ1X11+ ˆβ2X21+ ˆβ3X31+ ˆβ4X212+ ˆβ5X11X21. Notez bien que c’estseulement la valeur deX2 qui change. Soustrayant la deuxi`eme ´equation de la premi`ere nous obtenons

∆ ˆY = ˆβ2∆X2+ ˆβ4 X222−X212

+ ˆβ5X11∆X2.

(8)

Utilisant l’approximation qui est donn´ee nous obtenons

∆ ˆY ≈βˆ2∆X2+ ˆβ42X21∆X2+ ˆβ5X11∆X2.

⇒ ∆ ˆY

∆X2 = ˆβ2+ ˆβ42X21+ ˆβ5X11.

=

0 0 1 0 2X21 X11

 βˆ0 βˆ1 βˆ2

βˆ3 βˆ4 βˆ5

≡δ0βˆ

3. Nous avons

∆ ˆY

∆X20βˆ

⇒Var ∆ ˆY

∆X2

!

= Var δ0βˆ

= Var δ0

βˆ−β

0E

δ0( ˆβ−β)( ˆβ−β)0δ

0Σˆβˆδ.

Donc l’´ecart type du changement pr´edit∆ ˆY peut s’´ecrire

∆X2 q

δ0Σˆβˆδ.

Nous pouvons ´ecrire l’intervalle de confiance comme

∆X2×δ0βˆ±z0∆X2 q

δ0Σˆβˆδ.

o`u comme d’habitudez0 est la valeur (positive) de la normale centr´ee r´eduite pour laquelle

Pr (−z0 < z < z0) = X 100 o`uXest le niveau de confiance voulu en pourcentage.

(9)

4. Il faut transformer le mod`ele en un mod`ele ´equivalento`u l’un des coefficients `a estimer est ´egal `a la combinaison lin´eaire d’int´erˆet,

β2+ 2X21β4+X11β5. Nous avons

Yi01X1i+ (β2+ 2X21β4+X11β5)X2i3X3i

4 X2i2−2X21X2i

5(X1iX2i−X11X2i) +ui. Notez bien que chaque fois qu’on ajoute un terme il faut soustraire exactement le mˆeme terme pour que le mod`ele transform´e soit ´equivalent au mod`ele initial. D´efinissons

2+ 2X21β4+X11β5)≡γ.

Si nous estimons ce mod`ele le logiciel nous fournira automatiquement un estim´e de l’´ecart type deγ. Donc l’´ecart type du changement pr´edit peutˆ s’´ecrire

r Var

∆ ˆY

= ∆X2σˆγˆ

et l’intervalle de confiance sera

∆X2γˆ±z0∆X2σˆˆγ. 5. Nous avons dans ce cas-ci

Rβ ≡

0 0 1 0 2X21 X11

 β0 β1 β2 β3 β4 β5

= 0≡r.

Cette expression donne l’hypoth`ese nulle. L’hypoth`ese alernative est forc´ement bilat´erale puisque nous utilisons une statistiqueF et, puisque l’hypoth`ese nulle est une hypoth`ese simple laF calcul´ee doit ˆetre ´egale au carr´e de la statistiquetpour tester la mˆeme hypoth`ese. Notre logiciel

(10)

nous fournira automatiquement la valeur calcul´ee de la statistiqueF (ave, par exemple, la commandelinearHypothesisdansR). Nous avons

Fact≡t2 =

βˆ2+ 2X21βˆ4+X11βˆ5 SE

!2

⇒SE =

βˆ2+ 2X21βˆ4+X11βˆ5

√ Fact

,

ce qui nous donne l’´ecart type dont nous avons besoin pour ´ecrire l’intervalle de confiance, qui est

∆X2×δ0βˆ±z0∆X2SE,

o`u j’ai ´ecrit le changement pr´edit utilisant la notation g´en´eraleδ0βˆ.

5 Biais d ˆu `a des variables omises (20 points en bonus)

Soit le mod`ele de r´egression multiple donn´e par

Y =Xβ+U =X1β1+X2β2+U

avec la notation habituelle, et o`uX1etX2 regroupent des sous-ensembles des variables explicatives. Vous estimez le mod`ele donn´e par

Y =X1β1+ ˜U o`uU˜ ≡X2β2+U.

1. Notez que l’estimateur que nous voulons est celui du mod`ele qui est estim´e, qui est celui sansβ2Le probl`eme peut s’´ecrire

minβ1

0U˜ = (Y −X1β1)0(Y −X1β1) .

2. Il n’y a qu’une seule CPO (matricielle) pour le choix deβ1. Nous avons

∂U˜0

∂β1 = 0

(11)

⇒ −X10Y −X10Y +X10X1β1+X10X1β1 = 0

⇒βˆ1 = (X10

X1)−1X10

Y.

C’´etait possible d’´ecrire les CPOs sous forme non matricielle mais notez bien queβ1 est unvecteurde param`etres. L’´ecrire sous cette forme ne facilite pas la solution non plus.

3. Notez que la forme de la solution (voir la sous-question pr´ec´edente) a la mˆeme forme que le(X0X)−1X0Y qui devrait maintenant ˆetre familier.

4. On suit la d´emarche habituelle, qui est de substituer levraimod`ele (avec β2) dans la solution :

βˆ1 = (X10X1)−1X10(X1β1+X2β2+U)

1+ (X10X1)−1X10X2β2+ (X10X1)−1X10U.

On peut maintenant calculer l’esp´erance de notre estimateur en utilisant la loi des esp´erances it´er´ees :

E βˆ1

1+ E

(X10X1)−1X10X2 β2,

o`u j’ai saut´e l’´etape o`u on applique la loi des esp´erances it´er´ees pour se d´ebarasser du terme d’erreur.

5. Le dernier terme donne le biais. Notez que (X10X1)−1X10X2

a l’interpr´etation d’unematricede coefficients obtenus si on r´egresse chaque ´el´ement dansX2surX1. Donc on a un r´esultat qui est une extension du cas d’une seule variable omise. Le biais d´epend des vraies valeurs des coefficientsβ2 et aussi de la projection lin´eaire des ´el´ements deX2 surX1. En fait

1 nX10X1

−1 1 nX10X2

p

→(E (X10X1))−1E (X10X2) o`uE (X10X1)est la matrice des deuxi`eme moments (bruts) deX1et E (X10

X2)est la matrice qui donne tous les deuxi`eme moments bruts entre les ´el´ements deX1 et deX2.

(12)

6. Un peu difficile. Si tous les ´el´ements deβ2 sont nuls il n’y a pas de biais puisque lesX2ne devraient pas ˆetre incluses dans le mod`ele. Si lesX2 ne sont pas expliqu´ees par lesX1 (dans le sens de la projection lin´eaire) alors on aurait

(X10X1)−1X10X2 = 0 et il n’y aurait pas de biais non plus.

7. La r´eponse courte — pas grand’chose. Le signe d´epend des signes de tous les ´el´ements deβ2 et aussi des signes de la matrice

(X10

X1)−1X10

X2

qui est de dimensionsk1×k2 o`uk1 est le nombre de variables

explicatives dansX1 etk2est le nombre de variables explicatives dans X2.

document cr´e´e le : 03/05/2017

Références

Documents relatifs

Un trinôme est du signe de a à l’extérieur des racines, et la plus grande des deux est certainement

Ce qui compte, c’est qu’il soit possible de rendre u n aussi proche de 2 que l’on veut, pourvu que n soit

[r]

[r]

[r]

LYCÉE ERNEST BICHAT 1ES 20092010 Devoir surveillé n ◦ 9

rieure pour modèles généraux et la borne supérieure pour le modèle ferromagnétique d’Ising seulement.. Dans les deux cas ci-dessus, la

Un boulet repose sur trois autres dans la pile triangu- laire et sur quatre dans la pile quadrangulaire, ce qui pourrait faire croire que le rapport cherché ne sera pas le même dans