ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression simple
Steve Ambler
D´epartement des sciences ´economiques Ecole des sciences de la gestion´ Universit´e du Qu´ebec `a Montr´eal
2018: Steve Amblerc
Hiver 2018
Objectifs
1. Pr´esenter le mod`ele de r´egression simple.
2. D´eriver l’estimateur MCO.
3. Etudier ses propri´´ et´es alg´ebriques.
4. Regarder les hypoth`eses statistiques du mod`ele et analyser leurs cons´equences (absence de biais, convergence, efficience).
5. Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques.
6. Analyser les tests d’hypoth`ese et le calcul d’intervalles de confiance dans le cadre du mod`ele.
Le mod` ele
I Le mod`ele s’´ecrit :
Yi =β0+β1Xi+ui.
I Yi peut ˆetre pr´edite par une autre variable ´economique Xi.
I La relation est lin´eaire. Sansui c’est l’´equation d’une droite.
Estimateur MCO
I Minimiser les erreurs de pr´evision – (Yi −β0−β1Xi).
I Choisirβ0 etβ1 pour minimiser la somme des erreurs au carr´e.
I Alg´ebriquement :
βmin0,β1
n
X
i=1
(Yi −β0−β1Xi)2.
Estimateur MCD (suite)
I CPOs :
β0 :−2
n
X
i=1
Yi−βˆ0−βˆ1Xi
= 0;
β1 :−2
n
X
i=1
Yi−βˆ0−βˆ1Xi
Xi = 0,
I Les chapeaux sur β0 etβ1 soulignent l’id´ee que lorsqu’on trouve la solution `a ces deux ´equations, il s’agit d’estimateurs MCO.
Extimateur MCO (suite)
I 1`ere CPO donne
n
X
i=1
Yi −βˆ0−βˆ1Xi
= 0
⇒
n
X
i=1
βˆ0=n βˆ0 =
n
X
i=1
Yi −βˆ1Xi
⇒βˆ0= 1 n
n
X
i=1
Yi−βˆ1
1 n
n
X
i=1
Xi
⇒βˆ0 = ¯Y −βˆ1X¯.
I Solution pour ˆβ0 en fonction de ˆβ1.
I Substituant cette solution dans la deuxi`eme CPO :
n
X
i=1
Yi −Y¯ + ˆβ1X¯−βˆ1Xi
Xi = 0.
⇒ 1 n
n
X
i=1
YiXi−1 n
n
X
i=1
Y X¯ i−1 n
n
X
i=1
βˆ1(Xi)2+1 n
n
X
i=1
βˆ1X X¯ i = 0
⇒ 1 n
n
X
i=1
YiXi−Y¯1 n
n
X
i=1
Xi−βˆ1 1 n
n
X
i=1
(Xi)2−X¯1 n
n
X
i=1
Xi
!
= 0
⇒ 1 n
n
X
i=1
YiXi −Y¯X¯−βˆ1 1 n
n
X
i=1
(Xi)2−X¯X¯
!
= 0
⇒βˆ1 =
1 n
Pn
i=1YiXi−X¯Y¯
1 n
Pn
i=1(Xi)2− X¯2 =
1 n
Pn
i=1 Yi −Y¯
Xi −X¯
1 n
Pn
i=1 Xi −X¯2 .
Estimateur MCO (suite)
I 2e fa¸con ´equivalente : βˆ1 =
Pn
i=1 Yi−Y¯
Xi −X¯ Pn
i=1 Xi−X¯2 .
I 3e fa¸con ´equivalente : βˆ1=
1 (n−1)
Pn
i=1 Yi −Y¯
Xi−X¯
1 (n−1)
Pn
i=1 Xi −X¯2 .
I Comme aide-m´emoire, la derni`ere expression est peut-ˆetre la plus utile.β1 est le ratio entre la covariance ´echantillonnale entre X etY et la variance ´echantillonnale de X.
Propri´ et´ es alg´ ebriques de l’estimateur MCO
I L’estimateur MCO poss`ede des propri´et´esalg´ebriquesde base.
I Ces propri´et´esne d´ependent pasd’hypoth`eses concernant les propri´et´esstatistiquesdeY,X ouu.
I Nous allons utiliser ces propri´et´es `a maintes reprises pour trouver d’autres propri´et´es de l’estimateur MCO.
I Plusieurs de ces propri´et´es d´ependent du fait que le mod`ele de r´egression inclut une constante. (Sinon voir Windmeijer, 1994.)
La somme des r´ esidus est z´ ero
I D´efinissons
ˆ
ui ≡Yi−βˆ0−βˆ1Xi
=Yi −Y¯+ ˆβ1X¯−βˆ1Xi.
I Nous avons 1 n
n
X
i=1
ˆ ui = 1
n
n
X
i=1
Yi−Y¯+ ˆβ1X¯ −βˆ1Xi
= 1 n
n
X
i=1
Yi −Y¯
−βˆ11 n
n
X
i=1
Xi−X¯
= 0.
La moyenne de la valeur pr´ edite de Y est ´ egale ` a ¯ Y
I D´efinissons ˆYi = ˆβ0+ ˆβ1Xi =Yi−uˆi , la valeur pr´edite deYi.
I Nous avons
Yˆi =Yi−uˆi
⇒ 1 n
n
X
i=1
Yˆi = 1 n
n
X
i=1
Yi− 1 n
n
X
i=1
ˆ ui
= 1 n
n
X
i=1
Yi ≡Y¯.
Orthogonalit´ e entre les X
iet les r´ esidus
n
X
i=1
Xiuˆi =
n
X
i=1
Xiuˆi−X¯
n
X
i=1
ˆ ui =
n
X
i=1
Xi −X¯ ˆ ui
=
n
X
i=1
Xi−X¯
Yi−Y¯ + ˆβ1X¯−βˆ1Xi
=
n
X
i=1
Xi −X¯
Yi−Y¯
−βˆ1 Xi−X¯
=
n
X
i=1
Xi −X¯
Yi −Y¯
−βˆ1 n
X
i=1
Xi −X¯2
=
n
X
i=1
Xi−X¯
Yi −Y¯
− Pn
i=1 Xi−X¯
Yi −Y¯ Pn
i=1 Xi−X¯2
n
X
i=1
Xi−X¯2
=
n
X
i=1
Xi −X¯
Yi −Y¯
−
n
X
i=1
Xi−X¯
Yi−Y¯
= 0.
Interpr´ etation g´ eom´ etrique (projection)
Ajustement statistique : R
2I D´efinissons : TSS≡Pn
i=1 Yi −Y¯2
, la somme totale des carr´es.
I D´efinissons SSR≡Pn i=1
Yi−Yˆi
2
, la somme des r´esidus au carr´e.
I D´efinissons ESS≡Pn i=1
Yˆi −Y¯ 2
, la somme expliqu´ee des carr´es.
I Nous pouvons montrer que TSS = ESS + SSR.
I La preuve (un peu longue) est sur la page suivante.
Ajustement statistique (suite)
TSS≡
n
X
i=1
Yi −Y¯2
=
n
X
i=1
Yi −Yˆi +
Yˆi −Y¯2
=
n
X
i=1
Yi −Yˆi
2
+
n
X
i=1
Yˆi−Y¯ 2
+ 2
n
X
i=1
Yi −Yˆi Yˆi −Y¯
= SSR+ESS+2
n
X
i=1
ˆ ui
Yˆi −Y¯
= SSR+ESS+2
n
X
i=1
ˆ
uiYˆi−2 ¯Y
n
X
i=1
ˆ ui
= SSR + ESS + 2
n
X
i=1
ˆ
uiYˆi = SSR + ESS + 2
n
X
i=1
ˆ ui
βˆ0+ ˆβ1Xi
= SSR + ESS + 2 ˆβ0 n
X
i=1
ˆ ui + 2 ˆβ1
n
X
i=1
ˆ uiXi
= SSR + ESS.
Ajustement statistique (suite)
I Maintenant, d´efinissons
R2 ≡ ESS TSS.
I Puisque TSS, ESS et SSR sont la somme de termes au carr´e, il faut que :
0≤R2≤1.
I Il faut aussi que
R2 = 1−SSR TSS.
Ajustement statistique et corr´ elation entre X et Y
I On peut montrer l’´equivalence entre le R2 et le carr´e du coefficient de corr´elation entre X etY
I Un premier pont entre les propri´et´esalg´ebriques du mod`ele et les propri´et´esstatistiques
Ajustement statistique et corr´ elation entre X et Y (suite)
R2 ≡ Pn
i=1
Yˆi−Y¯2
Pn
i=1 Yi−Y¯2
Corr (X , Y)2
=
Pn
i=1 Xi −X¯
Yi−Y¯ q
Pn
i=1 Xi−X¯2q Pn
i=1 Yi −Y¯2
2
=
Pn
i=1 Xi−X¯
Yi −Y¯2
Pn
i=1 Xi −X¯2Pn
i=1 Yi −Y¯2
Ajustement statistique et corr´ elation entre X et Y (suite)
Pn i=1
Yˆi−Y¯2
Pn
i=1 Yi−Y¯2 =
Pn
i=1 Xi −X¯
Yi −Y¯2
Pn
i=1 Xi −X¯2Pn
i=1 Yi −Y¯2
⇔
n
X
i=1
Yˆi −Y¯2 n
X
i=1
Xi −X¯2
=
n
X
i=1
Xi−X¯
Yi −Y¯
!2
.
Ajustement statistique et corr´ elation entre X et Y (suite)
Travaillant avec le bras gauche de cette ´equation, nous avons
n
X
i=1
Yˆi−Y¯2 n
X
i=1
Xi−X¯2
=
n
X
i=1
βˆ0+ ˆβ1Xi−Y¯2 n
X
i=1
Xi −X¯2
=
n
X
i=1
Y¯−βˆ1X¯ + ˆβ1Xi −Y¯2 n
X
i=1
Xi −X¯2
=
n
X
i=1
βˆ1Xi −βˆ1X¯2 n
X
i=1
Xi −X¯2
= ˆβ12
n
X
i=1
Xi −X¯2 n
X
i=1
Xi −X¯2
= Pn
i=1 Xi −X¯
Yi−Y¯ Pn
i=1 Xi −X¯2
!2 n
X
i=1
Xi −X¯2
!2
=
n
X
i=1
Xi−X¯
Yi −Y¯
!2
,
Ecart type de la r´ ´ egression
I Un estimateur de l’´ecart type du terme d’erreur du mod`ele.
I D´efinissons :
su2ˆ ≡ 1 (n−2)
n
X
i=1
( ˆui)2= SSR (n−2).
I Estimateur non biais´e de la variance du terme d’erreur,si celle-ci est constante (on ne fera pas cette hypoth`ese g´en´eralement).
I On perd 2 degr´es de libert´e car il faut estimer 2 param`etres (β0 et β1) afin de calculer les r´esidus.
I Maintenant, d´efinissons : suˆ≡
q su2ˆ.
I suˆ est l’´ecart type de la r´egression.
Propri´ et´ es statistiques de l’estimateur MCO : hypoth` eses
1. Le terme d’erreur a une esp´erance conditionnelle de z´ero : E (ui|X =Xi) = 0.
2. Les observations sont i.i.d. :
(Xi , Yi), i = 1,2, . . . ,n i.i.d.
3. Les observations aberrantes sont peu probables : 0<E X4
<∞; 0<E Y4
<∞.
Sert `a rappeler que l’estimateur MCO peut ˆetre sensible aux observations aberrantes ⇒ examiner les r´esidus pour d´etecter la pr´esence de d’observations aberrantes.
Absence de biais de l’estimateur
βˆ1 ≡ Pn
i=1 Xi−X¯
Yi −Y¯ Pn
i=1 Xi−X¯2
= Pn
i=1 Xi −X¯
β0+β1Xi+ui −β0−β1X¯ −u¯ Pn
i=1 Xi −X¯2
= β1Pn
i=1 Xi −X¯2
+Pn
i=1 Xi −X¯
(ui−u)¯ Pn
i=1 Xi −X¯2
=β1+ Pn
i=1 Xi −X¯
(ui −u)¯ Pn
i=1 Xi −X¯2
=β1+ Pn
i=1 Xi−X¯ ui Pn
i=1 Xi −X¯2 .
Absence de biais de l’estimateur (suite)
Calculant l’esp´erance de cette expression donne E
βˆ1
=β1+ E Pn
i=1 Xi−X¯ ui Pn
i=1 Xi −X¯2
!
=β1+ E Pn
i=1 Xi−X¯
E (ui|X1,X2, . . .Xn) Pn
i=1 Xi−X¯2
!
=β1+ E Pn
i=1 Xi−X¯
E (ui|Xi) Pn
i=1 Xi −X¯2
!
=β1.
En cours de route, nous avons utilis´e la loi des esp´erances it´er´ees E (E (ui|Xi)) = E (ui).
Convergence de l’estimateur
I Nous remettons ce sujet `a un peu plus tard. En calculant les propri´etes ´echantillonnales de l’estimateur, nous allons montrer que sa variance d´ecroˆıt avec la taille de l’´echantillonn.
I Si c’est le cas, nous avons `a toutes fins pratiques montr´e sa convergence. Nous avons montr´e l’absence de biais, et la variance converge `a z´ero lorsquen tend vers l’infini.
Efficience de l’estimateur
I Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin de l’hypoth`ese additionnelle d’homosc´edasticit´e, une variance constante de l’erreur.
I Si cette hypoth`ese ne tient pas, et si nous connaissons de quoi d´epend la variance du terme d’erreur, il peut ˆetre possible de trouver un estimateur plus efficient que l’estimateur MCO.
Estimateur moindres carr´es g´en´eralis´es (generalised least squares ou GLS en anglais). Voir le chapitre 15 du manuel.
I Une preuve d´etaill´ee du th´eor`eme Gauss-Markov se trouve dans l’Annexe 5.2 du manuel. Nous n’aurons pas le temps de voir cette preuve en d´etail dans le cours.
Propri´ et´ es ´ echantillonnales de l’estimateur
βˆ1=β1+ Pn
i=1 Xi −X¯ ui Pn
i=1 Xi−X¯2
=β1+
1 n
Pn
i=1 Xi −X¯ ui
1 n
Pn
i=1 Xi−X¯2 .
D’abord, travaillons avec le num´erateur. Nous avons d´ej`a vu que la moyenne ´echantillonnale converge en probabilit´e `a la moyenne de la population.
X¯ −→p µX,
Donc, pour des ´echantillons assez grands, nous avons 1
n
n
X
i=1
Xi −X¯ ui ≈ 1
n
n
X
i=1
(Xi −µX)ui ≡v¯≡ 1 n
n
X
i=1
vi.
Propri´ et´ es ´ echantillonnales de l’estimateur (suite)
La variable al´eatoirevi que nous venons de d´efinir satisfait les propri´et´es suivantes.
1. E (vi) = 0 ; 2. vi est i.i.d. ; 3. σ2v <∞ .
La variable satisfait les hypoth`eses pour pouvoir invoquer le th´eor`eme de la limite centrale. Donc, nous avons
¯ v σv¯
−→d N(0, 1), o`u σv2¯=σv2/n.
Propri´ et´ es ´ echantillonnales de l’estimateur (suite)
I Maintenant, le d´enominateur.
I Nous avons vu `a la fin du chapitre sur la statistique que la variance ´echantillonnale est un estimateur convergent de la variance d’une variable al´eatoire. Donc nous avons
1 n−1
n
X
i=1
Xi−X¯2
≈ 1 n
n
X
i=1
Xi −X¯2 p
−→σX2.
Propri´ et´ es ´ echantillonnales de l’estimateur (suite)
I Nous avons
βˆ1−β1
≈ v¯
1 n
Pn
i=1 Xi −X¯2.
I En grand ´echantillon, le d´enominateur agit comme une constante. Donc, nous avons
Var
βˆ1−β1
= Var v¯
1 n
Pn
i=1 Xi −X¯2
!
= Var v¯ σ2X
!
= Var (¯v) 1
σ2X2 = σv2 n σ2X2
Propri´ et´ es ´ echantillonnales de l’estimateur (suite)
I Le r´esultat de tout cela est βˆ1−β1 d
−→N 0, σv2 n σX22
! .
I Puisque la variance de l’estimateur diminue avec n l’estimateur est aussi convergent.
I Nous avons aussi
√n
βˆ1−β1
d
−→N 0, σ2v σ2X2
! .
Propri´ et´ es ´ echantillonnales de l’estimateur (suite)
I Nous avons montr´e la convergence en distribution du num´erateur, la convergence en probabilit´e du d´enominateur, et nous avons saut´e `a la convergence en distribution du ratio.
I Possible pour les propri´et´es asymptotiques.Pas possible lorsqu’on manipule les esp´erances.
E X
Y
6= E(X) E(Y)
I Par contre, sous certaines hypoth`eses, nous avons X¯ −→p µX, Y¯ −→p µY ⇒ X¯
Y¯
−→p µX µY, X¯ −→d N µX , σ2X¯
, Y¯ −→p µY ⇒ X¯ Y¯
−→d N µX µY ,
1 µY
2
σ2X¯
! .
I Th´eor`eme de Slutsky : permet de scinder des expressions compliqu´ees de variables al´eatoires en morceaux.
Estimateur convergent de σ
2ˆβ1
I Var (¯v) n’est pas connue, Var (X) non plus.
I Rempla¸cons les moments inconnus par des estimateurs convergents.
ˆ σ2βˆ
1 ≡ 1 n
1 n−2
Pn
i=1 Xi −X¯2
( ˆui)2 1
n
Pn
i=1 Xi −X¯22 I Ensuite, d´efinissons l’´ecart type estim´e de ˆβ1 comme
SE βˆ1
≡q ˆ σ2ˆ
β1.
I Les logiciels calculent cet ´ecart type, mais il faut sp´ecifier le calcul d’´ecarts typesrobustes (`a la pr´esence de
l’h´et´erosc´edasticit´e).
Estimateur convergent de σ
2ˆβ1
, cas homosc´ edastique
I Si
Var (ui|X =Xi) = Var (ui) =σ2u, nous pouvons remplacer l’estimateur convergent deσ2ˆ
β1 par
˜ σ2βˆ
1 ≡ 1 n
1 n−1
Pn i=1( ˆui)2
1 n
Pn
i=1 Xi−X¯2.
I J’ai utilis´e la notation l´eg`erement diff´erente ˜σ2ˆ
β1 pour
distinguer par rapport au cas g´en´eral o`u on utilise l’estimateur robuste.
D´ etecter l’h´ et´ erosc´ edasticit´ e
I Important de pouvoir d´etecter l’h´et´erosc´edasticit´e.
I Voici des m´ethodes informelles.
I Cr´eer un graphique avec Xi sur l’axe horizontal et ˆui2 sur l’axe vertical.
I Estimer une r´egression avec ˆui2 comme variable d´ependante et Xi comme variable explicative, ou une fonction non lin´eaire de Xi.
Tests d’hypoth` ese
I Principe de base : presqu’identique `a ce que nous avons vu dans le chapitre sur l’inf´erence statistique.
I H0 : sp´ecifie g´en´eralement que le coefficient d’int´erˆet (qui peut ˆetre β0 ouβ1 prend une certaine valeur. H1 : soit bilat´erale soit unilat´erale.
I Il faut cr´eer une statistique normalis´ee qui a une moyenne nulle et une variance unitaire sous H0. On parle destatistique tmˆeme si en g´en´eral elle ne suit pas une loit de Student.
t ≡
βˆ1−β1,0
SE βˆ1
.
I Elle ob´eit en grand ´echantillon `a une loi normale centr´ee r´eduite.
H
1bilat´ erale
I Si H1 est bilat´erale :H1:β16=β1,0, nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment loin de z´ero.
I Lap-value du test est donn´ee par : p-value = Pr |z|>|tact|
= 2Φ −|tact| .
I Test de significativit´e: un test de l’hypoth`ese nulle que la variable explicative n’est pas significative, donc H0:β1= 0.
H1 est bilat´erale : H1 :β1 6= 0.
H
1unilat´ erale
I Cas 1 – H1 :β1 > β1,0
I Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment positive.
I Lap-value du test est donn´ee par : p-value = Pr z >tact
= 1−Φ tact .
H
1unilat´ erale
I Cas 2 – H1 :β1 < β1,0
I Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment n´egative.
I Lap-value du test est donn´ee par : p-value = Pr z <tact
= Φ tact .
Intervalles de confiance pour les coefficients
I Principe identique que pour l’estimateur de la moyenne de la population.
I Bornes de l’intervalle de confiance de X% : on cherche la valeur de z >0 tel que
Φ(−z) = 1−X/100
2 .
I Donc, on cherche la valeur de z >0 pour laquelle (100−X2 )% de la distribution normale centr´ee r´eduite se trouve `a gauche de−z. Cela veut dire bien sˆur que 100−100−X2
% de la distribution normale centr´ee r´eduite se trouve `a droite dez.
Intervalles de confiance (suite)
I Nous avons (pour ˆβ1) X
100 = Pr −z ≤ βˆ1−β1
ˆ σβˆ
1
≤z
!
= Pr
−zσˆβˆ
1≤
βˆ1−β1
≤zσˆβˆ
1
= Pr
−zσˆβˆ
1≤
β1−βˆ1
≤zσˆβˆ
1
= Pr
βˆ1−zσˆβˆ
1≤β1 ≤βˆ1+zσˆβˆ
1
, o`u ˆσβˆ
1 ≡SE βˆ1
.
I L’intervalle de confiance de X% autour de ˆβ1 est βˆ1±zσˆβˆ1, o`u Φ(−z) = 1−X/100
2 .
Intervalles de confiance pour les pr´ edictions
I Soit la pr´ediction
∆ ˆYi = ˆβ1∆Xi.
∆ ˆYi est le changement pr´edit de la variable d´ependante.
I Nous avons Var
∆ ˆYi
= Var
βˆ1∆Xi
= (∆Xi)2Var βˆ1
I Nous proc´edons `a la mˆeme mani`ere que pour l’intervalle de confiance pour ˆβ1.
Intervalles de confiance pour les pr´ edictions (suite)
X 100 = Pr
−z ≤
∆Xi
βˆ1−β1 (∆Xi)σβˆ1
≤z
= Pr
−z(∆Xi)σβˆ
1 ≤∆Xi
βˆ1−β1
≤z(∆Xi)σβˆ
1
= Pr
−z(∆Xi)σβˆ
1 ≤∆Xi
β1−βˆ1
≤z(∆Xi)σβˆ
1
= Pr
−z(∆Xi)σβˆ
1+ ∆Xiβˆ1 ≤∆Xiβ1≤z(∆Xi)σβˆ
1+ ∆Xiβˆ1 . Donc, l’intervalle de confiance pour le changement pr´edit est donn´e par
∆Xiβˆ1±z(∆Xi)σβˆ
1
On remplaceσβˆ1 par un estimateur convergent pour ´ecrire
∆Xiβˆ1±z(∆Xi) ˆσβˆ
1
Concepts ` a retenir
1. Comment ´ecrire le mod`ele de r´egression simple.
2. Le probl`eme de minimisation auquel l’estimateur MCO est une solution.
3. Les propri´et´es alg´ebriques de l’estimateur MCO.
4. Le concept duR2, et les concepts de SSR, ESS et SSR.
5. Les hypoth`eses statistiques de base du mod`ele.
6. Les hypoth`ese additionnelles pour montrer l’efficience.
7. Comment tester des hypoth`eses concernant les coefficients estim´es du mod`ele.
8. Comment calculer un intervalle de confiance pour les coefficients du mod`ele.
9. Comment calculer un intervalle de confiance pour un changement pr´edit.