Le mod` ele

(1)

ECO 4272 : Introduction ` a l’´ Econom´ etrie Le mod` ele de r´ egression simple

Steve Ambler

Département des sciences économiques Ecole des sciences de la gestion´ Université du Québec à Montréal

2018: Steve Amblerc

Hiver 2018

(2)

Objectifs

1. Présenter le modèle de régression simple.

2. D´eriver l’estimateur MCO.

3. Etudier ses propri´´ et´es alg´ebriques.

4. Regarder les hypothèses statistiques du modèle et analyser leurs conséquences (absence de biais, convergence, efficience).

5. Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs homoscédastiques.

6. Analyser les tests d’hypoth`ese et le calcul d’intervalles de confiance dans le cadre du mod`ele.

(3)

Le mod` ele

I Le mod`ele s’´ecrit :

Y_i =β₀+β₁X_i+u_i.

I Yi peut être prédite par une autre variable économique Xi.

I La relation est lin´eaire. Sansui c’est l’´equation d’une droite.

(4)

Estimateur MCO

I Minimiser les erreurs de pr´evision – (Y_i −β0−β1X_i).

I Choisirβ0 etβ1 pour minimiser la somme des erreurs au carr´e.

I Alg´ebriquement :

βmin0,β1

n

X

i=1

(Y_i −β₀−β₁X_i)².

(5)

Estimateur MCD (suite)

I CPOs :

β₀ :−2

n

X

i=1

Y_i−βˆ₀−βˆ₁X_i

= 0;

β₁ :−2

n

X

i=1

Y_i−βˆ₀−βˆ₁X_i

X_i = 0,

I Les chapeaux sur β0 etβ1 soulignent l’idée que lorsqu’on trouve la solution à ces deux équations, il s’agit d’estimateurs MCO.

(6)

Extimateur MCO (suite)

I 1`ere CPO donne

n

X

i=1

Yi −βˆ0−βˆ1Xi

= 0

⇒

n

X

i=1

βˆ₀=n βˆ₀ =

n

X

i=1

Y_i −βˆ₁X_i

⇒βˆ0= 1 n

n

X

i=1

Yi−βˆ1

1 n

n

X

i=1

Xi

⇒βˆ0 = ¯Y −βˆ1X¯.

I Solution pour ˆβ0 en fonction de ˆβ1.

(7)

I Substituant cette solution dans la deuxi`eme CPO :

n

X

i=1

Y_i −Y¯ + ˆβ₁X¯−βˆ₁X_i

X_i = 0.

⇒ 1 n

n

X

i=1

Y_iX_i−1 n

n

X

i=1

Y X¯ _i−1 n

n

X

i=1

βˆ₁(X_i)²+1 n

n

X

i=1

βˆ₁X X¯ _i = 0

⇒ 1 n

n

X

i=1

Y_iX_i−Y¯1 n

n

X

i=1

X_i−βˆ₁ 1 n

n

X

i=1

(X_i)²−X¯1 n

n

X

i=1

X_i

!

= 0

⇒ 1 n

n

X

i=1

Y_iX_i −Y¯X¯−βˆ₁ 1 n

n

X

i=1

(X_i)²−X¯X¯

!

= 0

⇒βˆ1 =

1 n

Pn

i=1YiXi−X¯Y¯

1 n

Pn

i=1(X_i)²− X¯2 =

1 n

Pn

i=1 Yi −Y¯

Xi −X¯

1 n

Pn

i=1 X_i −X¯2 .

(8)

Estimateur MCO (suite)

I 2e fa¸con ´equivalente : βˆ1 =

Pn

i=1 Y_i−Y¯

X_i −X¯ Pn

i=1 X_i−X¯2 .

I 3e fa¸con ´equivalente : βˆ₁=

1 (n−1)

Pn

i=1 Yi −Y¯

Xi−X¯

1 (n−1)

Pn

i=1 X_i −X¯2 .

I Comme aide-mémoire, la dernière expression est peut-être la plus utile.β₁ est le ratio entre la covariance échantillonnale entre X etY et la variance échantillonnale de X.

(9)

Propri´ et´ es alg´ ebriques de l’estimateur MCO

I L’estimateur MCO possède des propriétésalgébriquesde base.

I Ces propriétésne dépendent pasd’hypothèses concernant les propriétésstatistiquesdeY,X ouu.

I Nous allons utiliser ces propriétés à maintes reprises pour trouver d’autres propriétés de l’estimateur MCO.

I Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une constante. (Sinon voir Windmeijer, 1994.)

(10)

La somme des r´ esidus est z´ ero

I D´efinissons

ˆ

ui ≡Yi−βˆ0−βˆ1Xi

=Y_i −Y¯+ ˆβ1X¯−βˆ1X_i.

I Nous avons 1 n

n

X

i=1

ˆ u_i = 1

n

X

i=1

Y_i−Y¯+ ˆβ₁X¯ −βˆ₁X_i

= 1 n

n

X

i=1

Y_i −Y¯

−βˆ₁1 n

n

X

i=1

X_i−X¯

= 0.

(11)

La moyenne de la valeur pr´ edite de Y est ´ egale ` a ¯ Y

I Définissons ˆYi = ˆβ0+ ˆβ1Xi =Yi−uî , la valeur prédite deYi.

I Nous avons

Yˆ_i =Y_i−uˆ_i

⇒ 1 n

n

X

i=1

Yˆi = 1 n

n

X

i=1

Yi− 1 n

n

X

i=1

ˆ ui

= 1 n

n

X

i=1

Yi ≡Y¯.

(12)

Orthogonalit´ e entre les X

i

et les r´ esidus

n

X

i=1

X_iuˆ_i =

n

X

i=1

X_iuˆ_i−X¯

n

X

i=1

ˆ u_i =

n

X

i=1

X_i −X¯ ˆ u_i

=

n

X

i=1

X_i−X¯

Y_i−Y¯ + ˆβ₁X¯−βˆ₁X_i

=

n

X

i=1

X_i −X¯

Y_i−Y¯

−βˆ1 X_i−X¯

=

n

X

i=1

X_i −X¯

Y_i −Y¯

−βˆ1 n

X

i=1

X_i −X¯2

=

n

X

i=1

Xi−X¯

Yi −Y¯

− Pn

i=1 Xi−X¯

Yi −Y¯ Pn

i=1 X_i−X¯2

n

X

i=1

Xi−X¯2

=

n

X

i=1

Xi −X¯

Yi −Y¯

−

n

X

i=1

Xi−X¯

Yi−Y¯

= 0.

(13)

Interpr´ etation g´ eom´ etrique (projection)

(14)

Ajustement statistique : R

²

I D´efinissons : TSS≡Pn

i=1 Y_i −Y¯2

, la somme totale des carr´es.

I D´efinissons SSR≡Pn i=1

Yi−Yˆi

2

, la somme des r´esidus au carr´e.

I D´efinissons ESS≡Pn i=1

Yˆ_i −Y¯ 2

, la somme expliqu´ee des carr´es.

I Nous pouvons montrer que TSS = ESS + SSR.

I La preuve (un peu longue) est sur la page suivante.

(15)

Ajustement statistique (suite)

TSS≡

n

X

i=1

Y_i −Y¯2

=

n

X

i=1

Y_i −Yˆ_i +

Yˆ_i −Y¯2

=

n

X

i=1

Y_i −Yˆ_i

2

+

n

X

i=1

Yˆ_i−Y¯ 2

+ 2

n

X

i=1

Y_i −Yˆ_i Yˆ_i −Y¯

= SSR+ESS+2

n

X

i=1

ˆ ui

Yˆi −Y¯

= SSR+ESS+2

n

X

i=1

ˆ

uiYˆi−2 ¯Y

n

X

i=1

ˆ ui

= SSR + ESS + 2

n

X

i=1

ˆ

u_iYˆ_i = SSR + ESS + 2

n

X

i=1

ˆ u_i

βˆ₀+ ˆβ₁X_i

= SSR + ESS + 2 ˆβ0 n

X

i=1

ˆ u_i + 2 ˆβ1

n

X

i=1

ˆ u_iX_i

= SSR + ESS.

(16)

Ajustement statistique (suite)

I Maintenant, d´efinissons

R² ≡ ESS TSS.

I Puisque TSS, ESS et SSR sont la somme de termes au carr´e, il faut que :

0≤R²≤1.

I Il faut aussi que

R² = 1−SSR TSS.

(17)

Ajustement statistique et corr´ elation entre X et Y

I On peut montrer l’équivalence entre le R² et le carré du coefficient de corrélation entre X etY

I Un premier pont entre les propriétésalgébriques du modèle et les propriétésstatistiques

(18)

Ajustement statistique et corr´ elation entre X et Y (suite)

R² ≡ Pn

i=1

Yˆ_i−Y¯2

Pn

i=1 Yi−Y¯2

Corr (X , Y)2

=





Pn

i=1 Xi −X¯

Yi−Y¯ q

Pn

i=1 X_i−X¯2q Pn

i=1 Y_i −Y¯2





2

=

Pn

i=1 Xi−X¯

Yi −Y¯2

P_n

i=1 X_i −X¯2P_n

i=1 Y_i −Y¯2

(19)

Ajustement statistique et corr´ elation entre X et Y (suite)

Pn i=1

Yˆ_i−Y¯2

Pn

i=1 Yi−Y¯2 =

Pn

i=1 X_i −X¯

Y_i −Y¯2

Pn

i=1 Xi −X¯2Pn

i=1 Yi −Y¯2

⇔

n

X

i=1

Yˆ_i −Y¯2 n

X

i=1

X_i −X¯2

=

n

X

i=1

X_i−X¯

Y_i −Y¯

!2

.

(20)

Ajustement statistique et corr´ elation entre X et Y (suite)

Travaillant avec le bras gauche de cette ´equation, nous avons

n

X

i=1

Yˆ_i−Y¯2 n

X

i=1

X_i−X¯2

=

n

X

i=1

βˆ₀+ ˆβ₁X_i−Y¯2 n

X

i=1

X_i −X¯2

=

n

X

i=1

Y¯−βˆ₁X¯ + ˆβ₁X_i −Y¯2 n

X

i=1

X_i −X¯2

=

n

X

i=1

βˆ₁X_i −βˆ₁X¯2 n

X

i=1

X_i −X¯2

= ˆβ₁²

n

X

i=1

X_i −X¯2 n

X

i=1

X_i −X¯2

= Pn

i=1 Xi −X¯

Yi−Y¯ Pn

i=1 X_i −X¯2

!2 n

X

i=1

X_i −X¯2

!2

=

n

X

i=1

X_i−X¯

Y_i −Y¯

!2

,

(21)

Ecart type de la r´ ´ egression

I Un estimateur de l’´ecart type du terme d’erreur du mod`ele.

I D´efinissons :

s_u²_ˆ ≡ 1 (n−2)

n

X

i=1

( ˆui)²= SSR (n−2).

I Estimateur non biaisé de la variance du terme d’erreur,si celle-ci est constante (on ne fera pas cette hypothèse généralement).

I On perd 2 degrés de liberté car il faut estimer 2 paramètres (β₀ et β₁) afin de calculer les résidus.

I Maintenant, d´efinissons : s_u_ˆ≡

q s_u²_ˆ.

I s_u_ˆ est l’´ecart type de la r´egression.

(22)

Propri´ et´ es statistiques de l’estimateur MCO : hypoth` eses

1. Le terme d’erreur a une esp´erance conditionnelle de z´ero : E (u_i|X =X_i) = 0.

2. Les observations sont i.i.d. :

(Xi , Yi), i = 1,2, . . . ,n i.i.d.

3. Les observations aberrantes sont peu probables : 0<E X⁴

<∞; 0<E Y⁴

<∞.

Sert à rappeler que l’estimateur MCO peut être sensible aux observations aberrantes ⇒ examiner les résidus pour détecter la présence de d’observations aberrantes.

(23)

Absence de biais de l’estimateur

βˆ₁ ≡ Pn

i=1 X_i−X¯

Y_i −Y¯ Pn

i=1 Xi−X¯2

= Pn

i=1 X_i −X¯

β₀+β₁X_i+u_i −β₀−β₁X¯ −u¯ Pn

i=1 Xi −X¯2

= β₁Pn

i=1 X_i −X¯2

+Pn

i=1 X_i −X¯

(u_i−u)¯ Pn

i=1 Xi −X¯2

=β₁+ Pn

i=1 X_i −X¯

(u_i −u)¯ Pn

i=1 Xi −X¯2

=β₁+ Pn

i=1 X_i−X¯ u_i Pn

i=1 Xi −X¯2 .

(24)

Absence de biais de l’estimateur (suite)

Calculant l’esp´erance de cette expression donne E

βˆ₁

=β₁+ E Pn

i=1 X_i−X¯ u_i Pn

i=1 Xi −X¯2

!

=β₁+ E Pn

i=1 X_i−X¯

E (u_i|X₁,X₂, . . .X_n) Pn

i=1 Xi−X¯2

!

=β1+ E Pn

i=1 Xi−X¯

E (ui|X_i) Pn

i=1 X_i −X¯2

!

=β1.

En cours de route, nous avons utilisé la loi des espérances itérées E (E (ui|X_i)) = E (ui).

(25)

Convergence de l’estimateur

I Nous remettons ce sujet à un peu plus tard. En calculant les propriétes échantillonnales de l’estimateur, nous allons montrer que sa variance décroˆıt avec la taille de l’échantillonn.

I Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons montré l’absence de biais, et la variance converge à zéro lorsquen tend vers l’infini.

(26)

Efficience de l’estimateur

I Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin de l’hypothèse additionnelle d’homoscédasticité, une variance constante de l’erreur.

I Si cette hypothèse ne tient pas, et si nous connaissons de quoi dépend la variance du terme d’erreur, il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO.

Estimateur moindres carrés généralisés (generalised least squares ou GLS en anglais). Voir le chapitre 15 du manuel.

I Une preuve détaillée du théorème Gauss-Markov se trouve dans l’Annexe 5.2 du manuel. Nous n’aurons pas le temps de voir cette preuve en détail dans le cours.

(27)

Propri´ et´ es ´ echantillonnales de l’estimateur

βˆ₁=β₁+ Pn

i=1 X_i −X¯ u_i Pn

i=1 Xi−X¯2

=β₁+

1 n

Pn

i=1 X_i −X¯ u_i

1 n

Pn

i=1 Xi−X¯2 .

D’abord, travaillons avec le numérateur. Nous avons déjà vu que la moyenne échantillonnale converge en probabilité à la moyenne de la population.

X¯ −→^p µ_X,

Donc, pour des ´echantillons assez grands, nous avons 1

n

X

i=1

Xi −X¯ ui ≈ 1

n

X

i=1

(Xi −µX)ui ≡v¯≡ 1 n

n

X

i=1

vi.

(28)

Propri´ et´ es ´ echantillonnales de l’estimateur (suite)

La variable aléatoirev_i que nous venons de définir satisfait les propriétés suivantes.

1. E (v_i) = 0 ; 2. v_i est i.i.d. ; 3. σ²_v <∞ .

La variable satisfait les hypothèses pour pouvoir invoquer le théorème de la limite centrale. Donc, nous avons

¯ v σ_v_¯

−→d N(0, 1), o`u σ_v²_¯=σ_v²/n.

(29)

Propri´ et´ es ´ echantillonnales de l’estimateur (suite)

I Maintenant, le d´enominateur.

I Nous avons vu à la fin du chapitre sur la statistique que la variance échantillonnale est un estimateur convergent de la variance d’une variable aléatoire. Donc nous avons

1 n−1

n

X

i=1

X_i−X¯2

≈ 1 n

n

X

i=1

X_i −X¯2 p

−→σ_X².

(30)

Propri´ et´ es ´ echantillonnales de l’estimateur (suite)

I Nous avons

βˆ₁−β₁

≈ v¯

1 n

Pn

i=1 Xi −X¯2.

I En grand ´echantillon, le d´enominateur agit comme une constante. Donc, nous avons

Var

βˆ₁−β₁

= Var v¯

1 n

Pn

i=1 X_i −X¯2

!

= Var v¯ σ²_X

!

= Var (¯v) 1

σ²_X2 = σ_v² n σ²_X2

(31)

Propri´ et´ es ´ echantillonnales de l’estimateur (suite)

I Le r´esultat de tout cela est βˆ₁−β₁ _d

−→N 0, σ_v² n σ_X²2

! .

I Puisque la variance de l’estimateur diminue avec n l’estimateur est aussi convergent.

I Nous avons aussi

√n

βˆ1−β1

_d

−→N 0, σ²_v σ²_X2

! .

(32)

Propri´ et´ es ´ echantillonnales de l’estimateur (suite)

I Nous avons montré la convergence en distribution du numérateur, la convergence en probabilité du dénominateur, et nous avons sauté à la convergence en distribution du ratio.

I Possible pour les propriétés asymptotiques.Pas possible lorsqu’on manipule les espérances.

E X

Y

6= E(X) E(Y)

I Par contre, sous certaines hypoth`eses, nous avons X¯ −→^p µ_X, Y¯ −→^p µ_Y ⇒ X¯

Y¯

−→p µ_X µ_Y, X¯ −→^d N µ_X , σ²_X_¯

, Y¯ −→^p µ_Y ⇒ X¯ Y¯

−→d N µ_X µ_Y ,

1 µ_Y

2

σ²_X_¯

! .

I Théorème de Slutsky : permet de scinder des expressions compliquées de variables aléatoires en morceaux.

(33)

Estimateur convergent de σ

²_ˆ

β1

I Var (¯v) n’est pas connue, Var (X) non plus.

I Rempla¸cons les moments inconnus par des estimateurs convergents.

ˆ σ²_β_ˆ

1 ≡ 1 n

1 n−2

Pn

i=1 Xi −X¯2

( ˆui)² 1

n

P_n

i=1 X_i −X¯22 I Ensuite, définissons l’écart type estimé de ˆβ₁ comme

SE βˆ₁

≡q ˆ σ²_ˆ

β1.

I Les logiciels calculent cet écart type, mais il faut spécifier le calcul d’écarts typesrobustes (à la présence de

l’hétéroscédasticité).

(34)

Estimateur convergent de σ

²_ˆ

β1

, cas homosc´ edastique

I Si

Var (u_i|X =X_i) = Var (u_i) =σ²_u, nous pouvons remplacer l’estimateur convergent deσ²_ˆ

β1 par

˜ σ²_β_ˆ

1 ≡ 1 n

1 n−1

Pn i=1( ˆu_i)²

1 n

Pn

i=1 Xi−X¯2.

I J’ai utilisé la notation légèrement différente ˜σ²_ˆ

β1 pour

distinguer par rapport au cas général où on utilise l’estimateur robuste.

(35)

D´ etecter l’h´ et´ erosc´ edasticit´ e

I Important de pouvoir détecter l’hétéroscédasticité.

I Voici des m´ethodes informelles.

I Cr´eer un graphique avec X_i sur l’axe horizontal et ˆu_i² sur l’axe vertical.

I Estimer une régression avec û_i² comme variable dépendante et X_i comme variable explicative, ou une fonction non linéaire de X_i.

(36)

Tests d’hypoth` ese

I Principe de base : presqu’identique `a ce que nous avons vu dans le chapitre sur l’inf´erence statistique.

I H0 : spécifie généralement que le coefficient d’intérêt (qui peut être β0 ouβ1 prend une certaine valeur. H1 : soit bilatérale soit unilatérale.

I Il faut créer une statistique normalisée qui a une moyenne nulle et une variance unitaire sous H₀. On parle destatistique tmême si en général elle ne suit pas une loit de Student.

t ≡

βˆ1−β1,0

SE βˆ1

.

I Elle obéit en grand échantillon à une loi normale centrée réduite.

(37)

H

1

bilat´ erale

I Si H₁ est bilatérale :H₁:β₁6=β_1,0, nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment loin de zéro.

I Lap-value du test est donn´ee par : p-value = Pr |z|>|t^act|

= 2Φ −|t^act| .

I Test de significativit´e: un test de l’hypoth`ese nulle que la variable explicative n’est pas significative, donc H0:β1= 0.

H₁ est bilat´erale : H₁ :β₁ 6= 0.

(38)

H

1

unilat´ erale

I Cas 1 – H₁ :β₁ > β_1,0

I Nous rejetons l’hypoth`ese nulle si la statistique calcul´ee est suffisamment positive.

I Lap-value du test est donn´ee par : p-value = Pr z >t^act

= 1−Φ t^act .

(39)

H

1

unilat´ erale

I Cas 2 – H₁ :β₁ < β_1,0

I Nous rejetons l’hypothèse nulle si la statistique calculée est suffisamment négative.

I Lap-value du test est donn´ee par : p-value = Pr z <t^act

= Φ t^act .

(40)

Intervalles de confiance pour les coefficients

I Principe identique que pour l’estimateur de la moyenne de la population.

I Bornes de l’intervalle de confiance de X% : on cherche la valeur de z >0 tel que

Φ(−z) = 1−X/100

2 .

I Donc, on cherche la valeur de z >0 pour laquelle ^(100−X₂ ⁾% de la distribution normale centrée réduite se trouve à gauche de−z. Cela veut dire bien sûr que 100−^100−X₂

% de la distribution normale centrée réduite se trouve à droite dez.

(41)

Intervalles de confiance (suite)

I Nous avons (pour ˆβ1) X

100 = Pr −z ≤ βˆ1−β1

ˆ σ_β_ˆ

1

≤z

!

= Pr

−zσˆ_β_ˆ

1≤

βˆ₁−β₁

≤zσˆ_β_ˆ

1

= Pr

−zσˆ_β_ˆ

1≤

β₁−βˆ₁

≤zσˆ_β_ˆ

1

= Pr

βˆ₁−zσˆ_β_ˆ

1≤β₁ ≤βˆ₁+zσˆ_β_ˆ

1

, o`u ˆσ_β_ˆ

1 ≡SE βˆ1

.

I L’intervalle de confiance de X% autour de ˆβ1 est βˆ1±zσˆβˆ1, o`u Φ(−z) = 1−X/100

2 .

(42)

Intervalles de confiance pour les pr´ edictions

I Soit la pr´ediction

∆ ˆYi = ˆβ1∆Xi.

∆ ˆYi est le changement pr´edit de la variable d´ependante.

I Nous avons Var

∆ ˆY_i

= Var

βˆ₁∆X_i

= (∆X_i)²Var βˆ₁

I Nous procédons à la même manière que pour l’intervalle de confiance pour ˆβ₁.

(43)

Intervalles de confiance pour les pr´ edictions (suite)

X 100 = Pr



−z ≤

∆X_i

βˆ₁−β₁ (∆Xi)σβˆ1

≤z





= Pr

−z(∆X_i)σ_β_ˆ

1 ≤∆X_i

βˆ₁−β₁

≤z(∆X_i)σ_β_ˆ

1

= Pr

1 ≤∆X_i

β1−βˆ1

≤z(∆X_i)σ_β_ˆ

1

= Pr

1+ ∆X_iβˆ₁ ≤∆X_iβ₁≤z(∆X_i)σ_β_ˆ

1+ ∆X_iβˆ₁ . Donc, l’intervalle de confiance pour le changement pr´edit est donn´e par

∆X_iβˆ₁±z(∆X_i)σ_β_ˆ

1

On remplaceσβˆ1 par un estimateur convergent pour ´ecrire

∆X_iβˆ₁±z(∆X_i) ˆσ_β_ˆ

1

(44)

Concepts ` a retenir

1. Comment écrire le modèle de régression simple.

2. Le probl`eme de minimisation auquel l’estimateur MCO est une solution.

3. Les propriétés algébriques de l’estimateur MCO.

4. Le concept duR², et les concepts de SSR, ESS et SSR.

5. Les hypoth`eses statistiques de base du mod`ele.

6. Les hypoth`ese additionnelles pour montrer l’efficience.

7. Comment tester des hypothèses concernant les coefficients estimés du modèle.

8. Comment calculer un intervalle de confiance pour les coefficients du mod`ele.

9. Comment calculer un intervalle de confiance pour un changement pr´edit.