ECO 4272 : Introduction à l’économétrie Notes sur le modèle de régression simple

(1)

ECO 4272 : Introduction à l’économétrie Notes sur le modèle de régression simple

Steve Ambler

^∗

Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal

2018 : Steve Ambler c

Hiver 2018

∗Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos suggestions pour les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message à [email protected].

(2)

Table des mati`eres

1 Introduction 4

2 Objectifs du cours 4

3 Le mod`ele de r´egression simple 4

4 Estimateur moindres carr´es ordinaires (MCO) 5

4.1 Propriétés algébriques clés de l’estimateur MCO . . . 9

4.1.1 La somme des r´esidus est z´ero . . . 10

4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne échantillonnale de la variable dépendante . . . 10

4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus. . . 11

4.2 La notion de l’ajustement statistique (R²) . . . 13

4.3 L’´ecart type de la r´egression . . . 18

5 Hypothèses statistiques de base du modèle 19 5.1 Espérance conditionnelle nulle de l’erreur . . . 19

5.2 Observations i.i.d. . . 19

5.3 Les observations aberrantes sont peu probables . . . 20

5.4 Notre approche . . . 20

6 Propri´et´es statistiques de l’estimateur 22 6.1 Absence de biais de l’estimateur . . . 22

6.1.1 βˆ₁ . . . 22

6.1.2 βˆ₀ . . . 23

6.2 Convergence de l’estimateur . . . 25

6.3 Efficience de l’estimateur . . . 25

6.3.1 Th´eor`eme Gauss-Markov. . . 25

6.4 Erreur quadratique moyenne . . . 30

7 Propriétés échantillonnales de l’estimateur 36 7.1 Estimateur convergent deσ²_ˆ β1 . . . 40

7.2 Estimateur convergent deσ²_ˆ β1 en cas d’homosc´edasticit´e. . . 40

7.3 Détecter l’hétéroscédasticité . . . 46

8 Tests d’hypoth`ese 47 8.1 Approche g´enerale . . . 47

8.2 Hypoth`ese alternative bilat´erale. . . 48

8.2.1 Test de significativit´e . . . 48

8.3 Hypoth`ese alternative unilat´erale . . . 49

9 Intervalles de confiance pour les coefficients 49 9.1 Intervalles de confiance pour les pr´edictions . . . 50

(3)

10 Un exemple d’estimation du modèle de régression simple avecR 52 11 Le modèle de régression simple lorsqueX est une variable dichotomique 58

12 Concepts `a retenir 62

13 R´ef´erences 63

(4)

1 Introduction

2 Objectifs du cours

• Présenter le modèle de régression simple.

• D´eriver l’estimateur moindres carr´es ordinaires (MCO).

• Etudier les propriétés algébriques de cet estimateur.´

• Etudier la mesure habituelle de l’ajustement statistique, le´ R².

• Regarder les hypothèses statistiques derrière le modèle et analyser leurs conséquences pour l’estimateur MCO (absence de biais, convergence, efficience).

• Montrer l’absence de biais de l’estimateur MCO.

• Dériver les propriétés échantillonnales de l’estimateur MCO et montrer sa convergence.

• Distinguer entre les cas d’erreurs hétéroscédastiques et erreurs homoscédastiques.

• Montrer, sous les hypothèses d’homoscédasticité et normalité, l’efficience de l’estimateur MCO (théorème Gauss-Markov).

• Analyser les tests d’hypothèse concernant les paramètres estimés du modèle.

• Analyser le calcul d’intervalles de confiance pour les paramètres estimés dans le cadre du modèle.

3 Le mod`ele de r´egression simple

• Le mod`ele de base peut s’´ecrire

Y_i =β₀ +β₁X_i+u_i.

L’idée de base est qu’une variable économiqueY_i peut être prédite ou expliquée par une autre variable économiqueX_i. La relation entre les deux variables est linéaire. Sans le termeu_i, l’équation est l’équation d’une droite. Si on mesureY_i sur l’axe vertical,β₀est l’ordonnée à

(5)

l’origine etβ₁ est la pente de la droite. On peut penser au paramètreβ₀comme étant associé à une deuxième variable explicative qui est une constante que l’on normalise pour être égale à un.

Autrement dit, on aurait pu ´ecrire le mod`ele comme

Y_i =β₀×1 +β₁×X_i+u_i.

Le modèle de régression simple contient une constante par défaut. Il est possible aussi d’étudier le modèle suivant :

Y_i =βX_i+u_i.

Ce modèle, sans constante, a des propriétés statistiques assez différentes. Pour ceux qui s’intéressent à poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).

On appelle communémentY_ilavariable dépendante du modèle de régression, et on appelle Xilavariable explicative du modèle de régression.

4 Estimateur moindres carr´es ordinaires (MCO)

• Nous considérons le problème de prédire la valeur de la variable dépendanteYi, étant donnée la valeur deX_i.

• L’erreur de pr´evision peut s’´ecrireY_i−β₀−β₁X_i.

• Le problème à résoudre est celui de choisir les valeurs deβ₀ et deβ₁afin de minimiser la somme des erreurs de prévision au carré. L’erreur de prévision pour l’ième observation peut s’écrire

u_i =Y_i−β₀−β₁X_i.

• Donc, le programme peut s’´ecrire

min

β0,β1

n

X

i=1

(u_i)² =

n

X

i=1

(Y_i−β₀−β₁X_i)².

(6)

• Notez que le critère de minimiser la somme des erreurs au carré n’est pas le seul critère possible. Par exemple, on pourrait décider de minimiser la somme des erreurs en valeur absolue.¹

• Il y a deux raisons fondamentales pour la popularité et l’importance de l’estimateur MCO dans l’histoire de la statistique et de l’économétrie.

1. D’abord, l’algèbre est relativement simple. Le critère (la fonction objectif) est une expression quadratique (du deuxième degré), et donc les conditions du premier ordre donnent un système d’équationslinéaires. Il est très facile de résoudre un système de deux équations linéaires.

2. Deuxi`emement, sous certaines conditions (`a voir plus tard), l’estimateur MCO des coefficientsβ₀ etβ₁ est l’estimateur avec la plus petite variance parmi tous les

estimateurs linéaires et non biaisés – autrement dit, il est l’estimateur le plusefficient parmi les estimateur linéaires non biaisés. Nous avons déjà vu un exemple du

théorème Gauss-Markov dans le chapitre sur la statistique et les tests d’hypothèse, dans le cadre de la moyenne échantillonnale comme estimateur de l’espérance. Il y a une version de ce théorème qui s’applique au modèle de régression simple.

• Les conditions du premier ordre (CPOs) pour ce probl`eme sont comme suit. D’abord par rapport au choix deβ0 :

−2

n

X

i=1

Y_i−βˆ₀−βˆ₁X_i

= 0.

Ensuite, par rapport au choix deβ₁:

−2

n

X

i=1

Y_i−βˆ₀−βˆ₁X_i

X_i = 0,

où j’ai écrit un chapeau surβ₀ etβ₁ pour souligner le fait que, une fois la solution au problème trouvée, il s’agit de nos estimateurs MCO, c’est à dire les solutions au problème

1. C’est un estimateur qui existe — l’estimateur `a distance absolue minimale (en anglais minimum absolute distance ou MAD).

(7)

de minimisation.²

• Il s’agit de deux ´equations o`u les deux inconnus sontβˆ₀ etβˆ₁.

• Il est facile d’isolerβˆ₀ en fonction deβˆ₁et par la suite de trouver la solution pourβˆ₁.

• Nous avons `a partir de la premi`ere CPO :

n

X

i=1

Yi−βˆ0 −βˆ1Xi

= 0

⇒

n

X

i=1

βˆ₀ =nβˆ₀ =

n

X

i=1

Y_i−βˆ₁X_i

⇒βˆ₀ = 1 n

n

X

i=1

Y_i−βˆ₁1 n

n

X

i=1

X_i

⇒βˆ₀ = ¯Y −βˆ₁X.¯

Nous venons de trouver la solution pourβˆ₀en fonction des moyennes ´echantillonnalesX¯ etY¯ et de la solution pourβˆ₁.

• Maintenant, substituant cette solution dans la deuxi`eme CPO, nous avons :

n

X

i=1

Y_i−Y¯ + ˆβ₁X¯ −βˆ₁X_i

X_i = 0.

• Multipliant des deux côtés de l’équation par _n¹ et réarrangeant, nous obtenons 1

n

X

i=1

Y_iX_i− 1 n

n

X

i=1

Y X¯ _i− 1 n

n

X

i=1

βˆ₁(X_i)² + 1 n

n

X

i=1

βˆ₁XX¯ _i = 0

⇒ 1 n

n

X

i=1

Y_iX_i−Y¯1 n

n

X

i=1

X_i

−βˆ₁ 1 n

n

X

i=1

(X_i)²−X¯1 n

n

X

i=1

X_i

!

= 0

2. En principe, il faudrait vérifier les conditions du deuxième ordre pour savoir que nous avons trouvé un minimum et non un maximum ou un point de selle. Nous n’allons pas faire cet exercice ici.

(8)

⇒ 1 n

n

X

i=1

Y_iX_i−Y¯X¯

−βˆ₁ 1 n

n

X

i=1

(X_i)² −X¯X¯

!

= 0

⇒βˆ₁ =

1 n

Pn

i=1Y_iX_i−X¯Y¯

1 n

Pn

i=1(X_i)²−X¯²

⇒βˆ₁ =

1 n

Pn

i=1 Y_i−Y¯

X_i−X¯

1 n

Pn

i=1 X_i−X¯2 . Cette solution d´epend des identit´es

1 n

n

X

i=1

Y_iX_i−X¯Y¯ = 1 n

n

X

i=1

Y_i−Y¯

X_i−X¯

et

1 n

n

X

i=1

(X_i)²−X¯² = 1 n

n

X

i=1

X_i−X¯2

.

Ceci est facile `a montrer. Nous avons 1 n

n

X

i=1

Yi−Y¯

Xi−X¯

1 n

n

X

i=1

YiXi−YiX¯ −XiY¯ + ¯XY¯

= 1 n

n

X

i=1

Y_iX_i− 1 n

n

X

i=1

Y_iX¯ − 1 n

n

X

i=1

X_iY¯ + 1 n

n

X

i=1

X¯Y¯

= 1 n

n

X

i=1

YiXi−X¯1 n

n

X

i=1

Yi−Y¯1 n

n

X

i=1

Xi+n n

X¯Y¯

= 1 n

n

X

i=1

Y_iX_i−X¯Y¯ −Y¯X¯ + ¯XY¯

= 1 n

n

X

i=1

YiXi−X¯Y .¯

(9)

La preuve pour le d´enominateur est semblable.

C’est une première façon d’exprimer la solution. Multipliant numérateur et dénominateur parnnous avons aussi

βˆ₁ = Pn

i=1 Y_i−Y¯

X_i−X¯ Pn

i=1 X_i−X¯2 .

C’est une deuxième façon d’exprimer la solution. Maintenant, divisant numérateur et dénominateur par(n−1)nous avons aussi

βˆ₁ =

1 (n−1)

Pn

i=1 Y_i−Y¯

X_i−X¯

1 (n−1)

Pn

i=1 X_i −X¯2 .

• Donc, nous avons trois expressions ´equivalentes pour la solution pourβˆ₁.

• Comme aide-mémoire, la dernière expression est peut-être la plus utile. Elle dit que l’estimateur MCO deβ₁est le ratio entre lacovariance échantillonnaleentreXetY et la variance échantillonnaledeX(voir le chapitre sur la théorie des probabilités pour les définitions de covariance échantillonnale et variance échantillonnale).

• Pour répéter ceci en notation algébrique :

βˆ1 = Cov(X , Y) Var(X) .

• Je crois qu’il n’est pas trop difficile de se souvenir de cette façon d’écrire la solution pour βˆ₁, et de se souvenir de la solution pourβˆ₀en termes des moyennes échantillonnalesX¯ et Y¯ etβˆ₁.

4.1 Propriétés algébriques clés de l’estimateur MCO

• L’estimateur MCO possède quelques propriétés de base que nous allons démontrer dans cette section.

• Nous allons par la suite nous servir de ces propriétés à maintes reprises par la suite pour trouver d’autres propriétés de l’estimateur MCO.

(10)

• J’appelle ces propriétés les propriétésalgébriques puisqu’elles ne dépendent pas d’hypothèses concernant les propriétés statistiques des variables aléatoiresY,X ouu.

• Autrement dit, pour n’importe quels échantillons d’observations sur deux variablesX et Y, ces propriétés doivent tenir. On n’a même pas besoin de supposer queXetY sont des variables aléatoires en bonne et due forme.

• Plusieurs de ces propriétés dépendent du fait que le modèle de régression inclut une constante.

• Pour le cas de mod`eles qui n’incluent pas une constante, voir l’article de Windmeijer (1994), ou encore celui d’Eisenhauer (2003).

4.1.1 La somme des r´esidus est z´ero

• D´efinissons

ˆ

u_i ≡Y_i−βˆ₀−βˆ₁X_i,

le r´esidu de la r´egression pour l’observationi.

• Nous voulons montrer que :

1 n

n

X

i=1

ˆ u_i = 0.

• Voici la preuve.

1 n

n

X

i=1

ˆ u_i = 1

n

X

i=1

Y_i−Y¯ + ˆβ₁X¯−βˆ₁X_i

= 1 n

n

X

i=1

Y_i−Y¯

−βˆ₁1 n

n

X

i=1

X_i−X¯

= 0.

4.1.2 La valeur moyenne de la variable dépendante prédite est égale à la moyenne

´echantillonnale de la variable d´ependante

• D´efinissons

Yˆ_i ≡βˆ₀+ ˆβ₁X_i,

la valeur pr´edite deY.

(11)

1 n

n

X

i=1

Yˆ_i = ¯Y .

• Voici la preuve :

Yˆ_i ≡Y_i−uˆ_i

⇒ 1 n

n

X

i=1

Yˆ_i = 1 n

n

X

i=1

Y_i− 1 n

n

X

i=1

ˆ u_i = 1

n

X

i=1

Y_i ≡Y .¯

4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus

n

X

i=1

X_iuˆ_i = 0.

• Ceci est la définitionalgébriquede l’orthogonalité entre deux variables (ou plutôt entre deux vecteurs). Il y a aussi une interprétation géométrique que nous allons voir plus loin.

• Puisque nous allons utiliser l’algèbre linéaire dans le chapitre sur le modèle de régression multiple, c’est peut-être opportun d’introduire ici le concept d’orthogonalité entre deux vecteurs. Nous pouvons réécrire cette équation en notation vectorielle comme

n

X

i=1

Xiuˆi =

X₁ X₂ . . . X_n





 ˆ u1

ˆ u₂ ... ˆ u_n







≡X⁰Uˆ = 0.

• Donc c’est la définition habituelle d’orthogonalité entre deux vecteurs en algèbre linéaire.

• Nous verrons plus loin qu’il y a aussi une interprétation géométrique.

n

X

i=1

X_iuˆ_i =

n

X

i=1

X_iuˆ_i−X¯

n

X

i=1

ˆ u_i

=

n

X

i=1

X_i−X¯ ˆ u_i

(12)

=

n

X

i=1

X_i−X¯

Y_i−Y¯ + ˆβ₁X¯−βˆ₁X_i

=

n

X

i=1

X_i−X¯

Y_i−Y¯

−βˆ₁ X_i−X¯

=

n

X

i=1

X_i−X¯

Y_i−Y¯

−βˆ₁

n

X

i=1

X_i−X¯2

=

n

X

i=1

X_i−X¯

Y_i−Y¯

− Pn

i=1 Xi−X¯

Yi−Y¯ Pn

i=1 X_i−X¯2

n

X

i=1

X_i−X¯2

=

n

X

i=1

X_i−X¯

Y_i−Y¯

−

n

X

i=1

X_i −X¯

Y_i−Y¯

= 0.

• L’orthogonalité est reliée à l’interprétationgéométriquede la méthode des MCO. Estimer un modèle par MCO revient àprojeterla variable dépendante dans l’espace traversé par la variable explicative (oulesvariables explicatives dans le cas de la régression multiple).

• Le principe est illustré par la Figure 1 ci-dessous. Nous constatons sur le graphique que si nous prenons la ligne de régression comme un vecteur, la ligne pointillée sur le graphique est un vecteur dont la longueur égale la valeur deuˆ_i à ce point. Il forme un angle droit par rapport à la ligne de régression, d’où le termeorthogonal.

• Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’interprétation géométrique de la régression simple se trouve dans l’article de Davidson et MacKinnon (1999).

(13)

Figure 1

4.2 La notion de l’ajustement statistique (R

²

)

• D´efinissons :

TSS≡

n

X

i=1

Y_i −Y¯2

,

la somme totale des carr´es (total sum of squares en anglais) ;

SSR≡

n

X

i=1

Yi−Yˆi

2

,

la somme des r´esidus au carr´e (residual sum of squares en anglais) ;

ESS≡

n

X

i=1

Yˆ_i −Y¯2

,

la somme expliqu´ee des carr´es (explained sum of squares en anglais).

• TSS est une mesure la variabilit´e totale de la variable d´ependanteY autour de sa moyenne

étant donné l’échantillon d’observations utilisé pour estimer le modèle. ESS est une mesure de la variabilité de la variable dépendanteY autour de sa moyenne que le modèle de régression simple réussit à expliquer ou à prédire (étant donné l’échantillon

d’observations utilisé pour estimer le modèle). SSR capte la variabilité deY qui n’est pas expliquée par le modèle de régression.

(14)

• Nous pouvons montrer que :

TSS=ESS+SSR,

ce qui veut dire que la variabilité totale deY peut être décomposée en la somme de la variabilité expliquée par le modèle et la variabilité qui n’est pas expliquée par le modèle.

TSS=

n

X

i=1

Y_i−Y¯2

=

n

X

i=1

Y_i−Yˆ_i +

Yˆ_i−Y¯2

=

n

X

i=1

Y_i−Yˆ_i2

+

n

X

i=1

Yˆ_i−Y¯2

+2

n

X

i=1

Y_i−Yˆ_i Yˆ_i−Y¯

=SSR+ESS+ 2

n

X

i=1

ˆ u_i

Yˆ_i−Y¯

=SSR+ESS+ 2

n

X

i=1

ˆ

u_iYˆ_i−2 ¯Y

n

X

i=1

ˆ u_i

=SSR+ESS+ 2

n

X

i=1

ˆ u_iYˆ_i

=SSR+ESS+ 2

n

X

i=1

ˆ u_i

βˆ₀ + ˆβ₁X_i

=SSR+ESS+ 2 ˆβ₀

n

X

i=1

ˆ

u_i+ 2 ˆβ₁

n

X

i=1

ˆ u_iX_i

=SSR+ESS.

Notez que nous avons invoqué à quelques reprises les propriétés algébriques de l’estimateur MCO que nous avons déjà démontrées.

(15)

• Maintenant, d´efinissons

R² ≡ ESS TSS.

• Puisque TSS, ESS et SSR sont la somme de termes au carr´e (et pour cette raison sont des termes positifs sinon strictement positifs), il faut que :

0≤R² ≤1.

• Il faut aussi que

R² = 1− SSR TSS.

• L’ajustement statistique s’appelle aussi lecoefficient de d´etermination de la r´egression.

• L’ajustement statistique est défini (répétons-le) indépendamment des propriétés

statistiques du modèle de régression. Il a l’interprétation du pourcentage de la variation de la variable dépendanteY autour de sa moyenne qui peut être expliqué par les variations de la variable explicativeX.

• Pour le modèle de régression simple, il y a une relation algébrique exacte entre leR² et le coefficient de corrélation entre les variablesXetY. La relation est

R² = Corr(X, Y)2

.

• Je montre ce r´esultat dans l’encadr´e qui suit.

• L’équivalence entre l’ajustement statistique et la corrélation (échantillonnale) au carré entreX etY est un premier pont entre les propriétés algébriques du modèle de régression simple et les propriétés statistiques.

• On peut montrer (on ne le fera pas ici) que la corrélation échantillonnale entre deux variables aléatoiresXetY peut être utilisée comme un estimateur de la corrélation (dans la population) et que, sous certaines conditions, c’est un estimateur convergent de cette

(16)

corrélation. L’analyse des propriétés de la corrélation échantillonnale comme estimateur permet aussi de tester des hypothèses concernant cette corrélation. Donc, en principe, on peut tester des hypothèses concernant leR² dans le modèle de régression simple, même si on ne le fait pas souvent.

• La lecture de l’encadré est facultative, mais je vous encourage à retenir le résultat (égalité entre la mesureR²et le coefficient de corrélation entreXetY au carré).

Je démontre ici que l’ajustement statistique (dans le modèle de régression simple) doit être

égal au carré du coefficient de corrélation entreX etY. Nous avons

R² ≡ Pn

i=1

Yˆi−Y¯ 2

Pn

i=1 Y_i−Y¯2

Nous avons aussi (en multipliant le numérateur et le dénominateur dans la définition de la corrélation échantillonnale par(n−1))

Corr(X , Y)2

≡





Pn

i=1 X_i−X¯

Y_i−Y¯ q

Pn

i=1 X_i−X¯2q Pn

i=1 Y_i−Y¯2





2

=

Pn

i=1 X_i−X¯

Y_i−Y¯2

Pn

i=1 Xi−X¯2Pn

i=1 Yi−Y¯2

Donc, il faut montrer que Pn

i=1

Yˆ_i−Y¯2

Pn

i=1 Y_i−Y¯2 =

Pn

i=1 X_i−X¯

Y_i−Y¯2

Pn

i=1 X_i −X¯2Pn

i=1 Y_i−Y¯2

⇔

n

X

i=1

Yˆi−Y¯ 2 n

X

i=1

Xi−X¯2

=

n

X

i=1

Xi−X¯

Yi−Y¯

!2

.

(17)

Travaillant avec le bras gauche de cette ´equation, nous avons

n

X

i=1

Yˆ_i−Y¯2 n

X

i=1

X_i−X¯2

=

n

X

i=1

βˆ0+ ˆβ1Xi−Y¯ 2 n

X

i=1

Xi−X¯2

=

n

X

i=1

Y¯ −βˆ₁X¯ + ˆβ₁X_i−Y¯2 n

X

i=1

X_i−X¯2

=

n

X

i=1

βˆ₁X_i−βˆ₁X¯2 n

X

i=1

X_i−X¯2

= ˆβ₁²

n

X

i=1

X_i−X¯2 n

X

i=1

X_i−X¯2

= Pn

i=1 X_i−X¯

Y_i−Y¯ Pn

i=1 Xi−X¯2

!2 n

X

i=1

X_i −X¯2

!2

=

n

X

i=1

X_i−X¯

Y_i−Y¯

!2

,

ce qui fut `a d´emontrer.

Donc, même si nous sommes en train de discuter des propriétésalgébriquesdu modèle de régression simple, et même si la notion duR²est définie indépendamment des propriétés statistiques des variablesX etY, nous voyons que leR²est relié au concept statistique de corrélation. Il existe des tests d’hypothèse de la significativité de corrélations entre variables aléatoires (que nous n’allons pas explorer dans ce cours).

• Tel qu’indiqué plus tôt, l’ajustement statistiqueR²est défini indépendamment des hypothèses statistiques derrière le modèle.

• Nous venons de voir (dans l’encadré précédant) qu’il y a un lien stricte dans le modèle de régression simple entre leR² et le coefficient de corrélation entre la variable dépendanteY

(18)

et la variable explicativeX.

• LeR² a aussi une autre interprétation statistique. On peut l’utiliser pour tester l’hypothèse nulle de l’absence de relation entre la variable explicative (lesvariables explicatives à part la constante dans le modèle de régression multiple). Voir Giles (2013b, 2013c). Selon Giles, leR²suit, sous l’hypothèse nulle (et sous l’hypothèse de l’homoscédasticité), une distribution Beta.

• Nous allons voir dans le chapitre sur la régression multiple qu’on peut construire une autre statistique pour tester la même hypothèse. Cette statistique suit une distributionF de Fisher.

4.3 L’´ecart type de la r´egression

• D´efinissons :

s²_u_ˆ = 1 (n−2)

n

X

i=1

(ˆu_i)² = SSR (n−2).

• Dans le cas où nous supposons une variance constante du terme d’erreur du modèle (voir la section suivante concernant les hypothèses statistiques du modèle), c’est un estimateur non biaisé de la variance du terme d’erreur.

• Il s’agit du cas où les erreurs sonthomoscédastiques, où donc Var(u_i) = σ²_u, une variance constante.

• Notez que cette hypoth`ese (variance constante des erreurs) ne fera pas partie des hypoth`eses statistiques de base que nous adopterons.

• Nous divison par(n−2)afint d’obtenir un estimateur non biais´e.

• Il y a une autre raison pour la division par(n−2). On perd deux degrés de liberté car il faut estimer deux paramètres inconnus (β0 etβ1) afin de calculer les résidus de la régression.

• Maintenant, d´efinissons :

s_u_ˆ ≡ q

s²_u_ˆ.

(19)

• s_u_ˆ estl’´ecart type de la r´egression.

• L’écart type de la régression est un des résultats d’estimation que fournissent automatiquement la plupart des logiciels économétriques.

5 Hypoth`eses statistiques de base du mod`ele

• A partir de ce point, nous élaborons quelques propriétés` statistiquesde l’estimateur MCO. Elles dépendront de certaines hypothèses statistiques de base, que voici.

• Ces hypothèses seront cruciales pour montrer les propriétés d’absence de biais et de convergence.

• Nous en aurons besoin aussi (avec une hypoth`ese additionnelle) pour montrer l’efficience de l’estimateur MCO.

5.1 Esp´erance conditionnelle nulle de l’erreur

• Nous supposons que :

E(u_i|X =X_i) = 0.

• Intuitivement, l’hypothèse nous dit que le fait de connaˆıtre la valeur réalisée de la variable explicative ne donne pas d’information concernant la valeur de l’erreur.

5.2 Observations i.i.d.

(Xi , Yi), i= 1,2, . . . , ni.i.d.

• Nous avons déjà vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On suppose que nos observations sont indépendantes et qu’elles sont identiquement

distribu´ees.

• Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui génère

(20)

les observations (normale, exponentielle, parétienne stable, etc.). Tout ce qu’on suppose c’est que les observations sont toujours générées par la même distribution.

5.3 Les observations aberrantes sont peu probables

0<E X⁴

<∞;

0<E Y⁴

<∞;

• Cette hypothèse sert à nous rappeler que l’estimateur MCO peut être sensible aux observations aberrantes.

• Il est toujours bon d’examiner les résidus afin de détecter la présence de ces observations, qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans les données, etc.

• Il est important de noter qu’en présence d’observations aberrantes importantes, la valeur deβˆ₁ peut être très sensible à cette ou à ces valeurs, même si elles sont peu nombreuses.

Intuitement, même un nombre très faible de ces observations aberrantes peut avoir une influence prépondérante sur les valeurs estimées des paramètres. Dans un tel cas, les estimateurs MCO ne seront pas convergents puisqu’ils dépendent d’un petit nombre d’observations.

5.4 Notre approche

Par rapport à l’approche dans certains manuels de base en économétrie, nous adoptons une approche plus générale.

1. Souvent, la première fois qu’on présente le modèle de régression simple, on suppose que les observations sur la variable explicativeXsontconstantesà travers des échantillons différents. Pour dériver les propriétés statistiques de notre estimateur MCO, on peut traiter

(21)

les observations comme des constantes au lieu de les traiter comme des réalisations d’une variable aléatoire. L’algèbre est plus facile, mais c’est beaucoup moins réaliste.

2. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose aussi que la variance

conditionnelle du terme d’erreur est ´egale `a sa variance non conditionnelle et qu’elle est constante. Autrement dit,

Var(u_i|X =X_i) =Var(u_i) =σ_u².

L’avantage de ces hypothèses simplificatrices est de simplifier l’algèbre. On arrive à une expression plus simple pour la variance échantillonnale de nos estimateurs MCO.

Malheureusement, ce sont des hypothèses qui tiennent rarement dans les données utilisées par les économètres appliqués. Cette hypothèse n’est pas retenue ici, ce qui va mener à une expression plus compliquée mais plus générale pour la variance échantillonnale de nos estimateurs.

3. Souvent, lorsqu’on présente le modèle de base, on suppose que le terme d’erreur est distribué selon une loi normale. Ceci permet de faire de l’inférence exacte (voir le chapitre sur les tests d’hypothèse pour une définition). Cette hypothèse n’est pas retenue ici.

4. Au lieu de supposer la normalité, nous allons faire l’hypothèse que les échantillons de données que nous avons à notre disposition sont assez grandes pour que les statistiques utilisées pour faire des tests d’hypothèse soient approximatiement distribuées selon une loi normale.

(22)

6 Propri´et´es statistiques de l’estimateur

6.1 Absence de biais de l’estimateur

6.1.1 βˆ₁

• Nous avons :

βˆ₁ = Pn

i=1 X_i−X¯

Y_i −Y¯ Pn

i=1 X_i−X¯2

= Pn

i=1 X_i−X¯

β₀+β₁X_i+u_i−β₀−β₁X¯ −u¯ Pn

i=1 X_i−X¯2

= β₁Pn

i=1 X_i −X¯2

+Pn

i=1 X_i−X¯

(u_i−u)¯ Pn

i=1 Xi−X¯2

=β₁+ Pn

i=1 Xi−X¯

(ui−u)¯ Pn

i=1 X_i−X¯2

=β1+ Pn

i=1 X_i−X¯ u_i Pn

i=1 X_i−X¯2 .

• Ceci montre que l’estimateur est égal à sa vraie valeur plus un terme qui dépend du produit des erreurs avec les écarts desX_i par rapport à leurs moyennes échantillonnales.

• Notez ce que l’on fait pour passer de la première ligne à la deuxième. On substitutY_i utilisant sa valeur si le modèle de régression est litéralement vrai. Cela fait apparaˆıtre les vraies valeurs deβ₀et deβ₁, et fait apparaˆıtre aussi l’erreur (la vraie et non le résidu). On fera souvent une substitution semblable lorsqu’on veut analyser les propriétés statistiques d’un estimateur.

• Maintenant, il s’agit de calculer la valeur esp´er´ee de cette expression :

E βˆ₁

=β₁+E Pn

i=1 X_i−X¯2

!

=β₁+E E Pn

X_i−X¯2

!

|X₁, X₂, . . . X_n

!

(23)

=β₁+E Pn

i=1 X_i−X¯

E(u_i|X₁, X₂, . . . X_n) Pn

i=1 X_i−X¯2

!

=β₁+E Pn

i=1 X_i−X¯

E(u_i|X_i) Pn

i=1 Xi−X¯2

!

=β₁.

• Pour passer de la première ligne à la deuxième dans cette suite d’égalités, nous avons utilisé la loi des espérances itérées, qui dit que pour n’importe quelle variable aléatoireY,

E(E(Y_i|X_i)) = E(Y_i).

Nous l’avons tout simplement appliqué à la variable aléatoire qui est Pn

i=1 X_i −X¯ u_i Pn

i=1 X_i−X¯2 .

• Pour passer de la deuxième à la troisième ligne, il faut noter que les espérances desX conditionnelles aux valeurs desXne sont plus stochastiques. Nous pouvons les traiter comme des constantes et les écrire du côté gauche de l’opérateur d’espérance

conditionnelle. Ce faisant, l’op´erateur d’esp´erance conditionnelle s’applique uniquement au terme d’erreuru_i.

• La dernière égalité suit directement de nos hypothèses de base concernant le modèle, dont une stipule que E(u_i|X_i) = 0.

6.1.2 βˆ0

• Nous avons :

E βˆ₀

=E

Y¯ −βˆ₁X¯

=E β₀+β₁X¯ + 1 n

n

X

i=1

u_i−βˆ₁X¯

!

(24)

=β₀+E

β₁ −βˆ₁

X¯ + 1 n

n

X

i=1

E(u_i)

=β₀+ 1 n

n

X

i=1

E(E(u_i|X_i))

=β₀,

où encore une fois nous avons utilisé la loi des espérances itérées :

E(u_i) =E(E(u_i|X_i)).

• Ici, j’ai suivi la réponse à la question 4.7 du manuel. Il n’est pas forcément évident que

E

β₁−βˆ₁

X¯ = 0,

puisqueX¯ doit être considéré comme une variable aléatoire. Il faut remonter à l’absence de biais deβˆ₁, où on a montré que

β₁−βˆ₁ =− Pn

i=1 Xi−X¯ ui

Pn

i=1 X_i−X¯2 . Donc, on a

E

β₁−βˆ₁

X¯ =−E Pn

i=1 X_i−X¯2

! X¯

=−E X¯ Pn

i=1 X_i−X¯

E(u_i|X_i) Pn

i=1 X_i−X¯2

!!

= 0.

Encore une fois, nous avons utilisé la loi des espérances itérées.

(25)

6.2 Convergence de l’estimateur

• Nous allons remettre ce sujet `a un peu plus tard. En calculant les propri´etes

échantillonnales de l’estimateur, nous allons montrer que sa variance décroˆıt avec la taille de l’échantillonn.

• Si c’est le cas, nous avons à toutes fins pratiques montré sa convergence. Nous avons montré l’absence de biais, et la variance converge à zéro lorsquentend vers l’infini.

6.3 Efficience de l’estimateur

• Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypothèse additionnelle, que le terme d’erreur du modèle de régression esthomoscédastique, ce qui veut dire a une variance constante.

• Si ce n’est pas le cas, et si nous connaissons de quoi dépend la variance du terme d’erreur, il peut être possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit de l’estimateurmoindres carrés généralisés(generalised least squares ou GLS en

anglais), que nous n’aurons pas l’occasion d’´etudier en d´etail dans ce cours. Voir le chapitre 15 du manuel.

• Une preuve détaillée du théorème Gauss-Markov se trouve dans l’ecadré qui suit. Nous n’aurons probablement pas le temps de voir cette preuve en détail dans le cours. Je vous invite fortement à la lire et à la comprendre.

6.3.1 Th´eor`eme Gauss-Markov

• Il s’agit d’une preuve que l’estimateurβˆ₁est l’estimateur le plus efficient parmi les estimateurs qui sont lin´eaires enY_i.

• Rappelons d’abord les hypothèses qui doivent tenir pour démontrer le théorème Gauss-Markov.

(26)

1. E(u_i|X₁, . . . , X_n) = 0.

2. Var(ui|X1, . . . , Xn) =σ_u², 0< σ_u² <∞.

3. E(u_iu_j|X₁, . . . , X_n) = 0, i6=j.

• La dernière hypothèse dit que les erreurs ne sont pas corrélées entre elles.

• D’abord, montrons queβˆ₁ est un estimateur lin´eaire enY_i. Nous avons

βˆ₁ = Pn

i=1 Y_i−Y¯

X_i−X¯ Pn

i=1 X_i−X¯2

= Pn

i=1Y_i X_i−X¯

−Y¯Pn

i=1 X_i −X¯ Pn

i=1 X_i−X¯2

= Pn

i=1Yi Xi−X¯ Pn

i=1 X_i−X¯2

=

n

X

i=1

X_i −X¯ Pn

i=1 Xi−X¯2Y_i

≡

n

X

i=1

ˆ a_iY_i,

o`u donc

ˆ

ai ≡ X_i−X¯ Pn

i=1 X_i −X¯2

• Les poidsâ_i ne dépendent pas desY_i, et donc l’estimateur est linéaire enY_i.

• Nous avons vu que sous l’hypothèse de l’homoscédasticité, la variance conditionnelle deβˆ₁ est donnée par

Var

βˆ₁|X₁, . . . , X_n

= σ_u² Pn

i=1 X_i−X¯2.

• Nous avons aussi montr´e que l’estimateurβˆ1 est conditionnellement non biais´e.

(27)

• Maintenant, consid´erons n’importe quel estimateur lin´eaire

β˜₁ =

n

X

i=1

a_iY_i

et qui satisfait la propri´et´e

E

β˜1|X1, . . . , Xn

=β1.

• Nous avons

β˜₁ =

n

X

i=1

a_iY_i

=

n

X

i=1

a_i(β₀+β₁X_i+u_i)

=β₀

n

X

i=1

a_i+β₁

n

X

i=1

a_iX_i+

n

X

i=1

a_iu_i.

• Nous avons aussi

E

n

X

i=1

a_iu_i|X₁, . . . , X_n

!

=

n

X

i=1

a_iE(u_i|X₁, . . . , X_n) = 0.

• De cette fac¸on, nous avons

E

β˜₁|X₁, . . . , X_n

=β₀

n

X

i=1

a_i

! +β₁

n

X

i=1

a_iX_i

! .

• Par hypoth`ese, notre estimateur est conditionnellement non biais´e et donc il faut que

β0 n

X

i=1

ai

! +β1

n

X

i=1

aiXi

!

=β1.

(28)

• Pour que cette ´egalit´e tienne pour des valeurs quelconques deβ₀et deβ₁ il faut que

n

X

i=1

ai = 0

et

n

X

i=1

a_iX_i = 1.

• Nous avons donc

β˜₁ =β₀

n

X

i=1

a_i+β₁

n

X

i=1

a_iX_i+

n

X

i=1

a_iu_i =β₁ +

n

X

i=1

a_iu_i.

• Calculons la variance conditionnelle deβ˜₁. Nous avons

Var

β˜₁|X₁, . . . , X_n

=Var

n

X

i=1

a_iu_i|X₁, . . . , X_n

!

=

n

X

i=1

Var(a_iu_i|X₁, . . . , X_n) + 2X

i<j

Cov(a_iu_i , a_ju_j|X₁, . . . , X_n)

=

n

X

i=1

Var(a_iu_i|X₁, . . . , X_n)

=σ²_u

n

X

i=1

a_i².

• Les covariances disparaissent à cause de la troisième hypothèse ci-dessus.

• Maintenant, il suffit de montrer que la variance conditionnelle deβ˜₁doit être supérieure à la variance conditionnelle deβˆ₁.

• D´efinissons

d_i ≡a_i−ˆa_i

(29)

• Nous avons

n

X

i=1

a_i² =

n

X

i=1

(ˆa_i+d_i)² =

n

X

i=1

ˆ a²_i + 2

n

X

i=1

ˆ a_id_i+

n

X

i=1

d_i².

• Maintenant, il faut utiliser la définition desâi qui est donnée ci-dessus. Nous avons

n

X

i=1

ˆ a_id_i =

Pn

i=1 X_i−X¯ d_i Pn

i=1 X_i−X¯2

= Pn

i=1Xidi−X¯Pn i=1di

Pn

i=1 X_i−X¯2

= Pn

i=1Xi(ai−ˆai)−X¯Pn

i=1(ai−ˆai) Pn

i=1 X_i−X¯2

= (Pn

i=1Xiai−Pn

i=1Xiˆai)−X¯(Pn

i=1ai−Pn i=1aˆi) Pn

i=1 X_i−X¯2

= 0.

• La dernière égalité tient puisque les deux estimateursβ˜1 etβˆ1 sont conditionnellement non biaisés et pour cette raison il faut que

n

X

i=1

X_ia_i−

n

X

i=1

X_iˆa_i

!

= 1−1 = 0.

• Finalement, nous avons donc

Var

β˜₁|X₁, . . . , X_n

=σ_u²

n

X

i=1

a_i²

=σ²_u

n

X

i=1

ˆ a²_i +

n

X

i=1

d_i²

!

(30)

=Var

βˆ₁|X₁, . . . , X_n +σ²_u

n

X

i=1

d_i²

⇒Var

β˜₁|X₁, . . . , X_n

−Var

βˆ₁|X₁, . . . , X_n

=σ_u²

n

X

i=1

d_i² >0

si∃itel qued_i 6= 0. Sid_i = 0,∀i, l’estimateurβ˜₁ est tout simplement l’estimateur MCO.

• Il y a aussi une preuve du théorème Gauss-Markov dans le cadre du modèle de régression multiple dans le chapitre suivant. Vous allez constater (j’espère) que la preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas démontré l’efficience de l’estimateurβˆ₀. Ceci est un autre avantage de l’approche matricielle : nous pourrons montrer l’efficience des

estimateurs detousles param`etres simultan´ement. Ici, il faut montrer dans une preuve

`a part (ce que nous ne ferons pas) que l’estimateurbetaˆ ₀est efficient.

6.4 Erreur quadratique moyenne

• Cette section est une peu plus ardue que les autres. Sa lecture est facultative.

• Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biaisés et que le premier a une variance moins élevée que le deuxième.

• Une autre façon de comparer deux estimateurs est de comparer leurserreurs quadratiques moyennes. Nous avons déjà vu ce concept dans le chapitre sur la statistique.

(31)

• Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconqueβ˜:

EQM

β˜

≡E

β˜−β2 .

• Il s’agit de l’espérance de l’écart au carré entre la valeur de l’estimateur et sa vraie valeur.

• C’est une mesure assez intuitive de la pr´ecision d’un estimateur.

• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,

EQM

β˜

=Var β˜

+ E

β˜−β2

.

• Voici la preuve. Nous savons que pour une variable al´eatoire quelconqueX,

Var(X) =E X²

−(E(X))².

Cette formule s’applique aussi `a la variable al´eatoire

β˜−β

. Donc nous avons

Var

β˜−β

=E

β˜−β2

− E

β˜−β2

⇒E

β˜−β2

=Var

β˜−β +

E

β˜−β2

⇒E

β˜−β2

=Var β˜

+ E

β˜−β2

,

ce qui fut `a montrer, puisque

Var

β˜−β

=Var β˜

dˆu au fait queβ n’est pas une variable al´eatoire.

• Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne

(32)

sont pas forc´ement non biais´es.

• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biaisés mais qui ont néanmoins une erreur quadratique moyenne inférieure à n’importe quel estimateur non biaisé justement parce qu’ils ont une variance très faible.

• Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du modèle de régression linéaire et l’estimateur MCO, le concept d’efficience est plus au centre de l’analyse puisque, sous des hypothèses relativement faibles, l’estimateur MCO est non biaisé.

• Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le contexte du mod`ele de r´egression simple.

• Il étudie le modèle de régression simple sans constante :

Yi =βXi+ui,

où lesX_i sont non aléatoires et où on au_i ∼i.i.d.(0, σ²)(les erreurs sont

indépendamment et identiquement distribuées avec moyenne nulle et variance égale à σ²). (Le fait de travailler avec desX_inon stochastiques et d’imposer une hypothèse concernant l’espérance non conditionnelle des erreurs simplifie l’analyse.)

• Il montre que si on minimise l’erreur quadratique moyenne,l’estimateur qu’on obtient dépend deβlui-même, qui est non observable. Donc, c’est un estimateur qui estnon opérationnel, c’est à dire que nous pouvons même pas calculer.

• Dans son deuxième article (2013e), Giles montre qu’il est possible de trouver un estimateur opérationnel (opérationnel veut dire que nous pouvons effectivement le calculer avec les données que nous avons) si on minimise une combinaison linéaire de

(33)

la variance et du biais de l’estimateur. Le probl`eme peut s’´ecrire

min

βe

Q=





α



 Var

βe

σ²



+ (1−α)





E

β˜−β β





2



.

• La fonction objectif est une somme pondérée de la variancerelative(par rapport à la variance de l’erreur) et du biais au carrérelatif(par rapport à la vraie valeur deβ) de l’estimateurβ.e

• La solution `a ce probl`eme (que nous allons calculer un peu plus loin) est

βe=βb (1−α)Pn i=1X_i² α+ (1−α)Pn

i=1X_i²

o`uβbest l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur donn´ee deα.

• Pourα = 0nous avonsβe=β. Autrement dit, si on met tout le poids sur lab minimisation du biais au carr´e, on obtient l’estimateur MCO, qui n’est pas biais´e.

• Pourα >0,|β|e <|β|. L’estimateurb βeest plus pr`es de z´ero. (C’est un exemple de ce qu’on appelle unshrinkage estimator en anglais.)

• Cette solution est un peu difficile à montrer. Commençons par définirβecomme un estimateur linéaire quelconque :

βe≡

n

X

i=1

a_iY_i

pour des constantes quelconquesa_i.

• Cette d´efinition nous donne imm´ediatement

E βe

=E

n

X

i=1

a_i(βX_i+u_i)

!