ECO 4272 : Introduction `a l’´econom´etrie Notes sur le mod`ele de r´egression simple
Steve Ambler
∗D´epartement des sciences ´economiques Ecole des sciences de la gestion ´ Universit´e du Qu´ebec `a Montr´eal
2018 : Steve Ambler c
Hiver 2018
∗Ces notes sont en cours de d´eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour les am´eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message `a [email protected].
Table des mati`eres
1 Introduction 4
2 Objectifs du cours 4
3 Le mod`ele de r´egression simple 4
4 Estimateur moindres carr´es ordinaires (MCO) 5
4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO . . . 9
4.1.1 La somme des r´esidus est z´ero . . . 10
4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne ´echantillonnale de la variable d´ependante . . . 10
4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus. . . 11
4.2 La notion de l’ajustement statistique (R2) . . . 13
4.3 L’´ecart type de la r´egression . . . 18
5 Hypoth`eses statistiques de base du mod`ele 19 5.1 Esp´erance conditionnelle nulle de l’erreur . . . 19
5.2 Observations i.i.d. . . 19
5.3 Les observations aberrantes sont peu probables . . . 20
5.4 Notre approche . . . 20
6 Propri´et´es statistiques de l’estimateur 22 6.1 Absence de biais de l’estimateur . . . 22
6.1.1 βˆ1 . . . 22
6.1.2 βˆ0 . . . 23
6.2 Convergence de l’estimateur . . . 25
6.3 Efficience de l’estimateur . . . 25
6.3.1 Th´eor`eme Gauss-Markov. . . 25
6.4 Erreur quadratique moyenne . . . 30
7 Propri´et´es ´echantillonnales de l’estimateur 36 7.1 Estimateur convergent deσ2ˆ β1 . . . 40
7.2 Estimateur convergent deσ2ˆ β1 en cas d’homosc´edasticit´e. . . 40
7.3 D´etecter l’h´et´erosc´edasticit´e . . . 46
8 Tests d’hypoth`ese 47 8.1 Approche g´enerale . . . 47
8.2 Hypoth`ese alternative bilat´erale. . . 48
8.2.1 Test de significativit´e . . . 48
8.3 Hypoth`ese alternative unilat´erale . . . 49
9 Intervalles de confiance pour les coefficients 49 9.1 Intervalles de confiance pour les pr´edictions . . . 50
10 Un exemple d’estimation du mod`ele de r´egression simple avecR 52 11 Le mod`ele de r´egression simple lorsqueX est une variable dichotomique 58
12 Concepts `a retenir 62
13 R´ef´erences 63
1 Introduction
2 Objectifs du cours
• Pr´esenter le mod`ele de r´egression simple.
• D´eriver l’estimateur moindres carr´es ordinaires (MCO).
• Etudier les propri´et´es alg´ebriques de cet estimateur.´
• Etudier la mesure habituelle de l’ajustement statistique, le´ R2.
• Regarder les hypoth`eses statistiques derri`ere le mod`ele et analyser leurs cons´equences pour l’estimateur MCO (absence de biais, convergence, efficience).
• Montrer l’absence de biais de l’estimateur MCO.
• D´eriver les propri´et´es ´echantillonnales de l’estimateur MCO et montrer sa convergence.
• Distinguer entre les cas d’erreurs h´et´erosc´edastiques et erreurs homosc´edastiques.
• Montrer, sous les hypoth`eses d’homosc´edasticit´e et normalit´e, l’efficience de l’estimateur MCO (th´eor`eme Gauss-Markov).
• Analyser les tests d’hypoth`ese concernant les param`etres estim´es du mod`ele.
• Analyser le calcul d’intervalles de confiance pour les param`etres estim´es dans le cadre du mod`ele.
3 Le mod`ele de r´egression simple
• Le mod`ele de base peut s’´ecrire
Yi =β0 +β1Xi+ui.
L’id´ee de base est qu’une variable ´economiqueYi peut ˆetre pr´edite ou expliqu´ee par une autre variable ´economiqueXi. La relation entre les deux variables est lin´eaire. Sans le termeui, l’´equation est l’´equation d’une droite. Si on mesureYi sur l’axe vertical,β0est l’ordonn´ee `a
l’origine etβ1 est la pente de la droite. On peut penser au param`etreβ0comme ´etant associ´e `a une deuxi`eme variable explicative qui est une constante que l’on normalise pour ˆetre ´egale `a un.
Autrement dit, on aurait pu ´ecrire le mod`ele comme
Yi =β0×1 +β1×Xi+ui.
Le mod`ele de r´egression simple contient une constante par d´efaut. Il est possible aussi d’´etudier le mod`ele suivant :
Yi =βXi+ui.
Ce mod`ele, sans constante, a des propri´et´es statistiques assez diff´erentes. Pour ceux qui s’int´eressent `a poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle commun´ementYilavariable d´ependante du mod`ele de r´egression, et on appelle Xilavariable explicative du mod`ele de r´egression.
4 Estimateur moindres carr´es ordinaires (MCO)
• Nous consid´erons le probl`eme de pr´edire la valeur de la variable d´ependanteYi, ´etant donn´ee la valeur deXi.
• L’erreur de pr´evision peut s’´ecrireYi−β0−β1Xi.
• Le probl`eme `a r´esoudre est celui de choisir les valeurs deβ0 et deβ1afin de minimiser la somme des erreurs de pr´evision au carr´e. L’erreur de pr´evision pour l’i`eme observation peut s’´ecrire
ui =Yi−β0−β1Xi.
• Donc, le programme peut s’´ecrire
min
β0,β1
n
X
i=1
(ui)2 =
n
X
i=1
(Yi−β0−β1Xi)2.
• Notez que le crit`ere de minimiser la somme des erreurs au carr´e n’est pas le seul crit`ere possible. Par exemple, on pourrait d´ecider de minimiser la somme des erreurs en valeur absolue.1
• Il y a deux raisons fondamentales pour la popularit´e et l’importance de l’estimateur MCO dans l’histoire de la statistique et de l’´econom´etrie.
1. D’abord, l’alg`ebre est relativement simple. Le crit`ere (la fonction objectif) est une expression quadratique (du deuxi`eme degr´e), et donc les conditions du premier ordre donnent un syst`eme d’´equationslin´eaires. Il est tr`es facile de r´esoudre un syst`eme de deux ´equations lin´eaires.
2. Deuxi`emement, sous certaines conditions (`a voir plus tard), l’estimateur MCO des coefficientsβ0 etβ1 est l’estimateur avec la plus petite variance parmi tous les
estimateurs lin´eaires et non biais´es – autrement dit, il est l’estimateur le plusefficient parmi les estimateur lin´eaires non biais´es. Nous avons d´ej`a vu un exemple du
th´eor`eme Gauss-Markov dans le chapitre sur la statistique et les tests d’hypoth`ese, dans le cadre de la moyenne ´echantillonnale comme estimateur de l’esp´erance. Il y a une version de ce th´eor`eme qui s’applique au mod`ele de r´egression simple.
• Les conditions du premier ordre (CPOs) pour ce probl`eme sont comme suit. D’abord par rapport au choix deβ0 :
−2
n
X
i=1
Yi−βˆ0−βˆ1Xi
= 0.
Ensuite, par rapport au choix deβ1:
−2
n
X
i=1
Yi−βˆ0−βˆ1Xi
Xi = 0,
o`u j’ai ´ecrit un chapeau surβ0 etβ1 pour souligner le fait que, une fois la solution au probl`eme trouv´ee, il s’agit de nos estimateurs MCO, c’est `a dire les solutions au probl`eme
1. C’est un estimateur qui existe — l’estimateur `a distance absolue minimale (en anglais minimum absolute distance ou MAD).
de minimisation.2
• Il s’agit de deux ´equations o`u les deux inconnus sontβˆ0 etβˆ1.
• Il est facile d’isolerβˆ0 en fonction deβˆ1et par la suite de trouver la solution pourβˆ1.
• Nous avons `a partir de la premi`ere CPO :
n
X
i=1
Yi−βˆ0 −βˆ1Xi
= 0
⇒
n
X
i=1
βˆ0 =nβˆ0 =
n
X
i=1
Yi−βˆ1Xi
⇒βˆ0 = 1 n
n
X
i=1
Yi−βˆ11 n
n
X
i=1
Xi
⇒βˆ0 = ¯Y −βˆ1X.¯
Nous venons de trouver la solution pourβˆ0en fonction des moyennes ´echantillonnalesX¯ etY¯ et de la solution pourβˆ1.
• Maintenant, substituant cette solution dans la deuxi`eme CPO, nous avons :
n
X
i=1
Yi−Y¯ + ˆβ1X¯ −βˆ1Xi
Xi = 0.
• Multipliant des deux cˆot´es de l’´equation par n1 et r´earrangeant, nous obtenons 1
n
n
X
i=1
YiXi− 1 n
n
X
i=1
Y X¯ i− 1 n
n
X
i=1
βˆ1(Xi)2 + 1 n
n
X
i=1
βˆ1XX¯ i = 0
⇒ 1 n
n
X
i=1
YiXi−Y¯1 n
n
X
i=1
Xi
−βˆ1 1 n
n
X
i=1
(Xi)2−X¯1 n
n
X
i=1
Xi
!
= 0
2. En principe, il faudrait v´erifier les conditions du deuxi`eme ordre pour savoir que nous avons trouv´e un minimum et non un maximum ou un point de selle. Nous n’allons pas faire cet exercice ici.
⇒ 1 n
n
X
i=1
YiXi−Y¯X¯
−βˆ1 1 n
n
X
i=1
(Xi)2 −X¯X¯
!
= 0
⇒βˆ1 =
1 n
Pn
i=1YiXi−X¯Y¯
1 n
Pn
i=1(Xi)2−X¯2
⇒βˆ1 =
1 n
Pn
i=1 Yi−Y¯
Xi−X¯
1 n
Pn
i=1 Xi−X¯2 . Cette solution d´epend des identit´es
1 n
n
X
i=1
YiXi−X¯Y¯ = 1 n
n
X
i=1
Yi−Y¯
Xi−X¯
et
1 n
n
X
i=1
(Xi)2−X¯2 = 1 n
n
X
i=1
Xi−X¯2
.
Ceci est facile `a montrer. Nous avons 1 n
n
X
i=1
Yi−Y¯
Xi−X¯
1 n
n
X
i=1
YiXi−YiX¯ −XiY¯ + ¯XY¯
= 1 n
n
X
i=1
YiXi− 1 n
n
X
i=1
YiX¯ − 1 n
n
X
i=1
XiY¯ + 1 n
n
X
i=1
X¯Y¯
= 1 n
n
X
i=1
YiXi−X¯1 n
n
X
i=1
Yi−Y¯1 n
n
X
i=1
Xi+n n
X¯Y¯
= 1 n
n
X
i=1
YiXi−X¯Y¯ −Y¯X¯ + ¯XY¯
= 1 n
n
X
i=1
YiXi−X¯Y .¯
La preuve pour le d´enominateur est semblable.
C’est une premi`ere fac¸on d’exprimer la solution. Multipliant num´erateur et d´enominateur parnnous avons aussi
βˆ1 = Pn
i=1 Yi−Y¯
Xi−X¯ Pn
i=1 Xi−X¯2 .
C’est une deuxi`eme fac¸on d’exprimer la solution. Maintenant, divisant num´erateur et d´enominateur par(n−1)nous avons aussi
βˆ1 =
1 (n−1)
Pn
i=1 Yi−Y¯
Xi−X¯
1 (n−1)
Pn
i=1 Xi −X¯2 .
• Donc, nous avons trois expressions ´equivalentes pour la solution pourβˆ1.
• Comme aide-m´emoire, la derni`ere expression est peut-ˆetre la plus utile. Elle dit que l’estimateur MCO deβ1est le ratio entre lacovariance ´echantillonnaleentreXetY et la variance ´echantillonnaledeX(voir le chapitre sur la th´eorie des probabilit´es pour les d´efinitions de covariance ´echantillonnale et variance ´echantillonnale).
• Pour r´ep´eter ceci en notation alg´ebrique :
βˆ1 = Cov(X , Y) Var(X) .
• Je crois qu’il n’est pas trop difficile de se souvenir de cette fac¸on d’´ecrire la solution pour βˆ1, et de se souvenir de la solution pourβˆ0en termes des moyennes ´echantillonnalesX¯ et Y¯ etβˆ1.
4.1 Propri´et´es alg´ebriques cl´es de l’estimateur MCO
• L’estimateur MCO poss`ede quelques propri´et´es de base que nous allons d´emontrer dans cette section.
• Nous allons par la suite nous servir de ces propri´et´es `a maintes reprises par la suite pour trouver d’autres propri´et´es de l’estimateur MCO.
• J’appelle ces propri´et´es les propri´et´esalg´ebriques puisqu’elles ne d´ependent pas d’hypoth`eses concernant les propri´et´es statistiques des variables al´eatoiresY,X ouu.
• Autrement dit, pour n’importe quels ´echantillons d’observations sur deux variablesX et Y, ces propri´et´es doivent tenir. On n’a mˆeme pas besoin de supposer queXetY sont des variables al´eatoires en bonne et due forme.
• Plusieurs de ces propri´et´es d´ependent du fait que le mod`ele de r´egression inclut une constante.
• Pour le cas de mod`eles qui n’incluent pas une constante, voir l’article de Windmeijer (1994), ou encore celui d’Eisenhauer (2003).
4.1.1 La somme des r´esidus est z´ero
• D´efinissons
ˆ
ui ≡Yi−βˆ0−βˆ1Xi,
le r´esidu de la r´egression pour l’observationi.
• Nous voulons montrer que :
1 n
n
X
i=1
ˆ ui = 0.
• Voici la preuve.
1 n
n
X
i=1
ˆ ui = 1
n
n
X
i=1
Yi−Y¯ + ˆβ1X¯−βˆ1Xi
= 1 n
n
X
i=1
Yi−Y¯
−βˆ11 n
n
X
i=1
Xi−X¯
= 0.
4.1.2 La valeur moyenne de la variable d´ependante pr´edite est ´egale `a la moyenne
´echantillonnale de la variable d´ependante
• D´efinissons
Yˆi ≡βˆ0+ ˆβ1Xi,
la valeur pr´edite deY.
• Nous voulons montrer que :
1 n
n
X
i=1
Yˆi = ¯Y .
• Voici la preuve :
Yˆi ≡Yi−uˆi
⇒ 1 n
n
X
i=1
Yˆi = 1 n
n
X
i=1
Yi− 1 n
n
X
i=1
ˆ ui = 1
n
n
X
i=1
Yi ≡Y .¯
4.1.3 Orthogonalit´e entre la variable explicative et les r´esidus
• Nous voulons montrer que :
n
X
i=1
Xiuˆi = 0.
• Ceci est la d´efinitionalg´ebriquede l’orthogonalit´e entre deux variables (ou plutˆot entre deux vecteurs). Il y a aussi une interpr´etation g´eom´etrique que nous allons voir plus loin.
• Puisque nous allons utiliser l’alg`ebre lin´eaire dans le chapitre sur le mod`ele de r´egression multiple, c’est peut-ˆetre opportun d’introduire ici le concept d’orthogonalit´e entre deux vecteurs. Nous pouvons r´e´ecrire cette ´equation en notation vectorielle comme
n
X
i=1
Xiuˆi =
X1 X2 . . . Xn
ˆ u1
ˆ u2 ... ˆ un
≡X0Uˆ = 0.
• Donc c’est la d´efinition habituelle d’orthogonalit´e entre deux vecteurs en alg`ebre lin´eaire.
• Nous verrons plus loin qu’il y a aussi une interpr´etation g´eom´etrique.
• Voici la preuve :
n
X
i=1
Xiuˆi =
n
X
i=1
Xiuˆi−X¯
n
X
i=1
ˆ ui
=
n
X
i=1
Xi−X¯ ˆ ui
=
n
X
i=1
Xi−X¯
Yi−Y¯ + ˆβ1X¯−βˆ1Xi
=
n
X
i=1
Xi−X¯
Yi−Y¯
−βˆ1 Xi−X¯
=
n
X
i=1
Xi−X¯
Yi−Y¯
−βˆ1
n
X
i=1
Xi−X¯2
=
n
X
i=1
Xi−X¯
Yi−Y¯
− Pn
i=1 Xi−X¯
Yi−Y¯ Pn
i=1 Xi−X¯2
n
X
i=1
Xi−X¯2
=
n
X
i=1
Xi−X¯
Yi−Y¯
−
n
X
i=1
Xi −X¯
Yi−Y¯
= 0.
• L’orthogonalit´e est reli´ee `a l’interpr´etationg´eom´etriquede la m´ethode des MCO. Estimer un mod`ele par MCO revient `aprojeterla variable d´ependante dans l’espace travers´e par la variable explicative (oulesvariables explicatives dans le cas de la r´egression multiple).
• Le principe est illustr´e par la Figure 1 ci-dessous. Nous constatons sur le graphique que si nous prenons la ligne de r´egression comme un vecteur, la ligne pointill´ee sur le graphique est un vecteur dont la longueur ´egale la valeur deuˆi `a ce point. Il forme un angle droit par rapport `a la ligne de r´egression, d’o`u le termeorthogonal.
• Pour ceux qui veulent aller plus loin, tout ce qu’on pourrait vouloir savoir concernant l’interpr´etation g´eom´etrique de la r´egression simple se trouve dans l’article de Davidson et MacKinnon (1999).
Figure 1
4.2 La notion de l’ajustement statistique (R
2)
• D´efinissons :
TSS≡
n
X
i=1
Yi −Y¯2
,
la somme totale des carr´es (total sum of squares en anglais) ;
SSR≡
n
X
i=1
Yi−Yˆi
2
,
la somme des r´esidus au carr´e (residual sum of squares en anglais) ;
ESS≡
n
X
i=1
Yˆi −Y¯2
,
la somme expliqu´ee des carr´es (explained sum of squares en anglais).
• TSS est une mesure la variabilit´e totale de la variable d´ependanteY autour de sa moyenne
´etant donn´e l’´echantillon d’observations utilis´e pour estimer le mod`ele. ESS est une mesure de la variabilit´e de la variable d´ependanteY autour de sa moyenne que le mod`ele de r´egression simple r´eussit `a expliquer ou `a pr´edire (´etant donn´e l’´echantillon
d’observations utilis´e pour estimer le mod`ele). SSR capte la variabilit´e deY qui n’est pas expliqu´ee par le mod`ele de r´egression.
• Nous pouvons montrer que :
TSS=ESS+SSR,
ce qui veut dire que la variabilit´e totale deY peut ˆetre d´ecompos´ee en la somme de la variabilit´e expliqu´ee par le mod`ele et la variabilit´e qui n’est pas expliqu´ee par le mod`ele.
• Voici la preuve :
TSS=
n
X
i=1
Yi−Y¯2
=
n
X
i=1
Yi−Yˆi +
Yˆi−Y¯2
=
n
X
i=1
Yi−Yˆi2
+
n
X
i=1
Yˆi−Y¯2
+2
n
X
i=1
Yi−Yˆi Yˆi−Y¯
=SSR+ESS+ 2
n
X
i=1
ˆ ui
Yˆi−Y¯
=SSR+ESS+ 2
n
X
i=1
ˆ
uiYˆi−2 ¯Y
n
X
i=1
ˆ ui
=SSR+ESS+ 2
n
X
i=1
ˆ uiYˆi
=SSR+ESS+ 2
n
X
i=1
ˆ ui
βˆ0 + ˆβ1Xi
=SSR+ESS+ 2 ˆβ0
n
X
i=1
ˆ
ui+ 2 ˆβ1
n
X
i=1
ˆ uiXi
=SSR+ESS.
Notez que nous avons invoqu´e `a quelques reprises les propri´et´es alg´ebriques de l’estimateur MCO que nous avons d´ej`a d´emontr´ees.
• Maintenant, d´efinissons
R2 ≡ ESS TSS.
• Puisque TSS, ESS et SSR sont la somme de termes au carr´e (et pour cette raison sont des termes positifs sinon strictement positifs), il faut que :
0≤R2 ≤1.
• Il faut aussi que
R2 = 1− SSR TSS.
• L’ajustement statistique s’appelle aussi lecoefficient de d´etermination de la r´egression.
• L’ajustement statistique est d´efini (r´ep´etons-le) ind´ependamment des propri´et´es
statistiques du mod`ele de r´egression. Il a l’interpr´etation du pourcentage de la variation de la variable d´ependanteY autour de sa moyenne qui peut ˆetre expliqu´e par les variations de la variable explicativeX.
• Pour le mod`ele de r´egression simple, il y a une relation alg´ebrique exacte entre leR2 et le coefficient de corr´elation entre les variablesXetY. La relation est
R2 = Corr(X, Y)2
.
• Je montre ce r´esultat dans l’encadr´e qui suit.
• L’´equivalence entre l’ajustement statistique et la corr´elation (´echantillonnale) au carr´e entreX etY est un premier pont entre les propri´et´es alg´ebriques du mod`ele de r´egression simple et les propri´et´es statistiques.
• On peut montrer (on ne le fera pas ici) que la corr´elation ´echantillonnale entre deux variables al´eatoiresXetY peut ˆetre utilis´ee comme un estimateur de la corr´elation (dans la population) et que, sous certaines conditions, c’est un estimateur convergent de cette
corr´elation. L’analyse des propri´et´es de la corr´elation ´echantillonnale comme estimateur permet aussi de tester des hypoth`eses concernant cette corr´elation. Donc, en principe, on peut tester des hypoth`eses concernant leR2 dans le mod`ele de r´egression simple, mˆeme si on ne le fait pas souvent.
• La lecture de l’encadr´e est facultative, mais je vous encourage `a retenir le r´esultat (´egalit´e entre la mesureR2et le coefficient de corr´elation entreXetY au carr´e).
Je d´emontre ici que l’ajustement statistique (dans le mod`ele de r´egression simple) doit ˆetre
´egal au carr´e du coefficient de corr´elation entreX etY. Nous avons
R2 ≡ Pn
i=1
Yˆi−Y¯ 2
Pn
i=1 Yi−Y¯2
Nous avons aussi (en multipliant le num´erateur et le d´enominateur dans la d´efinition de la corr´elation ´echantillonnale par(n−1))
Corr(X , Y)2
≡
Pn
i=1 Xi−X¯
Yi−Y¯ q
Pn
i=1 Xi−X¯2q Pn
i=1 Yi−Y¯2
2
=
Pn
i=1 Xi−X¯
Yi−Y¯2
Pn
i=1 Xi−X¯2Pn
i=1 Yi−Y¯2
Donc, il faut montrer que Pn
i=1
Yˆi−Y¯2
Pn
i=1 Yi−Y¯2 =
Pn
i=1 Xi−X¯
Yi−Y¯2
Pn
i=1 Xi −X¯2Pn
i=1 Yi−Y¯2
⇔
n
X
i=1
Yˆi−Y¯ 2 n
X
i=1
Xi−X¯2
=
n
X
i=1
Xi−X¯
Yi−Y¯
!2
.
Travaillant avec le bras gauche de cette ´equation, nous avons
n
X
i=1
Yˆi−Y¯2 n
X
i=1
Xi−X¯2
=
n
X
i=1
βˆ0+ ˆβ1Xi−Y¯ 2 n
X
i=1
Xi−X¯2
=
n
X
i=1
Y¯ −βˆ1X¯ + ˆβ1Xi−Y¯2 n
X
i=1
Xi−X¯2
=
n
X
i=1
βˆ1Xi−βˆ1X¯2 n
X
i=1
Xi−X¯2
= ˆβ12
n
X
i=1
Xi−X¯2 n
X
i=1
Xi−X¯2
= Pn
i=1 Xi−X¯
Yi−Y¯ Pn
i=1 Xi−X¯2
!2 n
X
i=1
Xi −X¯2
!2
=
n
X
i=1
Xi−X¯
Yi−Y¯
!2
,
ce qui fut `a d´emontrer.
Donc, mˆeme si nous sommes en train de discuter des propri´et´esalg´ebriquesdu mod`ele de r´egression simple, et mˆeme si la notion duR2est d´efinie ind´ependamment des propri´et´es statistiques des variablesX etY, nous voyons que leR2est reli´e au concept statistique de corr´elation. Il existe des tests d’hypoth`ese de la significativit´e de corr´elations entre variables al´eatoires (que nous n’allons pas explorer dans ce cours).
• Tel qu’indiqu´e plus tˆot, l’ajustement statistiqueR2est d´efini ind´ependamment des hypoth`eses statistiques derri`ere le mod`ele.
• Nous venons de voir (dans l’encadr´e pr´ec´edant) qu’il y a un lien stricte dans le mod`ele de r´egression simple entre leR2 et le coefficient de corr´elation entre la variable d´ependanteY
et la variable explicativeX.
• LeR2 a aussi une autre interpr´etation statistique. On peut l’utiliser pour tester l’hypoth`ese nulle de l’absence de relation entre la variable explicative (lesvariables explicatives `a part la constante dans le mod`ele de r´egression multiple). Voir Giles (2013b, 2013c). Selon Giles, leR2suit, sous l’hypoth`ese nulle (et sous l’hypoth`ese de l’homosc´edasticit´e), une distribution Beta.
• Nous allons voir dans le chapitre sur la r´egression multiple qu’on peut construire une autre statistique pour tester la mˆeme hypoth`ese. Cette statistique suit une distributionF de Fisher.
4.3 L’´ecart type de la r´egression
• D´efinissons :
s2uˆ = 1 (n−2)
n
X
i=1
(ˆui)2 = SSR (n−2).
• Dans le cas o`u nous supposons une variance constante du terme d’erreur du mod`ele (voir la section suivante concernant les hypoth`eses statistiques du mod`ele), c’est un estimateur non biais´e de la variance du terme d’erreur.
• Il s’agit du cas o`u les erreurs sonthomosc´edastiques, o`u donc Var(ui) = σ2u, une variance constante.
• Notez que cette hypoth`ese (variance constante des erreurs) ne fera pas partie des hypoth`eses statistiques de base que nous adopterons.
• Nous divison par(n−2)afint d’obtenir un estimateur non biais´e.
• Il y a une autre raison pour la division par(n−2). On perd deux degr´es de libert´e car il faut estimer deux param`etres inconnus (β0 etβ1) afin de calculer les r´esidus de la r´egression.
• Maintenant, d´efinissons :
suˆ ≡ q
s2uˆ.
• suˆ estl’´ecart type de la r´egression.
• L’´ecart type de la r´egression est un des r´esultats d’estimation que fournissent automatiquement la plupart des logiciels ´econom´etriques.
5 Hypoth`eses statistiques de base du mod`ele
• A partir de ce point, nous ´elaborons quelques propri´et´es` statistiquesde l’estimateur MCO. Elles d´ependront de certaines hypoth`eses statistiques de base, que voici.
• Ces hypoth`eses seront cruciales pour montrer les propri´et´es d’absence de biais et de convergence.
• Nous en aurons besoin aussi (avec une hypoth`ese additionnelle) pour montrer l’efficience de l’estimateur MCO.
5.1 Esp´erance conditionnelle nulle de l’erreur
• Nous supposons que :
E(ui|X =Xi) = 0.
• Intuitivement, l’hypoth`ese nous dit que le fait de connaˆıtre la valeur r´ealis´ee de la variable explicative ne donne pas d’information concernant la valeur de l’erreur.
5.2 Observations i.i.d.
• Nous supposons que :
(Xi , Yi), i= 1,2, . . . , ni.i.d.
• Nous avons d´ej`a vu le concept d’observations i.i.d. dans le chapitre sur la statistique. On suppose que nos observations sont ind´ependantes et qu’elles sont identiquement
distribu´ees.
• Notez que nous ne faisons pas une hypoth`ese concernant le type de distribution qui g´en`ere
les observations (normale, exponentielle, par´etienne stable, etc.). Tout ce qu’on suppose c’est que les observations sont toujours g´en´er´ees par la mˆeme distribution.
5.3 Les observations aberrantes sont peu probables
• Nous supposons que :
0<E X4
<∞;
0<E Y4
<∞;
• Cette hypoth`ese sert `a nous rappeler que l’estimateur MCO peut ˆetre sensible aux observations aberrantes.
• Il est toujours bon d’examiner les r´esidus afin de d´etecter la pr´esence de ces observations, qui pourraient indiquer des probl`emes comme des erreurs de transcription des valeurs dans les donn´ees, etc.
• Il est important de noter qu’en pr´esence d’observations aberrantes importantes, la valeur deβˆ1 peut ˆetre tr`es sensible `a cette ou `a ces valeurs, mˆeme si elles sont peu nombreuses.
Intuitement, mˆeme un nombre tr`es faible de ces observations aberrantes peut avoir une influence pr´epond´erante sur les valeurs estim´ees des param`etres. Dans un tel cas, les estimateurs MCO ne seront pas convergents puisqu’ils d´ependent d’un petit nombre d’observations.
5.4 Notre approche
Par rapport `a l’approche dans certains manuels de base en ´econom´etrie, nous adoptons une approche plus g´en´erale.
1. Souvent, la premi`ere fois qu’on pr´esente le mod`ele de r´egression simple, on suppose que les observations sur la variable explicativeXsontconstantes`a travers des ´echantillons diff´erents. Pour d´eriver les propri´et´es statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des r´ealisations d’une variable al´eatoire. L’alg`ebre est plus facile, mais c’est beaucoup moins r´ealiste.
2. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose aussi que la variance
conditionnelle du terme d’erreur est ´egale `a sa variance non conditionnelle et qu’elle est constante. Autrement dit,
Var(ui|X =Xi) =Var(ui) =σu2.
L’avantage de ces hypoth`eses simplificatrices est de simplifier l’alg`ebre. On arrive `a une expression plus simple pour la variance ´echantillonnale de nos estimateurs MCO.
Malheureusement, ce sont des hypoth`eses qui tiennent rarement dans les donn´ees utilis´ees par les ´econom`etres appliqu´es. Cette hypoth`ese n’est pas retenue ici, ce qui va mener `a une expression plus compliqu´ee mais plus g´en´erale pour la variance ´echantillonnale de nos estimateurs.
3. Souvent, lorsqu’on pr´esente le mod`ele de base, on suppose que le terme d’erreur est distribu´e selon une loi normale. Ceci permet de faire de l’inf´erence exacte (voir le chapitre sur les tests d’hypoth`ese pour une d´efinition). Cette hypoth`ese n’est pas retenue ici.
4. Au lieu de supposer la normalit´e, nous allons faire l’hypoth`ese que les ´echantillons de donn´ees que nous avons `a notre disposition sont assez grandes pour que les statistiques utilis´ees pour faire des tests d’hypoth`ese soient approximatiement distribu´ees selon une loi normale.
6 Propri´et´es statistiques de l’estimateur
6.1 Absence de biais de l’estimateur
6.1.1 βˆ1
• Nous avons :
βˆ1 = Pn
i=1 Xi−X¯
Yi −Y¯ Pn
i=1 Xi−X¯2
= Pn
i=1 Xi−X¯
β0+β1Xi+ui−β0−β1X¯ −u¯ Pn
i=1 Xi−X¯2
= β1Pn
i=1 Xi −X¯2
+Pn
i=1 Xi−X¯
(ui−u)¯ Pn
i=1 Xi−X¯2
=β1+ Pn
i=1 Xi−X¯
(ui−u)¯ Pn
i=1 Xi−X¯2
=β1+ Pn
i=1 Xi−X¯ ui Pn
i=1 Xi−X¯2 .
• Ceci montre que l’estimateur est ´egal `a sa vraie valeur plus un terme qui d´epend du produit des erreurs avec les ´ecarts desXi par rapport `a leurs moyennes ´echantillonnales.
• Notez ce que l’on fait pour passer de la premi`ere ligne `a la deuxi`eme. On substitutYi utilisant sa valeur si le mod`ele de r´egression est lit´eralement vrai. Cela fait apparaˆıtre les vraies valeurs deβ0et deβ1, et fait apparaˆıtre aussi l’erreur (la vraie et non le r´esidu). On fera souvent une substitution semblable lorsqu’on veut analyser les propri´et´es statistiques d’un estimateur.
• Maintenant, il s’agit de calculer la valeur esp´er´ee de cette expression :
E βˆ1
=β1+E Pn
i=1 Xi−X¯ ui Pn
i=1 Xi−X¯2
!
=β1+E E Pn
i=1 Xi−X¯ ui Pn
Xi−X¯2
!
|X1, X2, . . . Xn
!
=β1+E Pn
i=1 Xi−X¯
E(ui|X1, X2, . . . Xn) Pn
i=1 Xi−X¯2
!
=β1+E Pn
i=1 Xi−X¯
E(ui|Xi) Pn
i=1 Xi−X¯2
!
=β1.
• Pour passer de la premi`ere ligne `a la deuxi`eme dans cette suite d’´egalit´es, nous avons utilis´e la loi des esp´erances it´er´ees, qui dit que pour n’importe quelle variable al´eatoireY,
E(E(Yi|Xi)) = E(Yi).
Nous l’avons tout simplement appliqu´e `a la variable al´eatoire qui est Pn
i=1 Xi −X¯ ui Pn
i=1 Xi−X¯2 .
• Pour passer de la deuxi`eme `a la troisi`eme ligne, il faut noter que les esp´erances desX conditionnelles aux valeurs desXne sont plus stochastiques. Nous pouvons les traiter comme des constantes et les ´ecrire du cˆot´e gauche de l’op´erateur d’esp´erance
conditionnelle. Ce faisant, l’op´erateur d’esp´erance conditionnelle s’applique uniquement au terme d’erreurui.
• La derni`ere ´egalit´e suit directement de nos hypoth`eses de base concernant le mod`ele, dont une stipule que E(ui|Xi) = 0.
6.1.2 βˆ0
• Nous avons :
E βˆ0
=E
Y¯ −βˆ1X¯
=E β0+β1X¯ + 1 n
n
X
i=1
ui−βˆ1X¯
!
=β0+E
β1 −βˆ1
X¯ + 1 n
n
X
i=1
E(ui)
=β0+ 1 n
n
X
i=1
E(E(ui|Xi))
=β0,
o`u encore une fois nous avons utilis´e la loi des esp´erances it´er´ees :
E(ui) =E(E(ui|Xi)).
• Ici, j’ai suivi la r´eponse `a la question 4.7 du manuel. Il n’est pas forc´ement ´evident que
E
β1−βˆ1
X¯ = 0,
puisqueX¯ doit ˆetre consid´er´e comme une variable al´eatoire. Il faut remonter `a l’absence de biais deβˆ1, o`u on a montr´e que
β1−βˆ1 =− Pn
i=1 Xi−X¯ ui
Pn
i=1 Xi−X¯2 . Donc, on a
E
β1−βˆ1
X¯ =−E Pn
i=1 Xi−X¯ ui Pn
i=1 Xi−X¯2
! X¯
=−E X¯ Pn
i=1 Xi−X¯
E(ui|Xi) Pn
i=1 Xi−X¯2
!!
= 0.
Encore une fois, nous avons utilis´e la loi des esp´erances it´er´ees.
6.2 Convergence de l’estimateur
• Nous allons remettre ce sujet `a un peu plus tard. En calculant les propri´etes
´echantillonnales de l’estimateur, nous allons montrer que sa variance d´ecroˆıt avec la taille de l’´echantillonn.
• Si c’est le cas, nous avons `a toutes fins pratiques montr´e sa convergence. Nous avons montr´e l’absence de biais, et la variance converge `a z´ero lorsquentend vers l’infini.
6.3 Efficience de l’estimateur
• Pour montrer l’efficience de l’estimateur MCO, nous aurons besoin d’une hypoth`ese additionnelle, que le terme d’erreur du mod`ele de r´egression esthomosc´edastique, ce qui veut dire a une variance constante.
• Si ce n’est pas le cas, et si nous connaissons de quoi d´epend la variance du terme d’erreur, il peut ˆetre possible de trouver un estimateur plus efficient que l’estimateur MCO. Il s’agit de l’estimateurmoindres carr´es g´en´eralis´es(generalised least squares ou GLS en
anglais), que nous n’aurons pas l’occasion d’´etudier en d´etail dans ce cours. Voir le chapitre 15 du manuel.
• Une preuve d´etaill´ee du th´eor`eme Gauss-Markov se trouve dans l’ecadr´e qui suit. Nous n’aurons probablement pas le temps de voir cette preuve en d´etail dans le cours. Je vous invite fortement `a la lire et `a la comprendre.
6.3.1 Th´eor`eme Gauss-Markov
• Il s’agit d’une preuve que l’estimateurβˆ1est l’estimateur le plus efficient parmi les estimateurs qui sont lin´eaires enYi.
• Rappelons d’abord les hypoth`eses qui doivent tenir pour d´emontrer le th´eor`eme Gauss-Markov.
1. E(ui|X1, . . . , Xn) = 0.
2. Var(ui|X1, . . . , Xn) =σu2, 0< σu2 <∞.
3. E(uiuj|X1, . . . , Xn) = 0, i6=j.
• La derni`ere hypoth`ese dit que les erreurs ne sont pas corr´el´ees entre elles.
• D’abord, montrons queβˆ1 est un estimateur lin´eaire enYi. Nous avons
βˆ1 = Pn
i=1 Yi−Y¯
Xi−X¯ Pn
i=1 Xi−X¯2
= Pn
i=1Yi Xi−X¯
−Y¯Pn
i=1 Xi −X¯ Pn
i=1 Xi−X¯2
= Pn
i=1Yi Xi−X¯ Pn
i=1 Xi−X¯2
=
n
X
i=1
Xi −X¯ Pn
i=1 Xi−X¯2Yi
≡
n
X
i=1
ˆ aiYi,
o`u donc
ˆ
ai ≡ Xi−X¯ Pn
i=1 Xi −X¯2
• Les poidsˆai ne d´ependent pas desYi, et donc l’estimateur est lin´eaire enYi.
• Nous avons vu que sous l’hypoth`ese de l’homosc´edasticit´e, la variance conditionnelle deβˆ1 est donn´ee par
Var
βˆ1|X1, . . . , Xn
= σu2 Pn
i=1 Xi−X¯2.
• Nous avons aussi montr´e que l’estimateurβˆ1 est conditionnellement non biais´e.
• Maintenant, consid´erons n’importe quel estimateur lin´eaire
β˜1 =
n
X
i=1
aiYi
et qui satisfait la propri´et´e
E
β˜1|X1, . . . , Xn
=β1.
• Nous avons
β˜1 =
n
X
i=1
aiYi
=
n
X
i=1
ai(β0+β1Xi+ui)
=β0
n
X
i=1
ai+β1
n
X
i=1
aiXi+
n
X
i=1
aiui.
• Nous avons aussi
E
n
X
i=1
aiui|X1, . . . , Xn
!
=
n
X
i=1
aiE(ui|X1, . . . , Xn) = 0.
• De cette fac¸on, nous avons
E
β˜1|X1, . . . , Xn
=β0
n
X
i=1
ai
! +β1
n
X
i=1
aiXi
! .
• Par hypoth`ese, notre estimateur est conditionnellement non biais´e et donc il faut que
β0 n
X
i=1
ai
! +β1
n
X
i=1
aiXi
!
=β1.
• Pour que cette ´egalit´e tienne pour des valeurs quelconques deβ0et deβ1 il faut que
n
X
i=1
ai = 0
et
n
X
i=1
aiXi = 1.
• Nous avons donc
β˜1 =β0
n
X
i=1
ai+β1
n
X
i=1
aiXi+
n
X
i=1
aiui =β1 +
n
X
i=1
aiui.
• Calculons la variance conditionnelle deβ˜1. Nous avons
Var
β˜1|X1, . . . , Xn
=Var
n
X
i=1
aiui|X1, . . . , Xn
!
=
n
X
i=1
Var(aiui|X1, . . . , Xn) + 2X
i<j
Cov(aiui , ajuj|X1, . . . , Xn)
=
n
X
i=1
Var(aiui|X1, . . . , Xn)
=σ2u
n
X
i=1
ai2.
• Les covariances disparaissent `a cause de la troisi`eme hypoth`ese ci-dessus.
• Maintenant, il suffit de montrer que la variance conditionnelle deβ˜1doit ˆetre sup´erieure `a la variance conditionnelle deβˆ1.
• D´efinissons
di ≡ai−ˆai
• Nous avons
n
X
i=1
ai2 =
n
X
i=1
(ˆai+di)2 =
n
X
i=1
ˆ a2i + 2
n
X
i=1
ˆ aidi+
n
X
i=1
di2.
• Maintenant, il faut utiliser la d´efinition desˆai qui est donn´ee ci-dessus. Nous avons
n
X
i=1
ˆ aidi =
Pn
i=1 Xi−X¯ di Pn
i=1 Xi−X¯2
= Pn
i=1Xidi−X¯Pn i=1di
Pn
i=1 Xi−X¯2
= Pn
i=1Xi(ai−ˆai)−X¯Pn
i=1(ai−ˆai) Pn
i=1 Xi−X¯2
= (Pn
i=1Xiai−Pn
i=1Xiˆai)−X¯(Pn
i=1ai−Pn i=1aˆi) Pn
i=1 Xi−X¯2
= 0.
• La derni`ere ´egalit´e tient puisque les deux estimateursβ˜1 etβˆ1 sont conditionnellement non biais´es et pour cette raison il faut que
n
X
i=1
Xiai−
n
X
i=1
Xiˆai
!
= 1−1 = 0.
• Finalement, nous avons donc
Var
β˜1|X1, . . . , Xn
=σu2
n
X
i=1
ai2
=σ2u
n
X
i=1
ˆ a2i +
n
X
i=1
di2
!
=Var
βˆ1|X1, . . . , Xn +σ2u
n
X
i=1
di2
⇒Var
β˜1|X1, . . . , Xn
−Var
βˆ1|X1, . . . , Xn
=σu2
n
X
i=1
di2 >0
si∃itel quedi 6= 0. Sidi = 0,∀i, l’estimateurβ˜1 est tout simplement l’estimateur MCO.
• Il y a aussi une preuve du th´eor`eme Gauss-Markov dans le cadre du mod`ele de r´egression multiple dans le chapitre suivant. Vous allez constater (j’esp`ere) que la preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez que nous n’avons pas d´emontr´e l’efficience de l’estimateurβˆ0. Ceci est un autre avantage de l’approche matricielle : nous pourrons montrer l’efficience des
estimateurs detousles param`etres simultan´ement. Ici, il faut montrer dans une preuve
`a part (ce que nous ne ferons pas) que l’estimateurbetaˆ 0est efficient.
6.4 Erreur quadratique moyenne
• Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
• Nous avons vu que l’efficience d’un estimateur est un concept relatif. Un estimateur est plus efficient qu’un autre si les deux estimateurs sont non biais´es et que le premier a une variance moins ´elev´ee que le deuxi`eme.
• Une autre fac¸on de comparer deux estimateurs est de comparer leurserreurs quadratiques moyennes. Nous avons d´ej`a vu ce concept dans le chapitre sur la statistique.
• Voici la d´efinition de l’erreur quadratique moyenne d’un estimateur quelconqueβ˜:
EQM
β˜
≡E
β˜−β2 .
• Il s’agit de l’esp´erance de l’´ecart au carr´e entre la valeur de l’estimateur et sa vraie valeur.
• C’est une mesure assez intuitive de la pr´ecision d’un estimateur.
• Nous pouvons montrer que l’erreur quadratique moyenne est la somme de la variance de l’estimateur et du biais de l’estimateur au carr´e. Autrement dit,
EQM
β˜
=Var β˜
+ E
β˜−β2
.
• Voici la preuve. Nous savons que pour une variable al´eatoire quelconqueX,
Var(X) =E X2
−(E(X))2.
Cette formule s’applique aussi `a la variable al´eatoire
β˜−β
. Donc nous avons
Var
β˜−β
=E
β˜−β2
− E
β˜−β2
⇒E
β˜−β2
=Var
β˜−β +
E
β˜−β2
⇒E
β˜−β2
=Var β˜
+ E
β˜−β2
,
ce qui fut `a montrer, puisque
Var
β˜−β
=Var β˜
dˆu au fait queβ n’est pas une variable al´eatoire.
• Le crit`ere de l’erreur moyenne quadratique permet de comparer deux estimateurs qui ne
sont pas forc´ement non biais´es.
• Il permet aussi de montrer qu’il peut y avoir dans certaines circonstances un arbitrage entre le biais d’un estimateur (un plus grand biais est mauvais) et la variance de l’estimateur (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biais´es mais qui ont n´eanmoins une erreur quadratique moyenne inf´erieure `a n’importe quel estimateur non biais´e justement parce qu’ils ont une variance tr`es faible.
• Nous n’allons pas mettre beaucoup d’accent sur la EQM dans le cours. Dans le contexte du mod`ele de r´egression lin´eaire et l’estimateur MCO, le concept d’efficience est plus au centre de l’analyse puisque, sous des hypoth`eses relativement faibles, l’estimateur MCO est non biais´e.
• Les articles de Giles (2013d, 2013e) portent sur l’erreur quadratique moyenne dans le contexte du mod`ele de r´egression simple.
• Il ´etudie le mod`ele de r´egression simple sans constante :
Yi =βXi+ui,
o`u lesXi sont non al´eatoires et o`u on aui ∼i.i.d.(0, σ2)(les erreurs sont
ind´ependamment et identiquement distribu´ees avec moyenne nulle et variance ´egale `a σ2). (Le fait de travailler avec desXinon stochastiques et d’imposer une hypoth`ese concernant l’esp´erance non conditionnelle des erreurs simplifie l’analyse.)
• Il montre que si on minimise l’erreur quadratique moyenne,l’estimateur qu’on obtient d´epend deβlui-mˆeme, qui est non observable. Donc, c’est un estimateur qui estnon op´erationnel, c’est `a dire que nous pouvons mˆeme pas calculer.
• Dans son deuxi`eme article (2013e), Giles montre qu’il est possible de trouver un estimateur op´erationnel (op´erationnel veut dire que nous pouvons effectivement le calculer avec les donn´ees que nous avons) si on minimise une combinaison lin´eaire de
la variance et du biais de l’estimateur. Le probl`eme peut s’´ecrire
min
βe
Q=
α
Var
βe
σ2
+ (1−α)
E
β˜−β β
2
.
• La fonction objectif est une somme pond´er´ee de la variancerelative(par rapport `a la variance de l’erreur) et du biais au carr´erelatif(par rapport `a la vraie valeur deβ) de l’estimateurβ.e
• La solution `a ce probl`eme (que nous allons calculer un peu plus loin) est
βe=βb (1−α)Pn i=1Xi2 α+ (1−α)Pn
i=1Xi2
o`uβbest l’estimateur MCO. On peut facilement calculer cet estimateur pour une valeur donn´ee deα.
• Pourα = 0nous avonsβe=β. Autrement dit, si on met tout le poids sur lab minimisation du biais au carr´e, on obtient l’estimateur MCO, qui n’est pas biais´e.
• Pourα >0,|β|e <|β|. L’estimateurb βeest plus pr`es de z´ero. (C’est un exemple de ce qu’on appelle unshrinkage estimator en anglais.)
• Cette solution est un peu difficile `a montrer. Commenc¸ons par d´efinirβecomme un estimateur lin´eaire quelconque :
βe≡
n
X
i=1
aiYi
pour des constantes quelconquesai.
• Cette d´efinition nous donne imm´ediatement
E βe
=E
n
X
i=1
ai(βXi+ui)
!