Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’´ecarts types pour nos coefficients estim´es qui sont robustes `a la pr´esence d’erreurs h´et´erosc´edastiques.
J’accepte compl`etement l’argument de Stock et Watson que les donn´ees que nous utilisons la plupart du temps pour estimer nos mod`eles ´econom´etriques n’ont pas des erreurs
homosc´edastiques.
Par contre, on peut se poser la question suivante : y a-t-il des fac¸ons ded´etecterla pr´esence de l’h´et´erosc´edasticit´e ? La r´eponse estOui, mais le livre de Stock et Watson est totalement muet
`a cet ´egard. Commenc¸ons par une m´ethode informelle ou graphique.
Il s’agit de regarder un graphique avec les r´esidus de l’´equation estim´ee sur l’axe vertical et une des variables explicatives du mod`ele sur l’axe horizontal. Si la grandeur absolue des r´esidus varie syst´ematiquement avec la variable explicative, c’est un signe de la pr´esence de
l’h´et´eroscedasticit´e. On peut aussi regarder un graphique o`u on mesure les r´esidus au carr´e sur l’axe vertical. Si les points on une pente non nulle ´evidente (positive ou n´egative), c’est un signe de la pr´esence de l’h´et´erosc´edasticit´e. Si c’est le cas, il est fortement conseill´e d’effecteur un ou plusieurs tests formels.
1. L’articleWikipediaqui s’intituleHeteroscedasticityest une bonne introduction au sujet.
2. Le testGoldfeld-Quandt.
3. Le testBreusch-Pagan. On r´egresse les r´esidus au carr´e sur les variables explicatives du mod`ele. Il y a un bon article surWikipediaqui explique le test.
4. Le test deWhite. C’est peut-ˆetre le test le plus fr´equemment utilis´e. L’´econom`etre qui l’a
d´evelopp´e a aussi propos´e la version robuste de la matrice variance-covariance que l’on pr´esente dans le manuel. Pour effectuer le test, on utilise les r´esidus au carr´e comme la variable d´ependante dans une r´egression multiple (qu’on appelle uner´egression auxiliaire), ou les variables explicatives sont les variables explicatives du mod`ele original, tous les co-produits possibles des variables explicatives, et les variables explicatives au carr´e. White a montr´e que la statistiqueR2 de cette r´egression suit (en grand ´echantillon) une distributionχ2avec un nombre de degr´es de libert´e ´egal au nombre de variables explicatives dans la r´egression auxiliaire moins un. Il y a un article sur ce test chezWikipedia, mais il est moins complet que l’article sur le testBreusch-Pagan.
5. Le test deGlesjer.
Voir l’articleHeteroscedasticity chezWikipediapour plus de d´etails sur les tests diff´erents et pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours sur les tests diagnostics.
Bon nombre de logiciels ´econom´etriques modernes effectuent le test de White, ou un ou plusieurs des autres tests lors de l’estimation d’un mod`ele de r´egression multiple, soit automatiquement soit en sp´ecifiant une option simple.
En pr´esence d’h´et´erosc´edasticit´e, si sa forme est connue (si on connaˆıt comment d´epend la variance de l’erreur en fonction des variables explicatives du mod`ele), il y a des estimateurs plus efficients des coefficients du mod`ele. Il s’agit de l’estimateur moindres carr´es g´en´eralis´es
(Generalized Least Squares en anglais). Nous n’avons pas le temps d’´etudier cet estimateur dans ce cours. Il fait partie des sujets ´etudi´es dans le cours ECO5272.
7 Efficience de l’estimateur MCO sous l’homosc´edasticit´e
Sous les hypoth`eses de base du mod`ele de r´egression multiple, et dans le cas de
l’homosc´edasticit´e, on peut montrer que l’estimateur MCOβˆa une variance au moins aussi petite que n’importe quel autre estimateur lin´eaire (enY) et non biais´e. C’est le th´eor`eme
Gauss-Markov. Dans le cas d’unvecteurde param`etres, la notion devariance au moins aussi petite que est ambigu¨e pusiqu’il y a plusieurs ´el´ements dansβ. Il faut la comprendre de la mani`ere suivante. Siβ˜est n’importe quel estimateur lin´eaire et non biais´e deβ, il faut que
Var c0βˆ
≤Var c0β˜
pour toute combinaison lin´eairec0β. Ici,cest un vecteur de constantes de dimensions(k+ 1)×1 et doncc0βest un scalaire. Il y a une preuve du th´eor`eme dans l’annexe 18.5 du manuel. Notez qu’il ne faut pas supposer la normalit´e du terme d’erreur pour montrer l’efficience de l’estimateur MCO. Voir Giles (2011b) pour une discussion d´etaill´ee.
Le th´eor`eme Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de l’´econom´etrie et de la statistique.
Tel qu’indiqu´e `a la fin de la section pr´ec´edente, il est possible, si on connaˆıt la forme de
l’h´et´erosc´edasticit´e (comment elle est reli´ee aux variables explicatives du mod`ele), l’estimateur MCG (moindres carr´es g´en´eralis´es) sera typiquement plus efficient que l’estimateur MCO.
7.1 Preuve du th´eor`eme Gauss-Markov
Je reprends ici une preuve relativement simple tir´ee de l’articleWikipediasur le Th´eor`eme Gauss-Markov. Il est tr`es important de noter que pour les fins de cette preuve, les variables explicativesX sont consid´er´ees comme ´etant fixes ou non stochastiques.
Soitβ˜=CY un autre estimateur lin´eaire deβ.11 On suppose queCpeut ˆetre e´crite comme (X0X)−1X0+D, o`uDest une matrice non nulle de dimensions(k+ 1)×n. Notre but est de montrer que sa variance doit ˆetre au moins aussi ´elev´ee que celle deβ, l’estimateur MCO.ˆ L’esp´erance deβ˜est donn´ee par
E(CY) = E (X0X)−1X0+D
(Xβ+U)
11. Il faut aussi prendre les ´el´ements deCcomme ´etant fixes ou non stochastiques.
= (X0X)−1X0+D
Xβ+E (X0X)−1X0+D U
=β+DXβ+E (X0X)−1X0+D
E(U|X)
=β+DXβ,
o`u nous avons utilis´e la loi des projections it´er´ees. Nous voulons prouver queβˆa la plus petite variance parmi tous les estimateurs lin´eairesnon biais´es. Pour que notre estimateur soit non biais´e, il faut que
DX = 0.
Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (´etant donn´e les valeurs deDet deX). Nous avons
Var(CY|X, D) =CVar(Y|X, D)C0
=CVar(U|X)C0
=σ2CC0
=σ2 (X0X)−1X0+D
(X0X)−1X0+D0
=σ2 (X0X)−1X0X(X0X)−1+ (X0X)−1X0D0+DX(X0X)−1+DD0
=σ2 (X0X)−1+DD0
=σ2(X0X)−1 +σ2DD0 puisqu’il faut queDX = 0si notre estimateur est non biais´e.
La matriceDD0est une matrice positive semi-d´efinie. Nous avons
Var β˜
−Var βˆ
=σ2DD0
⇒Var c0β˜
−Var c0βˆ
=σ2c0DD0c≥0,
la derni`ere in´egalit´e ´etant la d´efinition mˆeme d’une matrice positive semi-d´efinie. Ce qui fut `a d´emontrer.
8 Biais d ˆu `a des variables omises (bis)
Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle qu’avec des sommations. Supposons que le vrai mod`ele peut ˆetre ´ecrit comme :
Y =
Ici,X1etX2ont l’interpr´etation desous-matricesetβ1etβ2ont l’interp´etation desous-vecteurs.
Donc, la derni`ere ´equation indique nous avons, de fac¸on erron´ee, regroup´e des variables explicatives du mod`ele avec le terme d’erreur.
Si nous estimons le mod`ele erron´e, nous avons :
βˆ1 = (X10X1)−1(X10Y) = (X10X1)−1(X10(Xβ+U))
Nous avons :
E βˆ1
=β1+E (X10X1)−1X10X2β2
+E (X10X1)−1X10E(U|X)
=β1+E (X10X1)−1X10X2β2
=β1+E (X10X1)−1X10X2
β2.
Interpr´etation : le biais d´epend deX10X2, la matrice de comouvements bruts entre les ´el´ements de X1et les ´el´ements deX2 ainsi que des vraies valeurs des coefficientsβ2.
Notez que
(X10X1)−1X10X2
serait tout simplement la matrice de coefficients obtenus si on r´egressait chaque variable dansX2 surX1. C’est essentiellement la formule d’un estimateur MCO, mais c’est une g´en´eralisation puisqueX2est une matrice et non un vecteur.
Vous devriez v´erifier que l’expression d´evelopp´ee pour le biais au d´ebut du chapitre 6 du manuel est tout simplement un cas sp´ecial de cette expression.
Afin de mieux cerner le concept de biais dˆu `a des variables omises, je d´eveloppe dans l’encadr´e le sujet du mod`ele de r´egression partitionn´e qui suit.
R´egression partitionn´ee
Pour de plus amples renseignements, voir Pollock (2007). Reprenons le mod`ele de r´egession multiple en faisant la distinction entre le sous-ensemble de variables explicativesX1 et le sous-ensembleX2.
Y =
X1X2
β1 β2
+U
=X1β1+X2β2+U.
Au lieu de regrouper les variablesX2avec le terme d’erreur comme nous avons fait dans la section pr´ec´edente, nous allons regarder explicitement comment notre estim´e MCO deβ1, soit βˆ1, est affect´e parβˆ2. Rappelons ce que nous avons appel´e les´equations normales lorsque nous avons trouv´e la solution pour l’estimateur MCO pour le mod`ele de r´egression multiple :
X0Xβ =X0Y.
Nous pouvons ´ecrire ces ´equations commme deux sous-ensembles d’´equations :
X10X1β1+X10X2β2 =X10Y
et
X20X1β1 +X20X2β2 =X20Y.
Du premier de ces 2 ensembles d’´equations, nous avons
X10X1β1 =X10 (Y −X2β2)
⇒βˆ1 = (X10X1)−1X10
Y −X2βˆ2 .
Nous devons maintenant trouver une solution pourβˆ2. Multiplions le premier sous-ensemble parX20X1(X10X1)−1pour obtenir
X20X1β1+X20X1(X10X1)−1X10X2β2 =X20X1(X10X1)−1X10Y.
Maintenant, soustrayons cette ´equation du deuxi`eme sous-ensemble d’´equations, obtenant ainsi
X20X2β2−X20X1(X10X1)−1X10X2β2 =X20Y −X20X1(X10X1)−1X10Y.
⇒
X20X2 −X20X1(X10X1)−1X10X2
β2 =
X20 −X20X1(X10X1)−1X10 Y.
D´efinissons
P1 ≡X1(X10X1)−1X10. Nous pouvons ´ecrire
(X20 (I−P1)X2)β2 =X20 (I−P1)Y o`uI est la matrice identit´e conformable `aP1, et donc
βˆ2 = (X20(I−P1)X2)−1X20 (I −P1)Y.
Notez que nous avons suivi une m´ethodologie semblable `a celle dans le chapitre sur le mod`ele de r´egression simple. Nous avons trouv´e une solution pourβˆ1en fonction deβˆ2, et ensuite nous avons ´elimin´eβˆ1 dans la solution pourβˆ2 par substitution.
Ces solutions permettent de r´einterpr´eter l’estimateur MCO comme unestimateur en deux
´etapes. Consid´erons d’abord la r´egression de la variableY surX1 seulement. Si on appelle les coefficients estim´esβ˜1, nous avons
β˜1 ≡(X10X1)−1X10Y,
Y˜ =X1β˜1 =X1(X10X1)−1X10Y
les valeurs pr´edites deY sur la base de cette r´egression, et
U˜ ≡Y −X1(X10X1)−1X10Y =
I−X1(X10X1)−1X10 Y
le vecteur de r´esidus de cette r´egression. Consid´erons maintenant la r´egression des variables
X2sur lesX1. Appelons les coefficientsγ. Nous avons˜
˜
γ ≡(X10X1)−1X10X2.
Notez qu’il s’agit d’unematricede coefficients estim´es puisqu’il y a tout un vecteur de variables d´ependantes au lieu d’une seule. AppelonsX˜2les valeurs pr´edites des variablesX2. Nous avons
X˜2 =X1˜γ =X1(X10X1)−1X10X2,
et
U¯ ≡X2−X1(X10X1)−1X10X2
=
I−X1(X10X1)−1X10 X2
= (I−P1)X2
la matrice de r´esidus de ces r´egressions. (Il y a autant de colonnes dansU¯ que dansX2.) Maintenant, consid´erons la r´egression deU˜ surU¯. Appelons le vecteur de coefficients estim´es
¯
γ. Nous avons
¯
γ = U¯0U¯−1U¯0U .˜ Nous avons
U¯0U¯ =X20
I−X1(X10X1)−1X10 I−X1(X10X1)−1X10 X2
=X20 (I−P1) (I−P1)X2
=X20 (I−P1)X2 puisque
(I−P1) (I−P1)
= (I−P1).
Vous pouvez v´erifiez cette ´egalit´e facilement. La matrice(I−P1)est une matrice idempotente. Donc, finalement nous avons
¯
γ = (X20 (I−P1)X2)−1X20 (I−P1)Y.
Mais ceci n’est rien d’autre que la solution que nous avions trouv´ee pourβˆ2.
En r´egressantY surX1 etX2surX1, on purge l’effet desX1sur la variable d´ependanteY et sur les autres variables explicativesX2. Avec la r´egression deU˜ surU¯, on estime l’effet des X2(purg´ees de l’influence desX1) surY (purg´ee aussi de l’influence desX1). Mais c’est exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de variables explicatives dans le mod`ele en mˆeme temps. Ce r´esultat s’appelle le th´eor`eme Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).
Supposons maintenant que notre mod`ele de r´egression est sans constante. Nous pouvons toujours r´e´ecrire le mod`ele de r´egression lin´eaire de la fac¸on suivante :
Y =Xβ+U
Y¯ = ¯Xβ+ ¯U
⇒ Y −Y¯
= X−X¯
β+ U −U¯ .
Si, comme d’habitude, la premi`ere colonne contient une constante, elle va disparaˆıtre de ce syst`eme d’´equations et nous aurons
Y˜ = ˜Xβ˜+ ˜U
o`u
Y˜ ≡Y −Y ,¯ X˜ ≡X−X¯
et
U˜ ≡U −U¯
et o`uX˜ peut ˆetre red´efinie comme une matricen×kpuisque sa premi`ere colonne est une colonne de z´eros. Autrement dit, il est toujours possible de r´e´ecrire le mod`ele de r´egression lin´eaire sans une constante en exprimant toutes les variables (explicatives et d´ependante) comme des d´eviations par rapport `a leurs moyennes ´echantillonnales.
Donc, supposons que notre mod`ele est effectivement sans constante. Qu’est-ce qui arrive lorsque la corr´elation ´echantillonnale entreX1etX2 est z´ero ? Dans ce cas, nous avons X10X2 = 0, puisque les variables dansX1 etX2sont mesur´ees en d´eviations par rapport `a leurs moyennes ´echantillonnales. Autrement dit,X1etX2 sont orthogonales. Nous avons dans ce cas particulier
βˆ= (X0X)−1X0Y
On aurait pu montrer le mˆeme r´esultat `a partir des solutions d´evelopp´ees ici pourβˆ1 etβˆ2. Faisons-le ici. Nous avons
βˆ1 = (X10X1)−1X10
Y −X2βˆ2
= (X10X1)−1X10Y −(X10X1)−1X10X2βˆ2
= (X10X1)−1X10Y dans le cas de l’orthogonalit´e. Dans le cas deβˆ2, nous avons
βˆ2 = (X20(I−P1)X2)−1X20 (I −P1)Y
=
X20X2−X20X1(X10X1)−1X10X2
−1
X20Y −X20X1(X10X1)−1X10Y
= (X20X2)−1X20Y
dans le cas de l’orthogonalit´e. Dans le cas g´en´eral (lorsqueX1 etX2 ne sont pas orthogonales), les solutions ne sont ´evidemment pas aussi simples.
Ceci veut dire que, dans le cas de l’orthogonalit´e, on peut estimer un mod`ele de r´egression (avecY comme variable d´ependante) contenant seulement les variablesX1, seulement les variablesX2, ou avec toutes les variables ensemble, et on va obtenir exactement les mˆemes valeurs pour les coefficients estim´es. Le th´eor`eme Frisch-Waugh-Lovell est assez
remarquable.
Nous pouvons aussi r´einterpr´eter ces r´esultats `a la lumi`ere de ce que nous avons trouv´e concernant le biais dˆu `a des variables omises. Dans le cas de l’orthogonalit´e,X10X2 = 0et il n’y a pas de biais. On peut r´egresserY sur seulementX1 ou sur seulementX2 et il n’y a pas de biais. On obtient des estimateurs non biais´es.
On peut aussi r´einterpr´eter tout ceci en termes g´eom´etriques. Voir Davidson et MacKinnon
(1999) et Sosa Escudero (2001) pour plus de d´etails.
Tel que not´e par Pollock (2007), les coˆuts reli´es au biais dˆu `a des variables omises d´ependent des buts de notre mod´elisation. Si parmi les variablesX1il y a des variables qui seront utilis´ees comme des instruments de politique ´economique, il est tr`es important d’obtenir des estim´es non biais´es de leur impact. Si ce qui nous int´eressent est surtout la pr´ediction de l’esp´erance deY conditionnelle aux valeurs desX, l’absence de biais est sans doute moins importante.
9 Tests d’hypoth`eses et ensembles de confiance
Tel qu’indiqu´e dans l’introduction, le seul ´el´ement vraiment novateur est le test d’hypoth`eses jointes. Sinon, on peut effectuer des tests d’hypoth`eses simples de la mˆeme mani`ere que dans le cas de la r´egression simple.
9.1 Tests d’hypoth`eses simples par rapport `a un seul coefficient
Il n’y a strictement aucun changement par rapport `a la fac¸on de tester une hypoth`ese simple dans le cadre du mod`ele de r´egression simple. La statistiquetde base, pour n’importe quel test, peut s’´ecrire :
t =
βˆi−βiH0 sβˆ
i
,
o`uβiH0 est la valeur du coefficientisous l’hypoth`ese nulle,βˆiest la valeur du coefficient obtenue lors de l’estimation, etsβˆi est un estim´e convergent de l’´ecart type de l’estim´e du coefficient.
Dans le cas de la r´egression multiple, c’est la racine carr´ee de l’i-i`eme ´el´ement diagonal deΣˆβˆ
(cas h´et´erosc´edastique) ouΣ˜βˆ(cas homosc´edastique).
Toute la discussion du chapitre 4 concernant lesp-values et les taux de significativit´e marginaux s’applique. La statistiquetsuit approximativement une loi normale centr´ee r´eduite (si, bien sˆur, l’´echantillon est suffisamment grand).
Dans le cas d’une hypoth`ese alternative `a deux extr´emit´es (bilat´erale), une grande valeur absolue de la statistiquet(peu importe son signe) constitue de l’´evidence contreH0. SoitΦ (−|ta|)la valeur de la distribution normale cumul´ee pour moins la valeur absolue de la valeur calcul´ee de la statistiquet. Nous avons :
Φ (−|ta|) =Pr(t≤ −|ta|)
qui est donc ´egale `a la probabilit´e d’obtenir une valeur au moins aussi petite qu’une valeur qui est inf´erieure `aβiH0 partfois son ´ecart type. Dans le cas o`uβˆi−βiH0 <0ceci est ´egal `a
qui est donc ´egale `a la probabilit´e d’obtenir une valeur au moins aussi grande qu’une valeur qui est sup´erieure `aβiH0 partfois son ´ecart type.
Tout cela revient `a dire que lap-value du test avec hypoth`ese alternative bilat´erale est donn´ee par 2×Φ (−|ta|).
Le cas de tests avec hypoth`ese alternative unilat´erale est semblable. L’analyse des tests
d’hypoth`ese pr´esent´ee dans le chapitre sur le mod`ele de r´egression simple est pertinente. Dans le
cas o`u on a
H0 :βi =βiH0 et
H1 :βi > βiH0, lap-value du test est donn´ee par
p=Pr z > tact
= 1−Φ tact .
Dans le cas o`u on a
H0 :βi =βiH0 et
H1 :βi < βiH0, lap-value du test est donn´ee par
p=Pr z < tact
= Φ tact .