• Aucun résultat trouvé

Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’´ecarts types pour nos coefficients estim´es qui sont robustes `a la pr´esence d’erreurs h´et´erosc´edastiques.

J’accepte compl`etement l’argument de Stock et Watson que les donn´ees que nous utilisons la plupart du temps pour estimer nos mod`eles ´econom´etriques n’ont pas des erreurs

homosc´edastiques.

Par contre, on peut se poser la question suivante : y a-t-il des fac¸ons ded´etecterla pr´esence de l’h´et´erosc´edasticit´e ? La r´eponse estOui, mais le livre de Stock et Watson est totalement muet

`a cet ´egard. Commenc¸ons par une m´ethode informelle ou graphique.

Il s’agit de regarder un graphique avec les r´esidus de l’´equation estim´ee sur l’axe vertical et une des variables explicatives du mod`ele sur l’axe horizontal. Si la grandeur absolue des r´esidus varie syst´ematiquement avec la variable explicative, c’est un signe de la pr´esence de

l’h´et´eroscedasticit´e. On peut aussi regarder un graphique o`u on mesure les r´esidus au carr´e sur l’axe vertical. Si les points on une pente non nulle ´evidente (positive ou n´egative), c’est un signe de la pr´esence de l’h´et´erosc´edasticit´e. Si c’est le cas, il est fortement conseill´e d’effecteur un ou plusieurs tests formels.

1. L’articleWikipediaqui s’intituleHeteroscedasticityest une bonne introduction au sujet.

2. Le testGoldfeld-Quandt.

3. Le testBreusch-Pagan. On r´egresse les r´esidus au carr´e sur les variables explicatives du mod`ele. Il y a un bon article surWikipediaqui explique le test.

4. Le test deWhite. C’est peut-ˆetre le test le plus fr´equemment utilis´e. L’´econom`etre qui l’a

d´evelopp´e a aussi propos´e la version robuste de la matrice variance-covariance que l’on pr´esente dans le manuel. Pour effectuer le test, on utilise les r´esidus au carr´e comme la variable d´ependante dans une r´egression multiple (qu’on appelle uner´egression auxiliaire), ou les variables explicatives sont les variables explicatives du mod`ele original, tous les co-produits possibles des variables explicatives, et les variables explicatives au carr´e. White a montr´e que la statistiqueR2 de cette r´egression suit (en grand ´echantillon) une distributionχ2avec un nombre de degr´es de libert´e ´egal au nombre de variables explicatives dans la r´egression auxiliaire moins un. Il y a un article sur ce test chezWikipedia, mais il est moins complet que l’article sur le testBreusch-Pagan.

5. Le test deGlesjer.

Voir l’articleHeteroscedasticity chezWikipediapour plus de d´etails sur les tests diff´erents et pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours sur les tests diagnostics.

Bon nombre de logiciels ´econom´etriques modernes effectuent le test de White, ou un ou plusieurs des autres tests lors de l’estimation d’un mod`ele de r´egression multiple, soit automatiquement soit en sp´ecifiant une option simple.

En pr´esence d’h´et´erosc´edasticit´e, si sa forme est connue (si on connaˆıt comment d´epend la variance de l’erreur en fonction des variables explicatives du mod`ele), il y a des estimateurs plus efficients des coefficients du mod`ele. Il s’agit de l’estimateur moindres carr´es g´en´eralis´es

(Generalized Least Squares en anglais). Nous n’avons pas le temps d’´etudier cet estimateur dans ce cours. Il fait partie des sujets ´etudi´es dans le cours ECO5272.

7 Efficience de l’estimateur MCO sous l’homosc´edasticit´e

Sous les hypoth`eses de base du mod`ele de r´egression multiple, et dans le cas de

l’homosc´edasticit´e, on peut montrer que l’estimateur MCOβˆa une variance au moins aussi petite que n’importe quel autre estimateur lin´eaire (enY) et non biais´e. C’est le th´eor`eme

Gauss-Markov. Dans le cas d’unvecteurde param`etres, la notion devariance au moins aussi petite que est ambigu¨e pusiqu’il y a plusieurs ´el´ements dansβ. Il faut la comprendre de la mani`ere suivante. Siβ˜est n’importe quel estimateur lin´eaire et non biais´e deβ, il faut que

Var c0βˆ

≤Var c0β˜

pour toute combinaison lin´eairec0β. Ici,cest un vecteur de constantes de dimensions(k+ 1)×1 et doncc0βest un scalaire. Il y a une preuve du th´eor`eme dans l’annexe 18.5 du manuel. Notez qu’il ne faut pas supposer la normalit´e du terme d’erreur pour montrer l’efficience de l’estimateur MCO. Voir Giles (2011b) pour une discussion d´etaill´ee.

Le th´eor`eme Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de l’´econom´etrie et de la statistique.

Tel qu’indiqu´e `a la fin de la section pr´ec´edente, il est possible, si on connaˆıt la forme de

l’h´et´erosc´edasticit´e (comment elle est reli´ee aux variables explicatives du mod`ele), l’estimateur MCG (moindres carr´es g´en´eralis´es) sera typiquement plus efficient que l’estimateur MCO.

7.1 Preuve du th´eor`eme Gauss-Markov

Je reprends ici une preuve relativement simple tir´ee de l’articleWikipediasur le Th´eor`eme Gauss-Markov. Il est tr`es important de noter que pour les fins de cette preuve, les variables explicativesX sont consid´er´ees comme ´etant fixes ou non stochastiques.

Soitβ˜=CY un autre estimateur lin´eaire deβ.11 On suppose queCpeut ˆetre e´crite comme (X0X)−1X0+D, o`uDest une matrice non nulle de dimensions(k+ 1)×n. Notre but est de montrer que sa variance doit ˆetre au moins aussi ´elev´ee que celle deβ, l’estimateur MCO.ˆ L’esp´erance deβ˜est donn´ee par

E(CY) = E (X0X)−1X0+D

(Xβ+U)

11. Il faut aussi prendre les ´el´ements deCcomme ´etant fixes ou non stochastiques.

= (X0X)−1X0+D

Xβ+E (X0X)−1X0+D U

=β+DXβ+E (X0X)−1X0+D

E(U|X)

=β+DXβ,

o`u nous avons utilis´e la loi des projections it´er´ees. Nous voulons prouver queβˆa la plus petite variance parmi tous les estimateurs lin´eairesnon biais´es. Pour que notre estimateur soit non biais´e, il faut que

DX = 0.

Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (´etant donn´e les valeurs deDet deX). Nous avons

Var(CY|X, D) =CVar(Y|X, D)C0

=CVar(U|X)C0

2CC0

2 (X0X)−1X0+D

(X0X)−1X0+D0

2 (X0X)−1X0X(X0X)−1+ (X0X)−1X0D0+DX(X0X)−1+DD0

2 (X0X)−1+DD0

2(X0X)−12DD0 puisqu’il faut queDX = 0si notre estimateur est non biais´e.

La matriceDD0est une matrice positive semi-d´efinie. Nous avons

Var β˜

−Var βˆ

2DD0

⇒Var c0β˜

−Var c0βˆ

2c0DD0c≥0,

la derni`ere in´egalit´e ´etant la d´efinition mˆeme d’une matrice positive semi-d´efinie. Ce qui fut `a d´emontrer.

8 Biais d ˆu `a des variables omises (bis)

Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle qu’avec des sommations. Supposons que le vrai mod`ele peut ˆetre ´ecrit comme :

Y =

Ici,X1etX2ont l’interpr´etation desous-matricesetβ1etβ2ont l’interp´etation desous-vecteurs.

Donc, la derni`ere ´equation indique nous avons, de fac¸on erron´ee, regroup´e des variables explicatives du mod`ele avec le terme d’erreur.

Si nous estimons le mod`ele erron´e, nous avons :

βˆ1 = (X10X1)−1(X10Y) = (X10X1)−1(X10(Xβ+U))

Nous avons :

E βˆ1

1+E (X10X1)−1X10X2β2

+E (X10X1)−1X10E(U|X)

1+E (X10X1)−1X10X2β2

1+E (X10X1)−1X10X2

β2.

Interpr´etation : le biais d´epend deX10X2, la matrice de comouvements bruts entre les ´el´ements de X1et les ´el´ements deX2 ainsi que des vraies valeurs des coefficientsβ2.

Notez que

(X10X1)−1X10X2

serait tout simplement la matrice de coefficients obtenus si on r´egressait chaque variable dansX2 surX1. C’est essentiellement la formule d’un estimateur MCO, mais c’est une g´en´eralisation puisqueX2est une matrice et non un vecteur.

Vous devriez v´erifier que l’expression d´evelopp´ee pour le biais au d´ebut du chapitre 6 du manuel est tout simplement un cas sp´ecial de cette expression.

Afin de mieux cerner le concept de biais dˆu `a des variables omises, je d´eveloppe dans l’encadr´e le sujet du mod`ele de r´egression partitionn´e qui suit.

R´egression partitionn´ee

Pour de plus amples renseignements, voir Pollock (2007). Reprenons le mod`ele de r´egession multiple en faisant la distinction entre le sous-ensemble de variables explicativesX1 et le sous-ensembleX2.

Y =

X1X2

 β1 β2

+U

=X1β1+X2β2+U.

Au lieu de regrouper les variablesX2avec le terme d’erreur comme nous avons fait dans la section pr´ec´edente, nous allons regarder explicitement comment notre estim´e MCO deβ1, soit βˆ1, est affect´e parβˆ2. Rappelons ce que nous avons appel´e les´equations normales lorsque nous avons trouv´e la solution pour l’estimateur MCO pour le mod`ele de r´egression multiple :

X0Xβ =X0Y.

Nous pouvons ´ecrire ces ´equations commme deux sous-ensembles d’´equations :

X10X1β1+X10X2β2 =X10Y

et

X20X1β1 +X20X2β2 =X20Y.

Du premier de ces 2 ensembles d’´equations, nous avons

X10X1β1 =X10 (Y −X2β2)

⇒βˆ1 = (X10X1)−1X10

Y −X2βˆ2 .

Nous devons maintenant trouver une solution pourβˆ2. Multiplions le premier sous-ensemble parX20X1(X10X1)−1pour obtenir

X20X1β1+X20X1(X10X1)−1X10X2β2 =X20X1(X10X1)−1X10Y.

Maintenant, soustrayons cette ´equation du deuxi`eme sous-ensemble d’´equations, obtenant ainsi

X20X2β2−X20X1(X10X1)−1X10X2β2 =X20Y −X20X1(X10X1)−1X10Y.

X20X2 −X20X1(X10X1)−1X10X2

β2 =

X20 −X20X1(X10X1)−1X10 Y.

D´efinissons

P1 ≡X1(X10X1)−1X10. Nous pouvons ´ecrire

(X20 (I−P1)X22 =X20 (I−P1)Y o`uI est la matrice identit´e conformable `aP1, et donc

βˆ2 = (X20(I−P1)X2)−1X20 (I −P1)Y.

Notez que nous avons suivi une m´ethodologie semblable `a celle dans le chapitre sur le mod`ele de r´egression simple. Nous avons trouv´e une solution pourβˆ1en fonction deβˆ2, et ensuite nous avons ´elimin´eβˆ1 dans la solution pourβˆ2 par substitution.

Ces solutions permettent de r´einterpr´eter l’estimateur MCO comme unestimateur en deux

´etapes. Consid´erons d’abord la r´egression de la variableY surX1 seulement. Si on appelle les coefficients estim´esβ˜1, nous avons

β˜1 ≡(X10X1)−1X10Y,

Y˜ =X1β˜1 =X1(X10X1)−1X10Y

les valeurs pr´edites deY sur la base de cette r´egression, et

U˜ ≡Y −X1(X10X1)−1X10Y =

I−X1(X10X1)−1X10 Y

le vecteur de r´esidus de cette r´egression. Consid´erons maintenant la r´egression des variables

X2sur lesX1. Appelons les coefficientsγ. Nous avons˜

˜

γ ≡(X10X1)−1X10X2.

Notez qu’il s’agit d’unematricede coefficients estim´es puisqu’il y a tout un vecteur de variables d´ependantes au lieu d’une seule. AppelonsX˜2les valeurs pr´edites des variablesX2. Nous avons

2 =X1˜γ =X1(X10X1)−1X10X2,

et

U¯ ≡X2−X1(X10X1)−1X10X2

=

I−X1(X10X1)−1X10 X2

= (I−P1)X2

la matrice de r´esidus de ces r´egressions. (Il y a autant de colonnes dansU¯ que dansX2.) Maintenant, consid´erons la r´egression deU˜ surU¯. Appelons le vecteur de coefficients estim´es

¯

γ. Nous avons

¯

γ = U¯0−10U .˜ Nous avons

0U¯ =X20

I−X1(X10X1)−1X10 I−X1(X10X1)−1X10 X2

=X20 (I−P1) (I−P1)X2

=X20 (I−P1)X2 puisque

(I−P1) (I−P1)

= (I−P1).

Vous pouvez v´erifiez cette ´egalit´e facilement. La matrice(I−P1)est une matrice idempotente. Donc, finalement nous avons

¯

γ = (X20 (I−P1)X2)−1X20 (I−P1)Y.

Mais ceci n’est rien d’autre que la solution que nous avions trouv´ee pourβˆ2.

En r´egressantY surX1 etX2surX1, on purge l’effet desX1sur la variable d´ependanteY et sur les autres variables explicativesX2. Avec la r´egression deU˜ surU¯, on estime l’effet des X2(purg´ees de l’influence desX1) surY (purg´ee aussi de l’influence desX1). Mais c’est exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de variables explicatives dans le mod`ele en mˆeme temps. Ce r´esultat s’appelle le th´eor`eme Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).

Supposons maintenant que notre mod`ele de r´egression est sans constante. Nous pouvons toujours r´e´ecrire le mod`ele de r´egression lin´eaire de la fac¸on suivante :

Y =Xβ+U

Y¯ = ¯Xβ+ ¯U

⇒ Y −Y¯

= X−X¯

β+ U −U¯ .

Si, comme d’habitude, la premi`ere colonne contient une constante, elle va disparaˆıtre de ce syst`eme d’´equations et nous aurons

Y˜ = ˜Xβ˜+ ˜U

o`u

Y˜ ≡Y −Y ,¯ X˜ ≡X−X¯

et

U˜ ≡U −U¯

et o`uX˜ peut ˆetre red´efinie comme une matricen×kpuisque sa premi`ere colonne est une colonne de z´eros. Autrement dit, il est toujours possible de r´e´ecrire le mod`ele de r´egression lin´eaire sans une constante en exprimant toutes les variables (explicatives et d´ependante) comme des d´eviations par rapport `a leurs moyennes ´echantillonnales.

Donc, supposons que notre mod`ele est effectivement sans constante. Qu’est-ce qui arrive lorsque la corr´elation ´echantillonnale entreX1etX2 est z´ero ? Dans ce cas, nous avons X10X2 = 0, puisque les variables dansX1 etX2sont mesur´ees en d´eviations par rapport `a leurs moyennes ´echantillonnales. Autrement dit,X1etX2 sont orthogonales. Nous avons dans ce cas particulier

βˆ= (X0X)−1X0Y

On aurait pu montrer le mˆeme r´esultat `a partir des solutions d´evelopp´ees ici pourβˆ1 etβˆ2. Faisons-le ici. Nous avons

βˆ1 = (X10X1)−1X10

Y −X2βˆ2

= (X10X1)−1X10Y −(X10X1)−1X10X2βˆ2

= (X10X1)−1X10Y dans le cas de l’orthogonalit´e. Dans le cas deβˆ2, nous avons

βˆ2 = (X20(I−P1)X2)−1X20 (I −P1)Y

=

X20X2−X20X1(X10X1)−1X10X2

−1

X20Y −X20X1(X10X1)−1X10Y

= (X20X2)−1X20Y

dans le cas de l’orthogonalit´e. Dans le cas g´en´eral (lorsqueX1 etX2 ne sont pas orthogonales), les solutions ne sont ´evidemment pas aussi simples.

Ceci veut dire que, dans le cas de l’orthogonalit´e, on peut estimer un mod`ele de r´egression (avecY comme variable d´ependante) contenant seulement les variablesX1, seulement les variablesX2, ou avec toutes les variables ensemble, et on va obtenir exactement les mˆemes valeurs pour les coefficients estim´es. Le th´eor`eme Frisch-Waugh-Lovell est assez

remarquable.

Nous pouvons aussi r´einterpr´eter ces r´esultats `a la lumi`ere de ce que nous avons trouv´e concernant le biais dˆu `a des variables omises. Dans le cas de l’orthogonalit´e,X10X2 = 0et il n’y a pas de biais. On peut r´egresserY sur seulementX1 ou sur seulementX2 et il n’y a pas de biais. On obtient des estimateurs non biais´es.

On peut aussi r´einterpr´eter tout ceci en termes g´eom´etriques. Voir Davidson et MacKinnon

(1999) et Sosa Escudero (2001) pour plus de d´etails.

Tel que not´e par Pollock (2007), les coˆuts reli´es au biais dˆu `a des variables omises d´ependent des buts de notre mod´elisation. Si parmi les variablesX1il y a des variables qui seront utilis´ees comme des instruments de politique ´economique, il est tr`es important d’obtenir des estim´es non biais´es de leur impact. Si ce qui nous int´eressent est surtout la pr´ediction de l’esp´erance deY conditionnelle aux valeurs desX, l’absence de biais est sans doute moins importante.

9 Tests d’hypoth`eses et ensembles de confiance

Tel qu’indiqu´e dans l’introduction, le seul ´el´ement vraiment novateur est le test d’hypoth`eses jointes. Sinon, on peut effectuer des tests d’hypoth`eses simples de la mˆeme mani`ere que dans le cas de la r´egression simple.

9.1 Tests d’hypoth`eses simples par rapport `a un seul coefficient

Il n’y a strictement aucun changement par rapport `a la fac¸on de tester une hypoth`ese simple dans le cadre du mod`ele de r´egression simple. La statistiquetde base, pour n’importe quel test, peut s’´ecrire :

t =

βˆi−βiH0 sβˆ

i

,

o`uβiH0 est la valeur du coefficientisous l’hypoth`ese nulle,βˆiest la valeur du coefficient obtenue lors de l’estimation, etsβˆi est un estim´e convergent de l’´ecart type de l’estim´e du coefficient.

Dans le cas de la r´egression multiple, c’est la racine carr´ee de l’i-i`eme ´el´ement diagonal deΣˆβˆ

(cas h´et´erosc´edastique) ouΣ˜βˆ(cas homosc´edastique).

Toute la discussion du chapitre 4 concernant lesp-values et les taux de significativit´e marginaux s’applique. La statistiquetsuit approximativement une loi normale centr´ee r´eduite (si, bien sˆur, l’´echantillon est suffisamment grand).

Dans le cas d’une hypoth`ese alternative `a deux extr´emit´es (bilat´erale), une grande valeur absolue de la statistiquet(peu importe son signe) constitue de l’´evidence contreH0. SoitΦ (−|ta|)la valeur de la distribution normale cumul´ee pour moins la valeur absolue de la valeur calcul´ee de la statistiquet. Nous avons :

Φ (−|ta|) =Pr(t≤ −|ta|)

qui est donc ´egale `a la probabilit´e d’obtenir une valeur au moins aussi petite qu’une valeur qui est inf´erieure `aβiH0 partfois son ´ecart type. Dans le cas o`uβˆi−βiH0 <0ceci est ´egal `a

qui est donc ´egale `a la probabilit´e d’obtenir une valeur au moins aussi grande qu’une valeur qui est sup´erieure `aβiH0 partfois son ´ecart type.

Tout cela revient `a dire que lap-value du test avec hypoth`ese alternative bilat´erale est donn´ee par 2×Φ (−|ta|).

Le cas de tests avec hypoth`ese alternative unilat´erale est semblable. L’analyse des tests

d’hypoth`ese pr´esent´ee dans le chapitre sur le mod`ele de r´egression simple est pertinente. Dans le

cas o`u on a

H0iiH0 et

H1i > βiH0, lap-value du test est donn´ee par

p=Pr z > tact

= 1−Φ tact .

Dans le cas o`u on a

H0iiH0 et

H1i < βiH0, lap-value du test est donn´ee par

p=Pr z < tact

= Φ tact .

9.2 Tests d’hypoth`eses simples par rapport `a une combinaison lin´eaire de

Documents relatifs