Homoscédasticité versus Hétéroscédasticité

Suivant la philosophie du livre de Stock et Watson, nous avons mis l’accent sur le calcul d’écarts types pour nos coefficients estimés qui sont robustes à la présence d’erreurs hétéroscédastiques.

J’accepte complètement l’argument de Stock et Watson que les données que nous utilisons la plupart du temps pour estimer nos modèles économétriques n’ont pas des erreurs

homosc´edastiques.

Par contre, on peut se poser la question suivante : y a-t-il des façons dedétecterla présence de l’hétéroscédasticité ? La réponse estOui, mais le livre de Stock et Watson est totalement muet

à cet égard. Commençons par une méthode informelle ou graphique.

Il s’agit de regarder un graphique avec les résidus de l’équation estimée sur l’axe vertical et une des variables explicatives du modèle sur l’axe horizontal. Si la grandeur absolue des résidus varie systématiquement avec la variable explicative, c’est un signe de la présence de

l’hétéroscedasticité. On peut aussi regarder un graphique où on mesure les résidus au carré sur l’axe vertical. Si les points on une pente non nulle évidente (positive ou négative), c’est un signe de la présence de l’hétéroscédasticité. Si c’est le cas, il est fortement conseillé d’effecteur un ou plusieurs tests formels.

1. L’articleWikipediaqui s’intituleHeteroscedasticityest une bonne introduction au sujet.

2. Le testGoldfeld-Quandt.

3. Le testBreusch-Pagan. On régresse les résidus au carré sur les variables explicatives du modèle. Il y a un bon article surWikipediaqui explique le test.

4. Le test deWhite. C’est peut-être le test le plus fréquemment utilisé. L’économètre qui l’a

développé a aussi proposé la version robuste de la matrice variance-covariance que l’on présente dans le manuel. Pour effectuer le test, on utilise les résidus au carré comme la variable dépendante dans une régression multiple (qu’on appelle unerégression auxiliaire), ou les variables explicatives sont les variables explicatives du modèle original, tous les co-produits possibles des variables explicatives, et les variables explicatives au carré. White a montré que la statistiqueR² de cette régression suit (en grand échantillon) une distributionχ²avec un nombre de degrés de liberté égal au nombre de variables explicatives dans la régression auxiliaire moins un. Il y a un article sur ce test chezWikipedia, mais il est moins complet que l’article sur le testBreusch-Pagan.

5. Le test deGlesjer.

Voir l’articleHeteroscedasticity chezWikipediapour plus de d´etails sur les tests diff´erents et pour des renvois. Nous allons revenir sur cette question dans le dernier chapitre du plan de cours sur les tests diagnostics.

Bon nombre de logiciels économétriques modernes effectuent le test de White, ou un ou plusieurs des autres tests lors de l’estimation d’un modèle de régression multiple, soit automatiquement soit en spécifiant une option simple.

En présence d’hétéroscédasticité, si sa forme est connue (si on connaˆıt comment dépend la variance de l’erreur en fonction des variables explicatives du modèle), il y a des estimateurs plus efficients des coefficients du modèle. Il s’agit de l’estimateur moindres carrés généralisés

(Generalized Least Squares en anglais). Nous n’avons pas le temps d’étudier cet estimateur dans ce cours. Il fait partie des sujets étudiés dans le cours ECO5272.

7 Efficience de l’estimateur MCO sous l’homosc´edasticit´e

Sous les hypothèses de base du modèle de régression multiple, et dans le cas de

l’homoscédasticité, on peut montrer que l’estimateur MCOβâ une variance au moins aussi petite que n’importe quel autre estimateur linéaire (enY) et non biaisé. C’est le théorème

Gauss-Markov. Dans le cas d’unvecteurde paramètres, la notion devariance au moins aussi petite que est ambiguë pusiqu’il y a plusieurs éléments dansβ. Il faut la comprendre de la manière suivante. Siβ˜est n’importe quel estimateur linéaire et non biaisé deβ, il faut que

Var c⁰βˆ

≤Var c⁰β˜

pour toute combinaison linéairec⁰β. Ici,cest un vecteur de constantes de dimensions(k+ 1)×1 et doncc⁰βest un scalaire. Il y a une preuve du théorème dans l’annexe 18.5 du manuel. Notez qu’il ne faut pas supposer la normalité du terme d’erreur pour montrer l’efficience de l’estimateur MCO. Voir Giles (2011b) pour une discussion détaillée.

Le théorème Gauss-Markov explique l’importance de l’estimateur MCO dans l’histoire de l’économétrie et de la statistique.

Tel qu’indiqué à la fin de la section précédente, il est possible, si on connaˆıt la forme de

l’hétéroscédasticité (comment elle est reliée aux variables explicatives du modèle), l’estimateur MCG (moindres carrés généralisés) sera typiquement plus efficient que l’estimateur MCO.

7.1 Preuve du th´eor`eme Gauss-Markov

Je reprends ici une preuve relativement simple tirée de l’articleWikipediasur le Théorème Gauss-Markov. Il est très important de noter que pour les fins de cette preuve, les variables explicativesX sont considérées comme étant fixes ou non stochastiques.

Soitβ˜=CY un autre estimateur linéaire deβ.¹¹ On suppose queCpeut être ećrite comme (X⁰X)⁻¹X⁰+D, oùDest une matrice non nulle de dimensions(k+ 1)×n. Notre but est de montrer que sa variance doit être au moins aussi élevée que celle deβ, l’estimateur MCO.ˆ L’espérance deβ˜est donnée par

E(CY) = E (X⁰X)⁻¹X⁰+D

(Xβ+U)

11. Il faut aussi prendre les éléments deCcomme étant fixes ou non stochastiques.

= (X⁰X)⁻¹X⁰+D

Xβ+E (X⁰X)⁻¹X⁰+D U

=β+DXβ+E (X⁰X)⁻¹X⁰+D

E(U|X)

=β+DXβ,

où nous avons utilisé la loi des projections itérées. Nous voulons prouver queβâ la plus petite variance parmi tous les estimateurs linéairesnon biaisés. Pour que notre estimateur soit non biaisé, il faut que

DX = 0.

Calculons maintenant sa variance. Il s’agit de la variance conditionnelle (´etant donn´e les valeurs deDet deX). Nous avons

Var(CY|X, D) =CVar(Y|X, D)C⁰

=CVar(U|X)C⁰

=σ²CC⁰

=σ² (X⁰X)⁻¹X⁰+D

(X⁰X)⁻¹X⁰+D0

=σ² (X⁰X)⁻¹X⁰X(X⁰X)⁻¹+ (X⁰X)⁻¹X⁰D⁰+DX(X⁰X)⁻¹+DD⁰

=σ² (X⁰X)⁻¹+DD⁰

=σ²(X⁰X)⁻¹ +σ²DD⁰ puisqu’il faut queDX = 0si notre estimateur est non biais´e.

La matriceDD⁰est une matrice positive semi-d´efinie. Nous avons

Var β˜

−Var βˆ

=σ²DD⁰

⇒Var c⁰β˜

−Var c⁰βˆ

=σ²c⁰DD⁰c≥0,

la dernière inégalité étant la définition même d’une matrice positive semi-définie. Ce qui fut à démontrer.

8 Biais d ˆu `a des variables omises (bis)

Montrer le biais qui provient de variables omises est beaucoup plus facile en notation matricielle qu’avec des sommations. Supposons que le vrai modèle peut être écrit comme :

Y =

Ici,X₁etX₂ont l’interpr´etation desous-matricesetβ₁etβ₂ont l’interp´etation desous-vecteurs.

Donc, la dernière équation indique nous avons, de façon erronée, regroupé des variables explicatives du modèle avec le terme d’erreur.

Si nous estimons le mod`ele erron´e, nous avons :

βˆ₁ = (X₁⁰X₁)⁻¹(X₁⁰Y) = (X₁⁰X₁)⁻¹(X₁⁰(Xβ+U))

Nous avons :

E βˆ₁

=β₁+E (X₁⁰X₁)⁻¹X₁⁰X₂β₂

+E (X₁⁰X₁)⁻¹X₁⁰E(U|X)

=β1+E (X₁⁰X1)⁻¹X₁⁰X2β2

=β1+E (X₁⁰X1)⁻¹X₁⁰X2

β2.

Interprétation : le biais dépend deX₁⁰X₂, la matrice de comouvements bruts entre les éléments de X₁et les éléments deX₂ ainsi que des vraies valeurs des coefficientsβ₂.

Notez que

(X₁⁰X₁)⁻¹X₁⁰X₂

serait tout simplement la matrice de coefficients obtenus si on régressait chaque variable dansX₂ surX₁. C’est essentiellement la formule d’un estimateur MCO, mais c’est une généralisation puisqueX₂est une matrice et non un vecteur.

Vous devriez vérifier que l’expression développée pour le biais au début du chapitre 6 du manuel est tout simplement un cas spécial de cette expression.

Afin de mieux cerner le concept de biais dû à des variables omises, je développe dans l’encadré le sujet du modèle de régression partitionné qui suit.

R´egression partitionn´ee

Pour de plus amples renseignements, voir Pollock (2007). Reprenons le mod`ele de r´egession multiple en faisant la distinction entre le sous-ensemble de variables explicativesX₁ et le sous-ensembleX₂.

Y =

X₁X₂





 β₁ β₂





+U

=X₁β₁+X₂β₂+U.

Au lieu de regrouper les variablesX₂avec le terme d’erreur comme nous avons fait dans la section précédente, nous allons regarder explicitement comment notre estimé MCO deβ₁, soit βˆ1, est affecté parβˆ2. Rappelons ce que nous avons appelé leséquations normales lorsque nous avons trouvé la solution pour l’estimateur MCO pour le modèle de régression multiple :

X⁰Xβ =X⁰Y.

Nous pouvons écrire ces équations commme deux sous-ensembles d’équations :

X₁⁰X₁β₁+X₁⁰X₂β₂ =X₁⁰Y

X₂⁰X₁β₁ +X₂⁰X₂β₂ =X₂⁰Y.

Du premier de ces 2 ensembles d’´equations, nous avons

X₁⁰X₁β₁ =X₁⁰ (Y −X₂β₂)

⇒βˆ₁ = (X₁⁰X₁)⁻¹X₁⁰

Y −X₂βˆ₂ .

Nous devons maintenant trouver une solution pourβˆ₂. Multiplions le premier sous-ensemble parX₂⁰X₁(X₁⁰X₁)⁻¹pour obtenir

X₂⁰X₁β₁+X₂⁰X₁(X₁⁰X₁)⁻¹X₁⁰X₂β₂ =X₂⁰X₁(X₁⁰X₁)⁻¹X₁⁰Y.

Maintenant, soustrayons cette équation du deuxième sous-ensemble d’équations, obtenant ainsi

X₂⁰X₂β₂−X₂⁰X₁(X₁⁰X₁)⁻¹X₁⁰X₂β₂ =X₂⁰Y −X₂⁰X₁(X₁⁰X₁)⁻¹X₁⁰Y.

⇒

X₂⁰X₂ −X₂⁰X₁(X₁⁰X₁)⁻¹X₁⁰X₂

β₂ =

X₂⁰ −X₂⁰X₁(X₁⁰X₁)⁻¹X₁⁰ Y.

D´efinissons

P₁ ≡X₁(X₁⁰X₁)⁻¹X₁⁰. Nous pouvons ´ecrire

(X₂⁰ (I−P₁)X₂)β₂ =X₂⁰ (I−P₁)Y oùI est la matrice identité conformable àP₁, et donc

βˆ₂ = (X₂⁰(I−P₁)X₂)⁻¹X₂⁰ (I −P₁)Y.

Notez que nous avons suivi une méthodologie semblable à celle dans le chapitre sur le modèle de régression simple. Nous avons trouvé une solution pourβˆ₁en fonction deβˆ₂, et ensuite nous avons éliminéβˆ1 dans la solution pourβˆ2 par substitution.

Ces solutions permettent de r´einterpr´eter l’estimateur MCO comme unestimateur en deux

étapes. Considérons d’abord la régression de la variableY surX₁ seulement. Si on appelle les coefficients estimésβ˜1, nous avons

β˜₁ ≡(X₁⁰X₁)⁻¹X₁⁰Y,

Y˜ =X1β˜1 =X1(X₁⁰X1)⁻¹X₁⁰Y

les valeurs pr´edites deY sur la base de cette r´egression, et

U˜ ≡Y −X₁(X₁⁰X₁)⁻¹X₁⁰Y =

I−X₁(X₁⁰X₁)⁻¹X₁⁰ Y

le vecteur de résidus de cette régression. Considérons maintenant la régression des variables

X₂sur lesX₁. Appelons les coefficientsγ. Nous avons˜

γ ≡(X₁⁰X₁)⁻¹X₁⁰X₂.

Notez qu’il s’agit d’unematricede coefficients estimés puisqu’il y a tout un vecteur de variables dépendantes au lieu d’une seule. AppelonsX˜₂les valeurs prédites des variablesX₂. Nous avons

X˜₂ =X₁˜γ =X₁(X₁⁰X₁)⁻¹X₁⁰X₂,

U¯ ≡X₂−X₁(X₁⁰X₁)⁻¹X₁⁰X₂

I−X₁(X₁⁰X₁)⁻¹X₁⁰ X₂

= (I−P₁)X₂

la matrice de résidus de ces régressions. (Il y a autant de colonnes dansU¯ que dansX₂.) Maintenant, considérons la régression deU˜ surU¯. Appelons le vecteur de coefficients estimés

γ. Nous avons

γ = U¯⁰U¯−1U¯⁰U .˜ Nous avons

U¯⁰U¯ =X₂⁰

I−X₁(X₁⁰X₁)⁻¹X₁⁰ I−X₁(X₁⁰X₁)⁻¹X₁⁰ X₂

=X₂⁰ (I−P₁) (I−P₁)X₂

=X₂⁰ (I−P₁)X₂ puisque

(I−P₁) (I−P₁)

= (I−P₁).

Vous pouvez vérifiez cette égalité facilement. La matrice(I−P₁)est une matrice idempotente. Donc, finalement nous avons

γ = (X₂⁰ (I−P₁)X₂)⁻¹X₂⁰ (I−P₁)Y.

Mais ceci n’est rien d’autre que la solution que nous avions trouv´ee pourβˆ₂.

En régressantY surX₁ etX₂surX₁, on purge l’effet desX₁sur la variable dépendanteY et sur les autres variables explicativesX2. Avec la régression deU˜ surU¯, on estime l’effet des X₂(purgées de l’influence desX₁) surY (purgée aussi de l’influence desX₁). Mais c’est exactement ce que fait l’estimation MCO lorsqu’on inclut les deux sous-ensembles de variables explicatives dans le modèle en même temps. Ce résultat s’appelle le théorème Frisch-Waugh-Lovell. Pour de plus amples renseignements, voir Lovell (2010).

Supposons maintenant que notre modèle de régression est sans constante. Nous pouvons toujours réécrire le modèle de régression linéaire de la façon suivante :

Y =Xβ+U

Y¯ = ¯Xβ+ ¯U

⇒ Y −Y¯

= X−X¯

β+ U −U¯ .

Si, comme d’habitude, la première colonne contient une constante, elle va disparaˆıtre de ce système d’équations et nous aurons

Y˜ = ˜Xβ˜+ ˜U

o`u

Y˜ ≡Y −Y ,¯ X˜ ≡X−X¯

U˜ ≡U −U¯

et oùX˜ peut être redéfinie comme une matricen×kpuisque sa première colonne est une colonne de zéros. Autrement dit, il est toujours possible de réécrire le modèle de régression linéaire sans une constante en exprimant toutes les variables (explicatives et dépendante) comme des déviations par rapport à leurs moyennes échantillonnales.

Donc, supposons que notre modèle est effectivement sans constante. Qu’est-ce qui arrive lorsque la corrélation échantillonnale entreX₁etX₂ est zéro ? Dans ce cas, nous avons X₁⁰X2 = 0, puisque les variables dansX1 etX2sont mesurées en déviations par rapport à leurs moyennes échantillonnales. Autrement dit,X₁etX₂ sont orthogonales. Nous avons dans ce cas particulier

βˆ= (X⁰X)⁻¹X⁰Y

On aurait pu montrer le même résultat à partir des solutions développées ici pourβˆ₁ etβˆ₂. Faisons-le ici. Nous avons

βˆ₁ = (X₁⁰X₁)⁻¹X₁⁰

Y −X₂βˆ₂

= (X₁⁰X₁)⁻¹X₁⁰Y −(X₁⁰X₁)⁻¹X₁⁰X₂βˆ₂

= (X₁⁰X1)⁻¹X₁⁰Y dans le cas de l’orthogonalit´e. Dans le cas deβˆ2, nous avons

βˆ₂ = (X₂⁰(I−P₁)X₂)⁻¹X₂⁰ (I −P₁)Y

X₂⁰X2−X₂⁰X1(X₁⁰X1)⁻¹X₁⁰X2

−1

X₂⁰Y −X₂⁰X1(X₁⁰X1)⁻¹X₁⁰Y

= (X₂⁰X2)⁻¹X₂⁰Y

dans le cas de l’orthogonalité. Dans le cas général (lorsqueX1 etX2 ne sont pas orthogonales), les solutions ne sont évidemment pas aussi simples.

Ceci veut dire que, dans le cas de l’orthogonalité, on peut estimer un modèle de régression (avecY comme variable dépendante) contenant seulement les variablesX1, seulement les variablesX2, ou avec toutes les variables ensemble, et on va obtenir exactement les mêmes valeurs pour les coefficients estimés. Le théorème Frisch-Waugh-Lovell est assez

remarquable.

Nous pouvons aussi réinterpréter ces résultats à la lumière de ce que nous avons trouvé concernant le biais dû à des variables omises. Dans le cas de l’orthogonalité,X₁⁰X2 = 0et il n’y a pas de biais. On peut régresserY sur seulementX₁ ou sur seulementX₂ et il n’y a pas de biais. On obtient des estimateurs non biaisés.

On peut aussi réinterpréter tout ceci en termes géométriques. Voir Davidson et MacKinnon

(1999) et Sosa Escudero (2001) pour plus de d´etails.

Tel que noté par Pollock (2007), les coûts reliés au biais dû à des variables omises dépendent des buts de notre modélisation. Si parmi les variablesX₁il y a des variables qui seront utilisées comme des instruments de politique économique, il est très important d’obtenir des estimés non biaisés de leur impact. Si ce qui nous intéressent est surtout la prédiction de l’espérance deY conditionnelle aux valeurs desX, l’absence de biais est sans doute moins importante.

9 Tests d’hypoth`eses et ensembles de confiance

Tel qu’indiqué dans l’introduction, le seul élément vraiment novateur est le test d’hypothèses jointes. Sinon, on peut effectuer des tests d’hypothèses simples de la même manière que dans le cas de la régression simple.

9.1 Tests d’hypoth`eses simples par rapport `a un seul coefficient

Il n’y a strictement aucun changement par rapport à la façon de tester une hypothèse simple dans le cadre du modèle de régression simple. La statistiquetde base, pour n’importe quel test, peut s’écrire :

t =

βˆ_i−β_i^H⁰ s_β_ˆ

oùβ_i^H⁰ est la valeur du coefficientisous l’hypothèse nulle,βˆ_iest la valeur du coefficient obtenue lors de l’estimation, etsβî est un estimé convergent de l’écart type de l’estimé du coefficient.

Dans le cas de la régression multiple, c’est la racine carrée de l’i-ième élément diagonal deΣˆβˆ

(cas hétéroscédastique) ouΣ˜_β_ˆ(cas homoscédastique).

Toute la discussion du chapitre 4 concernant lesp-values et les taux de significativité marginaux s’applique. La statistiquetsuit approximativement une loi normale centrée réduite (si, bien sûr, l’échantillon est suffisamment grand).

Dans le cas d’une hypothèse alternative à deux extrémités (bilatérale), une grande valeur absolue de la statistiquet(peu importe son signe) constitue de l’évidence contreH₀. SoitΦ (−|tâ|)la valeur de la distribution normale cumulée pour moins la valeur absolue de la valeur calculée de la statistiquet. Nous avons :

Φ (−|t^a|) =Pr(t≤ −|t^a|)

qui est donc égale à la probabilité d’obtenir une valeur au moins aussi petite qu’une valeur qui est inférieure àβ_i^H⁰ partfois son écart type. Dans le cas oùβˆ_i−β_i^H⁰ <0ceci est égal à

qui est donc égale à la probabilité d’obtenir une valeur au moins aussi grande qu’une valeur qui est supérieure àβ_i^H⁰ partfois son écart type.

Tout cela revient à dire que lap-value du test avec hypothèse alternative bilatérale est donnée par 2×Φ (−|tâ|).

Le cas de tests avec hypoth`ese alternative unilat´erale est semblable. L’analyse des tests

d’hypothèse présentée dans le chapitre sur le modèle de régression simple est pertinente. Dans le

cas o`u on a

H₀ :β_i =β_i^H⁰ et

H₁ :β_i > β_i^H⁰, lap-value du test est donn´ee par

p=Pr z > t^act

= 1−Φ t^act .

Dans le cas o`u on a

H₀ :β_i =β_i^H⁰ et

H₁ :β_i < β_i^H⁰, lap-value du test est donn´ee par

p=Pr z < t^act

= Φ t^act .

9.2 Tests d’hypothèses simples par rapport à une combinaison linéaire de

Dans le document Département des sciences économiques Ecole des sciences de la gestion ´ Université du Québec à Montréal (Page 53-67)