Économétrie II

(1)

Économétrie II

Ch. 3. Hétéroscédasticité L3 Économétrie – L3 MASS

Prof. Philippe Polomé, U. Lyon 2 Année 2016-2016

(2)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité

Rappel

1. E(✏i) =08i :Espérance nulle 2. var(✏i) = ² 8i :Homoscédasticité

3. cov(✏t,✏_s) =08t 6=s :Pas d’auto-corrélation 4. E(✏ixi) =08i :Exogénéité

5. XLa matrice X est de plein rang :Pas de multicolinéarité 6. Le modèle est correctement spécifié

7. La variable dépendante Y est continue

(3)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité

Table des matières

Ch. 3.9i :var(✏i) = _i² : Hétéroscédasticité Définition

Sources Conséquences

Estimer la matrice de variance-covariance

Moindres carrés pondérés “Weighted Least Squares”

Tests

(4)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité Définition

Table des matières

Tests

(5)

Définition du problème

I L’hypothèse d’homoscédasticitérequiert que la variance des termes d’erreur soit la mêmepour chaque observation

I Il y a hétéroscédasticité dans le modèle Y =X +✏lorsque :

var(✏) =E⇣

✏✏⁰⌘

=⌃✏= 2 66 64

12 0

22

...

0 _N²

3 77

756= ²IN

(6)

Représentation graphique

(7)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité Sources

Table des matières

Tests

(8)

Données en moyenne

I S’il y a homoscédasticité dans les données de départ, les données en moyenne seront hétéroscédastiques

I y_it avecvar(y_it) =18i,t

I Mais on ne dispose que des moyennes _T¹_g P

tyit =yi où Tg

est la taille du groupe

I Par ex : des moyennes régionales de données individuelles

I var(y_i) = _T¹2 gvar(P

ty_it) = _T¹2 g

P

tvar(y_it) = ^T_T^g2 g = _T¹

g : dépend de la taille du groupe

(9)

Modèle à “coeﬃcients aléatoires”

I Si le modèle sous-jacent est Yi =↵+ ( +µ_i)xi +✏_i

I Par ex. eﬀet de l’éducation sur le salaire

I Alors Yi =↵+ xi+µ_ixi +✏_i =↵+ xi +⌘_i

I Et, avec des termes d’erreurs✏_i et µ_i homoscédastiques et indépendant et un régresseurxi non-stochastique, on trouve

I var(⌘_i) = ²_✏+ ²_µx_i hétéroscédastique

I Semblable au cas suivant

(10)

Régresseur manquant hétéroscédastique

I Si le modèle sous-jacent est yi = 0+ 1x₁i+ 2x₂i +✏i I Mais le modèle estimé est yi = ₀+ ₁x_1i +µ_i

I Alors µ_i = ₂x_2i+✏_i donc,

I six_2i n’est pas corrélé à✏i,var(µi) = ₂²var(x_2i) + ²

I six2i n’est pas stochastique (analyse conditionnelle), var(µ_i) = ₂²x_2i+ ²

I Hétéroscédastique sauf cas particulier

(11)

Eﬀet taille

I La variance est une mesure absolue, pas relative

I Imaginons que le CA de toutes les entreprises varie de 10%

I 10% est un grand nombre pour une grande entreprise

I Part du revenu disponible dépensé en loisirs

I Les familles à faibles revenus dépensent relativement peu en loisirs. Les variations de ces dépenses entre ces familles sont donc faibles

I Pour les familles avec des revenus importants, le montant moyen relatif dépensé en loisirs sera plus élevé, et il y aura une plus grande variabilité entre de telles familles

(12)

Variables explicatives de la variance

I Un régresseur définit des groupesde variances diﬀérentes dans la variable expliquée

I Ex. Rendement de l’éducation

I varianceen productivité propre inobservable✏diﬀère selon les niveauxhd’éducation atteints

I ln(salaire_i) =↵+ education_h+X_i +✏_i

I aveci2hetvar(✏i) = ²h=fonction(educationh)

I Similaire à l’eﬀet taille

I Faible éducation : salaire proche du minimum I Également :

I Qualité inobservée d’un bien par niveau de prix

I Taux d’épargne par niveau de revenu

(13)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité Conséquences

Table des matières

Tests

(14)

Propriétés de ˆ

I MCO restent sans biais(X non-stochastique par facilité)

E⇣ ˆ⌘

=E✓⇣

X⁰X⌘ ₁

X⁰(X +✏)

◆

= +⇣

X⁰X⌘ ₁

X⁰E(✏) =

I MCOconsistants / convergents (sans démonstration)

I Matrice de variance-covariance des coeﬃcients estimés n’est plus ²⇣

X⁰X⌘ ₁

, mais bien (sandwich)

⌃ˆ=E✓⇣

ˆ ⌘ ⇣

ˆ ⌘⁰◆

=⇣

X⁰X⌘ ₁ X⁰E⇣

✏✏⁰⌘ X⇣

X⁰X⌘ ₁

=⇣

X⁰X⌘ ₁

X⁰⌃✏X⇣

X⁰X⌘ ₁

I Théorème de Gauss-Markov ne s’applique plus

I MCO n’est pluseﬃcient

(15)

Inférence

I Estimateur MCO ˆ✏⁰ˆ✏ N k

⇣X⁰X⌘ 1

est biaisé pour⌃ˆ

I Tests d’hypothèse usuels post-estimation (t-stat, F-stat ou LM)invalides dans leur forme classique

I Le bootstrap reste par contre valide

I asymptotiquement comme toujours

I Comment faire face à ces conséquences ? 2 approches

I Estimer⌃ˆà partir de MCO & refaire l’inférence

I Proposer un estimateuralternatif

I Moindres Carrés Pondérés

I Vise à récupérer l’eﬃcience

(16)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité Estimer la matrice de variance-covariance

Table des matières

Tests

(17)

Estimateur robuste White (1980)

I On sait⌃ˆ=⇣

X⁰X⌘ ₁

X⁰⌃✏X⇣

X⁰X⌘ ₁

sandwich

I Sauf cas particulier,⌃✏ inconnue

I White : Pour obtenir un estimateur de ⌃ˆ, il suﬃt d’un estimateur deX⁰⌃✏X (et pas de⌃✏)

I Sous des conditions très générales,S = _N¹ XN

i=1

ˆ

✏²_iXiX_i⁰ est un estimateur consistant de _N¹X⁰⌃✏X

I ˆ✏i =yi X_i⁰ˆ_MCO résidu MCOi

I Xi vecteur-colonne correspondant à l’observationi deX

I DoncXiXi⁰ est bienk⇥k

I Expliciter la matriceX⁰⌃✏X : intuition estimateur de White

(18)

La matrice X

⁰

⌃

✏

X

k⇥k

= 2 66 64

x₁₁ x₂₁ . . . x_N1

x₁₂ x₂₂ . . . x_N2

... ... ... ...

x_1k x_2k . . . x_Nk

3 77 75 2 66 64

12 0

22

...

0 ²_N

3 77 75 2 66 64

x₁₁ x₁₂ . . . x_1k

x₂₁ x₂₂ . . . x_2k

... ... ... ...

x_N1 x_N2 · · · x_Nk

3 77 75

= 2 66 64

12x₁₁ ²₂x₂₁ . . . ²_Nx_N1

12x₁₂ ²₂x₂₂ . . . ²_Nx_N2 ... ... ... ...

12x_1k ₂²x_2k . . . _N²x_Nk 3 77 75 2 66 64

x₁₁ x₁₂ . . . x_1k

x₂₁ x₂₂ . . . x_2k

... ... ... ...

x_N1 x_N2 · · · x_Nk

3 77 75

(19)

La matrice X

⁰

⌃

✏

X

k⇥k

= 2 66 66 66 66 66 66 64

XN i=1

2ix_i1² XN

i=1

i2xi1xi2 . . . XN i=1

2ixi1xik

XN i=1

2ix_i2² . . . XN

i=1

i2xi2xi2

... ...

sym

XN i=1

i2x_ik² 3 77 77 77 77 77 77 75

Comparer avecS = _N¹ XN

i=1

ˆ

✏²_iXiX_i⁰

(20)

Matrice de variance-covariance “robuste”

I ⌃ˆˆ=N⇣

X⁰X⌘ ₁ S⇣

X⁰X⌘ ₁

consistant pour ⌃ˆ

I Peut-être utilisé pour tests usuels post-estimation

I Écart-types issus de White : “robustes à l’hétéroscédasticité”

I Suggestion : corriger la matrice de White parn/(n k 1)

I Lorsquen ! 1les deux approches sont équivalentes

I L’estimateur de White est seulement consistant

I Pas sans biais

I Valable seulement asymptotiquement

I Sur échantillons de petite taille

I t de Student “de White” n’ont pas une distribution proche du t

I Tests ont peu de puissance

I Utile de voir si Bootstrap mène aux mêmes résultats

(21)

Matrice de White : logiciels

I La correction par la matrice de White est pré-programmée sur tous les logiciels d’économétrie.

I Sous Gretl, cocher une case dans la boîte de dialogue d’estimation

I Plusieurs variantes à la correction de White, manuel de Gretl pour les détails

I Dans GRETL

I Prenez les donnéeshprice1.gdtdans Gretl Wooldridge

I Régressezlprice surllotsize,lsqrft,bdrms,colonial

I Pour obtenir l’estimation “robuste” des t-stats

I Cocher “erreurs standards robustes” (la constante n’est plus significative)

(22)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité Moindres carrés pondérés “Weighted Least Squares”

Table des matières

Tests

(23)

Moindres carrés pondérés “Weighted Least Squares”

I Approche alternative à celle de White pour traiter l’hétéroscédasticité

I + ancienne

I Disposer d’informations supplémentaires sur la forme de l’hétéroscédasticité rencontrée permet toujours de dériver un estimateur plus eﬃcient que celui donné par l’estimation

“robuste”

I Donc si on connait la forme de l’hétéroscédasticité, on devrait pouvoir obtenir un gain en eﬃcience

I L’idée générale est de transformer les données de sorte à ce que les erreurs deviennent homoscédastiques

(24)

Forme de l’hétéroscédasticité connue à une constante près

I Supposons que l’hétéroscédasticité puisse être modélisée sous la forme var(✏|X) = ²h(X)

I On peut alors écrire⌃✏= ² 0 BB BB

@

h₁ 0 · · · 0

0 h₂ ...

... ...

0 · · · hN

1 CC CC A= ² avechi =h(Xi)>0

I Si on réécrit le modèleY =X +✏

I sous la forme Y_i phi

= X_i phi

+ ✏i

phi

I alors le terme d’erreur est homoscédastique

(25)

Remarque

I Le résidu MCP est ˆ✏^⇤ =Y^⇤ X^⇤ˆ_MCP

I Le but de MCP est minimiser la P

des carrés des résidus sur les donnéestransformées :

minˆ✏^⇤⁰ˆ✏^⇤ =minP

i

⇣Y_i^⇤ X_i^⇤ˆ_MCP⌘2

=minP

i

✓ Yi

phi

Xi

phi

ˆ_MCP◆2

=minP

i

⇣

Yi Xiˆ_MCP⌘₂ /hi

I Chaque observation estpondérée par l’inverse de sa variance

I Plus une observation a une variance élevée, moins ellepèse dans la somme des carrés des résidus

I La qualité de l’ajustement (R²) aux données originales n’est donc plus recherchée :R²n’estplus une mesure intéressante

(26)

MCP en pratique

I Il faut connaître la forme de l’hétéroscédasticité

I Dans la plupart des cas on ne sait rien sur cette forme

I Il faut donc un estimateur deh(X) ou éventuellement d’autres formesh(X,Z)

I Moindres Carrés PondérésFaisables/Feasible Weighted Least Squares

(27)

MCP Faisable

I On suppose une forme simple de type h(Xi) =exp( ₀+ ₁x_1i+ ₂x_2i +...)

I exp garanti la positivité

I var(✏_i|X_i) = ²exp( ₀+ ₁x_1i+ ₂x_2i+...)

I Comme MCO est sans biais en présence d’hétéroscédasticité, ˆ

✏_i² peut être vu comme une estimation de var(✏i|Xi)

I ˆ✏²_i = ²exp( ₀+ ₁x_1i+ ₂x_2i+...)⌫i;⌫ terme d’erreur

I Estimer ln ✏ˆ²_i =↵₀+ ₁x_1i + ₂x_2i +...+ln(⌫i) par MCO

I On peut rajouter des régresseursZ +X dans cette équation

I Estimation dehi :hˆi =exp⇣ ˆ

↵₀+ ˆ₁x_1i+ ˆ₂x_2i+...+¹₂ˆ_⌫²⌘

I Il faut ajouter un terme en variance au carré parce que exp est non-linéaire (Verbeek) – sans démonstration

(28)

Mise en garde sur les MCP faisables

I Dans le doute sur la présence et la forme de l’hétéroscédasticité

I il peut être tentant de prendre une forme usuelle et d’appliquer les MCP

I D’autant plus tentant si le logiciel utilisé propose une procédure simple

I Mais

I Si les termes d’erreurs sont homoscédastiques au départ,

I l’estimateur desMCPF pourra être biaisé et inconsistant

I Par monte-carlo, on voit que ce sont des configurations peu courantes

I Si l’hétéroscédasticité dépend d’une variable inconnue,

I ou ne dépend pas d’une variable,

I il peut être diﬃcile d’apporter une correction significative

(29)

Comparaison des deux approches

I Approche 1 : MCP

I ˆ_MCP 6= ˆMCO

I Approche historique, en principe meilleure que MCO

I Si l’hyp sur forme de l’hétéroscédasticité est correcte

I Permet alors un gain d’eﬃcience

I Mais risques l’hyp est fausse

I Approche 2 : var\⇣ ˆ_MCO⌘

robuste

I On garde les ˆ_MCO

I 2.a. White : basé sur un résultat plus récent (1980) que MCP ; requiert une plus grande puissance de calcul

I 2.b. bootstrap : puissance de calcul encore plus grande

I 2.a et 2.b : pas d’hypothèses supplémentaires par rapport à MCO mais seulement valables pour de grands échantillons

I Évite de tester l’hétéroscédasticité

I et de chercher quelle forme elle pourrait prendre

I Renonce au gain potentiel d’eﬃcience

(30)

Importance de l’hétéroscédasticité en pratique

I L’hétéroscédasticité est la norme avec les données micro en coupe transversale

I L’homoscédasticité est l’exception

I On va habituellement utiliser White / bootstrap

I Plus rarement MCP / MCG

I Pas aussi évident pour les séries temporelles

I Car c’est toujours la même unité qui est observée

I White est aussi disponible

I Mais existence de modèles alternatifs propres

(31)

Exemple dans Gretl

I Prenez les donnéeshprice1.gdt dans Gretl Wooldridge

I Régressez lprice surllotsize,lsqrft,bdrms,colonial

I Moindres Carrés Pondérés : “Modèle” – “autres modèles linéaires” – “MCP”

I Un seul régresseur est associé à l’hét.

I Une façon alternative est “Hétéroscédasticité corrigée” qui impose une correction “à la White”

I c’est-à-dire : l’hét. est approximée à partir d’une regression contenant les régresseurs et leurs carrés

I comme dans le test de White (plus loin)

(32)

Ch. 3.9i:var(✏_i) = ²_i : Hétéroscédasticité Tests

Table des matières

Tests

(33)

Principe des tests d’hétéroscédasticité

I On n’observe jamais les vrais termes d’erreur.

I On les “estime” à partir des résidus de la régression par MCOˆ✏i

I “car” MCO sans biais en présence d’hétéroscédasticité

I 3 tests populaires

I Breusch-Pagan

I White

I Goldfeld-Quandt

(34)

Test de Breusch-Pagan

I On veut tester H₀ :var(✏i|x_1i, ...,xki) = ² 8i

I Equivalent à testerH₀:E ✏²_i|x_1i, ...,x_ki = ²8i carE(✏) =0

I Si on suppose que la relation entre✏²_i et Xi est suﬃsamment proche du linéaire

I ✏²_i = ₀+ ₁x_1i+...+ _kx_ki+⌫

I Alors testerH₀revient à testerH₀: ₁= ₂=...= _k =0

I Régresser carré des résidusˆ✏²_i sur toutes les variables explicatives X

I Tester significativité globale via la procédure habituelle (F-test ou LM-test)

(35)

Test de White

I Test de Breusch-Pagan permet de détecter les formes linéaires d’hétéroscédasticité

I Test de White permet de prendre en compte certaines non-linéarités en utilisant les carrés et les produits croisés de toutes les variables explicatives

I Même procédure que Breusch-Pagan

I En introduisant tous lesx_j²et lesx_jx_m

I Et en testant que les paramètres associés sont conjointement significatifs (F-test ou LM-test)

I Rapidement : nombre de paramètres à estimer impraticable. . .

I En proba (5%) erreur type I :¬R H0 fréquente

(36)

Forme alternative du test de White

I Les valeurs ajustéesyˆi =Xiˆsont fonction de toutes lesX

I yˆ² est une fonction des carrésx_j²et des produits croisésxjxm I yˆ² peut être utilisé pour représenter les non-linéarités

I On peut utiliseryˆpour représenter tous lesX à la fois

I Procédure

1. Régresser le carré des résidus MCOˆ✏²_i sur les valeurs ajustées ˆ

y_i etyˆ_i²

2. F-test ou un LM-test sur la significativité globale de cette régression

I On ne teste plus que les coef. de ces 2 paramètres

I Ce test repose sur une hypothèse forte concernant la forme de l’hétéroscédasticité

I Celle-ci est fonction des variables incluses

I N’impose pas la linéarité de cette forme (on peut étendre aux cubes...)

(37)

Test de Goldfeld-Quandt

I Dans le cas où la théorie permet d’envisager une hétéroscédasticité causée par une seule explicativexm

1. Trier les observations par les valeurs de la variable explicative soupçonnée source d’hétéroscédasticité

I et donc corrélée avecˆ✏²_i

2. Supprimer la partie des données triées qui se trouve au milieu de l’échantillon

I entre¹/3et¹/5des données

3. Estimations séparées (MCO) sur les deux sous échantillons : hautes et basses valeurs dexm

4. Les rapport des variances estimées des termes d’erreur des deux régressions suit une distribution de Fisher

I GQ= ˆ₁²

ˆ₂² ⇠F_N₁ _K,N₂ _K

I N₁ K = nombre de degrés de liberté de la 1ère régression

(38)

Exemple dans Gretl

I Prenez les donnéeshprice1.gdt dans Gretl Wooldridge

I Régressez lprice surllotsize,lsqrft,bdrms,colonial

I Pour tester : MCO puis post-estimation

I Gretl propose 2 tests : White (1ºforme), Breusch-Pagan, mais pas Goldfeld-Quandt

I Breusch-PaganR homoscédasticité

I White (1ºforme)¬R

I Diﬃcile de conclure

(39)

Devoir #3 Hétéroscédasticité

Conception d’une feuille de tableur pour montrer l’eﬀet de l’hétéroscédasticitésur les coeﬃcients estimés dans une

régression linéaire MCO à deux variablesx₁ et x₂ et une constante.

1. Générer le terme d’erreur ✏; par exemple pour chaque observation i, générer d’abord un nombre aléatoire

↵i 2[1,10], puis générer ✏i =↵in(0,1)

2. Illustrer que les MCO sont inconsistants ou non lorsqu’il y a hétéroscédasticité

3. Employer la formule classique de calcul de la matrice de variance-covariance des estimations MCO

3.1 (pour les plus motivés) Montrer que la diagonale de cette matrice ne s’approche pas des variances des coeﬃcients estimés en Monte-Carlo