Économétrie II

(1)

Économétrie II

L3 Économétrie – L3 MASS Ch. 5.9i:E(eixi)6=0: Endogénéité

Prof. Philippe Polomé, U. Lyon 2

Année 2015-2016

(2)

Ch. 5.9i:E(eix_i)6=0: Endogénéité

Rappel

1. E(ei) =08i

:

Espérance nulle 2. Xvar(ei) =s²8i :Homoscédasticité

3. Xcov(et,es) =08t6=s:Pas d’autocorrélation 4. E(eixi) =08i :Exogénéité

5. XLa matrice X est de plein rang :Pas de multicolinéarité 6.

Le modèle est

correctement spécifié

7.

La variable dépendante

Y

est

continue

(3)

Ch. 5.9i:E(eix_i)6=0: Endogénéité

Table des matières

Ch. 5.9i:E(eixi)6=0: Endogénéité

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(4)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Définition & conséquences

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(5)

Définition

I

Exogénéité :

I Coupe transv.E(e_iX_i) =0

I Pas de corrélation entre l’erreur et chaque régresseur pour un mêmei

I On écrit aussiE(ei|X_i) =0:espérance conditionnelle nulle

I Série temp :E(etx_t) =08t8xpas de corrélation contemporaine

I LorsqueE(et|x_s) =0s=1, . . . ,T,xeststrictement exogène I

Rupture de cette hypothèse =

endogénéité

I

Interprétation : Un choc aléatoire

e

induit un choc sur

Y

et sur

X

pour un même

i

I Donc difficile de séparer les effets “confondants”

(6)

Conséquence : Inconsistance de l’estimateur MCO

I

Corrélation positive : à des valeurs élevées (basses) de

e

correspondent des valeurs élevées (basses) de

X

I egrand :Y >Xb etepetit :Y <Xb

I Donc : droite estimée par MCO pente plus forte que la réalité

I

Monte Carlo : fichier tableur en ligne

Endogeneite.ods

(7)

Pourquoi l’endogénéité est-elle un problème ?

I

Ne vaut-il pas mieux prédire

Y

le mieux possible ?

I

Trois cas

I Prédiction: on veut prédireY conditionnellement àX

I Si on connaitX“einclus”,x(e), ce qui n’est pas évident,

I Dans ce cas, l’effet de l’erreur surX est inclus, donc prédiction MCOYˆcorrecte

I Contrôle: on choisitX, quel seraY? [p.e. effet d’une politique]

I Si on choisitX, l’erreur n’y est pas, donc prédiction MCO incorrecte

I Si l’on souhaitecomprendrela relation entreYetX il faut traiter l’endogénéité

I

Dans les 2 derniers cas : ce n’est pas une bonne idée “d’ajuster

une droite au mieux” dans le nuage de points

(8)

5 sources de l’endogénéité

1.

Hétérogénéité inobservée

2.

Erreur de mesure

3.

Simultanéité

4.

Échantillonnage endogène

5.

Autocorrélation en séries temporelles

(9)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Source 1. Hétérogénéité inobservée

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(10)

2 cas d’hétérogénéité inobservée

I

Variable omise

I

Coefficients aléatoires

(11)

Variable omise

I

Le modèle correctement spécifié est

Y =b₀+b₁x₁+b₂x₂+e

I Mais le modèle estimé estY =b₀+b₁x₁+n

I

L’effet du régresseur manquant se retrouve dans l’erreur du modèle estimée :

n=b₂x₂+e

I = hétérogénéité inoberservée : Des facteurs inobservés affectent à la fois la variable expliquée et un régresseur

I

Si le régresseur manquant est corrélé à un régresseur présent

I Alors le terme d’erreur du modèle estimé est corrélé avec au moins un régresseur présent

I De plus vraisemblablement :

I Hétéroscédasticité sivar(x_2t)6=var(x_2s),t6=s

I Autocorrélation sicorr(x_2t,x_2s)6=0,t6=s

I E(n)6=0l’intercept du modèle est biaisé

(12)

Que faire en cas de variable omise ?

1. Ignorer

le problème : inconsistance des estimateurs

2.

Essayer de trouver un

proxy

acceptable pour la variable

inobservée

I Proxy = mesure approximative de la variable inoberservée (ci-dessous)

3.

Si données de panel et si la variable inobservée ne change pas dans le temps (mais seulement entre les agents)

I Modèle “à effets fixes”(programme de M2)

4.

Laisser la variable inobservée dans le terme d’erreur mais utiliser un estimateur qui reconnait sa présence

I EstimateurVariable Instrumentaleci-dessous

(13)

Proxy

I

Variable inobservée : on sait que le modèle devrait inclure un régresseur, mais on n’a pas de donnée

I

Modèle

I x₂pas observée

I Proxyz

pour

x2

:

I z observée mais pas explicative dans le modèle

I z corrélée àx₂:x₂=d₀+d₁z+µ

I On ne peut tester cette corrélation puisquex₂pas observée

I P.e. (salaire) éducationx₂et nombre d’années d’étudez

I

La proxy n’est pas une erreur de mesure

I Ni un instrument (plus loin)

(14)

Utilisation d’une proxy

I

La variable proxy est

substituée

à la variable inobservée dans

I On peut estimerY =p0+p1x₁+p2z+x

I Que dit ce modèle sur le précédent ?

Y =b₀+b₁x₁+b₂(d₀+d₁z+µ) +e

=b₀+b₂d₀+b₁x₁+b₂d₁z+b₂µ+e

=p₀ +p₁x₁+p₂z +x

I

Donc si

µ

n’est pas corrélé avec

x₁

, estimer

Y =p₀+p₁x₁+p₂z+x

par MCO

I Sans bias et consistant pourb1=p1

I Les autres coef.p₀etp₂n’ont pas d’interprétation directe

(15)

Coefficients aléatoires

I

Autre forme d’hétérogénéité inobservée

I

Modèle vrai

Yi=b₀+x_1ix_1i+hi

avec

x_1i

aléatoire t.q.

I x₁i=g1+µ₁i

I g1pas aléatoire (pourrait dépendre de régresseurs)

I µ1iest un bruit blanc

I P.e. rendement éducation

I

On estime

Yi =b₀+b₁x_1i+ei

donc

I ei=µ₁ix₁_i+hi

I b1=g1 I

Solution

I Variable instrumentale (ci-dessous)

I Modélisation explicite par Maximum de Vraisemblance (on ne voit pas)

(16)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Source 2. Erreurs de mesure

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(17)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Source 2. Erreurs de mesure

Définition & traitement

I

Modèle

y=b₀+b₁x₁^⇤+e

I On n’observe pasx₁^⇤mais bienx₁=x₁^⇤+n

I nest une erreur de mesure

I “Classical Error-in-Variables” (CEV)

I

Équation estimée : avec

x₁

I y=b₀+b₁(x₁^⇤+n) + (e b₁n) =b₀+b₁x₁+µ

I Donc,cov(x₁,µ) =cov(x₁^⇤+n,e b1n) = b1s_n²6=0

I Pour autant que erreur de mesurenpas corrélée avecx₁^⇤ I

Les erreurs de mesure sont la norme

I Endogénéité pas toujours préoccupante

I

Solution : variable instrumentale ci-dessous

I

Une erreur de mesure sur

y

accroît la variance des erreurs

I mais ne cause pas d’endogénéité

(18)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Source 3. Simultanéité

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(19)

Définition & exemples

I

2 variables sont causales l’une de l’autre

I y=b₀+b₁x+e

(x cause

y)etx=g₀+g₁y+µ

(y cause

x)

I Donc :x(y)maisy(e)doncx(e)

I d’où corrélation entrexet l’erreur dansy=b0+b1x+e I

Exemples

I Publicité et vente :

I La publicité accroît/soutient les ventes

I Le budget publicité est calculé en proportion aux ventes

I Fonction de coûtC(Q,W)

I Q= production,W vecteur des prix d’intrants

I Lemme de Sheppard∂C/∂W=d(Q,W): demande d’intrants est fonction de la production mais production est fonction des intrants utilisés

(20)

Exemple de simultanéité : modèle keynésien

I

Deux équations :

forme structurelle

= forme économique

I ConsommationCt=b₀+b₁Yt+etavecY le PIB

I Identité comptableYt=Ct+ItavecI l’investissement, ici exogène

I Économie fermée sans état

I

La consommation et le revenu sont donc déterminés

simultanément

I CetY sont deux endogènes

(21)

Forme réduite

I Forme réduite

= toutes les endogènes à gauche

I C_t= 1

1 b₁[b0+b1I_t+et] =d0+d1I_t+µt

I Yt= 1

1 b₁[b0+It+et] =g0+g1It+nt I

Clairement,

Y

est corrélé à

e

I DONC :Endogénéité dans le modèle structurelen estimant l’équation de consommation, même seule

(22)

Moindres Carrés Indirects

I

MCO

toujours

consistant pour forme réduite

I Identification

: coef. forme structurelle peuvent-ils être récupérés de la forme réduite ?

I Ici, en estimant chaque équation de la FR :dˆ0,dˆ1,gˆ0,gˆ1 I On calcule les coef. structurels parb1= d1

1+d₁ ect

I

Si

une seule

manière de récupérer

tous

les coef. structurels : système

exactement identifié

I Moindres Carrés Indirects MCI= appliquer MCO à la forme réduite & résoudre pour obtenir les coef. structurels

I

Si certains coef. ne peuvent être ainsi retrouvés :

sous-identifié

I

Si certains coef. retrouvés de

plus d’une

manière :

sur-identifié

I “Bonne” manière ? Variable Instrumentale

(23)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Estimation en présence d’endogénéité

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(24)

Méthode des Moments MM

I

Interprétation d’inversion de MCO dite “méthode des moments”

I

Soit

A

un estimateur de

b

dans

Y =Xb+e

I alors on peut écrireY XA= ˆe

I

Hypothèse exogénéité

E(Xe) =0

I

Stratégie “méthode des moments”

I Cette condition sur les moments de lapopulationestimposée aux moments del’échantillon

I C’est-à-dire on veutAtel queX⁰ˆe=0

I Donc :X⁰(Y XA) =0: ce sont les CPO de moindres carrés

I Donc :A= (X⁰X) ¹X⁰Y = ˆb

(25)

Variables instrumentales

I

Hypothèse exogénéité

E(Xe) =0

ne tient plus

I

Supposons qu’on puisse trouver un ensemble de variables

Z

ou

“instruments” telles que

I Z etX soient de mêmes dimensions

I E(e|Z) =0

I Corr(Z,X)soit élevée

I

Donc

Z

permet d’inverser la relation

Y =Xb+e

I ViaZ⁰Y =Z⁰XA+Z⁰e, on a(Z⁰X) ¹Z⁰Y =A+ (Z⁰X) ¹Z⁰e

I Si on aPlim Z⁰e=0(à la limiteZ etene sont pas corrélés)

I Alors :Estimateur Méthodes des Moments:

I At.q.Z⁰(Y XA) =0

I A= (Z⁰X) ¹Z⁰Y= ˆbVI

I ⌘Estimateur Variables InstrumentalesVI

(26)

Propriétés de b ˆ

_VI

I

Il s’agit d’un estimateur alternatif à MCO

I En généralbiaisé

I Consistant(si les instruments sontvalides, voir ci-dessous)

I

On peut démontrer que

⌃bˆVI =s_e²⇣

Z⁰X⌘ ₁⇣ Z⁰Z⌘⇣

Z⁰X⌘ ₁

I Cette variance est d’autant plus faible que la corrélation entreZ etXest forte

I À la limite siZ etXnon-corrélés, alorsZ⁰X!0et⌃bˆVI !•

I

MCO peut être vu comme VI avec

Z

=

X

I Corr(Z,X) =1

I Donc : si pas endogénéité, MCO plus efficient que VI

I 6=

remplacer

X

par

Z

dans

Y =Xb+e

[cfr. proxy]

I Si on le faisait, le modèle seraitY=Zg+µ

I Et l’estimateur MCO seraitgˆ_MCO=⇣ Z⁰Z⌘ 1

Z⁰Y

(27)

Exemple : Equation de salaire

I

Eq mincérienne de salaire

I lnw=b0+b1educ+b2exper+b3exper²+e

I w salaire ;educnbr années études ;exper nbr années expérience

I

Capacités Intellectuelles Intrinsèques (CII) de l’individu

I Inobservées / inobservables

I Corrélées avec niveau d’éducation :educ=a0+a1CII+n

I Corrélées avec niveau de salaire :ln(w) =d0+d1CII+µ

I

Rendement de l’éducation estimé par eq mincérienne

I Sur- ou sous-estimé ?

I

Données

card.gdt

de Wooldridge

I Définirlnwage,exper²puis GMM 1 étape

I Instrument possible : proximité à un “college4”

I On en verra d’autres plus loin

(28)

Instruments & Tests

I

La difficulté fondamentale est de

trouver

des instruments

I On verra quelques cas

I En séries temporelles & panels : valeurs passées (retards)

I En systèmes d’équations : régresseurs dans d’autres équations

I

Avec VI, il faut exactement un instrument par variable de

X

(identification exacte)

I Les variables non-endogènes sont leurs propres instruments

I Plus d’un instrument pour une variable =) il faut généraliser la méthode

I

Les tests d’inférence n’ont plus de valeur qu’asymptotiquement

I Le bootstrap reste valide

I LeR²n’a plus de sens

(29)

Validité des instruments

I

Difficile de tester l’exogénéité des instruments

cov(Z,e) =0

I Test OverId + loin

I SiZ n’est pas exogène, VI sera inconsistant (par construction)

I )VI ne s’applique pas en cas d’échantillonnage endogène

I

On peut mesurer la corrélation entre

Z

et

X

I

Soit

Y =b₀+b₁x+e

I xest endogène, on a un instrumentz

I Sicov(z,e)6=0on peut montrer quePlimbˆ₁_VI=b₁+cov(z,e) cov(z,x)

I Donc que sicov(z,e)6=0alorsbˆVI est inconsistant

I De plusPlimbˆ₁VI =b1+secorr(z,e) sxcorr(z,x)

I Donc, sicorr(z,e)6=0même faible, alors sicorr(z,x)est faible (mauvais instrument),Plimbˆ_1VI ne sera pas proche deb1

(30)

Illustration d’un mauvais instrument : Poids à la naissance

I

Données

bwght.gdt

Wooldridge

I Poids de l’enfant à la naissance (bwght) en log en fonction de

I consommation de tabac (packs)

I revenu familial (faminc) prix commeproxyd’autres facteurs (accès aux soins, ...)

I On peut rajouter d’autres régresseurs

I

La consommation de tabac pourrait être endogène

I P.e. stress (= hétérogénéité inobservée)

I

Instrument :

cigprice

prix des cigarettes

I Équation d’instrumentation (ci-dessous)

I ou corr(cigprice,packs)

I On voit que c’est un mauvais instrument

(31)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(32)

Instrumentation

I

Application particulière de VI

I

Soit

l’équation structurelleY =Xb+e

I Supposons que dansX,xksoit endogène

I et qu’on dispose d’un instrumentzpourxk I La matrice d’instruments seraitZ,

I identique àX sauf dernière colonne : remplacerx_kparz I Équation d’instrumentation

xk=d₀+d₁x1+. . .+d_k ₁xk 1+d_kz+µ =Zd+µ

I Estimation MCO, valeurs ajustées dexk

I xˆk= ˆd0+ ˆd1x1+. . .+ ˆdk 1xk 1+ ˆdkz=Zdˆ

I On voit quexˆkest un instrument valide pourxk

I sizest un instrument valide pourx_k

I Xˆ la matriceXdans laquelle on a remplacéxkparxˆk

(33)

MC en 2 Étapes

I

Estimateur VI avec

Xˆ

est

bˆVI =⇣

Xˆ⁰X⌘ ₁ Xˆ⁰Y

I Meilleur que(Z⁰X) ¹Z⁰Y car la corrélation entrexˆketxkau moins aussi élevée que entrez etxk

I

L’estimateur VI est équivalent à une estimation MCO en deux étapes (MC2E) :

1.

Estimation de l’équation d’instrumentation

xk =Zd+µ 2.

Remplacer

X

par

Xˆ

dans l’équation structurelle

I Y =pXˆ+n(régression de 2nde étape)

I et on estime par MCO

I pˆMC2E=⇣ Xˆ⁰Xˆ⌘ 1

Xˆ⁰Y : c’est⇣ Xˆ⁰Xˆ⌘ 1

et pas⇣ Xˆ⁰X⌘ 1

comme dansbˆVI

I On peut montrer quepˆ_MC2E= ˆbVI=⇣ Xˆ⁰X⌘ ₁

Xˆ⁰Y

(34)

p ˆ

_MC2E

= ˆ b

_VI

= ⇣

X ˆ

⁰

X ⌘

₁

X ˆ

⁰

Y : Preuve

I

On note qu’on peut écrire

Xˆ=Z⇣

Z⁰Z⌘ 1

Z⁰X

I Pour la dernière colonne deXˆ, c’estZdˆ

I Pour les autres, ce sont les colonnes deX (exogènes) pˆ_MC2E =⇣

Xˆ⁰Xˆ⌘ ₁ Xˆ⁰Y

=

✓ X⁰Z⇣

Z⁰Z⌘ ₁ Z⁰

✓ Z⇣

Z⁰Z⌘ ₁ Z⁰X

◆◆ 1

Xˆ⁰Y

=

✓ X⁰Z⇣

Z⁰Z⌘ ₁ Z⁰X

◆ ₁ Xˆ⁰Y

=⇣

Xˆ⁰X⌘ ₁

Xˆ⁰Y = ˆbVI

(35)

Exemple : Equation de salaire

I

Rendement de l’éducation

I Estimé parlnw=b₀+b₁educ+b₂exper+b₃exper²+e

I

Données

card.gdt

de Wooldridge

I Instrument : proximité à un “college4”

I Equation d’instrumentationeduc= cst,exper,exper²,college4

I 2SLS : automatisé (Gretl “DMC”) et “à la main” en mettanteduc[ comme régresseur dans l’équation de salaire

I Mêmes coefficients, pas les mêmes t-tests

I Mêmes résultats qu’avec VI (GMM 1 instrument) exemple antérieur

(36)

Plusieurs instruments

I

Il faut au moins un instrument par variable explicative

I Les exogènes sont leurs propres instruments

I

Dans certains cas, on dispose de plus d’un instrument pour certains régresseurs

I MC2E : on voit tout de suite comment intégrer ces instruments supplémentaires via la (ou les) équations d’instrumentation

I

On peut démontrer que

I parmi toutes les manières d’utiliser/combiner ces différents instruments

I MC2E est la plus efficiente

(37)

Remarques

I

Ne pas faire la régression en 2 étapes explicitement

I utiliser la commande MC2E (2SLS)

I sinon à la 2ème étape le logiciel va calculer une matrice de var cov selon la formule MCO et pas VI

I

Des estimations robustes à l’hétéroscédasticité sont

généralement disponibles pour MC2E et VI

(38)

Exemple : Equation de salaire

I

Rendement de l’éducation

I Estimé parlnw=b0+b1educ+b2exper+e

I

Données

card.gdt

de Wooldridge

I Instruments : Education de la mère et du père

I Equation d’instrumentation

educ= cst,exper,exper²,Meduc,Feduc

I Échantillon : drop missing values – 2SLS

(39)

Résumé

I

Identification Exacte : 1 ! instrument par régresseur endogène

I Utiliser Variable Instrumentale⌘MM

I MC2E = + efficient des estimateurs VI

I

Sous-identification : manque au moins un instrument

I Estimation consistante impossible

I

Sur-identification : plus d’un instrument pour au moins un régresseur endogène

I MC2E avec eq d’instrumentation à pls instruments

I = un cas de MM Généralisée : GMM

(40)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Tests

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(41)

Test 1. Hausman : Endogénéité

MCO MC2E

Aucun régresseur endogène consistant consistant efficient inefficient Au moins 1 régresseur endogène inconsistant consistant

I

Donc : si endogénéité : MC2E – mais sinon : MCO

I H₀

: égalité des coefficients

⌘bˆMCO bˆMC2E=0

I Si égaux, alors pas endogénéité : on préfère MCO

I Sinon, on prend MC2E

I

Test disponible sur

tous

les logiciels économétriques

I Entre n’importe quelle paire d’estimateurs avec un consistant

I VI contre MCGF par exemple

I var⇣

bˆMCO bˆMC2E

⌘peut poser problème

I

Aussi une bonne idée de comparer directement

bˆMCO

et

bˆ_MC2E

(42)

2 autres tests : Définitions

Equation structurelle

:

y₁=b₀+b₁y₂+b₂x₁+b₃x₂+µ₁

I x₁

et

x₂

sont exogènes

I

On a aussi 2 autres exogènes

x₃

et

x₄

I Qui ne sont pas dans l’équation structurelle

I Qui sont corrélés ày₂

I

On veut tester l’endogénéité de

y₂

Forme réduite poury₂

:

y₂=p₀+p₁x₁+p₂x₂+p₃x₃+p₄x₄+n₂

(43)

Test 2. Test de régression / de corrélation des erreurs / Durbin–Wu–Hausman

I

On veut tester l’endogénéité de

y₂

dans eq structurelle

I

Chaque

xj

est non-corrélé avec

µ₁

I y₂non-corrélé avecµ₁ssin₂non-corrélé avecµ₁

I

Estimer

y₂=p₀+p₁x₁+p₂x₂+p₃x₃+p₄x₄+n₂

par MCO (consistant)

I On obtientnˆ2: une approximation àn2

I

Estimer

y₁=b₀+b₁y₂+b₂x₁+b₃x₂+d₁nˆ₂+erreur

par MCO

I nˆ2significatif (t-stat) =) n2manquant dans eq struct.

I n2est partie deµ1, donc corrélés, doncy2endogène

I nˆ₂non-significatif n’implique rien

(44)

Test de régression : remarque

I

On peut montrer que

I bˆMCO dey₁=b₀+b₁y₂+b₂x₁+b₃x₂+d₁nˆ₂+erreur est identique à

I bˆ_MC₂_E dey₁=b₀+b₁y₂+b₂x₁+b₃x₂+µ₁

I

C’est une 2ème interprétation de

MC2E

I inclurenˆ2dans la régression MCO “nettoie” l’endogénéité dey₂

I

Test sur plusieurs variables endogènes

I tester conjointement (test F) la significativité des résidus de chaque équation d’instrumentation

(45)

Test 3. “OverID” Restrictions sur-identifiées : Exogénéité de l’instrument

I

Si un seul instrument pour un régresseur endogène

I Impossiblede tester l’absence de corrélation entre l’instrument et le terme d’erreur :corr(z,e) =0

I Modèle “juste / exactement” identifié

I

Si on dispose de plusieurs instruments,

I Possiblede tester l’exogénéité d’un instrument

I Le modèle est “sur-identifié”

I

Dans notre exemple :

x₃

et

x₄

peuvent servir d’instruments pour

y₂

dans l’équation structurelle

y₁=b₀+b₁y₂+b₂x₁+b₃x₂+µ₁

(46)

Étapes du test OverID

1.

Estimer l’équation structurelle par VI en utilisant

seulementx₃

comme instrument

1.1 Calculer résiduµˆ₁MC2E =y₁ bˆ₀+ ˆb₁y₂+ ˆb₂x₁+ ˆb₃x₂ 2.

Régresser résidu

µˆ_1MC_2E

sur

toutes

les variables

exogènes

du

modèle (explicatives + instruments)

2.1 µˆ₁MC2E=g₀+g₁x₁+g₂x₂+g₃x₃+g₄x₄+x

I Ce résidu est une approximation deµ₁de l’éq. struct.

2.2 Calculer leR²de cette régression

I Si exogénéitéR²devrait être faible

3.

Sous l’hypothèse nulle (exogénéité de

x₄

) :

nR²⇠^a c_q²

I q: nombre d’instruments en excès

I nombre d’instruments total dans le modèle moins nombre de régresseurs endogènes

I “Over-identification”, iciq=1car 2 instrumentsx₃etx₄et un régresseur endogèney₂

(47)

OverID : remarques

I

Il faut faire l’hypothèse que

x₃

est exogène : on ne peut la tester

I SinR²>c_q²_;0_.₉₅on rejette que

I x₄est exogène

I OU quex₃est exogène

I Hypothèse de un instrument valide par régresseur endogène

I

Test implémenté directement dans beaucoup de logiciels

(48)

Exemple : Equation de salaire

I

Rendement de l’éducation

I Estimé parlnw=b0+b1educ+b2exper+b3exper²+e

I

Données

card.gdt

de Wooldridge

I Instruments : Education de la mère et du père

I Equation d’instrumentation

educ= cst,exper,exper²,Meduc,Feduc

I Échantillon : drop missing values – 2SLS

I Test d’endogénéité :

I Test de Hausman et OverId (Sargan) dans sortie “DMC”

I Test de régression : Résidu de l’équation de d’instrumentation dans MCO de l’équation de salaire

I Autre instrument possible proximité à un “college4”

(49)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Source 4. Échantillonnage

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(50)

4º source d’endogénéité : Échantillonnage

I

Si on n’observe pas un échantillon “purement” aléatoire (“simple”)

I mais plutôt un échantillonsélectionnédans lequel seuls certains individus sont admis

I ou bien avec desdonnées manquantes

I

3 cas

I Sélection – ouattrition– purement aléatoire, ou basée sur des variables aléatoires exogènes

I Pas de problème

I Sélection basée sur un régresseurxj corrélé à la dépendantey

I Généralement pas de problème

I Sélection basée sur dépendantey

I Un problème d’échantillon sélectionnéoutroncaturese pose

(51)

Sélection basée sur un régresseur x

_j

corrélé à y

I

Exemple : On estime une équation de salaires, mais on observe plus d’attrition pour les niveaux d’éducation faibles

I Sans que cette attrition soit corrélée au revenu (salaire) par classe d’éducation

I On observe l’éducation, mais pas le salaire

I

Les statistiques descriptives sont biaisées

I par exemple, le salaire moyen sera plus élevé que dans la réalité

I

Les MCO restent sans biais et consistants

I Les estimations “contrôlent” les dimensions des variables explicatives

I

Pas de problème tant qu’il y a assez de variabilité dans les

variables explicatives pour identifier les effets mesurés

(52)

Sélection sur y – cas 1. Troncature (Truncation)

I

Inclusion dans l’échantillon est

yi ci

(sélection de troncature)

I

Alors

eici Xib

I Cary_i=X_ib+ei

I Donc : la sélection de troncature introduit unecorrélation contemporaineentre l’erreur et les régresseur(s)

I

Notes

I On n’observe aucuny_i>c_i ni aucunX_i correspondant

I La sélection peut aussi êtrey_i c_i

(53)

Sélection sur y – cas 2. Troncature accidentelle

I

Modèle bivarié de sélection de l’échantillon (MBSE)

I Équation de participationY₁=

( 1 si Y₁^⇤>0 0 sinon

I Équation de résultatY₂=

( Y₂^⇤ si Y₁^⇤>0 sinon

I Donc : On n’observeY₂^⇤que siY₁^⇤>0, c’est-à-dire que si on observeY₁=1

I

On suppose que la réalité est

Y₁^⇤=X₁b₁+e₁ Y₂^⇤=X₂b₂+e₂

(54)

Troncature accidentelle : origine du biais

I

Il semble raisonnable

I de supposer que le terme d’erreure₁de l’équation de

participation peut être corrélé au terme d’erreure₂de l’équation de résultat :e₁(e₂)

I que certains régresseurs au moins soient communs entreX1etX2 I X1\X2=X21

I Le reste se nommeX₂₂etX₁₁

I

On peut écrire l’équation de participation comme

X₁₁b₁₁+X₂₁b₁₂>e₁(e₂)

I Donc, la troncature accidentelle provoque une corrélation entre X₂₁ete2

I et donc entreX₂ete2: endogénéité dans l’équation de résultat

(55)

Autre interprétation : moyenne conditionnelle de Y

₂

I

La moyenne de

Y₂

conditionnellement à

X₂

dépend de

Y₁^⇤

car si

Y₁^⇤0, on n’observe pasY₂

I On suppose pour simplifier queX₂est non-endogène

I E(X₂|e1) =E(X₂|e2) =X₂

I Donc E(Y₂|X₂,Y₁^⇤>0) =E(X₂b+e₂|X₁b₁+e₁>0)

=X₂b₂+E(e₂|e₁> X₁b₁)

I

Donc

I Sie2ete1sont indépendants, le dernier terme est nul

I Sinon, il faut corriger la moyenne conditionnelle pourle biais de sélection(outroncature accidentelle)

I Et en particulierMCOdeY₂surX₂serabiaiséetinconsistant

(56)

Exemple : Equation de salaire

I

Le salaire dépend de caractéristiques comme le niveau d’étude, l’age, le sexe, le nombre d’enfants...

I

On n’observe un salaire que pout ceux/celles qui participent au marché du travail

I

La décision de participer au marché du travail dépend

certainement de facteurs similaires à ceux expliquant le salaire

I

Donc équation de sélection : participation

I

Équation de résultat : salaire

I

Corrélation entre les deux

I

MCO équation de salaire : biaisé et inconsistant

(57)

Estimation

I

Rappel : Sources 1 (hétérogénéité inobservée), 2 (erreurs de mesure) et 3 (simultanéité) peuvent être adressées par Variable Instrumentale / MC2E

I

Source 4 Sélection d’échantillonnage

I VI inutile car VI a le même problème d’échantillonnage

I La solution passe par une modélisation du processus de sélection :

I Plusieurs estimateurs alternatifs (Heckman) – on regardera en M1 I

En résumé

I Toujours se poser la question de l’échantillonnage

I Pourquoi certaines données sont manquantes

(58)

Ch. 5.9i:E(eix_i)6=0: Endogénéité Source 5. Autocorrélation en séries temporelles

Table des matières

Définition & conséquences

Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité

Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests

Source 4. Échantillonnage

Source 5. Autocorrélation en séries temporelles

(59)

5º source : Autocorrélation en séries temporelles

I

Exogénéité en série temp :

E(etxt) =08t8xpas de corrélation contemporaine

I On écrit aussiE(et|xt) =08t8x:espérance conditionnelle nulle

I Ce qui est la même chose

I LorsqueE(et|xs) =0s=1, . . . ,T on dit quexeststrictement exogène

I etn’est corrélé à aucun régresseur à aucune période I

En série temp., on ne fait pas l’hypothèse d’absence

d’autocorrélation

I L’absence de corrélation contemporaine suffit à ce que MCO soit consistant

I Si les séries sontI(0)

I Pour que MCO soit non-biaisé il faut l’exogénéité stricte

(60)

Implication de l’exogénéité stricte

Soit le modèle statique du taux de meurtre en fonction du nombre de policiers / habitant

TxMeurtret=b₀+b₁Pol/ht+et

1. Pol/h

ne peut avoir aucun effet retardé sur

TxMeurtre

I Sinon,Pol/h_t ₁serait dansetce qui romperait l’exogénéité stricte

2. et

ne peut causer aucun changement futur de

Pol/h

I Supposons que la ville ajustePol/hsur base des valeurs passées deTxMeurtre, alorsPol/h_t₊₁est corrélée avecet

I

Facile que l’exogénéité stricte ne tienne pas

(61)

Devoir #6 : VI

I

Reprenez de ma feuille Tableur l’exemple avec un régresseur endogène

I

Générez un instrument

I Valide (= non-corrélé avec le terme d’erreur)

I Bon (= corrélation élevée avec le régresseur endogène)

I Basez-vous directement sur la façon dont le régresseur a été généré

I

Estimez les coefficients du modèle par VI

I

Examinez comment les coefficients estimés varient en fonction de la corrélation de l’instrument avec le régresseur

I

Illustrez qu’un instrument non-valide amène à l’inconsistance

I Examinez le degré d’inconsistance en fonction de la corrélation de l’instrument avec le régresseur