Économétrie II
L3 Économétrie – L3 MASS Ch. 5.9i:E(eixi)6=0: Endogénéité
Prof. Philippe Polomé, U. Lyon 2
Année 2015-2016
Ch. 5.9i:E(eixi)6=0: Endogénéité
Rappel
1. E(ei) =08i
:
Espérance nulle 2. Xvar(ei) =s28i :Homoscédasticité3. Xcov(et,es) =08t6=s:Pas d’autocorrélation 4. E(eixi) =08i :Exogénéité
5. XLa matrice X est de plein rang :Pas de multicolinéarité 6.
Le modèle est
correctement spécifié7.
La variable dépendante
Yest
continueCh. 5.9i:E(eixi)6=0: Endogénéité
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Définition & conséquences
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Définition & conséquences
Définition
I
Exogénéité :
I Coupe transv.E(eiXi) =0
I Pas de corrélation entre l’erreur et chaque régresseur pour un mêmei
I On écrit aussiE(ei|Xi) =0:espérance conditionnelle nulle
I Série temp :E(etxt) =08t8xpas de corrélation contemporaine
I LorsqueE(et|xs) =0s=1, . . . ,T,xeststrictement exogène I
Rupture de cette hypothèse =
endogénéitéI
Interprétation : Un choc aléatoire
einduit un choc sur
Yet sur
Xpour un même
iI Donc difficile de séparer les effets “confondants”
Ch. 5.9i:E(eixi)6=0: Endogénéité Définition & conséquences
Conséquence : Inconsistance de l’estimateur MCO
I
Corrélation positive : à des valeurs élevées (basses) de
ecorrespondent des valeurs élevées (basses) de
XI egrand :Y >Xb etepetit :Y <Xb
I Donc : droite estimée par MCO pente plus forte que la réalité
I
Monte Carlo : fichier tableur en ligne
Endogeneite.odsCh. 5.9i:E(eixi)6=0: Endogénéité Définition & conséquences
Pourquoi l’endogénéité est-elle un problème ?
I
Ne vaut-il pas mieux prédire
Yle mieux possible ?
I
Trois cas
I Prédiction: on veut prédireY conditionnellement àX
I Si on connaitX“einclus”,x(e), ce qui n’est pas évident,
I Dans ce cas, l’effet de l’erreur surX est inclus, donc prédiction MCOYˆcorrecte
I Contrôle: on choisitX, quel seraY? [p.e. effet d’une politique]
I Si on choisitX, l’erreur n’y est pas, donc prédiction MCO incorrecte
I Si l’on souhaitecomprendrela relation entreYetX il faut traiter l’endogénéité
I
Dans les 2 derniers cas : ce n’est pas une bonne idée “d’ajuster
une droite au mieux” dans le nuage de points
Ch. 5.9i:E(eixi)6=0: Endogénéité Définition & conséquences
5 sources de l’endogénéité
1.
Hétérogénéité inobservée
2.Erreur de mesure
3.
Simultanéité
4.
Échantillonnage endogène
5.
Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
2 cas d’hétérogénéité inobservée
I
Variable omise
I
Coefficients aléatoires
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
Variable omise
I
Le modèle correctement spécifié est
Y =b0+b1x1+b2x2+eI Mais le modèle estimé estY =b0+b1x1+n
I
L’effet du régresseur manquant se retrouve dans l’erreur du modèle estimée :
n=b2x2+eI = hétérogénéité inoberservée : Des facteurs inobservés affectent à la fois la variable expliquée et un régresseur
I
Si le régresseur manquant est corrélé à un régresseur présent
I Alors le terme d’erreur du modèle estimé est corrélé avec au moins un régresseur présent
I De plus vraisemblablement :
I Hétéroscédasticité sivar(x2t)6=var(x2s),t6=s
I Autocorrélation sicorr(x2t,x2s)6=0,t6=s
I E(n)6=0l’intercept du modèle est biaisé
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
Que faire en cas de variable omise ?
1. Ignorer
le problème : inconsistance des estimateurs
2.Essayer de trouver un
proxyacceptable pour la variable
inobservée
I Proxy = mesure approximative de la variable inoberservée (ci-dessous)
3.
Si données de panel et si la variable inobservée ne change pas dans le temps (mais seulement entre les agents)
I Modèle “à effets fixes”(programme de M2)
4.
Laisser la variable inobservée dans le terme d’erreur mais utiliser un estimateur qui reconnait sa présence
I EstimateurVariable Instrumentaleci-dessous
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
Proxy
I
Variable inobservée : on sait que le modèle devrait inclure un régresseur, mais on n’a pas de donnée
I
Modèle
Y =b0+b1x1+b2x2+eI x2pas observée
I Proxyz
pour
x2:
I z observée mais pas explicative dans le modèle
I z corrélée àx2:x2=d0+d1z+µ
I On ne peut tester cette corrélation puisquex2pas observée
I P.e. (salaire) éducationx2et nombre d’années d’étudez
I
La proxy n’est pas une erreur de mesure
I Ni un instrument (plus loin)
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
Utilisation d’une proxy
I
La variable proxy est
substituéeà la variable inobservée dans
Y =b0+b1x1+b2x2+eI On peut estimerY =p0+p1x1+p2z+x
I Que dit ce modèle sur le précédent ?
Y =b0+b1x1+b2(d0+d1z+µ) +e
=b0+b2d0+b1x1+b2d1z+b2µ+e
=p0 +p1x1+p2z +x
I
Donc si
µn’est pas corrélé avec
x1, estimer
Y =p0+p1x1+p2z+xpar MCO
I Sans bias et consistant pourb1=p1
I Les autres coef.p0etp2n’ont pas d’interprétation directe
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 1. Hétérogénéité inobservée
Coefficients aléatoires
I
Autre forme d’hétérogénéité inobservée
I
Modèle vrai
Yi=b0+x1ix1i+hiavec
x1ialéatoire t.q.
I x1i=g1+µ1i
I g1pas aléatoire (pourrait dépendre de régresseurs)
I µ1iest un bruit blanc
I P.e. rendement éducation
I
On estime
Yi =b0+b1x1i+eidonc
I ei=µ1ix1i+hi
I b1=g1 I
Solution
I Variable instrumentale (ci-dessous)
I Modélisation explicite par Maximum de Vraisemblance (on ne voit pas)
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 2. Erreurs de mesure
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 2. Erreurs de mesure
Définition & traitement
I
Modèle
y=b0+b1x1⇤+eI On n’observe pasx1⇤mais bienx1=x1⇤+n
I nest une erreur de mesure
I “Classical Error-in-Variables” (CEV)
I
Équation estimée : avec
x1I y=b0+b1(x1⇤+n) + (e b1n) =b0+b1x1+µ
I Donc,cov(x1,µ) =cov(x1⇤+n,e b1n) = b1sn26=0
I Pour autant que erreur de mesurenpas corrélée avecx1⇤ I
Les erreurs de mesure sont la norme
I Endogénéité pas toujours préoccupante
I
Solution : variable instrumentale ci-dessous
I
Une erreur de mesure sur
yaccroît la variance des erreurs
I mais ne cause pas d’endogénéité
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 3. Simultanéité
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 3. Simultanéité
Définition & exemples
I
2 variables sont causales l’une de l’autre
I y=b0+b1x+e
(x cause
y)etx=g0+g1y+µ(y cause
x)I Donc :x(y)maisy(e)doncx(e)
I d’où corrélation entrexet l’erreur dansy=b0+b1x+e I
Exemples
I Publicité et vente :
I La publicité accroît/soutient les ventes
I Le budget publicité est calculé en proportion aux ventes
I Fonction de coûtC(Q,W)
I Q= production,W vecteur des prix d’intrants
I Lemme de Sheppard∂C/∂W=d(Q,W): demande d’intrants est fonction de la production mais production est fonction des intrants utilisés
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 3. Simultanéité
Exemple de simultanéité : modèle keynésien
I
Deux équations :
forme structurelle= forme économique
I ConsommationCt=b0+b1Yt+etavecY le PIB
I Identité comptableYt=Ct+ItavecI l’investissement, ici exogène
I Économie fermée sans état
I
La consommation et le revenu sont donc déterminés
simultanémentI CetY sont deux endogènes
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 3. Simultanéité
Forme réduite
I Forme réduite
= toutes les endogènes à gauche
I Ct= 1
1 b1[b0+b1It+et] =d0+d1It+µt
I Yt= 1
1 b1[b0+It+et] =g0+g1It+nt I
Clairement,
Yest corrélé à
eI DONC :Endogénéité dans le modèle structurelen estimant l’équation de consommation, même seule
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 3. Simultanéité
Moindres Carrés Indirects
I
MCO
toujoursconsistant pour forme réduite
I Identification
: coef. forme structurelle peuvent-ils être récupérés de la forme réduite ?
I Ici, en estimant chaque équation de la FR :dˆ0,dˆ1,gˆ0,gˆ1 I On calcule les coef. structurels parb1= d1
1+d1 ect
I
Si
une seulemanière de récupérer
tousles coef. structurels : système
exactement identifiéI Moindres Carrés Indirects MCI= appliquer MCO à la forme réduite & résoudre pour obtenir les coef. structurels
I
Si certains coef. ne peuvent être ainsi retrouvés :
sous-identifiéI
Si certains coef. retrouvés de
plus d’unemanière :
sur-identifiéI “Bonne” manière ? Variable Instrumentale
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Méthode des Moments MM
I
Interprétation d’inversion de MCO dite “méthode des moments”
I
Soit
Aun estimateur de
bdans
Y =Xb+eI alors on peut écrireY XA= ˆe
I
Hypothèse exogénéité
E(Xe) =0I
Stratégie “méthode des moments”
I Cette condition sur les moments de lapopulationestimposée aux moments del’échantillon
I C’est-à-dire on veutAtel queX0ˆe=0
I Donc :X0(Y XA) =0: ce sont les CPO de moindres carrés
I Donc :A= (X0X) 1X0Y = ˆb
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Variables instrumentales
I
Hypothèse exogénéité
E(Xe) =0ne tient plus
I
Supposons qu’on puisse trouver un ensemble de variables
Zou
“instruments” telles que
I Z etX soient de mêmes dimensions
I E(e|Z) =0
I Corr(Z,X)soit élevée
I
Donc
Zpermet d’inverser la relation
Y =Xb+eI ViaZ0Y =Z0XA+Z0e, on a(Z0X) 1Z0Y =A+ (Z0X) 1Z0e
I Si on aPlim Z0e=0(à la limiteZ etene sont pas corrélés)
I Alors :Estimateur Méthodes des Moments:
I At.q.Z0(Y XA) =0
I A= (Z0X) 1Z0Y= ˆbVI
I ⌘Estimateur Variables InstrumentalesVI
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Propriétés de b ˆ
VII
Il s’agit d’un estimateur alternatif à MCO
I En généralbiaisé
I Consistant(si les instruments sontvalides, voir ci-dessous)
I
On peut démontrer que
⌃bˆVI =se2⇣Z0X⌘ 1⇣ Z0Z⌘⇣
Z0X⌘ 1
I Cette variance est d’autant plus faible que la corrélation entreZ etXest forte
I À la limite siZ etXnon-corrélés, alorsZ0X!0et⌃bˆVI !•
I
MCO peut être vu comme VI avec
Z=
XI Corr(Z,X) =1
I Donc : si pas endogénéité, MCO plus efficient que VI
I 6=
remplacer
Xpar
Zdans
Y =Xb+e[cfr. proxy]
I Si on le faisait, le modèle seraitY=Zg+µ
I Et l’estimateur MCO seraitgˆMCO=⇣ Z0Z⌘ 1
Z0Y
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Exemple : Equation de salaire
I
Eq mincérienne de salaire
I lnw=b0+b1educ+b2exper+b3exper2+e
I w salaire ;educnbr années études ;exper nbr années expérience
I
Capacités Intellectuelles Intrinsèques (CII) de l’individu
I Inobservées / inobservables
I Corrélées avec niveau d’éducation :educ=a0+a1CII+n
I Corrélées avec niveau de salaire :ln(w) =d0+d1CII+µ
I
Rendement de l’éducation estimé par eq mincérienne
I Sur- ou sous-estimé ?
I
Données
card.gdtde Wooldridge
I Définirlnwage,exper2puis GMM 1 étape
I Instrument possible : proximité à un “college4”
I On en verra d’autres plus loin
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Instruments & Tests
I
La difficulté fondamentale est de
trouverdes instruments
I On verra quelques cas
I En séries temporelles & panels : valeurs passées (retards)
I En systèmes d’équations : régresseurs dans d’autres équations
I
Avec VI, il faut exactement un instrument par variable de
X(identification exacte)
I Les variables non-endogènes sont leurs propres instruments
I Plus d’un instrument pour une variable =) il faut généraliser la méthode
I
Les tests d’inférence n’ont plus de valeur qu’asymptotiquement
I Le bootstrap reste valide
I LeR2n’a plus de sens
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Validité des instruments
I
Difficile de tester l’exogénéité des instruments
cov(Z,e) =0I Test OverId + loin
I SiZ n’est pas exogène, VI sera inconsistant (par construction)
I )VI ne s’applique pas en cas d’échantillonnage endogène
I
On peut mesurer la corrélation entre
Zet
XI
Soit
Y =b0+b1x+eI xest endogène, on a un instrumentz
I Sicov(z,e)6=0on peut montrer quePlimbˆ1VI=b1+cov(z,e) cov(z,x)
I Donc que sicov(z,e)6=0alorsbˆVI est inconsistant
I De plusPlimbˆ1VI =b1+secorr(z,e) sxcorr(z,x)
I Donc, sicorr(z,e)6=0même faible, alors sicorr(z,x)est faible (mauvais instrument),Plimbˆ1VI ne sera pas proche deb1
Ch. 5.9i:E(eixi)6=0: Endogénéité Estimation en présence d’endogénéité
Illustration d’un mauvais instrument : Poids à la naissance
I
Données
bwght.gdtWooldridge
I Poids de l’enfant à la naissance (bwght) en log en fonction de
I consommation de tabac (packs)
I revenu familial (faminc) prix commeproxyd’autres facteurs (accès aux soins, ...)
I On peut rajouter d’autres régresseurs
I
La consommation de tabac pourrait être endogène
I P.e. stress (= hétérogénéité inobservée)
I
Instrument :
cigpriceprix des cigarettes
I Équation d’instrumentation (ci-dessous)
I ou corr(cigprice,packs)
I On voit que c’est un mauvais instrument
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Instrumentation
I
Application particulière de VI
I
Soit
l’équation structurelleY =Xb+eI Supposons que dansX,xksoit endogène
I et qu’on dispose d’un instrumentzpourxk I La matrice d’instruments seraitZ,
I identique àX sauf dernière colonne : remplacerxkparz I Équation d’instrumentation
xk=d0+d1x1+. . .+dk 1xk 1+dkz+µ =Zd+µ
I Estimation MCO, valeurs ajustées dexk
I xˆk= ˆd0+ ˆd1x1+. . .+ ˆdk 1xk 1+ ˆdkz=Zdˆ
I On voit quexˆkest un instrument valide pourxk
I sizest un instrument valide pourxk
I Xˆ la matriceXdans laquelle on a remplacéxkparxˆk
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
MC en 2 Étapes
I
Estimateur VI avec
Xˆest
bˆVI =⇣Xˆ0X⌘ 1 Xˆ0Y
I Meilleur que(Z0X) 1Z0Y car la corrélation entrexˆketxkau moins aussi élevée que entrez etxk
I
L’estimateur VI est équivalent à une estimation MCO en deux étapes (MC2E) :
1.
Estimation de l’équation d’instrumentation
xk =Zd+µ 2.Remplacer
Xpar
Xˆdans l’équation structurelle
I Y =pXˆ+n(régression de 2nde étape)
I et on estime par MCO
I pˆMC2E=⇣ Xˆ0Xˆ⌘ 1
Xˆ0Y : c’est⇣ Xˆ0Xˆ⌘ 1
et pas⇣ Xˆ0X⌘ 1
comme dansbˆVI
I On peut montrer quepˆMC2E= ˆbVI=⇣ Xˆ0X⌘ 1
Xˆ0Y
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
p ˆ
MC2E= ˆ b
VI= ⇣
X ˆ
0X ⌘
1X ˆ
0Y : Preuve
I
On note qu’on peut écrire
Xˆ=Z⇣Z0Z⌘ 1
Z0X
I Pour la dernière colonne deXˆ, c’estZdˆ
I Pour les autres, ce sont les colonnes deX (exogènes) pˆMC2E =⇣
Xˆ0Xˆ⌘ 1 Xˆ0Y
=
✓ X0Z⇣
Z0Z⌘ 1 Z0
✓ Z⇣
Z0Z⌘ 1 Z0X
◆◆ 1
Xˆ0Y
=
✓ X0Z⇣
Z0Z⌘ 1 Z0X
◆ 1 Xˆ0Y
=⇣
Xˆ0X⌘ 1
Xˆ0Y = ˆbVI
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Exemple : Equation de salaire
I
Rendement de l’éducation
I Estimé parlnw=b0+b1educ+b2exper+b3exper2+e
I Sur- ou sous-estimé ?
I
Données
card.gdtde Wooldridge
I Instrument : proximité à un “college4”
I Equation d’instrumentationeduc= cst,exper,exper2,college4
I 2SLS : automatisé (Gretl “DMC”) et “à la main” en mettanteduc[ comme régresseur dans l’équation de salaire
I Mêmes coefficients, pas les mêmes t-tests
I Mêmes résultats qu’avec VI (GMM 1 instrument) exemple antérieur
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Plusieurs instruments
I
Il faut au moins un instrument par variable explicative
I Les exogènes sont leurs propres instruments
I
Dans certains cas, on dispose de plus d’un instrument pour certains régresseurs
I MC2E : on voit tout de suite comment intégrer ces instruments supplémentaires via la (ou les) équations d’instrumentation
I
On peut démontrer que
I parmi toutes les manières d’utiliser/combiner ces différents instruments
I MC2E est la plus efficiente
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Remarques
I
Ne pas faire la régression en 2 étapes explicitement
I utiliser la commande MC2E (2SLS)
I sinon à la 2ème étape le logiciel va calculer une matrice de var cov selon la formule MCO et pas VI
I
Des estimations robustes à l’hétéroscédasticité sont
généralement disponibles pour MC2E et VI
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Exemple : Equation de salaire
I
Rendement de l’éducation
I Estimé parlnw=b0+b1educ+b2exper+e
I Sur- ou sous-estimé ?
I
Données
card.gdtde Wooldridge
I Instruments : Education de la mère et du père
I Equation d’instrumentation
educ= cst,exper,exper2,Meduc,Feduc
I Échantillon : drop missing values – 2SLS
Ch. 5.9i:E(eixi)6=0: Endogénéité Doubles moindres carrés MC2E (2SLS)
Résumé
I
Identification Exacte : 1 ! instrument par régresseur endogène
I Utiliser Variable Instrumentale⌘MM
I MC2E = + efficient des estimateurs VI
I
Sous-identification : manque au moins un instrument
I Estimation consistante impossible
I
Sur-identification : plus d’un instrument pour au moins un régresseur endogène
I MC2E avec eq d’instrumentation à pls instruments
I = un cas de MM Généralisée : GMM
Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Test 1. Hausman : Endogénéité
MCO MC2E
Aucun régresseur endogène consistant consistant efficient inefficient Au moins 1 régresseur endogène inconsistant consistant
I
Donc : si endogénéité : MC2E – mais sinon : MCO
I H0
: égalité des coefficients
⌘bˆMCO bˆMC2E=0I Si égaux, alors pas endogénéité : on préfère MCO
I Sinon, on prend MC2E
I
Test disponible sur
tousles logiciels économétriques
I Entre n’importe quelle paire d’estimateurs avec un consistant
I VI contre MCGF par exemple
I var⇣
bˆMCO bˆMC2E
⌘peut poser problème
I
Aussi une bonne idée de comparer directement
bˆMCOet
bˆMC2ECh. 5.9i:E(eixi)6=0: Endogénéité Tests
2 autres tests : Définitions
Equation structurelle
:
y1=b0+b1y2+b2x1+b3x2+µ1I x1
et
x2sont exogènes
I
On a aussi 2 autres exogènes
x3et
x4I Qui ne sont pas dans l’équation structurelle
I Qui sont corrélés ày2
I
On veut tester l’endogénéité de
y2Forme réduite poury2
:
y2=p0+p1x1+p2x2+p3x3+p4x4+n2Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Test 2. Test de régression / de corrélation des erreurs / Durbin–Wu–Hausman
I
On veut tester l’endogénéité de
y2dans eq structurelle
I
Chaque
xjest non-corrélé avec
µ1I y2non-corrélé avecµ1ssin2non-corrélé avecµ1
I
Estimer
y2=p0+p1x1+p2x2+p3x3+p4x4+n2par MCO (consistant)
I On obtientnˆ2: une approximation àn2
I
Estimer
y1=b0+b1y2+b2x1+b3x2+d1nˆ2+erreurpar MCO
I nˆ2significatif (t-stat) =) n2manquant dans eq struct.
I n2est partie deµ1, donc corrélés, doncy2endogène
I nˆ2non-significatif n’implique rien
Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Test de régression : remarque
I
On peut montrer que
I bˆMCO dey1=b0+b1y2+b2x1+b3x2+d1nˆ2+erreur est identique à
I bˆMC2E dey1=b0+b1y2+b2x1+b3x2+µ1
I
C’est une 2ème interprétation de
MC2EI inclurenˆ2dans la régression MCO “nettoie” l’endogénéité dey2
I
Test sur plusieurs variables endogènes
I tester conjointement (test F) la significativité des résidus de chaque équation d’instrumentation
Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Test 3. “OverID” Restrictions sur-identifiées : Exogénéité de l’instrument
I
Si un seul instrument pour un régresseur endogène
I Impossiblede tester l’absence de corrélation entre l’instrument et le terme d’erreur :corr(z,e) =0
I Modèle “juste / exactement” identifié
I
Si on dispose de plusieurs instruments,
I Possiblede tester l’exogénéité d’un instrument
I Le modèle est “sur-identifié”
I
Dans notre exemple :
x3et
x4peuvent servir d’instruments pour
y2dans l’équation structurelle
y1=b0+b1y2+b2x1+b3x2+µ1Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Étapes du test OverID
1.
Estimer l’équation structurelle par VI en utilisant
seulementx3comme instrument
1.1 Calculer résiduµˆ1MC2E =y1 bˆ0+ ˆb1y2+ ˆb2x1+ ˆb3x2 2.
Régresser résidu
µˆ1MC2Esur
toutesles variables
exogènesdu
modèle (explicatives + instruments)
2.1 µˆ1MC2E=g0+g1x1+g2x2+g3x3+g4x4+x
I Ce résidu est une approximation deµ1de l’éq. struct.
2.2 Calculer leR2de cette régression
I Si exogénéitéR2devrait être faible
3.
Sous l’hypothèse nulle (exogénéité de
x4) :
nR2⇠a cq2I q: nombre d’instruments en excès
I nombre d’instruments total dans le modèle moins nombre de régresseurs endogènes
I “Over-identification”, iciq=1car 2 instrumentsx3etx4et un régresseur endogèney2
Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
OverID : remarques
I
Il faut faire l’hypothèse que
x3est exogène : on ne peut la tester
I SinR2>cq2;0.95on rejette que
I x4est exogène
I OU quex3est exogène
I Hypothèse de un instrument valide par régresseur endogène
I
Test implémenté directement dans beaucoup de logiciels
Ch. 5.9i:E(eixi)6=0: Endogénéité Tests
Exemple : Equation de salaire
I
Rendement de l’éducation
I Estimé parlnw=b0+b1educ+b2exper+b3exper2+e
I Sur- ou sous-estimé ?
I
Données
card.gdtde Wooldridge
I Instruments : Education de la mère et du père
I Equation d’instrumentation
educ= cst,exper,exper2,Meduc,Feduc
I Échantillon : drop missing values – 2SLS
I Test d’endogénéité :
I Test de Hausman et OverId (Sargan) dans sortie “DMC”
I Test de régression : Résidu de l’équation de d’instrumentation dans MCO de l’équation de salaire
I Autre instrument possible proximité à un “college4”
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
4º source d’endogénéité : Échantillonnage
I
Si on n’observe pas un échantillon “purement” aléatoire (“simple”)
I mais plutôt un échantillonsélectionnédans lequel seuls certains individus sont admis
I ou bien avec desdonnées manquantes
I
3 cas
I Sélection – ouattrition– purement aléatoire, ou basée sur des variables aléatoires exogènes
I Pas de problème
I Sélection basée sur un régresseurxj corrélé à la dépendantey
I Généralement pas de problème
I Sélection basée sur dépendantey
I Un problème d’échantillon sélectionnéoutroncaturese pose
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Sélection basée sur un régresseur x
jcorrélé à y
I
Exemple : On estime une équation de salaires, mais on observe plus d’attrition pour les niveaux d’éducation faibles
I Sans que cette attrition soit corrélée au revenu (salaire) par classe d’éducation
I On observe l’éducation, mais pas le salaire
I
Les statistiques descriptives sont biaisées
I par exemple, le salaire moyen sera plus élevé que dans la réalité
I
Les MCO restent sans biais et consistants
I Les estimations “contrôlent” les dimensions des variables explicatives
I
Pas de problème tant qu’il y a assez de variabilité dans les
variables explicatives pour identifier les effets mesurés
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Sélection sur y – cas 1. Troncature (Truncation)
I
Inclusion dans l’échantillon est
yi ci(sélection de troncature)
I
Alors
eici XibI Caryi=Xib+ei
I Donc : la sélection de troncature introduit unecorrélation contemporaineentre l’erreur et les régresseur(s)
I
Notes
I On n’observe aucunyi>ci ni aucunXi correspondant
I La sélection peut aussi êtreyi ci
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Sélection sur y – cas 2. Troncature accidentelle
I
Modèle bivarié de sélection de l’échantillon (MBSE)
I Équation de participationY1=
( 1 si Y1⇤>0 0 sinon
I Équation de résultatY2=
( Y2⇤ si Y1⇤>0 sinon
I Donc : On n’observeY2⇤que siY1⇤>0, c’est-à-dire que si on observeY1=1
I
On suppose que la réalité est
Y1⇤=X1b1+e1 Y2⇤=X2b2+e2Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Troncature accidentelle : origine du biais
I
Il semble raisonnable
I de supposer que le terme d’erreure1de l’équation de
participation peut être corrélé au terme d’erreure2de l’équation de résultat :e1(e2)
I que certains régresseurs au moins soient communs entreX1etX2 I X1\X2=X21
I Le reste se nommeX22etX11
I
On peut écrire l’équation de participation comme
X11b11+X21b12>e1(e2)I Donc, la troncature accidentelle provoque une corrélation entre X21ete2
I et donc entreX2ete2: endogénéité dans l’équation de résultat
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Autre interprétation : moyenne conditionnelle de Y
2I
La moyenne de
Y2conditionnellement à
X2dépend de
Y1⇤car si
Y1⇤0, on n’observe pasY2I On suppose pour simplifier queX2est non-endogène
I E(X2|e1) =E(X2|e2) =X2
I Donc E(Y2|X2,Y1⇤>0) =E(X2b+e2|X1b1+e1>0)
=X2b2+E(e2|e1> X1b1)
I
Donc
I Sie2ete1sont indépendants, le dernier terme est nul
I Sinon, il faut corriger la moyenne conditionnelle pourle biais de sélection(outroncature accidentelle)
I Et en particulierMCOdeY2surX2serabiaiséetinconsistant
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Exemple : Equation de salaire
I
Le salaire dépend de caractéristiques comme le niveau d’étude, l’age, le sexe, le nombre d’enfants...
I
On n’observe un salaire que pout ceux/celles qui participent au marché du travail
I
La décision de participer au marché du travail dépend
certainement de facteurs similaires à ceux expliquant le salaire
I
Donc équation de sélection : participation
I
Équation de résultat : salaire
I
Corrélation entre les deux
I
MCO équation de salaire : biaisé et inconsistant
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 4. Échantillonnage
Estimation
I
Rappel : Sources 1 (hétérogénéité inobservée), 2 (erreurs de mesure) et 3 (simultanéité) peuvent être adressées par Variable Instrumentale / MC2E
I
Source 4 Sélection d’échantillonnage
I VI inutile car VI a le même problème d’échantillonnage
I La solution passe par une modélisation du processus de sélection :
I Plusieurs estimateurs alternatifs (Heckman) – on regardera en M1 I
En résumé
I Toujours se poser la question de l’échantillonnage
I Pourquoi certaines données sont manquantes
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 5. Autocorrélation en séries temporelles
Table des matières
Ch. 5.9i:E(eixi)6=0: Endogénéité
Définition & conséquences
Source 1. Hétérogénéité inobservée Source 2. Erreurs de mesure Source 3. Simultanéité
Estimation en présence d’endogénéité Doubles moindres carrés MC2E (2SLS) Tests
Source 4. Échantillonnage
Source 5. Autocorrélation en séries temporelles
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 5. Autocorrélation en séries temporelles
5º source : Autocorrélation en séries temporelles
I
Exogénéité en série temp :
E(etxt) =08t8xpas de corrélation contemporaineI On écrit aussiE(et|xt) =08t8x:espérance conditionnelle nulle
I Ce qui est la même chose
I LorsqueE(et|xs) =0s=1, . . . ,T on dit quexeststrictement exogène
I etn’est corrélé à aucun régresseur à aucune période I
En série temp., on ne fait pas l’hypothèse d’absence
d’autocorrélation
I L’absence de corrélation contemporaine suffit à ce que MCO soit consistant
I Si les séries sontI(0)
I Pour que MCO soit non-biaisé il faut l’exogénéité stricte
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 5. Autocorrélation en séries temporelles
Implication de l’exogénéité stricte
Soit le modèle statique du taux de meurtre en fonction du nombre de policiers / habitant
TxMeurtret=b0+b1Pol/ht+et
1. Pol/h
ne peut avoir aucun effet retardé sur
TxMeurtreI Sinon,Pol/ht 1serait dansetce qui romperait l’exogénéité stricte
2. et
ne peut causer aucun changement futur de
Pol/hI Supposons que la ville ajustePol/hsur base des valeurs passées deTxMeurtre, alorsPol/ht+1est corrélée avecet
I
Facile que l’exogénéité stricte ne tienne pas
Ch. 5.9i:E(eixi)6=0: Endogénéité Source 5. Autocorrélation en séries temporelles
Devoir #6 : VI
I
Reprenez de ma feuille Tableur l’exemple avec un régresseur endogène
I
Générez un instrument
I Valide (= non-corrélé avec le terme d’erreur)
I Bon (= corrélation élevée avec le régresseur endogène)
I Basez-vous directement sur la façon dont le régresseur a été généré
I
Estimez les coefficients du modèle par VI
I
Examinez comment les coefficients estimés varient en fonction de la corrélation de l’instrument avec le régresseur
I
Illustrez qu’un instrument non-valide amène à l’inconsistance
I Examinez le degré d’inconsistance en fonction de la corrélation de l’instrument avec le régresseur