• Aucun résultat trouvé

Chapitre 5 Estimation par variables instrumentales et doubles moindres carrØs

N/A
N/A
Protected

Academic year: 2022

Partager "Chapitre 5 Estimation par variables instrumentales et doubles moindres carrØs"

Copied!
40
0
0

Texte intégral

(1)

Chapitre 5

Estimation par variables instrumentales et doubles moindres carrés

Econométrie Appliquée

Ahmed Tritah, Université du Maine

Avril 2011

(2)

Introduction

I L’omission d’un facteur important entraîne un biais des MCO : c’est le problème d’endogénéité.

I La méthode d’estimation par variables instrumentales (VI) (correctement appliquée) permet de résoudre ce problème.

I L’estimation par VI permet également de résoudre les

problèmes d’erreurs de mesures sur les variables exogènes qui produisent des estimateurs MCO biaisés.

(3)

I Lorsque une variable importante est omise les estimations sont biaisées. Plusieurs solutions :

I utiliser une proxy : une variable fortement corrélée avec la variable omise.

I ignorer le problème et évaluer le sens du biais. Si l’e¤et postulé est positif, le problème est moins grave lorsque le biais est négatif. Si l’e¤et postulé est négatif, le problème est moins grave lorsque le biais est positif. Dans les deux cas, si on trouve un e¤et, il sera renforcé par en l’absence de biais.

I La méthode d’estimation par VI permet d’extraire du terme d’erreur la variable non-observée.

I Ex. : équation de salaire avec aptitudes non observées (abil) ; log(salaire) =β0+β1educ+β2abil+e

I abil est non observée on estime donc :

log(salaire) =β0+β1educ+u (1) u contient abil, l’estimation de (1) par MCO sera biasée.

(4)

Decription de l’approche par VI

I Considérons le modèle RLS :

y =β0+β1x+u (2)

I Supposons :

Cov(x,u)6=0 (3)

I Pour dériver un estimateur sans biais de β1, on doit disposer d’une information supplémentaire. Elle est fournie par une variable auxilliaire, dénotée z, qui doit satisfaire deux propriétés fondamentales :

1. z est non corrélée avecu:

Cov(z,u) =0; (4)

2. z est corrélée avecx :

Cov(z,x)6=0 (5)

(5)

I z est une variable instrumentale pourx.

1. On résume la condition (4) en disant que "zest exogène dans l’équation (2)".

)une fois pris en compte le terme omis dansu,z n’a pas d’e¤et partiel sury :z n’est donc pas corrélé avec les facteurs non observables qui a¤ectenty.

2. La condition (5) stipule quez doit être corrélée avec la variable endogène.

(6)

I Remarque : la condition (4) ne peut pas être testée. Seule la seconde condition peut-être testée. Etant donné un

échantillon aléatoire de la population il su¢ t d’estimer :

x =π0+π1z+v. (6)

et puisque π1 =Cov(z,x)/Var(z),(5) est vrai si on rejette l’hypothèse nulle :

H0 :π1=0 (7)

à un niveau de signi…cativité relativement élevé (5% ou 1%).

I Pour l’équation de salaire (1), 1.z ne doit pas être corrélée avec les aptitudes (et tout autre facteur non observable a¤ectant les salaires) et, 2.corrélée avec le niveau d’étude.

Une proxy n’est donc pas une bonne VI.

I On trouve dans la litérature l’éducation de la mère ou la taille de la fratrie comme VI pour l’éducation.

(7)

Example (Impact de l’absentéisme sur les résultats universitaire)

I Le modèle de régression simple est

result =β0+β1abs+u, (8) result est le résutat de tests aux examens, etabs le nombre d’heures de cours manqués.

I Pour quelles raisons β1 ne représente pas l’impact "toute chose égales par ailleurs" ?

I Quel serait un bon instrument pourabs?

I Que pensez-vous de la distance au campus universitaire comme instrument ?

I Comment la régression multiple améliorerait l’estimation de l’impact causal de l’absentéisme ?

(8)

La VI permet d’identi…er des relations causales

I L’identi…cationnécessite d’exprimer β1 en fonction de certains moments de la population, lesquels seront estimés.

I En utilisant (2) la covariance de z et y s’exprime :

Cov(z,y) =β1Cov(z,x) +Cov(z,u). (9) (4) ) Cov(z,u) =0 et (5) ) Cov(z,x)6=0, donc :

β1 = Cov(z,y)

Cov(z,x) (10)

I Ces quantités sont estimées par leur analogue empirique sur un échantillon de la population.

(9)

I L’estimateur par variable instrumentalede β1 est donc :

βˆ1 =

n i=1

(zi z¯)(yi y¯)

n i=1

(zi z¯)(xi x¯)

(11)

et

β0 =y¯ βˆ1x¯ (12)

I Rq : si z =x,on retrouve l’estimateur des MCO. Une variable exogène sert de variable instrumentale à elle même.

I L’estimation par variable instrumentale est convergente : on préfère l’utilise sur des grand échantillons [βˆ1 converge (en probabilité) vers β1 lorsquen!].

(10)

L’inférence statistique avec l’estimateur IV

I Les résultats restent semblables à ceux des MCO. On pose une hypothèse d’homosédasticité conditionelle à la variable z (et non x,comme dans les MCO) :

E(u2jz) =σ2 =Var(u) (13)

I Sous les hypothèses (4) (5) et (13), la variance asymptotique de βˆ1 est :

σ2ˆ

β1 = σ

2

2xρ2x,z, où (14)

I σ2x est la variance de x sur la population

I σ2 est la variance deu sur la population

I ρ2x,z est le carré de la corrélation dex etz dans la population.

I (14) est intéressante pour deux raisons :

(11)

1. Toutes les quantités présentes peuvent être estimées sur l’échantillon.

I σ2x :estimé à partir de la variance d’échantillon dex.

I ρ2x,z :estimé à partir du coe¢ cient de détermination (R2) de la régression dexi surzi

I σ2:estimé à partir des résidus estimés, (ui =yi βˆ0 βˆ1xi,i=1, ...,n) et donc

ˆ

σ2= (n 2) 1ni=1uˆi2.

L’erreur asymptotique de βˆ1 et la racine carré de la variance asymptotique estimée donnée par :

ˆ σ2ˆ

β1 = σˆ

2

SSTxRx,z2

2. (14) permet de comparer les variances asymptotiques des estimateurs VI et MCO (lorsque x et u ne sont pas corrélés) :

(12)

I sous les hypothèses G-M, la variance de l’estimateur MCO est :σ2/SSTx

I Elle di¤ère de celle de VI par le termeRx,z2 au dénominateur.

I PuisqueRx,z2 <1:

variance estimateur VI > variance estimateur MCO I Ainsi si x et z sont peux corrélés, la variance VI peut être trés

élevée par rapport à celle des MCO.

I Si z =x,Rx,z2 =1 : variance IV = variance MCO

I Ainsi si x et u ne sont pas corrélés l’estimateur VI sera moins e¢ cace que l’estimateur MCO.

(13)

Example (Estimation des rendements de l’éducation pour les femmes mariées)

I Le modèle de regression simple est :

log(salaire) =β0+β1educ+u (15)

I L’estimation par OLS fournie : log\(salaire) = .185

(.185)+ .109

(.014)educ (16) n = 428, R2=.118

I Interprétation de βˆ1

I Soit l’éducation du père (fatheduc) un instruments poureduc. On suppose donc1. Cov(fatheduc,u) =0.et 2.

Cov(fatheduc,u)6=0

(14)

Example (suite)

I La seconde hypothèse peut être testée avec l’estimation : educ = 10,24

(,28)

+0,269

(,029)

fatheduc n = 428, R2 =0,173

I Testez l’hypothèseH0 :βfatheduc =0 contre H1 :βfatheduc 6=0.

I En utilisant fatheduc comme VI on obtient : log\(salaire) = .441

(.446)+ .059

(.035)educ (17) n = 428, R2=.093

I Commentez ce résultat en comparaison avec ceux MCO.

(15)

Example (suite)

I Calculez l’interval de con…ance à 95% de βˆfatheduc,IV.

I Où se trouve βˆfatheduc,MCO par rapport à cet interval ?

I Qu’en concluez-vous ?

(16)

Example (Rendements de l’éducation pour les hommes)

I On utilise comme VI la taille de la fratrie (sibs) ; laquelle est négativement corrélée aveceduc

[

educ = 14,14

(,11)

,228

(.030)

sibs (18)

n = 935, R2 =0,057

I Interprétez le coe¢ cient βˆsibs.

I Si on suppose que sibs est non corrélée avecu alors l’estimateur VI est asymptotiquement sans biais.

I L’estimation par VI donne :

log\(salaire) = 5,13

(,36)

+.122

(.026)educ n = 935

(17)

Example (suite)

I L’estimateur des MCO donne βˆeduc,MCO =0,059 avec une erreur type de 0,006.

I Ici l’estimation obtenue par VI est plus élevée que celle des MCO, cela correspond pas à l’intuition d’un biais qui proviendrait de l’omission d’aptitudes non observées.

I Il se peut quesibs soit corrélé avec les aptitudes non observées : une fratrie plus importante indique une attention moindre des parents à chaque enfant, et donc des aptitudes non observées éventuellement plus faibles.

I Si educ est mesurée avec erreur, l’estimateur des MCO est biaisé vers 0 (attenuation bias).

(18)

Commentaires sur les VI

I Parfois l’instrument est une variable binaire : indique l’appartenance à un sous-ensemble de la population

I Angrist et Krueger (AK) (1991) utilise le trimestre de

naissance comme instrument poureduc:les individus nés plus tôt dans l’année atteignent plus tôt l’âge limite de la scolarité obligatoire, et arrètent les études plus tôt.

I Bon instrument car le trimestre de naissance ne dépend pas des aptitudes.

I Dans la pratique,educ varie peu selon le trimestre de naissance (Rx,z2 petit) : necessite un échantillon important

I Les auteurs trouvent que l’estimation par VI est proche des MCO, mais elle est beaucoup moins précise.

I Attention : d’autres arguments peuvent prédire un e¤et inverse de naitre plus tôt dans l’année sur les études (individus plus matures réussissent davantage).

(19)

I Quand il s’agit d’évaluer certaines politique, la variable endogène est souvent une variable binaire.

I Angrist (1991) : impact d’avoir été conscrit dans l’armée sur les salaires. Iciproblème d’autosélectionde ceux qui choisissent de faire la guerre du Vietnam....

(20)

Propriété de l’estimateur VI lorsque l’instrument est faiblement corrélé avec la variable endogène

I L’estimateur VI est convergent lorsque z et u sont non corrélés etz et x sont corrélés.

I Mais, les erreurs types peuvent être élevées si z etx sont faiblement corrélées, ceci même si z etu sont faiblement corrélés. L’estimateur VI peut alors avoir un biais

asymptotique élevée.

I La probabilité limite de l’estimateur VI est : plim βˆ1,IV =β1+Corr(z,u)

Corr(z,x) σu

σx

,

I σu etσx sont les écartypes deu etx dans la population.

I même si corr(z,u)petit, βˆ1 peut être non convergent si Corr(z,x)<<Corr(z,u)

(21)

I La probabilité limite de l’estimateur OLS est : plimβˆ1,OLS = β1+Cov(x,u)

Var(x) =β1+Corr(x,u)σxσu

Var(x)

= β1+Corr(x,u)σu σx

I L’estimateur VI est donc préférable à l’estimateur OLS si : Corr(z,u)/Corr(z,x)<Corr(x,u)

I Dans l’exemple de AK (1991) si le trimestre de naissance et u sont corrélés (du fait de la maturité des enfants nés plus tôt dans l’année) l’estimateur IV est biaisé. Le biais est aggravé si z et x sont peu corrélées.

I Toujours véri…er que les variables instrumentales et endogènes sont corrélées.

(22)

Example (Impact du tabagisme sur le poids à la naissance.)

I On lie le nombre de cigarettes fumées par jour par des mères (packs) au poids de leurs enfants à la naissance (pwght) :

log(pwght) =β0+β1packs+u (19)

I Pour quelles raisonspack etu sont-elles corrélées ?

I Instrument pour packs : prix moyen des cigarettes dans l’état de résidence (aux US) (cigprice)

I on supposecigprice non corrélée avecu(commentez...)

I cigprice etpacks devraient être négativement corrélées : packs = 0,067

(,103)

+0,0003

(,0008)

cigprice

n = 1388, R2=0,0000, R¯2= 0,0006.

(23)

Example (suite)

I Aucun lien entre le fait de fumer durant la grossesse et le prix des cigarettes (commentez...).

I cigprice n’est pas un bon instrument pour pack

I Supposons qu’on l’utilise quand même comme instrument : log\(pwght) = 4,45

(,91)

+2,99

(8,70)

packs (20)

n = 1388

I Le coe¢ cient associé à pack est élevé (que pensez-vous du signe), et non signi…catif.

I Résultat non interprétable car cigprice ne satisfait pas la condition necessaire (5).

(24)

Calcul du R2 aprés l’estimation par IV

I R2 =1 SSR/SST, oùSSR est la somme des carrés des résidus de l’estimation par IV.

I Il est possible queSSR >SST et donc R2<0.

I Le R2 a peu de pertinence lorsque x et u sont corrélés, car on ne peut plus décomposer la variance de y par la somme de la variance de x et deu (Var(y)6=β21Var(x)+Var(u)).

I Si l’objectif est de produire un R2 élevé, les MCO sont préférables à l’estimation par VI.

I L’estimation VI est adaptée pour une meilleure estimation des e¤ets partiels "toutes choses égales par ailleurs" lorsque x et u sont corrélés.

(25)

Notation

I Soit le modèle avec deux variables explicatives

y1 =β0+β1y2+β2z1+u1 (21)

I Il s’agit de l’équation structurelle. On s’intéresse auxβj sensés mesurés des relations causales.

I On appelle variable endogène toutes variables corrélées avec u1:y1 est endogène.

I On suppose queu1 contient une variable omise corrélée avec y2.Les variablesy2 etu1 sont donc corrélées ce qui rend y2

endogène.

I z1 est une variable exogène (non corrélée avecu1)

I Exemple : log(salaire) =β0+β1educ +β2exp+u1

I L’estimation de (21) par MCO produit des coe¢ cient biaisés et non convergents.

(26)

Stratégie

I Instrument pour y2

I z1 bien qu’exogène ne peut pas servir d’instrument ày2 car elle apparait déjà dans la régression (21)

I On considère donc l’intrumentz2 non présent dans (21). Les hypothèses d’identi…cation nécessaires sont :

E(u1) =0; Cov(z1,u1) =0; Cov(z2,u1) =0 ,E(z1u1) =E(z2u1) =0

(27)

I On trouve l’estimateur VI par la méthode des moments par résolution du sytème d’équations linéaires à trois inconnues correspondant à la contrepartie empirique des restrictions (2 et 3) :

n i=1

(yi1 βˆ0 βˆ1yi2 βˆ2zi1) = 0 (22)

n i=1

zi1(yi1 βˆ0 βˆ1yi2 βˆ2zi1) = 0

n i=1

zi2(yi1 βˆ0 βˆ1yi2 βˆ2zi1) = 0

(28)

I remarque : siy2 est exogène est y2 =z2 on retrouve l’estimateur MCO.

I z2 doit être corrélée avecy2! on peut exprimer y2 comme une fonction linéaire des variables exogènes et un terme d’erreur :

y2 =π0+π1z1+π2z2+v2 (23) les paramètre πj sont inconnus et par construction :

E(v2) =0 ;Cov(z1,v2) =0 et Cov(z2,v2) =0

I L’hypothèse clé d’identi…cationest :

π2 6=0 (24)

) aprés avoir purgé y2 de la variation attribuable à z1,y2 et z2 doivent être corrélées.

I On peut tester l’hypothèse (24) par un t test.

(29)

I Mais on ne peut pas tester l’hypothèse que z1 et z2 sont non corrélés avec u1. L’hypothèse devra être justi…ée par un raisonnement économique.

I (23) est un exemple d’équation sous forme réduite: expression de la variable endogène en fonction des exogènes du modèle.

I Avec davantage de variables exogènes et une variable

andogène, les hypothèses restent les mêmes. La forme réduite est obtenu en remplacant la variable endogène par son instrument dans l’équation structurellede type (21)

I Avec davantage de variables exogènes on rajoute l’hypothèse de non collinéarité parfaite entre les variables exogènes.

I Pour l’inférence on rajoute l’hypothèse d’homocédasticité.

(30)

Une seule variable explicative endogène

I Soit le modèle structurel (21). On dispose de deux variables exogènes pour y2,z2 et z3.

I On apelle contraintes d’exclusionle fait que z2 et z3 n’apparaissent pas dans (21), et qu’elles ne soient pas corrélées avecu1.

I Puisque z1,z2 et z3 sont exogènes, toutes combinaisons linéaires de ces variables l’est également.

I Le meilleur instrument pour y2 est fourni par la combinaison linéaire de z1,z2 et z3 qui est la plus corrélée avec y2.Il s’agit de la forme réduite :

y2 =π0+π1z1+π2z2+π3z3+v2, où (25) E(v2) =0, Cov(z1,v2) =0,Cov(z2,v2) =0,Cov(z3,v2) =0,

(31)

I la meilleure variable instrumentale pour y2 est alors

y2 =π0+π1z1+π2z2+π3z3. (26)

I Pour que y2 ne soit pas parfaitement corrélée avecz1 on doit avoir :

π2 6=0 et/ouπ36=0. (27) C’est l’hypothèse centrale d’identi…cationsous l’hypothèse que tous les zj sont exogènes.

I L’équation strucuturelle (21) n’est pas identi…ée si π2 =0 et π3 =0.On peut tester cette hypothèse avec unF test.

I L’équation (25) s’interprète de la façon suivante :

I y2 est décomposée en deux parties : une partie exogèney2 (combinaison linéaire deszj) et une partie endogène contenue dansv2.

I On identi…e l’impact dey2 sury1 en exploitant seulement la partie exogène dey2.

(32)

I Les πj étants inconnusy2 doit être estimées en régressanty2 sur z1,z2 et z3 pour obtenir la valeur prédite :

ˆ

y2 =πˆ0+πˆ1z1+πˆ2z2+πˆ3z3 (28)

I A cette étape on doit véri…er que πˆ1 et πˆ2 sont conjoitement di¤érent de zéro pour que l’estimation par IV soit valide (F test)

I Une foisyˆ2 caculé, elle est utilisée comme variable

instrumentale pour y2 : dans les équations (22) la troisième est remplacée par :

n i=1

ˆ

yi2(yi1 βˆ0 βˆ1yi2 βˆ2zi1) =0 (29)

I En présence de plusieurs instruments, l’estimateur VI est apellé l’estimateur des doubles moindre carré (DMC).

I En pratique on utilise yˆ2 comme instrument poury2.

(33)

I L’estimateur IV est identique à l’estimation par MCO de y1 sur yˆ2 et z1 (30)

I En pratique, l’estimateur DMC est obtenu en deux étapes : 1. on fait la régression (28) pour obteniryˆ2

2. puis la regression (30)

I Interprétation de (30) : les DMC estime l’impact de y2 sur y1, aprés avoir purgé y2 de sa corrélation avecu1.Pour le voir on introduit y2 =y2 +v2 dans la forme structurelle :

y1 = β0+β1y2 +β2z1+u1+β1v2 (31) on a bien les conditions necessaires pour un estimateur sans biais.E(u1+β1v2) =0 et

E(u1+β1v2jy2) =E(u1+β1v2jz1) =0.

I Pour la convergence on rajoute l’hypothèse

d’homosédasticité : la variance deu1 dans le modèle structurel ne doit pas dépendre des variables exogènes.

(34)

En pratique

I Il n’est pas necessaire d’e¤ectuer les deux étapes, la procédure est pré-programmé dans la plupart des logiciels

économétriques.

I On doit éviter de faire manuellement les deux étapes car les erreurs types obtenus et les tests en second étape ne sont pas valides. En e¤et le terme d’erreur dans (31) incorporev2, mais les erreurs types utilisés pour calculer les tests font appel à u1.

I Avec une variable instrumentale par variable endogène, les méthodes DMC et IV sont identiques.

I Rajouter des variables exogènes ne modi…e pas la méthode : log(salaire) =β0+β1educ+β2exp+β3exp2+u1 (32) oùexp etexp2 non corrélées avecu1,eteduc corrélée avecu1.

(35)

Example (Rendements de l’éducation pour les femmes actives)

I Instrument pour educ : education du père et de la mère :

educ =π0+π1exper+π2exper2+π3motheduc+π4fatheduc+v2 (33)

I On teste l’hypothèse necessaire à l’identi…cation H0 :π3 =0 et π4 =0,(test F) : F=55,4 et p-value=0,0000 ;

I L’estimation de (32) par DMC donne : log(salaire) = 0,048

(,400)

+0.061

(,031)educ +0.044

(,013)exper 0,0009

(,0004)

exper2 n = 428, R2 =0,136

I Estimation par MCO 10,8%. Erreur type avec DMC relativement élevée : educ non signi…catif à 5%.

(36)

Multicolinéarité et double moindre carré

I Rappel : la multicolinéarité augmente les erreurs types des paramètres estimés.

I La multicolinéarité est plus problématique avec l’estimateur des DMC.

I On peut le voir avec l’expression de la variance asymptotique de l’estimateur β1 qui peut être approximée par :

σ2 d

SST2(1 Rˆ22)

I σ2=VAR(u1)etSSTd2 et la variation totale deyˆ2 etRˆ22 et le R2 de la régression deyˆ2 sur toutes les autres variables exogènes de l’équation structurelles.

(37)

I La variance DMC est plus élevée que celle des MCO pour deux raisons :

1. yˆ2, a par construction moins de variation quey2

2. La corrélation entreyˆ2 et les autres variables exogènes est en général plus élevée que dans les MCO. C’est le principal problème de multicolinéarité des MCO.

I La multicolinéarité peut être attenuée en augmentant la taille de l’échantillon.

(38)

Plusieurs variables explicatives endogènes

I La méthode DMC peut également être utilisée. Par exemple : y1 = β0+β1y2+β2y3+β3z1+β4z2+β5z3+u1 où, (34) E(u1) =0 etu1 non corrélée avecz1,z2 et z3.On suppose que y2 et y3 sont endogènes.

I Pour estimer (34) on doit disposer d’au moins deux variables exogènes non incluses dans (34) et corrélées avec y2 ety3.

I Attention si l’une des deux variables exogènes n’est

(partiellement) corrélée avec aucune des variables endogènes ou si les deux sont corrélées avec la même alors on ne dispose que d’un seul instrument. L’estimateur DMC ne sera pas convergent.

I On peut établir une condition necessaire d’identi…cation en présence de plusieurs variables endogènes. Il s’agit de la condition d’ordre.

(39)

Condition d’ordre pour l’indenti…cation d’une équation

On a besoin d’autant de variables exogènes exclues de l’équation structurelle qu’on a de variables endogènes dans cette équation.

Une condition su¢ sante est appelée la condition de rang. Il s’agit d’une condition de type (27)

(40)

Résumé...

Références

Documents relatifs

des singularités ordinaires (courbe double avec points triples sur cette courbe double). Des considérations analogues à celles que nous venons de développer sont susceptibles

Ce théorème rappelle le théorème des bornes pour des fonctions de R dans R : &#34;Toute fonction d’une variable continue sur un segment est bornée et atteint ses bornes&#34;..

Lorsqu’il y a deux facteurs de production (cf exemple ultérieur où les facteurs de production sont la terre et le travail dans l’opération de récolte), la fonction de production

Le graphique semble indiquer une association entre les variables poids et taille: une plus grande taille semble correspondre en moyenne ` a un plus grand poids2. Une fa¸con

→ De fa¸con analogue ` a l’interpr´etation de la surface des barres d’un histogramme en mode“densit´e”, la surface sous la courbe de la densit´ e d’une variable al´

deux facteurs entiers P = QR, chacun des polynômes Q et R doit s’annuler dans le domaine d’intégration.. La théorie des quadratures mécaniques est

(c) Quelle formule doit-on saisir en E2 et recopier vers le bas pour calculer les écarts verticaux entre les points du nuage et les points correspondants de la droite D.. (d)

On a constitu´ e un groupe exp´ erimental de 105 en- fants auxquels on a donn´ e le vaccin et un groupe t´ emoin de 75 enfants qui ont re¸cu un placebo. On a suivi ces deux