• Aucun résultat trouvé

S´ election d’Echantillon

Dans le document chapitre-15 (Page 34-39)

Dans la Section 15.6, nous avons discut´e des mod`eles dans lesquels l’´echantil-lon avait ´et´e tronqu´e sel’´echantil-lon la valeur de la variable d´ependante. Cependant, dans de nombreux cas pratiques, la troncature n’est pas bas´ee sur la valeur de la variable d´ependante mais plutˆot sur la valeur d’une autre variable qui lui est corr´el´ee avec elle. Par exemple, les gens peuvent choisir d’entrer sur le march´e du travail seulement si leur salaire de march´e exc`ede leur salaire de r´eserve. Ainsi l’´echantillon des gens qui sont sur le march´e du travail

exclura ceux pour qui le salaire de r´eserve exc`ede leur salaire de march´e. Si la variable d´ependante est un ´el´ement corr´el´e avec leurs salaires de r´eserve ou de march´e, l’utilisation des moindres carr´es fournira des estimations non convergentes. Dans ce cas, l’´echantillon est dit s´electionn´e sur la base de la diff´erence entre le salaire de r´eserve et le salaire de march´e, et le probl`eme que ce type de s´election provoque est souvent d´esign´e sous le nom de biais de s´election d’´echantillon. Heckman (1974, 1976, 1979), Hausman et Wise (1977), et Lee (1978) sont les tous premiers articles sur ce sujet.

La meilleure mani`ere de comprendre les caract´eristiques cl´es des mod`eles impliquant la s´election d’´echantillon consiste `a examiner un mod`ele simple en d´etail. Supposons que yt et zt soient deux variables latentes, g´en´er´ees par le processus bivari´e

o`u Xt et Wt sont des vecteurs d’observations sur les variables exog`enes ou pr´ed´etermin´ees,βetγsont des vecteurs param´etriques inconnus,σ est l’´ecart type de ut et ρ repr´esente la corr´elation entre ut et vt. La restriction que la variance de vt est ´egale `a 1 est impos´ee parce que seul le signe de zt sera observ´e. De fait, les variables r´eellement observ´ees sont yt et zt, et elles sont reli´ees `a yt etzt comme suit:

yt =yt si zt >0; yt = 0 sinon;

zt = 1 si zt >0; zt = 0 sinon.

Il existe deux types d’observations: celles pour lesquelles `a la foisyt etzt sont nulles et celles pour lesquelles zt = 1 et yt est ´egale `a yt. La fonction de logvraisemblance pour ce mod`ele est ainsi

X terme de (15.54) est la somme sur les observations pour lesquelles zt = 0 des logarithmes de la probabilit´e que zt = 0. C’est exactement le mˆeme terme que celui qui correspond `azt par lui-mˆeme dans un mod`ele probit. Le second terme est la somme sur les observations pour lesquelleszt = 1 de la probabilit´e que zt = 1 fois la densit´e de yt conditionnelle `a zt = 1. En utilisant le fait que nous pouvons factoriser une densit´e jointe de n’importe quelle mani`ere, le second terme peut aussi ˆetre ´ecrit comme

X

zt=1

log¡

Pr(zt = 1|yt)f(yt,

o`u f(yt) est la densit´e conditionnelle de yt, qui est simplement une densit´e normale d’esp´erance conditionnelle Xtβ et de variance σ2.

La seule difficult´e dans l’´ecriture explicite de la fonction de logvraisem-blance (15.54) est de calculer Pr(zt = 1|yt). Comme ut et vt sont normaux

comme yt = yt quand zt = 1. Ainsi la fonction de logvraisemblance (15.54) devient

Le premier terme ressemble au terme correspondant pour un mod`ele pro-bit. Le deuxi`eme terme ressemble `a la fonction de logvraisemblance pour un mod`ele de r´egression lin´eaire `a erreurs normales. Le troisi`eme terme est celui que nous n’avons pas vu auparavant.

Les estimations par maximum de vraisemblance peuvent ˆetre obtenues de mani`ere habituelle par la maximisation de (15.55). Cependant, cette ma-ximisation est relativement on´ereuse, et une technique de calcul plus simple propos´ee par Heckman (1976) est souvent utilis´ee `a la place d’une estimation ML. La m´ethode en deux ´etapes de Heckman est bas´ee sur le fait que la premi`ere ´equation de (15.53) peut ˆetre r´ecrite comme

yt =Xtβ+ρσvt+et. (15.56) L’id´ee est de remplacer yt par yt et vt par son esp´erance conditionnelle `a zt = 1 et `a la valeur r´ealis´ee de Wtγ. Comme nous l’avons vu `a partir de (15.42), cette esp´erance conditionnelle est φ(Wtγ)/Φ(Wtγ), une quantit´e parfois d´esign´ee sous le nom de ratio inverse de Mills. En cons´equence, la r´egression (15.56) devient

yt =Xtβ+ρσφ(Wtγ)

Φ(Wtγ) + r´esidu. (15.57) Il est maintenant facile de voir comment op`ere la m´ethode en deux ´etapes de Heckman. Dans une premi`ere ´etape, un mod`ele probit ordinaire est utilis´e

pour obtenir des estimations convergentes ˆγ des param`etres de l’´equation de s´election. Ensuite, dans une seconde ´etape, le r´egresseur de s´election φ(Wtγ)/Φ(Wtγ) est ´evalu´e en ˆγ et la r´egression (15.57) est estim´ee par OLS

`a l’aide des observations pour lesquellesyt >0. Cette r´egression fournit aussi bien un test pour la s´election d’´echantillon qu’une technique d’estimation.

Le coefficient du r´egresseur de s´election est ρσ. Comme σ 6= 0, le t de Stu-dent ordinaire pour la nullit´e de ce coefficient peut ˆetre utilis´e pour tester l’hypoth`ese que ρ = 0; celle-ci sera asymptotiquement distribu´ee selon la N(0,1) sous l’hypoth`ese nulle. Ainsi, si ce coefficient n’est pas significative-ment diff´erent de z´ero, l’exp´erisignificative-mentateur peut raisonnablesignificative-ment d´ecider que la s´election n’est pas un probl`eme pour cet ensemble de donn´ees, et continuer

`a utiliser les moindres carr´es comme d’habitude.

Mˆeme quand l’hypoth`ese queρ= 0 ne peut pas ˆetre accept´ee, l’estimation OLS de la r´egression (15.57) fournit des estimations convergentes de β.

Cependant, la matrice de covariance OLS n’est valable que lorsque ρ = 0.

A cet ´egard, la situation est tr`es similaire `a celle rencontr´ee `a la fin de la section pr´ec´edente, quand nous testions des biais de simultan´eit´e potentiels dans des mod`eles `a variables d´ependantes tronqu´ees ou censur´ees. Il existe en r´ealit´e deux probl`emes. Tout d’abord, les r´esidus dans (15.57) seront h´et´erosc´edastiques, puisqu’un r´esidu type est ´egal `a

ut−ρσφ(Wtγ) Φ(Wtγ).

Ensuite, le r´egresseur de s´election est trait´e comme n’importe quel autre r´egresseur, quand il s’agit en r´ealit´e d’une partie de l’al´ea. Nous pourrions r´esoudre le premier probl`eme en utilisant un estimateur de matrice de covar-iance robuste `a l’h´et´erosc´edasticit´e (voir le Chapitre 16), mais cela ne r´esoudra pas le second probl`eme. Il est possible d’obtenir une estimation valable de la matrice de covariance compatible avec les estimations en deux ´etapes de β `a partir de (15.57). Cependant, le calcul est peu pratique, et la matrice de co-variance estim´ee n’est pas toujours d´efinie positive. Consulter Greene (1981b) et Lee(1982) pour plus de d´etails.

Il faut insister sur le fait que la convergence de cet estimateur en deux

´etapes, comme celle de l’estimateur ML, d´epend de fa¸con critique de l’hypo-th`ese de normalit´e. Nous pouvons comprendre cela `a partir de la sp´ecification du r´egresseur de s´election comme l’inverse du ratio Mills φ(Wtγ)/Φ(Wtγ).

Quand les ´el´ements de Wt sont identiques aux ´el´ements deXt, ou en sont un sous-ensemble, comme c’est souvent le cas dans la pratique, c’est seulement la non lin´earit´e de φ(Wtγ)/Φ(Wtγ) comme fonction de Wtγ qui identifie les param`etres de la seconde ´etape. La forme exacte de la relation non lin´eaire d´epend de fa¸con critique de l’hypoth`ese de normalit´e. Pagan et Vella (1989), Smith (1989), et Peters et Smith (1991) discutent de diverses mani`eres de tester cette hypoth`ese cruciale. Beaucoup des tests sugg´er´es par ces auteurs sont des applications de la r´egression OPG.

Bien que la m´ethode en deux ´etape pour traiter la s´election d’´echantillon soit largement utilis´ee, notre recommandation serait d’utiliser la r´egression (15.57) seulement comme proc´edure pour tester l’hypoth`ese nulle d’absence de biais de s´election n’est pas pr´esent. Quand cette hypoth`ese nulle est re-jet´ee, nous pr´ef`ererons probablement utiliser l’estimation ML bas´ee sur (15.55) plutˆot que la m´ethode en deux ´etape, `a moins que son calcul ne soit prohibitif.

15.9 Conclusion

Notre traitement des mod`eles `a r´eponse binaire dans les Sections 15.2 `a 15.4 a

´et´e raisonnablement d´etaill´e, mais les discussions plus g´en´erales des mod`eles

`a r´eponse qualitative et des mod`eles `a variable d´ependante limit´ee ont

´et´e n´ecessairement tr`es superficielles. Le praticien qui a l’intention de r´ealiser un travail empirique qui emploie ce type de mod`ele souhaitera consul-ter certaines synth`eses plus fournies dont nous avons donn´e les r´ef´erences.

Toutes les m´ethodes pour traiter des variables d´ependantes limit´ees dont nous avons discut´e reposent lourdement sur les hypoth`eses de normalit´e et d’homosc´edasticit´e. Il faudrait toujours tester ces hypoth`eses. Un certain nombre de m´ethodes pour r´ealiser ces tests de la sorte a ´et´e propos´ees; con-sulter, parmi d’autres, Bera, Jarque, et Lee (1984), Lee et Maddala (1985), Blundell (1987), Chesher et Irish (1987), Pagan et Vella (1989), Smith (1989), et Peters et Smith (1991).

Dans le document chapitre-15 (Page 34-39)

Documents relatifs