• Aucun résultat trouvé

Les Mod` eles pour Donn´ ees Censur´ ees

Dans le document chapitre-15 (Page 29-34)

Le mod`ele de r´egression le plus simple qui comprend une variable d´ependante censur´ee est le mod`ele tobit, ainsi appel´e parce qu’il est tr`es ´etroitement li´e au mod`ele probit et parce qu’il fut propos´e `a l’origine par Tobin (1958). Une forme simple de mod`ele tobit est

yt =xt(β) +ut, ut NID(0, σ2),

yt =yt si yt >0; yt = 0 sinon. (15.44) Ici yt est une variable latente observ´ee seulement quand elle est positive.

Quand la variable latente est n´egative, la variable d´ependante prend une valeur nulle. La motivation initiale de Tobin ´etait d’´etudier les d´epenses des m´enages sur des biens durables, nulles pour certains m´enages et positives pour d’autres.

Il est ais´e de modifier le mod`ele tobit de telle sorte qu’une censure se produise pour d’autres valeurs que z´ero, de telle sorte que la censure s’applique

`a des valeurs sup´erieures plutˆot qu’inf´erieures, ou de telle sorte que la valeur sur laquelle se produit la censure change (d’une mani`ere non stochastique) sur l’´echantillon. Par exemple, yt pourrait ˆetre la demande de places sur un vol d’une compagnie a´erienne, yct pourrait ˆetre la capacit´e de l’appareil (qui pourrait varier sur l’´echantillon selon les diff´erents appareils utilis´es lors des vols), etyt pourrait ˆetre le nombre de si`eges v´eritablement occup´es. Ainsi, la seconde ligne de (15.44) serait remplac´ee par

yt =yt si yt < yct; yt =ytc sinon.

Le mod`ele tobit a ´et´e tr`es largement usit´e dans les travaux appliqu´es. Des applications de celui-ci ont concern´e des sujets tr`es divers tels que le chˆomage (Ashenfelter et Ham, 1979), l’ˆage esp´er´e de la retraite (Kotlikoff, 1979), la demande de cuivre (MacKinnon et Olewiler, 1980), et mˆeme le nombre d’aventures extra-conjugales (Fair, 1978).

Tableau 15.1 Non Convergence Caus´ee par la Troncature et la Censure

y0 fraction < y0 plim( ˆβ0) plim( ˆβ1) plim( ˜β0) plim( ˜β1)

0.0 0.076 1.26 0.77 1.07 0.93

0.5 0.167 1.48 0.63 1.18 0.83

1.0 0.316 1.77 0.49 1.37 0.69

1.5 0.500 2.12 0.37 1.67 0.50

2.0 0.684 2.51 0.28 2.06 0.31

2.5 0.833 2.93 0.21 2.51 0.16

Il est tout aussi incorrect d’utiliser une r´egression par moindres carr´es avec des donn´ees censur´ees qu’avec des donn´ees tronqu´ees. Le Tableau 15.1 contient certains r´esultats num´eriques pour l’estimation OLS du mod`ele

yt =β0+β1xt+ut, ut NID(0, σ2),

o`u yt provient de yt soit par troncature soit par censure sur des valeurs inf´erieures `a y0. Pour cette illustration, les v´eritables valeurs de β0, β1, et σ ´etaient toutes unitaires, et xt ´etait uniform´ement distribu´ee sur l’intervalle (0,1). Chaque ligne du tableau correspond `a une valeur diff´erente de y0 et en cons´equence `a une proportion diff´erente des observations limit´ees. Les esti-mations bas´ees sur l’´echantillon tronqu´e sont d´esign´ees par ˆβ0 et ˆβ1, tandis que celles bas´ees sur l’´echantillon censur´e sont d´esign´ees par ˜β0 et ˜β1.8

Il apparaˆıt `a partir des r´esultats du tableau que la non convergence due

`a la troncature ou `a la censure peut ˆetre tr`es importante, la troncature provo-quant une non convergence encore plus prononc´ee que la censure, du moins dans cet exemple. Comme nous pouvions nous y attendre, la non convergence augmente avec la proportion des observations limit´ees. Notons que pour le cas censur´e, plim( ˜β1)/β1 est essentiellement ´egale `a la proportion des ob-servations non limit´ees dans l’´echantillon, 1Pr(yt < y0). Greene (1981a) a d´eriv´e ce r´esultat de fa¸con analytique pour tous les coefficients de pente dans un mod`ele de r´egression lin´eaire, sous l’hypoth`ese particuli`ere que les r´egresseurs sont normalement distribu´es. Ceci semble fournir une tr`es bonne approximation pour certains autres cas, dont celui analys´e dans le tableau.

8 Ces r´esultats ont ´et´e obtenus au moyen d’une exp´erience Monte Carlo qui com-prenait 500 simulations, avec chacune 50,000 observations. Bien que l’erreur exp´erimentale devrait ˆetre tr`es petite, les derniers chiffres report´es dans le tableau peuvent ne pas ˆetre exacts. Par exemple, il est ais´e de voir que dans cet exemple la fraction tronqu´ee ou censur´ee quandy0 est 1.5 doit ˆetre 0.50, et c’est le nombre report´e dans le tableau. Cependant, le nombre effectivement observ´e dans les exp´eriences a ´et´e 0.498.

Le mod`ele tobit est habituellement estim´e par maximum de vraisem-blance. Par souci de simplicit´e, nous discuterons de l’estimation du mod`ele tobit simple donn´e par (15.44). Nous voyons imm´ediatement que

Pr(yt = 0) = Pr(yt 0) = Pr¡

Ainsi, la contribution des observations du type yt = 0 `a la fonction de logvraisemblance est

Lorsque yt est positive, sa densit´e est σ−1φ¡

(yt−xt(β))/σ¢

Pr(yt >0) . (15.46)

Cependant, la contribution des observations du type yt > 0 `a la fonction de logvraisemblance n’est pas le logarithme de (15.46), parce que ces observations ne surviennent seulement qu’avec une probabilit´e Pr(yt >0). En multipliant (15.46) par Pr(yt >0) et en calculant le logarithme nous obtenons

log

qui est la contribution d’une observation `a la fonction de logvraisemblance dans un mod`ele de r´egression sans censure.

La fonction de logvraisemblance pour le mod`ele tobit est ainsi X

Le premier terme est simplement la somme sur les observations limit´ees de l’expression (15.45), et le second est la somme sur les observations non limit´ees de l’expression (15.47). Le premier terme semble correspondre `a la fonction de logvraisemblance pour un mod`ele probit. Nous pouvons montrer cette similitude en lin´earisant la fonction de r´egression et en imposant la normali-sation σ = 1, auquel cas Φ¡

−xt(β)/σ¢

devient 1Φ¡ Xtβ¢

, et en comparant la fonction de logvraisemblance `a (15.09). Par contraste, le second terme dans (15.48) ressemble `a la fonction de logvraisemblance pour un mod`ele de r´egression non lin´eaire.

Les lecteurs peuvent s’interroger `a raison sur la validit´e de cette fonction de logvraisemblance. Apr´es tout, le premier terme est une somme de loga-rithmes d’un certain nombre de probabilit´es, tandis que le second terme est

une somme de logarithmes d’un certain nombre de densit´es. Ce m´elange rela-tivement ´etrange provient du fait que la variable d´ependante dans un mod`ele tobit est parfois une variable al´eatoire discr`ete (pour les observations limit´ees) et parfois une variable continue (pour les observations non limit´ees). En raison de ce m´elange de variables al´eatoires discr`etes et continues, les d´emonstrations standards de la convergence et de la normalit´e asymptotique des estimateurs ML ne s’appliquent pas au mod`ele tobit. Cependant, Amemiya (1973c), dans un article bien connu, a montr´e que l’estimateur ML poss`ede en r´ealit´e toutes les propri´et´es asymptotiques habituelles. Il fournit ´egalement les expressions pour les ´el´ements de la matrice d’information.

Il n’est pas difficile de maximiser la fonction de logvraisemblance (15.48).

Bien qu’elle ne soit pas globalement concave dans sa param´etrisation naturelle, Olsen (1978) a montr´e que quand xt(β) = Xtβ, celle-ci ne poss`ede pas un maximum unique. L’argument cl´e est que nous pouvons reparam´etriser le mod`ele en termes des param`etresα≡β/σ eth≡1/σ, et montrer que la fonc-tion de logvraisemblance peut ˆetre globalement concave avce cette derni`ere param´etrisation. Ceci implique que celle-ci doit avoir un unique maximum quelle que soit la param´etrisation. La matrice de covariance de dimension (k + 1) ×(k + 1) des estimations ML peut ˆetre estim´ee habituellement de plusieurs mani`eres. Malheureusement, comme avec le mod`ele de r´egression tronqu´e examin´e dans la section pr´ec´edente, la seule r´egression artificielle ap-plicable `a ce mod`ele est la r´egression OPG.

Il existe une relation int´eressante entre les mod`eles tobit, de r´egression tronqu´ee et probit. Supposons, pour faire simple, que xt(β) =Xtβ. Alors la fonction de logvraisemblance du mod`ele tobit peut ˆetre r´ecrite comme

X

Additionnons et soustrayons maintenant le terme P

yt>0log¡

Ici, la premi`ere ligne est la fonction de logvraisemblance pour un mod`ele de r´egression tronqu´e; il s’agit simplement de (15.43) avecyl= 0 etxt(β) =Xtβ et avec un ensemble d’observations auxquelles s’appliquent les sommations ajust´e convenablement. La seconde ligne est la fonction de logvraisemblance pour un mod`ele probit avec la fonction indice Xtβ/σ. Naturellement, si seule la seconde ligne apparaissait, nous ne pourrions pas identifier β et σ

s´epar´ement, mais comme nous disposons ´egalement de la premi`ere ligne, ceci ne constitue pas un probl`eme.

L’expression (15.50) montre clairement que le mod`ele tobit est compa-rable `a un mod`ele de r´egression tronqu´e combin´e `a un mod`ele probit, les vecteurs de coefficients des deux derniers mod`eles ´etant contraints `a ˆetre pro-portionnels. Cragg (1971) a avanc´e l’id´ee que cette restriction peut parfois ˆetre irr´ealiste et a propos´e plusieurs mod`eles plus g´en´eraux comme alterna-tives plausibles au mod`ele tobit. Il peut parfois ˆetre souhaitable de tester le mod`ele tobit contre un ou plus de ces mod`eles g´en´eraux; voir Lin et Schmidt (1984) et Greene (1990a, Chapitre 21).

Comme nous l’avons mentionn´e plus tˆot, il est facile de modifier le mod`ele tobit pour g´erer diff´erents types de censures. Par exemple, une possibilit´e est un mod`ele avec une double censure. Supposons que

yt =xt(β) +ut, ut NID(0, σ2),

yt =yt si ytl ≤yt ≤ytu; yt =ytl si yt < ytl; yt =ytu si yt > yut. Ce mod`ele a ´et´e ´etudi´e par Rosett et Nelson (1975) et Nakamura et Nakamura (1983), parmi d’autres. Nous voyons que la fonction de logvraisemblance est

X

Le premier terme correspond aux observations non limit´ees, le deuxi`eme aux observations fix´ees `a la limite inf´erieure ytl, et le troisi`eme aux observations fix´ees `a la limite sup´erieure yut. La maximisation de (15.51) est imm´ediate.

De nombreux autres mod`eles pour r´egression avec donn´ees censur´ees et tronqu´ees furent propos´es dans la litt´erature. Certains d’entre eux traitent de situations dans lesquelles il existe deux ou plusieurs variables d´ependantes jointes. Nelson et Olsen (1978) et Lee (1981) sont des r´ef´erences importantes;

consulter les synth`eses de Amemiya (1985, Chapitre 10) et Dhrymes (1986).

Nous n’avons pas suffisamment de place pour discuter de cette litt´erature plus en d´etails. Cependant, il est utile de mentionner un cas fr´equent.

Supposons que yt soit une variable latente d´etermin´ee par le mod`ele yt =Xtβ+ut, ut NID(0, σ2), (15.52) et que yt provienne de yt par une forme quelconque de censure ou de tron-cature. Il s’ensuite que le mod`ele qui est r´eellement estim´e est un mod`ele probit, tobit, ou de r´egression tronqu´ee. C’est ´evidemment le type de tron-cature ou de censure pour passer de yt vers yt qui d´eterminera lequel de ces

mod`eles est appropri´e. Supposons maintenant que une (plusieurs) variable(s) d´ependante(s) dans le vecteurXt puisse(nt) ˆetre corr´el´ee(s) avec les al´eas ut. Si tel est le cas, les estimations ML habituelles de β seront ´evidemment non convergentes.

Heureusement, il est tr`es facile de tester une non convergence li´ee `a la possible corr´elation entre certaines variables ind´ependantes et les al´eas dans (15.52). Le test est tr`es similaire au test DWH pour la non conver-gence caus´ee par une possible endog´en´eit´e, test discut´e dans la Section 7.9.

Supposons que W soit une matrice de variables instrumentales comprenant toutes les colonnes de X (une matrice avec comme ligne typeXt) dont nous savons qu’elles sont exog`enes ou pr´ed´etermin´ees. Pour ex´ecuter le test, nous r´egressons tout d’abord les colonnes restantes de X, disons X, sur W et sauvegardons les r´esidusMWX. Nous calculons alors soit un test LR soit un test LM pour l’hypoth`ese que γ=0 dans le mod`ele `a variable latente fictif

yt =Xtβ+ (MWX)tγ+ut, ut NID(0, σ2).

Ici (MWX)t sert d’estimation des parties stochastiques des variables prob-ablement endog`enes dans Xt. Si ces variables ne sont pas corr´el´ees avec ut, et que le mod`ele `a variable latente est sp´ecifi´e correctement, le vecteur γ de-vrait ˆetre nul. Ce test fut utilis´e par MacKinnon et Olewiler (1980) et d´etaill´e ensuite par Smith et Blundell (1986).

Il est entendu qu’`a la fois les mod`eles correspondant aux hypoth`eses nulle et alternative pour ce test sont v´eritablement des mod`eles de r´egression tronqu´ee, probit, ou tobit, qui d´ependent de la mani`ere dont yt est obtenue

`a partir de yt. Comme d’habitude, les tests LM peuvent ˆetre bas´es sur les r´egressions artificielles. Comme seule la r´egression OPG est disponible pour les mod`eles tobit et de r´egression tronqu´es, il peut ˆetre pr´ef´erable d’utiliser un test LR dans ces cas. Quand nous estimons le mod`ele alternatif, il s’av`ere que les estimations de β sont convergentes mˆeme si l’hypoth`ese nulle est fausse, comme elles l’´etaient dans le cas de la r´egression lin´eaire examin´e dans la Section 7.9. Cependant, la matrice de covariance ordinaire produite par cette proc´edure n’est pas valable asymptotiquement quand γ 6= 0, pour la mˆeme raison qu’elle ne l’´etait pas dans le cas de de la r´egression lin´eaire.

Dans le document chapitre-15 (Page 29-34)

Documents relatifs