• Aucun résultat trouvé

chapitre-15

N/A
N/A
Protected

Academic year: 2022

Partager "chapitre-15"

Copied!
39
0
0

Texte intégral

(1)

Chapitre 15

Variables D´ependantes Limit´ees et Qualitatives

15.1 Introduction

Les mod`eles de r´egression supposent de mani`ere implicite que la variable d´ependante, peut-ˆetre apr`es une transformation logarithmique ou autre, peut prendre n’importe quelle valeur sur la droite des r´eels. Bien que cette sup- position ne soit pas strictement correcte pour les donn´ees ´economiques, elle est assez souvent raisonnable. Cependant, il s’agit d’une hypoth`ese accept- able lorsque la variable d´ependante peut prendre n’importe quelle valeur sp´ecifique de probabilit´e signifacativement sup´erieure `a z´ero. Les ´economistes ont fr´equemment `a faire `a de tels cas. Les plus commun´ement rencontr´es sont les cas pour lesquels la variable d´ependante peut prendre seulement deux valeurs. Par exemple, une personne peut faire partie de la population active ou non, un m´enage peut ˆetre propri´etaire ou locataire du logis o`u il vit, un d´ebiteur peut faire d´efaut ou non `a un prˆet, un conducteur peut se d´eplacer pour son travail ou pour son loisir, et ainsi de suite. Ces cas constituent des exemples de variables binaires d´ependantes.

Si nous d´esirons expliquer des variables ´economiques comme celles-ci dans un mod`ele ´econom´etrique, nous devons tenir compte de leur nature discr`ete.

Les mod`eles de la sorte sont appel´es mod`eles `a r´eponses qualitatives, et sont habituellement estim´es par la m´ethode du maximum de vraisemblance. Dans le cas le plus simple et le plus fr´equent, la variable d´ependante repr´esente une ou deux alternatives. Elles sont cod´ees de fa¸con conventinnelle par 0 et 1, une convention qui se r´ev`ele ˆetre tr`es pratique. Les mod`eles qui tentent d’expliquer les variables 0-1 sont souvent appel´esmod`eles `a r´eponse binaireou, moins souvent, mod`eles `a choix binaire. Ils sont tr`es fr´equemment employ´es en ´economie appliqu´ee et dans de nombreux autres domaines o`u s’applique l’´econom´etrie, comme les exemples pr´ec´edents servent `a l’illustrer.

Les mod`eles de r´egression sont aussi inappropri´es pour traiter les mod`eles comprenant des variables d´ependantes limit´ees, pour lesquels il existe une grande quantit´e de vari´et´es. Parfois une variable d´ependante peut ˆetre con- tinue sur un ou plusieurs intervalles de la droite des r´eels mais peut pren- dre une ou plusieurs valeurs avec une probabilit´e finie. Par exemple, les

511

(2)

d´epenses de consommation portant sur certaines cat´egories de biens et services sont g´en´eralement contraintes `a ˆetre non n´egatives. Ainsi, si nous observons les d´epenses portant sur une certaine cat´egorie pour un ´echantillon de biens m´enagers, il est tr`es probable que ces d´epenses seront nulles pour certains bi- ens m´enagers et positives pour d’autres. Comme il existe une probabilit´e pos- itive qu’une valeur particuli`ere, z´ero, se pr´esente dans les donn´ees les mod`eles de r´egression ne sont pas appropri´es pour ce type de donn´ees. Un autre type de mod`ele `a variables d´ependantes limit´ees survient quand seulement certains r´esultats (tels que les r´esultats positifs dans cet exemple) sont observ´es. Ceci signifie que l’´echantillon ne sera pas al´eatoire.

Dans ce chapitre, nous traitons `a la fois les mod`eles `a r´eponse qualita- tive et les mod`eles `a variables d´ependantes limit´ees. Il s’agit d’un domaine dans lequel il y a eu une ´enorme quantit´e de recherche durant les 20 derni`eres ann´ees, et c’est pourquoi notre traitement couvre seulement quelques uns des mod`eles les plus basiques. Nous nous concentrerons tout d’abord sur les mod`eles `a r´eponse binaire, parce qu’ils sont `a la fois les mod`eles les plus simples et les plus fr´equents. Ils seront discut´es dans les trois prochaines sections. Ensuite, dans la Section 15.5, nous discuterons bri`evement des mod`eles `a r´eponses qualitatives pour les cas comprenant plus de deux r´eponses diff´erentes. Finalement, dans les trois derni`eres sections, nous portons notre attention sur certains des mod`eles les plus simples qui concernent les variables d´ependantes limit´ees.

15.2 Les Mod` eles ` a R´ eponse Binaire

Dans un mod`ele `a r´eponse binaire, la valeur de la variable d´ependanteyt peut prendre seulement deux valeurs, 1 et 0, qui indiquent si un certain ´ev´enement se produit ou pas. Nous pouvons proposer queyt = 1 indique que l’´ev´enement s’est produit pour l’observationtet queyt = 0 indique que l’´ev´enement ne s’est pas produit. SoitPt la probabilit´e (conditionnelle) que l’´ev´enement se soit pro- duit. Ainsi un mod`ele `a r´eponse binaire essaie vraiment de mod´eliser la prob- abilit´e Pt conditionnelle `a un certain ensemble d’informations, disons Ωt, qui se compose de variables pr´ed´etermin´ees et exog`enes. Ainsi la sp´ecification de yt qui est soit 0 soit 1 est tr`es commode, parce que la probabilit´e Pt constitue alors simplement l’esp´erance de yt conditionnelle `a l’ensemble d’information Ωt:

Pt Pr(yt = 1|t) =E(yt|t).

L’objectif d’un mod`ele `a r´eponse binaire est de mod´eliser cette esp´erance conditionnelle.

Partant de cette perspective, il est clair qu’un mod`ele de r´egression lin´eaire est moins bien adapt´e qu’un mod`ele `a r´eponse binaire. Supposons que Xt d´esigne un vecteur ligne de dimension k des variables qui appartiennent

`a l’ensemble d’information Ωt, qui inclut un terme constant ou l’´equivalent.

(3)

Alors un mod`ele de r´egression lin´eaire sp´ecifirait E(yt|t) pour Xtβ. Mais E(yt|t) est une probabilit´e, et les probabilit´es doivent ˆetre comprises entre 0 et 1. La quantit´e Xtβ n’est pas contrainte de la sorte et par cons´equent, elle ne peut pas ˆetre interpr´et´ee comme une probabilit´e. N´eanmoins, beaucoup de travaux empiriques (pour la plupart plus anciens) utilisent simplement les OLS pour estimer ce qui est appel´e (plutˆot de mani`ere maladroite) lemod`ele de probabilit´e lin´eaire,1 qui est le mod`ele

yt =Xtβ+ut.

Etant donn´e que des mod`eles bien meilleurs sont disponibles et qu’il est facile de les estimer en utilisant la technologie informatique moderne, ce type de mod`ele n’est presque pas recommandable. Mˆeme s’il arrive que Xtβ soit compris entre 0 et 1 pour un β quelconque et toutes les observations dans un ´echantillon particulier, il est impossible de contraindre Xtβ `a rester dans cet intervalle pour toutes les valeurs possibles de Xt, `a moins que les valeurs prises par les variables ind´ependantes soient limit´ees d’une certaine mani`ere (par exemple, elles peuvent toutes ˆetre des variables muettes). Ainsi le mod`ele de probabilit´e lin´eaire ne constitue pas un moyen judicieux pour mod´eliser les probabilit´es conditionnelles.

Plusieurs mod`eles `a r´eponse binaire pertinents sont disponibles et sont tr`es faciles `a traiter. La subtilit´e consiste `a utiliser une fonction de transfor- mation F(x) qui comporte les propri´et´es

F(−∞) = 0, F(∞) = 1, et (15.01)

f(x)≡ ∂F(x)

∂x >0. (15.02)

Ainsi F(x) est une fonction monotone croissante qui s’applique de la droite des r´eels vers l’intervalle 0-1. Certaines fonctions de distribution cumul´ees comportent ces propri´et´es, et nous discuterons bri`evement de certains exem- ples sp´ecifiques. En utilisant des sp´ecifications vari´ees pour la fonction de transformation, nous pouvons mod´eliser l’esp´erance conditionnelle de yt de plusieurs mani`eres.

Les mod`eles `a r´eponse binaire dont nous discuterons se composent d’une fonction de transformation F(x) appliqu´ee `a une fonction indice qui d´epend des variables ind´ependantes et des param`etres du mod`ele. Une fonction indice est simplement une fonction qui comporte les propri´et´es d’une fonction de r´egression, soit lin´eaire soit non lin´eaire. Ainsi une sp´ecification tr`es g´en´erale d’un mod`ele `a r´eponse binaire est

E(yt|t) =F¡

h(Xt,β)¢ ,

1 Consulter, par exemple, Bowen et Finegan (1969).

(4)

o`uh(Xt,β) est la fonction indice. Une sp´ecification plus restrictive, mais plus fr´equente, est

E(yt|t) =F(Xtβ). (15.03) Dans ce cas, la fonction indice Xtβ est lin´eaire et E(yt|t) est simplement une transformation non lin´eaire. Bien que Xtβ puisse en principe prendre n’importe quelle valeur sur la droite des r´eels, F(Xtβ) doit ˆetre comprise entre 0 et 1 d’apr`es la propri´et´e (15.01).

Parce que F(·) est une fonction non lin´eaire, les changements dans les valeurs deXti, qui sont les ´el´ements deXt, affectent n´ecessairementE(yt|t) d’une mani`ere non lin´eaire. De fa¸con plus sp´ecifique, quand Pt E(yt|t) est fournie par (15.03), sa d´eriv´ee par rapport `a Xti est

∂Pt

∂Xti = ∂F(Xtβ)

∂Xti =f(Xtβ)βi. (15.04) Pour les fonctions de transformation qui sont presque toujours employ´ees, f(Xtβ) atteint son maximum en z´ero et d´ecroit ensuite quandXtβ s’´eloigne de z´ero. Ainsi, (15.04) nous indique que l’effet sur Pt d’un changement d’une des variables d´ependantes est maximum lorsque Pt =.5 et minimum lorsque Pt est proche de 0 ou 1.

Quand les mod`eles `a r´eponse binaire sont utilis´es dans un travail ap- pliqu´e, la fonction indice lin´eaire Xtβ est presque toujours employ´ee, parmi une des deux sp´ecifications pour F(·). Les mod`eles qui en r´esultent sont ap- pel´es mod`ele probit et mod`ele logit. Pour le mod`ele probit, la fonction de transformation F(x) est la fonction de distribution cumul´ee de la loi normale standard

Φ(x) Z x

−∞

1

2π exp¡

12X2¢ dX.

Comme Φ(x) est une fonction de r´epartition, elle satisfait automatiquement les conditions (15.01) et (15.02). Le mod`ele probit peut ˆetre ´ecrit comme

Pt ≡E(yt|t) = Φ(Xtβ).

Bien qu’il n’existe aucune expression born´ee pour Φ(x), elle est facilement

´evalu´ee num´eriquement, et sa d´eriv´ee premi`ere est naturellement la fonction de densit´e de la loi normale standard

φ(x) = 1

2π exp¡

12x2¢ .

Le mod`ele probit peut provenir d’un mod`ele comprenant une variable yt non observ´ee, ou latente. Supposons que

yt =Xtβ+ut, ut NID(0,1). (15.05)

(5)

Nous observons seulement le signe de yt, qui d´etermine la valeur de la variable binaire observ´eeyt selon la relation

yt = 1 si yt >0 et yt = 0 si yt 0. (15.06) Par exemple, nous pourrions imaginer queyt est un indice de l’utilit´e (nette) obtenue de certaine action. Si l’action fournit une utilit´e positive, elle sera retenue; et ne le sera pas si l’action fournit une utilit´e n´egative ou nulle.

Comme nous observons seulement si l’action est ou n’est pas retenue, nous observons seulement le signe de yt. De ca fait, nous pouvons normaliser la variance de ut `a l’unit´e. Siut avait r´eellement une autre variance quelconque, disons σ2, la division deyt, β, etut par σ fournirait un mod`ele d’observation identique `a celui d’origine.

Maintenant, nous pouvons nous demander `a quoi correspond la proba- bilit´e yt = 1. Certaines manipulations simples fournissent

Pr(yt = 1) = Pr(yt >0) = Pr(Xtβ+ut >0)

= 1Pr(ut ≤ −Xtβ) = 1−Φ(−Xtβ) = Φ(Xtβ). (15.07) La derni`ere ´egalit´e dans (15.07) utilise le fait que la fonction de densit´e nor- male est sym´etrique par rapport `a z´ero. Le r´esultat final, Φ(Xtβ), est simple- ment la probabilit´e que nous obtiendrions en rempla¸cant F(·) par Φ(·) dans (15.03). Ainsi nous avons d´eriv´e le mod`ele probit `a partir du mod`ele `a va- riable latente compos´e de (15.05) et (15.06). Le fait que le mod`ele probit puisse ˆetre d´eriv´e de cette mani`ere constitue une de ses caract´eristiques les plus attrayantes.

Le mod`ele logit est tr`es similaire au mod`ele probit mais poss`ede un nom- bre de caract´eristiques qui le rendent plus facile `a utiliser. Pour le mod`ele logit, la fonction F(x) est la fonction logistique

Λ(x)(1 +e−x)−1 = ex 1 +ex, qui a comme d´eriv´ee premi`ere

λ(x)≡ ex

(1 +ex)2 = Λ(x)Λ(−x).

La seconde ´egalit´e se r´ev`elera tr`es utile plus tard. Le mod`ele est plus facile- ment d´eriv´e en supposant que

log µ Pt

1−Pt

=Xtβ,

qui indique que le logarithme des probabilit´es est ´egal `a Xtβ. En r´esolvant par rapport `a Pt, nous trouvons que

Pt = exp(Xtβ) 1 + exp(Xtβ)

1 + exp(−Xtβ)¢−1

= Λ(Xtβ).

(6)

Il est aussi possible de d´eriver le mod`ele logit `a partir d’un mod`ele `a variable latente comme (15.05) et (15.06) mais avec des erreurs qui suivent une dis- tribution `a valeur extrˆeme au lieu d’une normale; consulter, parmi d’autres, Domencich et McFadden (1975), McFadden (1984), et Train (1986).

Dans la pratique, les mod`eles logit et probit tendent `a fournir des r´esultats assez similaires. Dans la plupart des cas, la seule diff´erence r´eelle entre eux r´eside dans la mani`ere dont les ´el´ements de β sont gradu´es. Cette diff´erence dans la graduation survient parce que la variance de la distribution lorsque la fonction logistique est la fonction de r´epartition est π2/3, tandis que celle de la loi normale standard est naturellement ´egale `a l’unit´e. Ainsi les estimations logit tendent toutes `a ˆetre sup´erieures aux estimations probit, habituellement d’un facteur juste inf´erieur `a π/√

3.2 La Figure 15.1 illustre les fonctions de r´epartition des loi normale standard, logistique, et logistique regradu´ee pour obtenir une variance unitaire. La similitude entre la fonction de r´epartition de la loi normale et la fonction logistique regradu´ee est frappante.

Au vu de leurs propri´et´es similaires, il est peut-ˆetre curieux qu’`a la fois les mod`eles logit et probit continuent `a ˆetre largement employ´es, tandis que des mod`eles v´eritablement diff´erents des deux pr´ec´edents sont tr`es rarement rencontr´es. Il existe autant de mani`eres de sp´ecifier de tels mod`eles qu’il existe de choix plausibles pour la fonction de transformationF(x). Par exemple, un tel choix est

F(x) =π−1arctan(x) + 12. (15.08) Comme il s’agit de la fonction de r´epartition de Cauchy, sa d´eriv´ee est

f(x) = 1 π(1 +x2),

qui est la densit´e de Cauchy (consulter la Section 4.6). Comme le comporte- ment de la fonction de distribution de Cauchy dans les queues est tr`es diff´erent de celui d’autres fonctions de distribution comme Φ(x) ou Λ(x), il existe au moins la possibilit´e qu’un mod`ele `a r´eponse binaire bas´e sur (15.08) soit plus ou moins performant qu’un mod`ele logit ou probit. D’un autre cˆot´e, il existe une infime probabilit´e pour que ces deux mod`eles fournissent des r´esultats qui diff`erent de mani`ere significative, `a moins que la taille de l’´echantillon soit en fait tr`es importante.

2 Amemiya (1981) sugg`ere que 1.6, plutˆot que π/√

3 = 1.81 peut ˆetre une meilleure estimation du facteur par lequel les estimations logit tendent `a exc´eder les estimations probit. Greene (1990a) remarque aussi qu’une justification pour cette r´egularit´e est que φ(0)/λ(0) = 1.6. Souvenons-nous de (15.04) que les d´eriv´ees de Pt par rapport `a Xti sont ´egales `a f(Xtβ)βi. Si Xtβ est appro- ximativement nul en moyenne et que les mod`eles logit et probit pr´edisent le mˆeme effet surPt pour une variation donn´ee desXti, alors les coefficients pour le mod`ele logit doivent ˆetre approximativement 1.6 fois ceux du mod`ele probit.

On peut s’attendre `a ce que cette approximation s’adapte moins bien quand la valeur moyenne dePt est loin de .5.

(7)

−5 −4 −3 −2 −1 0 1 2 3 4 5 0.0

0.2 0.4 0.6 0.8 1.0

..............................................................................................................................

...........................................................................................................................

..............................................................................................................................

...

......

......

......

......

......

...

......

......

......

......

......

...

......

......

......

......

...

...

Normale standard

.... .....................

Logistique

......................

Logistique regradu´ee

x F(x)

Figure 15.1 Trois choix possibles deF(x)

Les trois choix pour F(·) que nous avons discut´es sont sym´etriques par rapport `a z´ero. Cela signifie qu’elles ont la propri´et´e que 1−F(x) =F(−x), qui implique que f(x) = f(−x). Il s’agit parfois d’une propri´et´e commode, mais il n’existe pas de raison a priori pour s’y tenir. Les choix pour F(·) qui ne poss`edent pas cette propri´et´e fourniront potentiellement des r´esultats tr`es diff´erents de ceux produits par les mod`eles logit et probit. Une mani`ere d’obtenir le mˆeme effet consiste `a sp´ecifier le mod`ele comme

E(yt|t) =F¡

h(Xtβ)¢ ,

o`u F(·) est Φ(·) ou Λ(·), et h(·) est une transformation non lin´eaire. Ceci sugg`ere une fa¸con de tester la validit´e de l’hypoth`ese de sym´etrie oblique, sujet que nous aborderons dans la Section 15.4.

15.3 Estimation des Mod` eles ` a R´ eponse Binaire

A pr´esent, le moyen de loin le plus commun´ement employ´e pour estimer les mod`eles `a r´eponse binaire est l’utilisation de la m´ethode du maximum de vraisemblance. Nous limiterons notre attention `a cette m´ethode et sup- poserons, pour simplifier, que la fonction indice est simplementXtβ. Ensuite, selon le mod`ele `a r´eponse binaire (15.03),F(Xtβ) est la probabilit´e queyt = 1 et 1−F(Xtβ) est la probabilit´e que yt = 0. Ainsi, si yt = 1, la contribu- tion au logarithme de la fonction de vraisemblance pour l’observation t est

(8)

log¡

F(Xtβ)¢

, tandis que si yt = 0, la contribution est log¡

1−F(Xtβ)¢ . En cons´equence, la fonction de vraisemblance est

`(y,β) = Xn

t=1

³ ytlog¡

F(Xtβ)¢

+ (1−yt) log¡

1−F(Xtβ)¢´

. (15.09) Cette fonction est globalement concave `a chaque fois que log¡

F(x)¢ et log¡

1−F(x)¢

sont des fonctions concaves de l’argument x; consulter Pratt (1981). Cette condition est satisfaite par de nombreux mod`eles `a r´eponse binaire, incluant les mod`eles logit et probit. Par cons´equent, les fonc- tions de logvraisemblance pour ces mod`eles sont tr`es faciles `a maximiser num´eriquement.3

Les conditions du premier ordre pour un maximum de (15.09) sont Xn

t=1

(yt −Fˆt) ˆftXti

Fˆt(1−Fˆt) = 0, i= 1, . . . , k, (15.10) o`u ˆFt ≡F(Xtβ) et ˆˆ ft ≡f(Xtβ), avec ˆˆ β qui d´esigne le vecteur des estimations ML. Toutes les fois que la fonction de logvraisemblance est globalement con- cave, ces conditions du premier ordre d´efinissent un maximum unique si elles sont tout `a fait satisfaites. Nous pouvons v´erifier que les mod`eles logit, probit, et de nombreux autres mod`eles `a r´eponse binaire satisfont les conditions de r´egularit´e n´ecessaires pour que les estimations ˆβsoient convergentes et asymp- totiquement normales, avec une matrice de covariance asymptotique donn´ee par l’inverse de la matrice d’information selon la fa¸con habituelle. Consulter, par exemple, Gouri´eroux et Monfort (1981). Dans le cas du mod`ele logit, les conditions du premier ordre (15.10) se simplifient

Xn

t=1

¡ytΛ(Xtβ)ˆ ¢

Xti = 0, i= 1, . . . , k, parce que λ(x) = Λ(x)¡

1Λ(x)¢

. Notons que les conditions (15.10) ressem- blent aux conditions du premier ordre de l’estimation par moindres carr´es pond´er´es du mod`ele de r´egression non lin´eaire

yt =F(Xtβ) +et, (15.11)

avec des poids donn´es par

³

F(Xtβ)¡

1−F(Xtβ)¢´−1/2 .

3 Dans le cas usuel, o`uF(·) est sym´etrique-oblique, il est plus judicieux d’´evaluer log(F(−Xtβ)) plutˆot que log(1−F(Xtβ)) lors de l’´ecriture de programmes informatiques. Ceci ´evite le risque que 1−F(Xtβ) soit ´evalu´e de mani`ere tr`es impr´ecise lorsqueF(Xtβ) est tr`es proche de l’unit´e. Bien queF(·) ne n´ecessite pas d’ˆetre sym´etrique-oblique, nous retiendrons la notation la plus g´en´erale.

(9)

Cela est logique du fait que la variance de l’al´ea dans (15.11) est E(e2t) =E¡

yt −F(Xtβ)¢2

=F(Xtβ)¡

1−F(Xtβ)¢2

1−F(Xtβ)¢¡

F(Xtβ)¢2

=F(Xtβ)¡

1−F(Xtβ)¢ .

Ainsi, une mani`ere d’obtenir des estimations ML de n’importe quel mod`ele

`a r´eponse binaire consiste `a appliquer par it´erations les moindres carr´es non lin´eaires repond´er´es `a (15.11) ou `a tout mod`ele de r´egression non lin´eaire appropri´e si la fonction indice n’est pas Xtβ. Cependant, pour la plupart des mod`eles, cette strat´egie ne constitue pas la meilleure approche. Une approche ad´equate est expos´ee dans la prochaine section.

Comme le ML est ´equivalent `a une forme de NLS pond´er´es pour les mod`eles `a r´eponse binaire, il est ´evident que la matrice de covariance asymp- totique pour n1/2( ˆβ−β0) doit ˆetre

³1nX>Ψ(β0)X

´−1 ,

o`uX est une matrice de dimensionn×k avec comme ligne typeXt et comme

´el´ement type Xti, et Ψ(β) est une matrice diagonale avec comme ´el´ement diagonal type

Ψ(Xtβ) = f2(Xtβ) F(Xtβ)¡

1−F(Xtβ)¢. (15.12) Le num´erateur refl`ete le fait que la d´eriv´ee de F(Xtβ) par rapport `a βi est f(Xtβ)Xti, et le d´enominateur est simplement la variance deet dans (15.11).

Dans le cas du mod`ele logit, Ψ(Xtβ) se simplifie enλ(Xtβ).

Cette matrice de covariance asymptotique peut aussi ˆetre obtenue en prenant l’inverse de la matrice d’information. Comme d’habitude, celle-ci est

´egale `a l’esp´erance de l’oppos´e den−1 fois la matrice Hessienne mais ´egalement

`a l’esp´erance du produit ext´erieur du gradient. La matrice d’information est simplement

I(β)≡−n1X>Ψ(β)X, (15.13) o`uΨ(β) est d´efinie par (15.12). Par exemple, `a partir de (15.10) il est ais´e de voir que l’´el´ement type de la matrice n−1G>(β)G(β), o`u G(β) est la matrice CG, est

n1

Xn

t=1

áyt−F(Xtβ)¢

f(Xtβ) F(Xtβ)¡

1−F(Xtβ)¢

!2

XtiXtj.

Montrer que l’esp´erance de cette expression est un ´el´ement type de la matrice d’information (15.13) constitue un bon exercice.

(10)

−4 −3 −2 −1 0 1 2 3 4 0.0

0.2 0.4 0.6 0.8 1.0

.........................................................................................................................................................

............................................................................................................

......

......

←−Probit Logit regradu´e−→

Xtβ Ψ(Xtβ)

Figure 15.2 Les poids pour les mod`eles probit et logit regradu´e

D´ec´eler l’analogie entre les estimations provenant d’un mod`ele `a r´eponse binaire et les estimations par moindres carr´es pond´er´es est tr`es r´ev´elateur.

Dans le cas des moindres carr´es, chaque observation est pond´er´ee par un poids ´egal quand la matrice d’information est form´ee. Dans le cas `a r´eponse binaire, d’un autre cˆot´e, certaines observations sont pond´er´ees beaucoup plus que d’autres, parce que les poidsΨ(Xtβ) d´efinis dans (15.12) peuvent diff´erer fortement. Si on graphe ces pond´erations comme une fonction de Xtβ pour les mod`eles probit ou logit, nous trouvons que le poids maximum sera associ´e aux observations pour lesquellesXtβ= 0, ce qui implique que Pt =.5, tandis qu’un poids relativement faible sera associ´e aux observations pour lesquelles Pt est proche de 0 ou 1. Ceci est logique car lorsque Pt est proche de 0 ou 1, un changement dans β aura un faible impact sur Pt, tandis que lorsque Pt est proche de .5, un changement aura un effet beaucoup plus important.

Par cons´equent les observations du dernier type fournissent beaucoup plus d’information que les observations du premier type.

Dans la Figure 15.2, les pond´erations (15.12) sont graph´ees pour les cas probit et logit, (la derni`ere a ´et´e regradu´ee pour avoir une variance unitaire) comme des fonctions de l’indice Xtβ. Notons que les diff´erences entre ces deux mod`eles sont plus frappantes qu’elles ne le furent dans la Figure 15.1. Le mod`ele logit associe plus de poids aux observations pour lesquelles Xtβ est proche ou loin de z´ero, tandis que le mod`ele probit associe des poids plus importants aux observations pour lesquelles Xtβ prend des valeurs interm´ediaires (approximativement, entre 0.8 et 3.0). Cependant, les

(11)

diff´erences qui sont apparentes dans la figure semblent rarement prendre plus d’importance dans la pratique.

Comme nous l’avons vu, nous pouvons penser qu’une variable d´ependante binaire provienne d’un mod`ele `a variable latente tel que celui donn´e par (15.05) et (15.06). Il est int´eressant de se demander quel est le degr´e d’efficacit´e perdu par la variable latente non observable. Manifestement, quelque chose doit ˆetre perdu, parce qu’une variable binaire telle que yt doit fournir moins d’information qu’une variable continue telle queyt. La matrice de covariance pour les estimations OLS de β dans (15.05) est (X>X)−1; rappelons que la variance d’erreur est normalis´ee `a l’unit´e. Par contraste, la matrice de covariance pour les estimations probit deβ est¡

X>Ψ(β)X¢−1

, o`uΨ(β) ´etait d´efinie par (15.12). La valeur maximale pourΨ(Xtβ) est atteinte quandPt = .5. Dans le cas probit, cette valeur est 0.6366. Par cons´equent, dans le meilleur cas possible, lorsque les donn´ees sont telles quePt =.5 pour toutt, la matrice de covariance pour les estimations probit sera ´egale `a 1.57 (= 1/0.6366) fois la matrice de covariance des OLS. Dans la pratique, naturellement, cette borne sup´erieure n’est probablement pas atteinte, et les estimations probit peuvent ˆetre beaucoup moins efficaces que ne le seraient les estimations OLS, qui utilisent la variable latente, en particulier lorsque Pt est proche de 0 ou 1 pour une partie importante de l’´echantillon.

Un probl`eme pratique avec les mod`eles `a r´eponse binaire est que les con- ditions du premier ordre (15.10) n’ont pas n´ecessairement de solution finie.

Ceci peut survenir quand l’ensemble des donn´ees ne fournit pas suffisam- ment d’information pour identifier tous les param`etres. Supposons qu’il ex- iste une quelconque combinaison lin´eaire des variables ind´ependantes, disons zt ≡Xtβ, telle que

yt = 0 pour zt 0, et yt = 1 pour zt >0.

Alors il sera possible de faire tendre `(y,β) vers z´ero en posant β = αβ et en laissant α→ ∞. Ceci garantira que F(Xtβ) 0 pour toutes les observa- tions o`u yt = 0 et F(Xtβ) 1 pour toutes les observations o`u yt = 1. La valeur de la fonction de logvraisemblance (15.09) tendra donc vers z´ero quand α → ∞. Mais z´ero est ´evidemment une borne sup´erieure pour cette valeur.

Donc, dans de telles circonstances, les param`etres β ne sont pas identifi´es sur l’espace param´etrique non compact Rk au sens de la D´efinition 8.1, et nous ne pouvons pas obtenir des estimations pertinentes de β; consulter Albert et Anderson (1984).

Quand zt est simplement une combinaison lin´eaire du terme constant et d’une seule variable ind´ependante, cette derni`ere est souvent appel´ee classifi- catrice parfaite, parce que les yt peuvent ˆetre class´ees en 0 ou 1, une fois la valeur de la variable connue. Par exemple, consid´erons le DGP

yt =xt +ut, ut NID(0,1);

yt = 1 si yt >0 et yt = 0 si yt 0. (15.14)

(12)

Pour ce DGP, il semblerait judicieux d’estimer le mod`ele probit

E(yt|xt) = Φ(β0+β1xt). (15.15) Mais supposons que, dans l’exemple, xt soit toujours un nombre inf´erieur `a

−4 ou sup´erieur `a +4. Quand xt est inf´erieur `a −4, il est presque certain (la probabilit´e est sup´erieure `a 0.99997) que yt sera 0, et quandxt est sup´erieure

`a +4, il est presque certain que yt sera 1. Ainsi, `a moins que la taille de l’´echantillon soit tr`es grande, il est peu probable qu’il y ait des observations pour lesquelles xt < 0 et yt = 1 ou des observations pour lesquelles xt >

0 et yt = 0. En l’absence de telles observations, la variable xt sera une classificatrice parfaite, et il sera impossible d’obtenir des estimations correctes des param`etres de (15.14). Quel que soit l’algorithme de maximisation utilis´e, il essaiera simplement de rendre ˆβ1 aussi grand que possible.

Bien que cet exemple soit extrˆeme, des probl`emes similaires sont suscep- tibles de survenir lorsque l’ajustement du mod`ele est tr`es bon et la taille de l’´echantillon est petite. Il existera une classificatrice parfaite quand il y a un hyperplan s´eparateur dans l’espace des explicatives tel que toutes les obser- vations pour lesquelles yt = 0 se situent de l’un cˆot´e et toutes celles pour lesquelles yt = 1 de l’autre. Ce cas de figure est probable si l’ajustement est bon et il n’y a que peu d’observations avec yt = 0, ou peu avec yt = 1. Il se peut n´eanmoins que des estimations ML puissent se calculer mˆeme quand n n’est pas plus grand que k+ 1 et il n’y a qu’une seule observation avec soit yt = 0 soit yt = 1.

Dans les mod`eles de r´egression, il est commun de tester l’hypoth`ese que toutes les pentes sont nulles en utilisant un test en F. Pour les mod`eles `a r´eponse binaire, la mˆeme hypoth`ese peut facilement ˆetre test´ee en utilisant un test du ratio de vraisemblance. Un mod`ele avec un terme constant peut ˆetre ´ecrit comme

E(yt|t) =F¡

β1+X2tβ2

¢, (15.16)

o`u X2t se compose de Xt sans le terme constant et β2 est un vecteur de dimension (k1). Sous l’hypoth`ese nulle queβ2 =0, (15.16) devient

E(yt|t) =F¡ β1

¢=E(yt).

Ceci indique simplement que l’esp´erance conditionnelle de yt est ´egale `a son esp´erence non conditionnelle, qui peut ˆetre estim´ee par ¯y. Par cons´equent, si β¯1 d´esigne l’estimation de β1, ¯y = F( ¯β1). A partir de (15.09), il est ais´e de voir que la valeur de la fonction de logvraisemblance sous l’hypoth`ese nulle est

`(y,β¯1,0) =ny¯log(¯y) +n(1−y) log(1¯ −y).¯ (15.17) Le double de la diff´erence entre la valeur non contrainte`(y,βˆ1ˆ2) et la valeur contrainte `(y,β¯1,0) constitue une statistique de test LR qui sera asympto- tiquement distribu´ee suivant une χ2(k1). Comme le membre de droite de

(13)

(15.17) est tr`es facile `a calculer, la statistique de test l’est ´egalement. Cepen- dant, nous discuterons dans la prochaine section d’une statistique de test encore plus facile `a calculer.

De nombreuses mesures de bonne qualit´e de l’ajustement, comparables au R2 pour les mod`eles de r´egression, ont ´et´e propos´ees pour les mod`eles `a r´eponse binaire, et de nombreuses applications statistiques reportent certaines d’entre elles. Consulter, parmi d’autres, Cragg et Uhler (1970), McFadden (1974a), Hauser (1977), Efron (1978), Amemiya (1981), et Maddala (1983).

Le plus simple de ces pseudo R2 est celui sugg´er´e par McFadden. Il est simplement d´efini comme

1 `U

`R

, (15.18)

o`u `U est la valeur non contrainte `(y,βˆ1ˆ2), et `R est la valeur contrainte

`(y,β¯1,0). L’expression (15.18) repr´esente une possible mesure de bonne qualit´e de l’ajustement parce qu’elle doit ˆetre comprise entre 0 et 1. Nous avons vu auparavant que la fonction de logvraisemblance (15.09) pour les mod`eles `a choix binaires est born´ee sup´erieurement par 0, ce qui implique que `U et `R sont toujours de mˆeme signe `a moins que `U soit nulle. Mais

`U peut ˆetre nulle seulement si le mod`ele non contraint s’ajuste parfaitement, ce qui survient s’il existe une classificatrice parfaite. Ainsi nous voyons que l’expression (15.18) sera ´egale `a 1 dans ce cas, ´egale `a 0 quand les valeurs con- trainte et non contrainte de la logvraisemblance seront identiques, et comprise entre 0 et 1 dans tous les autres cas.

Bien que (15.18) et d’autres mesures de bonne qualit´e d’ajustement puis- sent ˆetre utiles pour obtenir une id´ee approximative sur les performances d’un mod`ele `a r´eponse binaire particulier, il n’est pas n´ecessaire de les utiliser si l’objectif est de comparer la performance de deux ou plusieurs mod`eles

`a r´eponse binaire diff´erents estim´es sur le mˆeme ensemble de donn´ees. Le meilleur moyen d’y parvenir consiste simplement `a comparer les valeurs des fonctions de logvraisemblance, en utilisant le fait que les valeurs pour n’importe quel mod`ele `a r´eponse binaire de la forme (15.03) sont directement comparables. Parfois, nous pouvons mˆeme rejeter un mod`ele sur la base d’une telle comparaison. Par exemple, supposons que, sur un ensemble de donn´ees particulier, la valeur de la logvraisemblance pour un mod`ele logit donn´e exc`ede de plus de 1.92 celle d’un mod`ele probit avec la mˆeme fonction indice, ce qui repr´esente la moiti´e de 3.84, la valeur critique `a 5% pour une statistique de test qui est distribu´ee suivant une χ2(1). Il est clairement possible d’englober les logit et probit dans un mod`ele plus g´en´eral ayant plus d’un param`etre. Le dernier mod`ele s’ajusterait au moins aussi bien que le mod`ele logit; consulter la discussion dans la Section 14.3. Ainsi, dans cet exemple, nous pourrions rejeter `a un niveau de 5% l’hypoth`ese selon laquelle le mod`ele probit a g´en´er´e les observations. Naturellement, il est rare que la diff´erence entre l’ajustement des mod`eles probit et logit, qui ne diff`erent d’aucune autre mani`ere, soit aussi importante, `a moins que la taille de l’´echantillon ne soit extrˆemement grande.

(14)

15.4 Une R´ egression Artificielle

Il existe une r´egression `a la fois tr`es simple et tr`es utile pour les mod`eles

`a r´eponse binaire. Comme pour d’autres r´egressions artificielles, elle peut ˆerte utilis´ee pour une vari´et´e d’usages, incluant l’estimation param´etrique, l’estimation de la matrice de covariance, et le test d’hypoth`ese. Cette r´egression artificielle a ´et´e sugg´er´ee par Engle (1984) et Davidson et MacKin- non (1984b). Elle peut ˆetre d´eriv´ee de plusieurs mani`eres, parmi lesquelles la plus facile consiste `a la traiter comme une version modifi´ee de la r´egression de Gauss-Newton.

Comme nous l’avons vu, le mod`ele `a r´eponse binaire (15.03) peut ˆetre

´ecrit sous la forme du mod`ele de r´egression non lin´eaire (15.11), soit yt = F(Xtβ) +et. Nous avons ´egalement vu que l’al´eaet est de variance

V(Xtβ)≡F(Xtβ)¡

1−F(Xtβ)¢

, (15.19)

qui implique que (15.11) doit ˆetre estim´ee par GNLS. La GNR ordinaire cor- respondant `a (15.11) serait

yt−F(Xtβ) =f(Xtβ)Xtb + r´esidu, (15.20) mais celle-ci est clairement inappropri´ee en raison de l’h´et´erosc´edasticit´e des et. En effet, nous devons multiplier les deux membres de (15.20) par la racine carr´ee de l’inverse de (15.19). Ceci fournit la r´egression artificielle

¡V(Xtβ)¢−1/2¡

yt −F(Xtβ)¢

V(Xtβ)¢−1/2

f(Xtβ)Xtb + r´esidu, (15.21) qui ressemble `a la GNR pour un mod`ele de r´egression non lin´eaire estim´e par moindres carr´es pond´er´es (consulter la Section 9.4). La r´egression (15.21) est un cas particulier de ce que nous appelerrons r´egression pour mod`ele `a r´eponse binaire, ou BRMR. Cette forme de la BRMR demeure valable pour n’importe quel mod`ele `a r´eponse binaire de la forme de (15.03).4 Dans le cas du mod`ele logit, celle-ci se simplifie en

¡λ(Xtβ)¢−1/2¡

yt Λ(Xtβ)¢

λ(Xtβ)¢1/2

Xtb + r´esidu.

La BRMR satisfait les propri´et´es g´en´erales des r´egressions artificielles dont nous avons discut´e dans la Section 14.4. En particulier, celle-ci est tr`es

4 Certains auteurs ´ecrivent la BRMR de mani`eres quelque peu diff´erentes. Par exemple, chez Davidson et MacKinnon (1984b), la r´egressande a ´et´e d´efinie comme

yt

µ1−F(Xtβ) F(Xtβ)

1/2

+ (yt1)

µ F(Xtβ) 1−F(Xtβ)

1/2 .

V´erifier qu’il s’agit juste d’une autre mani`ere d’´ecrire la r´egressande de (15.21) constitue un bon exercice.

(15)

´etroitement reli´ee `a la fois au gradient de la fonction de vraisemblance (15.09) et `a la matrice d’information. Le produit de la transpos´ee de la r´egressande par la matrice des r´egresseurs fournit un vecteur d’´el´ement type

Xn

t=1

¡yt−F(Xtβ)¢

f(Xtβ)Xti

F(Xtβ)¡

1−F(Xtβ)¢ ,

qui est un ´el´ement type du vecteur gradient pour la fonction de logvraisem- blance (15.09). La transpos´ee de la matrice des r´egresseurs multipli´ee par elle-mˆeme fournit une matrice d’´el´ement type

Xn

t=1

f2(Xtβ) F(Xtβ)¡

1−F(Xtβ)¢XtiXtj. (15.22) La limite en probabilit´e de n−1 fois (15.22) est un ´el´ement type de la matrice d’information (15.13).

Toutes les fois que la fonction de logvraisemblance est globalement con- cave, comme pour les mod`eles logit et probit, il existe de nombreuses mani`eres diff´erentes d’estimer facilement les mod`eles `a r´eponse binaire. Une approche qui fonctionne g´en´eralement bien consiste `a utiliser un algorithme similaire `a ceux d´ecrits dans la Section 6.8. Dans un tel algorithme, la BRMR est utilis´ee pour d´eterminer la direction dans laquelleβ varie `a chaque ´etape. Les valeurs de β aux it´erations j+ 1 et j sont reli´ees par

β(j+1) =β(j)+α(j)b(j),

o`u b(j) d´esigne le vecteur des estimations OLS `a partir de la BRMR (15.21)

´evalu´ee en β(j), et α(j) est un scalaire d´etermin´e par l’algorithme. On pour- rait choisir les estimations initiales β(1) de diff´erentes fa¸cons. Une de ces fa¸cons facile `a utiliser et qui semble bien fonctionner dans la pratique consiste simplement `a initialiser le terme constant `a F−1y) et les autres coefficients

`a z´ero. Les valeurs de d´epart correspondent alors aux estimations du mod`ele contraint avec des pentes nulles.

En ´evaluant la BRMR avec les estimations ML ˆβ, celle-ci peut aussi ˆetre utilis´ee pour obtenir une matrice de covariance estim´ee pour les param`etres estim´es. La matrice de covariance estim´ee `a partir de l’estimation OLS de la r´egression (15.21) ´evalu´ee en ˆβ sera

s2¡

X>Ψ Xˆ ¢−1

, (15.23)

o`usest l’´ecart type de la r´egression. Cet ´ecart type tendra asymptotiquement vers 1, mais il ne sera pas vraiment ´egal `a 1 dans les ´echantillons finis. La matrice ˆΨ est une matrice diagonale avec comme ´el´ement type diagonal

Ψˆtt = f2(Xtβ)ˆ F(Xtβ)ˆ ¡

1−F(Xtβ)ˆ ¢.

(16)

Il s’agit simplement de l’expression (15.12) avec β remplac´e par ˆβ. Ainsi, la matrice de covariance OLS estim´ee (15.23) fournit une estimation valable de la matrice de covariance de ˆβ. C’est aussi le cas de la matrice (X>Ψ X)ˆ −1, qui correspond simplement `a (15.23) divis´ee pars2, et que l’on pr´ef`erera prob- ablement utiliser puisque le facteur de s2 dans (15.23) introduit simplement un al´ea additionnel dans l’estimation de la matrice de covariance.

Comme d’habitude, nous pouvons ´egalement estimer la matrice de covar- iance de ˆβ par l’oppos´ee de l’inverse de la matrice Hessienne num´erique ou par le produit ext´erieur du gradient de la matrice CG, ˆG>G. Dans le cas duˆ mod`ele logit, l’oppos´ee de la matrice Hessienne num´erique est v´eritablement

´egale `a la matrice d’information estim´ee X>Ψ Xˆ , parce que

2`(β)

∂βi∂βj =

∂βj µXn

t=1

¡ytΛ(Xtβ)¢ Xti

= Xn

t=1

λ(Xtβ)XtiXtj.

Cependant, dans le cas de la plupart des mod`eles `a r´eponse binaire, incluant le mod`ele probit, l’oppos´ee de la matrice Hessienne diff´erera et sera g´en´eralement plus compliqu´ee que la matrice d’information.

Comme toutes les r´egressions artificielles, la BRMR est particuli`erement utile pour les tests d’hypoth`ese. Suppossons que β soit partitionn´e comme [β1 ....β2], o`u β1 est un vecteur de dimension (k r) et β2 est un vecteur de dimension r. Si ˜β d´esigne le vecteur des estimations ML soumises `a la contrainte β2 = 0, nous pouvons tester cette contrainte en ex´ecutant `a la BRMR

V˜t−1/2(yt −F˜t) = ˜Vt−1/2f˜tXt1b1+ ˜Vt−1/2f˜tXt2b2 + r´esidu, (15.24) o`u ˜Ft ≡F(Xtβ), ˜˜ ft ≡f(Xtβ), et ˜˜ Vt ≡V(Xtβ). Ici˜ Xt a ´et´e partitionn´ee en deux vecteurs,Xt1 et Xt2, correspondant `a la partition de β. Les r´egresseurs qui correspondent `aβ1 sont orthogonaux `a la r´egressande, tandis que ceux qui correspondent `aβ2 ne le sont pas. Toutes les statistiques de test usuelles pour b2 =0 sont valables. Cependant, par contraste avec le cas de la r´egression de Gauss-Newton, il n’existe pas de raison particuli`ere d’utiliser un test en F, parce qu’il n’y a pas de param`etre de variance `a estimer. La meilleure statis- tique de test `a utiliser en ´echantillons finis, selon les r´esultats Monte Carlo obtenus par Davidson et MacKinnon (1984b), est probablement la somme des carr´es expliqu´es `a partir de la r´egression (15.24). Elle sera asymptotiquement distribu´ee suivant une χ2(r) sous l’hypoth`ese nulle. Notons que le nR2 ne sera pas ´egal `a la somme des carr´es expliqu´es dans ce cas, parce que la somme des carr´es totaux ne sera pas ´egale `a n.

Dans un cas tr`es sp´ecial, la BRMR (15.24) devient extrˆemement simple.

Supposons que l’hypoth`ese nulle corresponde `a la nullit´e de tous les coefficients de pentes. Dans ce cas, Xt1 est unitaire, Xtβ˜ = ˜β1 = F−1y), et, dans une notation ´evidente, la r´egression (15.24) devient

V¯−1/2(yt −F¯) = ¯V−1/2f b¯ 1+ ¯V−1/2f¯Xt2b2 + r´esidu.

(17)

La statistique de test en F pour b2 =0 est invariante `a la soustraction d’une constante `a la r´egressande, ou `a la multiplication de la r´egressande et des r´egresseurs par une constante. Ainsi, il est clair que nous pouvons tester l’hypoth`ese que toutes les pentes sont nulles en calculant simplement une statistique en F pour c2 =0 dans la r´egression lin´eaire

y=c1+X2c2 + r´esidus.

Ainsi, nous avons rencontr´e une situation dans laquelle le mod`ele de proba- bilit´e lin´eaire est utile. Si nous voulons tester l’hypoth`ese nulle selon laquelle aucun des r´egresseurs n’explique la variation de la variable d´ependante, alors il est parfaitement pertinent d’employer la statistique de test ordinaire en F pour toutes les pentes nulles dans une r´egression OLS de y sur X.

Naturellement, nous pouvons utiliser la BRMR pour calculer les tests C(α) et les tests pseudo-Wald aussi bien que des tests LM. L’essentiel de ce que nous avons dit concernant de tels tests dans les Sections 6.7 et 13.7 reste valable dans le contexte des mod`eles `a r´eponse binaire. Nous ne pouvons pas utiliser la somme des carr´es expliqu´es comme statistique de test, mais plutˆot la r´eduction dans la somme des carr´es expliqu´es cons´ecutive `a l’addition des r´egresseurs de test. Les tests pseudo-Wald peuvent ˆetre particuli`erement utiles quand la fonction indice est lin´eaire sous l’hypoth`ese alternative mais non lin´eaire sous l’hypoth`ese nulle, parce que l’hypoth`ese alternative peut ˆetre estim´ee au moyen d’un programme standard logit ou probit. S’il apparaˆıt que les contraintes s’ajustent bien aux donn´ees, nous pouvons employer une BRMR diff´erente pour obtenir des estimations en une ´etape.

La BRMR est utile pour tester tous les aspects de la sp´ecification des mod`eles `a r´eponse binaire. Avant mˆeme d’accepter un quelconque mod`ele de la sorte, nous devons savoir si F(Xtβ) repr´esente une sp´ecification correcte pour la probabilit´e yt = 1 conditionnellement `a l’ensemble d’information Ωt. Les tests de variables appartenant `a l’ensemble Ωt potentiellement omises constitue une part importante de ce processus, et nous avons d´ej`a vu comment proc´eder `a l’aide de la BRMR (15.24). Mais mˆeme siXt est sp´ecifi´ee de fa¸con correcte, le reste du mod`ele peut ne pas l’ˆetre.

Consid´erons le mod`ele `a variable latente donn´e par (15.05) et (15.06).

Parce que les mod`eles `a r´eponse binaire sont typiquement estim´es en utili- sant les donn´ees en coupe transversale, et que de telles donn´ees pr´esentent fr´equemment de l’h´et´erosc´edasticit´e, il est fort possible que les al´eas dans l’´equation pour yt soient h´et´erosc´edastiques. S’ils ´etaient effectivement h´et´erosc´edastiques, le mod`ele probit ne serait plus appropri´e, et les estima- tions de β bas´ees sur ce mod`ele seraient non convergentes; consulter Yatchew et Griliches (1984). Puisque nous pouvons consid´erer que tout mod`ele mod`ele

`a r´eponse binaire peut provenir d’un mod`ele `a variable latente, il est claire- ment important de tester l’h´et´erosc´edasticit´e de tels mod`eles. Nous discutons

`a pr´esent de la mani`ere de proc´eder.

(18)

Une sp´ecification plus g´en´erale que l’´equation (15.05) qui tient compte des erreurs h´et´erosc´edastiques est

yt =Xtβ+ut, ut ∼N¡

0,exp(2Ztγ)¢

, (15.25)

o`u Zt est un vecteur ligne de longueur q des observations sur les variables qui appartiennent `a l’ensemble d’information Ωt. Pour s’assurer qu’`a la fois β et γ sont identifiables, Zt ne doit pas comprendre un terme constant ou l’´equivalent. La combinaison de (15.25) avec (15.06) fournit le mod`ele

E(yt|t) = Φ

µ Xtβ exp(Ztγ)

. (15.26)

Quandγ=0, (15.25) se r´eduit `a (15.05) et (15.26) se r´eduit au mod`ele probit ordinaire. Mˆeme quand un mod`ele `a r´eponse binaire autre que le mod`ele probit est utilis´e, il semble encore tr`es raisonnable de consid´erer l’hypoth`ese alternative

E(yt|t) =F

µ Xtβ exp(Ztγ)

.

Nous pouvons testerγ=0contre cette forme d’h´et´erosc´edasticit´e. La BRMR appropri´ee est

Vˆt−1/2(yt −Fˆt) = ˆVt−1/2fˆtXtb+ ˆVt−1/2fˆtZt(−Xtβ)cˆ + r´esidu, (15.27) o`u ˆFt, ˆft, et ˆVtsont ´evalu´es avec les estimations ML ˆβen supposant queγ=0.

La somme expliqu´ee des carr´es de (15.27) sera distribu´ee asymptotiquement suivant une χ2(q) sous l’hypoth`ese nulle.

Il est ´egalement important de tester la sp´ecification de la fonction de transformationF(·). Comme nous l’avons not´e plus tˆot, une mani`ere naturelle de proc´eder de la sorte consiste `a consid´erer un mod`ele alternatif de la forme

E(yt|t) =F¡

h(Xtβ,α)¢

, (15.28)

o`u h(x,α) est une fonction non lin´eaire de x, et α est soit un param`etre soit un vecteur de param`etres tel que h(Xtβ,α) = Xtβ pour une certaine valeur de α. Stukel (1988) sugg`ere une famille plus compliqu´ee de fonctions

`a deux param`etres h(x,α) qui m`ene `a une famille tr`es g´en´erale de mod`eles.

Cette famille comprend le mod`ele logit comme un cas particulier quand α= 0, et permet d’imposer ou non l’hypoth`ese de sym´etrie-oblique. On peut ais´ement utiliser la BRMR pour tester l’hypoth`ese nulle que α = 0 contre cette alternative.

Un test plus simple peut ˆetre bas´e sur la famille de mod`eles E(yt|t) =F

µτ(αXtβ) α

,

Références

Documents relatifs

Plutˆ ot que n´ ecessiter de recompiler le module pour chaque nouvelle op´ eration, nous d´ esirons exposer une interface ` a l’utilisateur de fa¸ con ` a ce que deux ´

Ce r´ esultat important permet d’affirmer que si la matrice de Leslie d’un mod` ele dynamique (3) est primitive alors cette dynamique pr´ esentera, lorsque t augmente, un

Tracer les isoclines nulles et d´eterminer la direction des fl`eches sur ces isoclines.. Tracer les courbes solutions dans le

Tracer les isoclines nulles et d´eterminer la direction des fl`eches sur ces isoclines.. Tracer les courbes solutions dans le

Calibrer les param` etres de discr´ etisation de la repr´ esentation diffusive pour assurer une bonne pr´ ecision de la solution obtenue (expliciter la d´ emarche adopt´ ee

Pour chaque mod`ele, nous remarquons que la valeur du coefficient de d´etermination multiple ajust´e R 2 aj ne diff`ere que faiblement de celle du coefficient de d´etermination

Pour illustrer le cours 4 ”Choix de mod` ele”, consid´ erons les donn´ ees du tableau sui- vant (Source : Andrews et Herzberg (1985)) relatives dans les quartiers de Chicago, o` u F

Le syst` eme informatique d’une biblioth` eque enregistre le num´ ero national, le nom, le pr´ enom et l’adresse (rue, num´ ero, code postal, ville) de chacun de ses clients.. Le