chapitre-15

(1)

Chapitre 15

Variables D´ependantes Limit´ees et Qualitatives

15.1 Introduction

Les modèles de régression supposent de manière implicite que la variable dépendante, peut-être après une transformation logarithmique ou autre, peut prendre n’importe quelle valeur sur la droite des réels. Bien que cette sup- position ne soit pas strictement correcte pour les données économiques, elle est assez souvent raisonnable. Cependant, il s’agit d’une hypothèse accept- able lorsque la variable dépendante peut prendre n’importe quelle valeur spécifique de probabilité signifacativement supérieure à zéro. Les économistes ont fréquemment à faire à de tels cas. Les plus communément rencontrés sont les cas pour lesquels la variable dépendante peut prendre seulement deux valeurs. Par exemple, une personne peut faire partie de la population active ou non, un ménage peut être propriétaire ou locataire du logis où il vit, un débiteur peut faire défaut ou non à un prêt, un conducteur peut se déplacer pour son travail ou pour son loisir, et ainsi de suite. Ces cas constituent des exemples de variables binaires dépendantes.

Si nous désirons expliquer des variables économiques comme celles-ci dans un modèle économétrique, nous devons tenir compte de leur nature discrète.

Les modèles de la sorte sont appelés modèles à réponses qualitatives, et sont habituellement estimés par la méthode du maximum de vraisemblance. Dans le cas le plus simple et le plus fréquent, la variable dépendante représente une ou deux alternatives. Elles sont codées de fa¸con conventinnelle par 0 et 1, une convention qui se révèle être très pratique. Les modèles qui tentent d’expliquer les variables 0-1 sont souvent appelésmodèles à réponse binaireou, moins souvent, modèles à choix binaire. Ils sont très fréquemment employés en économie appliquée et dans de nombreux autres domaines où s’applique l’économétrie, comme les exemples précédents servent à l’illustrer.

Les modèles de régression sont aussi inappropriés pour traiter les modèles comprenant des variables dépendantes limitées, pour lesquels il existe une grande quantité de variétés. Parfois une variable dépendante peut être continue sur un ou plusieurs intervalles de la droite des réels mais peut prendre une ou plusieurs valeurs avec une probabilité finie. Par exemple, les

511

(2)

dépenses de consommation portant sur certaines catégories de biens et services sont généralement contraintes à être non négatives. Ainsi, si nous observons les dépenses portant sur une certaine catégorie pour un échantillon de biens ménagers, il est très probable que ces dépenses seront nulles pour certains biens ménagers et positives pour d’autres. Comme il existe une probabilité positive qu’une valeur particulière, zéro, se présente dans les données les modèles de régression ne sont pas appropriés pour ce type de données. Un autre type de modèle à variables dépendantes limitées survient quand seulement certains résultats (tels que les résultats positifs dans cet exemple) sont observés. Ceci signifie que l’échantillon ne sera pas aléatoire.

Dans ce chapitre, nous traitons à la fois les modèles à réponse qualita- tive et les modèles à variables dépendantes limitées. Il s’agit d’un domaine dans lequel il y a eu une énorme quantité de recherche durant les 20 dernières années, et c’est pourquoi notre traitement couvre seulement quelques uns des modèles les plus basiques. Nous nous concentrerons tout d’abord sur les modèles à réponse binaire, parce qu’ils sont à la fois les modèles les plus simples et les plus fréquents. Ils seront discutés dans les trois prochaines sections. Ensuite, dans la Section 15.5, nous discuterons brièvement des modèles à réponses qualitatives pour les cas comprenant plus de deux réponses différentes. Finalement, dans les trois dernières sections, nous portons notre attention sur certains des modèles les plus simples qui concernent les variables dépendantes limitées.

15.2 Les Mod` eles ` a R´ eponse Binaire

Dans un modèle à réponse binaire, la valeur de la variable dépendantey_t peut prendre seulement deux valeurs, 1 et 0, qui indiquent si un certain événement se produit ou pas. Nous pouvons proposer quey_t = 1 indique que l’événement s’est produit pour l’observationtet queyt = 0 indique que l’événement ne s’est pas produit. SoitPt la probabilité (conditionnelle) que l’événement se soit produit. Ainsi un modèle à réponse binaire essaie vraiment de modéliser la prob- abilité Pt conditionnelle à un certain ensemble d’informations, disons Ωt, qui se compose de variables prédéterminées et exogènes. Ainsi la spécification de yt qui est soit 0 soit 1 est très commode, parce que la probabilité Pt constitue alors simplement l’espérance de yt conditionnelle à l’ensemble d’information Ωt:

Pt ≡Pr(yt = 1|Ωt) =E(yt|Ωt).

L’objectif d’un modèle à réponse binaire est de modéliser cette espérance conditionnelle.

Partant de cette perspective, il est clair qu’un modèle de régression linéaire est moins bien adapté qu’un modèle à réponse binaire. Supposons que Xt désigne un vecteur ligne de dimension k des variables qui appartiennent

`a l’ensemble d’information Ωt, qui inclut un terme constant ou l’´equivalent.

(3)

Alors un modèle de régression linéaire spécifirait E(yt|Ωt) pour Xtβ. Mais E(y_t|Ω_t) est une probabilité, et les probabilités doivent être comprises entre 0 et 1. La quantité Xtβ n’est pas contrainte de la sorte et par conséquent, elle ne peut pas être interprétée comme une probabilité. Néanmoins, beaucoup de travaux empiriques (pour la plupart plus anciens) utilisent simplement les OLS pour estimer ce qui est appelé (plutôt de manière maladroite) lemodèle de probabilité linéaire,¹ qui est le modèle

y_t =X_tβ+u_t.

Etant donné que des modèles bien meilleurs sont disponibles et qu’il est facile de les estimer en utilisant la technologie informatique moderne, ce type de modèle n’est presque pas recommandable. Même s’il arrive que Xtβ soit compris entre 0 et 1 pour un β quelconque et toutes les observations dans un échantillon particulier, il est impossible de contraindre Xtβ à rester dans cet intervalle pour toutes les valeurs possibles de X_t, à moins que les valeurs prises par les variables indépendantes soient limitées d’une certaine manière (par exemple, elles peuvent toutes être des variables muettes). Ainsi le modèle de probabilité linéaire ne constitue pas un moyen judicieux pour modéliser les probabilités conditionnelles.

Plusieurs modèles à réponse binaire pertinents sont disponibles et sont très faciles à traiter. La subtilité consiste à utiliser une fonction de transformation F(x) qui comporte les propriétés

F(−∞) = 0, F(∞) = 1, et (15.01)

f(x)≡ ∂F(x)

∂x >0. (15.02)

Ainsi F(x) est une fonction monotone croissante qui s’applique de la droite des réels vers l’intervalle 0-1. Certaines fonctions de distribution cumulées comportent ces propriétés, et nous discuterons brièvement de certains exemples spécifiques. En utilisant des spécifications variées pour la fonction de transformation, nous pouvons modéliser l’espérance conditionnelle de yt de plusieurs manières.

Les modèles à réponse binaire dont nous discuterons se composent d’une fonction de transformation F(x) appliquée à une fonction indice qui dépend des variables indépendantes et des paramètres du modèle. Une fonction indice est simplement une fonction qui comporte les propriétés d’une fonction de régression, soit linéaire soit non linéaire. Ainsi une spécification très générale d’un modèle à réponse binaire est

E(yt|Ωt) =F¡

h(Xt,β)¢ ,

1 Consulter, par exemple, Bowen et Finegan (1969).

(4)

oùh(Xt,β) est la fonction indice. Une spécification plus restrictive, mais plus fréquente, est

E(yt|Ωt) =F(Xtβ). (15.03) Dans ce cas, la fonction indice Xtβ est linéaire et E(yt|Ωt) est simplement une transformation non linéaire. Bien que X_tβ puisse en principe prendre n’importe quelle valeur sur la droite des réels, F(Xtβ) doit être comprise entre 0 et 1 d’après la propriété (15.01).

Parce que F(·) est une fonction non linéaire, les changements dans les valeurs deXti, qui sont les éléments deXt, affectent nécessairementE(yt|Ωt) d’une manière non linéaire. De fa¸con plus spécifique, quand P_t ≡ E(y_t|Ω_t) est fournie par (15.03), sa dérivée par rapport à Xti est

∂Pt

∂X_ti = ∂F(Xtβ)

∂X_ti =f(Xtβ)βi. (15.04) Pour les fonctions de transformation qui sont presque toujours employées, f(X_tβ) atteint son maximum en zéro et décroit ensuite quandX_tβ s’éloigne de zéro. Ainsi, (15.04) nous indique que l’effet sur Pt d’un changement d’une des variables dépendantes est maximum lorsque P_t =.5 et minimum lorsque Pt est proche de 0 ou 1.

Quand les modèles à réponse binaire sont utilisés dans un travail ap- pliqué, la fonction indice linéaire X_tβ est presque toujours employée, parmi une des deux spécifications pour F(·). Les modèles qui en résultent sont ap- pelés modèle probit et modèle logit. Pour le modèle probit, la fonction de transformation F(x) est la fonction de distribution cumulée de la loi normale standard

Φ(x)≡ Z _x

−∞

√1

2π exp¡

−¹₂X²¢ dX.

Comme Φ(x) est une fonction de répartition, elle satisfait automatiquement les conditions (15.01) et (15.02). Le modèle probit peut être écrit comme

Pt ≡E(yt|Ωt) = Φ(Xtβ).

Bien qu’il n’existe aucune expression born´ee pour Φ(x), elle est facilement

évaluée numériquement, et sa dérivée première est naturellement la fonction de densité de la loi normale standard

φ(x) = 1

√2π exp¡

−¹₂x²¢ .

Le modèle probit peut provenir d’un modèle comprenant une variable y^∗_t non observée, ou latente. Supposons que

y_t^∗ =Xtβ+ut, ut ∼NID(0,1). (15.05)

(5)

Nous observons seulement le signe de y_t^∗, qui d´etermine la valeur de la variable binaire observ´eey_t selon la relation

yt = 1 si y^∗_t >0 et yt = 0 si y_t^∗ ≤0. (15.06) Par exemple, nous pourrions imaginer quey_t^∗ est un indice de l’utilité (nette) obtenue de certaine action. Si l’action fournit une utilité positive, elle sera retenue; et ne le sera pas si l’action fournit une utilité négative ou nulle.

Comme nous observons seulement si l’action est ou n’est pas retenue, nous observons seulement le signe de y^∗_t. De ca fait, nous pouvons normaliser la variance de ut à l’unité. Siut avait réellement une autre variance quelconque, disons σ², la division dey_t^∗, β, etu_t par σ fournirait un modèle d’observation identique à celui d’origine.

Maintenant, nous pouvons nous demander `a quoi correspond la probabilit´e y_t = 1. Certaines manipulations simples fournissent

Pr(y_t = 1) = Pr(y^∗_t >0) = Pr(X_tβ+u_t >0)

= 1−Pr(ut ≤ −Xtβ) = 1−Φ(−Xtβ) = Φ(Xtβ). (15.07) La dernière égalité dans (15.07) utilise le fait que la fonction de densité normale est symétrique par rapport à zéro. Le résultat final, Φ(Xtβ), est simplement la probabilité que nous obtiendrions en rempla¸cant F(·) par Φ(·) dans (15.03). Ainsi nous avons dérivé le modèle probit à partir du modèle à variable latente composé de (15.05) et (15.06). Le fait que le modèle probit puisse être dérivé de cette manière constitue une de ses caractéristiques les plus attrayantes.

Le modèle logit est très similaire au modèle probit mais possède un nombre de caractéristiques qui le rendent plus facile à utiliser. Pour le modèle logit, la fonction F(x) est la fonction logistique

Λ(x)≡(1 +e^−x)⁻¹ = e^x 1 +e^x, qui a comme dérivée première

λ(x)≡ e^x

(1 +e^x)² = Λ(x)Λ(−x).

La seconde égalité se révèlera très utile plus tard. Le modèle est plus facilement dérivé en supposant que

log µ Pt

1−P_t

¶

=Xtβ,

qui indique que le logarithme des probabilités est égal à Xtβ. En résolvant par rapport à P_t, nous trouvons que

Pt = exp(X_tβ) 1 + exp(Xtβ) =¡

1 + exp(−Xtβ)¢₋₁

= Λ(Xtβ).

(6)

Il est aussi possible de dériver le modèle logit à partir d’un modèle à variable latente comme (15.05) et (15.06) mais avec des erreurs qui suivent une distribution à valeur extrême au lieu d’une normale; consulter, parmi d’autres, Domencich et McFadden (1975), McFadden (1984), et Train (1986).

Dans la pratique, les modèles logit et probit tendent à fournir des résultats assez similaires. Dans la plupart des cas, la seule différence réelle entre eux réside dans la manière dont les éléments de β sont gradués. Cette différence dans la graduation survient parce que la variance de la distribution lorsque la fonction logistique est la fonction de répartition est π²/3, tandis que celle de la loi normale standard est naturellement égale à l’unité. Ainsi les estimations logit tendent toutes à être supérieures aux estimations probit, habituellement d’un facteur juste inférieur à π/√

3.² La Figure 15.1 illustre les fonctions de répartition des loi normale standard, logistique, et logistique regraduée pour obtenir une variance unitaire. La similitude entre la fonction de répartition de la loi normale et la fonction logistique regraduée est frappante.

Au vu de leurs propriétés similaires, il est peut-être curieux qu’à la fois les modèles logit et probit continuent à être largement employés, tandis que des modèles véritablement différents des deux précédents sont très rarement rencontrés. Il existe autant de manières de spécifier de tels modèles qu’il existe de choix plausibles pour la fonction de transformationF(x). Par exemple, un tel choix est

F(x) =π⁻¹arctan(x) + ¹₂. (15.08) Comme il s’agit de la fonction de répartition de Cauchy, sa dérivée est

f(x) = 1 π(1 +x²),

qui est la densité de Cauchy (consulter la Section 4.6). Comme le comporte- ment de la fonction de distribution de Cauchy dans les queues est très différent de celui d’autres fonctions de distribution comme Φ(x) ou Λ(x), il existe au moins la possibilité qu’un modèle à réponse binaire basé sur (15.08) soit plus ou moins performant qu’un modèle logit ou probit. D’un autre côté, il existe une infime probabilité pour que ces deux modèles fournissent des résultats qui diffèrent de manière significative, à moins que la taille de l’échantillon soit en fait très importante.

2 Amemiya (1981) sugg`ere que 1.6, plutˆot que π/√

3 ∼= 1.81 peut être une meilleure estimation du facteur par lequel les estimations logit tendent à excéder les estimations probit. Greene (1990a) remarque aussi qu’une justification pour cette régularité est que φ(0)/λ(0) ∼= 1.6. Souvenons-nous de (15.04) que les dérivées de Pt par rapport à X_ti sont égales à f(Xtβ)β_i. Si Xtβ est approximativement nul en moyenne et que les modèles logit et probit prédisent le même effet surPt pour une variation donnée desXti, alors les coefficients pour le modèle logit doivent être approximativement 1.6 fois ceux du modèle probit.

On peut s’attendre `a ce que cette approximation s’adapte moins bien quand la valeur moyenne dePt est loin de .5.

(7)

−5 −4 −3 −2 −1 0 1 2 3 4 5 0.0

0.2 0.4 0.6 0.8 1.0

..............................................................................................................................

...........................................................................................................................

..............................................................................................................................

...

......

...

......

...

......

...

Normale standard

.... .....................

Logistique

......................

Logistique regradu´ee

x F(x)

Figure 15.1 Trois choix possibles deF(x)

Les trois choix pour F(·) que nous avons discutés sont symétriques par rapport à zéro. Cela signifie qu’elles ont la propriété que 1−F(x) =F(−x), qui implique que f(x) = f(−x). Il s’agit parfois d’une propriété commode, mais il n’existe pas de raison a priori pour s’y tenir. Les choix pour F(·) qui ne possèdent pas cette propriété fourniront potentiellement des résultats très différents de ceux produits par les modèles logit et probit. Une manière d’obtenir le même effet consiste à spécifier le modèle comme

E(y_t|Ω_t) =F¡

h(X_tβ)¢ ,

où F(·) est Φ(·) ou Λ(·), et h(·) est une transformation non linéaire. Ceci suggère une fa¸con de tester la validité de l’hypothèse de symétrie oblique, sujet que nous aborderons dans la Section 15.4.

15.3 Estimation des Mod` eles ` a R´ eponse Binaire

A présent, le moyen de loin le plus communément employé pour estimer les modèles à réponse binaire est l’utilisation de la méthode du maximum de vraisemblance. Nous limiterons notre attention à cette méthode et sup- poserons, pour simplifier, que la fonction indice est simplementXtβ. Ensuite, selon le modèle à réponse binaire (15.03),F(Xtβ) est la probabilité queyt = 1 et 1−F(Xtβ) est la probabilité que yt = 0. Ainsi, si yt = 1, la contribution au logarithme de la fonction de vraisemblance pour l’observation t est

(8)

log¡

F(Xtβ)¢

, tandis que si yt = 0, la contribution est log¡

1−F(Xtβ)¢ . En cons´equence, la fonction de vraisemblance est

`(y,β) = Xn

t=1

³ y_tlog¡

F(X_tβ)¢

+ (1−y_t) log¡

1−F(X_tβ)¢´

. (15.09) Cette fonction est globalement concave `a chaque fois que log¡

F(x)¢ et log¡

1−F(x)¢

sont des fonctions concaves de l’argument x; consulter Pratt (1981). Cette condition est satisfaite par de nombreux modèles à réponse binaire, incluant les modèles logit et probit. Par conséquent, les fonctions de logvraisemblance pour ces modèles sont très faciles à maximiser numériquement.³

Les conditions du premier ordre pour un maximum de (15.09) sont Xn

t=1

(yt −Fˆt) ˆftXti

Fˆt(1−Fˆt) = 0, i= 1, . . . , k, (15.10) où ˆFt ≡F(Xtβ) et ˆˆ ft ≡f(Xtβ), avec ˆˆ β qui désigne le vecteur des estimations ML. Toutes les fois que la fonction de logvraisemblance est globalement concave, ces conditions du premier ordre définissent un maximum unique si elles sont tout à fait satisfaites. Nous pouvons vérifier que les modèles logit, probit, et de nombreux autres modèles à réponse binaire satisfont les conditions de régularité nécessaires pour que les estimations ˆβsoient convergentes et asymptotiquement normales, avec une matrice de covariance asymptotique donnée par l’inverse de la matrice d’information selon la fa¸con habituelle. Consulter, par exemple, Gouriéroux et Monfort (1981). Dans le cas du modèle logit, les conditions du premier ordre (15.10) se simplifient

Xn

t=1

¡yt−Λ(Xtβ)ˆ ¢

Xti = 0, i= 1, . . . , k, parce que λ(x) = Λ(x)¡

1−Λ(x)¢

. Notons que les conditions (15.10) ressem- blent aux conditions du premier ordre de l’estimation par moindres carrés pondérés du modèle de régression non linéaire

y_t =F(X_tβ) +e_t, (15.11)

avec des poids donn´es par

³

F(X_tβ)¡

1−F(X_tβ)¢´^−1/2 .

3 Dans le cas usuel, oùF(·) est symétrique-oblique, il est plus judicieux d’évaluer log(F(−Xtβ)) plutôt que log(1−F(Xtβ)) lors de l’écriture de programmes informatiques. Ceci évite le risque que 1−F(Xtβ) soit évalué de manière très imprécise lorsqueF(X_tβ) est très proche de l’unité. Bien queF(·) ne nécessite pas d’être symétrique-oblique, nous retiendrons la notation la plus générale.

(9)

Cela est logique du fait que la variance de l’al´ea dans (15.11) est E(e²_t) =E¡

yt −F(Xtβ)¢₂

=F(Xtβ)¡

1−F(Xtβ)¢₂ +¡

1−F(Xtβ)¢¡

F(Xtβ)¢₂

=F(Xtβ)¡

1−F(Xtβ)¢ .

Ainsi, une mani`ere d’obtenir des estimations ML de n’importe quel mod`ele

à réponse binaire consiste à appliquer par itérations les moindres carrés non linéaires repondérés à (15.11) ou à tout modèle de régression non linéaire approprié si la fonction indice n’est pas Xtβ. Cependant, pour la plupart des modèles, cette stratégie ne constitue pas la meilleure approche. Une approche adéquate est exposée dans la prochaine section.

Comme le ML est équivalent à une forme de NLS pondérés pour les modèles à réponse binaire, il est évident que la matrice de covariance asymptotique pour n^1/2( ˆβ−β₀) doit être

³−1_nX^>Ψ(β0)X

´₋₁ ,

o`uX est une matrice de dimensionn×k avec comme ligne typeX_t et comme

élément type Xti, et Ψ(β) est une matrice diagonale avec comme élément diagonal type

Ψ(Xtβ) = f²(X_tβ) F(Xtβ)¡

1−F(Xtβ)¢. (15.12) Le numérateur reflète le fait que la dérivée de F(Xtβ) par rapport à βi est f(Xtβ)Xti, et le dénominateur est simplement la variance deet dans (15.11).

Dans le cas du mod`ele logit, Ψ(X_tβ) se simplifie enλ(X_tβ).

Cette matrice de covariance asymptotique peut aussi ˆetre obtenue en prenant l’inverse de la matrice d’information. Comme d’habitude, celle-ci est

égale à l’espérance de l’opposé den⁻¹ fois la matrice Hessienne mais également

à l’espérance du produit extérieur du gradient. La matrice d’information est simplement

I(β)≡−_n¹X^>Ψ(β)X, (15.13) oùΨ(β) est définie par (15.12). Par exemple, à partir de (15.10) il est aisé de voir que l’élément type de la matrice n⁻¹G^>(β)G(β), où G(β) est la matrice CG, est

−_n1

Xn

t=1

Ã¡y_t−F(X_tβ)¢

f(X_tβ) F(Xtβ)¡

1−F(Xtβ)¢

!₂

XtiXtj.

Montrer que l’espérance de cette expression est un élément type de la matrice d’information (15.13) constitue un bon exercice.

(10)

−4 −3 −2 −1 0 1 2 3 4 0.0

0.2 0.4 0.6 0.8 1.0

.........................................................................................................................................................

............................................................................................................

......

←−Probit Logit regradu´e−→

Xtβ Ψ(Xtβ)

Figure 15.2 Les poids pour les mod`eles probit et logit regradu´e

Décéler l’analogie entre les estimations provenant d’un modèle à réponse binaire et les estimations par moindres carrés pondérés est très révélateur.

Dans le cas des moindres carrés, chaque observation est pondérée par un poids égal quand la matrice d’information est formée. Dans le cas à réponse binaire, d’un autre côté, certaines observations sont pondérées beaucoup plus que d’autres, parce que les poidsΨ(Xtβ) définis dans (15.12) peuvent différer fortement. Si on graphe ces pondérations comme une fonction de Xtβ pour les modèles probit ou logit, nous trouvons que le poids maximum sera associé aux observations pour lesquellesXtβ= 0, ce qui implique que Pt =.5, tandis qu’un poids relativement faible sera associé aux observations pour lesquelles Pt est proche de 0 ou 1. Ceci est logique car lorsque Pt est proche de 0 ou 1, un changement dans β aura un faible impact sur Pt, tandis que lorsque Pt est proche de .5, un changement aura un effet beaucoup plus important.

Par cons´equent les observations du dernier type fournissent beaucoup plus d’information que les observations du premier type.

Dans la Figure 15.2, les pondérations (15.12) sont graphées pour les cas probit et logit, (la dernière a été regraduée pour avoir une variance unitaire) comme des fonctions de l’indice Xtβ. Notons que les différences entre ces deux modèles sont plus frappantes qu’elles ne le furent dans la Figure 15.1. Le modèle logit associe plus de poids aux observations pour lesquelles Xtβ est proche ou loin de zéro, tandis que le modèle probit associe des poids plus importants aux observations pour lesquelles Xtβ prend des valeurs intermédiaires (approximativement, entre 0.8 et 3.0). Cependant, les

(11)

diff´erences qui sont apparentes dans la figure semblent rarement prendre plus d’importance dans la pratique.

Comme nous l’avons vu, nous pouvons penser qu’une variable dépendante binaire provienne d’un modèle à variable latente tel que celui donné par (15.05) et (15.06). Il est intéressant de se demander quel est le degré d’efficacité perdu par la variable latente non observable. Manifestement, quelque chose doit être perdu, parce qu’une variable binaire telle que yt doit fournir moins d’information qu’une variable continue telle quey_t^∗. La matrice de covariance pour les estimations OLS de β dans (15.05) est (X^>X)⁻¹; rappelons que la variance d’erreur est normalisée à l’unité. Par contraste, la matrice de covariance pour les estimations probit deβ est¡

X^>Ψ(β)X¢₋₁

, oùΨ(β) était définie par (15.12). La valeur maximale pourΨ(X_tβ) est atteinte quandP_t = .5. Dans le cas probit, cette valeur est 0.6366. Par conséquent, dans le meilleur cas possible, lorsque les données sont telles queP_t =.5 pour toutt, la matrice de covariance pour les estimations probit sera égale à 1.57 (∼= 1/0.6366) fois la matrice de covariance des OLS. Dans la pratique, naturellement, cette borne supérieure n’est probablement pas atteinte, et les estimations probit peuvent être beaucoup moins efficaces que ne le seraient les estimations OLS, qui utilisent la variable latente, en particulier lorsque Pt est proche de 0 ou 1 pour une partie importante de l’échantillon.

Un problème pratique avec les modèles à réponse binaire est que les conditions du premier ordre (15.10) n’ont pas nécessairement de solution finie.

Ceci peut survenir quand l’ensemble des données ne fournit pas suffisam- ment d’information pour identifier tous les paramètres. Supposons qu’il existe une quelconque combinaison linéaire des variables indépendantes, disons z_t ≡X_tβ^∗, telle que

yt = 0 pour zt ≤0, et yt = 1 pour zt >0.

Alors il sera possible de faire tendre `(y,β) vers zéro en posant β = αβ^∗ et en laissant α→ ∞. Ceci garantira que F(Xtβ) →0 pour toutes les observations où y_t = 0 et F(X_tβ) → 1 pour toutes les observations où y_t = 1. La valeur de la fonction de logvraisemblance (15.09) tendra donc vers zéro quand α → ∞. Mais zéro est évidemment une borne supérieure pour cette valeur.

Donc, dans de telles circonstances, les paramètres β ne sont pas identifiés sur l’espace paramétrique non compact R^k au sens de la Définition 8.1, et nous ne pouvons pas obtenir des estimations pertinentes de β; consulter Albert et Anderson (1984).

Quand zt est simplement une combinaison linéaire du terme constant et d’une seule variable indépendante, cette dernière est souvent appelée classificatrice parfaite, parce que les yt peuvent être classées en 0 ou 1, une fois la valeur de la variable connue. Par exemple, considérons le DGP

y_t^∗ =xt +ut, ut ∼NID(0,1);

yt = 1 si y_t^∗ >0 et yt = 0 si y_t^∗ ≤0. (15.14)

(12)

Pour ce DGP, il semblerait judicieux d’estimer le mod`ele probit

E(y_t|x_t) = Φ(β₀+β₁x_t). (15.15) Mais supposons que, dans l’exemple, xt soit toujours un nombre inf´erieur `a

−4 ou supérieur à +4. Quand x_t est inférieur à −4, il est presque certain (la probabilité est supérieure à 0.99997) que yt sera 0, et quandxt est supérieure

à +4, il est presque certain que y_t sera 1. Ainsi, à moins que la taille de l’échantillon soit très grande, il est peu probable qu’il y ait des observations pour lesquelles x_t < 0 et y_t = 1 ou des observations pour lesquelles x_t >

0 et yt = 0. En l’absence de telles observations, la variable xt sera une classificatrice parfaite, et il sera impossible d’obtenir des estimations correctes des param`etres de (15.14). Quel que soit l’algorithme de maximisation utilis´e, il essaiera simplement de rendre ˆβ1 aussi grand que possible.

Bien que cet exemple soit extrême, des problèmes similaires sont suscep- tibles de survenir lorsque l’ajustement du modèle est très bon et la taille de l’échantillon est petite. Il existera une classificatrice parfaite quand il y a un hyperplan séparateur dans l’espace des explicatives tel que toutes les observations pour lesquelles yt = 0 se situent de l’un côté et toutes celles pour lesquelles yt = 1 de l’autre. Ce cas de figure est probable si l’ajustement est bon et il n’y a que peu d’observations avec y_t = 0, ou peu avec y_t = 1. Il se peut néanmoins que des estimations ML puissent se calculer même quand n n’est pas plus grand que k+ 1 et il n’y a qu’une seule observation avec soit yt = 0 soit yt = 1.

Dans les modèles de régression, il est commun de tester l’hypothèse que toutes les pentes sont nulles en utilisant un test en F. Pour les modèles à réponse binaire, la même hypothèse peut facilement être testée en utilisant un test du ratio de vraisemblance. Un modèle avec un terme constant peut être écrit comme

E(yt|Ωt) =F¡

β1+X2tβ2

¢, (15.16)

o`u X2t se compose de Xt sans le terme constant et β2 est un vecteur de dimension (k−1). Sous l’hypoth`ese nulle queβ2 =0, (15.16) devient

E(yt|Ωt) =F¡ β1

¢=E(yt).

Ceci indique simplement que l’espérance conditionnelle de yt est égale à son espérence non conditionnelle, qui peut être estimée par ¯y. Par conséquent, si β¯1 désigne l’estimation de β1, ¯y = F( ¯β1). A partir de (15.09), il est aisé de voir que la valeur de la fonction de logvraisemblance sous l’hypothèse nulle est

`(y,β¯1,0) =ny¯log(¯y) +n(1−y) log(1¯ −y).¯ (15.17) Le double de la diff´erence entre la valeur non contrainte`(y,βˆ1,βˆ2) et la valeur contrainte `(y,β¯1,0) constitue une statistique de test LR qui sera asymptotiquement distribu´ee suivant une χ²(k−1). Comme le membre de droite de

(13)

(15.17) est très facile à calculer, la statistique de test l’est également. Cepen- dant, nous discuterons dans la prochaine section d’une statistique de test encore plus facile à calculer.

De nombreuses mesures de bonne qualité de l’ajustement, comparables au R² pour les modèles de régression, ont été proposées pour les modèles à réponse binaire, et de nombreuses applications statistiques reportent certaines d’entre elles. Consulter, parmi d’autres, Cragg et Uhler (1970), McFadden (1974a), Hauser (1977), Efron (1978), Amemiya (1981), et Maddala (1983).

Le plus simple de ces pseudo R² est celui suggéré par McFadden. Il est simplement défini comme

1− `_U

`R

, (15.18)

o`u `_U est la valeur non contrainte `(y,βˆ₁,βˆ₂), et `_R est la valeur contrainte

`(y,β¯1,0). L’expression (15.18) représente une possible mesure de bonne qualité de l’ajustement parce qu’elle doit être comprise entre 0 et 1. Nous avons vu auparavant que la fonction de logvraisemblance (15.09) pour les modèles à choix binaires est bornée supérieurement par 0, ce qui implique que Ù et `R sont toujours de même signe à moins que Ù soit nulle. Mais

`_U peut être nulle seulement si le modèle non contraint s’ajuste parfaitement, ce qui survient s’il existe une classificatrice parfaite. Ainsi nous voyons que l’expression (15.18) sera égale à 1 dans ce cas, égale à 0 quand les valeurs contrainte et non contrainte de la logvraisemblance seront identiques, et comprise entre 0 et 1 dans tous les autres cas.

Bien que (15.18) et d’autres mesures de bonne qualité d’ajustement puissent être utiles pour obtenir une idée approximative sur les performances d’un modèle à réponse binaire particulier, il n’est pas nécessaire de les utiliser si l’objectif est de comparer la performance de deux ou plusieurs modèles

à réponse binaire différents estimés sur le même ensemble de données. Le meilleur moyen d’y parvenir consiste simplement à comparer les valeurs des fonctions de logvraisemblance, en utilisant le fait que les valeurs pour n’importe quel modèle à réponse binaire de la forme (15.03) sont directement comparables. Parfois, nous pouvons même rejeter un modèle sur la base d’une telle comparaison. Par exemple, supposons que, sur un ensemble de données particulier, la valeur de la logvraisemblance pour un modèle logit donné excède de plus de 1.92 celle d’un modèle probit avec la même fonction indice, ce qui représente la moitié de 3.84, la valeur critique à 5% pour une statistique de test qui est distribuée suivant une χ²(1). Il est clairement possible d’englober les logit et probit dans un modèle plus général ayant plus d’un paramètre. Le dernier modèle s’ajusterait au moins aussi bien que le modèle logit; consulter la discussion dans la Section 14.3. Ainsi, dans cet exemple, nous pourrions rejeter à un niveau de 5% l’hypothèse selon laquelle le modèle probit a généré les observations. Naturellement, il est rare que la différence entre l’ajustement des modèles probit et logit, qui ne diffèrent d’aucune autre manière, soit aussi importante, à moins que la taille de l’échantillon ne soit extrêmement grande.

(14)

15.4 Une R´ egression Artificielle

Il existe une régression à la fois très simple et très utile pour les modèles

à réponse binaire. Comme pour d’autres régressions artificielles, elle peut êrte utilisée pour une variété d’usages, incluant l’estimation paramétrique, l’estimation de la matrice de covariance, et le test d’hypothèse. Cette régression artificielle a été suggérée par Engle (1984) et Davidson et MacKin- non (1984b). Elle peut être dérivée de plusieurs manières, parmi lesquelles la plus facile consiste à la traiter comme une version modifiée de la régression de Gauss-Newton.

Comme nous l’avons vu, le modèle à réponse binaire (15.03) peut être

écrit sous la forme du modèle de régression non linéaire (15.11), soit yt = F(X_tβ) +e_t. Nous avons également vu que l’aléae_t est de variance

V(Xtβ)≡F(Xtβ)¡

1−F(Xtβ)¢

, (15.19)

qui implique que (15.11) doit être estimée par GNLS. La GNR ordinaire correspondant à (15.11) serait

y_t−F(X_tβ) =f(X_tβ)X_tb + résidu, (15.20) mais celle-ci est clairement inappropriée en raison de l’hétéroscédasticité des et. En effet, nous devons multiplier les deux membres de (15.20) par la racine carrée de l’inverse de (15.19). Ceci fournit la régression artificielle

¡V(Xtβ)¢_−1/2¡

yt −F(Xtβ)¢

=¡

V(Xtβ)¢_−1/2

f(Xtβ)Xtb + résidu, (15.21) qui ressemble à la GNR pour un modèle de régression non linéaire estimé par moindres carrés pondérés (consulter la Section 9.4). La régression (15.21) est un cas particulier de ce que nous appelerrons régression pour modèle à réponse binaire, ou BRMR. Cette forme de la BRMR demeure valable pour n’importe quel modèle à réponse binaire de la forme de (15.03).⁴ Dans le cas du modèle logit, celle-ci se simplifie en

¡λ(X_tβ)¢_−1/2¡

y_t −Λ(X_tβ)¢

=¡

λ(X_tβ)¢_1/2

X_tb + r´esidu.

La BRMR satisfait les propriétés générales des régressions artificielles dont nous avons discuté dans la Section 14.4. En particulier, celle-ci est très

4 Certains auteurs écrivent la BRMR de manières quelque peu différentes. Par exemple, chez Davidson et MacKinnon (1984b), la régressande a été définie comme

yt

µ1−F(Xtβ) F(Xtβ)

¶_1/2

+ (yt−1)

µ F(Xtβ) 1−F(Xtβ)

¶_1/2 .

Vérifier qu’il s’agit juste d’une autre manière d’écrire la régressande de (15.21) constitue un bon exercice.

(15)

étroitement reliée à la fois au gradient de la fonction de vraisemblance (15.09) et à la matrice d’information. Le produit de la transposée de la régressande par la matrice des régresseurs fournit un vecteur d’élément type

Xn

t=1

¡yt−F(Xtβ)¢

f(Xtβ)Xti

F(X_tβ)¡

1−F(X_tβ)¢ ,

qui est un élément type du vecteur gradient pour la fonction de logvraisemblance (15.09). La transposée de la matrice des régresseurs multipliée par elle-même fournit une matrice d’élément type

Xn

t=1

f²(Xtβ) F(Xtβ)¡

1−F(Xtβ)¢X_tiX_tj. (15.22) La limite en probabilité de n⁻¹ fois (15.22) est un élément type de la matrice d’information (15.13).

Toutes les fois que la fonction de logvraisemblance est globalement concave, comme pour les modèles logit et probit, il existe de nombreuses manières différentes d’estimer facilement les modèles à réponse binaire. Une approche qui fonctionne généralement bien consiste à utiliser un algorithme similaire à ceux décrits dans la Section 6.8. Dans un tel algorithme, la BRMR est utilisée pour déterminer la direction dans laquelleβ varie à chaque étape. Les valeurs de β aux itérations j+ 1 et j sont reliées par

β^(j+1) =β^(j)+α^(j)b^(j),

où b^(j) désigne le vecteur des estimations OLS à partir de la BRMR (15.21)

évaluée en β^(j), et α^(j) est un scalaire déterminé par l’algorithme. On pour- rait choisir les estimations initiales β⁽¹⁾ de différentes fa¸cons. Une de ces fa¸cons facile à utiliser et qui semble bien fonctionner dans la pratique consiste simplement à initialiser le terme constant à F⁻¹(¯y) et les autres coefficients

à zéro. Les valeurs de départ correspondent alors aux estimations du modèle contraint avec des pentes nulles.

En évaluant la BRMR avec les estimations ML ˆβ, celle-ci peut aussi être utilisée pour obtenir une matrice de covariance estimée pour les paramètres estimés. La matrice de covariance estimée à partir de l’estimation OLS de la régression (15.21) évaluée en ˆβ sera

s²¡

X^>Ψ Xˆ ¢₋₁

, (15.23)

oùsest l’écart type de la régression. Cet écart type tendra asymptotiquement vers 1, mais il ne sera pas vraiment égal à 1 dans les échantillons finis. La matrice ˆΨ est une matrice diagonale avec comme élément type diagonal

Ψˆtt = f²(Xtβ)ˆ F(Xtβ)ˆ ¡

1−F(Xtβ)ˆ ¢.

(16)

Il s’agit simplement de l’expression (15.12) avec β remplacé par ˆβ. Ainsi, la matrice de covariance OLS estimée (15.23) fournit une estimation valable de la matrice de covariance de ˆβ. C’est aussi le cas de la matrice (X^>Ψ X)ˆ ⁻¹, qui correspond simplement à (15.23) divisée pars², et que l’on préfèrera probablement utiliser puisque le facteur de s² dans (15.23) introduit simplement un aléa additionnel dans l’estimation de la matrice de covariance.

Comme d’habitude, nous pouvons également estimer la matrice de covariance de ˆβ par l’opposée de l’inverse de la matrice Hessienne numérique ou par le produit extérieur du gradient de la matrice CG, ˆG^>G. Dans le cas duˆ modèle logit, l’opposée de la matrice Hessienne numérique est véritablement

égale à la matrice d’information estimée X^>Ψ Xˆ , parce que

∂²`(β)

∂β_i∂β_j = ∂

∂β_j µXn

t=1

¡yt−Λ(Xtβ)¢ Xti

¶

=− Xn

t=1

λ(Xtβ)XtiXtj.

Cependant, dans le cas de la plupart des modèles à réponse binaire, incluant le modèle probit, l’opposée de la matrice Hessienne différera et sera généralement plus compliquée que la matrice d’information.

Comme toutes les régressions artificielles, la BRMR est particulièrement utile pour les tests d’hypothèse. Suppossons que β soit partitionné comme [β1 ....β2], où β1 est un vecteur de dimension (k − r) et β2 est un vecteur de dimension r. Si ˜β désigne le vecteur des estimations ML soumises à la contrainte β2 = 0, nous pouvons tester cette contrainte en exécutant à la BRMR

V˜_t^−1/2(yt −F˜t) = ˜V_t^−1/2f˜tXt1b1+ ˜V_t^−1/2f˜tXt2b2 + résidu, (15.24) où ˜Ft ≡F(Xtβ), ˜˜ ft ≡f(Xtβ), et ˜˜ Vt ≡V(Xtβ). Ici˜ Xt a été partitionnée en deux vecteurs,Xt1 et Xt2, correspondant à la partition de β. Les régresseurs qui correspondent àβ1 sont orthogonaux à la régressande, tandis que ceux qui correspondent àβ2 ne le sont pas. Toutes les statistiques de test usuelles pour b2 =0 sont valables. Cependant, par contraste avec le cas de la régression de Gauss-Newton, il n’existe pas de raison particulière d’utiliser un test en F, parce qu’il n’y a pas de paramètre de variance à estimer. La meilleure statistique de test à utiliser en échantillons finis, selon les résultats Monte Carlo obtenus par Davidson et MacKinnon (1984b), est probablement la somme des carrés expliqués à partir de la régression (15.24). Elle sera asymptotiquement distribuée suivant une χ²(r) sous l’hypothèse nulle. Notons que le nR² ne sera pas égal à la somme des carrés expliqués dans ce cas, parce que la somme des carrés totaux ne sera pas égale à n.

Dans un cas très spécial, la BRMR (15.24) devient extrêmement simple.

Supposons que l’hypothèse nulle corresponde à la nullité de tous les coefficients de pentes. Dans ce cas, X_t1 est unitaire, X_tβ˜ = ˜β₁ = F⁻¹(¯y), et, dans une notation évidente, la régression (15.24) devient

V¯^−1/2(yt −F¯) = ¯V^−1/2f b¯ 1+ ¯V^−1/2f¯Xt2b2 + r´esidu.

(17)

La statistique de test en F pour b2 =0 est invariante à la soustraction d’une constante à la régressande, ou à la multiplication de la régressande et des régresseurs par une constante. Ainsi, il est clair que nous pouvons tester l’hypothèse que toutes les pentes sont nulles en calculant simplement une statistique en F pour c2 =0 dans la régression linéaire

y=c1+X2c2 + r´esidus.

Ainsi, nous avons rencontré une situation dans laquelle le modèle de proba- bilité linéaire est utile. Si nous voulons tester l’hypothèse nulle selon laquelle aucun des régresseurs n’explique la variation de la variable dépendante, alors il est parfaitement pertinent d’employer la statistique de test ordinaire en F pour toutes les pentes nulles dans une régression OLS de y sur X.

Naturellement, nous pouvons utiliser la BRMR pour calculer les tests C(α) et les tests pseudo-Wald aussi bien que des tests LM. L’essentiel de ce que nous avons dit concernant de tels tests dans les Sections 6.7 et 13.7 reste valable dans le contexte des modèles à réponse binaire. Nous ne pouvons pas utiliser la somme des carrés expliqués comme statistique de test, mais plutôt la réduction dans la somme des carrés expliqués consécutive à l’addition des régresseurs de test. Les tests pseudo-Wald peuvent être particulièrement utiles quand la fonction indice est linéaire sous l’hypothèse alternative mais non linéaire sous l’hypothèse nulle, parce que l’hypothèse alternative peut être estimée au moyen d’un programme standard logit ou probit. S’il apparaˆıt que les contraintes s’ajustent bien aux données, nous pouvons employer une BRMR différente pour obtenir des estimations en une étape.

La BRMR est utile pour tester tous les aspects de la spécification des modèles à réponse binaire. Avant même d’accepter un quelconque modèle de la sorte, nous devons savoir si F(Xtβ) représente une spécification correcte pour la probabilité y_t = 1 conditionnellement à l’ensemble d’information Ω_t. Les tests de variables appartenant à l’ensemble Ωt potentiellement omises constitue une part importante de ce processus, et nous avons déjà vu comment procéder à l’aide de la BRMR (15.24). Mais même siXt est spécifiée de fa¸con correcte, le reste du modèle peut ne pas l’être.

Considérons le modèle à variable latente donné par (15.05) et (15.06).

Parce que les modèles à réponse binaire sont typiquement estimés en utilisant les données en coupe transversale, et que de telles données présentent fréquemment de l’hétéroscédasticité, il est fort possible que les aléas dans l’équation pour y_t^∗ soient hétéroscédastiques. S’ils étaient effectivement hétéroscédastiques, le modèle probit ne serait plus approprié, et les estimations de β basées sur ce modèle seraient non convergentes; consulter Yatchew et Griliches (1984). Puisque nous pouvons considérer que tout modèle modèle

à réponse binaire peut provenir d’un modèle à variable latente, il est clairement important de tester l’hétéroscédasticité de tels modèles. Nous discutons

à présent de la manière de procéder.

(18)

Une spécification plus générale que l’équation (15.05) qui tient compte des erreurs hétéroscédastiques est

y_t^∗ =Xtβ+ut, ut ∼N¡

0,exp(2Ztγ)¢

, (15.25)

où Zt est un vecteur ligne de longueur q des observations sur les variables qui appartiennent à l’ensemble d’information Ω_t. Pour s’assurer qu’à la fois β et γ sont identifiables, Zt ne doit pas comprendre un terme constant ou l’équivalent. La combinaison de (15.25) avec (15.06) fournit le modèle

E(y_t|Ω_t) = Φ

µ X_tβ exp(Ztγ)

¶

. (15.26)

Quandγ=0, (15.25) se réduit à (15.05) et (15.26) se réduit au modèle probit ordinaire. Même quand un modèle à réponse binaire autre que le modèle probit est utilisé, il semble encore très raisonnable de considérer l’hypothèse alternative

E(yt|Ωt) =F

µ Xtβ exp(Ztγ)

¶ .

Nous pouvons testerγ=0contre cette forme d’hétéroscédasticité. La BRMR appropriée est

Vˆ_t^−1/2(y_t −Fˆ_t) = ˆV_t^−1/2fˆ_tX_tb+ ˆV_t^−1/2fˆ_tZ_t(−X_tβ)cˆ + résidu, (15.27) où ˆF_t, ˆf_t, et ˆV_tsont évalués avec les estimations ML ˆβen supposant queγ=0.

La somme expliquée des carrés de (15.27) sera distribuée asymptotiquement suivant une χ²(q) sous l’hypothèse nulle.

Il est également important de tester la spécification de la fonction de transformationF(·). Comme nous l’avons noté plus tôt, une manière naturelle de procéder de la sorte consiste à considérer un modèle alternatif de la forme

E(yt|Ωt) =F¡

h(Xtβ,α)¢

, (15.28)

où h(x,α) est une fonction non linéaire de x, et α est soit un paramètre soit un vecteur de paramètres tel que h(X_tβ,α) = X_tβ pour une certaine valeur de α. Stukel (1988) suggère une famille plus compliquée de fonctions

à deux paramètres h(x,α) qui mène à une famille très générale de modèles.

Cette famille comprend le modèle logit comme un cas particulier quand α= 0, et permet d’imposer ou non l’hypothèse de symétrie-oblique. On peut aisément utiliser la BRMR pour tester l’hypothèse nulle que α = 0 contre cette alternative.

Un test plus simple peut être basé sur la famille de modèles E(y_t|Ω_t) =F

µτ(αXtβ) α

¶ ,