Économétrie II
L3 Économétrie – L3 MASS
Ch. 7. Variables Dépendantes Dichotomiques
Prof. Philippe Polomé, U. Lyon 2 Année 2015-2016
Ch. 7. Variables Dépendantes Dichotomiques
Table des matières
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO avec VDL dichotomique Modèles à VDD : logit & probit
Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions
Ch. 7. Variables Dépendantes Dichotomiques
Rappel
1. XE(et) =08t :Espérance nulle 2. Xvar(et) =s28t:Homoscédasticité
3. Xcov(et,es) =08t6=s:Pas d’autocorrélation 4. XE(etxt) =08t:Exogénéité
5. XLa matrice X est de plein rang :Pas de multicolinéarité 6. XLe modèle estcorrectement spécifié
7. La variable dépendanteY estcontinue
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
Table des matières
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO avec VDL dichotomique Modèles à VDD : logit & probit
Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
Variable dépendante limitée VDL
I Binaire/dichotomique: 2 valeurs seulement
I Catégorique: nombre fini de valeurs
I p.e. codée de 1 à 3 “faible”, “moyen”, “élevé” (ordinale)
I “bus”, “voiture”, “vélo” (non-ordonné)
I Variablebornéepar une valeur critique
I D’en dessous : donations annuelles par ménages limitées par zéro
I Par le haut : nombre de spectateurs limité par la capacité du stade
I Des 2 côtés : Notes de cours entre 0 et 20 en France
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
Interprétation
I Une variable continue a un sens quantitatif (cardinal)
I Une VDL a souvent un sens qualitatif
I p.e. satisfaction 5=“great”, 4=“good”, 3=“fair”, 2=“poor”, 1=“very poor”.
I Satisfaction = 5 est mieux que 4, qui est mieux que 3
I Mais satisfaction = 5 n’est pas 5 fois plus que satisfaction = 1
I La différence entre satisfaction = 4 et satisfaction =3 n’est pas la même qu’entre 3 et 2
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO
I Si on utilise MCO pour analyser l’impact de régresseurs sur une VDL, on la traite comme quantitative
I Comme une relation linéaire entre la VDL est assumée, MCO impose des effets marginaux CONSTANTS quel que soit le niveau du régresseur!2 défauts :
1. MCO peut prédire des valeurs de VDL + petites que leur min possible ou + grdes que leur max possible
2. MCO peut prédire des effets marginaux + grds que le + grd changements possibles qui peut affecter la VDL, p.e. 1.2 pour une VDL dichotomique
I EMV –Estimateur du Maximum de Vraisemblance(MLE) évite ces défauts en permettant une relationnon-linéaireentre la VDL et ses régresseurs
Ch. 7. Variables Dépendantes Dichotomiques MCO avec VDL dichotomique
Table des matières
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO avec VDL dichotomique Modèles à VDD : logit & probit
Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions
Ch. 7. Variables Dépendantes Dichotomiques MCO avec VDL dichotomique
Modèle à proba linéaire
I SoityVDL dichotomique (VDD)
I Que signifie un MRL dans ce cas ? y=Xb+e
I bj ne peut être interprêté comme le changementceteris paribus enyétant donné un changement unitaire enxj puisquey ne peut changer que de zéro à un ou de un à zéro
Ch. 7. Variables Dépendantes Dichotomiques MCO avec VDL dichotomique
Interprétation de b
I Sous hypothèse d’exogénéitéE(e|X) =0, on a : E(y|X) =Pr{y=1|X}=Xb
I La proba de succèsPr{y=1|X}ou “proba de réponse”, est une fonction linéaire dexj
I Le MRL avec VDD est appeléModèle à Proba Linéaire(MPL)
I Que mesurebj dans le MPL ?
I Le changement ceteris paribus en la proba de succès quandxj
change
I P(y=1| xj) =bj xj
I Si on écrit la valeur ajustéeyˆ(la proba de succès prédite) comme ˆ
y=Xbˆ
I bˆj mesure le changement prédit en la proba de succès lorsquexj
augmente d’une unité
Ch. 7. Variables Dépendantes Dichotomiques MCO avec VDL dichotomique
Exemple : Participation des femmes à l’offre de travail
I Échantillon aléatoire de 753 femmes
I Wooldridge : Gretlmroz
I Estime par MCO la proba qu’une femme travaille contre salaire
I ou soit en recherche d’emploi en principe
I La variable dépendante est dichotomique
I 1 si la femme travaille contre salaire hors de chez elle à un point quelconque de l’année
I 0 autrement
I Estimation par MCO
I pour les 753 femmes de l’échantillon, 16 ont des valeurs ajustées
<0et 17 ont >1
Ch. 7. Variables Dépendantes Dichotomiques MCO avec VDL dichotomique
Impact des jeunes enfants
I Une des variables explicatives est “nbr d’enfants de moins de 6 ans”, kid<6
I Après estimation par MCO
I le coefficient de “kid<6” est significatif et egal à−0.262
I Donc : un enfant de moins de 6 ans en plus réduit
I la proba de participation de−0.262 - ceteris paribus (sous exogénéité)
I quel que soitle nombre d’enfants de moins de 6 ans
I Passer de 0 à 4 enfants de moins de 6 ans réduit la proba de travailler de 0.262 * 4 = 1.048 (impossible)
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Table des matières
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO avec VDL dichotomique Modèles à VDD : logit & probit
Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Spécification
I Soit une classe de modèles non-linéaires à réponse dichotomique :
Pr(y=1|X) =G(Xb)
G est une fonction qui prend des valeurs strictement entre zéro et un :0G(z)1,8nombre réelz
I Ceci garanti que les proba estimées de réponse seront strictment entre zéro et un
I Implique une relationnon linéaireentre la variable dépendante et les régresseurs
I De nombreuse fonctions sont candidates
I 2 sont populaires : logistique et normale
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Logit et Probit
I Modèle logit,Gest la fonction de distribution (densité cumulative) d’une v.a. logistique standard :
G(z) =exp(z)/[1+exp(z)] =⇤(z)
I Modèle probit,G est la fonction de distribution d’une v.a.
normale standard, dont on note la densitéf(.): G(z) =
ˆ z
•f(t)dt avecf(z) = (2p) 1/2exp z2/2
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Logit vs. Probit
I Les distributions logistique et normale sont similaires
I La logistique rend les calculs plus simples et permet des simplifications importantes dans des modèles plus avancés
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Modèle à Variable Latente
I Soity⇤une variable latente (c’est-à-dire pas observée directement) t.q.
y⇤=Xb+e
I P.e.y⇤est l’utilité d’acheter une nouvelle voiture
I Logit et probit peuvent être obtenus d’un modèle à variable latente qui satisfait toutes les hypothèses du MRL classique
I On n’observe pas l’utilité, mais seulement la conséquence de la décision individuelle
( yi⇤<0 =) yi=0 yi⇤ 0 =) yi=1
I On observe que la personne a(y=1)ou n’a pas(y=0)acheté de nvlle voiture
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Proba de réponse
I Hypothèse :e est indépendant dex eteest soit standard logistique soit standard normale
I On dérive les proba de réponse poury: Pr{y=1|X} =Pr{y⇤ 0|X}
=Pr{e> (Xb)|X}
=1 G( (Xb))
=G(Xb)
I Commee est normale ou logistique, elle est sym autour zéro, donc1 G( z) =G(z)8nbr réelz
Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit
Estimation Maximum de Vraisemblance
I Estimation des modèles Logit et Probit par Maximum de Vraisemblance (Maximum Likelihood)
I Dans ce cours, MV = boîte noire qui produit des estimations bˆMV
I Consistantes mais biaisées
I Asymptotiquement efficientes
I Asymptotiquement normales
I Pour autant que les hypothèses du modèles soient vraies
I Sinon, c’est pas forcément fichu, mais c’est compliqué
I En pratique : on donne au logiciely comme variable dépendante etX (plein rang) comme régresseur
I MV sera vu en détail en M1
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Table des matières
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO avec VDL dichotomique Modèles à VDD : logit & probit
Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Cas d’un régresseur continu x
jI L’effet d’un changement marginal enxj sur la proba de réponse Pr{y=1|X}=p(X)est donné par la dérivée partielle
∂p(X)
∂xj = ∂G(Xb)
∂xj =g(Xb)bj
I C’estl’effet marginaldexj : il dépend des valeurs prises par tousles régresseurs (pas seulement dexj)
I On peut le calculer en des points “intéressants” deX, p.e.
moyennes sur l’échantillon
I Qd un régresseur est discret sa moyenne sur l’échantillon ne veut pas dire grd chose
I Ou bien on peut le calculer pour chaqueidans l’échantillon et calculer la moyenne des effets marginaux “individuels”
I En général ça ne coïncide pas
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Effets marginaux Logit – Probit
I Dans Logitg(z) = exp(z)
[1+exp(z)]2 etg(0) =.25
I Dans Probitg(z) =f(z)(la densité normale standard) et f(0) =1/p
2p'.4
I Ces modèles ne peuvent pas avoir des effets marginaux g(Xb)xj plus grand que un
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Cas d’un régresseur discret
I Effet d’un changement enxj discret
I deaàb(souvent, de 0 à 1)
I sur la proba de réponsePr{y=1|X}=p(X)
I On écritX jl’ensemble des régresseurs saufxj, de façon similaireb j
ˆ
p(Xi) = G⇣
X jibˆ j+bbˆj
⌘ G⇣
X jibˆ j+abˆj⌘
I Un tel effet est différent d’individu à individu
I Dans Stata
I Commandemfxaprès logit ou probit : effets marginaux de régresseurs continus
I Commande prvaluepour un régresseur discret
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Mesures de qualité d’ajustement
I Lepourcentage correctement prédit
I 8i calculer la proba ajustée queyi prenne la valeur 1,G⇣ Xibˆ⌘
I Si .5on “prédit”yi=1et zéro sinon
I On calcule le % de prédictions correctes
I Problème : possible d’obtenir de hauts % correctement prédits sans que le modèle soit bien utile
I P.e., ds un échantillon de 200, 180 observations ontyi=0dont 150 sont prédites zéro et 20 obs ontyi=1toutes prédite zéro
I Le modèle est clairement mauvais
I Mais on a qd même 75% de prédictions correctes
I Pour cela, on rapporte un tableau de prédiction2⇥2(p.e. Stata)
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Pseudo R-carré
I Pseudo R2=1 lnLUR/lnL0
I lnLURla log-vraisemblance du modèle estimé (voir M1)
I lnL0celle du modèle avec seulement l’intercept
I semblable àR2pour la régression MCO
I carR2=1 SSRUR/SSR0
I Il existe d’autres mesures de qualité de l’ajustement,
I mais l’ajustement n’est généralement pas aussi important que la significativité statistique et économique des régresseurs
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Exemple : Participation des femmes à l’offre de travail
inlf =1 if in labor force, 1975 inc* (faminc - wage*hours)/1000 educ years of schooling
exp actual labor mkt exper exp2
age woman’s age in yrs kid<6 # kids < 6 years kid 6
Fichier GretlMROZ(tab Wooldridge)
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Échelle
I Lestaillesdes coefficientsne sont pasdirectement comparables entre modèles
I C’est pcq avec les variables dichotomiquesyon pourrait multiplier l’ensemble des coefficients par n’importe quelle constante positive sans changer le modèle
I =) la variance deyn’est pas identifiée en général
I Approximativement,
I diviser les estimations logit par 4 et les probit par 2.5 pour les rendre comparables aux estimations du MPL
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Modèles pour inlf (Participation des femmes à l’offre de travail)
xj bˆOLS |t| bˆlogit |t| bˆprobit |t|
inc* -.003 2.4 -.021 2.5 -.012 2.5 educ .038 5.2 .221 5.1 .131 5.2
exp .039 7 .206 6.4 .123 6.7
exp2 -.000 3.2 -.003 -3.1 -.002 3.2 age -.016 6.5 -.088 -6.0 -.053 6.2 kid<6 -.262 7.8 -1.44 -7.1 -.868 7.3
kid 6 .013 1 .060 .8 .036 .8
Cst .586 3.8 .425 .5 .27 .5
lnL – -402 -401
p-R2 .26 Ra2 .220 .221
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Comparer les effets marginaux
I MPL, effets marginaux constants = coef estimés
I Probit :f⇣
X¯bˆprobit
⌘'.4
I X¯ qui comprend les moyennes deexp2:exp26= ¯exp2
I Coefficient⇥0.4 = effet marginal de la variable sur la proba à la moyenne de l’échantillon
I Sans doute différent en d’autres points
I Sera différent entrei
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Exemple : Participation des femmes à l’offre de travail
I Une femme avec inc* = 20.13, educ = 0.13, exp = 10.6, age = 42.5
I Environ les moyennes de l’échantillon
I Proba pour kid<6= 0
I Calculer la distribution normale standard ⇣ X¯bˆ⌘
en kid<6=0 : Pr = 0.707
I Baisse estimée de la proba de travailler en passant de zéro à un jeune enfant ?
I Calculer la distribution normale standard ⇣ X¯bˆ⌘
en kid<6=1 : Pr = 0.373
I On a environ 0.373−0.707 =−0.334 : proba environ 0.334 plus petite lorsque la femme a un petit enfant
I Si cette femme passe de 1 à 2 petits enfants, la proba tombe plus bas,
I mais l’effet marginal est moindre : 0.117−0.373 =−0.256
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Table prédictive ( estat classification )
Predict Model yi =1 yi =0 Total ˆ
yi=1 LPM 350 122 472
Logit 347 118 465
Probit 348 120 468
ˆ yi=0
LPM 78 203 281
Logit 81 207 288
Probit 80 205 285
Total 428 325 753
Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple
Remarque : Endogénéité
I Les enfants n’arrivent pas par hasard
I La décision d’avoir un enfant de plus est prise en même temps que celle de participer au marché du travail
I Voire, un changement professionnel peut mener à réajuster la vie familiale
I Donc : le nombre d’enfants est endogène dans cette régression
I Sans doute, particulièrement le nombre de jeunes enfants
I Deux équations latentes
I Utilités U1⇤=X1b1+e1
U2⇤=X2b2+e2 I On observeY1=
( 1 si U1⇤>0 0 sinon
I idem pourU2⇤
I Vraisemblablement,e1ete2corrélés
Ch. 7. Variables Dépendantes Dichotomiques Autres types de VDL et conclusions
Table des matières
Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO
MCO avec VDL dichotomique Modèles à VDD : logit & probit
Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions
Ch. 7. Variables Dépendantes Dichotomiques Autres types de VDL et conclusions
3 catégories principales
I Variables ordinales
I Variables catégoriques
I Variables continues bornées
Ch. 7. Variables Dépendantes Dichotomiques Autres types de VDL et conclusions
Variables ordinales
I P.e. “satisfaction” codée 1 à 3
I On part d’un principe de variables observéesyi et latenteyi⇤t.q.
8>
<
>:
yi =1 if y⇤k1 yi =2 if k1y⇤k2 yi =3 if k2y⇤
oùk1etk2sont appelés “seuils” ou “points de coupure”
I Cas des VDL “ordonnée” :y a un ordre naturel
I Estimation par des extensions de probit et logit (dits ordonnés) dans Stata par MV
I Interpretation des coefficients assez différente
I Même interprétation du signe et de la significativité
Ch. 7. Variables Dépendantes Dichotomiques Autres types de VDL et conclusions
Variables catégoriques
I Même principe latent, sauf qu’il n’y a pas d’ordre
I On parle de choix multinomial entrealternativesA, B, C...
I Logit/probit dits multinomial
I À coefficients fixes entre alternatives (logit/probit conditionnel) : seuls les régresseurs qui changent entre les alternatives
I À coefficients variables entre alternatives : on peut estimer un coef pour des régresseurs constants entre alternatives
I Interprétation également assez différente
I Même interprétation du signe et de la significativité
Ch. 7. Variables Dépendantes Dichotomiques Autres types de VDL et conclusions
Conclusions
1. On préfère MV à MC en présence de VDL
2. Les effets marginaux sont moins évidents à calculer parce que les modèles deviennent non-linéaires
3. Les modèles à VDL sont nombreux et présentent généralement des interprétations assez différentes les uns des autres
3.1 Du point de vue logiciel il ne s’agit jamais que d’une variable dépendante et de régresseurs
3.2 Les interprétations du signe et de la significativité restent les mêmes