Économétrie II

(1)

Économétrie II

L3 Économétrie – L3 MASS

Ch. 7. Variables Dépendantes Dichotomiques

Prof. Philippe Polomé, U. Lyon 2 Année 2015-2016

(2)

Table des matières

Ch. 7. Variables Dépendantes Dichotomiques Définition, interprétation & MCO

MCO avec VDL dichotomique Modèles à VDD : logit & probit

Interprétation des modèles Logit & Probit & exemple Autres types de VDL et conclusions

(3)

Rappel

1. XE(et) =08t :Espérance nulle 2. Xvar(et) =s²8t:Homoscédasticité

3. Xcov(et,es) =08t6=s:Pas d’autocorrélation 4. XE(etxt) =08t:Exogénéité

5. XLa matrice X est de plein rang :Pas de multicolinéarité 6. XLe modèle estcorrectement spécifié

7. La variable dépendanteY estcontinue

(4)

Table des matières

(5)

Variable dépendante limitée VDL

I Binaire/dichotomique: 2 valeurs seulement

I Catégorique: nombre fini de valeurs

I p.e. codée de 1 à 3 “faible”, “moyen”, “élevé” (ordinale)

I “bus”, “voiture”, “vélo” (non-ordonné)

I Variablebornéepar une valeur critique

I D’en dessous : donations annuelles par ménages limitées par zéro

I Par le haut : nombre de spectateurs limité par la capacité du stade

I Des 2 côtés : Notes de cours entre 0 et 20 en France

(6)

Interprétation

I Une variable continue a un sens quantitatif (cardinal)

I Une VDL a souvent un sens qualitatif

I p.e. satisfaction 5=“great”, 4=“good”, 3=“fair”, 2=“poor”, 1=“very poor”.

I Satisfaction = 5 est mieux que 4, qui est mieux que 3

I Mais satisfaction = 5 n’est pas 5 fois plus que satisfaction = 1

I La différence entre satisfaction = 4 et satisfaction =3 n’est pas la même qu’entre 3 et 2

(7)

MCO

I Si on utilise MCO pour analyser l’impact de régresseurs sur une VDL, on la traite comme quantitative

I Comme une relation linéaire entre la VDL est assumée, MCO impose des effets marginaux CONSTANTS quel que soit le niveau du régresseur!2 défauts :

1. MCO peut prédire des valeurs de VDL + petites que leur min possible ou + grdes que leur max possible

2. MCO peut prédire des effets marginaux + grds que le + grd changements possibles qui peut affecter la VDL, p.e. 1.2 pour une VDL dichotomique

I EMV –Estimateur du Maximum de Vraisemblance(MLE) évite ces défauts en permettant une relationnon-linéaireentre la VDL et ses régresseurs

(8)

Ch. 7. Variables Dépendantes Dichotomiques MCO avec VDL dichotomique

Table des matières

(9)

Modèle à proba linéaire

I SoityVDL dichotomique (VDD)

I Que signifie un MRL dans ce cas ? y=Xb+e

I bj ne peut être interprêté comme le changementceteris paribus enyétant donné un changement unitaire enxj puisquey ne peut changer que de zéro à un ou de un à zéro

(10)

Interprétation de b

I Sous hypothèse d’exogénéitéE(e|X) =0, on a : E(y|X) =Pr{y=1|X}=Xb

I La proba de succèsPr{y=1|X}ou “proba de réponse”, est une fonction linéaire dexj

I Le MRL avec VDD est appeléModèle à Proba Linéaire(MPL)

I Que mesurebj dans le MPL ?

I Le changement ceteris paribus en la proba de succès quandxj

change

I P(y=1| xj) =bj xj

I Si on écrit la valeur ajustéeyˆ(la proba de succès prédite) comme ˆ

y=Xbˆ

I bˆj mesure le changement prédit en la proba de succès lorsquexj

augmente d’une unité

(11)

Exemple : Participation des femmes à l’offre de travail

I Échantillon aléatoire de 753 femmes

I Wooldridge : Gretlmroz

I Estime par MCO la proba qu’une femme travaille contre salaire

I ou soit en recherche d’emploi en principe

I La variable dépendante est dichotomique

I 1 si la femme travaille contre salaire hors de chez elle à un point quelconque de l’année

I 0 autrement

I Estimation par MCO

I pour les 753 femmes de l’échantillon, 16 ont des valeurs ajustées

<0et 17 ont >1

(12)

Impact des jeunes enfants

I Une des variables explicatives est “nbr d’enfants de moins de 6 ans”, kid<6

I Après estimation par MCO

I le coefficient de “kid<6” est significatif et egal à−0.262

I Donc : un enfant de moins de 6 ans en plus réduit

I la proba de participation de−0.262 - ceteris paribus (sous exogénéité)

I quel que soitle nombre d’enfants de moins de 6 ans

I Passer de 0 à 4 enfants de moins de 6 ans réduit la proba de travailler de 0.262 * 4 = 1.048 (impossible)

(13)

Ch. 7. Variables Dépendantes Dichotomiques Modèles à VDD : logit & probit

Table des matières

(14)

Spécification

I Soit une classe de modèles non-linéaires à réponse dichotomique :

Pr(y=1|X) =G(Xb)

G est une fonction qui prend des valeurs strictement entre zéro et un :0G(z)1,8nombre réelz

I Ceci garanti que les proba estimées de réponse seront strictment entre zéro et un

I Implique une relationnon linéaireentre la variable dépendante et les régresseurs

I De nombreuse fonctions sont candidates

I 2 sont populaires : logistique et normale

(15)

Logit et Probit

I Modèle logit,Gest la fonction de distribution (densité cumulative) d’une v.a. logistique standard :

G(z) =exp(z)/[1+exp(z)] =⇤(z)

I Modèle probit,G est la fonction de distribution d’une v.a.

normale standard, dont on note la densitéf(.): G(z) =

ˆ z

•f(t)dt avecf(z) = (2p) ^1/2exp z²/2

(16)

Logit vs. Probit

I Les distributions logistique et normale sont similaires

I La logistique rend les calculs plus simples et permet des simplifications importantes dans des modèles plus avancés

(17)

Modèle à Variable Latente

I Soity^⇤une variable latente (c’est-à-dire pas observée directement) t.q.

y^⇤=Xb+e

I P.e.y^⇤est l’utilité d’acheter une nouvelle voiture

I Logit et probit peuvent être obtenus d’un modèle à variable latente qui satisfait toutes les hypothèses du MRL classique

I On n’observe pas l’utilité, mais seulement la conséquence de la décision individuelle

( y_i^⇤<0 =) yi=0 y_i^⇤ 0 =) yi=1

I On observe que la personne a(y=1)ou n’a pas(y=0)acheté de nvlle voiture

(18)

Proba de réponse

I Hypothèse :e est indépendant dex eteest soit standard logistique soit standard normale

I On dérive les proba de réponse poury: Pr{y=1|X} =Pr{y^⇤ 0|X}

=Pr{e> (Xb)|X}

=1 G( (Xb))

=G(Xb)

I Commee est normale ou logistique, elle est sym autour zéro, donc1 G( z) =G(z)8nbr réelz

(19)

Estimation Maximum de Vraisemblance

I Estimation des modèles Logit et Probit par Maximum de Vraisemblance (Maximum Likelihood)

I Dans ce cours, MV = boîte noire qui produit des estimations bˆMV

I Consistantes mais biaisées

I Asymptotiquement efficientes

I Asymptotiquement normales

I Pour autant que les hypothèses du modèles soient vraies

I Sinon, c’est pas forcément fichu, mais c’est compliqué

I En pratique : on donne au logiciely comme variable dépendante etX (plein rang) comme régresseur

I MV sera vu en détail en M1

(20)

Ch. 7. Variables Dépendantes Dichotomiques Interprétation des modèles Logit & Probit & exemple

Table des matières

(21)

Cas d’un régresseur continu x

_j

I L’effet d’un changement marginal enxj sur la proba de réponse Pr{y=1|X}=p(X)est donné par la dérivée partielle

∂p(X)

∂xj = ∂G(Xb)

∂xj =g(Xb)bj

I C’estl’effet marginaldexj : il dépend des valeurs prises par tousles régresseurs (pas seulement dexj)

I On peut le calculer en des points “intéressants” deX, p.e.

moyennes sur l’échantillon

I Qd un régresseur est discret sa moyenne sur l’échantillon ne veut pas dire grd chose

I Ou bien on peut le calculer pour chaqueidans l’échantillon et calculer la moyenne des effets marginaux “individuels”

I En général ça ne coïncide pas

(22)

Effets marginaux Logit – Probit

I Dans Logitg(z) = exp(z)

[1+exp(z)]² etg(0) =.25

I Dans Probitg(z) =f(z)(la densité normale standard) et f(0) =1/p

2p'.4

I Ces modèles ne peuvent pas avoir des effets marginaux g(Xb)xj plus grand que un

(23)

Cas d’un régresseur discret

I Effet d’un changement enxj discret

I deaàb(souvent, de 0 à 1)

I sur la proba de réponsePr{y=1|X}=p(X)

I On écritX jl’ensemble des régresseurs saufxj, de façon similaireb j

ˆ

p(X_i) = G⇣

X _jibˆ j+bbˆj

⌘ G⇣

X _jibˆ _j+abˆ_j⌘

I Un tel effet est différent d’individu à individu

I Dans Stata

I Commandemfxaprès logit ou probit : effets marginaux de régresseurs continus

I Commande prvaluepour un régresseur discret

(24)

Mesures de qualité d’ajustement

I Lepourcentage correctement prédit

I 8i calculer la proba ajustée queyi prenne la valeur 1,G⇣ Xibˆ⌘

I Si .5on “prédit”y_i=1et zéro sinon

I On calcule le % de prédictions correctes

I Problème : possible d’obtenir de hauts % correctement prédits sans que le modèle soit bien utile

I P.e., ds un échantillon de 200, 180 observations ontyi=0dont 150 sont prédites zéro et 20 obs ontyi=1toutes prédite zéro

I Le modèle est clairement mauvais

I Mais on a qd même 75% de prédictions correctes

I Pour cela, on rapporte un tableau de prédiction2⇥2(p.e. Stata)

(25)

Pseudo R-carré

I Pseudo R²=1 lnLUR/lnL₀

I lnLURla log-vraisemblance du modèle estimé (voir M1)

I lnL0celle du modèle avec seulement l’intercept

I semblable àR²pour la régression MCO

I carR²=1 SSR_UR/SSR₀

I Il existe d’autres mesures de qualité de l’ajustement,

I mais l’ajustement n’est généralement pas aussi important que la significativité statistique et économique des régresseurs

(26)

Exemple : Participation des femmes à l’offre de travail

inlf =1 if in labor force, 1975 inc* (faminc - wage*hours)/1000 educ years of schooling

exp actual labor mkt exper exp²

age woman’s age in yrs kid<6 # kids < 6 years kid 6

Fichier GretlMROZ(tab Wooldridge)

(27)

Échelle

I Lestaillesdes coefficientsne sont pasdirectement comparables entre modèles

I C’est pcq avec les variables dichotomiquesyon pourrait multiplier l’ensemble des coefficients par n’importe quelle constante positive sans changer le modèle

I =) la variance deyn’est pas identifiée en général

I Approximativement,

I diviser les estimations logit par 4 et les probit par 2.5 pour les rendre comparables aux estimations du MPL

(28)

Modèles pour inlf (Participation des femmes à l’offre de travail)

x_j bˆOLS |t| bˆlogit |t| bˆprobit |t|

inc* -.003 2.4 -.021 2.5 -.012 2.5 educ .038 5.2 .221 5.1 .131 5.2

exp .039 7 .206 6.4 .123 6.7

exp² -.000 3.2 -.003 -3.1 -.002 3.2 age -.016 6.5 -.088 -6.0 -.053 6.2 kid<6 -.262 7.8 -1.44 -7.1 -.868 7.3

kid 6 .013 1 .060 .8 .036 .8

Cst .586 3.8 .425 .5 .27 .5

lnL – -402 -401

p-R² .26 R_a² .220 .221

(29)

Comparer les effets marginaux

I MPL, effets marginaux constants = coef estimés

I Probit :f⇣

X¯bˆprobit

⌘'.4

I X¯ qui comprend les moyennes deexp²:exp²6= ¯exp²

I Coefficient⇥0.4 = effet marginal de la variable sur la proba à la moyenne de l’échantillon

I Sans doute différent en d’autres points

I Sera différent entrei

(30)

Exemple : Participation des femmes à l’offre de travail

I Une femme avec inc* = 20.13, educ = 0.13, exp = 10.6, age = 42.5

I Environ les moyennes de l’échantillon

I Proba pour kid<6= 0

I Calculer la distribution normale standard ⇣ X¯bˆ⌘

en kid<6=0 : Pr = 0.707

I Baisse estimée de la proba de travailler en passant de zéro à un jeune enfant ?

I Calculer la distribution normale standard ⇣ X¯bˆ⌘

en kid<6=1 : Pr = 0.373

I On a environ 0.373−0.707 =−0.334 : proba environ 0.334 plus petite lorsque la femme a un petit enfant

I Si cette femme passe de 1 à 2 petits enfants, la proba tombe plus bas,

I mais l’effet marginal est moindre : 0.117−0.373 =−0.256

(31)

Table prédictive ( estat classification )

Predict Model yi =1 yi =0 Total ˆ

yi=1 LPM 350 122 472

Logit 347 118 465

Probit 348 120 468

ˆ yi=0

LPM 78 203 281

Logit 81 207 288

Probit 80 205 285

Total 428 325 753

(32)

Remarque : Endogénéité

I Les enfants n’arrivent pas par hasard

I La décision d’avoir un enfant de plus est prise en même temps que celle de participer au marché du travail

I Voire, un changement professionnel peut mener à réajuster la vie familiale

I Donc : le nombre d’enfants est endogène dans cette régression

I Sans doute, particulièrement le nombre de jeunes enfants

I Deux équations latentes

I Utilités U₁^⇤=X₁b1+e1

U₂^⇤=X₂b2+e2 I On observeY₁=

( 1 si U₁^⇤>0 0 sinon

I idem pourU₂^⇤

I Vraisemblablement,e1ete2corrélés

(33)

Ch. 7. Variables Dépendantes Dichotomiques Autres types de VDL et conclusions

Table des matières

(34)

3 catégories principales

I Variables ordinales

I Variables catégoriques

I Variables continues bornées

(35)

Variables ordinales

I P.e. “satisfaction” codée 1 à 3

I On part d’un principe de variables observéesyi et latentey_i^⇤t.q.

8>

<

>:

yi =1 if y^⇤k₁ yi =2 if k₁y^⇤k₂ yi =3 if k₂y^⇤

oùk₁etk₂sont appelés “seuils” ou “points de coupure”

I Cas des VDL “ordonnée” :y a un ordre naturel

I Estimation par des extensions de probit et logit (dits ordonnés) dans Stata par MV

I Interpretation des coefficients assez différente

I Même interprétation du signe et de la significativité

(36)

Variables catégoriques

I Même principe latent, sauf qu’il n’y a pas d’ordre

I On parle de choix multinomial entrealternativesA, B, C...

I Logit/probit dits multinomial

I À coefficients fixes entre alternatives (logit/probit conditionnel) : seuls les régresseurs qui changent entre les alternatives

I À coefficients variables entre alternatives : on peut estimer un coef pour des régresseurs constants entre alternatives

I Interprétation également assez différente

I Même interprétation du signe et de la significativité

(37)

Conclusions

1. On préfère MV à MC en présence de VDL

2. Les effets marginaux sont moins évidents à calculer parce que les modèles deviennent non-linéaires

3. Les modèles à VDL sont nombreux et présentent généralement des interprétations assez différentes les uns des autres

3.1 Du point de vue logiciel il ne s’agit jamais que d’une variable dépendante et de régresseurs

3.2 Les interprétations du signe et de la significativité restent les mêmes