Économétrie II

(1)

Économétrie II

Ch. 2. Inférence Classique & Bootstrap L3 Économétrie – L3 MASS

Pr. Philippe Polomé, U. Lyon 2

Année 2015-2016

(2)

Ch. 2. Inférence Classique & Bootstrap Motivation

Table des matières

Ch. 2. Inférence Classique & Bootstrap Motivation

Inférence classique

Inférence classique : exemple Inférence Bootstrap

Bootstrap : Exemple

Comparaison bootstrap / classique

(3)

Contexte

I

MRL

y =X +✏

et hypothèses

I

Un des eﬀets secondaires des ruptures d’hypothèse est que l’inférence est invalidée

I Tests t, F, ...

I

Dans ce chapitre

I Rappel d’inférence

I Introduction au bootstrap

(4)

Principe de l’inférence

I

On a une statistique

ˆ

estimation d’un paramètre inconnu

I On peut calculer la variabilité statistique de ˆ: sadistribution

I Nombreuses manières

I

On veut savoir si on peut dire que

=

un certain chiﬀre

b

I H₀: b=0 en tenant compte du bruit statistique

I On se donne des marges d’erreur acceptables : 5% de rejeter H₀quand elle est vraie

I Seuil le plus communément utilisé mais arbitraire

I

Ces marges définissent un

intervalle

dans la variabilité statistique de

ˆ

I Pas forcément symétrique

I

Si

b2

intervalle, alors

¬R H0

I OnR H₀ 5% du temps lorsqueH₀ est en fait vraie

I D’où le nom “intervalle de confiance à 95%”

(5)

Types d’erreur

H₀

vraie

H₀

fausse

R

Erreur type I – Prob.

↵=

5% Correct

¬R

Correct Erreur type II – Prob.

I

La probabilité de l’erreur de type II dépend de

H₀

, 1 est

la puissance du test.

(6)

Graphiquement

Supposons que la vraie valeur du paramètre soit eﬀectivement

b,

quelle est la probabilité qu’on ait observé

ˆ

?

I

Si cette probabilité est <5%, alors on décide que

H₀

était

fausse :

6=b

(7)

Ch. 2. Inférence Classique & Bootstrap Inférence classique

Table des matières

Ch. 2. Inférence Classique & Bootstrap Motivation

Inférence classique

Inférence classique : exemple Inférence Bootstrap

Bootstrap : Exemple

Comparaison bootstrap / classique

(8)

Inférence classique (économétrie I)

I

En inférence classique, la plupart des tests

I t, F, ...

I reposent sur l’hypothèse denormalitédu terme d’erreur

I au moins pour de petits échantillons

I

Procédure analytique de test

I On formule une hypothèse, p.e.H₀: _i =0

I On calcule unestatistique du testdont on peut savoir quelle distribution elle a siH₀ est vraie et✏⇠n()

I

La normalité permet de déduire la distribution de la statistique

de test quand

H₀

est vraie

(9)

Exemple de la t de Student

I ˆ_i

ecart type⇣

ˆ_i⌘ ⇠tn k

si

I H₀: _i =0 vraie

I et si✏⇠n()

I et si les hypothèses du MRL sont vraies

I

La distribution de Student est

tabulée

: il existe des tables avec ses valeurs

I livres d’économétrie & tableurs

I Gretl menu Outils!Tables statistiques

I

On

compare

la valeur calculée de la statistique du test aux valeurs tabulées

I Si la statistique de test est dans les 5% extrêmes de lat de Student, on décide que c’estH₀ qui est fausse

(10)

Exemple de table : t de Student

(11)

Matrice de variance-covariance des coeﬃcients

I

La plupart des statistiques de test sur les coeﬃcients sont construites à partir de la matrice de variance-covariance (conditionnelle à X) des coeﬃcients

I

Plus les estimations seront précises, plus on devrait rejeter facilement (toutes autres choses égales)

I

Si les hypothèses MRL sont satisfaites :

V ⇣

ˆ_MCO|X⌘

= ²⇣

X⁰X⌘ 1

I Où ²=var(✏_i)<1est la variance des erreurs

I On écrit souventV⇣ ˆ⌘

(12)

Estimation des variances

I

La variance

²

des erreurs

✏

est inconnue

I

L’estimateur MCO de cette variance est

ˆ2 = ˆ✏⁰ˆ✏ n k

où

I ˆ✏=Y Yˆ =Y Xˆrésidu MCO

I k nombre de régresseurs (y compris l’intercept)

I

Cet estimateur est non-biaisé

I

L’estimateur MCO de la matrice de variance-covariance (conditionnelle à X) des coeﬃcients est

V\⇣ ˆ|X⌘

= ˆ²⇣

X⁰X⌘ ₁

= ˆ✏⁰ˆ✏ n k

⇣X⁰X⌘ ₁

(13)

Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple

Table des matières

Ch. 2. Inférence Classique & Bootstrap Motivation

Inférence classique

Inférence classique : exemple Inférence Bootstrap

Bootstrap : Exemple

Comparaison bootstrap / classique

(14)

Exemple

I

Pour clarifier ces notions : détail d’un exemple 1. Charger des données de Gretl dans un tableur 2. Estimateur MCO

3. Calcul des résidus

4. Estimation de la matrice de var-cov

5. Calcul des t-stats

(15)

Données

I

Dans Gretl, charger le jeu de données bwages des données de Verbeek

I Sourcegretl.sourceforge.net/gretl_data.html

I

1472 observations de salaires (wage) horaires bruts de 1994 en Belgique

I Educ, Experience, Genre

I

Exportation classique vers tableur

I File –> Export Data –> CSV (Comma Separated Values)

I

Ouvrir le fichier à partir tableur

I Sélect. col.

I Menu Données –> Convertir –> valeur délimitées –> virgule

I Sauverbwages.ods

(16)

Modélisation

I

Modèle économétrique Wages = F(Experience, Education, Sex)

I Certainement autres régresseurs pertinents (secteur...), mais pas données

I

Transformation des données

I ln(wages) (au lieu de wages directement) : limite l’hétéroscédasticité (on verra + loin)

I ln(1+Experience) Experience = 0 : ln(0) impossible

I

A priori modèle linéaire

ln(wages) = ₀+ ₁ln(1+exp) + ₂”Educ” + ₃sex+✏

I @ln(wage)/@ln(exp) = ₁

élasticité du salaire à l’expérience

(17)

Régresseurs qualitatifs

I

Male

2

{0,1} : variable binaire/dichotomique (aussi dummy/fictive/indicatrice)

I 1 = homme, donc 0 = ...

I

Educ

2

{1,...,5} : variable catégorique

I 1 = peu d’éducation (diplôme) ... 5 = beaucoup

I Les chiﬀres ne sont qu’un code, leur diﬀérence ne veut rien dire

I On transforme en 4 dichotomiques : Deduc1 = 1 si educ = 1, 0 sinon etc...

I

Male et Educ sont des variables

qualitatives

I

Dans

bwages.ods

: création de données

(18)

Modèle

I

Proposition de modèle :

ln

(w) = ₀+ X4 i=1

idEi + ₅

ln

(1+exp) + ₆Male +✏

I

3 remarques

I i = 1 à 4 : La 5ème catégorie estimplicite, les autres coeﬃcients s’interprètent en référence à elle

I p.e. si 2= 1, alors avoir un niveau d’éducation de la catégorie 2 implique que le ln du salaire sera de 1 inférieur comparativement à la catégorie 5 toute autre chose égale

I 5=@ln(w)/@ln(1+exp) =élasticité du salaire p/r à l’expérience

I 6>0=)à éducation et expérience égales, les hommes gagnent plus que les femmes

(19)

V \ ⇣ ˆ | X ⌘

I

Une fois les coeﬃcients estimés

ˆ

I calculer les résidusˆ✏=y Xˆ

I V\⇣ ˆ|X⌘

= ˆ²⇣

X⁰X⌘ 1

= ˆ✏⁰ˆ✏ n k

⇣X⁰X⌘ 1

I Calcul dansbwages.ods

(20)

La huitième hypothèse du MRL : normalité

I

Hypothèse de normalité des erreurs :

✏⇠n

0,

²

I ) ˆ⇠n

✓ , ²⇣

X⁰X⌘ 1◆

I )t = ˆ_i s

diagi

✓V\⇣

ˆ⌘◆ ⇠tn k

est vrai

I Si H0 i =0 est vraie

I Si l’hyp de normalité et toutes les autres hyp du MRL sont vraies

(21)

Principe du test de significativité classique

I

Pour

n k

suﬃsamment grand (une centaine), le percentile 0,975 de

tn k

vaut 1,96

I

Test de significativité

Si le t du coeﬃcient i de la variable xi

soit le coeﬃcient estimé divisé par son écart-type estimé vaut moins de 1,96 en valeur absolue

alors xi n’est pas significative(6=0)

“règle du 2”

I

Pour des valeurs petites de

n k, on compare avec le

percentile tabulé

tn k

(22)

Illustration graphique

I

Calcul des t-stat dans

bwages.ods

(23)

P-valeur

I

De manière équivalente, on peut aussi calculer à partir de quel

↵

(risque de rejeter une hypothèse vraie / zone grise) le coeﬃcient est significatif

I Plus on prend↵petit, plus l’intervalle de confiance est grand, plus il est probable qu’il contienne le zéro, moins il est probable que le coeﬃcient soit significatif

I

Lorsque la p-valeur est inférieure à 5%, on dit que le coeﬃcient est significatif (à 5%)

I Percentile 0,975 [intervalle 95%,↵= 5%] det_{n k} vaut 1,96

I

Calcul des p-valeurs dans bwages.ods

I

Sortie Gretl pour vérifier l’équivalence

I Création des dichotomiques : clic droit!“dummify”

(24)

Autres tests d’égalité de coeﬃcients

I

Au moyen de procédures similaires, on peut tester

I si le coefficient estimé est significativement différent d’un certain chiffre b

I si plusieurs coefficients sont significativement différents les uns des autres ou d’un même chiffre

I si des combinaisons linéaires de coeﬃcients valent un certain chiﬀre

I

Tests dit en F ou de Wald dès que plus d’un coeﬃcient

I Tous les logiciels fournissent la p-valeur

I Application particulière standard :H₀: tous les coeﬃcients (sauf l’intercept) sont simultanément nuls

I voir sortie dans Gretl

I

Voir Test ou Analyse après estimation dans Gretl

I Postestimation dans Stata (menu Statistique)

I p.e. b[2]=b[3] à écrire b[2]-b[3]=0

(25)

Limites de l’inférence classique

I

Test de normalité des résidus

I Que faire si non-normaux ?

I

Intervalle de confiance pour des statistiques plus complexes

I Combinaison non-linéaire de paramètres

I Surplus du consommateur (intégrale sous une droite de demande)

I

Plusieurs techniques existent

I Bootstrap : plus versatile, vraisemblablement plus robuste

(26)

Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap

Table des matières

Ch. 2. Inférence Classique & Bootstrap Motivation

Inférence classique

Inférence classique : exemple Inférence Bootstrap

Bootstrap : Exemple

Comparaison bootstrap / classique

(27)

Échantillon aléatoire

I

On a vu que chaque échantillon est un tirage d’une population

I L’échantillon peut être “aléatoire simple” ou plus complexe

I

Les coeﬃcients estimés

ˆ

sont des nombres aléatoires

I Chaque échantillonede la même population produit un ˆ_e diﬀérent

I

Imaginons qu’on ait plusieurs échantillons, donc plusieurs

ˆ_e

I Ladistribution empiriquede ˆest l’histogramme des ˆ_e

I Quand le nombre d’échantillons! 1, la distribution empiriqueconvergevers la fonction de densité de ˆ

(28)

Distribution empirique

50 échantillons 500 échantillons

5000 échantillons

1

échantillons

(29)

Intervalle de confiance empirique

I

Si on connaissait la fonction de densité de

ˆ

I On pourrait définir un intervalle de confiance 95% entre les quantiles 2.5% et 97.5% de la distribution

I

Avec un nombre

E

fini d’échantillons :

I L’intervalle de confiance empiriqueà 95% d’un élément ˆ_k de ˆ est formé par les quantiles 2.5% et 97.5% de la

distribution empirique

I Soit ˆ_ke la valeur estimée de k dans l’échantillone

I On aE valeurs estimées : ˆ_k1, . . . ,ˆ_kE

I Disons 1000 pour simplifier

I On les ordonne de la plus petite à la plus grande

I La 25ºest le quantile 2.5%

I

Pour d’autres quantités, élasticité

⌘

p.e.

I on calcule la quantité d’intérêt⌘ˆ_e pour chaquee

I et on prend les quantiles de leur distribution empirique

(30)

Re-tirage avec remplacement

I

En réalité, on a rarement plus d’un échantillon

I

Expérience de Monte-Carlo

I À partir de chaque échantillon artificielm, on pouvait calculer ˆ_m à chaque fois

I

Avec un échantillon réel, on

ne peut

en tirer un nouveau, mais

I Supposons que l’échantillon n’est pas atypique par rapport à la population d’où il est tiré

I Principe demédiocrité

I 6=représentativité

I Alors, si on avait pu tirer un autre échantillon, on aurait observé au moins une partie des mêmes chiﬀres

I

Si on tire des obs. de l’échantillon observé, on peut considérer qu’il s’agit d’un autre échantillon de la même population

I Pour garder un échantillon de même taille : tirer avec remplacement

I

Le re-tirage avec remplacement constitue le

bootstrap

(31)

Bootstrap

I

Par exemple, soit l’échantillon {1,-1,2,3}

I Un nouvel échantillon bootstrap de celui-là pourrait être {1,1,-1,3}

I Un autre {2,2,3,3}

I Tous ces échantillons sont équiprobables

I

Donc avec le bootstrap, on est dans un situation semblable au

Monte-Carlo

I L’échantillon original est vu comme la population

I On a plusieurs échantillonse issus de cette population

I On peut alors calculer ˆ_e pour chacun d’eux

I En répétant, on obtient unedistribution empiriquedes ˆ

I Combien de fois ? la littérature suggère que 1000 couvrirait la plupart des cas

(32)

Intervalle de confiance bootstrap

I

La distribution empirique représente toutes les valeurs observées de

ˆ

I En retirant les 2.5% plus petites valeurs et les 2.5% plus grandes, on obtient l’intervalle à 95%

I Donc : SiH0: i=0 : si 02IC, alorsH0n’est pas invalidée

I Mais si 02/IC, 0 est considéré comme une valeur improbable de ⁱ et on rejetteH0

I En calculant l’écart-type de la distribution empirique de ˆ_j, on obtient l’écart-type de ˆ_j

I

Exemple tableur

bootstrap.ods

I

De même, dans chaque échantillon bootstrap, on peut calculer des fonctions des estimations et des données

I Par exemple, une élasticité⌘ˆ_e=H⇣

Y_e,X_e,ˆ_e⌘

I L’intervalle de confiance pour l’élasticité est obtenu comme pour ˆ

(33)

Types de bootstrap

I

Le bootstrap décrit est le bootstrap

non-paramétrique

ou bootstrap

par paires

I on ré-échantillonne des paires(Y,X)de l’échantillon original

I 9

techniques de bootstrap où on va vouloir trouver juste de nouveaux

y

:

y^e

I Boostrapparamétrique: on suppose p.e. quey ⇠n⇣ X✓,ˆ ⌃⌘ et on tire desy^e d’une telle normale

I Bootstraprésiduel: On ré-échantillonne les résidus y_i^e =X_iˆ + ˆ✏^e_i

I

Le non-paramétrique est conceptuellement plus simple

I Mais les autres bootstraps permettent d’obtenir de meilleures approximations (aux intervalles de confiance ou autres)pour autant que leurs hypothèses soient satisfaites

(34)

Bootstrap par bloc

I

Lorsque les observations ne sont pas IID, les techniques précédentes ne sont plus valables

I parce qu’ellesdétruisentla corrélation entre observations

I L’échantillon bootstrap ne peut être considéré comme un nouvel échantillon

I Bootstrap est plus utile pour coupes transversales que pour séries chronologiques

I Bootstrap par bloc

I On coupe l’échantillon enr blocs de longueurl de telle sorte querl'N (pas nécessaire exactement car peut ne pas tomber juste)

I On ré-échantillonne sur ces blocs seulement (pas par observation)

I Les blocs deviennent donc indépendants, mais la corrélation est préservée à l’intérieur

I

Application en particulier en panel

(35)

Ch. 2. Inférence Classique & Bootstrap Bootstrap : Exemple

Table des matières

Ch. 2. Inférence Classique & Bootstrap Motivation

Inférence classique

Inférence classique : exemple Inférence Bootstrap

Bootstrap : Exemple

Comparaison bootstrap / classique

(36)

Bootstrap dans Gretl

I

Avant les ordinateurs modernes, le bootstrap était impossible

I

Après estimation, dans le menu “Analyse”, la commande

“Bootstrap” permet de calculer

I Un IC pour chaque coeﬃcient et pour chaque t

I Par bootstrap résiduel

I Exemple airq.gdt

I

Gretl a une commande spéciale

resample

I genr xr = resample(x) crée une nouvelle sérieXR par ré-échantillonnage deX oùX peut être une matrice ou un vecteur

I SiXest une matrice, resample est le bootstrap par paire

I Illustration avec les données airq.gdt (Verbeek) : observations pour 30 “standard metropolitan statistical areas” = villes (SMSAs) en Californie en 1972

(37)

Programmation d’un bootstrap par paire dans Gretl

(pour ceux que ça intéresse, hors examen)

(38)

Ch. 2. Inférence Classique & Bootstrap Comparaison bootstrap / classique

Table des matières

Ch. 2. Inférence Classique & Bootstrap Motivation

Inférence classique

Inférence classique : exemple Inférence Bootstrap

Bootstrap : Exemple

Comparaison bootstrap / classique

(39)

Comparaison Bootstrap / Classique

Bootstrap Classique

IID & médiocrité IID & normalité H₀ : _i =0

Distribution empirique des ˆ^s

i

Stat de testt = ˆ_i/

s diagi

✓\

V⇣ ˆ⌘◆

⇠tn k si H₀ est vraie

RH0 si 062h ˆ^s

i,.025, ˆ^s

i,.975

i RH0 sit62[tn k,.025,tn k,.975]

(40)

Cas asymptotique n ! 1

I

Lorsque les observations sont très nombreuses, plusieurs centaines au moins

I Les coeﬃcients estimés sont (presque toujours) asymptotiquement⇠n()

I L’inférence classique ne dépend donc de l’hypothèse de normalité des erreurs que pour les petits échantillons

I

L’avantage du bootstrap est moindre lorsque

n ! 1

I Bootstrap reste valable en présence de certaines ruptures des hypothèses du MRL, alors que l’inférence classique non

(41)

Devoir #2 : bootstrap

I

Prendre un échantillon réel de Gretl

I

Estimer un modèle MCO

I

Calculez les intervalles de confiance empiriques des

ˆ

I Comparer avec les intervalles de confiance classiques (sorties standards) : est-ce que vous obtenez les mêmes conclusions ?

I

Estimer les t-stats par bootstrap en calculant l’écart-type de la distribution empirique des

ˆ

I Comparez avec les t-stats classiques : est-ce qu’elles sont proches ? Aboutissent-elles aux mêmes conclusions ?

I En général, ça dépendra de votre échantillon

I Il n’y a pas de réponse universelle