Économétrie II
Ch. 2. Inférence Classique & Bootstrap L3 Économétrie – L3 MASS
Pr. Philippe Polomé, U. Lyon 2
Année 2015-2016
Ch. 2. Inférence Classique & Bootstrap Motivation
Table des matières
Ch. 2. Inférence Classique & Bootstrap Motivation
Inférence classique
Inférence classique : exemple Inférence Bootstrap
Bootstrap : Exemple
Comparaison bootstrap / classique
Ch. 2. Inférence Classique & Bootstrap Motivation
Contexte
I
MRL
y =X +✏et hypothèses
I
Un des effets secondaires des ruptures d’hypothèse est que l’inférence est invalidée
I Tests t, F, ...
I
Dans ce chapitre
I Rappel d’inférence
I Introduction au bootstrap
Ch. 2. Inférence Classique & Bootstrap Motivation
Principe de l’inférence
I
On a une statistique
ˆestimation d’un paramètre inconnu
I On peut calculer la variabilité statistique de ˆ: sadistribution
I Nombreuses manières
I
On veut savoir si on peut dire que
=un certain chiffre
bI H0: b=0 en tenant compte du bruit statistique
I On se donne des marges d’erreur acceptables : 5% de rejeter H0quand elle est vraie
I Seuil le plus communément utilisé mais arbitraire
I
Ces marges définissent un
intervalledans la variabilité statistique de
ˆI Pas forcément symétrique
I
Si
b2intervalle, alors
¬R H0I OnR H0 5% du temps lorsqueH0 est en fait vraie
I D’où le nom “intervalle de confiance à 95%”
Ch. 2. Inférence Classique & Bootstrap Motivation
Types d’erreur
H0
vraie
H0fausse
R
Erreur type I – Prob.
↵=5% Correct
¬R
Correct Erreur type II – Prob.
I
La probabilité de l’erreur de type II dépend de
H0, 1 est
la puissance du test.
Graphiquement
Supposons que la vraie valeur du paramètre soit effectivement
b,quelle est la probabilité qu’on ait observé
ˆ?
I
Si cette probabilité est <5%, alors on décide que
H0était
fausse :
6=bCh. 2. Inférence Classique & Bootstrap Inférence classique
Table des matières
Ch. 2. Inférence Classique & Bootstrap Motivation
Inférence classique
Inférence classique : exemple Inférence Bootstrap
Bootstrap : Exemple
Comparaison bootstrap / classique
Ch. 2. Inférence Classique & Bootstrap Inférence classique
Inférence classique (économétrie I)
I
En inférence classique, la plupart des tests
I t, F, ...
I reposent sur l’hypothèse denormalitédu terme d’erreur
I au moins pour de petits échantillons
I
Procédure analytique de test
I On formule une hypothèse, p.e.H0: i =0
I On calcule unestatistique du testdont on peut savoir quelle distribution elle a siH0 est vraie et✏⇠n()
I
La normalité permet de déduire la distribution de la statistique
de test quand
H0est vraie
Exemple de la t de Student
I ˆi
ecart type⇣
ˆi⌘ ⇠tn k
si
I H0: i =0 vraie
I et si✏⇠n()
I et si les hypothèses du MRL sont vraies
I
La distribution de Student est
tabulée: il existe des tables avec ses valeurs
I livres d’économétrie & tableurs
I Gretl menu Outils!Tables statistiques
I
On
comparela valeur calculée de la statistique du test aux valeurs tabulées
I Si la statistique de test est dans les 5% extrêmes de lat de Student, on décide que c’estH0 qui est fausse
Ch. 2. Inférence Classique & Bootstrap Inférence classique
Exemple de table : t de Student
Ch. 2. Inférence Classique & Bootstrap Inférence classique
Matrice de variance-covariance des coefficients
I
La plupart des statistiques de test sur les coefficients sont construites à partir de la matrice de variance-covariance (conditionnelle à X) des coefficients
I
Plus les estimations seront précises, plus on devrait rejeter facilement (toutes autres choses égales)
I
Si les hypothèses MRL sont satisfaites :
V ⇣ˆMCO|X⌘
= 2⇣
X0X⌘ 1
I Où 2=var(✏i)<1est la variance des erreurs
I On écrit souventV⇣ ˆ⌘
Ch. 2. Inférence Classique & Bootstrap Inférence classique
Estimation des variances
I
La variance
2des erreurs
✏est inconnue
I
L’estimateur MCO de cette variance est
ˆ2 = ˆ✏0ˆ✏ n koù
I ˆ✏=Y Yˆ =Y Xˆrésidu MCO
I k nombre de régresseurs (y compris l’intercept)
I
Cet estimateur est non-biaisé
I
L’estimateur MCO de la matrice de variance-covariance (conditionnelle à X) des coefficients est
V\⇣ ˆ|X⌘
= ˆ2⇣
X0X⌘ 1
= ˆ✏0ˆ✏ n k
⇣X0X⌘ 1
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Table des matières
Ch. 2. Inférence Classique & Bootstrap Motivation
Inférence classique
Inférence classique : exemple Inférence Bootstrap
Bootstrap : Exemple
Comparaison bootstrap / classique
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Exemple
I
Pour clarifier ces notions : détail d’un exemple 1. Charger des données de Gretl dans un tableur 2. Estimateur MCO
3. Calcul des résidus
4. Estimation de la matrice de var-cov
5. Calcul des t-stats
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Données
I
Dans Gretl, charger le jeu de données bwages des données de Verbeek
I Sourcegretl.sourceforge.net/gretl_data.html
I
1472 observations de salaires (wage) horaires bruts de 1994 en Belgique
I Educ, Experience, Genre
I
Exportation classique vers tableur
I File –> Export Data –> CSV (Comma Separated Values)
I
Ouvrir le fichier à partir tableur
I Sélect. col.
I Menu Données –> Convertir –> valeur délimitées –> virgule
I Sauverbwages.ods
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Modélisation
I
Modèle économétrique Wages = F(Experience, Education, Sex)
I Certainement autres régresseurs pertinents (secteur...), mais pas données
I
Transformation des données
I ln(wages) (au lieu de wages directement) : limite l’hétéroscédasticité (on verra + loin)
I ln(1+Experience) Experience = 0 : ln(0) impossible
I
A priori modèle linéaire
ln(wages) = 0+ 1ln(1+exp) + 2”Educ” + 3sex+✏
I @ln(wage)/@ln(exp) = 1
élasticité du salaire à l’expérience
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Régresseurs qualitatifs
I
Male
2{0,1} : variable binaire/dichotomique (aussi dummy/fictive/indicatrice)
I 1 = homme, donc 0 = ...
I
Educ
2{1,...,5} : variable catégorique
I 1 = peu d’éducation (diplôme) ... 5 = beaucoup
I Les chiffres ne sont qu’un code, leur différence ne veut rien dire
I On transforme en 4 dichotomiques : Deduc1 = 1 si educ = 1, 0 sinon etc...
I
Male et Educ sont des variables
qualitativesI
Dans
bwages.ods: création de données
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Modèle
I
Proposition de modèle :
ln
(w) = 0+ X4 i=1idEi + 5
ln
(1+exp) + 6Male +✏I
3 remarques
I i = 1 à 4 : La 5ème catégorie estimplicite, les autres coefficients s’interprètent en référence à elle
I p.e. si 2= 1, alors avoir un niveau d’éducation de la catégorie 2 implique que le ln du salaire sera de 1 inférieur comparativement à la catégorie 5 toute autre chose égale
I 5=@ln(w)/@ln(1+exp) =élasticité du salaire p/r à l’expérience
I 6>0=)à éducation et expérience égales, les hommes gagnent plus que les femmes
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
V \ ⇣ ˆ | X ⌘
I
Une fois les coefficients estimés
ˆI calculer les résidusˆ✏=y Xˆ
I V\⇣ ˆ|X⌘
= ˆ2⇣
X0X⌘ 1
= ˆ✏0ˆ✏ n k
⇣X0X⌘ 1
I Calcul dansbwages.ods
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
La huitième hypothèse du MRL : normalité
I
Hypothèse de normalité des erreurs :
✏⇠n0,
2I ) ˆ⇠n
✓ , 2⇣
X0X⌘ 1◆
I )t = ˆi s
diagi
✓V\⇣
ˆ⌘◆ ⇠tn k
est vrai
I Si H0 i =0 est vraie
I Si l’hyp de normalité et toutes les autres hyp du MRL sont vraies
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Principe du test de significativité classique
I
Pour
n ksuffisamment grand (une centaine), le percentile 0,975 de
tn kvaut 1,96
I
Test de significativité
Si le t du coefficient i de la variable xi
soit le coefficient estimé divisé par son écart-type estimé vaut moins de 1,96 en valeur absolue
alors xi n’est pas significative(6=0)
“règle du 2”
I
Pour des valeurs petites de
n k, on compare avec lepercentile tabulé
tn kCh. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Illustration graphique
I
Calcul des t-stat dans
bwages.odsCh. 2. Inférence Classique & Bootstrap Inférence classique : exemple
P-valeur
I
De manière équivalente, on peut aussi calculer à partir de quel
↵
(risque de rejeter une hypothèse vraie / zone grise) le coefficient est significatif
I Plus on prend↵petit, plus l’intervalle de confiance est grand, plus il est probable qu’il contienne le zéro, moins il est probable que le coefficient soit significatif
I
Lorsque la p-valeur est inférieure à 5%, on dit que le coefficient est significatif (à 5%)
I Percentile 0,975 [intervalle 95%,↵= 5%] detn k vaut 1,96
I Percentile 0,95 [intervalle 90%,↵= 10%] detn k vaut 1,65
I Percentile 0,995 [intervalle 99%,↵= 1%] detn k vaut 2,56
I
Calcul des p-valeurs dans bwages.ods
I
Sortie Gretl pour vérifier l’équivalence
I Création des dichotomiques : clic droit!“dummify”
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Autres tests d’égalité de coefficients
I
Au moyen de procédures similaires, on peut tester
I si le coefficient estimé est significativement différent d’un certain chiffre b
I si plusieurs coefficients sont significativement différents les uns des autres ou d’un même chiffre
I si des combinaisons linéaires de coefficients valent un certain chiffre
I
Tests dit en F ou de Wald dès que plus d’un coefficient
I Tous les logiciels fournissent la p-valeur
I Application particulière standard :H0: tous les coefficients (sauf l’intercept) sont simultanément nuls
I voir sortie dans Gretl
I
Voir Test ou Analyse après estimation dans Gretl
I Postestimation dans Stata (menu Statistique)
I p.e. b[2]=b[3] à écrire b[2]-b[3]=0
Ch. 2. Inférence Classique & Bootstrap Inférence classique : exemple
Limites de l’inférence classique
I
Test de normalité des résidus
I Que faire si non-normaux ?
I
Intervalle de confiance pour des statistiques plus complexes
I Combinaison non-linéaire de paramètres
I Surplus du consommateur (intégrale sous une droite de demande)
I
Plusieurs techniques existent
I Bootstrap : plus versatile, vraisemblablement plus robuste
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Table des matières
Ch. 2. Inférence Classique & Bootstrap Motivation
Inférence classique
Inférence classique : exemple Inférence Bootstrap
Bootstrap : Exemple
Comparaison bootstrap / classique
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Échantillon aléatoire
I
On a vu que chaque échantillon est un tirage d’une population
I L’échantillon peut être “aléatoire simple” ou plus complexe
I
Les coefficients estimés
ˆsont des nombres aléatoires
I Chaque échantillonede la même population produit un ˆe différent
I
Imaginons qu’on ait plusieurs échantillons, donc plusieurs
ˆeI Ladistribution empiriquede ˆest l’histogramme des ˆe
I Quand le nombre d’échantillons! 1, la distribution empiriqueconvergevers la fonction de densité de ˆ
Distribution empirique
50 échantillons 500 échantillons
5000 échantillons
1échantillons
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Intervalle de confiance empirique
I
Si on connaissait la fonction de densité de
ˆI On pourrait définir un intervalle de confiance 95% entre les quantiles 2.5% et 97.5% de la distribution
I
Avec un nombre
Efini d’échantillons :
I L’intervalle de confiance empiriqueà 95% d’un élément ˆk de ˆ est formé par les quantiles 2.5% et 97.5% de la
distribution empirique
I Soit ˆke la valeur estimée de k dans l’échantillone
I On aE valeurs estimées : ˆk1, . . . ,ˆkE
I Disons 1000 pour simplifier
I On les ordonne de la plus petite à la plus grande
I La 25ºest le quantile 2.5%
I
Pour d’autres quantités, élasticité
⌘p.e.
I on calcule la quantité d’intérêt⌘ˆe pour chaquee
I et on prend les quantiles de leur distribution empirique
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Re-tirage avec remplacement
I
En réalité, on a rarement plus d’un échantillon
I
Expérience de Monte-Carlo
I À partir de chaque échantillon artificielm, on pouvait calculer ˆm à chaque fois
I
Avec un échantillon réel, on
ne peuten tirer un nouveau, mais
I Supposons que l’échantillon n’est pas atypique par rapport à la population d’où il est tiré
I Principe demédiocrité
I 6=représentativité
I Alors, si on avait pu tirer un autre échantillon, on aurait observé au moins une partie des mêmes chiffres
I
Si on tire des obs. de l’échantillon observé, on peut considérer qu’il s’agit d’un autre échantillon de la même population
I Pour garder un échantillon de même taille : tirer avec remplacement
I
Le re-tirage avec remplacement constitue le
bootstrapCh. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Bootstrap
I
Par exemple, soit l’échantillon {1,-1,2,3}
I Un nouvel échantillon bootstrap de celui-là pourrait être {1,1,-1,3}
I Un autre {2,2,3,3}
I Tous ces échantillons sont équiprobables
I
Donc avec le bootstrap, on est dans un situation semblable au
Monte-CarloI L’échantillon original est vu comme la population
I On a plusieurs échantillonse issus de cette population
I On peut alors calculer ˆe pour chacun d’eux
I En répétant, on obtient unedistribution empiriquedes ˆ
I Combien de fois ? la littérature suggère que 1000 couvrirait la plupart des cas
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Intervalle de confiance bootstrap
I
La distribution empirique représente toutes les valeurs observées de
ˆI En retirant les 2.5% plus petites valeurs et les 2.5% plus grandes, on obtient l’intervalle à 95%
I Donc : SiH0: i=0 : si 02IC, alorsH0n’est pas invalidée
I Mais si 02/IC, 0 est considéré comme une valeur improbable de i et on rejetteH0
I En calculant l’écart-type de la distribution empirique de ˆj, on obtient l’écart-type de ˆj
I
Exemple tableur
bootstrap.odsI
De même, dans chaque échantillon bootstrap, on peut calculer des fonctions des estimations et des données
I Par exemple, une élasticité⌘ˆe=H⇣
Ye,Xe,ˆe⌘
I L’intervalle de confiance pour l’élasticité est obtenu comme pour ˆ
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Types de bootstrap
I
Le bootstrap décrit est le bootstrap
non-paramétriqueou bootstrap
par pairesI on ré-échantillonne des paires(Y,X)de l’échantillon original
I 9
techniques de bootstrap où on va vouloir trouver juste de nouveaux
y:
yeI Boostrapparamétrique: on suppose p.e. quey ⇠n⇣ X✓,ˆ ⌃⌘ et on tire desye d’une telle normale
I Bootstraprésiduel: On ré-échantillonne les résidus yie =Xiˆ + ˆ✏ei
I
Le non-paramétrique est conceptuellement plus simple
I Mais les autres bootstraps permettent d’obtenir de meilleures approximations (aux intervalles de confiance ou autres)pour autant que leurs hypothèses soient satisfaites
Ch. 2. Inférence Classique & Bootstrap Inférence Bootstrap
Bootstrap par bloc
I
Lorsque les observations ne sont pas IID, les techniques précédentes ne sont plus valables
I parce qu’ellesdétruisentla corrélation entre observations
I L’échantillon bootstrap ne peut être considéré comme un nouvel échantillon
I Bootstrap est plus utile pour coupes transversales que pour séries chronologiques
I Bootstrap par bloc
I On coupe l’échantillon enr blocs de longueurl de telle sorte querl'N (pas nécessaire exactement car peut ne pas tomber juste)
I On ré-échantillonne sur ces blocs seulement (pas par observation)
I Les blocs deviennent donc indépendants, mais la corrélation est préservée à l’intérieur
I
Application en particulier en panel
Ch. 2. Inférence Classique & Bootstrap Bootstrap : Exemple
Table des matières
Ch. 2. Inférence Classique & Bootstrap Motivation
Inférence classique
Inférence classique : exemple Inférence Bootstrap
Bootstrap : Exemple
Comparaison bootstrap / classique
Ch. 2. Inférence Classique & Bootstrap Bootstrap : Exemple
Bootstrap dans Gretl
I
Avant les ordinateurs modernes, le bootstrap était impossible
I
Après estimation, dans le menu “Analyse”, la commande
“Bootstrap” permet de calculer
I Un IC pour chaque coefficient et pour chaque t
I Par bootstrap résiduel
I Exemple airq.gdt
I
Gretl a une commande spéciale
resampleI genr xr = resample(x) crée une nouvelle sérieXR par ré-échantillonnage deX oùX peut être une matrice ou un vecteur
I SiXest une matrice, resample est le bootstrap par paire
I Illustration avec les données airq.gdt (Verbeek) : observations pour 30 “standard metropolitan statistical areas” = villes (SMSAs) en Californie en 1972
Ch. 2. Inférence Classique & Bootstrap Bootstrap : Exemple
Programmation d’un bootstrap par paire dans Gretl
(pour ceux que ça intéresse, hors examen)
Ch. 2. Inférence Classique & Bootstrap Comparaison bootstrap / classique
Table des matières
Ch. 2. Inférence Classique & Bootstrap Motivation
Inférence classique
Inférence classique : exemple Inférence Bootstrap
Bootstrap : Exemple
Comparaison bootstrap / classique
Ch. 2. Inférence Classique & Bootstrap Comparaison bootstrap / classique
Comparaison Bootstrap / Classique
Bootstrap Classique
IID & médiocrité IID & normalité H0 : i =0
Distribution empirique des ˆs
i
Stat de testt = ˆi/
s diagi
✓\
V⇣ ˆ⌘◆
⇠tn k si H0 est vraie
RH0 si 062h ˆs
i,.025, ˆs
i,.975
i RH0 sit62[tn k,.025,tn k,.975]
Ch. 2. Inférence Classique & Bootstrap Comparaison bootstrap / classique
Cas asymptotique n ! 1
I
Lorsque les observations sont très nombreuses, plusieurs centaines au moins
I Les coefficients estimés sont (presque toujours) asymptotiquement⇠n()
I L’inférence classique ne dépend donc de l’hypothèse de normalité des erreurs que pour les petits échantillons
I
L’avantage du bootstrap est moindre lorsque
n ! 1I Bootstrap reste valable en présence de certaines ruptures des hypothèses du MRL, alors que l’inférence classique non
Ch. 2. Inférence Classique & Bootstrap Comparaison bootstrap / classique
Devoir #2 : bootstrap
I
Prendre un échantillon réel de Gretl
I
Estimer un modèle MCO
I
Calculez les intervalles de confiance empiriques des
ˆI Comparer avec les intervalles de confiance classiques (sorties standards) : est-ce que vous obtenez les mêmes conclusions ?
I
Estimer les t-stats par bootstrap en calculant l’écart-type de la distribution empirique des
ˆI Comparez avec les t-stats classiques : est-ce qu’elles sont proches ? Aboutissent-elles aux mêmes conclusions ?
I En général, ça dépendra de votre échantillon
I Il n’y a pas de réponse universelle