Ch. 2. Bootstrap 2016-17
Statistiques non-paramétriques
M2 CEE
Pr. Philippe Polomé, Université Lumière Lyon 2
2016 – 2017
Ch. 2. Bootstrap 2016-17 Définitions
Sommaire
Définitions
Illustration
Ch. 2. Bootstrap 2016-17 Définitions
Bootstrap
I
Hyp. Bootstrap :
I Si on pouvaitré-échantillonner la pop. dans les mêmes conditions, on obtiendrait un échantillon semblable à celui qu’on a déjà
I “Principe de médiocrité”
I Pas la même chose que représentativité I
Principe (et 2nde hyp.)
I Traiter l’éch. comme une pop.
I Échantillonner l’échantillon de taillenavec remplacement
I S’appelle “Bootstrap par paire” cary etX sont tirés ensemble
I soitntirages, chaquei a une probabilité 1/nde sortir à chaque tirage
I On obtient unéchantillon Bootstrap(de taillen)
I Certaines obs. sont tirées pls fois, d’autres aucune
I Hyp. : semblable à ce qu’on aurait obtenu en ré-échantillonnant la pop.
Ch. 2. Bootstrap 2016-17 Définitions
Intervalle de confiance
I
Repliquer ce processus
Bfois
I B pseudo-échantillonsdifférents <Yb,Xb>
I
Pour chaque pseudo-échantillon
I On prend le MRLY =X +✏
I On calcule un vecteur de valeur estimées ˆB
I
Si, on prend un élément de , soit
iI On aB estimations ˆib
I SoitB=1000
I On ordonne ces 1000 estimations de la plus petite à la plurs grande.
I Alors les estimations numéro 25 et 975 sont les bornes inf et sup, repsectivement, de l’intervalle de confiance à 95%de
I var\⇣ ˆib⌘
=B11 XB b=1
⇣ˆib ¯ˆi⌘2
I ¯ˆi = B1 XB
b=1
ˆib=E\⇣ ˆib⌘
Ch. 2. Bootstrap 2016-17 Définitions
Pourquoi est-ce intéressant ?
1.
Pas d’hypothèse sur la distribution des erreurs
1.1 Mais il ne peut y avoir de corrélation entre observations 1.2 En panels, on ré-échantillonne seulement suri
I en utilisanttouteslesT périodes de chaquei sélectionné
2.
On peut calculer des intervales de confiance
2.1 pour toute fonction des paramètres estimés, y-compris non-linéaire
2.2 pour des paramètres estimés de modèles sans propriétés d’échantillons finis connues
I comme np
I
Note : le bootstrap par paires
<Yb,Xb >I N’est pas la seule façon
I p.e. on peut se baser sur les résidus
I Devrait donner des Pairs bootstrap should give reliable standard errors even in the presence of (conditional) heteroskedasticity
Ch. 2. Bootstrap 2016-17 Illustration
Sommaire
Définitions
Illustration
Ch. 2. Bootstrap 2016-17 Illustration
Exemple du package AER, Journals
I
On veut calculer des écarts-types & des intervales de confiance
I
data("Journals")
I
journals <- Journals[, c("subs", "price")]
I
journals$citeprice <- Journals$price/Journals$citations
I
jour_lm <- lm(log(subs) ~ log(citeprice), data = journals)
Ch. 2. Bootstrap 2016-17 Illustration
La commande boot( )
I
Le bootstrap dans R
I utilise la commandeboot( )du package boot
I Elle accepte pls arguments,
I desquels 3 sont requis : I
Data : les données
I
Statistic : une fonction à définir qui renvoie la stat à
“bootstrapper”
I avec 2 arguments
I Les données (une nouvelle fois !)
I Un vecteur index qui donne les indices des obs à inclure dans l’échantillon bootstrap
I
R : le nombre de réplication
I B dans la présentation théorique
Ch. 2. Bootstrap 2016-17 Illustration
Construction de la fonction pour l’arg. “statistic” de boot( )
reestim <- function(data, i)
I
Se rappeler que dans une
fonctionil ne faut qu’énoncer les arguments
I Ce que la fonction fait est décrit en dessous
I
coef(lm(log(subs) ~ log(citeprice), data = data[i,]))
I reestimest définie pour les besoins deboot( )
I sur les données et sur un index i des données
I Icireestimrenvoie lescoefficients MCO delog(subs) ~ log(citeprice)
I et utilise comme indexile num. de la ligne des données
I pas MCO sur la lignei
I Donc, la fonctionboot( )prend icomme index du bootstrap
I Dans chaque réplication bootstrap, un nouvel éch. extrait des lignes dedata
Tout ça n’est pas très intuitif,
I
mais c’est le format de boot( )
Ch. 2. Bootstrap 2016-17 Illustration
Appeler boot( )
I
library("boot")
I boot est le package recommandé pour le bootstrap
I
set.seed(123)
I
jour_boot <- boot(journals, reestim, R = 999)
I boot : 3 arg – données, fonction, B
I
jour_boot montre comme résultats :
I Les coef du lm original
I La différence avec la moyenne des coeffissus du bootstrap
I Les écarts-types de ces derniers
I Desquels on peut calculer les t-stats bootstrappés I
Peu de différence avec la sortie standard coeftest(jour_lm)
Ch. 2. Bootstrap 2016-17 Illustration
Conclusion
I
Le bootstrap
I Très flexible
I Mais très gourmand en puissance informatique
I Dans les régressions np que ch suivant, il est la seule technique d’inférence