Statistiques non-paramétriques

(1)

Ch. 2. Bootstrap 2016-17

Statistiques non-paramétriques

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

2016 – 2017

(2)

Ch. 2. Bootstrap 2016-17 Définitions

Sommaire

Définitions

Illustration

(3)

Bootstrap

I

Hyp. Bootstrap :

I Si on pouvaitré-échantillonner la pop. dans les mêmes conditions, on obtiendrait un échantillon semblable à celui qu’on a déjà

I “Principe de médiocrité”

I Pas la même chose que représentativité I

Principe (et 2nde hyp.)

I Traiter l’éch. comme une pop.

I Échantillonner l’échantillon de taillenavec remplacement

I S’appelle “Bootstrap par paire” cary etX sont tirés ensemble

I soitntirages, chaquei a une probabilité 1/nde sortir à chaque tirage

I On obtient unéchantillon Bootstrap(de taillen)

I Certaines obs. sont tirées pls fois, d’autres aucune

I Hyp. : semblable à ce qu’on aurait obtenu en ré-échantillonnant la pop.

(4)

Intervalle de confiance

I

Repliquer ce processus

B

fois

I B pseudo-échantillonsdiﬀérents <Y_b,X_b>

I

Pour chaque pseudo-échantillon

I On prend le MRLY =X +✏

I On calcule un vecteur de valeur estimées ˆ_B

I

Si, on prend un élément de , soit

i

I On aB estimations ˆ_ib

I SoitB=1000

I On ordonne ces 1000 estimations de la plus petite à la plurs grande.

I Alors les estimations numéro 25 et 975 sont les bornes inf et sup, repsectivement, de l’intervalle de confiance à 95%de

I var\⇣ ˆ_ib⌘

=_B¹₁ XB b=1

⇣ˆ_ib ¯ˆ_i⌘2

I ¯ˆ_i = _B¹ XB

b=1

ˆ_ib=E\⇣ ˆ_ib⌘

(5)

Pourquoi est-ce intéressant ?

1.

Pas d’hypothèse sur la distribution des erreurs

1.1 Mais il ne peut y avoir de corrélation entre observations 1.2 En panels, on ré-échantillonne seulement suri

I en utilisanttouteslesT périodes de chaquei sélectionné

2.

On peut calculer des intervales de confiance

2.1 pour toute fonction des paramètres estimés, y-compris non-linéaire

2.2 pour des paramètres estimés de modèles sans propriétés d’échantillons finis connues

I comme np

I

Note : le bootstrap par paires

<Yb,Xb >

I N’est pas la seule façon

I p.e. on peut se baser sur les résidus

I Devrait donner des Pairs bootstrap should give reliable standard errors even in the presence of (conditional) heteroskedasticity

(6)

Ch. 2. Bootstrap 2016-17 Illustration

Sommaire

Définitions

Illustration

(7)

Exemple du package AER, Journals

I

On veut calculer des écarts-types & des intervales de confiance

I

data("Journals")

I

journals <- Journals[, c("subs", "price")]

I

journals$citeprice <- Journals$price/Journals$citations

I

jour_lm <- lm(log(subs) ~ log(citeprice), data = journals)

(8)

La commande boot( )

I

Le bootstrap dans R

I utilise la commandeboot( )du package boot

I Elle accepte pls arguments,

I desquels 3 sont requis : I

Data : les données

I

Statistic : une fonction à définir qui renvoie la stat à

“bootstrapper”

I avec 2 arguments

I Les données (une nouvelle fois !)

I Un vecteur index qui donne les indices des obs à inclure dans l’échantillon bootstrap

I

R : le nombre de réplication

I B dans la présentation théorique

(9)

Construction de la fonction pour l’arg. “statistic” de boot( )

reestim <- function(data, i)

I

Se rappeler que dans une

fonction

il ne faut qu’énoncer les arguments

I Ce que la fonction fait est décrit en dessous

I

coef(lm(log(subs) ~ log(citeprice), data = data[i,]))

I reestimest définie pour les besoins deboot( )

I sur les données et sur un index i des données

I Icireestimrenvoie lescoefficients MCO delog(subs) ~ log(citeprice)

I et utilise comme indexile num. de la ligne des données

I pas MCO sur la lignei

I Donc, la fonctionboot( )prend icomme index du bootstrap

I Dans chaque réplication bootstrap, un nouvel éch. extrait des lignes dedata

Tout ça n’est pas très intuitif,

I

mais c’est le format de boot( )

(10)

Appeler boot( )

I

library("boot")

I boot est le package recommandé pour le bootstrap

I

set.seed(123)

I

jour_boot <- boot(journals, reestim, R = 999)

I boot : 3 arg – données, fonction, B

I

jour_boot montre comme résultats :

I Les coef du lm original

I La diﬀérence avec la moyenne des coeﬀissus du bootstrap

I Les écarts-types de ces derniers

I Desquels on peut calculer les t-stats bootstrappés I

Peu de diﬀérence avec la sortie standard coeftest(jour_lm)

(11)

Conclusion

I

Le bootstrap

I Très flexible

I Mais très gourmand en puissance informatique

I Dans les régressions np que ch suivant, il est la seule technique d’inférence