• Aucun résultat trouvé

Statistiques non-paramétriques

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques non-paramétriques"

Copied!
11
0
0

Texte intégral

(1)

Ch. 2. Bootstrap 2016-17

Statistiques non-paramétriques

M2 CEE

Pr. Philippe Polomé, Université Lumière Lyon 2

2016 – 2017

(2)

Ch. 2. Bootstrap 2016-17 Définitions

Sommaire

Définitions

Illustration

(3)

Ch. 2. Bootstrap 2016-17 Définitions

Bootstrap

I

Hyp. Bootstrap :

I Si on pouvaitré-échantillonner la pop. dans les mêmes conditions, on obtiendrait un échantillon semblable à celui qu’on a déjà

I “Principe de médiocrité”

I Pas la même chose que représentativité I

Principe (et 2nde hyp.)

I Traiter l’éch. comme une pop.

I Échantillonner l’échantillon de taillenavec remplacement

I S’appelle “Bootstrap par paire” cary etX sont tirés ensemble

I soitntirages, chaquei a une probabilité 1/nde sortir à chaque tirage

I On obtient unéchantillon Bootstrap(de taillen)

I Certaines obs. sont tirées pls fois, d’autres aucune

I Hyp. : semblable à ce qu’on aurait obtenu en ré-échantillonnant la pop.

(4)

Ch. 2. Bootstrap 2016-17 Définitions

Intervalle de confiance

I

Repliquer ce processus

B

fois

I B pseudo-échantillonsdifférents <Yb,Xb>

I

Pour chaque pseudo-échantillon

I On prend le MRLY =X +✏

I On calcule un vecteur de valeur estimées ˆB

I

Si, on prend un élément de , soit

i

I On aB estimations ˆib

I SoitB=1000

I On ordonne ces 1000 estimations de la plus petite à la plurs grande.

I Alors les estimations numéro 25 et 975 sont les bornes inf et sup, repsectivement, de l’intervalle de confiance à 95%de

I var\⇣ ˆib

=B11 XB b=1

⇣ˆib ¯ˆi2

I ¯ˆi = B1 XB

b=1

ˆib=E\⇣ ˆib

(5)

Ch. 2. Bootstrap 2016-17 Définitions

Pourquoi est-ce intéressant ?

1.

Pas d’hypothèse sur la distribution des erreurs

1.1 Mais il ne peut y avoir de corrélation entre observations 1.2 En panels, on ré-échantillonne seulement suri

I en utilisanttouteslesT périodes de chaquei sélectionné

2.

On peut calculer des intervales de confiance

2.1 pour toute fonction des paramètres estimés, y-compris non-linéaire

2.2 pour des paramètres estimés de modèles sans propriétés d’échantillons finis connues

I comme np

I

Note : le bootstrap par paires

<Yb,Xb >

I N’est pas la seule façon

I p.e. on peut se baser sur les résidus

I Devrait donner des Pairs bootstrap should give reliable standard errors even in the presence of (conditional) heteroskedasticity

(6)

Ch. 2. Bootstrap 2016-17 Illustration

Sommaire

Définitions

Illustration

(7)

Ch. 2. Bootstrap 2016-17 Illustration

Exemple du package AER, Journals

I

On veut calculer des écarts-types & des intervales de confiance

I

data("Journals")

I

journals <- Journals[, c("subs", "price")]

I

journals$citeprice <- Journals$price/Journals$citations

I

jour_lm <- lm(log(subs) ~ log(citeprice), data = journals)

(8)

Ch. 2. Bootstrap 2016-17 Illustration

La commande boot( )

I

Le bootstrap dans R

I utilise la commandeboot( )du package boot

I Elle accepte pls arguments,

I desquels 3 sont requis : I

Data : les données

I

Statistic : une fonction à définir qui renvoie la stat à

“bootstrapper”

I avec 2 arguments

I Les données (une nouvelle fois !)

I Un vecteur index qui donne les indices des obs à inclure dans l’échantillon bootstrap

I

R : le nombre de réplication

I B dans la présentation théorique

(9)

Ch. 2. Bootstrap 2016-17 Illustration

Construction de la fonction pour l’arg. “statistic” de boot( )

reestim <- function(data, i)

I

Se rappeler que dans une

fonction

il ne faut qu’énoncer les arguments

I Ce que la fonction fait est décrit en dessous

I

coef(lm(log(subs) ~ log(citeprice), data = data[i,]))

I reestimest définie pour les besoins deboot( )

I sur les données et sur un index i des données

I Icireestimrenvoie lescoefficients MCO delog(subs) ~ log(citeprice)

I et utilise comme indexile num. de la ligne des données

I pas MCO sur la lignei

I Donc, la fonctionboot( )prend icomme index du bootstrap

I Dans chaque réplication bootstrap, un nouvel éch. extrait des lignes dedata

Tout ça n’est pas très intuitif,

I

mais c’est le format de boot( )

(10)

Ch. 2. Bootstrap 2016-17 Illustration

Appeler boot( )

I

library("boot")

I boot est le package recommandé pour le bootstrap

I

set.seed(123)

I

jour_boot <- boot(journals, reestim, R = 999)

I boot : 3 arg – données, fonction, B

I

jour_boot montre comme résultats :

I Les coef du lm original

I La différence avec la moyenne des coeffissus du bootstrap

I Les écarts-types de ces derniers

I Desquels on peut calculer les t-stats bootstrappés I

Peu de différence avec la sortie standard coeftest(jour_lm)

(11)

Ch. 2. Bootstrap 2016-17 Illustration

Conclusion

I

Le bootstrap

I Très flexible

I Mais très gourmand en puissance informatique

I Dans les régressions np que ch suivant, il est la seule technique d’inférence

Références

Documents relatifs

Déterminer les coordonnées du point H, projeté orthogonal du point A sur la droite (

[r]

Exprimer en fonction de x l’aire de chacune des deux zones (la coloriée et celle qui est

13 – Répartition des femmes du harem du Grand Protecteur de la Syldavie selon l’âge( Source : ministère syldave du travail- BO n°7 ) Les classes ici ne sont plus de même

x n,i est inconditionnellement convergente donc absolument convergente vu la premi`ere question et ceci pour tout i.. Comme chaque s´erie coordonn´ee est absolument convergente, on

Chaque valeur du caractère étudié ( ici le nombre d’enfants ) est représentée par un secteur circulaire dont l’aire ( donc la mesure de l’angle au centre ) est proportionnelle

Exemple : On a demand´e ` a 200 coll´egiens et coll´egiennes leur moyen de transport pour se rendre au coll`ege.. Voici le

I firme unique (help : unique renvoie un vecteur ou data frame comme son arg x mais en enlevant les lignes doublons, dans ce cas définies sur firm). I sample_firm