• Aucun résultat trouvé

1.2 Estimation de l’écart-type de la moyenne

N/A
N/A
Protected

Academic year: 2022

Partager "1.2 Estimation de l’écart-type de la moyenne"

Copied!
3
0
0

Texte intégral

(1)

1 Introduction au bootstrap

Introduction au bootstrap

Résumé

Présentation succincte du principe du bootstrap.

Retour auplan du cours

1 Introduction

La motivation dubootstrap1 (Efron, 1982 ; Efron et Tibshirani, 1993) est d’approcher par simulation (Monte Carlo) la distribution d’un estimateur lorsque l’on ne connaît pas la loi de l’échantillon ou, plus souvent lorsque l’on ne peut pas supposer qu’elle est gaussienne. L’objectif est de remplacer des hypothèses probabilistes pas toujours vérifiées ou même invérifiables par des simulations et donc beaucoup de calcul.

Le principe fondamental de cette technique de ré-échantillonnage est de sub- stituer à la distribution de probabilité inconnueF, dont est issu l’échantillon d’apprentissage, la distribution empiriqueFbqui donne un poids1/nà chaque réalisation. Ainsi on obtient un échantillon de taillenditéchantillon bootstrap selon la distribution empiriqueFbparntirages aléatoires avec remise parmi les nobservations initiales.

Il est facile de construire un grand nombre d’échantillons bootstrap sur lesquels calculer l’estimateur concerné. La loi simulée de cet estimateur est une approximation asymptotiquement convergente sous des hypothèses rai- sonnables2de la loi de l’estimateur. Cette approximation fournit ainsi des es- timations du biais, de la variance, donc d’un risque quadratique, et même des intervalles de confiance de l’estimateur sans hypothèse (normalité) sur la vraie loi.

1. Cette appellation est inspirée du baron de Münchhausen (Rudolph Erich Raspe) qui se sortit de sables mouvants par traction sur sestirants de bottes. En France “bootstrap” est parfois traduit parà la Cyrano(acte III, scène 13) en référence à ce héros qui prévoyait d’atteindre la lune en se plaçant sur une plaque de fer et en itérant le jet d’un aimant.

2. Échantillon indépendant de même loi et estimateur indépendant de l’ordre des observations.

1.1 Principe du plug-in

Soitx = {x1, . . . , xn} un échantillon de taillen issue d’une loi incon- nueF sur (Ω,A). On appelleloi empiriqueFb la loi discrète des singletons (x1, . . . , xn)affectés des poids1/n:

Fb=

n

X

i=1

δxi.

SoitA∈ A,PF(A)est estimée par :

b(P)F(A) =P

Fb(A) =

n

X

i=1

δxi(A) = 1

nCardxi∈A.

De manière plus générale, soitθun paramètre dont on suppose que c’est une fonction de la loiF. on écrit doncθ=t(F). Par exemple,µ =E(F)est un paramètre deFsuivant ce modèle. Unestatistiqueest une fonction (mesurable) de l’échantillon. Avec le même exemple :

µb=x= 1 n

n

X

i=1

xi

etxest la statistique qui estimeµ. On dit que c’est un estimateur “plug-in” et, plus généralement,

DÉFINITION1. — On appelle estimateurplug-ind’un paramètreθdeF, l’es- timateur obtenu en remplaçant la loiF par la loi empirique :

bθ=t(Fb).

comme dans le cas de l’estimation deµ:µb=E(Fb) =x.

1.2 Estimation de l’écart-type de la moyenne

SoitX une variable aléatoire réelle de loiF. On pose :

µF =EF(X), et σF2 =VarF(X) =EF[(X−µF)2];

(2)

2 Introduction au bootstrap

Ce qui s’écrit :

X ∼(µF, σF2).

Soit(X1, . . . , Xn)nvariables aléatoires i.i.d. suivant aussi la loiF. Posons X= n1Pn

i=1Xi. Cette variable aléatoire a pour espéranceµFet pour variance σF2/n. On dit aussi que la statistique

X∼(µF, σF2/n).

Remarquons qu’en moyennant plusieurs valeurs ou observations, on réduit la variance inhérente à une observation. De plus, sous certaines conditions sur la loiF et comme résultat du théorème de la limite centrale,X converge en loi vers la loi normale.

L’estimateur plug-in deσF est défini par : bσ2 = σcF

22

Fb=Var

Fb(X)

= E

Fb[(X−E

Fb(X))2] = 1 n

n

X

i=1

(Xi−X)2.

L’estimateur plug-in deσFest (légèrement) différent de celui du maximum de vraisemblance. L’estimateur plug-in est en général biaisé mais il a l’avantage d’être simple et de pouvoir s’appliquer à tout paramètreθmême lorsque l’on ne peut pas calculer la vraisemblance du modèle.

2 Estimation bootstrap d’un écart-type

Soitθb=s(x)un estimateur quelconque (M.V. ou autre) deθpour un échan- tillonxdonné. On cherche à apprécier la précision deθbet donc à estimer son écart-type.

2.1 Échantillon bootstrap

Avec les mêmes notations,Fbest la distribution empirique d’un échantillon x={x1, . . . , xn}.

DÉFINITION2. — On appelleéchantillon bootstrap dexun échantillon de taillennoté

x={x1, . . . , xn}

suivant la loiFb;xest un ré-échantillon dexavec remise.

2.2 Estimation d’un écart-type

DÉFINITION3. — On appelleestimation bootstrapde l’écart-typeσcF(bθ)de bθ, son estimation plug-in :σ

Fb(bθ).

Mais, à part dans le cas très élémentaire où, comme dans l’exemple ci-dessus, θest une moyenne, il n’y a pas de formule explicite de cet estimateur. Une ap- proximation de l’estimateur bootstrap (ou plug-in) de l’écart-type deθbest ob- tenue par une simulation (Monte-Carlo) décrite dans l’algorithme ci-dessous.

Pour un paramètreθet un échantillonxdonnés, on noteθb= s(x)l’esti- mation obtenue sur cet échantillon. Uneréplication bootstrapdeθbest donnée par :θb=s(x).

ALGORITHME1 : Estimation de l’écart-type Soitxun échantillon etθun paramètre.

forb= 1àBdo

Sélectionner 1 échantillon bootstrapx∗b = {x∗b1 , . . . , x∗bn}. par tirage avec remise dansx.

Estimer sur cet échantillon :θb(b) =s(x∗b).

end for

Calculer l’écart-type de l’échantillon ainsi construit :

B2 = 1 B−1

B

X

b=1

(bθ(b)−θb(.))2

avec θb(.) = 1 B

B

X

b=1

(bθ(b).

B est l’approximation bootstrap de l’estimation plug-in recherchée de l’écart-type deθ.b

2.3 Estimation du biais

Avec les mêmes notations :

θ=t(F) et θb=s(x),

(3)

3 Introduction au bootstrap

le biais d’un estimateur s’exprime comme

BF(bθ) =EF[s(x)]−t(F).

Un estimateur est sans biais siE[bθ] = θ. Le biais est aussi une mesure de la précision d’un estimateur et on a vu que, généralement, les estimateurs plug-in étaient biaisés.

DÉFINITION4. — On appelle estimateur bootstrap du biais, l’estimateur plug-in :

BcF(bθ) =B

Fb(bθ) =E

Fb[s(x)]−t(F).b

Comme pour l’écart-type, il n’existe généralement pas d’expression analytique et il faut avoir recours à une approximation par simulation.

ALGORITHME2 : Estimation bootstrap du biais Soitxun échantillon etθun paramètre.

forb= 1àBdo

Sélectionner 1 échantillon bootstrapx∗b = {x∗b1 , . . . , x∗bn}. par tirage avec remise dansx.

Estimer sur cet échantillon la réplication bootstrap deθb:θb(b) =s(x∗b).

end for ApprocherE

Fb[s(x)]parθb(.) = B1 PB

b=1(bθ(b)

L’approximation bootstrap du biais est :BcB(bθ) =bθ(.)−θ.b

3 Compléments

En résumé, on peut dire que le bootstrap repose sur une hypothèse très élé- mentaire :bθse comporte par rapport àθbcommeθbpar rapport àθ. La connais- sance deθb(distribution, variance, biais. . . ) renseigne alors sur celle debθ.

Beaucoup d’autres compléments sont à rechercher dans la littérature et en particulier dans Efron et Tibshirani (1993). Il est ainsi possible de définir des intervalles de confiance bootstrap en considérant la distribution et les quan- tiles deθb ou même encore des tests à partir des versions bootstrap de leur statistique.

Le bootstrap rapidement décrit ici est dit “non-paramétrique” car la loi em- piriqueFbest une estimation non-paramétrique deF. Dans le cas oùF serait connue à un paramètre près, il existe également une version diteparamétrique du bootstrap.

Pour des estimateurs plus compliqués (fonctionnels) comme dans le cas de la régression non-paramétrique par noyau ou spline, il est facile de construire graphiquement une enveloppe bootstrap de l’estimateur à partir de réplications de l’échantillon. Celle-ci fournit généralement une bonne appréciation de la qualité de l’estimateur obtenu. Attention, dans le cas de la régression il est en principe plus justifié de répliquer le tirage sur lesrésidusplutôt que sur les observations. Ce sont les résidus qui sont en effet supposés i.i.d. et qui vérifient donc les hypothèses nécessaires mais cette approche devient très sensible à l’hypothèse sur la validité du modèle. Il est finalement d’usage de considérer un échantillon bootstrap issu des données initiales (Efron et Tibshirani) :

z∗b={(x∗b1 , y1∗b), . . . ,(x∗bn, yn∗b)};

c’est ce qui a été choisi dans ce document.

Enfin, l’estimation bootstrap est justifiée par des propriétés asymptotiques (convergence en loi) lorsque le nombre de réplications (B) croit conjointement avec la taille de l’échantillon (n). Comme la loi empiriqueFbconverge (en loi) vers celle théorique, la distribution du paramètreθb= t(Fb)converge (en loi) vers celle théorique deθ=t(F).b

Références

Documents relatifs

Cette m´ ethode repose sur la loi des grands nombres. Montrer que cet estimateur peut s’´ ecrire comme la moyenne empirique de n variables al´ eatoires ind´ ependantes et

Monte Carlo MC simulation is widely used to estimate the expectation E[X ] of a random variable X and compute a con dence interval on E[X ]... What this talk

Quasi-Monte Carlo QMC and randomized QMC RQMC methods have been studied extensively for estimating an integral, say E[X ], and for approximating a function from its evaluation at

Au lieu d’approximer les fonctions Qk par régression, il est possible d’approximer à la place les fonctions µk , i.e., les frontières qui délimitent les régions

El  bootstrap  como  método  fue  conceptualizado  y  descrito  sistemáticamente  por  Efron  (1979)  y  Efron  y  Tibshirani  (1993),  aunque  se ha  señalado 

[r]

• Le troisième quartile Q 3 est la plus petite valeur pour laquelle on atteint ou dépasse 75% ; Exemple Imaginons que l’on ait le tableau statistique suivant :.. Valeurs 3 5 6 8 11

Définition Le premier quartile est la plus petite valeur du caractère notée Q 1 qui fait atteindre ou dépasser le quart des effectifs cummulés croissants.. Le troisième quartile est