• Aucun résultat trouvé

La m´ ethode du jackknife

Dans le document Statistique La théorie et ses applications (Page 188-192)

8.4 Les m´ ethodes de r´ e´ echantillonnage

8.4.2 La m´ ethode du jackknife

Nous illustrons d’abord le principe du jackknife pour l’estimation de l’´ ecart-typeσde la loi. Soit l’estimateur de r´ef´erence :

S=√ S2=

12 23 1

n−1 n i=1

(Xi−X)2

qui est g´en´eralement biais´e (voir exercice 6.4 pour le cas de la loi de Gauss) et soit s l’estimation correspondante pour une r´ealisation x1, x2,· · ·, xn de l’´echantillon. L’estimation du jackknife est obtenue de la fa¸con suivante.

On calcule la valeur, not´ee s−1,de l’´ecart-type du sous-´echantillon obtenu enomettant la valeurx1:

s−1= 12 23 1

n−2 n i=2

(xi−x)2,

puis la valeur s∗1 = ns−(n−1)s−1. On r´ep`ete cette op´eration en omet-tant `a tour de rˆole chacune des observations pour obtenir n pseudo-valeurs

s∗1, s∗2,· · · , s∗n avec, donc : s−i =

12 23 1

n−2 n j=1,j =i

(xj−x)2 s∗i =ns−(n−1)s−i.

L’estimation du jackknife est alors la moyenne des pseudo-valeurs, not´ees. Un intervalle de confiance approch´e peut ˆetre obtenu en appliquant `a la s´erie desnpseudo-valeurs le r´esultat de la section 6.4.1 concernant la moyenne d’un

´

echantillon al´eatoire gaussien. Ainsi on calcule la variance des pseudo-valeurs : s2JK= 1

n−1 n i=1

(s∗i−s)2, d’o`u :

IC0,95(σ)[s−t(n−1)0,975 sJK

√n , s+t(n−1)0,975 sJK

√n].

De fa¸con g´en´erale soitω une caract´eristique de la loi etTn un estimateur convergent deω,typiquement l’estimateur du maximum de vraisemblance. Soit Tn−i l’estimateur calcul´e en omettantXi. On d´efinit les pseudo-valeurs :

Tn∗i=nTn−(n−1)Tn−i, i= 1, . . . , n.

L’estimateur du jackknife fond´e surTn est alors Tn= n1n

i=1Tn∗i.

Comme il a ´et´e dit en introduction cet estimateur a ´et´e propos´e `a l’origine pour r´eduire le biais ´eventuel de Tn, en vertu du r´esultat suivant.

Proposition 8.2 Si le biais deTn est de la forme nc, o`u c est une constante, alorsTn,l’estimateur du jackknife fond´e surTn,est sans biais.

En effet, comme E(Tn) = ω+ nc, on a, pour tout i, E(Tn−i) = ω +n−1c puisqueTn−i est le mˆeme estimateur appliqu´e au (n−1)−´echantillon al´eatoire X1, . . . , Xi−1, Xi+1, . . . , Xn.Ainsi :

E(Tn∗i) =nE(Tn)−(n−1)E(Tn−i)

=nω+c−(n−1)[ω+ c n−1]

=ω , d’o`u E(Tn) = 1nn

i=1E(Tn∗i) =ω.

Si le biais est de la forme cn1+nc22+nc33 +· · · on montre ais´ement de la mˆeme fa¸con que le premier terme disparaˆıt dans le biais de Tn. Par cons´equent, au

moins pour des situations de ce type, il y a r´eduction de biais. Si l’on applique, par exemple, la proc´edure du jackknife `a la variance empiriqueS'n2 dont le biais pour estimerσ2est−n1σ2(voir proposition 5.2), on trouve que l’estimateur du jackknife est la variance de l’´echantillonSn2 qui est sans biais (voir exercices).

Notons incidemment que pour l’estimateur Xn de la moyenne μ qui est sans biais, l’estimateur du jackknife estXn lui-mˆeme.

En g´en´eral, la loi ´etant totalement inconnue, on ne connaˆıt pas la forme du biais (comme par exemple pour l’´ecart-typeS dans l’illustration ci-dessus), mais on s’attend `a ce qu’il soit de toute fa¸con r´eduit par la proc´edure d´ecrite.

Outre la r´eduction du biais, l’int´erˆet du jackknife, primordial ici, est de permettre l’estimation de l’´ecart-type deTn et la possibilit´e de construire un intervalle de confiance approch´e. La proposition qui suit va nous y conduire.

Proposition 8.3 Soit Tn l’estimateur du jackknife de la caract´eristique ω, reposant sur un estimateur convergentTn,et soitSn,JK2 la variance des pseudo-valeurs.Alors, sous certaines conditions concernant la forme de la statistique :

Tn−ω Sn,JK/√ n

−→L

n→∞ N(0 ; 1).

Nous admettrons cette proposition. Elle r´esulte du fait que les pseudo-valeurs tendent `a ˆetre ind´ependantes et gaussiennes pour une grande vari´et´e de statistiques. En appliquant l’intervalle de confiance de la section 7.4.1 pour la moyenne de v.a. i.i.d. gaussiennes, on d´eduit l’intervalle de confiance approch´e pourω :

IC0,975(ω)[tn−t(n−1)0,975 sn,JK

√n , tn+t(n−1)0,975 sn,JK

√n ], o`utn etsn,JK sont les r´ealisations respectives deTn et deSn,JK.

Ceci s’applique, en particulier, `a l’´ecart-type comme nous l’avons vu plus haut (voir une application dans les exercices) et ´egalement pour estimer la varianceσ2.Dans ce dernier cas, en prenant l’estimateur du jackknife reposant sur la variance empirique S'2, on ´etablit que la variance des pseudo-valeurs Sn,JK2 est ´egale `a :

n3

(n−1)(n−2)2(M4−S'4),

ce qui conduit `a une proc´edure d’intervalle de confiance tr`es proche (et asymp-totiquement ´equivalente) de l’approche asymptotique propos´ee en section 8.2.2.

En effet, dans cette approche, on trouvait simplementM4−S4en lieu et place de l’expression ci-dessus.

Les conditions de validit´e de la proposition ne sont pas simples `a expliciter.

Si la statistique est de la formen1n

i=1g(Xi) o`ugest une fonction quelconque,

alors la proposition est v´erifi´ee. C’est le cas de tous les moments simples. Si la forme est proche cela reste vrai, comme par exemple pour les moments centr´es, en particulier pour la variance empirique, et aussi pour l’´ecart-type.

En revanche, la m´ediane qui, dans sa version th´eorique, s’exprime parF−1(12) a une forme tr`es ´eloign´ee. Le jackknife est alors inadapt´e carSn,JK ne converge pas vers la valeur de l’´ecart-type de la m´ediane. Il en va de mˆeme pour d’autres statistiques fonctions des statistiques d’ordres : quantiles, ´etendueX(n)−X(1), distance interquartiles.

Note 8.3 Pour pr´eciser quelque peu le domaine de validit´e du jackknife exprimons une caract´eristiqueω comme une expression fonctionnelleω(F). Une fonctionnelle est dite lin´eaire siω(a1F1+a2F2) =a1ω(F1) +a2ω(F2). Dans ce cas on montre queω(F)est de la forme :

ω(F) =

R

g(x)dF(x) =EF(g(X)).

Pour la statistique correspondante ω(Fn) du maximum de vraisemblance cela se traduit par n1n

i=1g(Xi).Ceci est ´evidemment le cas de la moyenne empirique et de tout autre moment empirique non centr´e.

Un moment centr´e n’est pas strictement de cette forme. Par exemple la variance EF([X −EF(X)]2) est l’esp´erance d’une fonction qui d´epend elle-mˆeme deF. La condition pour que le jackknife soit op´erant au niveau de la convergence de Sn,JK est que la caract´eristique, et donc la statistique du MV, soit une fonctionnelle lin´eaire ou pouvant ˆetre raisonnablement approch´ee par une fonctionnelle lin´eaire. Ceci est r´ealisable pour la variance empirique (qui est une fonctionnelle quadratique) mais pas dans le cas de la m´ediane qui est trop fortement non lin´eaire.

Le jackknife peut ˆetre utilis´e pour des couples (et desn-uplets) de v.a., par exemple pour la corr´elation entre deux variables, pour la moyenne du ratio de deux variables. Il s’´etend ´egalement `a des situations autres que des ´echantillons al´eatoires simples. Par ailleurs, diff´erentes variantes du jackknife initial ont ´et´e propos´ees. En particulier, pour de tr`es grands ´echantillons, il est pratiquement aussi efficace de l’appliquer en omettant non pas chaque observation mais des groupes de k observations, ceci afin d’acc´el´erer les calculs. Dans le cas de la m´ediane le fait de grouper les observations avec k de l’ordre de √

n permet mˆeme d’assurer la convergence selon la proposition 8.3 et donc d’appliquer l’intervalle de confiance qui en d´ecoule.

Rien ne s’oppose `a ce qu’on utilise cette m´ethode dans un cadre param´ e-trique pour des fonctions du param`etre complexes. Par exemple on pourra estimer e−λ, la probabilit´e qu’il n’y ait aucune occurrence dans une unit´e de temps pour une loi de Poisson, en se fondant sur l’estimateur du maximum de vraisemblance e−X (ceci est `a rapprocher de l’exemple 6.13).

En ce qui concerne l’approximation asymptotique de l’intervalle de confiance issu du jackknife il est difficile de savoir `a partir de quelle taille d’´echantillon

elle devient satisfaisante. Pour les petits ´echantillons le bootstrap offre une alternative plus sˆure.

Dans le document Statistique La théorie et ses applications (Page 188-192)