8.4 Les m´ ethodes de r´ e´ echantillonnage
8.4.2 La m´ ethode du jackknife
Nous illustrons d’abord le principe du jackknife pour l’estimation de l’´ ecart-typeσde la loi. Soit l’estimateur de r´ef´erence :
S=√ S2=
12 23 1
n−1 n i=1
(Xi−X)2
qui est g´en´eralement biais´e (voir exercice 6.4 pour le cas de la loi de Gauss) et soit s l’estimation correspondante pour une r´ealisation x1, x2,· · ·, xn de l’´echantillon. L’estimation du jackknife est obtenue de la fa¸con suivante.
On calcule la valeur, not´ee s−1,de l’´ecart-type du sous-´echantillon obtenu enomettant la valeurx1:
s−1= 12 23 1
n−2 n i=2
(xi−x)2,
puis la valeur s∗1 = ns−(n−1)s−1. On r´ep`ete cette op´eration en omet-tant `a tour de rˆole chacune des observations pour obtenir n pseudo-valeurs
s∗1, s∗2,· · · , s∗n avec, donc : s−i =
12 23 1
n−2 n j=1,j =i
(xj−x)2 s∗i =ns−(n−1)s−i.
L’estimation du jackknife est alors la moyenne des pseudo-valeurs, not´ees∗. Un intervalle de confiance approch´e peut ˆetre obtenu en appliquant `a la s´erie desnpseudo-valeurs le r´esultat de la section 6.4.1 concernant la moyenne d’un
´
echantillon al´eatoire gaussien. Ainsi on calcule la variance des pseudo-valeurs : s2JK= 1
n−1 n i=1
(s∗i−s∗)2, d’o`u :
IC0,95(σ)[s∗−t(n−1)0,975 sJK
√n , s∗+t(n−1)0,975 sJK
√n].
De fa¸con g´en´erale soitω une caract´eristique de la loi etTn un estimateur convergent deω,typiquement l’estimateur du maximum de vraisemblance. Soit Tn−i l’estimateur calcul´e en omettantXi. On d´efinit les pseudo-valeurs :
Tn∗i=nTn−(n−1)Tn−i, i= 1, . . . , n.
L’estimateur du jackknife fond´e surTn est alors Tn∗= n1n
i=1Tn∗i.
Comme il a ´et´e dit en introduction cet estimateur a ´et´e propos´e `a l’origine pour r´eduire le biais ´eventuel de Tn, en vertu du r´esultat suivant.
Proposition 8.2 Si le biais deTn est de la forme nc, o`u c est une constante, alorsTn∗,l’estimateur du jackknife fond´e surTn,est sans biais.
En effet, comme E(Tn) = ω+ nc, on a, pour tout i, E(Tn−i) = ω +n−1c puisqueTn−i est le mˆeme estimateur appliqu´e au (n−1)−´echantillon al´eatoire X1, . . . , Xi−1, Xi+1, . . . , Xn.Ainsi :
E(Tn∗i) =nE(Tn)−(n−1)E(Tn−i)
=nω+c−(n−1)[ω+ c n−1]
=ω , d’o`u E(Tn∗) = 1nn
i=1E(Tn∗i) =ω.
Si le biais est de la forme cn1+nc22+nc33 +· · · on montre ais´ement de la mˆeme fa¸con que le premier terme disparaˆıt dans le biais de Tn∗. Par cons´equent, au
moins pour des situations de ce type, il y a r´eduction de biais. Si l’on applique, par exemple, la proc´edure du jackknife `a la variance empiriqueS'n2 dont le biais pour estimerσ2est−n1σ2(voir proposition 5.2), on trouve que l’estimateur du jackknife est la variance de l’´echantillonSn2 qui est sans biais (voir exercices).
Notons incidemment que pour l’estimateur Xn de la moyenne μ qui est sans biais, l’estimateur du jackknife estXn lui-mˆeme.
En g´en´eral, la loi ´etant totalement inconnue, on ne connaˆıt pas la forme du biais (comme par exemple pour l’´ecart-typeS dans l’illustration ci-dessus), mais on s’attend `a ce qu’il soit de toute fa¸con r´eduit par la proc´edure d´ecrite.
Outre la r´eduction du biais, l’int´erˆet du jackknife, primordial ici, est de permettre l’estimation de l’´ecart-type deTn et la possibilit´e de construire un intervalle de confiance approch´e. La proposition qui suit va nous y conduire.
Proposition 8.3 Soit Tn∗ l’estimateur du jackknife de la caract´eristique ω, reposant sur un estimateur convergentTn,et soitSn,JK2 la variance des pseudo-valeurs.Alors, sous certaines conditions concernant la forme de la statistique :
Tn∗−ω Sn,JK/√ n
−→L
n→∞ N(0 ; 1).
Nous admettrons cette proposition. Elle r´esulte du fait que les pseudo-valeurs tendent `a ˆetre ind´ependantes et gaussiennes pour une grande vari´et´e de statistiques. En appliquant l’intervalle de confiance de la section 7.4.1 pour la moyenne de v.a. i.i.d. gaussiennes, on d´eduit l’intervalle de confiance approch´e pourω :
IC0,975(ω)[t∗n−t(n−1)0,975 sn,JK
√n , t∗n+t(n−1)0,975 sn,JK
√n ], o`ut∗n etsn,JK sont les r´ealisations respectives deTn∗ et deSn,JK.
Ceci s’applique, en particulier, `a l’´ecart-type comme nous l’avons vu plus haut (voir une application dans les exercices) et ´egalement pour estimer la varianceσ2.Dans ce dernier cas, en prenant l’estimateur du jackknife reposant sur la variance empirique S'2, on ´etablit que la variance des pseudo-valeurs Sn,JK2 est ´egale `a :
n3
(n−1)(n−2)2(M4−S'4),
ce qui conduit `a une proc´edure d’intervalle de confiance tr`es proche (et asymp-totiquement ´equivalente) de l’approche asymptotique propos´ee en section 8.2.2.
En effet, dans cette approche, on trouvait simplementM4−S4en lieu et place de l’expression ci-dessus.
Les conditions de validit´e de la proposition ne sont pas simples `a expliciter.
Si la statistique est de la formen1n
i=1g(Xi) o`ugest une fonction quelconque,
alors la proposition est v´erifi´ee. C’est le cas de tous les moments simples. Si la forme est proche cela reste vrai, comme par exemple pour les moments centr´es, en particulier pour la variance empirique, et aussi pour l’´ecart-type.
En revanche, la m´ediane qui, dans sa version th´eorique, s’exprime parF−1(12) a une forme tr`es ´eloign´ee. Le jackknife est alors inadapt´e carSn,JK ne converge pas vers la valeur de l’´ecart-type de la m´ediane. Il en va de mˆeme pour d’autres statistiques fonctions des statistiques d’ordres : quantiles, ´etendueX(n)−X(1), distance interquartiles.
Note 8.3 Pour pr´eciser quelque peu le domaine de validit´e du jackknife exprimons une caract´eristiqueω comme une expression fonctionnelleω(F). Une fonctionnelle est dite lin´eaire siω(a1F1+a2F2) =a1ω(F1) +a2ω(F2). Dans ce cas on montre queω(F)est de la forme :
ω(F) =
R
g(x)dF(x) =EF(g(X)).
Pour la statistique correspondante ω(Fn) du maximum de vraisemblance cela se traduit par n1n
i=1g(Xi).Ceci est ´evidemment le cas de la moyenne empirique et de tout autre moment empirique non centr´e.
Un moment centr´e n’est pas strictement de cette forme. Par exemple la variance EF([X −EF(X)]2) est l’esp´erance d’une fonction qui d´epend elle-mˆeme deF. La condition pour que le jackknife soit op´erant au niveau de la convergence de Sn,JK est que la caract´eristique, et donc la statistique du MV, soit une fonctionnelle lin´eaire ou pouvant ˆetre raisonnablement approch´ee par une fonctionnelle lin´eaire. Ceci est r´ealisable pour la variance empirique (qui est une fonctionnelle quadratique) mais pas dans le cas de la m´ediane qui est trop fortement non lin´eaire.
Le jackknife peut ˆetre utilis´e pour des couples (et desn-uplets) de v.a., par exemple pour la corr´elation entre deux variables, pour la moyenne du ratio de deux variables. Il s’´etend ´egalement `a des situations autres que des ´echantillons al´eatoires simples. Par ailleurs, diff´erentes variantes du jackknife initial ont ´et´e propos´ees. En particulier, pour de tr`es grands ´echantillons, il est pratiquement aussi efficace de l’appliquer en omettant non pas chaque observation mais des groupes de k observations, ceci afin d’acc´el´erer les calculs. Dans le cas de la m´ediane le fait de grouper les observations avec k de l’ordre de √
n permet mˆeme d’assurer la convergence selon la proposition 8.3 et donc d’appliquer l’intervalle de confiance qui en d´ecoule.
Rien ne s’oppose `a ce qu’on utilise cette m´ethode dans un cadre param´ e-trique pour des fonctions du param`etre complexes. Par exemple on pourra estimer e−λ, la probabilit´e qu’il n’y ait aucune occurrence dans une unit´e de temps pour une loi de Poisson, en se fondant sur l’estimateur du maximum de vraisemblance e−X (ceci est `a rapprocher de l’exemple 6.13).
En ce qui concerne l’approximation asymptotique de l’intervalle de confiance issu du jackknife il est difficile de savoir `a partir de quelle taille d’´echantillon
elle devient satisfaisante. Pour les petits ´echantillons le bootstrap offre une alternative plus sˆure.