La m´ ethode du jackknife - Les m´ ethodes de r´ e´ echantillonnage

8.4 Les m´ ethodes de r´ e´ echantillonnage

8.4.2 La m´ ethode du jackknife

Nous illustrons d’abord le principe du jackknife pour l’estimation de l’´ ecart-typeσde la loi. Soit l’estimateur de r´ef´erence :

S=√ S²=

12 23 1

n−1 n i=1

(X_i−X)²

qui est généralement biaisé (voir exercice 6.4 pour le cas de la loi de Gauss) et soit s l’estimation correspondante pour une réalisation x₁, x₂,· · ·, x_n de l’échantillon. L’estimation du jackknife est obtenue de la fa¸con suivante.

On calcule la valeur, notée s₋₁,de l’écart-type du sous-échantillon obtenu enomettant la valeurx₁:

s₋₁= 12 23 1

n−2 n i=2

(x_i−x)²,

puis la valeur s_∗1 = ns−(n−1)s₋₁. On répète cette opération en omet-tant à tour de rôle chacune des observations pour obtenir n pseudo-valeurs

s_∗1, s_∗2,· · · , s_∗n avec, donc : s_−i =

12 23 1

n−2 n j=1,j =i

(x_j−x)² s_∗i =ns−(n−1)s_−i.

L’estimation du jackknife est alors la moyenne des pseudo-valeurs, notées_∗. Un intervalle de confiance approché peut être obtenu en appliquant à la série desnpseudo-valeurs le résultat de la section 6.4.1 concernant la moyenne d’un

echantillon al´eatoire gaussien. Ainsi on calcule la variance des pseudo-valeurs : s²_JK= 1

n−1 n i=1

(s_∗i−s_∗)², d’o`u :

IC_0,95(σ)[s_∗−t⁽ⁿ⁻¹⁾_0,975 s_JK

√n , s_∗+t⁽ⁿ⁻¹⁾_0,975 s_JK

√n].

De fa¸con générale soitω une caractéristique de la loi etT_n un estimateur convergent deω,typiquement l’estimateur du maximum de vraisemblance. Soit T_n⁻ⁱ l’estimateur calculé en omettantX_i. On définit les pseudo-valeurs :

T_n^∗i=nT_n−(n−1)T_n⁻ⁱ, i= 1, . . . , n.

L’estimateur du jackknife fond´e surT_n est alors T_n^∗= _n¹_n

i=1T_n^∗i.

Comme il a été dit en introduction cet estimateur a été proposé à l’origine pour réduire le biais éventuel de T_n, en vertu du résultat suivant.

Proposition 8.2 Si le biais deT_n est de la forme _n^c, o`u c est une constante, alorsT_n^∗,l’estimateur du jackknife fond´e surT_n,est sans biais.

En effet, comme E(T_n) = ω+ _n^c, on a, pour tout i, E(T_n⁻ⁱ) = ω +_n−1^c puisqueT_n⁻ⁱ est le même estimateur appliqué au (n−1)−échantillon aléatoire X₁, . . . , X_i−1, X_i+1, . . . , X_n.Ainsi :

E(T_n^∗i) =nE(T_n)−(n−1)E(T_n⁻ⁱ)

=nω+c−(n−1)[ω+ c n−1]

=ω , d’o`u E(T_n^∗) = ¹_n_n

i=1E(T_n^∗i) =ω.

Si le biais est de la forme ^c_n¹+_n^c²₂+_n^c³₃ +· · · on montre aisément de la même fa¸con que le premier terme disparaˆıt dans le biais de T_n^∗. Par conséquent, au

moins pour des situations de ce type, il y a réduction de biais. Si l’on applique, par exemple, la procédure du jackknife à la variance empiriqueS'_n² dont le biais pour estimerσ²est−_n¹σ²(voir proposition 5.2), on trouve que l’estimateur du jackknife est la variance de l’échantillonS_n² qui est sans biais (voir exercices).

Notons incidemment que pour l’estimateur X_n de la moyenne μ qui est sans biais, l’estimateur du jackknife estX_n lui-mˆeme.

En général, la loi étant totalement inconnue, on ne connaˆıt pas la forme du biais (comme par exemple pour l’écart-typeS dans l’illustration ci-dessus), mais on s’attend à ce qu’il soit de toute fa¸con réduit par la procédure décrite.

Outre la réduction du biais, l’intérêt du jackknife, primordial ici, est de permettre l’estimation de l’écart-type deT_n et la possibilité de construire un intervalle de confiance approché. La proposition qui suit va nous y conduire.

Proposition 8.3 Soit T_n^∗ l’estimateur du jackknife de la caract´eristique ω, reposant sur un estimateur convergentT_n,et soitS_n,JK² la variance des pseudo-valeurs.Alors, sous certaines conditions concernant la forme de la statistique :

T_n^∗−ω S_n,JK/√ n

−→L

n→∞ N(0 ; 1).

Nous admettrons cette proposition. Elle résulte du fait que les pseudo-valeurs tendent à être indépendantes et gaussiennes pour une grande variété de statistiques. En appliquant l’intervalle de confiance de la section 7.4.1 pour la moyenne de v.a. i.i.d. gaussiennes, on déduit l’intervalle de confiance approché pourω :

IC_0,975(ω)[t^∗_n−t⁽ⁿ⁻¹⁾_0,975 s_n,JK

√n , t^∗_n+t⁽ⁿ⁻¹⁾_0,975 s_n,JK

√n ], o`ut^∗_n ets_n,JK sont les r´ealisations respectives deT_n^∗ et deS_n,JK.

Ceci s’applique, en particulier, à l’écart-type comme nous l’avons vu plus haut (voir une application dans les exercices) et également pour estimer la varianceσ².Dans ce dernier cas, en prenant l’estimateur du jackknife reposant sur la variance empirique S'², on établit que la variance des pseudo-valeurs S_n,JK² est égale à :

n³

(n−1)(n−2)²(M₄−S'⁴),

ce qui conduit à une procédure d’intervalle de confiance très proche (et asymp-totiquement équivalente) de l’approche asymptotique proposée en section 8.2.2.

En eﬀet, dans cette approche, on trouvait simplementM₄−S⁴en lieu et place de l’expression ci-dessus.

Les conditions de validit´e de la proposition ne sont pas simples `a expliciter.

Si la statistique est de la forme_n¹_n

i=1g(X_i) o`ugest une fonction quelconque,

alors la proposition est vérifiée. C’est le cas de tous les moments simples. Si la forme est proche cela reste vrai, comme par exemple pour les moments centrés, en particulier pour la variance empirique, et aussi pour l’écart-type.

En revanche, la médiane qui, dans sa version théorique, s’exprime parF⁻¹(¹₂) a une forme très éloignée. Le jackknife est alors inadapté carS_n,JK ne converge pas vers la valeur de l’écart-type de la médiane. Il en va de même pour d’autres statistiques fonctions des statistiques d’ordres : quantiles, étendueX_(n)−X₍₁₎, distance interquartiles.

Note 8.3 Pour préciser quelque peu le domaine de validité du jackknife exprimons une caractéristiqueω comme une expression fonctionnelleω(F). Une fonctionnelle est dite linéaire siω(a₁F₁+a₂F₂) =a₁ω(F₁) +a₂ω(F₂). Dans ce cas on montre queω(F)est de la forme :

ω(F) =

g(x)dF(x) =E_F(g(X)).

Pour la statistique correspondante ω(F_n) du maximum de vraisemblance cela se traduit par _n¹_n

i=1g(X_i).Ceci est ´evidemment le cas de la moyenne empirique et de tout autre moment empirique non centr´e.

Un moment centré n’est pas strictement de cette forme. Par exemple la variance E_F([X −E_F(X)]²) est l’espérance d’une fonction qui dépend elle-même deF. La condition pour que le jackknife soit opérant au niveau de la convergence de S_n,JK est que la caractéristique, et donc la statistique du MV, soit une fonctionnelle linéaire ou pouvant être raisonnablement approchée par une fonctionnelle linéaire. Ceci est réalisable pour la variance empirique (qui est une fonctionnelle quadratique) mais pas dans le cas de la médiane qui est trop fortement non linéaire.

Le jackknife peut être utilisé pour des couples (et desn-uplets) de v.a., par exemple pour la corrélation entre deux variables, pour la moyenne du ratio de deux variables. Il s’étend également à des situations autres que des échantillons aléatoires simples. Par ailleurs, différentes variantes du jackknife initial ont été proposées. En particulier, pour de très grands échantillons, il est pratiquement aussi efficace de l’appliquer en omettant non pas chaque observation mais des groupes de k observations, ceci afin d’accélérer les calculs. Dans le cas de la médiane le fait de grouper les observations avec k de l’ordre de √

n permet même d’assurer la convergence selon la proposition 8.3 et donc d’appliquer l’intervalle de confiance qui en découle.

Rien ne s’oppose à ce qu’on utilise cette méthode dans un cadre param´ e-trique pour des fonctions du paramètre complexes. Par exemple on pourra estimer e^−λ, la probabilité qu’il n’y ait aucune occurrence dans une unité de temps pour une loi de Poisson, en se fondant sur l’estimateur du maximum de vraisemblance e^−X (ceci est à rapprocher de l’exemple 6.13).

En ce qui concerne l’approximation asymptotique de l’intervalle de confiance issu du jackknife il est difficile de savoir à partir de quelle taille d’échantillon

elle devient satisfaisante. Pour les petits échantillons le bootstrap offre une alternative plus sûre.

Dans le document Statistique La théorie et ses applications (Page 188-192)