• Aucun résultat trouvé

Chapitre 5. Étude par simulation

5.3. Méthodes évaluées

Les particularités des méthodes évaluées par simulation de même que leur dénomination sont énumérées ci-dessous. La plupart d’entre elles sont communes aux deux plans de son- dage, à l’exception de la méthode de sélection du paramètre de lissage par injection, qui n’est évaluée que pour le plan EASSR dans cette étude. De plus, la méthode de rééchantillonnage par pseudo-population standard (sans lissage) est dénommée selon l’auteur de l’algorithme,

qui diffère selon le plan de sondage. Par ailleurs, notons que l’on peut faire correspondre à chaque méthode étudiée une valeur d’un paramètre de lissage ou d’ajustement.

– Woodruff : Cette dénomination fait référence à la méthode de Woodruff (1952) pour la formation d’intervalles de confiance et l’estimation de la variance pour des quan- tiles. L’intervalle de confiance de Woodruff pour ξpest unique à un échantillon donné,

ce qui n’est pas le cas de l’estimateur de variance de Woodruff (voir la sous-section 1.3.4). En effet, celui-ci est défini à partir de la demi-longueur d’un intervalle de confiance de Woodruff de niveau (1 − β), ce qui fait de β un paramètre d’ajuste- ment. À chaque valeur de β ∈ (0,1) correspond donc un estimateur de variance de Woodruff différent, dénoté ˆ. Les mesures de performance pour cette méthode se-

ront présentées pour β ∈ {0,01; 0,025; 0,05; 0,1; 0,2}, qui correspond à l’ensemble de valeurs rapportées par Sitter (1992).

– Booth et al. (EASSR) ou Chauvet (Poisson) : Ces dénominations désignent l’estimateur non lisse ˆV∗ donné par (2.2.4), obtenu via l’algorithme 2.2.1 proposé par Booth et al. (1994) pour le plan EASSR ou à partir de l’algorithme 2.2.2 introduit par Chauvet (2007) pour l’échantillonnage de Poisson.

– Lisse plug-in norm (EASSR): La sélection du paramètre de lissage par injection (plug-in) est décrite à la section 4.2. L’algorithme 4.1.1 est exécuté avec un paramètre de lissage égal à ˆhplug-in, dont l’expression est explicitée en (4.2.6). L’estimateur de

l’erreur quadratique moyenne de ˆξp correspondant est dénoté ˆVˆhplug-in.

– Lisse boot var: Tel que décrit à la sous-section 4.3.3, une grille H(n) = {h1, h2, . . . , hK} est parcourue afin de sélectionner la valeur de h mi-

nimisant une estimation bootstrap du critère de l’erreur quadratique moyenne, donné par (4.3.1). La valeur sélectionnée pour le paramètre de lissage est ˆhboot,var,

donnée par (4.3.5), et l’estimateur de l’erreur quadratique moyenne résultant est dénoté ˆVˆh

boot,var.

– Lisse boot IC: De manière à optimiser le taux de couverture des intervalles de confiance, le double bootstrap est utilisé pour identifier la valeur de h ∈ H(n) mini- misant une estimation bootstrap du critère L, donné par (4.3.6), avec τ = 2/3. La valeur sélectionnée pour le paramètre de lissage est ˆhboot,ic, donnée par (4.3.12), et

l’estimateur de l’erreur quadratique moyenne résultant est dénoté ˆVˆ

Les tableaux 5.1 et 5.2 renferment les grilles d’exploration H(n) intervenant dans les mé- thodes Lisse boot var et Lisse boot IC pour l’échantillonnage aléatoire simple sans remise et l’échantillonnage de Poisson respectivement. Chaque entrée correspond à un scénario, soit le croisement entre l’un des deux estimateurs de quantile et une superpopulation F0. La colonne

Copt( ˜ξp) désigne la valeur de la constante optimale théorique pour l’estimation de la variance

d’un quantile échantillonnal pour la distribution F0, à savoir la constante multipliant n−1/5

dans l’expression du paramètre de lissage optimal donnée par (4.2.1). L’expression de cette constante est explicitée à nouveau comme suit

Copt( ˜ξp) = h f0( ˜ξp) i1/5h 2√πi−1/5  f000( ˜ξp) −  f00( ˜ξp) 2 f0( ˜ξp)−1 −2/5 . (5.3.1)

On distingue cette constante de Cnorm( ˜ξp) figurant en deuxième colonne, que l’on définit

comme le facteur multipliant n−1/5 dans l’expression de la fenêtre optimale basée sur la distribution N (µ, σ2) donnée par (4.2.5), à savoir

Cnorm( ˜ξp) = 1 σφ (z) 1/5 h 2√πi−1/5 " 1 σφ 00 (z) − 1 σφ 0 (z) 21 σφ (z) −1#−2/5 , (5.3.2)

où z ≡ z( ˜ξp, µ, σ2) = ( ˜ξp − µ)/σ et ˜ξp, µ et σ sont respectivement le quantile de niveau p,

le premier moment et l’écart type de la superpopulation F0. Rappelons que l’expression de

ˆ

hplug-in jouant un rôle dans la méthode lisse plug-in est basée sur une estimation de (5.3.2).

En dernière colonne des tableaux 5.1 et 5.2, on retrouve les grilles H(n), qui constituent des vecteurs de constantes fixes multipliant la quantité n−1/5. Elles permettent donc d’accom- moder diverses tailles échantillonnales. Notons que l’étendue de valeurs d’une grille H(n) est déterminée de façon à couvrir (5.3.1) ou encore (5.3.2) dans les cas où (5.3.1) n’existe pas.

Scénario Copt( ˜ξp) Cnorm( ˜ξp) H(n)

ˆ ξ0,50, N (0,1) 0,93 Même {hk | hk= [0,01 + (k − 1) 0,05] · n−1/5, 1 ≤ k ≤ 50, k ∈ N} ˆ ξ0,75, N (0,1) 0,98 Même {hk | hk= [0,01 + (k − 1) 0,05] · n−1/5, 1 ≤ k ≤ 50, k ∈ N} ˆ ξ0,50, Lognormale(0,1) ∞ 2,03 {hk | hk= [0,01 + (k − 1) 0,05] · n−1/5, 1 ≤ k ≤ 50, k ∈ N} ˆ ξ0,75, Lognormale(0,1) 2,24 2,02 {hk| hk= [1,00 + (k − 1) 0,05] · n−1/5, 1 ≤ k ≤ 51, k ∈ N} Tableau 5.1. Grilles d’exploration pour les différents scénarios étudiés dans le plan EASSR.

Scénario Copt( ˜ξp) Cnorm( ˜ξp) H(n)

ˆ

ξ0.50 13,71 Même {hk | hk= [0,100000 + (k − 1) 0,557551] · n−1/5, 1 ≤ k ≤ 50, k ∈ N}

ˆ

ξ0.75 14,35 Même {hk| hk= [0,1000000 + (k − 1) 0,5836735] · n−1/5, 1 ≤ k ≤ 50, k ∈ N} Tableau 5.2. Grilles d’exploration pour les différents scénarios étudiés dans l’échantillon-

nage de Poisson.

À la lecture du tableau 5.1, on note que dans le cas de la superpopulation Lognormale(0,1) et de la médiane, la valeur de Copt( ˜ξp) n’existe pas tel que spécifié par la remarque 3.3.3. En

ce qui concerne le tableau 5.2, il convient de préciser que les constantes optimales théoriques pour le modèle donné par (5.1.1) ont été calculées en utilisant l’approximation normale pour la loi du χ2. Le fait que le régresseur dans le modèle (5.1.1) soit distribué selon la loi

χ2100 indépendamment de l’erreur ε = (ε1, ε2, . . . , εN˜)0 permet de déduire que les variables

aléatoires indépendantes Y1, Y2, . . . , YN˜ de la population sont approximativement distribuées

selon la loi N (γν, 2νγ2 + σ2). Dans ces cas, la constante a donc été évaluée en prenant la

densité de la loi normale avec moyenne µ = γν et écart type τ =2νγ2 + σ2, où γ = 0,6,

ν = 100 et σ = 12.

Si l’on souhaitait appliquer les méthodes Lisse boot var et Lisse boot IC à un jeu de données particulier en dehors de l’environnement contrôlé d’une simulation, la remarque 4.3.2 décrit une approche ne nécessitant pas de connaître F0 pour former la grille de valeurs

à explorer pour la sélection du paramètre de lissage.

5.4. Résultats pour l’échantillonnage aléatoire simple

Documents relatifs