Méthodes bootstrap par pseudo-population - Bootstrap pour un plan d’échantillonnage à probabili

Chapitre 3. Bootstrap pour un plan d’échantillonnage à probabilités

3.2. Méthodes bootstrap par pseudo-population

Holmberg (1998) a généralisé la méthode de Booth et coll. (1994) dans le cas d’un plan d’échantillonnage avec probabilités proportionnelles à la taille, p, en utilisant l’inverse des probabilités d’inclusion π_i = nxi/tx pour construire U∗. En fait, Holmberg (1998) propose

de construire U∗ en dupliquant chaque unité i de s, di = bπ−1i c + i fois, où les i sont

les réalisations de n épreuves de Bernoulli indépendants dont la probabilité de succès de chacun d’eux est ri = π−1_i − bπ_i−1c. Pour estimer la variance de Vp(ˆθ), Holmberg (1998) a

utilisé l’algorithme suivant:

(1) Construire U∗ = {1∗, · · · , i∗, · · · , N∗} en dupliquant chaque unité i de s, d_i fois incluant la variable de taille x_i. Ainsi, la taille de la pseudo-population U∗et le total de la variable auxiliaire sur celle-ci sont donnés par N∗ =P

i∈sdi et t∗x =

i∈sdixi,

(2) Sélectionner un échantillon bootstrap s∗en utilisant le même plan d’échantillonnage p avec les probabilités d’inclusion πi∗ = nx_i∗/t∗

(3) Calculer l’estimateur bootstrap ˆθ∗ sur s∗,

(4) Répéter les étapes 1 à 3 un grand nombre de fois (disons B), pour disposer d’un ensemble d’estimateurs bootstrap ˆθ₁∗,...,ˆθ_B∗. On prend comme estimateur de la variance de ˆθ : ˆ V_B∗ = 1 B − 1 B X b=1 ˆ_θ∗ b − ˆθ∗(·) 2 , où ˆθ_(·)∗ = B−1PB b=1θˆ ∗ b.

Holmberg (1998) a ignoré l’impact de la variabilité due à une partie aléatoire de U∗ sur l’estimation de Vp(ˆθ). En effet, et comme nous avons mentionné dans le chapitre

2, lors de l’introduction de la méthode de Booth et coll. (1994), l’estimation bootstrap de la variance obtenue par l’algorithme proposé est une approximation Monte Carlo de

V∗(ˆθ∗) = Eu∗p∗h ˆθ∗− Eu∗p∗ ˆθ∗

. En conséquence une variance parasitaire s’ajoute de plus à la variabilité du plan de rééchantillonnage p∗.

3.2.2. Chauvet (2007)

Chauvet (2007) a proposé un algorithme bootstrap général pour un plan d’échantillon- nage à probabilités inégales p. L’algorithme bootstrap proposé peut sembler compliqué en terme de calculs puisqu’il repose sur l’obtention de plusieurs échantillons bootstrap pour chacune de plusieurs pseudo-populations. En revanche il permet de supprimer la variance parasite générée lors de l’étape de la construction de la pseudo-population. En effet, Chau- vet (2007) a substitué Vp(ˆθ) par Eu∗V_p∗(ˆθ∗) et l’algorithme Monte Carlo proposé qui permet

d’approximer ce dernier consiste à:

(1) Construire U∗ = {1∗, · · · , i∗, · · · , N∗} en dupliquant chaque unité i de s, bπ−1_i c fois et de compléter les unités ainsi obtenues d’un échantillon, sélectionné dans s selon le plan d’échantillonnage d’origine p avec des probabilités d’inclusion r_i= π_i−1−bπ_i−1c. (2) Sélectionner un échantillon bootstrap s∗ en utilisant le même algorithme de tirage

p et avec les mêmes probabilités d’inclusion πi∗,

(3) Calculer l’estimateur bootstrap ˆθ∗ sur s∗,

(4) Répéter les étapes 2 à 3 un grand nombre de fois (disons B), pour disposer d’un ensemble d’estimateurs bootstrap ˆθ∗₁,...,ˆθ∗_B. Soit

ˆ V_B∗ = 1 B − 1 B X b=1 ˆ_θ∗ b − ˆθ∗(·) 2 , où ˆθ_(·)∗ = B−1PB b=1θˆb∗.

(5) Répéter les étapes 1 à 4 un grand nombre de fois (disons D), pour disposer d’un ensemble d’estimateurs bootstrap de variance ˆV_1B∗ ,..., ˆV_DB∗ . On prend comme estimation de la variance de ˆθ : 1 D D X b=1 ˆ V_dB∗ .

Il faut noter que si les probabilités d’inclusion sont calculées proportionnellement à une variable de taille, Chauvet (2007) propose de recalculer la probabilité d’inclusion de chaque unité de U∗ de la même manière que nous avons indiqué dans l’algorithme de Holmberg (1998) c’est-à-dire π_i∗ = nx_i∗/t∗_x.

Le principe de plug-in utilisé par Chauvet (2007) permet de restituer l’estimateur habi- tuel de la variance d’un estimateur de Horvitz Thompson dans le cas d’un plan de Poisson. Chauvet (2007) a montré que son algorithme est consistent dans le cas d’estimateur de Horvitz-Thompson et l’estimateur par substitution pour les plans de grande entropie comme le plan de Poisson et le plan de Poisson conditionnel ou ceux proches de l’entropie maximale comme le plan Rao-Sampford et le plan systématique ordonné. Chauvet (2007) a également proposé un algorithme simplifié qui consiste à créer une seule U∗ en dupliquant chaque unité i de s [1/π_i] fois, où [.] désigne l’entier le plus proche. Le reste de l’algorithme reste inchangé. Il faut noter que Mashreghi et coll. (2016) ont proposé un principe de plug-in qui consiste à substituer V_p(ˆθ) par Eu∗E_p∗(ˆθ∗−θ∗)2, où θ∗est le paramètre bootstrap de U∗.

Ce principe de plug-in permet de supprimer la variance parasite générée par la construction de la pseudo-population et l’algorithme Monte Carlo associé à celui-ci n’implique pas le double bootstrap comme dans le cas de Chauvet (2007). Autrement dit, il suffit de répéter les trois premières étapes de l’algorithme général de Chauvet (2007), un grand nombre de

fois (disons B) et de prendre comme estimation bootstrap ˆ V_B∗ = 1 B B X b=1 ˆ_θ∗ b − θ ∗2_. _(3.2.1)

Mashreghi et coll. (2016) ont omis de mentionner que cette approche ne fonctionne que dans le cas où l’estimateur est sans biais. Dans le cas contraire, cette approche devient un estimateur de l’erreur quadratique moyenne. Pour estimer la variance dans un tel cas, il faut procéder par l’approche décrite précédemment. Puisque cette méthode repose sur la moyenne d’estimateurs de variance conditionnelle, il est possible d’utiliser la même quantité de calculs en prenant par exemple D = 10 pseudo-populations à partir desquels B = 100 échantillons bootstrap chacun seront tirés plutôt que de créer 1000 pseudo-populations à partir desquels un seul échantillon bootstrap sera sélectionné.

3.2.3. Barbiero et Mecatti (2010)

Dans la même optique que l’algorithme simplifié de Chauvet (2007), Barbiero et Mecatti (2010) ont proposé trois algorithmes simplifiés dans le cas d’un plan d’échantillonnage proportionnel à la taille. Le premier algorithme est identique à la version simplifiée de Chauvet (2007). Les deux autres algorithmes proposés consistent à construire une seule pseudo-population équilibrée par rapport à la variable auxiliaire x utilisée pour calculer les probabilités d’inclusion relatives au plan d’échantillonnage d’origine. Autrement dit dans les deux algorithmes l’unique pseudo-population est construite de telle sorte que le total de la variable auxiliaire x sur U∗, t∗_x, soit le plus proche possible de celui sur U , tx, qui

doit être connu. Pour y arriver la pseudo-population est obtenue d’une façon itérative. La pseudo-population initiale est constituée en dupliquant chaque unité de s, bπ_i−1c fois et à chaque itération k on ajoute l’unité k de l’échantillon s ordonné par ordre décroissant selon la variables r = π−1−bπ−1c ou bien selon la variable q = π−1/ bπ−1c + 1. Après, on évalue si le critère suivant, | t∗_k,x−tx |<| t∗_k−1,x−tx | est satisfait pour itérer la même procédure sur la

pseudo-population constituée lors de l’itération k. Sinon la pseudo-population équilibrée est

celle construite à l’itération k. L’étape de ré-échantillonnage et l’estimation de la variance des trois algorithmes sont similaires à celles de l’algorithme de Holmberg (1998).

Dans le document Comparaison empirique des méthodes bootstrap dans un contexte d'échantillonnage en population finie (Page 84-88)