• Aucun résultat trouvé

Estimations basées sur une année de collecte

Dans le document Méthodes de Bootstrap en population finie (Page 186-190)

La collecte d’une année est réalisée sur un cinquième des petites communes et sur 8 % des adresses des grandes communes, soit environ 14% de l’en- semble des adresses (celles-ci se répartissant quasiment équitablement entre petites et grandes communes). Bien que cet échantillon soit d’une taille im- portante, il ne permet pas de produire des estimations précises à des niveaux

géographiques fins, en raison de la taille des unités (des petites communes notamment). Les estimations sont donc essentiellement produites au niveau national et régional, et portent le nom d’estimations globales.

Comme le plan de sondage est stratifié, entre les petites et les grandes com- munes tout d’abord, puis par région pour les petites communes, l’estima- tion et l’estimation de précision pour un domaine quelconque passent par les étapes suivantes :

1. Isoler chaque grande commune de l’échantillon, et réaliser indépendam- ment l’estimation sur chacune d’elles

2. Isoler région par région les petites communes de l’échantillon

3. Pour chaque région représentée, calculer une estimation sur le champ des petites communes

Compte tenu de l’indépendance, l’estimation sur le domaine et la variance associée s’obtiennent alors par sommation.

Dans la suite de cette section, nous appliquons les méthodes de Bootstrap proposées pour un échantillonnage équilibré au cas du Nouveau Recense- ment. Nos simulations portent sur une grande commune artificielle, obtenue par extraction de 1 000 adresses d’une grande commune dans le fichier du Recensement de 1999. Nous nous plaçons dans un cadre simplifié et ne nous intéressons qu’à l’échantillonnage de première phase d’une année, en sup- posant qu’un cinquième des adresses est sélectionné par échantillonnage à probabilités égales, équilibré sur les variables indiquées dans le tableau 6.1.

6.2.1

Estimation sur le champ des grandes communes :

étude par simulations

Le plan de sondage consiste à trier aléatoirement la population (afin d’aug- menter l’entropie du plan de sondage), puis à sélectionner un échantillon au cinquième, à probabilités égales, équilibré sur les variables mentionnées dans le tableau 6.1. Le plan de sondage est donc analogue à l’échantillonnage de première phase pratiqué par le Nouveau Recensement. Le total des variables d’intérêt données dans le tableau 6.1 est estimé directement à l’aide des poids de sondage.

Tab. 6.1 – Liste des variables disponibles sur la base d’adresses de Bretagne (source : RP 1999)

Variables d’équilibrage Nombre de logements Population des moins de 20 ans

Population des 20 à 39 ans Population des 40 à 59 ans Population des 60 à 74 ans Population des 75 ans et plus

Population des hommes Population des femmes

Variables d’intérêt Nombre d’actifs Nombre d’inactifs

Nombre de personnes d’origine française Nombre de français par acquisition Nombre d’étrangers de l’Union Européenne Nombre d’étrangers hors Union Européenne

Pour simplifier, nous supposons

→ l’absence de non-réponse totale, c’est à dire que toutes les adresses échan- tillonnées sont supposées être effectivement enquêtées,

→ l’absence de non-réponse partielle, c’est à dire qu’au sein des adresses échantillonnées, toutes les variables d’intérêt sont effectivement relevées. Ces postulats sont assez irréalistes pour une enquête réelle, mais l’objectif de la simulation est avant tout une validation empirique du Bootstrap dans le contexte d’une enquête simplifiée. La prise en compte de l’imputation de la non-réponse partielle dans les méthodes de rééchantillonnage a été étudiée par Rao and Shao (1992), Rao and Sitter (1996) et Shao and Sitter (1996), et fera l’objet de travaux ultérieurs pour la méthode de Bootstrap que nous proposons.

Une approximation de la précision est donnée par 20 000 simulations indépen- dantes. On calcule également, à l’aide de 20 000 simulations indépendantes,

la précision du plan de sondage obtenu en remplaçant l’étape préalable de tri aléatoire par un tri sur le nombre de logements décroissant.

Deux méthodes de Bootstrap sont utilisées : le Bootstrap de type BWO et la généralisation de la méthode mirror-match de Sitter (1992), voir le chapitre 4, section 5. Dans le cas traité, l’algorithme peut être simplifié car toutes les inverses de probabilités d’inclusion sont entières. A partir d’un échantillon, on constitue donc une seule pseudopopulation (en dupliquant 5 fois chaque individu échantillonné) dans laquelle on rééchantillonne de façon répétée. La précision donnée par chaque méthode de Bootstrap est approchée à l’aide du tirage de 200 échantillons, pour chacun desquels 1 000 rééchantillons Boots- trap sont prélevés. Les intervalles de confiance sont déterminés à l’aide de la méthode des percentiles.

On calcule également l’estimation de précision analytique correspondant à la formule 3 de Deville and Tillé (2005), à l’aide du tirage de 1 000 échantillons. Les intervalles de confiance sont déterminés à l’aide de l’approximation nor- male.

Le tableau 6.2 donne la précision (approchée par 20 000 simulations) du plan de sondage avec randomisation préalable, et celle (toujours approchée par 20 000 simulations) du même plan de sondage, mais où le tri aléatoire est remplacé par un tri informatif sur le nombre de logements décroissant. Ces précisions sont comparées avec celles données par les deux méthodes de Bootstrap et l’approximation proposée par Deville and Tillé (2005).

Le tri préalable sur le nombre de logements crée un effet de stratification, qui réduit la variance pour les variables d’intérêt bien corrélées au nombre de logements. Cet effet est encore plus sensible avec un équilibrage sur la seule probabilité d’inclusion, c’est à dire avec un simple échantillonnage de taille fixe, voir le tableau 6.3. Dans ce cas, l’échantillonnage équilibré avec tri aléatoire préalable est équivalent au sondage aléatoire simple, quand l’échan- tillonnage équilibré avec tri sur le nombre de logements est, en utilisant l’al- gorithme du Fast Cube, équivalent à un tirage stratifié de taille 1 dans chaque strate, les strates étant constituées en regroupant les adresses 5 par 5, par nombre de logements décroissant.

Pour un échantillonnage équilibré de type Recensement, la différence de va- riance observée avec les deux méthodes est cependant minime. Nous conjec- turons que, pour un nombre de variables d’équilibrage important, un tri préalable a peu d’effets sur la précision de l’échantillonnage, et les formules

d’approximation de variance de Deville and Tillé (2005) sont donc largement utilisables.

Les trois méthodes testées donnent une approximation de variance raison- nable, même si la variance est généralement sous-estimée. Le Bootstrap de type BWO fournit la meilleure approximation, alors que le Bootstrap adapté de la méthode de Sitter présente généralement le biais le plus fort.

Le tableau 6.4 compare les taux de couverture effectifs des trois méthodes testées, pour un taux théorique de 10% . Les résultats obtenus pour un taux de couverture théorique de 5% ne présentent pas qualitativement de diffé- rence. Les trois méthodes donnent des résultats raisonnables, le résultat le moins bon est obtenu avec le Bootstrap adapté de la méthode Sitter.

Nous avons conduit une simulation analogue afin d’estimer la précision d’un échantillon annuel de petites communes, à l’aide d’un fichier issu du Re- censement de 1999 et donnant, pour chaque petite commune de Bretagne, les variables nécessaires à un équilibrage de type Nouveau Recensement et quelques variables d’intérêt. Les résultats obtenus sont médiocres : chacune des trois méthodes sous-estime généralement très largement la variance. Ce problème, qui semble lié à la conjonction de la grande taille des unités et de la très forte corrélation entre les variables d’équilibrage et les variables d’intérêt, est actuellement à l’étude.

Dans la section suivante, nous développons une méthode de calcul de pré- cision sur le champ des petites communes pour l’échantillon issu de trois années de collecte et la méthode d’estimation retenue, de type régression géographique pondérée.

6.3

Utilisation de plusieurs années de collecte :

Dans le document Méthodes de Bootstrap en population finie (Page 186-190)

Documents relatifs