HAL Id: hal-01299959
https://hal.archives-ouvertes.fr/hal-01299959
Submitted on 21 Mar 2018
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Algorithme CURIOS et méthode de priorisation pour les enquêtes en face-à-face.
Antoine Rebecq, Thomas Merly-Alpa
To cite this version:
Antoine Rebecq, Thomas Merly-Alpa. Algorithme CURIOS et méthode de priorisation pour les en-
quêtes en face-à-face. : Application à l’enquête Patrimoine 2014. Journées de Méthodologie Statistique,
INSEE, Mar 2015, Paris, France. �hal-01299959�
A LGORITHME CURIOS ET M´ ETHODE DE PRIORISATION POUR LES ENQUˆ ETES EN FACE- ` A-FACE - APPLICATION ` A L’ENQUˆ ETE
PATRIMOINE 2014
Antoine REBECQ 1 (*), Thomas MERLY-ALPA 2 (*) (*) DMCSI, INSEE
R´ esum´ e
Dans un contexte de d´ egradation des taux de collecte dans les enquˆ etes m´ enages, l’INSEE cherche ` a utiliser au mieux les ressources disponibles. Il s’agit, ´ etant donn´ es les moyens allou´ es ` a une enquˆ ete, d’obtenir l’´ echantillon collect´ e contenant le plus d’infor- mation possible (et conduisant ex post ` a la variance la plus faible possible). Un point de d´ epart est le concept de R-indicateur, d´ evelopp´ e d` es 2009 par Schouten, qui permet de construire dans des enquˆ etes par t´ el´ ephone des ´ echantillons de r´ epondants repr´ esentatifs de la population.
Les R-indicateurs ont ´ et´ e initialement d´ evelopp´ es pour permettre la priorisation d’ef- forts de relance dans des enquˆ etes dont la collecte s’effectue par t´ el´ ephone. Contrairement
`
a ce cadre, la collecte en face-` a-face ne permet pas un r´ eajustement r´ eactif des efforts de collecte, principalement car les enquˆ eteurs organisent sur plusieurs semaines la collecte des unit´ es qui leurs sont affect´ ees. La solution choisie est de r´ ealiser l’enquˆ ete en deux vagues. L’´ echantillon de vague 2 est tir´ e en prenant en compte le portrait de la collecte r´ ealis´ ee en vague 1. Il est tir´ e avec l’objectif d’´ equilibrer la collecte (et de minimiser la dispersion des poids) ` a la fin de la vague 2, en supposant que les conditions de collecte restent identiques entre les deux vagues. Ce principe a ´ et´ e mis en place pour l’enquˆ ete Patrimoine 2014 en r´ egion ˆIle-de-France.
D’un point de vue technique, il s’agit d’un probl` eme d’exercice optimal ` a la date 0 d’une strat´ egie dont les r´ esultats sont attendus ` a la date T, la quantit´ e optimis´ ee pouvant
´
evoluer entre les dates (ult´ erieures) 0 et T. L’id´ ee est d’utiliser les R-indicateurs de mani` ere
`
a tirer l’´ echantillon donnant la pr´ evision de collecte optimale, c’est-` a-dire ´ equilibr´ ee au sens des R-indicateurs, et avec la dispersion des poids corrig´ es de la non-r´ eponse la plus faible possible, en simulant la collecte avec les nouvelles probabilit´ es de tirage. On int` egre
1. [email protected]
2. [email protected]
`
a l’algorithme une phase de correction de la non-r´ eponse par Groupes de R´ eponse Ho- mog` ene de fa¸con anticip´ ee. La fonction d´ efinie par ces param` etres en fonction du vecteur de “sur-repr´ esentation” poss` ede de bonne propri´ et´ es, et son optimum peut ˆ etre d´ etermin´ e par optimisation lin´ eaire. L’algorithme est baptis´ e CURIOS (Curios Uses Representati- vity Indicators to Optimize Samples).
Cette m´ ethode permet de s’affranchir du risque de “trous de collecte” (modalit´ e ou zone g´ eographique pour laquelle le taux de collecte est tellement bas que les risques de biais ne sont plus n´ egligeables) et enrichit le monitoring de collecte par R-indicateur d’un contrˆ ole de la dispersion des poids corrig´ es de la non-r´ eponse, ce qui permet de diminuer la variance ex post.
Abstract
This paper presents the CURIOS algorithm used for the prioritization of CAPI surveys led at the French National Institute for Statistics and Economic Studies (INSEE). It is based on the minimization of a linear combination of several factors related to the quality of the sample, using Monte Carlo techniques to achieve the optimum. We explain how this algorithm functions and then present some results obtained for the 2014 Household Wealth survey, which second wave was prioritized.
Mots-cl´ es
Sondages, Enquˆ etes m´ enages, Non-r´ eponse, Collecte adaptative, Monte Carlo.
Table des mati` eres
1 Probl´ ematique li´ ee ` a l’enquˆ ete Patrimoine 2014 4
1.1 Pourquoi deux vagues ? . . . . 4
1.2 M´ ethode de construction de l’´ echantillon de vague 2 . . . . 5
1.2.1 Logique de l’algorithme CURIOS . . . . 5
1.2.2 D´ ecision optimale ` a la date 0 . . . . 5
2 Construction de l’´ echantillon optimal de vague 2 par Monte-Carlo 6 2.1 Programme d’optimisation . . . . 6
2.1.1 Objectif . . . . 6
2.1.2 Fonction Γ de quantification de l’´ equilibre de l’´ echantillon de r´ epondants 6 2.2 Stock et vecteur de sur-repr´ esentation . . . . 7
2.2.1 Rappels sur les m´ ethodes de tirage de l’INSEE . . . . 7
2.2.2 Stock - tirage de la deuxi` eme vague . . . . 8
2.2.3 Fonction R . . . . 8
2.2.4 Vecteur de sur-repr´ esentation . . . . 9
2.3 Simulation de la collecte . . . . 9
2.3.1 Pr´ ediction de la collecte . . . . 9
2.3.2 Simulation . . . . 10
2.3.3 Analyse de la collecte simul´ ee . . . . 10
2.4 Recherche de l’optimum . . . . 11
2.4.1 Algorithme de Nelder-Mead . . . . 11
2.4.2 Optimums locaux et sc´ enarios . . . . 11
2.5 Poids concat´ en´ es des vagues . . . . 12
3 R´ esultats pour l’enquˆ ete Patrimoine 2014 13 3.1 Description de l’enquˆ ete . . . . 13
3.2 Particularit´ es pratiques pour la priorisation . . . . 13
3.3 Statistiques descriptives . . . . 14
3.3.1 Typologie de communes . . . . 14
3.3.2 R-indicateurs . . . . 15
3.4 Sc´ enarios propos´ es . . . . 17
3.5 Allocation finale . . . . 17
4 L’algorithme CURIOS simplifi´ e 20 4.1 Objectif de l’algorithme . . . . 20
4.2 Un exemple simple . . . . 20
4.2.1 Principe de l’algorithme . . . . 20
4.2.2 Choix du λ . . . . 21
4.2.3 Simulations . . . . 22
4.3 Typologie des crit` eres . . . . 23
1 Probl´ ematique li´ ee ` a l’enquˆ ete Patrimoine 2014
1.1 Pourquoi deux vagues ?
Les m´ ethodes de priorisation ´ evoqu´ ees dans [12] supposent qu’il est possible d’effectuer la priorisation “` a la vol´ ee”. Il s’agirait en effet de pouvoir ` a tout instant signaler aux enquˆ eteurs quelle fiche doit ˆ etre enquˆ et´ ee en priorit´ e, ce qui est en fait uniquement possible pour une collecte t´ el´ ephonique.
Le d´ eroulement de la collecte d’une enquˆ ete CAPI 3 de l’INSEE se d´ eroule en trois phases : la phase de rep´ erage, la phase de r´ egime permanent et la phase d’acc´ el´ eration. Le graphe en figure 1 montre la progression de la collecte pour une enquˆ ete CAPI sp´ ecifique, l’enquˆ ete EPIC 4 en Bourgogne (courbe liss´ ee, et en pointill´ es, droites des r´ egressions lin´ eaires pour trois phases de collecte). On voit que le nombre de r´ epondants n’est pas lin´ eaire en fonction du temps, mais affine par morceaux.
0 100 200 300
0 25 50 75 100
Durée de collecte
Nombre de répondants
Figure 1 – Progression de la collecte de l’enquˆ ete EPIC en Bourgogne.
Construire la collecte prioris´ ee en respectant le d´ eroulement usuel d’une collecte CAPI semble essentiel au succ` es de l’op´ eration. Il faut s’assurer en particulier que les trois phases de la collecte peuvent se d´ erouler normalement afin de maximiser la qualit´ e comme la quantit´ e des questionnaires administr´ es.
Une approche possible consiste donc ` a r´ ealiser la proc´ edure de priorisation ` a la fin d’une vague comportant les trois phases, ` a condition qu’un taux d’avancement suffisant soit at- teint, afin d’´ eviter de d´ es´ equilibrer des ´ echantillons sur la base d’hypoth` eses pr´ ematur´ ees.
3. Computer-Assisted Personal Interview.
4. ´ Etude des Parcours Individuels et Conjugaux, plus connue sous le nom Enquˆ ete Couples.
1.2 M´ ethode de construction de l’´ echantillon de vague 2
1.2.1 Logique de l’algorithme CURIOS
L’algorithme CURIOS consiste en la mise en œuvre d’un compromis entre plusieurs facteurs pouvant d´ efinir le “bon” caract` ere d’un ´ echantillon : pour l’instant, le mod` ele qui a ´ et´ e utilis´ e pour tirer la priorisation de la deuxi` eme vague de l’enquˆ ete Patrimoine 2014 utilise deux facteurs, les R-indicateurs, introduits par Schouten dans [2], et la dispersion des poids.
Ces derniers sont des param` etres pertinents pour l’optimisation d’un ´ echantillon. En effet, d’une part les R-indicateurs servent ` a ´ etudier la repr´ esentativit´ e de la collecte, afin d’obtenir des ´ echantillons ´ equilibr´ es selon un certain sens [11]. D’autre part, bien qu’une dispersion faible des poids de sondage corrig´ es de la non-r´ eponse n’implique pas que les r´ esidus obtenus lors de l’application de la m´ ethode de calage soient faibles ´ egalement, cela participe de la robustesse de la m´ ethode, qui suppose tous les m´ enages sont ´ equivalents au sein de l’´ echantillon obtenu : il n’y a pas de raisons qu’un m´ enage soit beaucoup plus influent qu’un autre (voir [1] pour une r´ eflexion plus pr´ ecise sur la question). C’est d´ ej` a l’objectif principal de la proc´ edure d’´ echantillonnage OCTOPUSSE [8].
Le sch´ ema en Figure 2 r´ esume de mani` ere graphique la logique d’opposition entre les deux objectifs poursuivis par l’algorithme CURIOS.
n ρ uniforme
Disp(p CNR ) min
Figure 2 – Logique de l’algorithme CURIOS.
Une ´ etude plus approfondie des diff´ erentes typologies des objectifs poursuivis se trouve en Partie 4.3.
1.2.2 D´ ecision optimale ` a la date 0
Il nous faut obtenir l’´ echantillon de r´ epondants pour lesquels la dispersion des poids corrig´ es de la non-r´ eponse est minimal. Si dans l’exemple simple de la partie 4 le taux de r´ eponse de chaque individu est parfaitement d´ etermin´ e, il s’agit en r´ ealit´ e de pr´ edire le comportement de r´ eponse en vague 2, de mani` ere ` a optimiser l’´ echantillon en fonction.
Finalement, le probl` eme d’optimisation de l’´ echantillon prioris´ e s’apparente ainsi ` a un probl` eme de d´ ecision optimale. On verra que les probabilit´ es de r´ eponse sont mod´ elis´ ees par des m´ ethodes semblables aux m´ ethodes usuelles de correction de la non-r´ eponse. Les
´
echantillons potentiels en fin de vague 2 sont explor´ es par m´ ethode de Monte-Carlo, et
l’ad´ equation de l’´ echantillon propos´ e ` a l’objectif est quantifi´ e par une variable de R . La
recherche de l’optimalit´ e se fait ensuite en utilisant un algorithme classique d’optimisation
lin´ eaire dans le cas bruit´ e.
2 Construction de l’´ echantillon optimal de vague 2 par Monte-Carlo
2.1 Programme d’optimisation
2.1.1 Objectif
Notons S 1 et S 2 les ´ echantillons de vague 1 et de vague 2. Nous prenons comme date de r´ ef´ erence 0 la fin de la vague 1. ` A cette date, il s’agit de trouver l’´ echantillon S 2 qui optimise la dispersion des poids et l’´ equilibre de l’´ echantillon de r´ epondants pour l’´ echantillon total S = S 1 ∪ S 2 . Ceci s’´ ecrit :
arg min
S
2E [Σ(w CN R ) + λ · Γ(S)] (1)
avec :
Σ(X) = dispersion (variance empirique) du vecteur X S = S 1 ∪ S 2 = ´ echantillon total
w CN R = vecteur des poids corrig´ e de la non-r´ eponse des unit´ es de S
Γ(S) = fonction de mesure de l’´ equilibre de l’´ echantillon de r´ epondants (voir 2.1.2) λ ∈ [0, +∞[
2.1.2 Fonction Γ de quantification de l’´ equilibre de l’´ echantillon de r´ epondants La fonction Γ quantifie l’´ equilibre de l’´ echantillon de r´ epondants. Comme pr´ ecis´ e en 1.2.1, minimiser le d´ es´ equilibre de l’´ echantillon de r´ epondants r´ epond ` a un objectif de robustesse : un ´ echantillon ´ equilibr´ e, relativement aux variables par rapport auxquelles cet ´ equilibre est contrˆ ol´ e, minimise le risque de biais par d´ efaut de couverture.
Les diff´ erents R-indicateurs de Schouten (voir [2] et [12]) fournissent une mesure de l’´ equilibre de l’´ echantillon. Deux versions de Γ sont test´ ees.
Le choix de Γ 1 fait intervenir le R-indicateur total. Si cet indicateur vaut 1, la collecte est cens´ ee ˆ etre totalement ´ equilibr´ ee. La recherche de l’optimalit´ e cherche ` a amener Γ le plus pr` es possible de 0.
Γ 1 = 1 − R total
Le choix de Γ 2 se concentre sur les R-indicateurs par modalit´ e : il s’agit de corriger le plus possible les R-indicateurs d´ es´ equilibr´ es, en les amenant le plus proche possible de 0.
Γ 2 = kR par modalite k p o` u : p ∈ ]1; 2[
Il s’av` ere dans notre cas pratique que le choix de Γ 1 ou de Γ 2 n’influe que tr` es peu
sur les allocations obtenues. En g´ en´ eral, le choix de Γ 2 semble plus logique, la valeur du
R-indicateur global semblant plus indicative de la qualit´ e discriminante du mod` ele que
d’un v´ eritable t´ emoin de l’´ equilibre de la collecte.
2.2 Stock et vecteur de sur-repr´ esentation
2.2.1 Rappels sur les m´ ethodes de tirage de l’INSEE
Dans le cadre des ´ echantillons tir´ es pour les enquˆ etes m´ enages ` a l’INSEE, on dispose usuellement d’un ´ echantillon de r´ eserve, qui peut ˆ etre d´ eclench´ e suite ` a une d´ ecision de la maˆıtrise d’ouvrage d’une enquˆ ete ou sur requˆ ete du management terrain de la collecte (DEM 5 ). Dans ce cadre, la proc´ edure de tirage d’un ´ echantillon S 1 de taille n 1 au sein de la population U peut ˆ etre d´ ecrite ainsi :
1. Tirage d’un premier ´ echantillon S 0 de taille n 0 > n 1 selon le plan de sondage choisi par la maˆıtrise d’ouvrage
2. Tirage de l’´ echantillon S 1 ⊂ S 0 de taille n 1 . En pratique, il s’agit souvent d’un tirage syst´ ematique sur fichier tri´ e sur une variable d´ ej` a concern´ ee par le mˆ eme type de tirage lors de la constitution de S 0 .
Le sch´ ema de la figure 3 illustre ce m´ ecanisme.
U
S 0 S 1
Figure 3 – Illustration du tirage en une vague
Les diff´ erents ensembles mis en jeu dans le tirage en une vague sont d´ esign´ es par : U = population
S 1 = ´ echantillon
S 0 − S 1 = ´ echantillon de r´ eserve
Tirage en deux phases Cette m´ ethode constitue un exemple de tirage en deux phases.
On rappelle que dans ce cadre les poids d´ efinis par : w k = w 0 k · w 1/0 k , o` u :
w 0 k = inverse des probabilit´ es de tirage de S 0 dans U w k 1/0 = inverse des probabilit´ es de tirage de S 1 dans S 0
onduisent ` a un estimateur sans biais (estimateur en expansion, voir par exemple [10]).
5. Direction Enquˆ etes M´ enages
2.2.2 Stock - tirage de la deuxi` eme vague
Dans le cas d’un tirage en deux vagues tel que celui pr´ esent´ e ici, il s’agit de tirer deux
´
echantillons : S 1 selon la m´ ethode pr´ esent´ ee au paragraphe 2.2.1, puis S 2 apr` es la fin de la collecte de S 1 . S 2 est tir´ e parmi les ´ el´ ements de l’ensemble S 0 − S 1 , qui appel´ e stock disponible pour la vague 2. La figure 4 illustre cette m´ ethode de tirage.
U
S 0 S 1
S
2Figure 4 – Illustration du tirage en 2 vagues
Les diff´ erents ensembles mis en jeu dans le tirage en deux vagues sont d´ esign´ es par : U = population
S 1 = ´ echantillon de premi` ere vague
S 0 − S 1 = stock disponible pour le tirage de deuxi` eme vague S 2 = ´ echantillon de deuxi` eme vague
S 1 ∪ S 2 = ´ echantillon total S 0 − S 1 − S 2 = ´ echantillon de r´ eserve
Le tirage de S 2 parmi le stock s’effectue de la mˆ eme mani` ere que le tirage de S 1 au sein de S 0 en premi` ere vague. Afin de disposer de la plus grande vari´ et´ e de profils pour un tirage optimal de l’´ echantillon prioris´ e S 2 , on constitue le stock le plus large possible : n 0 n 1 .
2.2.3 Fonction R
La fonction de “redimensionnement”
R :
( R n ) +∗ → ( R n ) +∗
→ R()
permet de construire un vecteur de probabilit´ es R() compatible avec les probabilit´ es d’inclusion ` a l’ordre 1 d’un tirage proportionnel au vecteur . peut ˆ etre vu comme un vecteur donnant la “taille” de chaque unit´ e de la population : dans ce cas R permet de construire un sondage ` a probabilit´ es in´ egales de taille fixe proportionnel ` a la taille. Il est
`
a noter que la fonction R n’est pas bijective.
2.2.4 Vecteur de sur-repr´ esentation
Comme expliqu´ e en 2.2.2, l’´ echantillon S 2 de deuxi` eme vague est s´ electionn´ e par tirage syst´ ematique (et poss` ede donc une taille fixe n 2 ). Les probabilit´ es d’inclusion d’ordre 1 π k 2/1 sont assign´ ees aux n Stock = n 0 − n 1 ´ el´ ements du stock ainsi :
π 2/1 = R()
est donc un vecteur de taille n 2 , nomm´ e vecteur de sur-repr´ esentation. On peut donner un exemple d’initialisation d’utilisation du vecteur tel qu’il est sp´ ecifi´ e pour ini- tialiser l’algorithme de recherche de l’optimum (voir 2.4) : afin de se conformer ` a l’esprit des simulations effectu´ es en phase pr´ eparatoire de l’op´ eration, on fixe k = 1 pour les fiches adresses ne pr´ esentant pas de profil sur- ou sous-prioris´ e, et on ajuste les k ≥ 1 (respec- tivement k ≤ 1) pour les unit´ es sous-repr´ esent´ ees (respectivement sur-repr´ esent´ ees) au sens de la fonction Γ.
De mˆ eme qu’en 2.2.1, il s’agit donc d’un tirage en deux phases, de S 2 au sein de S 0 . Les poids :
w k = w 0,k · 1 π k 2/1
o` u : w 0,k = poids de tirage de premi` ere phase de l’unit´ e k
constituent donc un estimateur sans biais pour le calcul des totaux sur la population U .
2.3 Simulation de la collecte
Notre approche consiste ` a simuler, ` a donn´ e, la collecte de vague 2, et ` a recueillir une pr´ ediction des param` etres de l’algorithme CURIOS pour le sc´ enario donn´ e.
2.3.1 Pr´ ediction de la collecte
On utilise une mod´ elisation logit de la non-r´ eponse en vague 1, et l’on utilise la pr´ ediction du mod` ele pour obtenir un vecteur de propensions ` a r´ epondre ˆ p. Les ˆ p k sont utilis´ ees pour la simulation (2.4).
L’utilisation du mod` ele logit co¨ıncide avec les mod` eles de correction de la non-r´ eponse classiquement utilis´ es ` a l’INSEE, incluant la correction de la non-r´ eponse appliqu´ ee en 2.3.3. Ceci nous permet de comparer notre mod´ elisation avec les standards INSEE en la mati` ere, et on se satisfait de retrouver des d´ eterminants classiques de la non-r´ eponse.
Cependant, la performance de l’algorithme CURIOS est plus d´ ependante de la qua-
lit´ e pr´ edictive du mod` ele que de sa qualit´ e explicative. La r´ egression logit propose un
mod` ele facilement interpr´ etable, mais peu pr´ edictif. Fonder la pr´ ediction en vague 2 sur
des algorithmes d’apprentissage (arbres de r´ egression, boosting, etc.) est une am´ elioration
envisag´ ee ` a moyen terme.
2.3.2 Simulation
Pour chaque unit´ e k de vague 2, on r´ ealise une exp´ erience de Bernoulli de probabilit´ e ˆ
p k , afin de simuler sa r´ eponse.
Le programme impl´ ementant l’algorithme CURIOS est ´ ecrit en Python, et utilise la programmation orient´ ee objet pour proposer une int´ egration modulaire des diff´ erentes typologies de variables (voir 4.3). Les algorithmes de tirage de S 0 sont vus comme des classes abstraites et ont vocation ` a ˆ etre r´ e-´ ecrits pour chaque enquˆ ete (bien que cer- taines m´ ethodes classiques, telle OCTOPUSSE, aient d´ ej` a ´ et´ e impl´ ement´ es). L’optimisa- tion lin´ eaire utilise les m´ ethodes du package scipy ([6]), et le traitement de donn´ ees le package pandas ([13]).
Le calcul est pour l’instant effectu´ e sur un seul CPU, et via l’interpr´ eteur Python. Il est envisag´ e ` a moyen terme d’´ ecrire les algorithmes de calcul sous Cython 6 pour b´ en´ eficier des avantages du code directement compil´ e. Les m´ ethodes de Monte-Carlo telles que celle utilis´ ee pour la simulation de la collecte se prˆ etent g´ en´ eralement bien ` a la parall´ elisation.
L’utilisation de calcul sur GPU (Graphical Processing Unit) permettrait d’augmenter drastiquement le nombre de simulations, et donc de diminuer la variance des estimateurs utiles donn´ es en 2.3.3.
2.3.3 Analyse de la collecte simul´ ee
Parmi les sc´ enarios possibles, on calcule les variables d’int´ erˆ et pour l’algorithme CU- RIOS ` a savoir : Σ(w CN R ), la dispersion des poids corrig´ es de la non-r´ eponse, et Γ(S), l’indicateur de repr´ esentativit´ e, d´ efini en 2.1.2. Pour chacune de ces valeurs, on calcule la variance empirique ˆ Σ qui permet de construire un intervalle de confiance sous l’hypoth` ese gaussienne asymptotique :
IC ˆ 95% (ˆ Γ) ≈ h
Γ ¯ − 2 ˆ Σ(ˆ Γ); ¯ Γ + 2 ˆ Σ(ˆ Γ) i
Et il en va de mˆ eme pour les w CN R . L’exactitude de l’hypoth` ese gaussienne importe peu, l’intervalle de confiance sert d’indicateur pour d´ ecider de d´ eclencher ou non un ´ echantillon prioris´ e en vague 2. En effet, on simule ´ egalement la collecte dans le cas o` u S 2 est tir´ e avec le mˆ eme plan que S 1 (c’est-` a-dire non prioris´ e), et l’on observe Σ(w CN R ) et Γ(S). Si ces valeurs ne sont pas contenues dans les intervalles de confiance correspondants, alors le sc´ enario envisag´ e (c’est-` a-dire le vecteur ) est r´ eput´ e permettre un gain significatif.
Dans le cas contraire, le sc´ enario ne permet pas d’envisager raisonnablement un gain sur les param` etres choisis.
Le calcul de la dispersion (anticip´ ee) des poids corrig´ es de la non-r´ eponse Σ(w CN R ) im- pose d’effectuer, pour chaque sc´ enario simul´ e, une correction de la non-r´ eponse. L’op´ eration de correction de la non-r´ eponse est appliqu´ ee aux poids w f inal d´ efinis en 2.5, de mani` ere
`
a reproduire exactement la phase de post-traitement de l’enquˆ ete. La correction de la non-r´ eponse doit r´ epliquer le plus fid` element possible la m´ ethode qui sera effectivement appliqu´ ee lors du post-traitement de l’enquˆ ete. On utilise donc la m´ ethode classique des
6. http://cython.org
GRH 7 , fond´ es sur une mod´ elisation par la r´ egression logistique. Le diff´ erents param` etres utilis´ es pour la m´ ethode des GRH correspondent ` a ceux propos´ es par Beaumont et Ha- ziza ([4]). Les variables utilis´ ees pour le mod` ele logit sont uniquement constitu´ ees des variables de la base de sondage. Aucune paradonn´ ee n’est pour l’instant utilisable pour cette op´ eration ` a l’INSEE, bien que l’utilisation de celles-ci permettraient d’am´ eliorer la pr´ edictivit´ e du mod` ele, et par l` a mˆ eme la qualit´ e des simulations, et donc de l’´ echantillon prioris´ e ([12]). Le calcul de Γ(S) = Γ(S 1 ∪ S 2 ) ne pose pas de probl` eme particulier.
2.4 Recherche de l’optimum
2.4.1 Algorithme de Nelder-Mead
La fonction d’optimisation E [Σ(w CN R ) + λ · Γ(S)] est tr` es bruit´ ee, en particulier car l’esp´ erance est estim´ ee par m´ ethode de Monte-Carlo. On choisit donc une m´ ethode d’op- timisation lin´ eaire peu sensible au bruit et qui ne repose pas sur un calcul de gradient : l’algorithme de Nelder-Mead, connu aussi sous le nom d’algorithme du simplexe.
Groupes d’optimisation
Le temps de calcul pour ´ evaluer la quantit´ e ` a optimiser ainsi que le nombre d’appels ` a cette fonction d’´ evaluation par l’algorithme du simplexe augmentent avec la dimension du probl` eme. Afin de ne pas faire exploser le temps de calcul, on effectue des regroupements de fiches adresses substituables. La valeur du k est la mˆ eme pour toutes les unit´ es au sein d’un groupe, ce qui permet de nettement r´ eduire la dimension du probl` eme, au prix toutefois d’une perte d’optimalit´ e qu’on se doit de contrˆ oler.
Concr` etement, toutes les unit´ es appartenant ` a un mˆ eme groupe d’optimisation seront consid´ er´ ees identiques. En termes de conception d’enquˆ ete, la question se pose de la substituabilit´ e de fiches adresses en fonction de leurs caract´ eristiques. Il convient donc : 1. d’optimiser le programme de r´ esolution de mani` ere ` a effectuer le moins de regrou-
pements possibles
2. d’effectuer les regroupements d’unit´ es les plus semblables possibles en regard de l’objectif de l’enquˆ ete
2.4.2 Optimums locaux et sc´ enarios
L’algorithme pr´ ec´ edent converge vers un optimum local, et non un optimum global.
L’optimum local vers lequel l’algorithme converge d´ epend du point ` a partir duquel la recherche est lanc´ ee. Afin de s’assurer de ne pas manquer les meilleurs optimums locaux existants, on relance l’algorithme de recherche plusieurs fois ` a partir de points parcourant ` a intervalles pr´ ed´ efinis l’ensemble de l’espace du probl` eme, selon la logique du “grid search”.
La taille de la grille parcourue est fix´ ee selon des crit` eres de temps machine.
L’algorithme d’optimisation lin´ eaire est gourmand en nombre d’appels ` a la fonction d’´ evaluation. Chaque appel de la fonction d’´ evaluation demande un temps de calcul cons´ equent pour assurer une pr´ ecision suffisante. Afin de diminuer le temps de calcul to- tal, l’´ evaluation de la fonction d’optimisation est effectu´ ee avec un nombre de simulations
7. Groupes de R´ eponse Homog` enes
faible lors de l’´ etape de “grid search”. On s´ electionne les optimums locaux int´ eressants, et on recherche plus finement leur localisation avec un nombre de simulations plus important
`
a partir des points o` u ils ont ´ et´ e d´ etect´ es lors de la premi` ere ´ etape.
La collection des optimums locaux obtenus permet de proposer plusieurs sc´ enarios de priorisation. Plusieurs crit` eres permettent ensuite de choisir le vecteur finalement impl´ ement´ e. On regarde tout d’abord la significativit´ e de l’am´ elioration attendue (au sens d´ ecrit en 2.3.3) sur les variables de contrˆ ole. Le sc´ enario pr´ esentant l’am´ elioration la plus significative n’est pas forc´ ement ` a retenir, notamment s’il conduit ` a des allocations tr` es d´ es´ equilibr´ ees faisant courir le risque de variances tr` es ´ elev´ ees sur des petits do- maines. En effet, l’algorithme CURIOS n’int` egre pas ` a ce stade de garde-fou permettant de se pr´ emunir contre ce type d’´ ecueil. Un autre aspect int´ eressant consiste ` a observer le nombre de FA anticip´ ees, calucl´ e ` a partir des ˆ p constitu´ es pour la simulation de la collecte de vague 2. Un sc´ enario permettant un fort gain en dispersion des poids associ´ e ` a une baisse drastique des taux de collecte pourrait conduire ` a une variance in fine plus ´ elev´ ee que sans mise en place de la priorisation. Le choix du sc´ enario doit donc se faire avec un regard critique, et en collaboration avec l’´ equipe en charge de la conception de l’enquˆ ete (voir 3.4).
On remarque ´ egalement qu’il n’existe pas un unique optimum global, car plusieurs k peuvent conduire au mˆ eme jeu de probabilit´ es d’inclusion d’ordre 1 (non-injectivit´ e de la fonction R). La d´ efinition de pourrait ˆ etre modifi´ ee de fa¸con ` a assurer cette propri´ et´ e.
2.5 Poids concat´ en´ es des vagues
L’obtention du vecteur optimum donne acc` es ` a w 2/1 = 1
π 2/1 , poids de tirage des unit´ es de vague 2, conditionnels ` a la collecte de vague 1. On cherche ensuite ` a constituer w f inal , les poids de l’´ echantillon total apr` es la vague 2 ` a partir des w 2/1 .
On utilise pour cela le principe de pond´ eration optimale d´ ecrit dans Ardilly ([10]). Dans la mˆ eme logique que la m´ ethode de partage des poids, il consiste ` a repond´ erer chaque
´
echantillon de mani` ere ` a assurer une variance de l’´ echantillon concat´ en´ e minimale. On obtient :
w f inal = n 1
n 1 + n 2 · w 1 + n 2
n 1 + n 2 · w 2/1
3 R´ esultats pour l’enquˆ ete Patrimoine 2014
3.1 Description de l’enquˆ ete
L’enquˆ ete Patrimoine est une enquˆ ete r´ ep´ et´ ee r´ eguli` erement depuis 1986 8 qui vise ` a
´
etudier le patrimoine moyen des fran¸cais, leur comportement vis-` a-vis de ce patrimoine (transmissions, achats...) en lien avec leur situation personnelle et professionnelle.
Le plan de sondage utilis´ e pour les enquˆ etes Patrimoine consiste ` a s´ electionner al´ eatoirement au sein de chacune des ZAE 9 un certain nombre de m´ enages, d´ etermin´ e selon la taille de la ZAE. Or, en plus de cet ´ echantillon dit standard, les responsables de l’enquˆ ete ont souhait´ e innover et suivre les recommandations de la BCE en sur repr´ esentant le haut de la distribution des patrimoines, comme le fait d´ ej` a la Fed. Cette sur repr´ esentation permet de tenir compte de l’h´ et´ erog´ en´ eit´ e importante de la queue de la distribution des patrimoines. En outre, ` a cette variation s’ajoute un ph´ enom` ene de non-r´ eponse ´ elev´ ee dans les tr` es hauts patrimoines, due ` a des difficult´ es d’acc` es, des r´ eticences ou une plus faible disponibilit´ e. Pour ces raisons, un second ´ echantillon dit “Hauts Patrimoines”
a ´ et´ e tir´ e en utilisant les sources fiscales parmi les individus ayant des patrimoines plus
´ elev´ es.
Dans chacun de ces ´ echantillons, les individus ont ´ et´ e stratifi´ es selon des caract´ eristiques professionnelles, sociales... :
— Pour l’´ echantillon standard, les 5 strates sont : les ind´ ependants ` a hauts revenus, les cadres, les personnes poss´ edant un revenu du patrimoine, les personnes ˆ ag´ ees, et le reste de la population. Cette stratification est usuelle dans les enquˆ etes Patrimoine.
— Pour l’´ echantillon “hauts patrimoines”, les 3 strates sont : les riches urbains, les riches en zone rurale, et les patrimoines plus faibles.
Cette stratification a permis une sur repr´ esentation de certains groupes (tels que les ind´ ependants pour l’´ echantillon standard) qui sont connus pour avoir un patrimoine moyen plus important. Finalement, le plan de sondage consistait ` a r´ ealiser deux ´ echantillons, en tirant ` a chaque fois dans chaque ZAE et chaque strate un nombre de FA d´ ependant de la taille de la ZAE et de l’importance suppos´ ee de la strate.
3.2 Particularit´ es pratiques pour la priorisation
Le travail pr´ eparatoire pour la priorisation a ´ et´ e effectu´ e par simulations ([12], [11]), sous l’hypoth` ese que l’op´ eration serait men´ ee sur les Fiches Adresse de la r´ eserve, r´ eparties dans tous les d´ epartements fran¸cais.
Pour des raisons organisationnelles, la d´ ecision a ´ et´ e prise de ne d´ eclencher l’op´ eration que pour une partie de l’´ echantillon : celui dont la collecte est g´ er´ ee par la DEM 10 ˆIle- de-France, c’est-` a-dire les d´ epartements de Paris, de la petite couronne (Hauts-de-Seine,
8. Tous les 6 ans jusqu’en 2010, le rythme a chang´ e depuis.
9. Zone d’Action Enquˆ eteur, unit´ e primaire des plans de sondage ` a l’INSEE
10. Direction Enquˆ etes M´ enages
Seine-Saint-Deins, Val-de-Marne) et des Yvelines. L’objectif de la priorisation consiste alors ` a maximiser l’information collect´ ee ` a coˆ ut donn´ e, dans le contexte de taux de r´ eponse faibles dans ces d´ epartements.
Afin de permettre d’anticiper le calcul des allocations avant la fin effective de la collecte de la premi` ere vague, la DEM ˆIle-de-France a organis´ e la remont´ ee des informations de prises de contact par les enquˆ eteurs. 25% de l’´ echantillon final est prioris´ e (appartient ` a la vague 2). Afin de satisfaire l’exigence de 6 semaines de dur´ ee de collecte expliqu´ ee dans [12], la fin de la collecte de l’enquˆ ete Patrimoine est repouss´ ee. La collecte de la vague 2 s’effectue du 1/1/2015 au 14/2/2015.
Au moment d’effectuer les simulations pour le calcul des allocations, une partie des m´ enages contact´ es mais pas encore rencontr´ es est consid´ er´ ee comme r´ epondante, de mani` ere ` a augmenter la significativit´ e des indicateurs d´ ecrits en 4.3. Cette anticipation permet de livrer les Fiches Adresses avant le d´ ebut de la collecte de vague 2, ce qui permet aux enquˆ eteurs de commencer le rep´ erage pour la vague 2 en avance (la vague 1 de collecte de Patrimoine 2014 prenait fin juste avant les fˆ etes de fin d’ann´ ees).
Enfin, afin d’assurer la couverture d’un maximum de communes des d´ epartements s´ electionn´ es pour la vague 2, les enquˆ eteurs s´ electionn´ es ont accept´ e de couvrir certaines communes situ´ ees hors de leur zone d’action suppos´ ee.
L’´ echantillon final de vague 2 doit finalement avoir une taille de 820 fiches adresses.
La r´ epartition entre les deux sous-´ echantillons au sens de l’allocation initiale est indiqu´ ee en table 1.
Echantillon ´ Taille
Total 820
Hauts Patrimoines 344 Patrimoines Standards 476
Table 1 – Taille des sous-´ echantillons pour la r´ egion de gestion ˆIle-de-France, r´ epartition selon l’allocation initiale
3.3 Statistiques descriptives
Le mod` ele logit choisi a pour ´ equation :
repondant ∼ typo commune + strate + statut occupation logement + type logement + sexe + indicatrice surface 3.3.1 Typologie de communes
La conception d’enquˆ ete indique que les fiches adresses des communes ` a revenu m´ edian
´
elev´ es ne sont pas substituables ` a des fiches adresses provenant d’autres communes pr´ esentant
des caract´ eristiques socio-d´ emographiques tr` es diff´ erentes, particuli` erement pour l’ˆIle-de-
France o` u les in´ egalit´ es sont tr` es marqu´ ees. Il nous faut donc s´ eparer ces diff´ erents profils
au sein des regroupements (voir 2.4.1).
Pour cela, on cr´ ee une typologie de communes de la r´ egion ˆIle-de-France ` a l’aide d’une m´ ethode de clustering (m´ ethode des centres mobiles) fond´ ee sur le revenu m´ edian et la tranche d’unit´ e urbaine de chaque commune. Il en r´ esulte 4 modalit´ es, que l’on peut d´ ecrire ainsi : Communes urbaines aux revenus ´ elev´ es / Communes rurales aux revenus
´
elev´ es / Communes urbaines aux revenus faibles / Communes rurales aux revenus faibles.
On remarque d’ailleurs par la suite que la typologie de communes n’est pas une variable
`
a fort R-indicateur (voir 3.3.2), et elle n’aurait pas ´ et´ e retenue pour la constitution des groupes d’optimisation sans la consigne sp´ ecifique de la conception d’enquˆ ete.
3.3.2 R-indicateurs
Les tables 2 et 3 donnent les R-indicateurs par variable pour les variables du mod` ele 3.3 ainsi que les R-indicateurs partiels inconditionnels pour les modalit´ es des variables aux R-indicateur par variable les plus forts.
R-indicateur global 0,9648
Variable R-indicateur Ecart-type ´
Typologie commune 0,0066 0,0135
Strate 0,0083 0,0162
Statut occupation logement 0,0098 0,0126
Type logement 0,0116 0,0130
Sexe personne de r´ ef´ erence 0,0005 0,0803 Surface logement (tranches) 0,0130 0,0121
Statut occupation R-indicateur
Locataire -0,0131
Propri´ etaire 0,0185
Type logement R-indicateur
Appartement -0,0100
Maison 0,0248
Surface logement R-indicateur
1 -0,021
2 0,007
3 0,020
Table 2 – R-indicateurs pour l’´ echantillon Patrimoines Standards
Lien avec le taux de collecte Dans les tables 2 et 3, les modalit´ es d´ eficitaires
poss` edent un R-indicateur n´ egatif. On peut l´ egitimement s’attendre ` a ce que les allo-
cations issues de CURIOS soient plus ´ elev´ ees sur ces modalit´ es. On peut se demander s’il
R-indicateur global 0,8848
Variable R-indicateur Ecart-type ´
Typologie commune 0,0157 0,0167
Strate 0,0090 0,0245
Statut occupation logement 0,0178 0,0162
Type logement 0,0291 0,0158
Sexe personne de r´ ef´ erence 0,0457 0,0147 Surface logement (tranches) 0,0287 0,0154
Type logement R-indicateur
Appartement -0,0168
Maison 0,0306
Sexe personne r´ ef´ erence R-indicateur
Homme 0,0345
Femme -0,0426
Surface logement R-indicateur
1 -0,0222
2 -0,0036
3 0,0261
Table 3 – R-indicateurs pour l’´ echantillon Hauts Patrimoines
existe un lien direct entre taux de collecte et modalit´ e ` a prioriser. On pr´ esente dans les tables 4 et 5 les taux de collecte pour les modalit´ es de statut d’occupation du logement et de type de logement. Il ressort que les modalit´ es d´ eficitaires au sens des R-indicateurs sont ´ egalement celles pour lequel le taux de collecte ` a la date d’´ etude est le plus faible (locataires, appartements). L’analyse est beaucoup moins ais´ ee pour les modalit´ es de la variable de surface en tranches (table 6) : si le taux de collecte des petites surfaces (moda- lit´ e 1) est largement inf´ erieur ` a celui des grandes surfaces (modalit´ e 3), et qu’il se con¸coit donc ais´ ement que la premi` ere soit sous-repr´ esent´ ee quand la seconde est sur-repr´ esent´ ee ; la modalit´ e 2 poss` ede un taux de collecte interm´ ediaire, et il est difficile d’intuiter son caract` ere sous ou sur repr´ esent´ e (sous-repr´ esent´ e dans le cas Patrimoines Standards). On peut se r´ ef´ erer ` a [12] pour une explication plus d´ etaill´ ee ` a ce sujet.
Statut occupation logement Taux de r´ eponse
Locataire 0.30
Propri´ etaire 0.38
Table 4 – Taux de collecte par statut d’occupation du logement
Type de logement Taux de r´ eponse
Appartement 0.34
Maison 0.41
Table 5 – Taux de collecte par type de logement Tranche de surface de logement Taux de r´ eponse
1 0.31
2 0.34
3 0.37
Table 6 – Taux de collecte par tranche de surface du logement
Par ailleurs, on constate des R-indicateurs globaux de l’ordre de 0.9. Cela signifie que les indicateurs utilis´ es ne parviennent pas ` a bien discriminer les d´ eterminants de la non- r´ eponse ` a ce stade de l’enquˆ ete. En se r´ ef´ erant ` a l’analyse effectu´ ee dans [12], cela cor- respond aux R-indicateur des stades peu avanc´ es de la collecte. Or, l’avancement est de l’ordre de 75% au moment o` u l’analyse des taux de collecte est effectu´ ee. Il s’agit donc plus probablement d’un effet de la taille r´ eduite de l’´ echantillon analys´ e, l’op´ eration ayant
´
et´ e d´ eclench´ ee uniquement dans certains d´ epartements de l’ˆIle-de-France, alors que les si- mulations de [12] avaient ´ et´ e effectu´ ees pour la France enti` ere. On peut d` es lors s’attendre
`
a de moins bons r´ esultats, notamment en termes de gains en variance, que ceux pr´ evus par simulation.
3.4 Sc´ enarios propos´ es
On effectue l’analyse de la sortie de CURIOS s´ epar´ ement pour les deux sous-´ echantillons
“Hauts Patrimoines” et “Patrimoines Standards”. Il aurait ´ et´ e tout ` a fait possible d’en- visager d’effectuer une optimisation conjointe int´ egrant les deux sous-´ echantillons, mais on souhaite d’abord s’assurer que l’allocation prioris´ ee permettrait un gain sur chaque sous-´ echantillon trait´ e s´ epar´ ement. En l’occurence, aucun sc´ enario permettant un gain si- gnificatif n’a ´ et´ e d´ ecel´ e pour le sous-´ echantillon “Hauts Patrimoines”, et il est finalement d´ ecid´ e de ne pas changer l’allocation pour l’´ echantillon “Hauts Patrimoines”.
On se concentre donc sur le sous-´ echantillon “Patrimoines Standards”. Comme indiqu´ e en partie 2.4, les sc´ enarios sont constitu´ es par les diff´ erents optimums locaux trouv´ es.
Dans notre cas, on trouve 3 optimums locaux dont seulement deux pr´ esentent un gain significatif (comme expliqu´ e en partie 2.3.3). On pr´ esente les allocations correspondant ` a ces optimums locaux en table 7. Le Sc´ enario 1 permet d’anticiper un gain de 3,5% en dispersion des poids ; le sc´ enario 2 un gain de 7,5%.
3.5 Allocation finale
Le regroupement pour l’optimisation est effectu´ e en croisant la typologie de communes
et les strates (voir 2.4.1). On pourrait penser que le sc´ enario 2, pr´ esentant un gain anticip´ e
nettement plus fort, serait l’option la plus int´ eressante. Cependant, l’´ etude conjointe avec
la conception d’enquˆ ete des allocations de la table 7 montre que le d´ es´ equilibre propos´ e
est tr` es important, et conduit notamment ` a d´ eprioriser la strate “cadres”, qui constitue
pourtant un domaine d’int´ erˆ et pour l’enquˆ ete. D’un point de vue m´ ethodologique, on
Typo. commune × strate Sans priorisation Sc´ enario 1 Sc´ enario 2
1 × ages 27 21 15
1 × independants 11 9 5
1 × revenus patrimoine 10 7 5
1 × cadres 75 62 45
1 × reste 49 69 86
2 × ages 1 0 0
2 × cadres 4 2 2
2 × reste 2 2 2
3 × ages 6 6 4
3 × independants 4 3 3
3 × revenus patrimoine 2 2 2
3 × cadres 21 19 10
3 × reste 7 10 16
4 × ages 47 38 25
4 × independants 19 13 8
4 × revenus patrimoine 8 5 3
4 × cadres 83 68 51
4 × reste 100 140 194
Table 7 – Allocations par groupes d’optimisation, sans priorisation et sc´ enario retenu cherche ` a s’assurer que les allocations ne d´ ependent pas trop fortement d’un mod` ele potentiellement mal sp´ ecifi´ e, d’autant que le nombre de fiches adresses du probl` eme laisse augurer d’une faible robustesse. Afin de limiter les risques, on retient finalement le sc´ enario 1.
On s’attendait ´ egalement ` a ce que les allocations prioris´ ees favorisent les fiches adresses appartenant ` a des groupes pour lesquels les taux de collecte sont les plus faibles. La pr´ evision du nombre de fiches adresses collect´ ees par sc´ enario en utilisant les ˆ p d´ etermin´ es en 2.3 nous semblait devoir ˆ etre plus faible pour les sc´ enarios prioris´ es. En fait il n’en est rien, les pr´ evisions de collecte s’´ etablissent ` a 195, 188 et 191 fiches adresses respectivement pour le sc´ enario non prioris´ e, le sc´ enario 1, et le sc´ enario 2. D’une part, la faible pr´ edictivit´ e du mod` ele logit sugg` ere que qu’il est difficile d’anticiper ce que sera r´ eellement le nombre final de fiches adresses collect´ ees. D’autre part, cette estimation repose sur l’hypoth` ese que les conditions de collecte sont strictement ´ equivalentes entre la vague 1 et la vague 2. Or en r´ ealit´ e, les enquˆ eteurs participant ` a l’op´ eration ne sont pas n´ ecessairement les mˆ emes, et les consignes pass´ ees par les DEM sont potentiellement diff´ erentes.
On recense dans la table 9 la variation en pourcentage du nombre de fiches adresses
pr´ esentes dans l’´ echantillon de vague 2 entre le sc´ enario retenu et l’allocation initiale
(non prioris´ ee) pour les modalit´ es “locataires”, “appartement” et “petites surfaces”. On
constate une nette augmentation, notamment pour la strate “reste de la population”, qui
constitue le r´ eservoir le plus important pour ces modalit´ es (voir table 8). Pour sch´ ematiser,
on peut consid´ erer que la deuxi` eme vague priorise les locataires urbains d’appartements
ou de petites surfaces.
Typo. commune × strate Locataires Appartements Petites surfaces
1 × ages 0.33 0.77 0.16
1 × independants 0.32 0.84 0.10
1 × revenus patrimoine 0.26 0.81 0.11
1 × cadres 0.36 0.84 0.17
1 × reste 0.78 0.92 0.38
(2,3) × ages 0.29 0.71 0.29
(2,3) × independants 0.38 0.85 0.15
(2,3) × revenus patrimoine 0.50 0.83 0
(2,3) × cadres 0.46 0.79 0.16
(2,3) × reste 0.64 0.56 0.48
4 × ages 0.40 0.79 0.18
4 × independants 0.27 0.63 0.10
4 × revenus patrimoine 0.32 0.73 0
4 × cadres 0.39 0.82 0.20
4 × reste 0.78 0.92 0.38
Table 8 – Part des locataires, appartements et petites surfaces (modalit´ e 1) par groupe d’optimisation
Typo. commune × strate Locataires Appartements Petites surfaces
1 × ages -0.17 -0.06 -0.08
1 × independants -0.18 0.01 -0.14
1 × revenus patrimoine -0.24 -0.02 -0.13
1 × cadres -0.14 0.01 -0.07
1 × reste 0.28 0.09 0.14
(2,3) × ages -0.21 -0.12 0.05
(2,3) × independants -0.12 0.02 -0.09
(2,3) × revenus patrimoine 0 0 -0.24
(2,3) × cadres -0.04 -0.04 -0.08
(2,3) × reste 0.14 -0.27 0.24
4 × ages -0.10 -0.04 -0.06
4 × independants -0.23 -0.20 -0.14
4 × revenus patrimoine -0.18 -0.10 -0.24
4 × cadres -0.11 -0.01 -0.04
4 × reste 0.28 0.09 0.14
Table 9 – Part des locataires, appartements et petites surfaces (modalit´ e 1) par groupe d’optimisation. Variation entre le sc´ enario propos´ e et le sc´ enario sans priorisation
Seules les variables de la base de sondages ont pu ˆ etre utilis´ ees pour construire les
mod` eles de simulation et de correction de la non-r´ eponse. On peut souhaiter que l’INSEE
se dote ` a moyen terme d’outils permettant le recueil de paradonn´ ees qui permettraient
une analyse plus fine, et donc une priorisation plus optimale (voir [12]). Enfin, il faut
souligner qu’on ne peut malheureusement pas ´ etablir un lien direct entre le gain anticip´ e
en dispersion des poids et le gain potentiel en variance. On peut se r´ ef´ erer ` a [1] pour une
analyse plus d´ etaill´ ee.
4 L’algorithme CURIOS simplifi´ e
Cette partie vise ` a poser les fondements d’un cadre plus th´ eorique pour la compr´ ehension du fonctionnement de l’algorithme CURIOS. Afin d’aboutir ` a une solution analytique du probl` eme, de nombreuses simplifications sont propos´ ees : en particulier, les R-indicateurs des parties pr´ ec´ edentes sont remplac´ es dans l’analyse par une fonction de distance ` a l’al- location initiale.
4.1 Objectif de l’algorithme
L’algorithme CURIOS consiste en la mise en œuvre d’un compromis entre plusieurs facteurs pouvant d´ efinir le ”bon” caract` ere d’un ´ echantillon : il s’agit ici de deux facteurs, la dispersion des poids corrig´ es de la non-r´ eponse (pour une discussion sur cet objectif, voir [1]) et la distance ` a une allocation initialement choisie pour l’´ echantillonnage.
La proximit´ e avec l’allocation initiale vient contrebalancer l’effet de minimisation de la dispersion des poids afin de conserver une structure d´ efinie par les concepteurs de l’enquˆ ete. Afin de tenir compte de la non-r´ eponse, et dans un souci de simplification, nous supposerons que cette allocation initiale est l’allocation de Neyman dans laquelle on consid` ere des pr´ evisions de comportement moyen de r´ eponse ˜ ρ dans les strates (cf
´
equation 4). Or il est bien connu que l’optimum de Neyman est plat (voir par exemple [9]), on conserve donc ses bonnes propri´ et´ es de minimisation de la variance des estimateurs
`
a distance faible de l’allocation initiale.
4.2 Un exemple simple
4.2.1 Principe de l’algorithme
L’algorithme CURIOS r´ ealise un arbitrage entre dispersion des poids corrig´ es de la non-r´ eponse et distance ` a l’´ echantillon initialement d´ etermin´ e par l’allocation de Neyman afin de d´ eterminer une nouvelle allocation. Usuellement, celle-ci ne peut ˆ etre r´ ealis´ ee que dans un second temps, une fois une partie de la collecte r´ ealis´ ee ; on se place ici dans un exemple simple pour lequel on connaˆıt d´ ej` a les caract´ eristiques de la population, et on peut ainsi intervenir sur l’allocation en d´ ebut de collecte. La population est s´ epar´ ee en deux groupes P i de taille N i avec un taux de r´ eponse uniforme ρ i . On rappelle que les poids corrig´ es de la non-r´ eponse p k CNR des n i individus r´ epondants de P i sont :
p k CNR = N i n i ρ i
On souhaite tirer un ´ echantillon de taille fixe n. On r´ ealise donc le programme de minimisation suivant :
n 1 f = argmin Disp(p k CNR ) + λ Dist((n 1 f , n 2 f ), (n 1 init , n 2 init )) (2)
o` u Disp est l’op´ erateur de dispersion autour de leur moyenne des poids corrig´ es de la
non-r´ eponse p k CNR , Dist est la distance euclidienne dans R 2 et n 2 f = n − n 1 f enti` erement
d´ efini par la donn´ ee de n 1 f .
Ce programme de minimisation ne d´ epend que de la constante λ ≥ 0 choisie. On remarque ais´ ement que lorsque λ → +∞, le terme de distance devient pr´ epond´ erant et on a (n 1 f , n 2 f ) = (n 1 init , n 2 init ). Dans le cas inverse, i.e λ → 0, on obtient une concentration de l’´ echantillon sur une des deux strates afin de limiter la dispersion des poids.
4.2.2 Choix du λ
Afin de pouvoir appliquer l’algorithme CURIOS, il nous faut choisir une valeur de λ.
Une premi` ere approche consiste ` a s’int´ eresser ` a la variance d’un estimateur de Horvitz- Thompson corrig´ e de la non-r´ eponse du total de X, variable d’int´ erˆ et de l’enquˆ ete. Celle-ci d´ epend de la valeur de λ via les tailles d’´ echantillons n i f obtenues pour une telle valeur.
On a le th´ eor` eme suivant :
Th´ eor` eme 1. Soit V (λ) la fonction de variance d’un estimateur du total de X pour les tailles d’´ echantillons n i f (λ). On suppose que l’on a l’hypoth` ese suivante :
N (ρ 1 − ρ 2 ) 2 (nρ 2 ) 3
4N + 3N ρ 2
− nρ 2
≤ g
n
"
1 +
N 2 2 ρ 1 N 1 2 ρ 2
1/4 # −1
(3)
o` u
g : x → − 2N 1 2
ρ 1 x 3 − 2N 2 2 ρ 2 (n − x) 3
Alors V (λ) est d´ ecroissante et sa d´ eriv´ ee seconde admet un maximum dans ]0, +∞[ qu’on appelle point de torsion de V (λ).
On veut prendre λ au point de torsion de la courbe, qui est aussi un point d’inflexion de sa d´ eriv´ ee ; en effet, cela permet d’ˆ etre suffisamment proche du plateau de variance dˆ u
`
a la proximit´ e de l’allocation de Neyman, qui est un optimum plat, tout en limitant au maximum la valeur de λ et donc la dispersion des poids corrig´ es de la non-r´ eponse.
La d´ etection du point d’inflexion de la d´ eriv´ ee est un probl` eme complexe num´ eriquement.
Il peut ˆ etre souhaitable de rechercher une m´ ethode ad hoc de calcul d’une valeur de λ
“acceptable”, au sens o` u celle-ci est ` a droite du coude, sur le plateau de variance. En effet, se trouver ` a gauche du coude induirait une variance de l’estimation du total de X bien sup´ erieure, ce qui est ` a ´ eviter, mˆ eme pour gagner un peu en dispersion des poids.
On d´ efinit λ num de telle sorte que chacun des termes de l’´ equation 2 participe de fa¸con
´
egale au terme ` a minimiser, les deux composantes - dispersion des poids CNR et ´ ecart ` a l’allocation de Neyman - ´ etant ´ egalement importantes dans le choix d’une nouvelle allo- cation. On ´ ecrit donc une proc´ edure visant ` a ´ egaliser les deux termes de l’´ equation 2. La conjecture suivante affirme que la valeur obtenue par la m´ ethode num´ erique se situe bien sur le plateau obtenu ` a droite du coude.
Conjecture 1. Si l’hypoth` ese (3) est v´ erifi´ ee, on a :
λ num ≥ λ coude
4.2.3 Simulations
D´ efinition de la population On s’int´ eresse ` a une variable X sur une population s´ epar´ ee en deux groupes distincts : les “patrimoines standards” qui sont nombreux (N 1 = 10 5 ) et qui sont plutˆ ot bons r´ epondants (ρ 1 = 0.6), mais qui ont des valeurs de X peu dis- pers´ ees (V 1 = 1), et les “hauts patrimoines”, qui sont moins nombreux (N 2 = 10 4 ), moins bons r´ epondants (ρ 2 = 0.4), et avec une grande dispersion des valeurs de X (V 2 = 100).
On supposera que X est gaussienne afin de simplifier les simulations.
Dans ce cadre, l’hypoth` ese (3) est v´ erifi´ ee : en effet, le terme de gauche vaut environ 10890, tandis que la fonction g est toujours n´ egative et atteint son maximum en -13750.
On peut donc bien utiliser l’algorithme CURIOS dans ce cas.
Echantillonnage ´ On r´ ealise un sondage al´ eatoire simple stratifi´ e sur les deux popula- tions pr´ ec´ edemment mises en avant. Pour cela, il nous faut d´ efinir n 1 init et n 2 init les tailles des ´ echantillons sur chacune des deux populations dans le plan de sondage initial. On fixe la taille de l’´ echantillon total n = 200.
On r´ ealise une allocation optimale de Neyman vis ` a vis de la variable X, avec prise en compte des taux de r´ eponse anticip´ es par strates [5], pour d´ eterminer n 1 init et n 2 init :
n i init = n
N √
iS
iρ
iP 2 i=1
N √
iS
iρ
i(4) o` u S i est la dispersion de X dans la population P i . On obtient n 1 init = 90 et n 2 init = 110.
R´ esultats En appliquant le programme de minimisation avec le λ num = 7352.131 obtenu par la m´ ethode num´ erique de calcul de la partie 4.2.2, on obtient les r´ esultats suivants :
n 1 init = 90 n 2 init = 110 n 1 f = 137 n 2 f = 63
On remarque que le nombre d’individus ´ echantillonn´ es dans la population de “patri- moines standards” a augment´ e par rapport ` a l’´ echantillon initial : cela est dˆ u ` a l’effet de minimisation de dispersion des poids finaux, ceux-ci ´ etant plus importants dans la popu- lation de “patrimoines standards”, qui sont plus nombreux mˆ eme si meilleurs r´ epondants.
On remarque ´ egalement que la solution obtenue n’est pas extrˆ eme - ni (90,110) ni (200,0) - ce qui est un r´ esultat int´ eressant.
La fonction V (λ) obtenue par simulations et calcul de la variance empirique est en Figure 5. On remarque la d´ ecroissance et la pr´ esence d’un coude de la fonction, c’est ` a dire d’un point de torsion, situ´ e ` a λ coude ≈ 3000 ≤ λ num , ce qui satisfait ` a la conjecture.
L’application de l’algorithme CURIOS ` a un exemple simple permet de constater qu’il
a un comportement non trivial, diff´ erent de celui de l’allocation de Neyman.
●●●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●●
●
●
●●●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●●●
●
●●
●
●
●
●●
●
●●
●
●
●●●
●
●●●●
●●
●
●
●
●●
●●●●●
●
●●●●●
●●●●●●
●●●
●●
●●
●●
●●
●
●●
●
●●
●
●
●●●
●
●●
●
●●
●
●
●
●●●
●
●
●●●
●
●
●
●
●●●
●●
●
●
●
●●
●●●
●
●●●
●
●●
●●
●
●●
●
●
●
0 2000 4000 6000 8000 10000
2e+123e+124e+125e+126e+12
lambda
variance de l'estimateur du total