Décomposition de la variance due à l’imputation au niveau du non-
répondant
Présenté par Keven Bosa
Keven Bosa, Serge Godbout, Frédéric Picard et Fraser Mills
Plan de la présentation
But du projet
Exposé théorique
Contribution d’une unité aux diverses composantes de la variance
Conclusions
But du projet
Estimer la contribution d’une donnée imputée dans l’estimation de la variance pour un total.
Pourquoi? Pour prioriser
• Suivis de non-réponse
• Suivis pour erreur de vérification
• Vérifications manuelles – unité influentes
Simplification
Pour faciliter la compréhension et simplifier la notation, on supposera :
• Une seule variable d’intérêt
• Un seul domaine d’intérêt
• Estime un total pour un domaine d
Estimation d’un total
• : estimation du total
• : ensemble des répondants
• : ensemble des non-répondants
• : valeur de la variable d’intérêt pour l’unité
• : valeur imputée de la variable d’intérêt pour l’unité
• : poids de sondage ou poids après calage pour l’unité
• : indicateur d’appartenance au domaine pour l’unité
Schéma
Population U
,
() ()
Modèle d’imputation
Pour être en mesure d’estimer la variance totale de , on considère le modèle d’imputation
suivant :
Où est la matrice contenant les vecteurs de variables auxiliaires observées
Méthodes d’imputation linéaires requises
Imputation linéaire
Une méthode d’imputation est dite linéaire si la valeur imputée peut s’écrire :
• et ne dépendent pas de la variable d’intérêt , mais peuvent dépendre de et (dépendent aussi de la méthode d’imputation)
• Ex. imputation par la moyenne :
Variance
Cadre provient de :
• Särndal (1992) : base
• Beaumont, J.-F. et Bissonnette, J. (2011)
Erreur totale :
• : Total dans le domaine d
• : estimation de s’il n’y a pas d’imputation (pas de non-réponse)
• : estimation de en présence d’imputation
Variance totale
Variance
Variance due à l’échantillonnage
• = : Estimation naïve de la variance d’échantillonnage
• Un terme d’ajustement de la variance d’échantillonnage car l’imputation a tendance à sous-estimer la variance
d’échantillonnage
Composantes dues à la non-réponse
• = : Variance due à la non-réponse
• = 2: Terme de covariance
Estimation de la variance
: Estimation classique en utilisant les probabilités de sélection
Suppose qu’une seule unité passe de à
Population U ,
() ()
�
�
Idée : écrire comme une simple somme linéaire sur
• Le ‘point’ représente une des 4 composantes de la variance (ORD, DIFF, NR, MIX)
• Contribution de l’unité sur :
• On verra que dépend de
Comment évaluer l’impact de l’unité
Contribution de l’unité à
Dépend des probabilités de sélection et des valeurs
• Probabilités de sélection : constantes et connues
• Valeur : observée ou imputée (meilleure prédiction)
On suppose que la conversion d’une unité n’a pas d’impact sur le terme
• Notation
• Hypothèse 2:
• La valeur observée suite à la conversion de l’unité () est égale à la valeur qu’on avait imputée ()
On a que :
La contribution de l’unité non-répondante sur le terme est donc notée
Contribution de l’unité à
�
�( � ^
���)
Contribution de l’unité à
Contribution de l’unité
�
2�( � ^
���)
�
1�( � ^
���)
Contribution de l’unité à
Contribution de l’unité
���
(
�^��)
���(
�^��)
���
(
�^��)
Hypothèses requises
Hypothèse 1 : on suppose qu’une unique unité passe de à
Hypothèse 2 :
Hypothèse 3 : estimations des paramètres reliés au modèle d’imputation demeurent inchangées :
1. Les estimations des et des sont inchangées après la conversion de l’unité 2. n’est pas utilisée pour imputer d’autres unités non-répondantes
on aura :
Exemple fictif
Variance
40 60 80 100 120 140 160 180 200
La contribution d'une unité sur la variance
Conclusions
But de la présentation : quantifier la contribution de chaque unité imputée sur la variance
• Réduction de variance si l’unité est convertie à répondante
• Réduction
• Applications
• Suivi de la collecte (voir Mills, F et coll. (2013))
• Suivi de non-réponse, suivi auprès du répondant pour
‘erreur de vérification’
• Conclusion : il est possible d’améliorer le qualité tout en réduisant les coûts de collecte
Généralisation
Bosa et Godbout (2014) ont documenté cette méthodologie dans le contexte du Programme intégré de la statistique des entreprises à
Statistique Canada
• Utilisant un CV au lieu de la variance
• Plusieurs variables
• Plusieurs domaines
• Cibles de qualité
Bibliographie
Särndal, C.-E (1992). Méthodes pour estimer la precision des estimations d’une enquête ayant fait l’objet d’une imputation. Techniques d’enquête, Décembre 1992 171, Vol. 18, No. 2, pp. 257-268. Statistique Canada.
Beaumont, J.-F. et Bissonnette, J. (2011). Estimation de la variance sous imputation composite : méthodologie programmée dans le SEVANI.
Techniques d’enquête, Décembre 2011 171, Vol. 37, No. 2, pp. 171-179.
Statistique Canada.
Bosa, K. and Godbout, S. (2014). IBSP Quality Measures – Methodology Guide. Business Survey Methods Division. Internal document.
Mills, F., Godbout, S., Bosa, K. and Turmelle, C. (2013). Multivariate
Selective Editing in the Integrated Business Statistics Program. Proceedings of the Joint Statistical Meeting 2013 - Survey Research Methods Section.