Décomposition de la variance due à l’imputation au niveau du non- répondant

(1)

Décomposition de la variance due à l’imputation au niveau du non-

répondant

Présenté par Keven Bosa

Keven Bosa, Serge Godbout, Frédéric Picard et Fraser Mills

(2)

Plan de la présentation

 But du projet

 Exposé théorique

 Contribution d’une unité aux diverses composantes de la variance

 Conclusions

(3)

But du projet

 Estimer la contribution d’une donnée imputée dans l’estimation de la variance pour un total.

 Pourquoi? Pour prioriser

• Suivis de non-réponse

• Suivis pour erreur de vérification

• Vérifications manuelles – unité influentes

(4)

Simplification

 Pour faciliter la compréhension et simplifier la notation, on supposera :

• Une seule variable d’intérêt

• Un seul domaine d’intérêt

• Estime un total pour un domaine d



(5)

Estimation d’un total

• : estimation du total

• : ensemble des répondants

• : ensemble des non-répondants

• : valeur de la variable d’intérêt pour l’unité

• : valeur imputée de la variable d’intérêt pour l’unité

• : poids de sondage ou poids après calage pour l’unité

• : indicateur d’appartenance au domaine pour l’unité



(6)

Schéma

Population U

,

() ()

(7)

Modèle d’imputation

 Pour être en mesure d’estimer la variance totale de , on considère le modèle d’imputation

 Méthodes d’imputation linéaires requises



(8)

Imputation linéaire

 Une méthode d’imputation est dite linéaire si la valeur imputée peut s’écrire :

• et ne dépendent pas de la variable d’intérêt , mais peuvent dépendre de et (dépendent aussi de la méthode d’imputation)

• Ex. imputation par la moyenne :



(9)

Variance

 Cadre provient de :

• Särndal (1992) : base

• Beaumont, J.-F. et Bissonnette, J. (2011)

 Erreur totale :

• : Total dans le domaine d

• : estimation de s’il n’y a pas d’imputation (pas de non-réponse)

• : estimation de en présence d’imputation

 Variance totale



(10)

Variance

 Variance due à l’échantillonnage

• = : Estimation naïve de la variance d’échantillonnage

• Un terme d’ajustement de la variance d’échantillonnage car l’imputation a tendance à sous-estimer la variance

d’échantillonnage

 Composantes dues à la non-réponse

• = : Variance due à la non-réponse

• = 2: Terme de covariance



(11)

Estimation de la variance

 : Estimation classique en utilisant les probabilités de sélection



(12)

Suppose qu’une seule unité passe de à

Population U ,

() ()

�

(13)

 Idée : écrire comme une simple somme linéaire sur

• Le ‘point’ représente une des 4 composantes de la variance (ORD, DIFF, NR, MIX)

• Contribution de l’unité sur :

• On verra que dépend de



Comment évaluer l’impact de l’unité

(14)

Contribution de l’unité à

 Dépend des probabilités de sélection et des valeurs

• Probabilités de sélection : constantes et connues

• Valeur : observée ou imputée (meilleure prédiction)

 On suppose que la conversion d’une unité n’a pas d’impact sur le terme

• Notation

• Hypothèse 2:

• La valeur observée suite à la conversion de l’unité () est égale à la valeur qu’on avait imputée ()



(15)

 On a que :

 La contribution de l’unité non-répondante sur le terme est donc notée



Contribution de l’unité à

�

_�

( ^� ^{^}

_��

)

(16)

Contribution de l’unité à

Contribution de l’unité



�

_2�

( ^� ^{^}

_��

)

�

₁_�

( ^� ^{^}

_��

)

(17)

Contribution de l’unité à

Contribution de l’unité



�_��

(

^�^{^}��

)

_�_��

(

^�^{^}_��

)

_�

��

(

^�^{^}_��

)

(18)

Hypothèses requises

 Hypothèse 1 : on suppose qu’une unique unité passe de à

 Hypothèse 2 :

 Hypothèse 3 : estimations des paramètres reliés au modèle d’imputation demeurent inchangées :

1. Les estimations des et des sont inchangées après la conversion de l’unité 2. n’est pas utilisée pour imputer d’autres unités non-répondantes

 on aura :



(19)

Exemple fictif

Variance

40 60 80 100 120 140 160 180 200

La contribution d'une unité sur la variance

(20)

Conclusions

 But de la présentation : quantifier la contribution de chaque unité imputée sur la variance

• Réduction de variance si l’unité est convertie à répondante

• Réduction

• Applications

• Suivi de la collecte (voir Mills, F et coll. (2013))

• Suivi de non-réponse, suivi auprès du répondant pour

‘erreur de vérification’

• Conclusion : il est possible d’améliorer le qualité tout en réduisant les coûts de collecte



(21)

Généralisation

 Bosa et Godbout (2014) ont documenté cette méthodologie dans le contexte du Programme intégré de la statistique des entreprises à

Statistique Canada

• Utilisant un CV au lieu de la variance

• Plusieurs variables

• Plusieurs domaines

• Cibles de qualité

(22)

Bibliographie

 Särndal, C.-E (1992). Méthodes pour estimer la precision des estimations d’une enquête ayant fait l’objet d’une imputation. Techniques d’enquête, Décembre 1992 171, Vol. 18, No. 2, pp. 257-268. Statistique Canada.

 Beaumont, J.-F. et Bissonnette, J. (2011). Estimation de la variance sous imputation composite : méthodologie programmée dans le SEVANI.

Techniques d’enquête, Décembre 2011 171, Vol. 37, No. 2, pp. 171-179.

Statistique Canada.

 Bosa, K. and Godbout, S. (2014). IBSP Quality Measures – Methodology Guide. Business Survey Methods Division. Internal document.

 Mills, F., Godbout, S., Bosa, K. and Turmelle, C. (2013). Multivariate

Selective Editing in the Integrated Business Statistics Program. Proceedings of the Joint Statistical Meeting 2013 - Survey Research Methods Section.

(23)

Décomposition de la variance due à l’imputation au niveau du non- répondant