• Aucun résultat trouvé

Estimation efficace en présence de non-réponse dans les enquêtes

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation efficace en présence de non-réponse dans les enquêtes"

Copied!
77
0
0

Texte intégral

(1)
(2)
(3)

Université de Montréal

Estimation efficace en présence de non-réponse dans

les enquêtes

par

Yimeng Gao

Département de mathématiques et de statistique Faculté des arts et des sciences

Mémoire présenté à la Faculté des études supérieures en vue de l’obtention du grade de

Maître ès sciences (M.Sc.) en Statistique

18 mars 2019

c

(4)
(5)

Université de Montréal

Faculté des études supérieures

Ce mémoire intitulé

Estimation efficace en présence de non-réponse dans

les enquêtes

présenté par

Yimeng Gao

a été évalué par un jury composé des personnes suivantes : Christian Léger (président-rapporteur) David Haziza (directeur de recherche) Pierre Duchesne (membre du jury) Mémoire accepté le : Date d’acceptation

(6)
(7)

SOMMAIRE

L’utilisation efficace d’informations auxiliaires pour l’estimation des paramètres descrip-tifs dans une population finie en présence de non-réponse totale est devenue assez courante. Ce mémoire porte sur des procédures de repondération qui impliquent une modification du poids des répondants pour traiter la non-réponse totale. Une approche communément utilisée est l’ajustement par le score de propension qui consiste à multiplier le poids de base par l’inverse de la probabilité de réponse estimée obtenue au moyen d’un modèle de réponse. Afin d’améliorer l’efficacité de l’estimateur ajusté par score de propension, nous proposons une méthode basée sur le calage assisté par un modèle. Cette méthode consiste à modéliser la relation entre des variables d’intérêt identifiées comme clés et un vecteur de variables auxiliaires, puis à incorporer les informations auxiliaires dans des valeurs prédites obtenues par le modèle et ce qui conduira à un système de pondération unique. L’estimateur résultant peut améliorer l’efficacité des estimations en utilisant davantage l’information auxiliaire disponible. Une étude par simulation évalue les propriétés des estimateurs proposés en termes de biais et d’erreur quadratique moyenne.

Mots clés : Calage, calage assisté par un modèle, estimateur ajusté par le score de pro-pension, information auxiliaire, non-réponse, repondération.

(8)
(9)

SUMMARY

The efficient use of auxiliary information for estimating descriptive parameters in a finite population in the presence of unit nonresponse has become quite common. This thesis deals with reweighting procedures that involve a change in respondent weight to address unit non-response. A known approach is the propensity score adjustment, which consists of multiplying the base weight by the inverse of the estimated response probability obtained using a response model. In order to improve the efficiency of the propensity score adjusted estimators, we propose a method based on model calibration. This method involves modeling the relationship between survey variables identified as key variables and a vector of auxiliary variables on incorporating the auxiliary information into predicted values obtained by the model, which leads to a single weighting system. The resulting estimator can improve efficiency by making more use of the available auxiliary information. A simu-lation study evaluates the properties of the estimators in terms of bias and mean square error. Key words : Auxiliary information, calibration, model calibration, non-response, propen-sity score adjusted estimator, re-weighting.

(10)
(11)

TABLE DES MATIÈRES

Sommaire. . . . v

Summary. . . . vii

Liste des tableaux. . . . xi

Liste des figures. . . . xiii

Remerciements . . . . xv

Introduction. . . . 1

Chapitre 1. Théorie de l’échantillonnage et du calage . . . . 3

1.1. Notions d’échantillonnage. . . 3

1.2. L’estimateur par la régression généralisée. . . 6

1.3. Calage conventionnel. . . 9

1.4. Calage assisté par un modèle. . . 12

Chapitre 2. La non-réponse. . . . 15

2.1. Introduction. . . 15

2.2. Mécanisme de non-réponse. . . 16

2.3. Biais, variance et erreur quadratique moyenne. . . 17

2.4. L’estimateur non-ajusté. . . 19

2.5. Estimateur ajusté par score de propension. . . 20

2.6. Calage après ajustement de la non-réponse. . . 21

Chapitre 3. Targeting key survey variables at the nonresponse treatment stage. . . . 23

3.1. Introduction. . . 23

(12)

3.2. Theoretical set-up. . . 25

3.3. The proposed method. . . 28

3.4. Asymptotic properties. . . 30

3.5. Jackknife variance estimation. . . 33

3.6. Simulation study. . . 34 3.7. Additional remarks. . . 40 References. . . 42 Appendix. . . 44 A : Regularity conditions . . . 44 B : Proof of Theorem 1 . . . 44 C : Proof of Theorem 2 . . . 45 Chapitre 4. Conclusion . . . . 49 Bibliographie. . . . 51 Annexe A. Équivalence des deux expressions de la variance de

l’estimateur de Horvitz-Thompson. . . . A-i Annexe B. Expression de l’estimateur par calage assisté par un modèle B-i

(13)

LISTE DES TABLEAUX

3. 1 Percent relative bias and relative efficiency (in parentheses) of several

estimators for Population 1 and ignorable nonresponse. . . 37

3. 2 Percent relative bias and relative efficiency (in parentheses) of several

estimators for Population 2 and ignorable nonresponse. . . 37

3. 3 Percent relative bias and relative efficiency (in parentheses) of several

estimators for Population 3 and ignorable nonresponse. . . 38

3. 4 Percent relative bias and relative efficiency (in parentheses) of several

estimators for Population 1 and nonignorable nonresponse. . . 38

3. 5 Percent relative bias and relative efficiency (in parentheses) of several

estimators for Population 4 and ignorable nonresponse. . . 40

(14)
(15)

LISTE DES FIGURES

2.1 Représentation de la non-réponse. . . 16

(16)
(17)

REMERCIEMENTS

Je souhaite exprimer mon profond remerciement et ma gratitude à mon directeur de recherche, David Haziza. Je le remercie de m’avoir orientée, aidée, conseillée et soutenue tout au long de ce mémoire. Son enthousiasme inspirant m’a grandement stimulée. Je suis très reconnaissante de sa patience et de ses encouragements au cours des deux dernières années. Je suis redevable du soutient qu’il m’a donnée sur mes études, de sa disponibilité et rapidité pour répondre à mes questions. Ses conseils de rédaction étaient très précieux pour la réussite de mon mémoire. Merci pour l’avoir relu et corrigé.

Un grand merci également à Sixia Chen pour son travail et sa contribution inestimable à écrire et à rédiger l’article.

Un gros merci à mes professeurs, Christian Léger et Pierre Duchesne, pour avoir accédé à la requête de lire mon mémoire. Ils m’ont consacrée beaucoup de temps et cela m’a aidée pour la réussite de mes études.

Je suis aussi très reconnaissante à ma famille pour leur confiance absolue et leur amour en moi. Ils m’ont encouragée et soutenue tout le temps. Enfin, je remercie tous mes ami(e)s pour leur sincère amitié et confiance.

(18)
(19)

INTRODUCTION

Le rôle des enquêtes est devenu de plus en important au cours des dernières décennies dans nos sociétés. Mais les estimations produites au cours d’une enquête sont sujettes à de multiples erreurs non dues à l’échantillonnage : erreurs dues à la non-réponse, erreurs de couverture, erreurs de mesure, etc. Ces erreurs peuvent nuire considérablement à la qualité des estimations produites.

Dans ce mémoire, nous focalisons sur le traitement de la non-réponse totale. Dans les enquêtes, il est de coutume de distinguer la non-réponse totale de la non-réponse partielle. La non-réponse totale se traduit par l’absence totale d’information sur une unité échantillonnée. Dans le cas d’une non-réponse partielle, l’absence d’information est limitée à certaines (mais pas toutes les) variables de l’enquête. La non-réponse partielle est habituellement traitée au moyen de procédures d’imputation : chaque valeur manquante est remplacée par une valeur construite au moyen d’un modèle, appelé modèle d’imputation. Le traitement de la non-réponse partielle dépasse le cadre de ce mémoire. La non-réponse totale est, quant à elle, traitée au moyen d’une procédure de repondération qui consiste à éliminer les non-répondants du fichier de données et d’ajuster à la hausse le poids des unités répondantes afin de compenser pour l’élimination des unités non-répondantes. Dans sa version la plus simple, la repondération consiste à multiplier par deux le poids des unités répondantes lorsque le taux de réponse est de 50%. L’hypothèse sous-jacente est que chaque répondant, une fois son poids ajusté, représente deux unités dans l’échantillon original : lui-même et un non-répondant. En pratique, cette version de la repondération n’est jamais utilisée telle quelle, car elle repose sur une hypothèse forte et dans la plupart des cas irréaliste : les répondants et les non-répondants exhibent les mêmes comportements en termes des variables de l’enquête.

Les méthodes de repondération utilisées en présence de non-réponse totale reposent sur la disponibilité d’une information auxiliaire. Dans un contexte de non-réponse, on appelle information auxiliaire un ensemble de variables disponibles pour toutes les unités échantillonnées (répondants et non-répondants). Cette information permet d’obtenir des

(20)

estimations des probabilités de réponse utilisées afin de construire des estimateurs ajustés pour la non-réponse, souvent appelés estimateurs ajustés par score de propension (PSA). Si le modèle utilisé afin d’obtenir les probabilités estimées est correctement spécifié, l’estimateur est convergent quelque soit la variable d’intérêt considérée. Cependant, si le modèle inclut des variables explicatives qui ne sont pas liées aux variables de l’enquête, les estimateurs PSA tendent à être inefficaces. Pour contrer ce problème, il est possible d’utiliser une procédure de calage dans le but d’améliorer l’efficacité des estimateurs PSA.

Au chapitre 1, nous présentons des définitions et concepts de base de l’inférence pour des populations finies. Les concepts de plan de sondage et de probabilité d’inclusion sont présentés. L’estimateur de Horvitz-Thompson et ses propriétés sont discutées. Lorsqu’une information auxiliaire est disponible à l’étape de l’estimation, il est possible de construire des estimateurs incorporant cette information. L’estimateur par la régression généralisée et les estimateurs par calage seront également discutés. En l’absence d’erreurs non dues à l’échantillonnage, ces estimateurs sont asymptotiquement sans biais et ils sont généra-lement efficaces lorsque la relation entre la variable d’intérêt et les variables auxiliaires est linéaire et forte. En pratique, on collecte très fréquemment des variables catégorielles, ce qui rend les modèles linéaires inadéquats. Pour parer à ce problème, on peut avoir recours à des estimateurs par la régression non-linéaire ou à un calage assisté par un modèle. Ces méthodes cloront le chapitre 1. Au chapitre 2, un bref survol de différents concepts associés à la non-réponse seront présentés. Ainsi, nous introduirons le concept de mécanisme de réponse, de biais et de variance dus à la non-réponse. Enfin, nous présen-terons des estimateurs fréquemment utilisés : les estimateurs ajustés par score de propension. Le chapitre 3 constitue le cœur de ce mémoire. Dans ce chapitre, nous proposons une nouvelle procédure de repondération de la non-réponse qui permet d’améliorer la qualité des estimations pour des variables identifiées comme variables clés de l’enquête. La nouvelle procédure conduit à un système de pondération unique qui peut être appliqué à toutes les variables de l’enquête. Ce système de pondération a comme particularité de prendre en compte la spécificité de chaque variable clé, ce qui n’a pas, à notre connaissance, été discuté dans la littérature existante. Le chapitre 3 est un article dont le titre est “Targeting key survey variables at the nonresponse treatment stage” co-écrit par D. Haziza, S. Chen et Y. Gao. Cet article a été récemment soumis à une revue de statistique. J’ai contribué à l’élaboration de cet article en participant à la construction des programmes (SAS) permettant d’effectuer les différentes études par simulation. Finalement, une conclusion et des pistes de recherche futures sont discutées dans le chapitre 4.

(21)

Chapitre

1

THÉORIE DE L’ÉCHANTILLONNAGE ET DU

CALAGE

1.1. Notions d’échantillonnage

Considérons une population finie U avec N éléments distincts. Nous cherchons à estimer le total dans la population d’une variable d’intérêt y, noté ty =

P

i∈U yi. Un échantillon s de

taille n est sélectionné de la population selon un plan de sondage p(s). Soit Ω l’ensemble de tous les échantillons possibles. Un plan de sondage p(s) assigne à chaque échantillon s ∈ Ω une probabilité d’être tiré telle que :

(i) p(s) ≥ 0, ∀s ∈ Ω ; (ii) P

s∈Ωp(s) = 1.

Pour l’individu i de la population U , nous introduisons une variable indicatrice de sélection définie par

Ii =

  

1 si l’unité i est sélectionnée dans l’échantillon s, 0 sinon.

La probabilité d’inclusion d’ordre un de l’unité i, notée πi, est définie comme

πi = P (i ∈ s) = P (Ii = 1) =

X

s∈Ω s3i

p(s).

Cette probabilité peut être interprétée comme la proportion pondérée des échantillons conte-nant l’unité i. De manière similaire, la probabilité d’inclusion d’ordre deux, notée πij, est

définie comme πij = P (i ∈ s, j ∈ s) = P (Ii = 1, Ij = 1) = X s∈Ω s3(i,j) p(s). Nous avons πii= πi si i = j et πij = πji.

(22)

Soient Ep(·), Vp(·) et Covp(·) l’espérance, la variance et la covariance par rapport au plan

de sondage, respectivement.

Proposition 1.1.1. Pour un plan de sondage p(s) arbitraire, nous avons : (i) Ep(Ii) = πi;

(ii) Vp(Ii) = πi(1 − πi) ;

(iii) Ep(IiIj) = πij;

(iv) Covp(Ii,Ij) = πij − πiπj ≡ 4ij.

Démonstration. Voir Särndal et al. (1992). 

Proposition 1.1.2. Si le plan de sondage p(s) a une taille fixe n, alors : (i) P i∈Uπi = n ; (ii) P j∈U j6=i πij = (n − 1)πi, ∀ i ∈ U ; (iii) P i∈U P j∈U j6=i πij = n(n − 1) ; (iv) P j∈U4ij = 0, ∀ i ∈ U et P i∈U4ij = 0, ∀ j ∈ U .

Démonstration. Voir Särndal et al. (1992). 

En utilisant les probabilités d’inclusion d’ordre un, Horvitz et Thompson (1952) ont construit un estimateur sans biais du total ty :

b ty,π = X i∈s yi πi =X i∈s diyi = X i∈U diyiIi, (1.1.1)

où di = πi−1est le poids de base de l’unité i. Cet estimateur est important parce qu’il est

sou-vent utilisé comme point de départ afin de développer d’autres estimateurs plus sophistiqués (e.g., les estimateurs par calage).

Proposition 1.1.3. Si πi > 0 pour tout i ∈ U , l’estimateur de Horvitz-Thompson (1.1.1)

est sans biais pour ty; i.e., Ep(bty,π) = ty.

Démonstration. Nous avons Ep(bty,π) = Ep X i∈U yi πi Ii ! =X i∈U yi πi Ep(Ii) = X i∈U yi πi πi = X i∈U yi = ty.  Proposition 1.1.4. La variance par rapport au plan de sondage de bty,π est donnée par

Vp(bty,π) = X i∈U X j∈U 4ij yi πi yj πj . (1.1.2)

(23)

Démonstration. Vp(bty,π) = Vp X i∈U yi πi Ii ! =X i∈U y2 i π2 i Vp(Ii) + X i∈U X j∈U j6=i yi πi yj πj Covp(Ii,Ij) =X i∈U y2i π2 i πi(1 − πi) + X i∈U X j∈U j6=i yi πi yj πj (πij − πiπj) =X i∈U X j∈U (πij − πiπj) πiπj yiyj =X i∈U X j∈U 4ij yi πi yj πj .  La variance représente une mesure de la volatilité debty,πlorsque tous les échantillons possibles

ont été sélectionnés de la population. Puisque les valeurs de la variable y ne sont observées que pour i ∈ s, il est impossible de calculer cette variance à partir des données échantillonnées. Un estimateur sans biais pour la variance (1.1.2) est donné dans la proposition suivante. Proposition 1.1.5. À condition que πij > 0 pour toutes les paires (i, j) ∈ U × U , un

estimateur sans biais de Vp(bty,π) est l’estimateur de variance de Horvitz-Thompson donné

par b VHT(bty,π) = X i∈s X j∈s 4ij πij yi πi yj πj . (1.1.3) Démonstration. Ep n b VHT(bty,π) o = Ep ( X i∈s X j∈s 4ij πij yi πi yj πj ) = Ep ( X i∈U X j∈U 4ij πij yi πi yj πj IiIj ) =X i∈U X j∈U 4ij πij yi πi yj πj Ep(IiIj) =X i∈U X j∈U 4ij πij yi πi yj πj πij =X i∈U X j∈U 4ij yi πi yj πj .  5

(24)

Dans le cas d’un plan de sondage à taille fixe, la variance (1.1.2) peut être également écrite comme (voir Annexe A) :

Vp(bty,π) = − 1 2 X i∈U X j∈U 4ij  yi πiyj πj 2 . (1.1.4)

En se basant sur cette forme, Yates et Grundy (1953) et Sen (1953) ont indépendamment proposé un autre estimateur de la variance, appelé estimateur de Sen-Yates-Grundy (SYG) :

b VSY G(bty,π) = − 1 2 X i∈s X j∈s 4ij πij  yi πiyj πj 2 . (1.1.5)

Proposition 1.1.6. L’estimateur (1.1.5) est sans biais pour la variance (1.1.4) par rapport au plan de sondage, à condition que πij > 0 pour toutes les paires (i, j) ∈ U × U , i.e.,

Ep n b VSY G(bty,π) o = Vp(bty,π). Démonstration. Ep n b VSY G(bty,π) o = Ep ( −1 2 X i∈s X j∈s 4ij πij  yi πiyj πj 2) = Ep ( −1 2 X i∈U X j∈U IiIj 4ij πij  yi πiyj πj 2) = −1 2 X i∈U X j∈U Ep(IiIj) 4ij πij  yi πiyj πj 2 = −1 2 X i∈U X j∈U πij 4ij πij  yi πiyj πj 2 = −1 2 X i∈U X j∈U 4ij  yi πiyj πj 2 . 

1.2. L’estimateur par la régression généralisée

L’estimateur par la régression généralisée (GREG) définit une classe d’estimateurs d’un total. Il se base sur la disponibilité de variables auxiliaires. Soit xi = (x1i, . . . , xQi)> un

vecteur de variables auxiliaires de taille Q disponible pour tout i ∈ s. Nous supposons que le vecteur des totaux de population, tx =

P

i∈Uxi = (tx1, . . . , txQ)

>, est connu, où

txq =

P

i∈Uxqi, q = 1, . . . , Q. Supposons que la relation entre y et x puisse être décrite par :

(25)

où β = (β1, . . . ,βQ)> est un vecteur de paramètres de taille Q. Nous faisons les hypothèses

usuelles :

Em(εi) = 0, Em(εiεj) = 0, i 6= j,

Vm(εi) = σ2ci,

où ci > 0 est un coefficient connu pour l’unité i. Nous commençons par décomposer ty

comme : ty = X i∈U yi = X i∈U (x>i β + εi) =X i∈U x>i β +X i∈U εi.

L’estimateur GREG est obtenu en estimant chaque total séparément, ce qui conduit à bty,GREG= X i∈U x>i B +b X i∈s diei, (1.2.1) où ei = yi− x>i B etb b B = X i∈s dixic−1i x > i !−1 X i∈s dixic−1i yi

est l’estimateur des moindres carrés pondérés de β. L’estimateur (1.2.1) peut également s’écrire comme

b

ty,GREG=bty,π+ (tx−btx,π)>B.b (1.2.2) Le terme (tx−btx,π)>B dans (b 1.2.2) peut être vu comme un terme d’ajustement appliqué à l’estimateurbty,π. L’estimateurbty,GREGest convergent pour ty par rapport au plan de sondage

au sens où bty,GREG− ty = Op(N/

n). En effet, nous pouvons écrire b ty,GREG− ty = (bty,π− ty) + (tx−btx,π)>B + (tx−btx,π)>( bB − B), (1.2.3) où B = X i∈U xic−1i x > i !−1 X i∈U xic−1i yi

est l’estimateur des moindres carrées pondérées que l’on aurait obtenu si les valeurs de la variable y avaient été disponibles pour tout i ∈ U . Sous certaines conditions de régularité (Deville et Särndal, 1992), nous avons bty,π − ty = Op(N/

n), btx,π − tx = Op(N/

n) et b

B −B = Op(n−1/2). Le dernier terme à droite de l’égalité (1.2.3) est donc Op(N/n) et devient

négligeable devant les autres termes lorsque n est grand. Nous pouvons donc approximer b ty,GREG par : bty,GREG . =bty,π+ (tx−btx,π)>B = X i∈s di(yi− x>i B) + t > xB. (1.2.4) 7

(26)

Il n’est pas possible de développer une expression de la variance debty,GREG car ce dernier

s’exprime comme une fonction relativement complexe de totaux estimés. Nous nous rési-gnerons donc à approximer sa variance à partir de l’approximation (1.2.4). La variance de b

ty,GREG peut être approximée par

AVp(bty,GREG) . = Vp X i∈s Ei πi + t>xB ! = Vp X i∈s Ei πi ! =X i∈U X j∈U 4ij Ei πi Ej πj , (1.2.5)

où Ei = yi− x>i B. La variance approximative (1.2.5) aura tendance à être petite lorsque les

résidus Ei sont petits, ce qui surviendra s’il existe une relation linéaire entre y et x et que

la relation est forte. Un estimateur de AVp(bty,GREG) est donné par

b V (bty,GREG) = X i∈s X j∈s 4ij πij ei πi ej πj , où ei = yi− x>i B.b

Dans certaines situations, il n’est pas raisonnable de postuler un modèle linéaire afin de décrire la relation entre y et x, par exemple, lorsque la variable d’intérêt y n’est pas continue. Nous postulons donc le modèle général suivant :

Em(yi | xi) = µ(xi,β), Vm(yi | xi) = σ2ci, (1.2.6)

où µ(.,β) est une certaine fonction. Ce modèle inclut deux cas particuliers importants : les modèles de régression linéaire ou non linéaire et les modèles de régression linéaire généralisée. Le total ty peut être décomposé comme

ty = X i∈U yi = X i∈U µ(xi,β) + X i∈U {yi− µ(xi,β)}.

Un estimateur GREG non linéaire (NLG) est obtenu en estimant chaque total séparément, ce qui conduit à bty,N LG = X i∈U µ(xi,bβ) + X i∈s diei, (1.2.7)

où ei = yi− µ(xi,bβ) et bβ en (1.2.7) peut être obtenu en résolvant les équations estimantes

au niveau de l’échantillon : 1 b X i∈s di{yi− µ(xi, β)} ∂µ(xi, β) ∂β = 0,

(27)

où b = Pi∈sdi. Lorsque µ(xi,β) = x>i β, l’estimateur GREG non linéaire (1.2.7) est

l’estimateur GREG (1.2.1). Il convient de noter que l’obtention de l’estimateur (1.2.1) ne requiert que de connaître les valeurs de x pour tout i ∈ s et le vecteur des totaux tx. En revanche, l’estimateur (1.2.7) requiert les valeurs de x pour tout i ∈ U , ce qui s’avère bien plus restrictif en pratique.

L’estimateur (1.2.7) peut également s’écrire comme

bty,N LG =bty,π+ ( X i∈U µ(xi,bβ) − X i∈s diµ(xi,bβ) ) . (1.2.8)

L’estimateur (1.2.7) est convergent pour ty au sens où bty,N LG − ty = Op(N/

n). En effet, nous avons b ty,N LG− ty = (bty,π− ty) + ( X i∈U µ(xi,bβ) − X i∈s diµ(xi,bβ) ) . Sous certaines conditions de régularité (Wu, 1999), nous avons P

i∈Uµ(xi,bβ) −

P

i∈sdiµ(xi,bβ) = Op(N/

n), d’où le résultat. La variance de l’estimateur bty,N LG

peut être approximée par

AVp(bty,N LG) . =X i∈U X j∈U 4ij Ei πi Ej πj , (1.2.9)

où Ei = yi− µ(xi,B) et B est obtenu en résolvant les équations estimantes au niveau de la

population : 1 N X i∈U {yi− µ(xi, β)} ∂µ(xi, β) ∂β = 0.

Cette variance peut être estimée par b V (bty,N LG) = X i∈s X j∈s 4ij πij ei πi ej πj .

Si yi = µ(xi,bβ) pour tout i, nous avons

b ty,N LG = X i∈U µ(xi,bβ) = X i∈U yi = ty.

Autrement dit, EQMp(bty,N LG) = 0 dans le cas où le modèle est parfait, où EQMp(.) désigne

l’erreur quadratique moyenne par rapport au plan de sondage.

1.3. Calage conventionnel

Le calage est une méthode de pondération introduite par Deville et Särndal (1992). Le poids de base diassure l’absence de biais lorsqu’il est appliqué à une variable d’intérêt y, mais

il ne produit généralement pas une estimation exacte pour chacune des variables auxiliaires,

(28)

c’est-à-dire,btx,π 6= tx, en général. Cette absence de cohérence peut être embarrassante dans la pratique. Le calage consiste à modifier les poids de base di de sorte que les estimations

des totaux coïncident avec les totaux réels connus provenant de sources externes pour les variables x. L’estimateur par calage intègre une information auxiliaire, ce qui peut conduire à une amélioration de la précision des estimateurs. Le calage permet de produire un système de poids de calage.

Une méthode générale pour obtenir ce que l’on appelle des estimateurs par calage consiste à choisir une mesure de distance G(wi/di) mesurant la proximité entre les poids de base di

et les poids de calage wi. Cette fonction doit satisfaire aux exigences suivantes :

(i) G(wi/di) ≥ 0 et G(1) = 0 ;

(ii) G(t) est différentiable par rapport à t ; (iii) les dérivées sont continues ;

(iv) G(t) est strictement convexe.

La mesure de distance la plus couramment utilisée est la distance khi-deux généralisée (mé-thode linéaire), G(wi/di) = 1 2  wi di − 1 2 . (1.3.1)

Supposons que xi = (x1i, x2i, . . . , xQi)> est un vecteur de taille Q disponible pour tout

i ∈ s et que le vecteur des totaux tx= P

i∈Uxi est connu. L’estimateur par calage est défini

comme b ty,C = X i∈s wiyi, (1.3.2)

où wi est le poids de calage associé à l’unité i. Les poids wi sont tels que

X

i∈s

q−1i G(wi/di)

est minimisée tout en satisfaisant les contraintes de calage : X

i∈s

wixi = tx. (1.3.3)

Nous faisons donc face à un problème d’optimisation pour lequel nous cherchons à minimiser φ(w1, . . . , wn, λ) = X i∈s diG(wi/di) qi − λ> X i∈s wixi− tx ! , (1.3.4)

où λ est un vecteur de dimension Q de multiplicateurs de Lagrange. Le coefficient qi est un

(29)

La plupart du temps, le coefficient qi est fixé à la valeur 1. Nous avons ∂φ(w1, . . . , wn, λ) ∂wi = di qi G0(wi/di) 1 di − λ>xi = 0 ⇔ G0(wi/di) = qiλ>xiwi di = F (qiλ>xi) ⇔ wi = diF (qiλ>xi), (1.3.5)

où F (·) désigne la fonction inverse de G0(·) avec G0(t) = ∂G(t)

∂t .

La fonction F (·) est appelée fonction de calage. Par conséquent, les poids de calage wi

peuvent être vus comme le produit du poids di et un facteur d’ajustement F (qiλ>xi). En

utilisant (1.3.5) dans (1.3.3), nous obtenons le système de Q équations à Q inconnues X

i∈s

diF (qiλ>xi)xi = tx. (1.3.6)

Il reste à résoudre (1.3.6) en λ au moyen d’un algorithme de recherche de zéros. Soit bλ la solution de (1.3.6). L’estimateur par calage bty,C est donc donné par

b ty,C = X i∈s diF (qiλb > xi)yi. (1.3.7)

Dans la pratique, plusieurs fonctions de distance peuvent être utilisées (Deville et Särndal, 1992). Considérons la méthode linéaire (1.3.1). Les poids de calage wi se simplifient pour

donner wi = di(1 + qiλb > xi), où b λ = X i∈s dixiqix>i !−1  tx−btx,π  . Ainsi, les poids de calage sont donnés par :

wi = di(1 + qiλb > xi) = di    1 + qi(tx−btx,π)> X i∈s dixiqix>i !−1 xi    .

L’estimateur par calagebty,C peut donc s’écrire comme

b ty,C = X i∈s wiyi 11

(30)

=bty,π+ (tx−btx,π)> X i∈s dixiqix>i !−1 X i∈s dixiqiyi =bty,π+ (tx−btx,π)>B,b (1.3.8) où b B = X i∈s dixiqix>i !−1 X i∈s dixiqiyi.

Écrit sous cette forme, l’estimateur (1.3.8) est l’estimateur GREG quand qi = c−1i . De

plus, Deville et Särndal (1992) montrent, sous certaines conditions de régularité, qu’avec des mesures de distance différentes, tous les estimateurs par calage sont asymptotiquement équivalents à l’estimateur GREG. Ainsi, l’estimateurbty,C en (1.3.8) peut être approximé par

b ty,C . =X i∈s Ei πi + t>xB,B = X i∈U xiqix>i !−1 X i∈U xiqiyi

et Ei = yi− x>B. La variance approximative de bty,C est donc donnée par

AVp(bty,C) . =X i∈U X j∈U 4ij Ei πi Ej πj . (1.3.9)

La variance (1.3.9) est petite si les résidus Ei sont petits ce qui surviendra si la relation entre

y et x est linéaire et que la relation est forte. Un estimateur de la variance approximative est donné par

b Vp(bty,C) = X i∈s X j∈s 4ij πij ei πi ej πj , (1.3.10)

où ei = yi− x>B sont les résidus de l’échantillon.b

Notons que la construction des estimateurs par calage ne nécessite pas de postuler un modèle de superpopulation. Mais l’hypothèse implicite sous-jacente est que la relation entre la variable y et le vecteur x est linéaire et que la relation est forte. En effet, supposons que yi = x>i β pour tout i ∈ U . Alorsbty,C estime parfaitement ty puisque

b ty,C = X i∈s wiyi = X i∈s wix>i β = X i∈U x>i β =X i∈U yi = ty.

1.4. Calage assisté par un modèle

Tel que mentionné à la section précédente, le calage conventionnel suppose implicitement une relation linéaire entre la variable d’intérêt y et le vecteur x. C’est une limite du calage

(31)

conventionnel. Wu et Sitter (2001) ont introduit le calage assisté par un modèle afin de pouvoir traiter des modèles autres que linéaires dans une procédure de calage. Le calage assisté par un modèle permet donc de construire des estimateurs efficaces lorsque la relation entre y et x n’est pas bien décrite par un modèle de régression linéaire. Supposons que la relation entre y et x puisse être décrite par le modèle (1.2.6). L’estimateur par calage assisté par un modèle de ty est donné par

bty,M C =

X

i∈s

wiyi, (1.4.1)

où les poids wi sont aussi proches que possible des poids initiaux diet tels que les contraintes

de calage suivantes sont satisfaites : X i∈s wi = N, X i∈s wiµ(xi,bβ) = X i∈U µ(xi,bβ). (1.4.2)

N’importe quelle mesure de distance considérée dans Deville et Särndal (1992) peut être utilisée. Nous noterons µbi ≡ µ(xi,bβ) dans ce qui suit. Dans le cas de la méthode linéaire

(1.3.1), nous obtenons wi = di × ( 1 + P i∈U bµi− P i∈sdibµi (µbi− ¯µ)qi P i∈sdiqi(µbi− ¯µ) 2 ) , où ¯µ = P i∈sdiqiµbi/ P

i∈sdiqi. L’estimateur (1.4.1) est donc donné par (voir Annexe B) :

b ty,M C =bty,π+ X i∈U b µi− X i∈s diµbi ! b BN, (1.4.3) où b BN = P i∈sdiqi(bµi− ¯µ)(yi− ¯y) P i∈sdiqi(µbi− ¯µ) 2 et ¯y =P i∈sdiqiyi/ P

i∈sdiqi. Wu et Sitter (2001) ont montré que, sous certaines conditions

de régularité,

bty,M C−bty,π= Op(N/

n).

Ainsi, l’estimateurbty,M C est convergent pour ty par rapport au plan de sondage et ce, même

si le modèle (1.2.6) n’est pas correctement spécifié. En effet, nous avons (Wu et Sitter, 2001) :

bty,M C =bty,π+ ( X i∈U µi− X i∈s diµi ) BN + Op(N/n) =X i∈U µiBN + X i∈s diUi+ Op(N/n), où Ui = yi− µiBN, µi = µ(xi,BN), BN = P i∈Uqi(µi− ¯µN)(yi− ¯Y ) P i∈Uqi(µi− ¯µN)2 , 13

(32)

¯

µN = N−1Pi∈U µi et ¯Y = N−1Pi∈Uyi. La variance approximative debty,M C est donnée par

AVp(bty,M C) . =X i∈U X j∈U 4ij Ui πi Uj πj (1.4.4) qui peut être estimée par

b V (bty,M C) = X i∈s X j∈s 4ij πij ui πi uj πj , où ui = yi−bµiBbN.

Lorsque µ(xi,β) = x>i β, l’estimateur bty,M C en (1.4.3) coïncide avec l’estimateur par

calage conventionnel (1.3.8). En revanche, lorsque le modèle n’est pas linéaire, une compa-raison de (1.4.3) et (1.3.8) montre que le calage assisté par un modèle et l’estimateur par la régression non linéaire ne sont pas identiques car le terme bBN en (1.4.3) ne converge pas

vers 1 par rapport au plan de sondage. Bien que les deux estimateurs (1.3.8) et (1.4.3) sont convergents par rapport au plan de sondage, ils conduisent à des estimations différentes.

(33)

Chapitre

2

LA NON-RÉPONSE

2.1. Introduction

Une enquête rencontrera généralement diverses difficultés dont des problèmes de données manquantes. La non-réponse est un phénomène grandissant dans les enquêtes, ce qui rend les estimateurs non-ajustés vulnérables à un biais, appelé biais de non-réponse. On distingue deux types de non-réponse : la non-réponse totale et la non-réponse partielle. Cette dernière survient lorsqu’une unité échantillonnée a répondu à certaines questions de l’enquête mais pas à toutes. Dans ce mémoire, nous portons notre attention sur la non-réponse totale qui est caractérisée par l’absence totale d’information sur une unité échantillonnée.

Les causes d’une non-réponse sont multiples : incapacité à contacter certaines unités échantillonnées, refus, et incohérences présentes dans les réponses collectées. Certains facteurs peuvent avoir un impact sur les taux de réponse observés : la méthode de collecte de données, le type d’enquête (obligatoire versus volontaire), le type d’unités enquêtées (entreprise versus ménage), les aptitudes et la charge de travail du personnel et des enquêteurs en charge de la collecte de données, etc. Par exemple, les enquêtes en face à face conduisent à des taux de réponse plus élevés. De même, les taux de réponse sont généralement plus faibles dans les enquêtes auprès des entreprises par rapport à ceux observés dans les enquêtes auprès des ménages.

La non-réponse a des effets indésirables sur la qualité des estimations produites par les agences de statistique : le premier est le biais de non-réponse. Lorsqu’aucun ajustement n’est apporté, les estimateurs résultants tendent à exhiber des biais importants lorsque le taux de non-réponse est élevé et/ou le comportement des répondants est différent de celui des non-répondants en termes des variables d’intérêt. Ce biais est appelé biais de non-réponse. De plus, puisque la taille d’échantillon effective est inférieure à celle initialement prévue, les estimateurs souffrent d’une variance additionnelle appelée variance de non-réponse. Le

(34)

premier objectif de tout traitement de la non-réponse est de réduire le biais de non-réponse, ce qui repose sur l’utilisation d’une information auxiliaire, qui est un ensemble de variables observées pour toutes les unités échantillonnées (répondantes et non-répondantes). On peut s’attendre à obtenir une bonne réduction du biais lorsque l’information auxiliaire est riche et qu’elle est liée à la fois à la probabilité de réponse à l’enquête et aux variables d’intérêt.

La non-réponse totale est généralement traitée au moyen d’une méthode de repondé-ration qui consiste à éliminer les non-répondants du fichier et à ajuster, à la hausse, le poids de sondage des unités répondantes afin de compenser pour l’élimination des unités non-répondantes. Dans ce chapitre, nous introduisons formellement les concepts de biais, va-riance et erreur quadratique moyenne en présence de non-réponse et décrivons des méthodes classiques de traitement de la non-réponse totale.

2.2. Mécanisme de non-réponse

En présence de non-réponse, un échantillon s est d’abord sélectionné de la population U , après quoi un ensemble de répondants sr ⊆ s, de taille aléatoire nr, est obtenu. La figure 2.1

illustre la situation qui prévaut en présence de non-réponse. Soit ri la variable indicatrice de

(35)

réponse pour l’unité i telle que

ri =

  

1 si l’unité i a répondu à l’enquête, 0 sinon.

Soit pi la probabilité de réponse pour l’unité i, définie par

pi = P (ri = 1).

Nous supposerons que 0 < pi ≤ 1 pour tout i et que les unités répondent indépendamment les

unes des autres, c’est-à-dire, pij = P (ri = 1, rj = 1) = P (ri = 1)P (rj = 1) = pipj, i 6= j. Le

mécanisme de non-réponse peut donc être décrit par une suite de n expériences de Bernoulli indépendantes. Autrement dit,

ri

ind.

∼ B(1, pi), i = 1, · · · , n.

Cette distribution est inconnue car les probabilités de réponse pi le sont. Si la probabilité de

réponse est la même pour toutes les unités de la population, le mécanisme de non-réponse est dit uniforme. Généralement, la probabilité de réponse varie d’une unité à l’autre. Elle peut dépendre de variables auxiliaires observées pour les unités répondantes et les unités non-répondantes auquel cas on dira que les données sont Missing At Random (MAR) ; voir Rubin (1976). Elle peut également dépendre des variables d’intéret qui sont sujettes à des valeurs manquantes. Dans ce dernier cas, on dira que les données sont Not Missing At Random (NMAR).

Les probabilités de réponse pi étant inconnues, on postulera un modèle de réponse qui

est un ensemble d’hypothèses à propos de la relation entre la variable indicatrice ri et un

vecteur de variables explicatives observées pour tout i ∈ s.

2.3. Biais, variance et erreur quadratique moyenne

Désignons par bty,N R l’estimateur de ty =Pi∈U yi obtenu après un certain traitement de

la non-réponse totale. On définit l’erreur totale debty,N R comme

b

ty,N R− ty = (bty,F − ty)

| {z }

erreur due à l’échantillonnage

+ bty,N R−bty,F

| {z }

erreur due à la non-réponse

, (2.3.1)

où bty,F désigne l’estimateur que l’on aurait utilisé en l’absence de non-réponse. Le biais de

non-réponse conditionnel est défini par

Bq|s= Eq(bty,N R−bty,F | s) = Eq(bty,N R | s) −bty,F, (2.3.2)

(36)

où Eq(. | s) est l’espérance par rapport au modèle de réponse conditionnellement à s. En

prenant la moyenne sur tous les échantillons possibles, on obtient le biais de non-réponse inconditionnel debty,N R :

BN R = Ep(Bq|s) = Epq(bty,N Rtby,F) = Epq(bty,N R) − Ep(bty,F),

où Epq(.) désigne l’espérance par rapport à la distribution conjointe induite par le plan de

sondage et le mécanisme de réponse. Le biais dû à l’échantillonnage est BSAM = Ep(bty,F − ty) = Ep(bty,F) − ty.

En utilisant la décomposition (2.3.1), on obtient le biais debty,N R :

Biais(bty,N R) = EpEq(bty,N R− ty | s)

= EpEq(bty,F − ty) + EpEq(bty,N R−bty,F | s)

= Ep(bty,F − ty) + EpEq(bty,N R−bty,F | s)

= BSAM + BN R.

La plupart du temps, l’estimateurbty,F est choisi de sorte qu’il est sans biais ou

asymptotique-ment sans biais pour ty auquel cas BSAM = 0 ou BSAM ≈ 0. Le biais debty,N R provient alors

entièrement ou presque entièrement du biais de non-réponse et on a Biais(bty,N R) = BN R.

En pratique, il n’est pas possible de déterminer si l’estimateur après traitement, bty,N R, est

sans biais ou pas et lorsqu’il est biaisé, on ne peut quantifier l’ampleur de ce biais. Mais il est raisonnable d’estimer que le biais sera faible si l’information auxiliaire utilisée lors du traitement est riche et qu’elle est fortement liée à la fois à la probabilité de réponse et aux variables d’intérêt de l’enquête.

Supposons que Bq|s = 0 pour tout s et que Ep(bty,F) = ty. En utilisant le fait que

Eq(bty,N R | s) =bty,F, la variance debty,N R peut être exprimée comme

V (bty,N R) = EpEq(bty,N R− ty)2

= EpEq(bty,F − ty | s)2+ EpEq(bty,N R−bty,F | s)2

+ 2EpEq(bty,F − ty)(bty,N R−bty,F) | s

= Ep(bty,F − ty)2+ EpEq  b ty,N R− Eq(bty,N R | s) | s 2 = Vp(bty,F) + EpVq(bty,N R | s) = VSAM + VN R,

où VSAM et VN R désignent respectivement la variance due à l’échantillonnage et la variance

due à la non-réponse. Parce que Bq|s= 0, notons que le produit croisé

(37)

L’exigence Bq|s= 0 pour chaque s possible est forte. Si elle ne tient pas, nous avons

Eq(bty,N R | s) =bty,F + Bq|s.

Dans ce cas, la variance de bty,N R peut être exprimée comme

V (bty,N R) = Vpq(bty,N R)

= VpEq(bty,N R | s) + EpVq(bty,N R | s)

= Vp(bty,F + Bq|s) + EpVq(bty,N R | s)

= Vp(bty,F) + Vp(Bq|s) + 2Covp(bty,F, Bq|s) + EpVq(bty,N R | s).

Le terme VN R devient donc :

VN R= EpVq(bty,N R | s) + Vp(Bq|s) + 2Covp(bty,F, Bq|s).

En présence de biais, un indicateur de variabilité plus pertinent que la variance est l’erreur quadratique moyenne. En utilisant le fait que

EQMpq(bty,N R) = Vpq(bty,N R) +Biais(bty,N R)

2 , et en utilisant les résultats ci-dessus, nous obtenons

EQMpq(bty,N R) = Vpq(bty,N R) + (BSAM + BN R)2

= Vp(bty,F) + Vp(Bq|s) + 2Covp(bty,F, Bq|s) + EpVq(bty,N R | s) + BN R2

+ 2BSAMBN R+ B2SAM

= Vp(bty,F) + Vp(Bq|s) + 2Covp(bty,F, Bq|s) + EpVq(bty,N R | s)

+Ep(Bq|s)

2

+ 2BSAMBN R+ B2SAM

= Vp(bty,F) + EpVq(bty,N R | s) + Ep(Bq|s2 ) + 2Covp(bty,F, Bq|s)

+ 2BSAMBN R+ B2SAM.

En ne conservant que les trois premiers termes à droite de l’expression précédente qui sont habituellement les termes principaux de l’expression EQMpq(bty,N R), on a

EQMpq(bty,N R) ≈ Vp(bty,F) + EpVq(bty,N R | s) + Ep(Bq|s2 ).

Ici, le terme Ep(Bq|s2 ), causée par un biais de non-réponse, peut représenter un ajout

consi-dérable à l’EQM.

2.4. L’estimateur non-ajusté

En présence de non-réponse, on appelle estimateur non-ajusté de ty l’estimateur suivant :

b

ty,un = bNπYbr, (2.4.1)

(38)

où bYr =

P

i∈srdiyi/

P

i∈srdi désigne la moyenne pondérée des répondants et b =

P

i∈sdi.

On peut exprimer l’erreur de bty,un comme

b ty,un−bty,F = b × b Nm b ! ×Ybr− bYm  , (2.4.2)

où bYm = Pi∈smdiyi/Pi∈smdi, bNm = Pi∈smdi avec sm = s − sr, l’ensemble des

non-répondants.

L’expression (2.4.2) suggère que l’erreur de bty,un aura tendance à être grande lorsque

le taux de non-réponse, bNm/ bNπ, est grand et/ou que la moyenne des répondants bYr est

éloignée de celle des non-répondants bYm. En pratique, on s’attend généralement à ce que les

répondants et les non-répondants exhibent un comportement différent en terme des variables d’intérêt de l’enquête. Par conséquent, l’estimateur non-ajusté bty,un tend à être biaisé.

2.5. Estimateur ajusté par score de propension

Afin de réduire le biais dû à la non-réponse, il est de coutume d’utiliser un estimateur ajusté appelé estimateur ajusté par score de propension (propensity score adjusted estimator, en anglais). Cet estimateur est donné par

b ty,P SA= X i∈sr di 1 b pi yi = X i∈sr wiyi,

pbi est une estimation de la probabilité de réponse pi pour l’unité i. Les poids wi sont

appelés poids ajustés pour la non-réponse et le terme pb−1i est appelé facteur d’ajustement de la non-réponse pour l’unité i. L’estimation pbi peut être obtenue au moyen de modèles de

réponse paramétriques ou non-paramétriques. Un modèle paramétrique couramment utilisé est le modèle logistique. La méthode des scores (Little, 1986 ; Eltinge et Yansaneh, 1997 et Haziza et Beaumont, 2007) et les arbres de régression (Phipps et Toth, 2012) sont des méthodes non-paramétriques fréquemment employées en pratique.

Dans le cas d’un modèle paramétrique, Kim et Kim (2007) ont montré que l’estimateur b

ty,P SA est convergent pour ty au sens oùbty,P SA− ty = Op(N/

n) si le modèle de réponse est correctement spécifié. En revanche, si le modèle de réponse n’est pas correctement spécifié, l’estimateurbty,P SA peut être considérablement biaisé.

(39)

Par souci de simplicité, considérons le cas pour lequel les probabilités de réponse pi sont

connues. La variance totale debty,P SA est alors donnée par

V (bty,P SA) = VpEq(bty,P SA | s) + EpVq(bty,P SA | s)

= Vp(bty,π)

| {z }

variance due à l’échantillonnage

+ X i∈U di (1 − pi) pi y2i | {z }

variance due à la non-réponse

. (2.5.1)

Comme nous pouvions nous y attendre, l’expression (2.5.1) suggère que la variance due à la non-réponse est nulle si pi = 1 pour tout i. Puisque (1 − pi)/pi est une fonction décroissante

de pi, la variance due à la non-réponse diminue à mesure que pi augmente. Lorsque les

probabilités de réponse ne sont pas connues, il n’est généralement pas possible d’obtenir une expression de la variance totale debty,P SA. On se résignera à approximer sa variance au moyen

d’un développement en séries de Taylor (Kim et Kim, 2007).

2.6. Calage après ajustement de la non-réponse

Une fois la correction de la non-réponse effectuée, les poids wi sont de nouveau modifiés par une procédure de calage de manière à ce que les estimations issues de l’enquête pour certaines variables auxiliaires coïncident avec les totaux correspondants connus au niveau de la population.

Supposons qu’un vecteur de variables auxiliaires, xi, soit disponible pour i ∈ sr et que le

vecteur des totaux de population, tx, soit connu. L’estimateur par calage après ajustement pour la non-réponse est donné par

b

ty,P SAC =

X

i∈sr

wiyi, (2.6.1)

où les poids wi sont aussi proches que possible des poids initiaux wi∗ sujet aux contraintes

de calage

X

i∈sr

wixi = tx. (2.6.2)

Plus spécifiquement, on cheche les poids wi qui minimisent

X

i∈sr

q−1i G(wi/wi)

sous les contraintes (2.6.2). N’importe quelle fonction de distance présentée dans Deville et Särndal (1992) peut être utilisée. En particulier, la méthode linéaire conduit à

wi = wi    1 + qi(tx−btx,P SA)> X i∈s wixiqix>i !−1 xi    , 21

(40)

oùbtx,P SA = P

i∈srw

ixi. L’estimateur résultant est donné par

b ty,P SAC = X i∈sr wiyi =bty,P SA+ (tx−btx,P SA)>BbP SA, (2.6.3) où b BP SA= X i∈sr wixiqix>i !−1 X i∈sr wixiqiyi.

Si yi = x>i β pour tout i, l’estimateur bty,P SAC conduit à une estimation parfaite du total ty :

b ty,P SAC = X i∈sr wiyi = X i∈sr wix>i β = X i∈U x>i β =X i∈U yi = ty.

Dans la cas d’une relation linéaire forte entre y et x, nous nous attendons à ce que l’estimateur b

(41)

Chapitre

3

TARGETING KEY SURVEY VARIABLES AT THE

NONRESPONSE TREATMENT STAGE

David Haziza

, Sixia Chen

and Yimeng Gao

Abstract

In the presence of nonresponse, unadjusted estimators are vulnerable to nonresponse bias when the characteristics of the respondents differ from those of the nonrespondents. To reduce the bias, it is common practice to postulate a nonresponse model linking the response indicators and a set of fully observed variables. Estimated response probabilities are obtained by fitting the selected model, which are then used to adjust the base weights. The resulting estimator, referred to as the propensity score adjusted estimator, is consistent provided the nonresponse model is correctly specified. In this paper, we propose a weighting procedure that may improve the efficiency of propensity score estimators for survey variables identified as key variables by making a more extensive use of the auxiliary information available at the nonresponse treatment stage. The proposed method is related to the model calibration procedure of Wu and Sitter (2001). Results from a simulation study suggest that the proposed procedure performs well in terms of efficiency when the data are Missing At Random but also achieves an efficient bias reduction when the data are Not Missing At Random. Key words : Unit nonresponse ; Model calibration ; Propensity score adjusted estimator ; Variance estimation ; Weighting.

3.1. Introduction

Data collected by National Statistical Offices (NSO) are usually stored in rectangular files, each column corresponding to a survey variable and each row corresponding to a sample unit. An additional column, often referred to as a weighting system, is also provided

∗. Department of mathematics and statistics, Université de Montréal, Montreal, Canada ; †. Oklahoma Health Sciences Center, University of Oklahoma, Oklahoma City, U.S.A ; ‡. Department of mathematics and statistics, Université de Montréal, Montreal, Canada.

(42)

in the data file. Most often, NSOs provide a column of final weights, which are obtained in a series of stages. First, each sample unit is assigned a basic weight, which is defined as the inverse of its inclusion probability in the sample. At the second stage, the basic weights are adjusted to compensate for unit nonresponse : basic weights associated with respondents are multiplied by the inverse of their corresponding estimated response proba-bilities. This stage is the focus of the current paper. Usually, some independent population counts (e.g., number of males and females in the population, number of individuals in each age group, etc.) are available from a census or an administrative file. The third and often final stage, called the calibration stage, consists of modifying the weights adjusted for nonresponse so that estimates of these quantities match the corresponding population counts.

The rationale behind weighting is to provide a single weighting system that can be applied to all the survey variables. This is often referred to as multipurpose weighting ; e.g., Särndal (2007). In addition, a single weighting system achieves internal and external consistency ; see, e.g., Haziza and Beaumont (2017). In recent years, the single weighting system paradigm has been questioned by a number of authors. For instance, Salgado et al. (2012) wrote :

(...), if the auxiliary information needed to adequately deal with the nonresponse differs

between different variables of interest, why would one not use the correspondingly different sets of sampling weights for each of them ? Furthermore, if accepting different sets of sampling weights in a multipurpose survey, why not use more accurate techniques, such as, for instance, model calibration (Wu and Sitter, 2001 ; Wu, 2003 ; Montanari and Ranalli, 2003, 2005) in the construction of estimators ?

For surveys that collect a large number of variables, creating a weighting system for each possible survey variable and for each domain of interest would constitute a formidable task. Also, multiple weighting systems may prove challenging for secondary analysts used to deal with a single weighting system. On the other hand, we recognize the fact that, constructing a single weighting system adjusted for nonresponse, may not fully exploit all the auxiliary information available at the nonresponse treatment stage. We call auxiliary information a

(43)

set of fully observed variables, i.e., available for both respondents and nonrespondents. This set may include variables available on the sampling frame or other administrative sources and paradata, also called field process data (Couper, 1998).

We propose a nonresponse weighting approach that can be viewed as a compromise bet-ween the single and multiple weighting system paradigms. Often, one can identify a small subset of survey variables that are deemed important. For instance, in the Canadian Labour Force Survey (LFS) conducted by Statistics Canada, the variables labour force status and weekly earnings are often identified as key variables. The rationale behind our procedure is to postulate a separate outcome regression model for each of the key survey variables. Each model may be based on a different link function and a different set of explanatory variables to fully account for the specificity of each key variable. Our procedure also incorpo-rates estimated response probabilities obtained by fitting a nonresponse model describing the relationship between the response indicators and a set of explanatory variables. Using a cali-bration procedure closely related to model calicali-bration (Wu and Sitter, 2001), we construct a single weighting system adjusted for nonresponse based on all this information. This weigh-ting system may then be applied to all the survey variables. For the variables identified as key variables, we show that the resulting estimator of the corresponding population total is doubly robust in the sense that it remains consistent if either the nonresponse model or the outcome regression model is correctly specified. For the remaining variables (non key variables), the resulting estimator is consistent if the nonresponse model is correctly spe-cified. The theory is developed in the case of parametric outcome regression models and parametric nonresponse models but nothing precludes using the proposed procedure based on nonparametric outcome regression models and/or nonparametric nonresponse models ; e.g., regression trees (Phipps and Toth, 2012).

3.2. Theoretical set-up

Consider a finite population U = {1, · · · , i, · · · , N }. Let y1, . . . , yp, denote p survey

variables and let yji be the value of yj associated with unit i. We are interested in estimating

the p population totals tyj =

P

i∈U yji, j = 1, · · · , p. A sample S, of size n, is selected

according to a sampling design F (I | X), where X is the matrix of design information and

(44)

I = (I1, . . . , IN)> with Ii, a sample selection indicator associated with unit i, such that

Ii = 1 if unit i ∈ S and Ii = 0, otherwise. We denote the first-order inclusion probabilities

by πi and the second-order inclusion probabilities by πij.

In the absence of nonresponse, a complete data estimator of tyj, j = 1, · · · , p, is the

expansion estimator given by

btyj,π =

X

i∈S

wiyji,

where wi = 1/πi denotes the design weight attached to unit i. The expansion estimator is

design-unbiased and design-consistent for tyj; that is, N −1(bt

yj,π − tyj) = Op(n

−1/2) ; e.g.,

Fuller (2009).

At the end of the data collection process, the y-variables are observed for a subset of the original sample S. Let Ri, i ∈ S, denote the response indicator attached to unit i such

that Ri = 1 if unit i responds to the survey, and Ri = 0, otherwise. The set of respondents,

denoted by Sr, is the subset of S which contains all the units i ∈ S such that Ri = 1. Let

vi, i ∈ S, be a vector of fully observed variables attached to unit i and VS, the matrix

containing v>i in its ith row. We assume that the data are Missing At Random (MAR) ; see Rubin (1976). That is, the response probability attached to unit i is

pi = P (Ri = 1|VS).

The pi’s being unknown, we postulate the following parametric model :

pi = p(vi; α), (3.2.1)

where p(·; α) is a given function and α is a vector of unknown parameters. Model (3.2.1) is called a nonresponse model. The estimator α of α may be obtained by solving the surveyb weighted estimating equations

Sp(α) = 1 N X i∈S wi Ri− p(vi; α) p(vi; α) {1 − p(vi; α)} ∂p(vi; α) ∂α = 0. (3.2.2)

The estimated response probability attached to unit i is pbi = p(vi;α). The conventionalb nonresponse adjusted weight for i ∈ Sr, is given by wi = wi/pbi, leading to the weighting system adjusted for nonresponse, {wi; i ∈ Sr}. Applying this system to the survey variable

(45)

yj, j = 1, · · · , p, we obtain the well-known propensity score adjusted (PSA) estimator b tyj,psa= X i∈Sr wiyji. (3.2.3)

The estimator (3.2.3) is also called empirical double expansion estimator (Haziza and Beaumont, 2017) or inverse probability weighting estimator. It is consistent for tyj if the

nonresponse model (3.2.1) is correctly specified. That is, N−1(btyj,psa − ty) = Op(n −1/2),

j = 1, · · · , p; e.g., Kim and Kim (2007). However, as noted by a number of authors, the use of explanatory variables that are highly predictive of response tends to yield some small estimated response probabilities and thus large adjusted weights wi. As a result, the estimator (3.2.3) may be unstable for survey variables that are poorly related to the vector of explanatory variables v; see, e.g., Little and Vartivarian (2005), Beaumont (2005) and Haziza and Beaumont (2017). Therefore, the vector v should ideally contain the explanatory variables that are related to both the response indicator Ri and the survey

variables y1, · · · , yp. Explanatory variables that are related only to the response indicators

but unrelated to the survey variables should not be used in the estimation of response probabilities as they do not contribute to reducing the nonresponse bias of (3.2.3) but may increase substantially its nonresponse variance. In a survey collecting a large number of survey variables, the main objective is to reduce the potential nonresponse bias and so it is common practice to build the most predictive nonresponse model without examining the potential relationships between the selected explanatory variables and the survey variables. As a result, the estimator (3.2.3) may suffer from inefficiency for some survey variables. Making (3.2.3) more stable may be achieved through calibration based on some variables that are not related to Ri (and that were not included in the nonresponse model)

but believed to be related to the survey variables. More specifically, let z∗ be a vector of auxiliary variables available for all i ∈ S. The conventional calibration procedure consists of determining a calibrated weightwei, for i ∈ Sr, as close as possible to the original weights wi

subject to the calibration equations P

i∈Srweizi = P i∈Swiz

i. If available, the benchmarks

P

i∈Uz

i may be used instead of

P

i∈Swizi. We expect the resulting estimator of tyj to be

significantly more efficient than btyj,psa if there is a strong linear relationship between yj

and the vector z∗. This procedure suffers from two drawbacks : (1) Many surveys collect

(46)

variables that are not continuous but rather categorical, in which case assuming a linear relationship is usually not appropriate ; (2) Different survey variables may be explained by different sets of explanatory variables. The conventional procedure imposes the same set z∗ for all the survey variables.

To overcome these drawbacks, we propose a weighting procedure in the next section that makes a more efficient use of the available auxiliary information, at least for the survey variables identified as key variables.

3.3. The proposed method

Without loss of generality, we assume that the first G of the p survey variables are identified as key variables. We assume that the variable yj obeys the following outcome

regression model :

E(yji) = m(j)(z

(j)

i ; β

(j)), j = 1, · · · , G, (3.3.1)

where m(j)(·; β(j)) is an unknown function, z(j) is a vector of fully observed variables

associated with yj. A different link function m(j)(·; β(j)) and a different set of explanatory

variables z(j)i are postulated for each key survey variable yj, j = 1, · · · , G.

The proposed procedure is based on the nonresponse model (3.2.1) and the G outcome regression models (3.3.1). It may be implemented as follows :

(1) Obtain the estimated response probabilities pbi = p(vi;α) for i ∈ S, as described inb Section 2.

(2) Obtain the estimators of β(j), j = 1, · · · , G, by solving the following survey weighted estimating equations : Sm(j)(j)) = 1 N X i∈Sr wi n yi− m(j)(z(j)i ; β (j))o∂m(j)(z (j) i ; β (j)) ∂β(j) = 0. (3.3.2) For each unit i ∈ S, we obtain the set of predicted values m(1)(z(1)

i ; bβ (1) ), · · · , m(G)(z(G) i ; bβ (G) ). (3) Obtain a calibrated weighting system {wei; i ∈ Sr}, where the weights wei are as

Figure

Figure 2.1. Représentation de la non-réponse
Table 3. 1. Percent relative bias and relative efficiency (in parentheses) of several estimators for Population 1 and ignorable nonresponse
Table 3. 4. Percent relative bias and relative efficiency (in parentheses) of several estimators for Population 1 and nonignorable nonresponse
Table 3. 5. Percent relative bias and relative efficiency (in parentheses) of several estimators for Population 4 and ignorable nonresponse

Références

Documents relatifs

Nous proposons dans ce travail deux estimateurs non-param´ etriques de la densit´ e f β des effets al´ eatoires β j lorsque la densit´ e du bruit est connue et que sa fonction

Those equations can be derived in some situations from a microscopic model (cf. [5]), but it is also possible to obtain them when one starts with a system of reactive

Despite the use of stabilized weights, the variability of the weighted estimator of the DRF was par- ticularly high, and none of the variance estimators (a bootstrap-based estimator,

If the subspace method reaches the exact solution and the assumption is still violated, we avoid such assumption by minimizing the cubic model using the ` 2 -norm until a

Si l’on souhaite que l’école contribue à plus de justice sociale, l’égalité doit plutôt être perçue comme un objectif à atteindre pour la fin de la

Aunque el texto de Simeón no contenía una condena explícita de las esculturas tridimensionales, sus palabras implicaban que las estatuas eran imágenes perniciosas, pues

The relative best outperformances of Logistic regression occur with R1 (logit response mechanism with non normal residuals) and R2 (reference response mechanism + a quadratic

The link with non-autonomous attracting basins was made in [3], where Arosio used a construction due to Fornæss and Stensønes (see Theorem 18 below) to prove the existence of