• Aucun résultat trouvé

6novembre2012 Jean-FrançoisBeaumont, StatisticsCanadaCyrilFavreMartinoz,Crest-EnsaiDavidHaziza,UniversitédeMontréal,Crest-Ensai Traitementdesdonnéesinfluentesdanslecasd’unsondageàdeuxphasesavecuneapplicationautraitementdelanon-réponse

N/A
N/A
Protected

Academic year: 2022

Partager "6novembre2012 Jean-FrançoisBeaumont, StatisticsCanadaCyrilFavreMartinoz,Crest-EnsaiDavidHaziza,UniversitédeMontréal,Crest-Ensai Traitementdesdonnéesinfluentesdanslecasd’unsondageàdeuxphasesavecuneapplicationautraitementdelanon-réponse"

Copied!
50
0
0

Texte intégral

(1)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Traitement des données influentes dans le cas d’un sondage à deux phases avec une application au

traitement de la non-réponse

Jean-François Beaumont,Statistics Canada Cyril Favre Martinoz, Crest-Ensai

David Haziza, Université de Montréal, Crest-Ensai

6 novembre 2012

(2)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Sommaire

1 Introduction

2 Quel outil pour quantifier l’influence ?

3 Application à la non-réponse

4 Simulations

5 Conclusion

(3)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Sommaire

1 Introduction

2 Quel outil pour quantifier l’influence ?

3 Application à la non-réponse

4 Simulations

5 Conclusion

(4)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Unités influentes

Généralement, les unités avec un poids élevé et/ou une valeur élevée Les unités influentes sont très présentes dans le cas des enquêtes entreprises, lorsqu’on observe des variables d’intérêt comme le chiffre d’affaire, qui sont très asymétriques et dont les queues de

distribution sont lourdes

Les unités influentes sont des unités légitimes, on considère que les erreurs de mesures ont été supprimées

La plupart des estimateurs classiques (HT,Greg) sont sensibles à la présence d’unités influentes

Enfin, l’impact de ces unités peut être limité en utilisant un plan adapté : par exemple, avec un sondage aléatoire simple stratifié avec une strate exhaustive

(5)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Unités influentes

Cependant même avec un bon plan de sondage, il reste des unités influentes, par exemple des stratum jumpers

En présence d’unités influentes, les estimateurs classiques demeurent sans biais, mais leur variance peut être élevée

Réduire l’impact de ces unités influentes, conduit à des estimateurs plus stables, mais biaisés

Il faut trouver le bon compromis entre biais et variance

(6)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Plan de sondage à deux phases

U : population de taille N

s1 : échantillon issu de la première phase de tirage de taillen1 s2 : échantillon issu de la deuxième phase de tirage à partir des1, de taillen2

I1i : indicatrice d’appartenance à l’échantillons1 de l’unitéi I2i : indicatrice d’appartenance à l’échantillons2 de l’unitéi Vecteurs des indicatricesI1= (I11,· · · , I1N)0 et

I2= (I21,· · · , I2N)0

Probabilité d’inclusion de première phase de l’unité i: π1i=P(I1i= 1)

Probabilité d’inclusion de deuxième phase de l’unitéi : π2i(I1) =P(I2i= 1|I1;I1i= 1)

(7)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Plan de sondage à deux phases

U(N)

1i

0,

2i

0 II

1i

1,

2i

0

II

1i 1, 2i 1 II

( ) s n

2( 2) s n

(8)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Plan de sondage à deux phases

Un plan de sondage à deux phases est dit invariant si P(I2|I1) =P(I2)

Dans ce cas, on a :π2i(I1) =π2i

Exemple d’invariance : On empile deux sondages aléatoires simples sans remise de taille n1 etn2 fixé à priori

Exemple de non invariance :

On effectue un sondage aléatoire simple sans remise en première phase

En deuxième phase, on effectue un tirage proportionnel à la variable xrécoltée au cours de la première phase :

π2i(I1) =n2

xi

P

i∈s1xi

,

Dans la suite, on supposera que le plan de sondage à deux phases

(9)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Estimation

On s’intéresse à l’estimation du total de la variable d’intérêt y, Y =X

i∈U

yi

Les valeurs de la variabley ne sont connues que pouri∈s2

En l’absence de non-réponse, on utilise l’estimateur par double dilation :

DE=X

i∈s2

yi

π1iπ2i =X

i∈s2

yi

πi

L’estimateur YˆDE est sans biais sous le plan : E1E2( ˆYDE|I1) =Y

(10)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Estimation

On s’intéresse à l’estimation du total de la variable d’intérêt y, Y =X

i∈U

yi

Les valeurs de la variabley ne sont connues que pouri∈s2

En l’absence de non-réponse, on utilise l’estimateur par double dilation :

DE=X

i∈s2

yi

π1iπ2i =X

i∈s2

yi

πi

L’estimateur YˆDE est sans biais sous le plan : E1E2( ˆYDE|I1) =Y

(11)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Erreur d’échantillonnage

On s’intéresse à l’erreur d’échantillonnage totale deYˆDE : YˆDE−Y

Comment quantifier l’influence d’une unité sur l’erreur d’échantillonnage ?

Dans le cas d’un tirage avec une seule phase, on peut utiliser le biais conditonnel; Moreno-Rebollo, Munoz-Reyez and Munoz-Pichardo (1999), Beaumont, Haziza and Ruiz-Gazen (2011).

Comment construire un estimateur robuste en présence d’unités influentes ?

Dans le cas d’un tirage avec une seule phase, on peut se réferer à l’article de Beaumont, Haziza and Ruiz-Gazen (2011).

(12)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Erreur d’échantillonnage

On s’intéresse à l’erreur d’échantillonnage totale deYˆDE : YˆDE−Y

Comment quantifier l’influence d’une unité sur l’erreur d’échantillonnage ?

Dans le cas d’un tirage avec une seule phase, on peut utiliser le biais conditonnel; Moreno-Rebollo, Munoz-Reyez and Munoz-Pichardo (1999), Beaumont, Haziza and Ruiz-Gazen (2011).

Comment construire un estimateur robuste en présence d’unités influentes ?

Dans le cas d’un tirage avec une seule phase, on peut se réferer à l’article de Beaumont, Haziza and Ruiz-Gazen (2011).

(13)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Sommaire

1 Introduction

2 Quel outil pour quantifier l’influence ?

3 Application à la non-réponse

4 Simulations

5 Conclusion

(14)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour commencer on distingue trois types d’unités : i∈s2 : unité échantillonnée

i∈s1−s2 : unité échantillonnée en première phase, mais pas en deuxième

i∈U−s1 : unité non échantillonnée

On ne peut réduire l’impact que des unités échantillonnées (i.e., des unités appartenant à s2)

On peut calculer le biais conditionnel, pour une unité échantillonnée i∈s2:

BiDE(I1i = 1, I2i= 1) = E1E2( ˆYDE−Y|I1, I1i= 1, I2i= 1)

(15)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour commencer on distingue trois types d’unités : i∈s2 : unité échantillonnée

i∈s1−s2 : unité échantillonnée en première phase, mais pas en deuxième

i∈U−s1 : unité non échantillonnée

On ne peut réduire l’impact que des unités échantillonnées (i.e., des unités appartenant à s2)

On peut calculer le biais conditionnel, pour une unité échantillonnée i∈s2:

BiDE(I1i = 1, I2i= 1) = E1E2( ˆYDE−Y|I1, I1i= 1, I2i= 1)

(16)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour commencer on distingue trois types d’unités : i∈s2 : unité échantillonnée

i∈s1−s2 : unité échantillonnée en première phase, mais pas en deuxième

i∈U−s1 : unité non échantillonnée

On ne peut réduire l’impact que des unités échantillonnées (i.e., des unités appartenant à s2)

On peut calculer le biais conditionnel, pour une unité échantillonnée i∈s2:

BiDE(I1i = 1, I2i= 1) = E1E2( ˆYDE−Y|I1, I1i= 1, I2i= 1)

(17)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour commencer on distingue trois types d’unités : i∈s2 : unité échantillonnée

i∈s1−s2 : unité échantillonnée en première phase, mais pas en deuxième

i∈U−s1 : unité non échantillonnée

On ne peut réduire l’impact que des unités échantillonnées (i.e., des unités appartenant à s2)

On peut calculer le biais conditionnel, pour une unité échantillonnée i∈s2:

BiDE(I1i = 1, I2i= 1) = E1E2( ˆYDE−Y|I1, I1i= 1, I2i= 1)

(18)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour un plan de sondage à deux phases quelconque : BDEi (I1i= 1, I2i = 1) = X

j∈U

πij πiπj −1

! yj

| {z }

Influence totale de l’unitéi

Pour un empilement de deux sondages aléatoires simples sans remise de taille n1etn2i = nN1 ×nn2

1 = nN2 BiDE(I1i= 1, I2i= 1) = N

(N−1)(N

n2 −1)(yi−Y¯)

Plan quelconque/ Tirage Poissonien: BiDE(I1i= 1, I2i= 1) =X

j∈U

π1ij

π1iπ1j −1

yj−11i π−12i −1 yi

(19)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour un plan de sondage à deux phases quelconque : BDEi (I1i= 1, I2i = 1) = X

j∈U

πij πiπj −1

! yj

| {z }

Influence totale de l’unitéi

Pour un empilement de deux sondages aléatoires simples sans remise de taille n1etn2i = nN1 ×nn2

1 = nN2 BiDE(I1i= 1, I2i= 1) = N

(N−1)(N

n2 −1)(yi−Y¯) Plan quelconque/ Tirage Poissonien:

(20)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel

Pour un plan de sondage à deux phases quelconque : BDEi (I1i= 1, I2i = 1) = X

j∈U

πij πiπj −1

! yj

| {z }

Influence totale de l’unitéi

Pour un empilement de deux sondages aléatoires simples sans remise de taille n1etn2i = nN1 ×nn2

1 = nN2 BiDE(I1i= 1, I2i= 1) = N

(N−1)(N

n2 −1)(yi−Y¯) Plan quelconque/ Tirage Poissonien:

BDEi (I1i= 1, I2i= 1) =X π1ij

π1iπ1j −1

yj1i−1 π−12i −1 yi

(21)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Le biais conditionnel : Propriétés

Il s’agit d’une mesure d’influence qui tient compte du plan de sondage

Il peut s’interpréter, pour certains plans, commme la contribution de chaque unité à l’erreur d’échantillonnage totale

Siπi = 1, alorsBDEi (I1i= 1, I2i = 1) = 0

Il se peut que le biais conditionel soit inconnu, il suffit de l’estimer

(22)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Construction d’un estimateur robuste

En suivant la démarche de Beaumont, Haziza and Ruiz-Gazen (2011), on construit :

DER = ˆYDE−X

i∈s2

DEi (I1i= 1, I2i = 1) +X

i∈s2

ψn

iDE(I1i = 1, I2i= 1)o

Avec la fonction de Huber ψ: ψ(t) =

c sit > c t si|t| ≤c

−c sit <−c c: tuning constant

Cas particulier: Une seule phase ; i.e.,I2i= 1pout touti⇒YˆDER est égale à l’estimateur robuste proposé par Beaumont, Haziza et Ruiz-Gazen (2011)

(23)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Construction d’un estimateur robuste

(24)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Sommaire

1 Introduction

2 Quel outil pour quantifier l’influence ?

3 Application à la non-réponse

4 Simulations

5 Conclusion

(25)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire) I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase) Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BiP SA(I1i= 1, I2i= 1) =X

j∈U

π1ij π1iπ1j

−1

yj

| {z }

Influence de l’unitéisur l’erreur d’échantillonnage

+ π1i−1 π−12i −1 yi

| {z }

l’influence de l’unitéisur l’erreur de non-réponse

(26)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire)

I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase) Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BiP SA(I1i= 1, I2i= 1) =X

j∈U

π1ij π1iπ1j

−1

yj

| {z }

Influence de l’unitéisur l’erreur d’échantillonnage

+ π1i−1 π−12i −1 yi

| {z }

l’influence de l’unitéisur l’erreur de non-réponse

(27)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire) I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase) Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BiP SA(I1i= 1, I2i= 1) =X

j∈U

π1ij π1iπ1j

−1

yj

| {z }

Influence de l’unitéisur l’erreur d’échantillonnage

+ π1i−1 π−12i −1 yi

| {z }

l’influence de l’unitéisur l’erreur de non-réponse

(28)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire) I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase) Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BiP SA(I1i= 1, I2i= 1) =X

j∈U

π1ij π1iπ1j

−1

yj

| {z }

Influence de l’unitéisur l’erreur d’échantillonnage

+ π1i−1 π−12i −1 yi

| {z }

l’influence de l’unitéisur l’erreur de non-réponse

(29)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire) I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase)

Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BiP SA(I1i= 1, I2i= 1) =X

j∈U

π1ij π1iπ1j

−1

yj

| {z }

Influence de l’unitéisur l’erreur d’échantillonnage

+ π1i−1 π−12i −1 yi

| {z }

l’influence de l’unitéisur l’erreur de non-réponse

(30)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire) I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase) Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BiP SA(I1i= 1, I2i= 1) =X

j∈U

π1ij π1iπ1j

−1

yj

| {z }

Influence de l’unitéisur l’erreur d’échantillonnage

+ π1i−1 π−12i −1 yi

| {z }

l’influence de l’unitéisur l’erreur de non-réponse

(31)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Notation

s2 : échantillon des répondants

n2 : nombre d’unités répondantes (aléatoire) I2i : unité de réponse de l’unitéi

π2i : probabilité de réponse de l’unitéiinconnue

On suppose que les individus répondent indépendamment les uns les autres (équivalent à un tirage Poissonien en deuxième phase) Si lesπ2i étaient connues, on construirait l’estimateur repondéré pour la non-réponse :

P SA=X

i∈s2

yi

π1iπ2i

Influence de l’unité isur cet estimateur: BP SA(I = 1, I = 1) =X π1ij

−1

y + π−1 π−1−1 y

(32)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

En pratique, les probabilités de réponseπ2i sont inconnues On pose le modèle paramétrique suivant:π2i=m(xi,α),

où m(.) est une fonction de lien connu

xiest un vecteur de variable auxiliaire connu pour toutes les unités de l’échantillon (répondants et non répondants)

αest un vecteur de paramètres inconnus Exemple : le modèle logistisque

π2i= exp (x0iα) 1 + exp (x0iα)

Probabilité de réponse estimée de l’unitéi:πˆ2i=m(xi,α)ˆ

(33)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

En pratique, les probabilités de réponseπ2i sont inconnues On pose le modèle paramétrique suivant:π2i=m(xi,α), où

m(.) est une fonction de lien connu

xiest un vecteur de variable auxiliaire connu pour toutes les unités de l’échantillon (répondants et non répondants)

αest un vecteur de paramètres inconnus

Exemple : le modèle logistisque

π2i= exp (x0iα) 1 + exp (x0iα)

Probabilité de réponse estimée de l’unitéi:πˆ2i=m(xi,α)ˆ

(34)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

En pratique, les probabilités de réponseπ2i sont inconnues On pose le modèle paramétrique suivant:π2i=m(xi,α), où

m(.) est une fonction de lien connu

xiest un vecteur de variable auxiliaire connu pour toutes les unités de l’échantillon (répondants et non répondants)

αest un vecteur de paramètres inconnus Exemple : le modèle logistisque

π2i= exp (x0iα) 1 + exp (x0iα)

Probabilité de réponse estimée de l’unitéi:πˆ2i=m(xi,α)ˆ

(35)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

En pratique, les probabilités de réponseπ2i sont inconnues On pose le modèle paramétrique suivant:π2i=m(xi,α), où

m(.) est une fonction de lien connu

xiest un vecteur de variable auxiliaire connu pour toutes les unités de l’échantillon (répondants et non répondants)

αest un vecteur de paramètres inconnus Exemple : le modèle logistisque

π2i= exp (x0iα) 1 + exp (x0iα)

(36)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

En pratique, les probabilités de réponseπ2i sont inconnues On pose le modèle paramétrique suivant:π2i=m(xi,α), où

m(.) est une fonction de lien connu

xiest un vecteur de variable auxiliaire connu pour toutes les unités de l’échantillon (répondants et non répondants)

αest un vecteur de paramètres inconnus Exemple : le modèle logistisque

π2i= exp (x0iα) 1 + exp (x0iα)

Probabilité de réponse estimée de l’unitéi:πˆ2i=m(xi,α)ˆ

(37)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Méthodes des groupes de réponses homogènes

Etape 1 :

On range les individus selon la méthode des scores, par probabilité estimée croissante

Etape 2 :

On classe les individus dans un nombre fixé de groupes, de même taille

Etape 3 :

On calcule les probabilités de réponse dans chaque groupeg : Sii∈g

ˆ π2i=

P

i∈srgπ1i−1 P

i∈sgπ1i−1 Estimateur repondéré par groupe:

(38)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Méthodes des groupes de réponses homogènes

Etape 1 :

On range les individus selon la méthode des scores, par probabilité estimée croissante

Etape 2 :

On classe les individus dans un nombre fixé de groupes, de même taille

Etape 3 :

On calcule les probabilités de réponse dans chaque groupeg : Sii∈g

ˆ π2i=

P

i∈srgπ1i−1 P

i∈sgπ1i−1 Estimateur repondéré par groupe:

P SA=X

i∈s

yi π1iπˆ2i

(39)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

On peut montrer que :

P SA−YˆL=Op(n−1), où YˆL est la version linéarisée deYˆP SA.

Biais conditionnel asymptotique d’une unité répondante sur l’erreur d’échantillonnage et l’erreur de non réponse est :

BiP SA(I1i= 1, I2i= 1)≈E1E2( ˆYL−Y|I1, I1i= 1, I2i= 1)

BiP SA(I1i= 1, I2i= 1) ≈ X

j∈U

π1ij

π1iπ1j

−1

(yj−y¯U) + π−11i π2i−1−1

(yi−y¯g)

(40)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Modèle de non-réponse

On peut montrer que :

P SA−YˆL=Op(n−1), où YˆL est la version linéarisée deYˆP SA.

Biais conditionnel asymptotique d’une unité répondante sur l’erreur d’échantillonnage et l’erreur de non réponse est :

BiP SA(I1i= 1, I2i= 1)≈E1E2( ˆYL−Y|I1, I1i= 1, I2i= 1)

BiP SA(I1i= 1, I2i= 1) ≈ X

j∈U

π1ij

π1iπ1j

−1

(yj−y¯U) + π−11i π2i−1−1

(yi−y¯g)

(41)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Estimateur robuste dans le cas de non-réponse

Une version robuste deYˆP SA

P SAR = YˆP SA−X

i∈s2

iP SA(I1i = 1, I2i= 1)

+ X

i∈s2

ψn

iP SA(I1i= 1, I2i= 1)o

Problème : détermination de la tuning constante

On utilise un critère de type min-max pour la déterminer et on obtient :

R = ˆY −mini∈S( ˆBP SAi ) + maxi∈S( ˆBiP SA)

(42)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Démarche Résultats

Sommaire

1 Introduction

2 Quel outil pour quantifier l’influence ?

3 Application à la non-réponse

4 Simulations Démarche Résultats

5 Conclusion

(43)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Démarche Résultats

Echantillonnage et Simulation de la Non-réponse

On a généré trois populations de taille N= 5000avec une variable aléatoire vectorielle d’intérêt notéeY et une variable auxiliaireX. On a effectué P= 5000tirages aléatoires simples sans remise de taillen1 en première phase.

Les probabilités de réponse ont été générées de la façon suivante : π2i= exp (x0iα)

1 + exp (x0iα) La moyenne des probabilités de réponse est de 0.7.

On a mis en oeuvre l’estimation robuste avec la méthode

« min-max » pour deux tailles d’échantillons.

(44)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Démarche Résultats

Résultats pour l’estimation d’un total

(45)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Démarche Résultats

Résultats pour l’estimation d’un total

RVM C

θˆRP SA,θˆP SA

=

1 P

PP p=1

θˆP SAR −EM C

θˆRP SA2

1 P

PP p=1

θˆP SA−EM C

θˆP SA

2, et

REM C

θˆRP SA,θˆP SA

=

1 P

PP p=1

θˆP SAR −θ2

1 P

PP p=1

θˆP SA−θ2.

(46)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Démarche Résultats

Résultats pour l’estimation d’un total

Pop Taillen1 RBM C

θˆRP SAp

(%) RVM C

θˆpRP SA,θˆpP SA

REM C

1 300 0.02 1.0 0.98

500 0.04 1.0 0.98

2 300 −0.98 0.52 0.58

500 −0.60 0.61 0.64

3 300 −1.33 0.50 0.52

500 −1.16 0.59 0.63

(47)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Sommaire

1 Introduction

2 Quel outil pour quantifier l’influence ?

3 Application à la non-réponse

4 Simulations

5 Conclusion

(48)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Quelques remarques

On peut généraliser les résultats aux cas de plans à deux phases non invariants

On peut étudier d’autres estimateurs, commme l’estimateur par calage

Estimation de l’erreur quadratique de cet estimateur

(49)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Bibliographie I

J.F. Beaumont, D. Haziza, and A. Ruiz-Gazen.

A unified approach to robust estimation in finite population sampling.

En révision, 2011.

R.L. Chambers.

Outlier robust finite population estimation.

Journal of the American Statistical Association, pages 1063–1069, 1986.

P.N. Kokic and P.A. Bell.

Optimal winsorizing cutoffs for a stratified finite population estimator.

(50)

Introduction Quel outil pour quantifier l’influence ? Application à la non-réponse Simulations Conclusion

Bibliographie II

J.L. Moreno-Rebollo, A. Munoz-Reyes, M.D. Jimenez-Gamero, and J. Munoz-Pichardo.

Influence diagnostic in survey sampling : Estimating the conditional bias.

Metrika, 55(3) :209–214, 2002.

J.L. Moreno-Rebollo, A. Muñoz-Reyes, and J. Muñoz-Pichardo.

Miscellanea. influence diagnostic in survey sampling : conditional bias.

Biometrika, 86(4) :923–928, 1999.

J. Munoz-Pichardo, J. Munoz-Garcia, J.L. Moreno-Rebollo, and R. Pino-Mejias.

A new approach to influence analysis in linear models.

Sankhy¯a : The Indian Journal of Statistics, Series A, pages 393–409, 1995.

Références

Documents relatifs

Le bureau regrette ce départ mais comprend bien les raisons et remercie de façon unanime Virginie pour son implication dans le bureau du GdR, et tout particulièrement pour

Donc une unité de quantité de matière a été définie pour bien exprimer le nombre des atomes, des ions ou des molécules : la mole (mol), le mot latin qui signifie « un gros tas

The results suggest that the mouthpiece can be used to deliver taste stimuli by showing significant clusters of activation in the insular and piriform cortex, which are regions

Cependant, c’est le taux sur la zone d’étude qui sera utilisé car la zone d’étude n’est pas représentative de l’ensemble de la zone registre (qui a permis de

fille dudit Guillaume-Andronique Itusy, sa femme, pour .la moitie, du consentement de n.Antoine Musy, fils dudit Guillaume-Andro- nique Musy, et du consentement du soussigne

La tour à elle seule (turre dicti castri) a coûté en plus X livres pour sa démolition. On voit que c'est Jean d'Evian, bien connu à Chillon, qui dirigeait ces travaux pendant 9

HAZIZA Université de Montréal, Crest-Ensai Traitement des données influentes dans le cas d’un sondage à deux phases avec une application au traitement de la non-réponse

Hooderlein (2011) : “Estimating treatment effects with a nonparametric random coefficients selection equation”.. Le Pennec (2011) : “Adaptive estimation in random coefficients