• Aucun résultat trouvé

Doit-on utiliser toujours la pondération par calage ?

N/A
N/A
Protected

Academic year: 2022

Partager "Doit-on utiliser toujours la pondération par calage ?"

Copied!
13
0
0

Texte intégral

(1)

Doit-on utiliser toujours la pondération par calage ?

Mohammed El Haj Tirari

Institut National de Statistique et d'Economie Appliquée

Neuvième Colloque Francophone sur les Sondages, Gatineau, Québec, Canada

11-14/10/2016

(2)

Introduction et Notations

Critère du choix entre les deux séries de pondération Introduction Notations

Introduction

En présence d'information auxiliaire, la technique de calage est la plus utilisée pour en tenir compte dans le but d'améliorer la précision des estimations produites.

Cependant, les pondérations par calage peuvent ne pas convenir à toutes les variables d'intérêt de l'enquête, en particulier celles qui ne sont pas liées aux variables auxiliaires utilisées dans le calage.

En eet, lors de l'estimation des paramètres de la population, on dispose de deux séries de pondération :

1

Les poids de sondage d

k

=

π1

k 2

Les poids de calage w

k

(3)

Introduction

La question qui se pose :

, → Pour une variable d'intérêt y donnée, laquelle parmi les deux séries de poids convient mieux d'utiliser pour produire les estimations les plus précises des paramètres de y ?

L'objet de cette présentation est de proposer une réponse à

cette question.

(4)

Introduction et Notations

Critère du choix entre les deux séries de pondération Introduction Notations

Notations

Soit U = {1, . . . , N } une population de taille N à partir de laquelle on sélectionne un échantillon s de taille n .

On s'intéresse à une variable d'intérêt y = (y

1

, . . . , y

N

)

0

en ayant comme objectif l'estimation de son total :

t

y

= X

k∈U

y

k

On suppose qu'on dispose de p variables auxilaires X

1

, . . . , X

p

dont les totaux

t

x

= X

k∈U

x

k

sont connus, où x

k

= x

k1

, . . . , x

kp

0

pour tout k ∈ U .

(5)

Approche modèle

Sous l'approche basée sur le modèle, on suppose que les valeurs de y sont les réalisations d'un modèle de superpopulation ξ donné par

y k = x

0

k β + k avec

β = (β 1 , . . . , β p )

0

,

E ξ ( k ) = 0, var ξ ( k ) = σ 2 u v k 2 et cov ξ ( k , l ) = 0.

Les v k 2 sont supposé connus avec P

k∈U v k = N

(6)

Introduction et Notations

Critère du choix entre les deux séries de pondération Introduction Notations

Le π -estimateur et l'estimateur par calage

Pour estimer le total t y d'une variable d'intérêt y , on considère la classe des estimateurs linéaires qui peuvent s'écrire

b t yw = X

k∈S

w

kS

y

k

où w

kS

sont des poids qui peuvent dépendre de l'échantillon.

Dans le cas où les variables auxilaires X 1 , . . . , X p ne sont pas prises en compte, l'estimateur linéaire utilisé est le

π -estimateur donné par : X

k∈S

y k

π k

ce qui correspond à utiliser les poids de sondage d k = π 1

k

pour

la pondération.

(7)

Le π -estimateur et l'estimateur par calage

Pour tenir compte des variables auxilaires X 1 , . . . , X p , on peut utiliser l'estimateur par calage donné par

b t yC = X

k∈S

w

kS

y

k

où les poids w

kS

satisent les équations de calage : X

k∈S

w

kS

x

k

= X

k∈U

x

k

Les poids w

kS

dépendent de l'échantillon.

Le calage vise à réduire la variance des estimateurs.

(8)

Introduction et Notations Critère du choix entre les deux séries de pondération

Critère du choix entre les deux séries de pondération

Pour mesurer la précision de l'estimateur b t yw , nous allons considèrer l'approche basée sur le plan et le modèle.

Sous cette approche, la précision de b t yw peut être mesurée par EQM (b t yw ) = E p E ξ (b t yw − t y ) 2

où E p et E ξ sont respectivement les espérances sous le plan et

le modèle de superpopulation.

(9)

Critère du choix entre les deux séries de pondération

L'impact de l'utilisation des poids de calage w

k

à la place des poids des sondages d

k

peut être mesuré par :

W ef f = EQM

(b t

yC

) EQM

(b t

) qui peut être approximé par

W ef f ≈ σ

u2

P

k∈U

v

k2

h R

2w

k

(d

k

− 1) + (R

wk

− 1)

2

i σ

u2

P

k∈U

v

2k

(d

k

− 1) + V b

π

où R

wk

=

wdk

k

, σ

u2

est la variance des résidus du modèle et V b

π

= var

p

(b t

yπb

) = X

k∈U

X

l∈U

kl

y b

k

π

k

b y

l

π

l

(10)

Introduction et Notations Critère du choix entre les deux séries de pondération

Remarques

(1) Lorsque l'échantillon s est sélectionné selon un plan équilibré sur les variables auxiliaires X

1

, . . . , X

p

, on a V b

π

= 0 et

W ef f ≈ P

k∈U

v

2k

h R

2w

k

(d

k

− 1) + (R

wk

− 1)

2

i P

k∈U

v

k2

(d

k

− 1) = 1

, → C'est la série des poids de sondage qui doit être utilisée pour la pondération.

, → La question de l'utilisation ou non des poids de calage se pose

surtout lorsqu'une partie des variables de calage n'a pas été

utilisée dans l'équilibrage.

(11)

Remarques

(2) Par exemple, lorsque l'échantillon s est sélectionné selon un plan de sondage de taille xe et x

k

= π

k

, on a

w

k

= d

k

et V b

π

= 0 et on retrouve bien W ef f = 1 :

W ef f = P

k∈U

v

k2

(d

k

− 1) P

k∈U

v

k2

(d

k

− 1) = 1

(12)

Introduction et Notations Critère du choix entre les deux séries de pondération

Estimateur composite

On note que l'approximation de l'eet de pondération ( W ef f ) peut nous permettre d'élaborer un nouvel estimateur composite b t

ywComp

dont les poids sont donnés par :

w

Compk

= W ef f d

k

+ (1 − W ef f )w

k

où d

k

et w

k

sont respectivement les poids de sondage et de calage.

Ainsi, l'estimateur composite obtenu est

b t

ywComp

= W ef fb t

+ (1 − W ef f )b t

ywC

(13)

Conclusion

Dans ce travail, nous nous sommes intéressés à la question de l'utilisation ou non de la pondération par calage pour estimer les paramètres d'une variable d'intérêt y .

Nous avons proposé un critère permettant d'orienter le choix de la série des poids qui convient d'utiliser pour chaque variable d'intérêt de l'enquête.

Ce critère a l'avantage de tenir compte du plan de sondage mis en oeuvre ainsi que de l'impact des variables auxiliaires utilisées dans le calage.

Possibilité de construire un estimateur composite à partir de

l'estimateur de HT et celui de calage.

Références

Documents relatifs

Pour t’aider à amener les apprenants à s’approprier le sens mathématiques de certains mots dans la conduite de ta séance de mathématiques, nous te proposons la stratégie sui-

J’ai ensuite fréquenté les données de santé dans divers postes, à la Caisse Nationale de l’Assurance Maladie, au Centre Hospitalier de Lille… Lorsque la polémique sur les

Cependant, la variance de l’estimateur par calage peut devenir importante quand on utilise dans le calage un très grand nombre de variables auxiliaires surtout lorsque certaines de

Dans cette présentation, nous proposons un critère de sélection des variables auxiliaires qui convient d'utiliser pour calculer les poids de calage en se servant des données

Nous proposons une mesure permettant d’´ evaluer pour chaque variable d’int´ erˆ et, l’apport de la pond´ eration par calage ` a la pr´ ecision de l’estimateur de son

Mesurer le poids de la barre seule, réaliser le montage, mesurer la distance entre l’axe et les forces s’exerçant sur la barre, ainsi que l’intensité de ces forces. Noter

Il faut signaler aux élèves que l’on a connaissance du subterfuge, et leur demander de rejoindre la réunion avec leur micro tout en proposant aux élèves qui auraient des raisons de

Notez que quand vous utilisez la portée Utilisateur, les paramètres ne sont pas stockés dans le fichier *.config à la racine de votre application, mais dans un nouveau