Doit-on utiliser toujours la pondération par calage ?

(1)

Doit-on utiliser toujours la pondération par calage ?

Mohammed El Haj Tirari

Institut National de Statistique et d'Economie Appliquée

Neuvième Colloque Francophone sur les Sondages, Gatineau, Québec, Canada

11-14/10/2016

(2)

Introduction et Notations

Critère du choix entre les deux séries de pondération Introduction Notations

Introduction

En présence d'information auxiliaire, la technique de calage est la plus utilisée pour en tenir compte dans le but d'améliorer la précision des estimations produites.

Cependant, les pondérations par calage peuvent ne pas convenir à toutes les variables d'intérêt de l'enquête, en particulier celles qui ne sont pas liées aux variables auxiliaires utilisées dans le calage.

En eet, lors de l'estimation des paramètres de la population, on dispose de deux séries de pondération :

1

Les poids de sondage d

_k

=

_π¹

k 2

Les poids de calage w

_k

(3)

Introduction

La question qui se pose :

, → Pour une variable d'intérêt y donnée, laquelle parmi les deux séries de poids convient mieux d'utiliser pour produire les estimations les plus précises des paramètres de y ?

L'objet de cette présentation est de proposer une réponse à

cette question.

(4)

Notations

Soit U = {1, . . . , N } une population de taille N à partir de laquelle on sélectionne un échantillon s de taille n .

On s'intéresse à une variable d'intérêt y = (y

₁

, . . . , y

_N

)

0

en ayant comme objectif l'estimation de son total :

t

_y

= X

k∈U

y

_k

On suppose qu'on dispose de p variables auxilaires X

₁

, . . . , X

_p

dont les totaux

t

_x

= X

k∈U

x

_k

sont connus, où x

k

= x

_k1

, . . . , x

_kp

⁰

pour tout k ∈ U .

(5)

Approche modèle

Sous l'approche basée sur le modèle, on suppose que les valeurs de y sont les réalisations d'un modèle de superpopulation ξ donné par

y _k = x

⁰

_k β + _k avec

β = (β ₁ , . . . , β _p )

⁰

,

E _ξ ( _k ) = 0, var _ξ ( _k ) = σ ² _u v _k ² et cov _ξ ( _k , _l ) = 0.

Les v _k ² sont supposé connus avec P

k∈U v k = N

(6)

Le π -estimateur et l'estimateur par calage

Pour estimer le total t _y d'une variable d'intérêt y , on considère la classe des estimateurs linéaires qui peuvent s'écrire

b t yw = X

k∈S

w

_kS

y

_k

où w

_kS

sont des poids qui peuvent dépendre de l'échantillon.

Dans le cas où les variables auxilaires X ₁ , . . . , X _p ne sont pas prises en compte, l'estimateur linéaire utilisé est le

π -estimateur donné par : X

k∈S

y k

π _k

ce qui correspond à utiliser les poids de sondage d _k = _π ¹

k

pour

la pondération.

(7)

Le π -estimateur et l'estimateur par calage

Pour tenir compte des variables auxilaires X 1 , . . . , X p , on peut utiliser l'estimateur par calage donné par

b t _yC = X

k∈S

w

_kS

y

_k

où les poids w

_kS

satisent les équations de calage : X

k∈S

w

_kS

x

_k

= X

k∈U

x

_k

Les poids w

_kS

dépendent de l'échantillon.

Le calage vise à réduire la variance des estimateurs.

(8)

Introduction et Notations Critère du choix entre les deux séries de pondération

Critère du choix entre les deux séries de pondération

Pour mesurer la précision de l'estimateur b t _yw , nous allons considèrer l'approche basée sur le plan et le modèle.

Sous cette approche, la précision de b t _yw peut être mesurée par EQM _pξ (b t _yw ) = E _p E _ξ (b t _yw − t _y ) ²

où E p et E ξ sont respectivement les espérances sous le plan et

le modèle de superpopulation.

(9)

Critère du choix entre les deux séries de pondération

L'impact de l'utilisation des poids de calage w

k

à la place des poids des sondages d

k

peut être mesuré par :

W ef f = EQM

_pξ

(b t

_yC

) EQM

_pξ

(b t

_yπ

) qui peut être approximé par

W ef f ≈ σ

_u²

P

k∈U

v

_k²

h R

²_w

k

(d

_k

− 1) + (R

_w_k

− 1)

²

i σ

_u²

P

k∈U

v

²_k

(d

_k

− 1) + V b

π

où R

w_k

=

^w_d^k

k

, σ

_u²

est la variance des résidus du modèle et V b

π

= var

p

(b t

yπb

) = X

k∈U

X

l∈U

∆

kl

y b

k

π

_k

b y

l

π

_l

(10)

Remarques

(1) Lorsque l'échantillon s est sélectionné selon un plan équilibré sur les variables auxiliaires X

1

, . . . , X

p

, on a V b

π

= 0 et

W ef f ≈ P

k∈U

v

²_k

h R

²_w

k

(d

_k

− 1) + (R

_w_k

− 1)

²

i P

k∈U

v

_k²

(d

_k

− 1) = 1

, → C'est la série des poids de sondage qui doit être utilisée pour la pondération.

, → La question de l'utilisation ou non des poids de calage se pose

surtout lorsqu'une partie des variables de calage n'a pas été

utilisée dans l'équilibrage.

(11)

Remarques

(2) Par exemple, lorsque l'échantillon s est sélectionné selon un plan de sondage de taille xe et x

_k

= π

k

, on a

w

_k

= d

_k

et V b

_π

= 0 et on retrouve bien W ef f = 1 :

W ef f = P

k∈U

v

_k²

(d

_k

− 1) P

k∈U

v

_k²

(d

_k

− 1) = 1

(12)

Estimateur composite

On note que l'approximation de l'eet de pondération ( W ef f ) peut nous permettre d'élaborer un nouvel estimateur composite b t

yw_Comp

dont les poids sont donnés par :

w

^Comp_k

= W ef f d

k

+ (1 − W ef f )w

k

où d

k

et w

k

sont respectivement les poids de sondage et de calage.

Ainsi, l'estimateur composite obtenu est

b t

_yw_Comp

= W ef fb t

_yπ

+ (1 − W ef f )b t

_yw_C

(13)

Conclusion

Dans ce travail, nous nous sommes intéressés à la question de l'utilisation ou non de la pondération par calage pour estimer les paramètres d'une variable d'intérêt y .

Nous avons proposé un critère permettant d'orienter le choix de la série des poids qui convient d'utiliser pour chaque variable d'intérêt de l'enquête.

Doit-on utiliser toujours la pondération par calage ?

Doit-on utiliser toujours la pondération par calage ?

Mohammed El Haj Tirari

Institut National de Statistique et d'Economie Appliquée

Neuvième Colloque Francophone sur les Sondages, Gatineau, Québec, Canada

11-14/10/2016

Introduction

En présence d'information auxiliaire, la technique de calage est la plus utilisée pour en tenir compte dans le but d'améliorer la précision des estimations produites.

Cependant, les pondérations par calage peuvent ne pas convenir à toutes les variables d'intérêt de l'enquête, en particulier celles qui ne sont pas liées aux variables auxiliaires utilisées dans le calage.

En eet, lors de l'estimation des paramètres de la population, on dispose de deux séries de pondération :

Les poids de sondage d

=

Les poids de calage w

Introduction

La question qui se pose :

, → Pour une variable d'intérêt y donnée, laquelle parmi les deux séries de poids convient mieux d'utiliser pour produire les estimations les plus précises des paramètres de y ?

L'objet de cette présentation est de proposer une réponse à

cette question.

Notations

Soit U = {1, . . . , N } une population de taille N à partir de laquelle on sélectionne un échantillon s de taille n .

On s'intéresse à une variable d'intérêt y = (y

, . . . , y

)

en ayant comme objectif l'estimation de son total :

t

= X

y

On suppose qu'on dispose de p variables auxilaires X

, . . . , X

dont les totaux

t

= X

x

sont connus, où x

= x

, . . . , x

pour tout k ∈ U .

Approche modèle

Sous l'approche basée sur le modèle, on suppose que les valeurs de y sont les réalisations d'un modèle de superpopulation ξ donné par

y k = x

k β + k avec

β = (β 1 , . . . , β p )

,

E ξ ( k ) = 0, var ξ ( k ) = σ 2 u v k 2 et cov ξ ( k , l ) = 0.

Les v k 2 sont supposé connus avec P

k∈U v k = N

Le π -estimateur et l'estimateur par calage

Pour estimer le total t y d'une variable d'intérêt y , on considère la classe des estimateurs linéaires qui peuvent s'écrire

b t yw = X

k∈S

w

y

où w

sont des poids qui peuvent dépendre de l'échantillon.

Dans le cas où les variables auxilaires X 1 , . . . , X p ne sont pas prises en compte, l'estimateur linéaire utilisé est le

π -estimateur donné par : X

k∈S

y k

π k

ce qui correspond à utiliser les poids de sondage d k = π 1

pour

la pondération.

Le π -estimateur et l'estimateur par calage

Pour tenir compte des variables auxilaires X 1 , . . . , X p , on peut utiliser l'estimateur par calage donné par

b t yC = X

k∈S

w

y

où les poids w

satisent les équations de calage : X

k∈S

w

x

= X

k∈U

x

Les poids w

dépendent de l'échantillon.

Le calage vise à réduire la variance des estimateurs.

Critère du choix entre les deux séries de pondération

y _k = x

_k β + _k avec

β = (β ₁ , . . . , β _p )

E _ξ ( _k ) = 0, var _ξ ( _k ) = σ ² _u v _k ² et cov _ξ ( _k , _l ) = 0.

Les v _k ² sont supposé connus avec P

Pour estimer le total t _y d'une variable d'intérêt y , on considère la classe des estimateurs linéaires qui peuvent s'écrire

Dans le cas où les variables auxilaires X ₁ , . . . , X _p ne sont pas prises en compte, l'estimateur linéaire utilisé est le

π _k

ce qui correspond à utiliser les poids de sondage d _k = _π ¹

b t _yC = X

Pour mesurer la précision de l'estimateur b t _yw , nous allons considèrer l'approche basée sur le plan et le modèle.

Sous cette approche, la précision de b t _yw peut être mesurée par EQM _pξ (b t _yw ) = E _p E _ξ (b t _yw − t _y ) ²