7`emeColloquesurlesSondages5-7NovembreENSAI Camelia Goga R´egressionencomposantesprincipalesensondages

(1)

R´ egression en composantes principales en sondages

Camelia Goga

(en collaboration avec H. Cardot, M.-A.Shehzad et A. Vanheuverzwyn) IMB, Université de Bourgogne-Dijon et Médiamétrie

camelia.goga@u-bourgogne.fr

7`eme Colloque sur les Sondages 5-7 Novembre ENSAI

1/30

(2)

Plan de l’expos´ e

1 Motivation : exemple des enquêtes sur l’audience (Médiamétrie)

2 Calage sur composantes principales : information auxiliaire compl`ete

3 Calage sur composantes principales estim´ees

4 Application sur les données Médiamétrie

(3)

Motivation : enquête sur l’audience à Médiamétrie

Regression en composantes principales en sondages

Calage sur des composantes estim´ees

Une ´etude par simulation

3/30

(4)

L’enquˆ ete sur l’audience ` a M´ ediam´ etrie

Information auxiliaire : information externe (recensement ou une autre enquête) en lien avec les objectifs de l’enquête en cours ; Objectif : améliorer la précision des estimations en l’utilisant au niveau de l’échantillonnage ou de l’estimation ;

Enquêtes à Médiamétrie : mesurent l’audience de la télévision en France

passage au num´erique et l’apparition de la TNT : les donn´ees sont de plus en plus nombreuses ;

développement des offres numériques avec voie de retour permet de savoir à chaque instant, le nombre de boˆıtiers allumés sur chaque chaˆıne.

Comment utiliser autant d’information auxiliaire ?

(5)

Cadre et notations

Soit la population U ={1, . . . , k, . . . , N}

On sélectionne un échantillons⊂U de taillenselonp(s); les probabilités d’inclusionπ_k etπ_kl

SoitY la variable d’int´erˆet et on veut estimer ty =X

U

yk

X₁, . . . ,X_p variables auxiliaires : ˆage, CSP, r´egion Insee. . .

x⁰_k= (X1k, . . . , Xpk) pour k= 1, . . . , N X= (x1, . . . ,xN)⁰

L’estimateur d’Horvitz-Thompson (HT)sans information auxiliaire: tˆ_yd=X

s

yk

π_k =X

s

d_ky_k

5/30

(6)

Estimation en pr´ esence du sur-calage

Difficult´es possibles On suppose que le nombre de variables auxiliaires (ou de calage) est tr`es grand.

1 des poids wk n´egatifs ou trop grands.

2 utiliser trop de variables de calage peut augmenter la variance (Silva and Skinner, 1997)

Solutions:

1 choisir les variables les plus pertinentes ;

2 utiliser une inverse généralisée (solution proposée dans CAL- MAR2) ;

3 relˆacher les ´equations de calage.

(7)

7/30

(8)

Construction des composantes principales (CP)

Soient λ1 ≥ λ2 ≥ . . . ≥ λp > 0 les valeurs propres de N⁻¹ X^>X et v₁, . . . ,v_p les vecteurs propres associ´es :

N⁻¹ X^>X

vj =λjvj, j= 1, . . . , p.

Les composantes principales de X,notéesZ1, . . . ,Zp,sont les combinaisons linéaires de variables de départ, X₁, . . . ,X_p et qui contiennent le maximum d’information.

Z_j =Xv_j, j= 1, . . . , p.

On ne garde que les r premi`eres CP correspondant auxr plus grandes valeurs propres, avecr << p.

(9)

Utilisation de l’ACP en sondages

Soient les nouvelles variables

Z₁, . . . ,Z_r

o`u Z_j = (z_kj)_k∈U, et les z_kj, k ∈ U s’appellent les scores de Zj.

La matrice d’information auxiliaire est maintenant donn´ee par Z = (Z₁, . . . ,Z_r) = (z^>_k)k∈U

avec z^>_k = (z_k1, . . . , z_kr).

On réduit le problème de p variables de départ X₁, . . . ,X_p à r nouvelles variables, Z1, . . . ,Zr conservant le maximum de variabilité.

9/30

(10)

Calage sur composantes principales

On utilise comme variables de calage les rcomposantes principales,

Z1, . . . ,Zr

Objectif (avec la distance de chi-deux) : trouver des poids de calage w= (wk)k∈s qui v´erifient

w = argmin_wX

k∈s

(wk−dk)² d_k ˆt_w,Z_j = t_Z_j pour j= 1, . . . , r.

Les équations de calage peuvent être écrites sous la forme X

k∈s

w_kz_k=X

k∈U

z_k

(11)

L’estimateur dépend d’un paramètrer à choisir :

r = 0 : on obtient l’estimateur d’Horvitz-Thompson ˆt_yd qui n’utilise pas d’information auxiliaire.

r =p: on obtient l’estimateur cal´e sur lespvariables de d´epart.

Il faut trouver le bon compromis.

L’estimateur par calage du total,ˆtw,P C =P

k∈sw_ky_k, est un estimateur par la régression généralisée :

ˆt_{w,P C} = ˆt_yd− ˆt_zd−t_z>βˆ_Z

o`u

βˆ_Z = X

k∈s

d_kz_kz^T_k

!−1

X

k∈s

d_kz_ky_k.

11/30

(12)

Lien avec l’approche model-assisted

Soit le mod`ele lin´eaire

ξ: yk =xkβ+εk, k∈U

On peut montrer que

ˆtw,P C = ˆtyd− ˆtxd−tx⁰βˆ_{P C}, βˆ_{P C}= (v1, . . . ,vr)⁰βˆ_Z.

L’estimateurˆtw,P C est un estimateur de typemodel-assisted linéaire quand le coefficient de régressionβ est estimé parβˆ_{P C}. L’estimateurˆt_{w,P C} est biaisé sous le planp(·)ainsi que sous le modèleξ,mais il est sans biais sous le plan et le modèle,

Biasp,ξ(ˆtw,P C −ty) = 0.

(13)

Calage sur le moment d’ordre deux

Pour des variablesXj standardisées, les CPs ont la propriété suivante :

1

NZ⁰_jZj= 1 N

X

k∈U

z_kj² =λj, j= 1, . . . , p

On peut consid´erer un calage sur le moment d’ordre deux des CPs (Ren, 2000)

w^c = argmin_wX

s

(w_k−d_k)² dkqk

et ˆtw,Z_j = tZ_j, j= 1, . . . , r

ˆt_w,Z2

j = t_Z2

j, j= 1, . . . , r avec Z²_j = (z_jk² )_k∈U.

13/30

(14)

(15)

Estimation des composantes principales

On a besoin de connaˆıtrex_k pour tous lesk∈U pour pouvoir d´eterminer les valeurs et vecteurs propres de la matrice de variance-covariance _N¹X⁰X= _N¹ P

Uxkx⁰_k.

Il est possible d’étendre cette approche pour le cas où on ne connaˆıt xk que sur l’échantillon mais avec des totaux P

k∈Ux_k connus ;

On centre les variables dans la population (on connaˆıt leur moyennes) et on les r´eduit dans l’´echantillon ;

15/30

(16)

On estime la matrice de variance-covariance par Γˆ = 1

Nˆ X

s

d_k(x_k−X)(xˆ _k−X)ˆ ⁰

Soient ˆλj,vˆj les valeurs, resp. les vecteurs propres de Γ,ˆ Γˆvˆ_j = ˆλ_jvˆ_j, j = 1, . . . , p

On estime les composantesZ_j par Zˆ_j =Xˆv_j.

On prend comme variables de calageZb_j, j = 1, . . . , r de totaux connus.

(17)

L’estimateur par calage sur les composantes principales estim´eesZb_j,est donn´e par

ˆt^∗_{w,P C} = ˆt_yd− tˆ_zd_ˆ −t_z_ˆ0βˆ_Z_ˆ

= ˆt_yd− tˆ_xd−t_x0βˆ^∗_{P C}

o`u

βˆ_Z_ˆ= X

k∈s

d_kˆz_kˆz^T_k

!−1

X

k∈s

d_kzˆ_ky_k. βˆ^∗_{P C} = (ˆv₁, . . . ,vˆ_r) ˆβ_Z_ˆ.

17/30

(18)

Hypoth` eses

On suppose que :

(A1)πk > λ >0pour tousk∈U; (A2)limN→∞nmax_k6=l|πkl−πkπl|<∞.

(A3)limN→∞ 1 N

P

Uy_k²<∞.

(A4)limN→∞ n

N =π∈(0,1).

(A5)||xk||<∞pour tousk∈U.

Alors,βˆZˆ−β˜_Z =op(1)avecβ˜_Z = P

k∈Uzkz^T_k−1P

k∈Uzkyk et N⁻¹(ˆt^∗_{w,P C} −ty) =N⁻¹(ˆtdif f−ty) +op(n^−1/2) o`uˆtdif f = ˆtyd− ˆtzd−tz⁰β˜_Z.

(19)

19/30

(20)

Donn´ ees M´ ediam´ etrie (1)

Population d’étude U composée de N = 5 329 individus qui regardent une chaˆıne de TV sur deux semaines consécutives de septembre 2010 ;

Le paramètre d’intérêt : la durée totale d’écoute sur lundi de la deuxième semaine ;

La variable Y contient beaucoup de z´eros (plus de 30%).

On considère un échantillonsde taillen= 500tiré par sondage aléatoire simple sans remise dansU.

(21)

Donn´ ees M´ ediam´ etrie : Information auxiliaire

19 variables qualitatives de type socio-démographique (région, sexe, CSP, internet. . . ) avec 52 modalités en tout ;

age : en continu ;

On considère de plus comme variable auxiliaire la durée totale d’écoute pour la première semaine de septembre 2010:

avec cette variable, on aR²= 0.50, sans cette variable, on aR²= 0.11.

Matrice d’information auxiliaire X de dimension5 329×54; La matrice Xcontient l’intercept ; on calcule les CP deXsans l’intercept (et après avoir centré et réduit) et la matrice des CP est

[1 Z₁ . . . Zp−1].

21/30

(22)

Estimation

On sélectionne un échantillonsde taille n= 500selon un plan aléatoire simple sans remise dansU.

On consid`eren.sim= 1000simulations.

L’estimateur GREG ne marche pas toujours car la matrice X⁰_sΠ_sX_s a beaucoup de foisλ_min égale à zéro). On utilise l’inverse généralisée.

(23)

Comparaison entre ˆ t

_ridge

, ˆ t

_{P C}

et t ˆ

_HT

biais relatif :

RB=

PB

b=1θˆ^(j)/B−t_y ty

plus petit que 0.2%.

le rapport de variances (sur les B ´echantillons), par rapport `a l’estimateur de Horvitz-Thompsonˆt^(b)_yd,

var_θ varHT

=

1 B

PB

b=1(ˆθ^(b)−t_y)²

1 B

PB

b=1(ˆt^(b)_yd −t_y)² .

23/30

(24)

0 10 20 30 40 50

0.00.51.01.52.02.53.0

Gain par rapport a l'estimateur de Horvitz-Thompson

nombre de cp

rapport var(PC)/var(HT)

en bleu : le rapport entre la variance de l’estimateur obtenu par calage exact (calculé avec l’inverse généralisée) et l’estimateur d’Horvitz-Thompson ;

pour p= 0,on a l’estimateur de HT et pourp= 50,on est proche

24/30 Camelia Goga ACP en sondages

(25)

Coefficient de variation des poids en fonction de r et de n

GREG7 11 18 20 25 30 35 40 45 47 50

0.050.100.150.200.250.300.35 0.00.10.20.30.4

Coefficient de variation des poids pour n=500 et simulations

nombre de CP

CV moyen sur 1000 simulations

7 11 1820 25 30 35 40 454750

Le coefficient de variation des poids cv(w) =

√var(w)

w est calcul´e pour 1000 simulations.

25/30

(26)

Etude avec calage p´ enalis´ e

On calcule les poids ridge pour 150 valeurs de λ: λ= 4·2^−h, h∈[−25,25]

On calcule l’estimateur par calage p´enalis´e ou ridge tˆ_w,λ pour chaqueλet pourB= 500simulations. On compare la variance detˆ_w,λ lors de 500 simulations avec la variance deˆt_yd

On remarque (dans le graphique log₂(λ)∈[−23,27])

1 pourλgrand,ˆt_w,λest aussi efficace que l’estimateur d’Horvitz- Thompson

2 pourλtrès proche de zéro, on a un gain très important.

(27)

-20 -10 0 10 20

0.50.60.70.80.91.0

Gain par rapport à l'estimateur HT

Log(K)

Rapport de variances var(Ridge)/var(HT)

27/30

(28)

Nous avons répété 10 fois la simulation.

pour K petit, le gain est important ;

pour K grand, l’estimator ˆt_ridge s’approche deˆtHT.

(29)

Conclusion et perspectives

On propose une nouvelle m´ethode pour r´eduire le grand nombre de variables auxiliaires en sondages ;

Cette m´ethode est facilement mise en oeuvre ;

Elle a l’avantage par rapport `a la r´egression ridge de pouvoir faire un calage sur le moment d’ordre deux ;

Elle permet d’obtenir de gains importants en termes de variance ;

29/30

(30)

Courte bibliographie

Chambers, R. (1996), Robust case-weighting for multi-purpose establishments surveys, Journal of official statistics, vol.12, 1996, 3-32 ;

Deville, J.-C., 1999. Variance estimation for complex statistics and estimators : linearization and residual techniques. Survey Methodology 25, 193–204.

Deville, J.-C., S¨arndal, C.-E., 1992. Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376–382.

Rao, J.N.K. and Singh, A.C. (2009), Range restricted weight calibration for survey data using ridge regression, Pakistan Journal of Statistics, 25, 371-384.

Ren, R. (2000), Utilisation d’information auxiliaire par calage sur fonction de répartition, thèse de l’Université Paris Dauphine.

Silva, P.L.N. and Skinner, C. (1997). Variable selection for regression estimation in finite population, Survey Methodology, 23, 23-32.

Till´e, Y. and Guggemos, F., (2010) Penalized calibration in survey sampling : Design-based estimation assisted by mixed models. Journal of Statistical Planning and Inference 140 (2010) 3199–3212.