• Aucun résultat trouvé

7`emeColloquesurlesSondages5-7NovembreENSAI Camelia Goga R´egressionencomposantesprincipalesensondages

N/A
N/A
Protected

Academic year: 2022

Partager "7`emeColloquesurlesSondages5-7NovembreENSAI Camelia Goga R´egressionencomposantesprincipalesensondages"

Copied!
30
0
0

Texte intégral

(1)

R´ egression en composantes principales en sondages

Camelia Goga

(en collaboration avec H. Cardot, M.-A.Shehzad et A. Vanheuverzwyn) IMB, Universit´e de Bourgogne-Dijon et M´ediam´etrie

camelia.goga@u-bourgogne.fr

7`eme Colloque sur les Sondages 5-7 Novembre ENSAI

1/30

(2)

Plan de l’expos´ e

1 Motivation : exemple des enquˆetes sur l’audience (M´ediam´etrie)

2 Calage sur composantes principales : information auxiliaire compl`ete

3 Calage sur composantes principales estim´ees

4 Application sur les donn´ees M´ediam´etrie

(3)

Motivation : enquˆete sur l’audience `a M´ediam´etrie

Regression en composantes principales en sondages

Calage sur des composantes estim´ees

Une ´etude par simulation

3/30

(4)

L’enquˆ ete sur l’audience ` a M´ ediam´ etrie

Information auxiliaire : information externe (recensement ou une autre enquˆete) en lien avec les objectifs de l’enquˆete en cours ; Objectif : am´eliorer la pr´ecision des estimations en l’utilisant au niveau de l’´echantillonnage ou de l’estimation ;

Enquˆetes `a M´ediam´etrie : mesurent l’audience de la t´el´evision en France

passage au num´erique et l’apparition de la TNT : les donn´ees sont de plus en plus nombreuses ;

d´eveloppement des offres num´eriques avec voie de retour permet de savoir `a chaque instant, le nombre de boˆıtiers allum´es sur chaque chaˆıne.

Comment utiliser autant d’information auxiliaire ?

(5)

Cadre et notations

Soit la population U ={1, . . . , k, . . . , N}

On s´electionne un ´echantillonsU de taillenselonp(s); les probabilit´es d’inclusionπk etπkl

SoitY la variable d’int´erˆet et on veut estimer ty =X

U

yk

X1, . . . ,Xp variables auxiliaires : ˆage, CSP, r´egion Insee. . .

x0k= (X1k, . . . , Xpk) pour k= 1, . . . , N X= (x1, . . . ,xN)0

L’estimateur d’Horvitz-Thompson (HT)sans information auxiliaire: tˆyd=X

s

yk

πk =X

s

dkyk

5/30

(6)

Estimation en pr´ esence du sur-calage

Difficult´es possibles On suppose que le nombre de variables auxi- liaires (ou de calage) est tr`es grand.

1 des poids wk n´egatifs ou trop grands.

2 utiliser trop de variables de calage peut augmenter la variance (Silva and Skinner, 1997)

Solutions:

1 choisir les variables les plus pertinentes ;

2 utiliser une inverse g´en´eralis´ee (solution propos´ee dans CAL- MAR2) ;

3 relˆacher les ´equations de calage.

(7)

Motivation : enquˆete sur l’audience `a M´ediam´etrie

Regression en composantes principales en sondages

Calage sur des composantes estim´ees

Une ´etude par simulation

7/30

(8)

Construction des composantes principales (CP)

Soient λ1 ≥ λ2 ≥ . . . ≥ λp > 0 les valeurs propres de N−1 X>X et v1, . . . ,vp les vecteurs propres associ´es :

N−1 X>X

vjjvj, j= 1, . . . , p.

Les composantes principales de X,not´eesZ1, . . . ,Zp,sont les combinaisons lin´eaires de variables de d´epart, X1, . . . ,Xp et qui contiennent le maximum d’information.

Zj =Xvj, j= 1, . . . , p.

On ne garde que les r premi`eres CP correspondant auxr plus grandes valeurs propres, avecr << p.

(9)

Utilisation de l’ACP en sondages

Soient les nouvelles variables

Z1, . . . ,Zr

o`u Zj = (zkj)k∈U, et les zkj, k ∈ U s’appellent les scores de Zj.

La matrice d’information auxiliaire est maintenant donn´ee par Z = (Z1, . . . ,Zr) = (z>k)k∈U

avec z>k = (zk1, . . . , zkr).

On r´eduit le probl`eme de p variables de d´epart X1, . . . ,Xp `a r nouvelles variables, Z1, . . . ,Zr conservant le maximum de variabilit´e.

9/30

(10)

Calage sur composantes principales

On utilise comme variables de calage les rcomposantes princi- pales,

Z1, . . . ,Zr

Objectif (avec la distance de chi-deux) : trouver des poids de calage w= (wk)k∈s qui v´erifient

w = argminwX

k∈s

(wk−dk)2 dk ˆtw,Zj = tZj pour j= 1, . . . , r.

Les ´equations de calage peuvent ˆetre ´ecrites sous la forme X

k∈s

wkzk=X

k∈U

zk

(11)

L’estimateur d´epend d’un param`etrer `a choisir :

r = 0 : on obtient l’estimateur d’Horvitz-Thompson ˆtyd qui n’utilise pas d’information auxiliaire.

r =p: on obtient l’estimateur cal´e sur lespvariables de d´epart.

Il faut trouver le bon compromis.

L’estimateur par calage du total,ˆtw,P C =P

k∈swkyk, est un esti- mateur par la r´egression g´en´eralis´ee :

ˆtw,P C = ˆtyd− ˆtzd−tz>βˆZ

o`u

βˆZ = X

k∈s

dkzkzTk

!−1

X

k∈s

dkzkyk.

11/30

(12)

Lien avec l’approche model-assisted

Soit le mod`ele lin´eaire

ξ: yk =xkβ+εk, kU

On peut montrer que

ˆtw,P C = ˆtyd ˆtxdtx0βˆP C, βˆP C= (v1, . . . ,vr)0βˆZ.

L’estimateurˆtw,P C est un estimateur de typemodel-assisted lin´eaire quand le coefficient de r´egressionβ est estim´e parβˆP C. L’estimateurˆtw,P C est biais´e sous le planp(·)ainsi que sous le mod`eleξ,mais il est sans biais sous le plan et le mod`ele,

Biasp,ξtw,P C ty) = 0.

(13)

Calage sur le moment d’ordre deux

Pour des variablesXj standardis´ees, les CPs ont la propri´et´e suivante :

1

NZ0jZj= 1 N

X

k∈U

zkj2 =λj, j= 1, . . . , p

On peut consid´erer un calage sur le moment d’ordre deux des CPs (Ren, 2000)

wc = argminwX

s

(wkdk)2 dkqk

et ˆtw,Zj = tZj, j= 1, . . . , r

ˆtw,Z2

j = tZ2

j, j= 1, . . . , r avec Z2j = (zjk2 )k∈U.

13/30

(14)

Motivation : enquˆete sur l’audience `a M´ediam´etrie

Regression en composantes principales en sondages

Calage sur des composantes estim´ees

Une ´etude par simulation

(15)

Estimation des composantes principales

On a besoin de connaˆıtrexk pour tous lesk∈U pour pouvoir d´eterminer les valeurs et vecteurs propres de la matrice de variance-covariance N1X0X= N1 P

Uxkx0k.

Il est possible d’´etendre cette approche pour le cas o`u on ne connaˆıt xk que sur l’´echantillon mais avec des totaux P

k∈Uxk connus ;

On centre les variables dans la population (on connaˆıt leur moyennes) et on les r´eduit dans l’´echantillon ;

15/30

(16)

On estime la matrice de variance-covariance par Γˆ = 1

Nˆ X

s

dk(xk−X)(xˆ k−X)ˆ 0

Soient ˆλj,vˆj les valeurs, resp. les vecteurs propres de Γ,ˆ Γˆvˆj = ˆλjj, j = 1, . . . , p

On estime les composantesZj par Zˆj =Xˆvj.

On prend comme variables de calageZbj, j = 1, . . . , r de totaux connus.

(17)

L’estimateur par calage sur les composantes principales estim´eesZbj,est donn´e par

ˆtw,P C = ˆtyd− tˆzdˆ −tzˆ0βˆZˆ

= ˆtyd− tˆxd−tx0βˆP C

o`u

βˆZˆ= X

k∈s

dkˆzkˆzTk

!−1

X

k∈s

dkkyk. βˆP C = (ˆv1, . . . ,vˆr) ˆβZˆ.

17/30

(18)

Hypoth` eses

On suppose que :

(A1)πk > λ >0pour touskU; (A2)limN→∞nmaxk6=lklπkπl|<∞.

(A3)limN→∞ 1 N

P

Uyk2<∞.

(A4)limN→∞ n

N =π(0,1).

(A5)||xk||<pour touskU.

Alors,βˆZˆβ˜Z =op(1)avecβ˜Z = P

k∈UzkzTk−1P

k∈Uzkyk et N−1tw,P C ty) =N−1tdif fty) +op(n−1/2) o`uˆtdif f = ˆtyd ˆtzdtz0β˜Z.

(19)

Motivation : enquˆete sur l’audience `a M´ediam´etrie

Regression en composantes principales en sondages

Calage sur des composantes estim´ees

Une ´etude par simulation

19/30

(20)

Donn´ ees M´ ediam´ etrie (1)

Population d’´etude U compos´ee de N = 5 329 individus qui regardent une chaˆıne de TV sur deux semaines cons´ecutives de septembre 2010 ;

Le param`etre d’int´erˆet : la dur´ee totale d’´ecoute sur lundi de la deuxi`eme semaine ;

La variable Y contient beaucoup de z´eros (plus de 30%).

On consid`ere un ´echantillonsde taillen= 500tir´e par sondage al´eatoire simple sans remise dansU.

(21)

Donn´ ees M´ ediam´ etrie : Information auxiliaire

19 variables qualitatives de type socio-d´emographique (r´egion, sexe, CSP, internet. . . ) avec 52 modalit´es en tout ;

age : en continu ;

On consid`ere de plus comme variable auxiliaire la dur´ee totale d’´ecoute pour la premi`ere semaine de septembre 2010:

avec cette variable, on aR2= 0.50, sans cette variable, on aR2= 0.11.

Matrice d’information auxiliaire X de dimension5 329×54; La matrice Xcontient l’intercept ; on calcule les CP deXsans l’intercept (et apr`es avoir centr´e et r´eduit) et la matrice des CP est

[1 Z1 . . . Zp−1].

21/30

(22)

Estimation

On s´electionne un ´echantillonsde taille n= 500selon un plan al´eatoire simple sans remise dansU.

On consid`eren.sim= 1000simulations.

L’estimateur GREG ne marche pas toujours car la matrice X0sΠsXs a beaucoup de foisλmin ´egale `a z´ero). On utilise l’inverse g´en´eralis´ee.

(23)

Comparaison entre ˆ t

ridge

, ˆ t

P C

et t ˆ

HT

biais relatif :

RB=

PB

b=1θˆ(j)/B−ty ty

plus petit que 0.2%.

le rapport de variances (sur les B ´echantillons), par rapport `a l’estimateur de Horvitz-Thompsonˆt(b)yd,

varθ varHT

=

1 B

PB

b=1(ˆθ(b)−ty)2

1 B

PB

b=1(ˆt(b)yd −ty)2 .

23/30

(24)

0 10 20 30 40 50

0.00.51.01.52.02.53.0

Gain par rapport a l'estimateur de Horvitz-Thompson

nombre de cp

rapport var(PC)/var(HT)

en bleu : le rapport entre la variance de l’estimateur obtenu par calage exact (calcul´e avec l’inverse g´en´eralis´ee) et l’estimateur d’Horvitz-Thompson ;

pour p= 0,on a l’estimateur de HT et pourp= 50,on est proche

24/30 Camelia Goga ACP en sondages

(25)

Coefficient de variation des poids en fonction de r et de n

GREG7 11 18 20 25 30 35 40 45 47 50

0.050.100.150.200.250.300.35 0.00.10.20.30.4

Coefficient de variation des poids pour n=500 et simulations

nombre de CP

CV moyen sur 1000 simulations

7 11 1820 25 30 35 40 454750

Le coefficient de variation des poids cv(w) =

var(w)

w est calcul´e pour 1000 simulations.

25/30

(26)

Etude avec calage p´ enalis´ e

On calcule les poids ridge pour 150 valeurs de λ: λ= 4·2−h, h∈[−25,25]

On calcule l’estimateur par calage p´enalis´e ou ridge tˆw,λ pour chaqueλet pourB= 500simulations. On compare la variance detˆw,λ lors de 500 simulations avec la variance deˆtyd

On remarque (dans le graphique log2(λ)∈[−23,27])

1 pourλgrand,ˆtw,λest aussi efficace que l’estimateur d’Horvitz- Thompson

2 pourλtr`es proche de z´ero, on a un gain tr`es important.

(27)

-20 -10 0 10 20

0.50.60.70.80.91.0

Gain par rapport à l'estimateur HT

Log(K)

Rapport de variances var(Ridge)/var(HT)

27/30

(28)

Nous avons r´ep´et´e 10 fois la simulation.

pour K petit, le gain est important ;

pour K grand, l’estimator ˆtridge s’approche deˆtHT.

(29)

Conclusion et perspectives

On propose une nouvelle m´ethode pour r´eduire le grand nombre de variables auxiliaires en sondages ;

Cette m´ethode est facilement mise en oeuvre ;

Elle a l’avantage par rapport `a la r´egression ridge de pouvoir faire un calage sur le moment d’ordre deux ;

Elle permet d’obtenir de gains importants en termes de variance ;

29/30

(30)

Courte bibliographie

Chambers, R. (1996), Robust case-weighting for multi-purpose establishments surveys, Journal of official statistics, vol.12, 1996, 3-32 ;

Deville, J.-C., 1999. Variance estimation for complex statistics and estimators : linearization and residual techniques. Survey Methodology 25, 193–204.

Deville, J.-C., S¨arndal, C.-E., 1992. Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376–382.

Rao, J.N.K. and Singh, A.C. (2009), Range restricted weight calibration for survey data using ridge regression, Pakistan Journal of Statistics, 25, 371-384.

Ren, R. (2000), Utilisation d’information auxiliaire par calage sur fonction de r´epartition, th`ese de l’Universit´e Paris Dauphine.

Silva, P.L.N. and Skinner, C. (1997). Variable selection for regression estimation in finite population, Survey Methodology, 23, 23-32.

Till´e, Y. and Guggemos, F., (2010) Penalized calibration in survey sampling : Design-based estimation assisted by mixed models. Journal of Statistical Planning and Inference 140 (2010) 3199–3212.

Références

Documents relatifs

REF28560 Gros camping avec piscine et activités de vacances situé à côté du lac de Garde recherche des candidats pour l’animation, la sécurité, l’entretien et la

Emma.Civet Bafa dans la structure depuis 4 ans Flora Gibert Stagiaire Bafa dans la strucure depuis 1 an Lou dans la strucure depuis 1 an Bienvenue à Coline Charnay pour son 1 er

“sauvages” délicieuses (comme le pourpier , le ficoîde glaciale , les pousses de scocenères ou les fanes de radis voir les pissenlits au printemps ) bref quelque chose de parfumé

Je me suis aperçue que cette salade d’été avait disparue du livre des recettes alors je vous la redonne Avec le l’exceptionnel beau temps actuel, il y a encore des cristophine sur

Sous réserve de modifications Crédits photos : Tous Droits Réservés..

Les familles doivent se présenter à l’accueil du centre de loisirs, le matin pour déposer leurs enfants et le soir pour les récupérer.. 4.4

a l'horizontale,' ^ l'angle entre la ligne de liaison des centres d'un galet porteur et de l'anneau de roulement d'une part et le plan longitudinal de symetri.e vertical du

Il intègre en 2010 la Classe Horaires Aménagées Théâtre du CRR de Créteil et suit la formation pendant 4 ans sous la direction de P. Parallèlement, il entame une formation