• Aucun résultat trouvé

Imputation, MIVQUE et préservation des relations entre variables

N/A
N/A
Protected

Academic year: 2022

Partager "Imputation, MIVQUE et préservation des relations entre variables"

Copied!
1
0
0

Texte intégral

(1)

Imputation, MIVQUE et préservation des relations entre variables

Brigitte Gelein1 & David Causeur 2 & David Haziza 3

1 Ensai, Rennes, France,bgelein@ensai.fr

2 Agrocampus Ouest, Rennes, France, david.causeur@agrocampus-ouest.fr

3 Université de Montréal, Montréal, Canada, haziza@DMS.UMontreal.CA

La non réponse touche les enquêtes par sondage, les recensements et les données adminis- tratives. Qu’elle soit totale ou partielle, la non réponse peut affecter de façon significative la qualité des études statistiques. Alors que la non réponse totale se traite souvent par des procé- dures d’ajustement de poids, la non-réponse partielle est généralement traitée par des méthodes d’imputation.

L’imputation par la régression est souvent utilisée lorsque des variables auxiliaires sont dis- ponibles sur l’ensemble de la population et présentent un lien fort avec les variables d’intérêt.

Les estimateurs sur données d’enquête sont généralement calculés en traitant les valeurs im- putées comme des valeurs observées. C’est pourquoi une méthode d’imputation doit fournir des estimateurs qui préservent l’absence de biais des formules standard utilisées sur les cas complets.

On s’intéresse ici aux estimateurs des paramètres mesurant les relations entre variables.

Shao et Wang (2002) ont proposé une méthode d’imputation jointe par régression qui préserve ces relations. Un inconvénient de cette méthode tient à la variance additionnelle, dite d’impu- tation. Chauvet et Haziza (2011) ont élaboré une version équilibrée de la méthode de Shao et Wang permettant de préserver les relations entre deux variables tout en réduisant la variance d’imputation.

Ces deux dernières méthodes reposent sur l’utilisation de coefficients qui peuvent être esti- més grace aux estimateurs MIVQUE : Minimum In Variance QUadratic Estimators (MIVQUE).

La méthode MIVQUE permet l’estimation de paramètres d’un modèle linéaire multivarié dans un contexte Missing At Random (MAR) au sens défini par Rubin. Elle est basée sur une étude géométrique de la structure de covariance des variables.

Nous proposons une méthode d’imputation où le calcul de MIVQUE est utilisé pour définir des contraintes sur les valeurs imputées finales. Des simulations montrent que la prise en compte de ces contraintes permet d’améliorer les valeurs imputées initiales obtenues, par exemple, avec la méthode de Shao et Wang. Nous observons en effet une réduction supplémentaire de la variance d’imputation.

Bibliographie

Chauvet, G., et Haziza, D. (2011). Fully efficient estimation of coefficients of correlation in the presence of imputed survey data, Canadian Journal of Statistics, 40, 1, 124-149

Shao, J., et Wang, H. (2002). Sample correlation coefficients based on survey data under re- gression imputation, Journal of the American Statistical Association, 97, 544-552.

Colloque francophone sur les Sondages 1

Références

Documents relatifs

Dans ces dernières années des constructions générales à'espaces d'interpolation ont été données par plusieurs auteurs (cf. Comme ces auteurs sont souvent partis de points de vue

On cherche une partition de l’ensemble des séries chronologiques telle que dans le même groupe on trouve des séries qui sont liées entre elles, dans des

L’imputation marginale : traiter les variables d’int´ erˆ et s´ epar´ ement Des estimateurs asymptotiquement non biais´ es pour les pa- ram` etres univari´ es (ex. un total,

Pour mettre en évidence des relations entre la météorologie et l'é- volution des populations acridiennes, compte-tenu des fréquences d ' e n - registrement différentes de ces

2° Le coefficient de corrélation ne traduit la plus ou moins grande dépen- dance entre les variables que lorsque la densité de répartition des couples répond à certaines

Même dans une population où le schéma classique des corrélations n'est pas valable, c'est-à-dire où la fonction de régression n'est pas linéaire, on peut considérer qu'il

qui est généralement introduit dans les problèmes de transport linéaire pour fournir une solution de départ qui n’est pas optimale [Simmonard (1962)]. Par contre,

Dans les conditions indiquées au n° 3, cette courbe se décompose en deux sextiques gauches, dont l'une est représentée par les trois équations (1) : cette sextique gauche a pour