• Aucun résultat trouvé

Considérations théoriques et pratiques concernant les techniques d’appariement

N/A
N/A
Protected

Academic year: 2022

Partager "Considérations théoriques et pratiques concernant les techniques d’appariement"

Copied!
21
0
0

Texte intégral

(1)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

CONSID ´ ERATIONS TH ´ EORIQUES ET PRATIQUES CONCERNANT LES TECHNIQUES

D’APPARIEMENT

Roxana ADAM, Institut National de la Statistique (Roumanie)

10 `eme COLLOQUE FRANCOPHONE SUR LES SONDAGES

LYON, 2018

(2)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

CENTENAIRE 2018

L’ann ´ee o `u les Roumains marquent les 100 ans depuis ce

qu’on appelle ”la Grande union”, c’est- `a-dire l’union de la

Transylvanie, de la Bessarabie, de la Bucovine et du

Cadrilater `a ce qu’ ´etait alors le royaume de Roumanie.

(3)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Le contenu

1 Introduction

2 Fondements de l’appariement statistique

3 Niveaux de validation selon R ¨assler sur l’appariement statistique

4 Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes

M ´ethodes d’appariement

Evaluation de la qualit ´e des r ´esultats

5 Conclusions

(4)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Introduction

Cet article traite la n ´ecessit ´e de combiner les fichiers statistiques qui ne contiennent pas les m ˆemes unit ´es ou qui peuvent contenir des unit ´es communes, mais sans un code unique d’identification ou d’autres caract ´eristiques capables de les identifier.

La m ´ethode d’appariement connue sous le nom de Statistical

Matching (SM) ou Data Fusion peut constituer la meilleure

alternative pour combiner les donn ´ees.

(5)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Fondements de l’appariement statistique

• la m ´ethode d’appariement statistique (d ´enomm ´e par la suite SM) pour deux sources de donn ´ees A et B;

• l’objectif de SM est de rechercher la relation entre Y et Z au niveau

”micro” ou ”macro” (D’Orazio et al., 2006);

• dans cet article, on va se r ´ef ´erer seulement au niveau ”micro”.

(6)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Fondements de l’appariement statistique

• les techniques les plus utilis ´ees sont means of nearest neighbor ou hot deck;

• sans tenir compte de la technique utilis ´ee, on recommande la m ´ethode SM lorsque le nombre d’unit ´es statistiques identiques dans deux ´echantillons est z ´ero ou tr `es petit;

• l’imputation des valeurs d’une variable est possible gr ˆace `a la

”similitude” des unit ´es statistiques des deux bases de donn ´ees, bas ´e sur l’hypoth `ese implicite sur l’ind ´ependance conditionnelle (CIA) (R ¨assler, 2002);

• l’imputation multiple repr ´esente une solution possible qui peut

mener au rel ˆachement de CIA ou tout autre choix sp ´ecifique pour

les param `etres d’association conditionnelle (Rubin, 1987).

(7)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Niveaux de validation selon R ¨assler sur l’appariement statistique

a. Conservation des valeurs individuelles

• La reproduction exacte des valeurs est possible seulement dans le cas o `u les variables communes X1...n d ´eterminent d ´ej `a exactement la variable Y.

b. Conservation des distributions communes

• Ce niveau est possible seulement si les variables uniques de la

base de donn ´ees A et les variables uniques de la base de donn ´ees

B sont ind ´ependantes conditionnellement par rapport aux variables

communes des deux enqu ˆetes.

(8)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Niveaux de validation selon R ¨assler sur l’appariement statistique

c. Conservation des structures de la co-variation/

corr ´elation

• Les variables qui sont ind ´ependantes conditionnellement ne se trouvent pas, ´egalement, en corr ´elation conditionnellement.

Pourtant la situation vice versa n’est g ´en ´eralement pas valable.

d. Conservation des distributions marginales

• Repr ´esente ce qu’on souhaite ˆetre une exigence minimale de l’appariement statistique.

• L’exigence minimale pour l’appariement statistique est que les

distributions marginales des variables individuelles de l’enqu ˆete

initiale (originelle) soient aussi conserv ´ees apr `es la proc ´edure

d’appariement.

(9)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Une situation typique d’appariement

Simulation SM entre

EBM 2014 et

EU-SILC 2014

(10)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Une situation typique d’appariement

Objectif: cr ´eer une base de donn ´ees int ´egr ´ee contenant des informations

d ´etaill ´ees sur les revenus des m ´enages au niveau r ´egional en appliquant

la m ´ethode d’appariement statistique.

(11)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

I. Harmonisation et r ´econciliation des sources multiples

• l’harmonisation de la d ´efinition des unit ´es;

• l’harmonisation de la p ´eriode de r ´ef ´erence;

• le compl `etement de la population;

• l’harmonisation des variables;

• l’harmonisation des classifications;

• l’ajustement des erreurs de mesurage (pr ´ecision);

• l’ajustement des donn ´ees manquantes;

• la d ´erivation des variables;

Variables:

- Variables au niveau du m ´enage;

- Variables au niveau individuel.

(12)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

I. Harmonisation et r ´econciliation des sources multiples

ex. Niveau de formation

(13)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

II. Analyse du pouvoir explicatif pour les variables communes

• Donatiello et al.(2014) discutaient l’impossibilit ´e de r ´ealiser l’appariement statistique entre EBM et EU-SILC sous l’hypoth `ese de l’ind ´ependance conditionnelle (CIA).

• Alternative: l’appariement statistique bas ´e sur l’exploration de l’incertitude due `a l’absence des informations communes sur les variables Y et Z.

• La distance Hellinger (HD) ´etait utilis ´ee, comme une

mesure de la coh ´erence des variables communes, et

aussi pour analyser la ressemblance/ diff ´erence des

distributions des variables des deux ensembles de

donn ´ees.

(14)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

II. Analyse du pouvoir explicatif pour les variables communes

Variables au niveau individuel: Resid - R ´esidence; Sex - Sexe; Age - Groupe d’ ˆage; NUTS2 - R ´egion NUTS2; Marsta - ´ Etat civil; NUTS3 - R ´egion NUTS3; Edlev - Niveau de formation; Actsta - Statut de l’activit ´e.

Variables au niveau du m ´enage: TV - T ´el ´evision ; Rooms - Nombre de chambres disponibles du

m ´enage; Tenure - Statut d’occupation; PC - Ordinateur; Car - Voiture.

(15)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

III. M ´ethodes d’appariement

Techniques propos ´ees pour SM au niveau micro:

• param ´etriques (par exemple: l’imputation r ´egressive);

• non-param ´etriques (par exemple: l’imputation hot deck);

• mixtes (par exemple: des m ´ethodes bas ´ees sur l’appariement pr ´evisible).

(Donatiello et al., 2014)

(16)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

III. M ´ethodes d’appariement

• l’aide de et du paquet StatMatch, par la fonction NND.hotdeck ;

• premi `ere intention ´etait d’utiliser la fonction NND.hotdeck en incluant toutes les variables avec HD

≤ 5% pour attribuer le revenu de EBM dans l’UE-SILC;

• n’a pas ´et ´e possible car la fonction NND.hotdeck est limit ´ee par le fait que toutes les combinaisons des variables de la base de donn ´ees donatrice doivent se retrouver dans la base de donn ´ees r ´eceptrice;

• pour le SM final, on a choisi comme variables

d’appariement: NUTS2 et Age.

(17)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

III. M ´ethodes d’appariement

Utilisant mtc.ids - identifi ´e les donneurs correspondants du jeu de donn ´ees EBM `a EU-SILC.

(18)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

IV. Evaluation de la qualit ´e des r ´esultats

La proc ´edure d’appariement statistique a du succ `es si les distributions empiriques marginales et communes

de X1. . . n, et Y, ainsi qu’observ ´ees dans le fichier du donateur, sont presque les m ˆemes dans le fichier obtenu

suite au SM (Baker et al., 1989; R ¨assler, 2002).

(19)

Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement

Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats

Conclusions

Conclusions

• la litt ´erature sp ´ecialis ´ee traite ce sujet le plus souvent dans une perspective th ´eorique. En pratique, bas ´ees sur des donn ´ees r ´eelles, les techniques d’appariement pr ´esentent certaines limitations;

• la pratique nous montre que CIA est tr `es difficile `a respecter;

• l’ ´evaluation de la base de donn ´ees synth ´etique obtenue suite `a la proc ´edure d’appariement est importante;

• la recherche et le d ´eveloppement des techniques d’appariement doivent toujours tenir compte de la conservation de la qualit ´e des donn ´ees r ´esultantes;

• 3 risques pour la qualit ´e des donn ´ees:

• calcul du poids nouveaux;

• lointaines du contraintes m ´ethodologiques;

• diminuer la pr ´ecision.

(20)

Appendix

Bibliographie

Bibliographie courte:

Donatiello, G., D’Orazio, M., Frattarola,D., Rizzi, A., Scanu, M. And Spaziani, M.

Statistical Matching of Income and Consumption Expenditures International Journal of Economic Sciences, Vol. III, No. 3, 2014.

D’Orazio, M., Di Zio, M and Scanu, M.

Statistical Matching: Theory and Practice.

John Wiley Sons, 2006.

D’Orazio, M.

Statmatch: Statistical matching [Computer software manual].

Available from http://CRAN.R-project.org/package=StatMatch, 2011.

R ¨assler, S.

Statistical Matching. A Frequentist Theory, Practical Applications, and Alternative Bayesian Approaches.

Springer, 2002.

Rubin, D.B.

Multiple Imputation for Nonresponse in Surveys.

Wiley, New York, 1987.

(21)

Appendix

Merci pour votre attention!

roxana.adam@insse.ro

www.insse.ro

Références

Documents relatifs

La qualit´ e de la r´ edaction, la clart´ e et la pr´ ecision des raisonnements interviendront pour une part importante dans l’appr´ eciation des copies.. Montrer que φ est

(b) ´ Etudier f : on donnera en particulier une expression simplifi´ ee de f sur tout intervalle de la forme ]k, k + 1[ avec k entier puis on pr´ ecisera ses variations, son

Sur la figure ci-dessous o` u est trac´ ee une droite hori- zontale qui passe par le centre de gravit´ e du nuage, on voit sur la premi` ere figure la dispersion totale DT, sur

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

L'outil développé afin de traiter les images stéréoscopiques effectue donc une simulation paramétrable d'images SAR (angle de prise de vue, altitude et vitesse du porteur,

En effet, sur de tels ouverts aussi les seules applications de diff ´erentielle nulle sont les constantes, donc la d ´emontration s’ ´etend?.

Proposition : Soient une variable al´ eatoire U suivant une loi normale centr´ ee- r´ eduite et X une variable suivant ind´ ependamment de U une loi χ

RÉSUMÉ. Nous proposons une méthode d’appariement. Elle exploite une méthode de transfert de champ élaborée à partir de calculs d’intersection et de calcul de structure