Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
CONSID ´ ERATIONS TH ´ EORIQUES ET PRATIQUES CONCERNANT LES TECHNIQUES
D’APPARIEMENT
Roxana ADAM, Institut National de la Statistique (Roumanie)
10 `eme COLLOQUE FRANCOPHONE SUR LES SONDAGES
LYON, 2018
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
CENTENAIRE 2018
L’ann ´ee o `u les Roumains marquent les 100 ans depuis ce
qu’on appelle ”la Grande union”, c’est- `a-dire l’union de la
Transylvanie, de la Bessarabie, de la Bucovine et du
Cadrilater `a ce qu’ ´etait alors le royaume de Roumanie.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Le contenu
1 Introduction
2 Fondements de l’appariement statistique
3 Niveaux de validation selon R ¨assler sur l’appariement statistique
4 Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes
M ´ethodes d’appariement
Evaluation de la qualit ´e des r ´esultats
5 Conclusions
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Introduction
Cet article traite la n ´ecessit ´e de combiner les fichiers statistiques qui ne contiennent pas les m ˆemes unit ´es ou qui peuvent contenir des unit ´es communes, mais sans un code unique d’identification ou d’autres caract ´eristiques capables de les identifier.
La m ´ethode d’appariement connue sous le nom de Statistical
Matching (SM) ou Data Fusion peut constituer la meilleure
alternative pour combiner les donn ´ees.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Fondements de l’appariement statistique
• la m ´ethode d’appariement statistique (d ´enomm ´e par la suite SM) pour deux sources de donn ´ees A et B;
• l’objectif de SM est de rechercher la relation entre Y et Z au niveau
”micro” ou ”macro” (D’Orazio et al., 2006);
• dans cet article, on va se r ´ef ´erer seulement au niveau ”micro”.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Fondements de l’appariement statistique
• les techniques les plus utilis ´ees sont means of nearest neighbor ou hot deck;
• sans tenir compte de la technique utilis ´ee, on recommande la m ´ethode SM lorsque le nombre d’unit ´es statistiques identiques dans deux ´echantillons est z ´ero ou tr `es petit;
• l’imputation des valeurs d’une variable est possible gr ˆace `a la
”similitude” des unit ´es statistiques des deux bases de donn ´ees, bas ´e sur l’hypoth `ese implicite sur l’ind ´ependance conditionnelle (CIA) (R ¨assler, 2002);
• l’imputation multiple repr ´esente une solution possible qui peut
mener au rel ˆachement de CIA ou tout autre choix sp ´ecifique pour
les param `etres d’association conditionnelle (Rubin, 1987).
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Niveaux de validation selon R ¨assler sur l’appariement statistique
a. Conservation des valeurs individuelles
• La reproduction exacte des valeurs est possible seulement dans le cas o `u les variables communes X1...n d ´eterminent d ´ej `a exactement la variable Y.
b. Conservation des distributions communes
• Ce niveau est possible seulement si les variables uniques de la
base de donn ´ees A et les variables uniques de la base de donn ´ees
B sont ind ´ependantes conditionnellement par rapport aux variables
communes des deux enqu ˆetes.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Niveaux de validation selon R ¨assler sur l’appariement statistique
c. Conservation des structures de la co-variation/
corr ´elation
• Les variables qui sont ind ´ependantes conditionnellement ne se trouvent pas, ´egalement, en corr ´elation conditionnellement.
Pourtant la situation vice versa n’est g ´en ´eralement pas valable.
d. Conservation des distributions marginales
• Repr ´esente ce qu’on souhaite ˆetre une exigence minimale de l’appariement statistique.
• L’exigence minimale pour l’appariement statistique est que les
distributions marginales des variables individuelles de l’enqu ˆete
initiale (originelle) soient aussi conserv ´ees apr `es la proc ´edure
d’appariement.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Une situation typique d’appariement
Simulation SM entre
EBM 2014 et
EU-SILC 2014
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Une situation typique d’appariement
Objectif: cr ´eer une base de donn ´ees int ´egr ´ee contenant des informations
d ´etaill ´ees sur les revenus des m ´enages au niveau r ´egional en appliquant
la m ´ethode d’appariement statistique.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
I. Harmonisation et r ´econciliation des sources multiples
• l’harmonisation de la d ´efinition des unit ´es;
• l’harmonisation de la p ´eriode de r ´ef ´erence;
• le compl `etement de la population;
• l’harmonisation des variables;
• l’harmonisation des classifications;
• l’ajustement des erreurs de mesurage (pr ´ecision);
• l’ajustement des donn ´ees manquantes;
• la d ´erivation des variables;
Variables:
- Variables au niveau du m ´enage;
- Variables au niveau individuel.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
I. Harmonisation et r ´econciliation des sources multiples
ex. Niveau de formation
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
II. Analyse du pouvoir explicatif pour les variables communes
• Donatiello et al.(2014) discutaient l’impossibilit ´e de r ´ealiser l’appariement statistique entre EBM et EU-SILC sous l’hypoth `ese de l’ind ´ependance conditionnelle (CIA).
• Alternative: l’appariement statistique bas ´e sur l’exploration de l’incertitude due `a l’absence des informations communes sur les variables Y et Z.
• La distance Hellinger (HD) ´etait utilis ´ee, comme une
mesure de la coh ´erence des variables communes, et
aussi pour analyser la ressemblance/ diff ´erence des
distributions des variables des deux ensembles de
donn ´ees.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
II. Analyse du pouvoir explicatif pour les variables communes
Variables au niveau individuel: Resid - R ´esidence; Sex - Sexe; Age - Groupe d’ ˆage; NUTS2 - R ´egion NUTS2; Marsta - ´ Etat civil; NUTS3 - R ´egion NUTS3; Edlev - Niveau de formation; Actsta - Statut de l’activit ´e.
Variables au niveau du m ´enage: TV - T ´el ´evision ; Rooms - Nombre de chambres disponibles du
m ´enage; Tenure - Statut d’occupation; PC - Ordinateur; Car - Voiture.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
III. M ´ethodes d’appariement
Techniques propos ´ees pour SM au niveau micro:
• param ´etriques (par exemple: l’imputation r ´egressive);
• non-param ´etriques (par exemple: l’imputation hot deck);
• mixtes (par exemple: des m ´ethodes bas ´ees sur l’appariement pr ´evisible).
(Donatiello et al., 2014)
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
III. M ´ethodes d’appariement
• l’aide de et du paquet StatMatch, par la fonction NND.hotdeck ;
• premi `ere intention ´etait d’utiliser la fonction NND.hotdeck en incluant toutes les variables avec HD
≤ 5% pour attribuer le revenu de EBM dans l’UE-SILC;
• n’a pas ´et ´e possible car la fonction NND.hotdeck est limit ´ee par le fait que toutes les combinaisons des variables de la base de donn ´ees donatrice doivent se retrouver dans la base de donn ´ees r ´eceptrice;
• pour le SM final, on a choisi comme variables
d’appariement: NUTS2 et Age.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
III. M ´ethodes d’appariement
Utilisant mtc.ids - identifi ´e les donneurs correspondants du jeu de donn ´ees EBM `a EU-SILC.
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
IV. Evaluation de la qualit ´e des r ´esultats
La proc ´edure d’appariement statistique a du succ `es si les distributions empiriques marginales et communes
de X1. . . n, et Y, ainsi qu’observ ´ees dans le fichier du donateur, sont presque les m ˆemes dans le fichier obtenu
suite au SM (Baker et al., 1989; R ¨assler, 2002).
Introduction Fondements de l’appariement statistique Niveaux de validation selon R ¨assler sur l’appariement statistique Une situation typique d’appariement
Harmonisation et r ´econciliation des sources multiples Analyse du pouvoir explicatif pour les variables communes M ´ethodes d’appariement Evaluation de la qualit ´e des r ´esultats
Conclusions
Conclusions
• la litt ´erature sp ´ecialis ´ee traite ce sujet le plus souvent dans une perspective th ´eorique. En pratique, bas ´ees sur des donn ´ees r ´eelles, les techniques d’appariement pr ´esentent certaines limitations;
• la pratique nous montre que CIA est tr `es difficile `a respecter;
• l’ ´evaluation de la base de donn ´ees synth ´etique obtenue suite `a la proc ´edure d’appariement est importante;
• la recherche et le d ´eveloppement des techniques d’appariement doivent toujours tenir compte de la conservation de la qualit ´e des donn ´ees r ´esultantes;
• 3 risques pour la qualit ´e des donn ´ees:
• calcul du poids nouveaux;
• lointaines du contraintes m ´ethodologiques;
• diminuer la pr ´ecision.
Appendix
Bibliographie