hcp.ma
L’impact revu des valeurs manquantes sur la mesure
du risque d’identification basée sur la règle du k-
anonymat :
Présentation d’OPTA et de PESA
10ÈME COLLOQUE FRANCOPHONE SUR LES SONDAGES
Lyon, le 25 octobre 2018
Ali Saoud a.saoud@hcp .ma
hcp.ma
PLAN DE L’EXPOSÉ
Introduction
Définitions préliminaires
Valeurs manquantes et k-anonymat
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
Intégration des clés d’identification non explicites
Conclusion
Bibliographie
25/10/
2018 2
hcp.ma
INTRODUCTION
25/10/
2018 3
Homme
Peau claire
Barbu
Un
homme barbu de
peau claire
est atteint
de cancer Divulgat
ion d’identit
é et d’attribu
ts
Yasmine Amine Moham
ed
Fatima
Mehdi Khadija Marwa Hamza Youssef
hcp.ma
DÉFINITIONS PRÉLIMINAIRES
Fichier de microdonnées : recueil de variables fournissant des informations individuelles sur les unités statistiques d’une population donnée.
: variables qui permettent d’identifier un ensemble d’unités statistiques dans un fichier de microdonnées.
25/10/
2018 4
Identifi ants
Identifiants directs
Identifiants indirects
hcp.ma
DÉFINITIONS PRÉLIMINAIRES
Identifiants directs : variables qui permettent une identification claire et aisée.
Identifiants indirects : variables qui permettent une identification en combinant les informations qu’elles contiennent.
Clé d’identification : combinaison des identifiants indirects pris en considération :
25/10/
2018 5
clé
d’identificati on
clé
d’identificati
on nb
d’identifiant s indirects
nb
d’identifiant s indirects taille du
fichier de microdonné
es
taille du fichier de microdonné
es indice de
l’unité ui indice de
l’unité ui
1,...,
, ( ) ( ( ),..., ( ))1 ni N c i V i V i
hcp.ma
DÉFINITIONS PRÉLIMINAIRES
Risque d’identification : Probabilité qu’un utilisateur mal intentionné réussisse à retrouver une ou plusieurs unités statistiques.
k-anonymat : un concept de mesure du risque d’identification basé sur l’observation des fréquences des clés d’identification.
⇒Un fichier de microdonnées est k-anonyme si chaque clé d’identification est partagée par au moins k unités (Samarati et Sweeney, 1998b), soit :
25/10/
2018 6
fréquences des clés d’identificati
on
fréquences des clés d’identificati
1,...,
, ( ( )) oni N f c i k
hcp.ma 25/10/2
018 7
Valeurs
manquantes ? Valeurs
manquantes ?
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
25/10/2
018 8
ND 2
N/A 1
Sans objet valeur que
prend une variable
lorsque l’unité en
question n’est pas concernée
Non déterminéevaleur que
prend une variable
lorsque l’informatio
n est manquante
pour cause de
non-
réponse ou de
codification erronée
Valeurs
manquantes
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Approche orthodoxe :
Proposée par Benschop et ses collaborateurs (2017)
Implémentée dans le package sdcMicro sous R
Basée sur le fait que valeur « non déterminée » peut prendre n’importe quelle valeur de la variable en question
25/10/
2018 9
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Ex. illustratif no 1 (approche orthodoxe) :
25/10/
2018 10
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
3-
anonym e
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
25/10/
2018 11
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
Féminin Étrangère MasculinÉtrangère
OU Indice i
de ui
Sexe (à 2 mod.)
Nationalité
(à 2 mod.) f(c(i)) 1 Masculin Marocaine 4 2 Féminin Marocaine 4
3 Masculin ND 5
4 Féminin ND 5
5 ND Étrangère 3
6 ND Marocaine 6
7 ND Marocaine 6
2
2-
anonym e
& non 3- anonyme
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Deux approches alternatives proposées qui reposent sur la simulation du fichier de microdonnées en remplaçant les valeurs non déterminées par toutes les valeurs qu’elles peuvent éventuellement prendre :
Approche optimiste (OPTA) : basée sur le fait qu’une clé contenant une(des) valeur(s) « non déterminée(s) » correspond à la plus fréquente des clés compatibles.
Approche pessimiste (PESA) : basée sur le fait qu’une clé contenant une(des) valeur(s) « non déterminée(s) » correspond à la plus rare des clés compatibles.
25/10/
2018 12
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Les étapes d’application d’OPTA et de PESA :
Énumérer toutes les clés d’identification possibles cq.
Lister les unités qui correspondent potentiellement aux cq.
Calculer la fréquence potentielle f(cq) de chaque cq.
Définir tous les ensembles Ci des clés d’identification potentiellement correspondantes aux ui.
Calculer les fréquences des clés d’identification selon OPTA et PESA, pour chaque ui :
25/10/
2018 13
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
( ( )) max ( ) ; ( ( )) min ( )
q i
q i
OPTA c C q PESA c C q
f c i f c f c i f c
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Reprise de l’ex. illustratif no 1 :
25/10/
2018 14
Deux nouvelles approches ajustées pour les valeurs « non déterminées »
2-
anonym e selon OPTA et
PESA
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Les modalités des identifiants indirects ne sont pas toujours toutes explicitées dans un fichier de microdonnées –brut ou prétendument anonymisé.
Elles peuvent correspondre à des sous- populations rares.
Il est donc capital de les prendre en compte.
Seule PESA en tient compte ; l’approche orthodoxe et OPTA en font fi.
25/10/
2018 15
Intégration des clés d’identification non explicites
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Reprise de l’ex. illustratif no 1 avec ajout de la modalité « Apatride » à la
« Nationalité » :
25/10/
2018 16
Intégration des clés d’identification non explicites
non 2-
anonym e selon
PESA
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
! Lors de l’énumération des clés d’identification possibles, il ne faut pas tout bonnement combiner toutes les modalités des identifiants indirects.
Génération de clés d’indentification incohérentes.
Surestimation du risque d’identification.
Tenir uniquement compte des clés d’identification cohérentes.
25/10/
2018 17
Intégration des clés d’identification non explicites
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Ex. illustratif no 2 (abstraction faite de la cohérence) :
25/10/
2018 18
Intégration des clés d’identification non explicites
non 2-
anon.
selon PESA
Nb de clés = 2 x 5
= 10
hcp.ma
VALEURS MANQUANTES ET k- ANONYMAT
Ex. illustratif no 2 (cohérence prise en compte) :
25/10/
2018 19
Intégration des clés d’identification non explicites
2-
anon.
selon PESA
Nb de clés = 2 x 5 - 5
= 5
hcp.ma
CONCLUSION
25/10/
2018 20
hcp.ma
BIBLIOGRAPHIE
Benschop, T., Machingauta, C., and Welch, M. (2017). Statistical Disclosure Control for Microdata: A Practice Guide (version 1.2).
Technical document, The World Bank.
Bergeat, M. (2016). La gestion de la confidentialité pour les données individuelles. Documents de travail de l’Insee, M2016/07.
25/10/
2018 21
hcp.ma
BIBLIOGRAPHIE
Ciglic, M., Eder, J., and Koncilia C. (2014). k- Anonymity of Microdata with NULL Values, Transactions on Large-Scale Data- and Knowledge-Centered Systems XXIV:
Special Issue on Database- and Expert- Systems Applications, 193–220.
Dalenius, T. and Reiss, S. (1982). Data- swapping: A technique for disclosure control. Journal of Statistical Planning and Inference, 6, 73–85.
25/10/
2018 22
hcp.ma
BIBLIOGRAPHIE
de Waal, A.G. and Willenborg, L.C.R.J.
(1998). Optimal Local Suppression in Microdata. Journal of Official Statistics, Vol.
14, No 4, 421–435.
Defays, D. and Nanopoulos, P. (1993).
Panels of enterprises and confidentiality:
the small aggregates method. Proceedings of the 1992 Symposium on Design and Analysis of Longitudinal Surveys, Statistics Canada, 195–204.
25/10/
2018 23
hcp.ma
BIBLIOGRAPHIE
Gouweleeuw, J.M., Kooiman, P., Willenborg, L.C.R.J., and de Wolf, P.-P. (1998). Post Randomisation for Statistical Disclosure Control: Theory and Implementation.
Journal of Official Statistics, Vol. 14, No 4, 463–478.
Machanavajjhala, A., Gehrke, J., Kifer, D., and Venkitasubramaniam, M. (2006). l- Diversity: Privacy Beyond k-anonymity.
ACM Trans. Knowl. Discovery From Data (TKDD), 1, 24–35.
25/10/
2018 24
hcp.ma
BIBLIOGRAPHIE
Mateo-Sanz, J. M. and Domingo-Ferrer, J., (1998). A comparative study of microaggregation methods, Qiiestiió, 22, 511–526.
Samarati, P. and Sweeney, L. (1998a).
Generalizing Data to Provide Anonymity when Disclosing Information. Proc. of the 17th ACM Symp. on Principles of database systems, PODS ’98, ACM.
25/10/
2018 25
hcp.ma
BIBLIOGRAPHIE
Samarati, P. and Sweeney, L. (1998b).
Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression. Technical report.
Templ, M. (2008). Statistical Disclosure Control for Microdata Using the R-Package sdcMicro. Transactions on Data Privacy, 1(2), 67–85.
Van Gelderen, R.P. (1995). ARGUS Statistical Disclosure Control of Survey Data. Report, Statistics Netherlands.
25/10/
2018 26
hcp.ma 25/10/2
018 27
Ali Saoud
a.saoud@h cp.ma