L'impact revu des valeurs manquantes sur la mesure du risque d'identification basée sur la règle du k-anonymat : présentation d'OPTA et de PESA

(1)

hcp.ma

L’impact revu des valeurs manquantes sur la mesure

du risque d’identification basée sur la règle du k-

anonymat :

Présentation d’OPTA et de PESA

10^ÈME COLLOQUE FRANCOPHONE SUR LES SONDAGES

Lyon, le 25 octobre 2018

Ali Saoud a.saoud@hcp .ma

(2)

hcp.ma

PLAN DE L’EXPOSÉ

 Introduction

 Définitions préliminaires

 Valeurs manquantes et k-anonymat

 Deux nouvelles approches ajustées pour les valeurs « non déterminées »

 Intégration des clés d’identification non explicites

 Conclusion

 Bibliographie

25/10/

2018 2

(3)

hcp.ma

INTRODUCTION

25/10/

2018 3

Homme

Peau claire

Barbu

Un

homme barbu de

peau claire

est atteint

de cancer Divulgat

ion d’identit

é et d’attribu

ts

Yasmine Amine Moham

ed

Fatima

Mehdi Khadija Marwa Hamza Youssef

(4)

hcp.ma

DÉFINITIONS PRÉLIMINAIRES

 Fichier de microdonnées : recueil de variables fournissant des informations individuelles sur les unités statistiques d’une population donnée.

 : variables qui permettent d’identifier un ensemble d’unités statistiques dans un fichier de microdonnées.

25/10/

2018 4

Identifi ants

Identifiants directs

Identifiants indirects

(5)

hcp.ma

DÉFINITIONS PRÉLIMINAIRES

 Identifiants directs : variables qui permettent une identification claire et aisée.

 Identifiants indirects : variables qui permettent une identification en combinant les informations qu’elles contiennent.

 Clé d’identification : combinaison des identifiants indirects pris en considération :

25/10/

2018 5

clé

d’identificati on

clé

d’identificati

on nb

d’identifiant s indirects

nb

d’identifiant s indirects taille du

fichier de microdonné

es

taille du fichier de microdonné

es indice de

l’unité u_i indice de

l’unité u_i



^1,...,



, ( ) ( ( ),..., ( ))¹ _n

i N c i V i V i

   

(6)

hcp.ma

DÉFINITIONS PRÉLIMINAIRES

 Risque d’identification : Probabilité qu’un utilisateur mal intentionné réussisse à retrouver une ou plusieurs unités statistiques.

 k-anonymat : un concept de mesure du risque d’identification basé sur l’observation des fréquences des clés d’identification.

⇒Un fichier de microdonnées est k-anonyme si chaque clé d’identification est partagée par au moins k unités (Samarati et Sweeney, 1998b), soit :

25/10/

2018 6

fréquences des clés d’identificati

on

fréquences des clés d’identificati



^1,...,



^{, ( ( ))} on

i N f c i k

   

(7)

hcp.ma 25/10/2

018 7

Valeurs

manquantes ? Valeurs

manquantes ?

(8)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

25/10/2

018 8

ND 2

N/A 1

Sans objet valeur que

prend une variable

lorsque l’unité en

question n’est pas concernée

Non déterminéevaleur que

prend une variable

lorsque l’informatio

n est manquante

pour cause de

non-

réponse ou de

codification erronée

Valeurs

manquantes

(9)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Approche orthodoxe :

 Proposée par Benschop et ses collaborateurs (2017)

 Implémentée dans le package sdcMicro sous R

 Basée sur le fait que valeur « non déterminée » peut prendre n’importe quelle valeur de la variable en question

25/10/

2018 9

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

(10)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Ex. illustratif n^o 1 (approche orthodoxe) :

25/10/

2018 10

3-

anonym e

(11)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

25/10/

2018 11

Féminin Étrangère MasculinÉtrangère

OU Indice i

de u_i

Sexe (à 2 mod.)

Nationalité

(à 2 mod.) f(c(i)) 1 Masculin Marocaine 4 2 Féminin Marocaine 4

3 Masculin ND 5

4 Féminin ND 5

5 ND Étrangère 3

6 ND Marocaine 6

7 ND Marocaine 6

2

2-

anonym e

& non 3- anonyme

(12)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Deux approches alternatives proposées qui reposent sur la simulation du fichier de microdonnées en remplaçant les valeurs non déterminées par toutes les valeurs qu’elles peuvent éventuellement prendre :

 Approche optimiste (OPTA) : basée sur le fait qu’une clé contenant une(des) valeur(s) « non déterminée(s) » correspond à la plus fréquente des clés compatibles.

 Approche pessimiste (PESA) : basée sur le fait qu’une clé contenant une(des) valeur(s) « non déterminée(s) » correspond à la plus rare des clés compatibles.

25/10/

2018 12

(13)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Les étapes d’application d’OPTA et de PESA :

 Énumérer toutes les clés d’identification possibles c_q.

 Lister les unités qui correspondent potentiellement aux c_q.

 Calculer la fréquence potentielle f(c_q) de chaque c_q.

 Définir tous les ensembles C_i des clés d’identification potentiellement correspondantes aux u_i.

 Calculer les fréquences des clés d’identification selon OPTA et PESA, pour chaque u_i :

25/10/

2018 13

( ( )) max ( ) ; ( ( )) min ( )

q i

OPTA c C q PESA c C q

f c i f c f c i f c

 

   

(14)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Reprise de l’ex. illustratif n^o 1 :

25/10/

2018 14

2-

anonym e selon OPTA et

PESA

(15)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

 Les modalités des identifiants indirects ne sont pas toujours toutes explicitées dans un fichier de microdonnées –brut ou prétendument anonymisé.

 Elles peuvent correspondre à des sous- populations rares.

 Il est donc capital de les prendre en compte.

 Seule PESA en tient compte ; l’approche orthodoxe et OPTA en font fi.

25/10/

2018 15

Intégration des clés d’identification non explicites

(16)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Reprise de l’ex. illustratif n^o 1 avec ajout de la modalité « Apatride » à la

« Nationalité » :

25/10/

2018 16

non 2-

anonym e selon

PESA

(17)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

! Lors de l’énumération des clés d’identification possibles, il ne faut pas tout bonnement combiner toutes les modalités des identifiants indirects.

Génération de clés d’indentification incohérentes.

Surestimation du risque d’identification.

 Tenir uniquement compte des clés d’identification cohérentes.

25/10/

2018 17

(18)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Ex. illustratif n^o 2 (abstraction faite de la cohérence) :

25/10/

2018 18

non 2-

anon.

selon PESA

Nb de clés = 2 x 5

= 10

(19)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Ex. illustratif n^o 2 (cohérence prise en compte) :

25/10/

2018 19

2-

anon.

selon PESA

Nb de clés = 2 x 5 - 5

= 5

(20)

hcp.ma

CONCLUSION

25/10/

2018 20

(21)

hcp.ma

BIBLIOGRAPHIE

 Benschop, T., Machingauta, C., and Welch, M. (2017). Statistical Disclosure Control for Microdata: A Practice Guide (version 1.2).

Technical document, The World Bank.

 Bergeat, M. (2016). La gestion de la confidentialité pour les données individuelles. Documents de travail de l’Insee, M2016/07.

25/10/

2018 21

(22)

hcp.ma

BIBLIOGRAPHIE

 Ciglic, M., Eder, J., and Koncilia C. (2014). k- Anonymity of Microdata with NULL Values, Transactions on Large-Scale Data- and Knowledge-Centered Systems XXIV:

Special Issue on Database- and Expert- Systems Applications, 193–220.

 Dalenius, T. and Reiss, S. (1982). Data- swapping: A technique for disclosure control. Journal of Statistical Planning and Inference, 6, 73–85.

25/10/

2018 22

(23)

hcp.ma

BIBLIOGRAPHIE

 de Waal, A.G. and Willenborg, L.C.R.J.

(1998). Optimal Local Suppression in Microdata. Journal of Official Statistics, Vol.

14, N^o 4, 421–435.

 Defays, D. and Nanopoulos, P. (1993).

Panels of enterprises and confidentiality:

the small aggregates method. Proceedings of the 1992 Symposium on Design and Analysis of Longitudinal Surveys, Statistics Canada, 195–204.

25/10/

2018 23

(24)

hcp.ma

BIBLIOGRAPHIE

 Gouweleeuw, J.M., Kooiman, P., Willenborg, L.C.R.J., and de Wolf, P.-P. (1998). Post Randomisation for Statistical Disclosure Control: Theory and Implementation.

Journal of Official Statistics, Vol. 14, N^o 4, 463–478.

 Machanavajjhala, A., Gehrke, J., Kifer, D., and Venkitasubramaniam, M. (2006). l- Diversity: Privacy Beyond k-anonymity.

ACM Trans. Knowl. Discovery From Data (TKDD), 1, 24–35.

25/10/

2018 24

(25)

hcp.ma

BIBLIOGRAPHIE

 Mateo-Sanz, J. M. and Domingo-Ferrer, J., (1998). A comparative study of microaggregation methods, Qiiestiió, 22, 511–526.

 Samarati, P. and Sweeney, L. (1998a).

Generalizing Data to Provide Anonymity when Disclosing Information. Proc. of the 17th ACM Symp. on Principles of database systems, PODS ’98, ACM.

25/10/

2018 25

(26)

hcp.ma

BIBLIOGRAPHIE

 Samarati, P. and Sweeney, L. (1998b).

Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression. Technical report.

 Templ, M. (2008). Statistical Disclosure Control for Microdata Using the R-Package sdcMicro. Transactions on Data Privacy, 1(2), 67–85.

 Van Gelderen, R.P. (1995). ARGUS Statistical Disclosure Control of Survey Data. Report, Statistics Netherlands.

25/10/

2018 26

(27)

hcp.ma 25/10/2

018 27

Ali Saoud

a.saoud@h cp.ma