• Aucun résultat trouvé

L'impact revu des valeurs manquantes sur la mesure du risque d'identification basée sur la règle du k-anonymat : présentation d'OPTA et de PESA

N/A
N/A
Protected

Academic year: 2022

Partager "L'impact revu des valeurs manquantes sur la mesure du risque d'identification basée sur la règle du k-anonymat : présentation d'OPTA et de PESA"

Copied!
27
0
0

Texte intégral

(1)

hcp.ma

L’impact revu des valeurs manquantes sur la mesure

du risque d’identification basée sur la règle du k-

anonymat :

Présentation d’OPTA et de PESA

10ÈME COLLOQUE FRANCOPHONE SUR LES SONDAGES

Lyon, le 25 octobre 2018

Ali Saoud a.saoud@hcp .ma

(2)

hcp.ma

PLAN DE L’EXPOSÉ

Introduction

Définitions préliminaires

Valeurs manquantes et k-anonymat

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

Intégration des clés d’identification non explicites

Conclusion

Bibliographie

25/10/

2018 2

(3)

hcp.ma

INTRODUCTION

25/10/

2018 3

Homme

Peau claire

Barbu

Un

homme barbu de

peau claire

est atteint

de cancer Divulgat

ion d’identit

é et d’attribu

ts

Yasmine Amine Moham

ed

Fatima

Mehdi Khadija Marwa Hamza Youssef

(4)

hcp.ma

DÉFINITIONS PRÉLIMINAIRES

Fichier de microdonnées : recueil de variables fournissant des informations individuelles sur les unités statistiques d’une population donnée.

: variables qui permettent d’identifier un ensemble d’unités statistiques dans un fichier de microdonnées.

25/10/

2018 4

Identifi ants

Identifiants directs

Identifiants indirects

(5)

hcp.ma

DÉFINITIONS PRÉLIMINAIRES

Identifiants directs : variables qui permettent une identification claire et aisée.

Identifiants indirects : variables qui permettent une identification en combinant les informations qu’elles contiennent.

Clé d’identification : combinaison des identifiants indirects pris en considération :

25/10/

2018 5

clé

d’identificati on

clé

d’identificati

on nb

d’identifiant s indirects

nb

d’identifiant s indirects taille du

fichier de microdonné

es

taille du fichier de microdonné

es indice de

l’unité ui indice de

l’unité ui

1,...,

, ( ) ( ( ),..., ( ))1 n

i N c i V i V i

   

(6)

hcp.ma

DÉFINITIONS PRÉLIMINAIRES

Risque d’identification : Probabilité qu’un utilisateur mal intentionné réussisse à retrouver une ou plusieurs unités statistiques.

k-anonymat : un concept de mesure du risque d’identification basé sur l’observation des fréquences des clés d’identification.

Un fichier de microdonnées est k-anonyme si chaque clé d’identification est partagée par au moins k unités (Samarati et Sweeney, 1998b), soit :

25/10/

2018 6

fréquences des clés d’identificati

on

fréquences des clés d’identificati

1,...,

, ( ( )) on

i N f c i k

   

(7)

hcp.ma 25/10/2

018 7

Valeurs

manquantes ? Valeurs

manquantes ?

(8)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

25/10/2

018 8

ND 2

N/A 1

Sans objet valeur que

prend une variable

lorsque l’unité en

question n’est pas concernée

Non déterminéevaleur que

prend une variable

lorsque l’informatio

n est manquante

pour cause de

non-

réponse ou de

codification erronée

Valeurs

manquantes

(9)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Approche orthodoxe :

Proposée par Benschop et ses collaborateurs (2017)

Implémentée dans le package sdcMicro sous R

Basée sur le fait que valeur « non déterminée » peut prendre n’importe quelle valeur de la variable en question

25/10/

2018 9

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

(10)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Ex. illustratif no 1 (approche orthodoxe) :

25/10/

2018 10

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

3-

anonym e

(11)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

25/10/

2018 11

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

Féminin Étrangère MasculinÉtrangère

OU Indice i

de ui

Sexe (à 2 mod.)

Nationalité

(à 2 mod.) f(c(i)) 1 Masculin Marocaine 4 2 Féminin Marocaine 4

3 Masculin ND 5

4 Féminin ND 5

5 ND Étrangère 3

6 ND Marocaine 6

7 ND Marocaine 6

2

2-

anonym e

& non 3- anonyme

(12)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Deux approches alternatives proposées qui reposent sur la simulation du fichier de microdonnées en remplaçant les valeurs non déterminées par toutes les valeurs qu’elles peuvent éventuellement prendre :

Approche optimiste (OPTA) : basée sur le fait qu’une clé contenant une(des) valeur(s) « non déterminée(s) » correspond à la plus fréquente des clés compatibles.

Approche pessimiste (PESA) : basée sur le fait qu’une clé contenant une(des) valeur(s) « non déterminée(s) » correspond à la plus rare des clés compatibles.

25/10/

2018 12

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

(13)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Les étapes d’application d’OPTA et de PESA :

Énumérer toutes les clés d’identification possibles cq.

Lister les unités qui correspondent potentiellement aux cq.

Calculer la fréquence potentielle f(cq) de chaque cq.

Définir tous les ensembles Ci des clés d’identification potentiellement correspondantes aux ui.

Calculer les fréquences des clés d’identification selon OPTA et PESA, pour chaque ui :

25/10/

2018 13

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

( ( )) max ( ) ; ( ( )) min ( )

q i

q i

OPTA c C q PESA c C q

f c i f c f c i f c

   

(14)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Reprise de l’ex. illustratif no 1 :

25/10/

2018 14

Deux nouvelles approches ajustées pour les valeurs « non déterminées »

2-

anonym e selon OPTA et

PESA

(15)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Les modalités des identifiants indirects ne sont pas toujours toutes explicitées dans un fichier de microdonnées –brut ou prétendument anonymisé.

Elles peuvent correspondre à des sous- populations rares.

Il est donc capital de les prendre en compte.

Seule PESA en tient compte ; l’approche orthodoxe et OPTA en font fi.

25/10/

2018 15

Intégration des clés d’identification non explicites

(16)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Reprise de l’ex. illustratif no 1 avec ajout de la modalité « Apatride » à la

« Nationalité » :

25/10/

2018 16

Intégration des clés d’identification non explicites

non 2-

anonym e selon

PESA

(17)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

! Lors de l’énumération des clés d’identification possibles, il ne faut pas tout bonnement combiner toutes les modalités des identifiants indirects.

Génération de clés d’indentification incohérentes.

Surestimation du risque d’identification.

 Tenir uniquement compte des clés d’identification cohérentes.

25/10/

2018 17

Intégration des clés d’identification non explicites

(18)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Ex. illustratif no 2 (abstraction faite de la cohérence) :

25/10/

2018 18

Intégration des clés d’identification non explicites

non 2-

anon.

selon PESA

Nb de clés = 2 x 5

= 10

(19)

hcp.ma

VALEURS MANQUANTES ET k- ANONYMAT

Ex. illustratif no 2 (cohérence prise en compte) :

25/10/

2018 19

Intégration des clés d’identification non explicites

2-

anon.

selon PESA

Nb de clés = 2 x 5 - 5

= 5

(20)

hcp.ma

CONCLUSION

25/10/

2018 20

(21)

hcp.ma

BIBLIOGRAPHIE

Benschop, T., Machingauta, C., and Welch, M. (2017). Statistical Disclosure Control for Microdata: A Practice Guide (version 1.2).

Technical document, The World Bank.

Bergeat, M. (2016). La gestion de la confidentialité pour les données individuelles. Documents de travail de l’Insee, M2016/07.

25/10/

2018 21

(22)

hcp.ma

BIBLIOGRAPHIE

Ciglic, M., Eder, J., and Koncilia C. (2014). k- Anonymity of Microdata with NULL Values, Transactions on Large-Scale Data- and Knowledge-Centered Systems XXIV:

Special Issue on Database- and Expert- Systems Applications, 193–220.

Dalenius, T. and Reiss, S. (1982). Data- swapping: A technique for disclosure control. Journal of Statistical Planning and Inference, 6, 73–85.

25/10/

2018 22

(23)

hcp.ma

BIBLIOGRAPHIE

de Waal, A.G. and Willenborg, L.C.R.J.

(1998). Optimal Local Suppression in Microdata. Journal of Official Statistics, Vol.

14, No 4, 421–435.

Defays, D. and Nanopoulos, P. (1993).

Panels of enterprises and confidentiality:

the small aggregates method. Proceedings of the 1992 Symposium on Design and Analysis of Longitudinal Surveys, Statistics Canada, 195–204.

25/10/

2018 23

(24)

hcp.ma

BIBLIOGRAPHIE

Gouweleeuw, J.M., Kooiman, P., Willenborg, L.C.R.J., and de Wolf, P.-P. (1998). Post Randomisation for Statistical Disclosure Control: Theory and Implementation.

Journal of Official Statistics, Vol. 14, No 4, 463–478.

Machanavajjhala, A., Gehrke, J., Kifer, D., and Venkitasubramaniam, M. (2006). l- Diversity: Privacy Beyond k-anonymity.

ACM Trans. Knowl. Discovery From Data (TKDD), 1, 24–35.

25/10/

2018 24

(25)

hcp.ma

BIBLIOGRAPHIE

Mateo-Sanz, J. M. and Domingo-Ferrer, J., (1998). A comparative study of microaggregation methods, Qiiestiió, 22, 511–526.

Samarati, P. and Sweeney, L. (1998a).

Generalizing Data to Provide Anonymity when Disclosing Information. Proc. of the 17th ACM Symp. on Principles of database systems, PODS ’98, ACM.

25/10/

2018 25

(26)

hcp.ma

BIBLIOGRAPHIE

Samarati, P. and Sweeney, L. (1998b).

Protecting Privacy when Disclosing Information: k-Anonymity and Its Enforcement through Generalization and Suppression. Technical report.

Templ, M. (2008). Statistical Disclosure Control for Microdata Using the R-Package sdcMicro. Transactions on Data Privacy, 1(2), 67–85.

Van Gelderen, R.P. (1995). ARGUS Statistical Disclosure Control of Survey Data. Report, Statistics Netherlands.

25/10/

2018 26

(27)

hcp.ma 25/10/2

018 27

Ali Saoud

a.saoud@h cp.ma

Références

Documents relatifs

La valeur du niveau de stock optimal qui minimise le coût diminue lorsque que le coût unitaire d’une livraison en retard (ctr) et le coût unitaire d’une livraison en avance

Agriculture soil P dynamics model C P Plant available P Leaf C:P ratios PHI Crop P demand Soil P supply Root uptake model Roots P limitation QUEFTS Grain Stem Fertilizer

estimates obtained using (first row) the classical CIR model, the parametric Aït-Sahalia ( 1996b ) model, the nonparametric estimator proposed by Stanton ( 1997 ), (second row)

Tous les salariés licenciés pour motif économique reclassés en CDI, CDD ou contrat de travail tempo- raire (CTT) de 6 mois ou plus, dans un délai maxi- mum d’un an à compter de

Nous étudions d’abord la répulsion totale, puis en utilisant le modèle shot noise, nous caractérisons les cas de répulsion maximale et minimale de ces processus

Figure 2 - Médiathèque, 11 avril 2011.. 11 d) Une excursion au glacier de la durée de une à deux journée. Un des responsables du Club Alpin Suisse et le guide de

Ainsi, la régulation non-additive des gènes à l’échelle du génome observée chez plusieurs modèles allotétraploïdes est corrélée avec la divergence de

L’approche sera basée sur des mesures préventives et curatives et pour cela tous les niveaux de prise en charge (système de santé et communauté) seront impliqués afin