Etat de l’art - Privacy and utility assessment within statistical data bases

A.5.1 Les techniques d’anonymisation

Il existe un grand nombre de mécanismes pour l’anonymisation des données dans les bases de données statistiques, et différentes façons de considérer une base de

A.5. Etat de l’art 111 données statistiques. Nous analysons ici un type particulier de bases de données ap- pelé microdonnées et évaluons les capacités des techniques d’anonymisation en fonction de leur qualité déterministe ou non à répondre au problème de l’anonymisation qui est: le compromis entre vie privée et utilité des données.

Définitions

Une microdonnée:est un fichier généralement représenté par une table où chaque ligne (enregistrement) contient des informations individuelles divisées en différentes colonnes (attributs). Un enregistrement fait référence à un seul sujet et un attribut est une information partagée par tous les sujets au sein de la microdonnée. Par exemple, TableA.1est une microdonnée avec 2 attributs (Age et Disease) et 9 enregistrements. Les attributs dans une microdonnée peuvent être de trois catégories qui ne sont pas nécessairement disjointes:

• Identifiants: attributs qui peuvent être utilisés pour caractériser un seul sujet parmi d’autres. Des exemples de tels attributs sont: les numéros de sécurité sociale, les noms, les empreintes digitales.

• Quasi-identifiants/Attributs clés: attributs qui ne caractérisent pas complète- ment un sujet mais peuvent être combinés avec d’autres pour une caractérisa- tion complète. Des exemples de ces attributs sont: code postal, âge, sexe. • Attributs confidentiels/sensibles: attributs qui contiennent des informations

sensibles sur le sujet. Les exemples sont: le salaire, la religion, la santé.

Comme précisé dans l’introduction, la définition actuelle de l’identifiant ne prend pas en compte le contexte et nous proposons une définition plus précise comme contribution.

Les mécanismes d’anonymisation déterministes

Il s’agit de mécanismes qui ne prennent pas en compte de génération aléatoires ni l’ajouts de données synthétiques. Ces mécanismes incluent entre autres: la générali- sation et suppression (Hundepool et al.,2005), la microaggregation (Domingo-Ferrer and Torra,2005), (Torra, 2004), la suppression locale (Hundepool et al.,2008). Ces

techniques ont l’avantage de permettre un meilleur contrôle sur le processus d’anonymisation et permettent donc un meilleur calibrage des données en fonction du besoin en util-

ité.

Les mécanismes d’anonymisation non-déterministes

Il s’agit de mécanismes basés sur la génération aléatoire et sur l’ajout de données synthétiques. Ces mécanismes incluent entre autres: la méthode "Post-RAndomization" (PRAM) (Gouweleeuw, Kooiman, and De Wolf,1998), (Kooiman, Willenborg, and Gouweleeuw,1997), la génération de données synthétiques (Dwork,2008), le "swap- ping" des données (Dalenius and Reiss,1982) (Reiss,1984) (Carlson and Salabasis,

2000). Le principal avantage de ces techniques est de fournir une meilleure résis- tance aux attaques sur la re-identification. Cependant, à cause de l’aléatoire et de l’ajout de données synthétiques dont elles dépendent, elles permettent un contrôle plus faible sur l’utilité des données.

A.5.2 Les métriques d’anonymisation

L’anonymisation a un double objectif (vie privée et utilité des données), ainsi, pour l’évaluer il existe deux grands types de métriques: les métriques de vie privée et les métriques d’utilité des données. Nous analysons ici les métriques existantes dans leur capacité à évaluer d’une part la vie privée et d’autre part l’utilité des données. Nous proposons ensuite une comparaison des métriques de vie privée en fonction de plusieurs critères que nous trouvons pertinents.

Les métriques de vie privée

Dans la littérature, il existe plusieurs métriques d’évaluation de la vie privée. Elles évaluent le degré de vie privée dans un jeu de données anonymisées en mesurant sa capacité à résister aux attaques connues sur la vie privée. Pour ce faire plusieurs propriétés peuvent être considérées:

1. Lien avec la ré-identification: Le lien entre les mesures et la capacité de ré- identification est-il direct ou non?

2. Empirique ou analytique: les mesures sont-elles empiriques ou analytiques? 3. Granularité: Est-il possible d’effectuer des mesures sur plusieurs attributs, en

fonction des valeurs d’attributs, d’une combinaison de valeurs d’attributs ...? 4. Généralité. La métrique peut-elle être utilisée avec différents mécanismes

d’anonymisation? La métrique prend-elle en compte différents types d’attributs? La métrique peut-elle être utilisée pour lier des enregistrements dans des mi- crodonnées qui ne contiennent pas des valeurs d’attributs identiques ou simi- laires?

5. Applicabilité et évolutivité. La métrique est-elle applicable sur de grands ensembles de données?

Nous proposons une comparaison des métriques en fonction de ces critères et montrons qu’aucune métrique existante ne répond à tous ces critères.

Les métriques d’utilité des données

La principale difficulté pour l’évaluation de l’utilité des données est la subjec- tivité du besoin d’utilité. En effet, le besoin dépend du cas d’utilisation et varie en fonction de l’interprétation du problème. Dans la littérature il existe 2 principales approches pour évaluer l’utilité des données: les métriques pour des besoins spéci- fiques et le métriques pour des besoins génériques.

Les métriques pour les besoins spécifiques évaluent la capacité des données à répondre à un besoin prédéfinit et utilisent principalement des techniques provenant du domaine de l’intelligence artificielle (Torra,2017a) (classification, regression, clus- tering).

Les métriques d’utilité génériques essaient de maximiser la quantité d’information restante dans un jeu de données anonymisées afin de maximiser l’utilisation des données pour différents usages non identifiés à l’avance. Cette méthode utilise des techniques de statistique incluant: l’erreur quadratique moyenne (MSE), l’erreur quadratique absolu (MAE), la variation moyenne (Domingo-Ferrer, Sánchez, and Hajian,2015a).

A.6. Contribution 113

Dans le document Privacy and utility assessment within statistical data bases (Page 131-134)