2009 — Infrastructure logicielle visant à protéger la confidentialité du patient dans les images médicales utilisées en recherche

(1)

MÉMOIRE PRÉSENTÉ À

L’ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

COMME EXIGENCE PARTIELLE À L’OBTENTION DE LA

MAÎTRISE EN GÉNIE M.Ing.

PAR LEMAY, Alain

INFRASTRUCTURE LOGICIELLE VISANT À PROTÉGER LA CONFIDENTIALITÉ DU PATIENT DANS LES IMAGES MÉDICALES UTILISÉES EN RECHERCHE

MONTRÉAL, LE 7 MAI 2009

c

(2)

PAR UN JURY COMPOSÉ DE :

Mme Rita Noumeir, directrice de mémoire

Département de génie électrique à l’École de technologie supérieure

M. Jean-Marc Lina, codirecteur

Département de génie électrique à l’École de technologie supérieure

M. Mohamed Cheriet, président du jury

Département de génie de la production automatisée à l’École de technologie supérieure

M. Jean-Marc Robert

Département de génie logiciel et des TI à l’École de technologie supérieure

IL A FAIT L’OBJET D’UNE SOUTENANCE DEVANT JURY ET PUBLIC LE 3 AVRIL 2009

(3)

Je tiens à remercier chaleureusement ma directrice de mémoire, Madame Rita Noumeir, mon codirecteur, Monsieur Jean-Marc Lina, pour leur patience, leur soutien moral, technique et financier tout au long de ce projet.

Merci à mon fils Paul-Abraham pour le nombre de samedi matins où il a dû souffrir de mon absence. Merci également pour cette façon troublante dont il parle de la maîtrise au présent de l’indicatif comme si tout était déjà complété : « tu l’as déjà ta maîtrise, Papa »

À ma fille Marcelle qui, malgré son jeune âge, donne déjà les signes d’une personne brillante comme sa mère.

Merci à mon épouse, Aminata pour son amour indéfectible, son support et sa patience avec ses trois enfants (moi inclus).

Merci à Monsieur François Coallier, directeur du département de génie logiciel et des TI pour sa bonne humeur quotidienne. Vos encouragements récurrents pour m’inciter à terminer mes études, ainsi que la confiance que vous m’avez accordé ont été déterminants dans l’achèvement de mes études à la maîtrise.

Finalement, je tiens à remercier tous les parents et amis qui m’ont soutenu tout au long de ce projet de maîtrise.

(4)

LEMAY, Alain

RÉSUMÉ

Pour valider les algorithmes de traitement d’image, on doit utiliser des données venant du monde réel. Ces données existent et sont accessibles électroniquement. Toutefois, cela ne doit pas se faire au détriment du droit à la confidentialité du patient, au respect de la vie privée et sans obtenir le consentement du patient. Le suivi du patient peut s’échelonner sur une longue période de temps. Notre objectif consiste à construire une base de données d’information non-nominative tout en permettant une mise à jour incrémentale de l’information qu’elle contient. Dans ce mémoire, nous explorons différentes avenues architecturales de manière à conçevoir une base de données d’images qui puisse être mise à jour par incrément. Comme les images médicales respectent souvent le standard DICOM, nous proposons une technique d’anonymi-sation qui suit les recommandations de DICOM.

Mots clés : base de données, dossier patient, confidentialité des données, information

(5)

LEMAY, Alain

ABSTRACT

To validate the image processing algorithms, we must use data from the real world. These data exist and are accessible electronically. However, this should not be at the expense of the right to patient confidentiality, respect for privacy and without obtaining the patient consent. Monitoring the patient can be spread over a long period of time. Our goal is to build a database of non-personal information while allowing for incremental update the information it contains. In this paper, we explore different avenues of architectural design to a database of images that can be updated by increments. As medical images often is available in the DICOM standard, we propose a technique of anonymization following the recommendations of DICOM.

(6)

Page

INTRODUCTION . . . 1

CHAPITRE 1 REVUE DE LA LITTÉRATURE . . . 6

1.1 La désidentification . . . 6

1.2 L’anonymisation . . . 10

1.2.1 Exemple d’inférence . . . 12

1.2.2 Les canaux d’inférence . . . 16

1.3 La pseudonymisation . . . 24

1.4 Conclusion . . . 27

CHAPITRE 2 ANALYSE ET CONCEPTION . . . 29

2.1 Introduction . . . 29

2.2 Description du problème . . . 29

2.3 Description de la solution . . . 33

2.4 Première catégorie : les attribut à désidentifier . . . 35

2.5 Deuxième catégorie : les attributs à anonymiser . . . 42

2.6 Troisième catégorie : les attributs à pseudonymiser.. . . 46

2.7 Conclusion . . . 46

CHAPITRE 3 IMPLÉMENTATION . . . 48

3.1 Retour sur les contraintes . . . 49

3.2 La modalité DICOM . . . 49

3.3 L’utilisation d’un API . . . 51

3.4 Les contraintes dictées par le standard DICOM . . . 51

3.5 La politique d’anonymisation . . . 52

3.6 Les patrons de conception utilisés . . . 52

3.7 Technicalités . . . 55

CONCLUSION . . . 58

RECOMMANDATIONS . . . 62

ANNEXE I TABLEAUX . . . 63

ANNEXE II PATRONS DE CONCEPTION ORIENTÉS-OBJETS . . . 66

ANNEXE III GUIDE D’EXPLOITATION POUR ANONYM V1.0 . . . 111

(7)

Page

Tableau 1.1 Les types d’élément de donnée DICOM . . . 8

Tableau 2.1 Les attributs à désidentifier . . . 36

Tableau 2.2 Les attributs à anonymiser . . . 43

(8)

Page

Figure 1.1 (a) Ensemble de données initial - (b) ensemble de données initial anonymisé en 2-diverse - (c) nouvel ensemble de données mis à

jour - (d) nouvel ensemble anonymisé en 2-diverse. . . 14

Figure 1.2 Classes d’équivalence compatibles. . . 17

Figure 1.3 Sommaire des ensembles permettant l’inférence. . . 18

Figure 1.4 Distorsion des données causée par la généralisation. . . 21

Figure 1.5 Pseudonymisation à sens unique. . . 26

Figure 2.1 Classes d’anonymisation. .. . . 34

Figure 3.1 Système d’anonymisation. .. . . 50

Figure II.1 Association Client-Product. . . 66

Figure II.2 Client-Product framework. . . 67

Figure II.3 Organisation générale du patron de conception Factory Method. . . 68

Figure II.4 Diagramme de classe du système de désidentification. . . 70

Figure II.5 Patron Factory Method des stratégies de désidentification. . . 72

Figure II.6 Les classes DICOM. . . 74

Figure II.7 Le patron Abstract Factory. . . 75

Figure II.8 Diagramme de classe du patron Abstract Factory dans Anonym 1.0. . . 76

Figure II.9 La boîte de dialogue d’ajout/retrait des élément DICOM. . . 78

Figure II.10 Gestion décentralisée des dépendances. . . 79

Figure II.11 Gestion centralisée des dépendances. . . 80

Figure II.12 les classes du patron Mediator.. . . 80

(9)

Figure II.14 Diagramme de classes. . . 90

Figure II.15 Organisation des classes de désidentification. . . 93

Figure II.16 Organisation générale des classes du patron Strategy. . . 94

Figure II.17 Quelques boîtes de dialogue de l’application. .. . . 97

Figure II.18 Les classes des boîtes de dialogue de l’application. .. . . 97

Figure II.19 Le patron Template Method. . . 98

Figure II.20 Classes d’anonymisation de base. . . .101

Figure II.21 Hashed adapters pour anonymiser des attributs. . . .103

Figure II.22 La classeHashMapau service de l’anonymisation. .. . . .104

(10)

AE Application Entity AET Application Entity Title

API A Programming Interface

CMS Cryptographic Message Syntax

DICOM Digital Imaging and Communications in Medicine

HTML HyperText Markup Langage

LATIS Laboratoire d’Analyse et de Traitement de l’Information et des Signaux

PDU Protocol Data Unit

SOP Service Object-Pair

SCP Service Class Provider

SCU Service Class User

TCP Transport Control Protocol

UID Unique IDentifier

(11)

Le traitement et l’analyse des images médicales permettent d’améliorer la qualité de ces images afin d’identifier des caractéristiques et offrir un outil supplémentaire au spécialiste pour l’ai-der à poser un diagnostic. Les algorithmes développés en recherche pour améliorer la qualité des images doivent être testés avec des données provenant de patients. Ces données médicales existent, elles sont abondantes et leur distribution est facilitée parce qu’elle est faite de façon électronique. Toutefois, avant d’utiliser ces informations en recherche, il faut tenir compte du droit du patient à la confidentialité et à la protection de la vie privée. En effet, ces données médicales contiennent de l’information nominative (comme le nom, l’adresse, le numéro de patient, etc) permettant d’identifier le patient auquel elles appartiennent. Bien que ces informa-tions soient nécessaires (pour ne pas dire essentielles) en institution pour garantir qu’un dossier médical appartienne précisément à un patient donné plutôt qu’à un autre, elles constituent une menace importante à la vie privée du patient lorsqu’elles sont exportées là où elles n’ont pas lieu d’être normalement, c’est à dire en dehors des murs de l’hôpital. Les institutions hospita-lières sont soumises à des règles strictes qui garantissent, dans une certaine mesure, le droit du patient à la confidentialité et la protection de la vie privée. Même avec l’autorisation (néces-saire) du patient pour exporter les données, celles-ci doivent être mises sous une forme telle qu’elles ne représentent plus une atteinte aux droits du patient.

Cela dit, il existe des principes, techniques et outils afin de rendre un ensemble de données médicales « exportables » vers un milieu non-institutionnel. Ces techniques de base sont ce que nous nous permettons d’appeler la « désidentification » et « l’anonymisation ». La première technique, celle de désidentification, consiste à retirer toutes les informations nominatives pou-vant mener à l’identification du patient en éliminant l’information ou en la remplaçant par des données factices. Cette technique, bien que nécessaire, ne garantit pas la confidentialité de l’in-formation. En effet, dans un de ses travaux, L. Sweeney a prouvé qu’il était possible d’identifier précisément 87% des individus de la population états-unienne avec l’aide de seulement trois renseignements : le sexe, la date de naissance et le code postal [30]. Il est donc évident que d’appliquer la désidentification seulement n’est pas suffisant pour assurer la confidentialité du

(12)

patient. La seconde technique, complémentaire à la première, est l’anonymisation de l’infor-mation. Cette technique consiste à prendre l’information du patient et à la rendre ambigüe. Il s’agit, bien souvent, de faire en sorte que l’information d’un individu soit indistinguable de l’information des autres et que la probabilité de l’identifier avec précision soit gardée en des-sous d’un seuil donné. Cela se fait concrètement par une généralisation de l’information où les valeurs numériques sont exprimées en termes d’intervalles (p. ex., [20-25] pour représenter 21) et les valeurs plus catégoriques sont exprimées à l’aide d’ensembles (p. ex., {Canada, É.-U., Mexique} pour Canada) ou de valeur représentant cet ensemble (p. ex., Amérique du nord). L’application d’un algorithme d’anonymisation implique une perte de précision par rapport aux données originales. Cette perte de qualité est quantifiable et des équations permettant de l’estimer fournissent une indication en ce sens. Cependant, il n’est pas du ressort de ce mé-moire d’aborder les métriques relatives à la qualité de l’information découlant d’un algorithme d’anonymisation. Ces techniques d’anonymisation sont couramment utilisées et fonctionnent relativement bien pour des ensembles de données statiques. Leur application sur des ensembles de données évoluant dans le temps représente un défi supplémentaire. Tel est le problème que nous étudions dans ce mémoire de maîtrise.

Un patient est généralement suivi en clinique sur une longue période de temps. La progres-sion de la maladie et l’évolution du diagnostic représentent, si elle n’est pas inestimable, une information au moins supplémentaire afin de poser un meilleur diagnostic. Les séries tempo-relles (« Time series ») qui comportent plusieurs images en série sont communément utilisées de nos jours. Pourtant, peu d’assertions basées sur l’évolution temporelle de la maladie ne sont effectuées automatiquement. Nous croyons qu’il s’agit là d’une erreur et que l’évolution du diagnostic et de la maladie elle-même constituent une information clinique importante aux fins de la recherche. C’est là qu’entre en jeu ce que nous appelons la « pseudonymisation ». Cette troisième et dernière technique consiste à prendre un numéro d’identification unique apparte-nant au patient (p. ex., le patient ID) à partir duquel on génère un nouvel identificateur. On conserve ensuite le lien avec le numéro original afin d’assurer la pérénité de l’information dans le temps. En effet, une fois les données du patient désidentifiées et anonymisées, il n’est plus

(13)

possible de mettre à jour l’information du patient en milieu de recherche. Cette technique est utilisée afin de mettre à jour l’information du patient de façon périodique. Le pseudonyme sert à camoufler le véritable identificateur du patient et permet à l’organisme détenteur de l’infor-mation de mettre à jour l’inforl’infor-mation périodiquement sans que la confidentialité du patient ne soit compromise. Le pseudonyme peut être réversible ou irréversible dépendant que l’on veuille, ou non, retracer l’identité du patient (ayant obtenu son consentement bien entendu). La pseudonymisation réversible peut être implémentée grâce à une table de correspondance (« mapping ») entre l’identificateur réel et le pseudonyme ou par un algorithme de chiffrement dont on connaît la clé (p. ex., AES). La pseudonymisation irréversible est implémentée grâce à une fonction de hachage (p. ex., SHA-1).

Le standard DICOM (pour « Digital Imaging and Communications in Medicine ») [23] est développé conjointement par le « American College of Radiology » (ACR) et le « National Electrical Manufacturers Association » (NEMA). Il sagit d’un standard décrivant, entre autres, la manière de transférer et de sauvegarder une image médicale. Les données que nous tentons d’anonymiser sont des données radiologiques en format DICOM. Comme la majeure partie de l’imagerie médicale actuellement disponible est sous le format DICOM, la procédure de désidentification que nous proposons suit les recommandations énoncées dans ce standard. Le standard DICOM a publié récemment un supplément sur la sécurité concernant la confiden-tialité au niveau de l’attribut des ensembles de données DICOM en incluant une partie sur la désidentification (le supplément 55). Ce supplément décrit les extensions qui sont apportées au standard original pour nous permettre de faire partiellement le type de mise à jour incrémentale qui fait l’objet de ce mémoire.

La nature même des données dans le format DICOM pose plusieurs défis importants à la réa-listion de ce projet. Premièrement, le fait que les données DICOM soient représentées sous la forme de fichiers et non sous une forme tabulaire contrevient grandement aux techniques d’anonymisation qui sont actuellement en usage. Deuxièmement, la présence de UIDs uniques

(14)

pour représenter l’instance de la classe SOP1, les études et les séries qui réfèrent à l’instance originale ajoute un niveau de complexité supplémentaire pour l’implémentation de l’opération de pseudonymisation et cela n’est que sommairement pris en considération dans le supplément DICOM. Troisièmement, la présence des données originales chiffrées à l’intérieur même des instances, tel que décrit par le supplément, pose un problème de sécurité à l’intérieur même du fichier image.

La technologie Java est certainement un choix judicieux pour réaliser l’implémentation de l’ap-plication dans le cadre de ce projet. Java est une plate-forme intégrant des aspects reliés à la sécurité informatique ayant connu un succès commercial [11]. Son Java Cryptography Exten-sion (JCE) intégré depuis la verExten-sion 1.4 du Java 2 Software Development Kit (J2SDK) fournit les algorithmes nécessaires à la signature numérique, au chiffrement et à la création ainsi qu’à la gestion des clés de chiffrement. Les algorithmes de chiffrement sont utilisés en conjonction avec les clés de chiffrement dans le cadre de ce projet pour prendre un identificateur en texte clair et en générer un pseudonyme et obtenir ainsi un pseudonyme réversible. Les algorithmes de hachage cryptographique (SHA-1, MD5) peuvent servir à générer des pseudonymes irré-versibles. La plate-forme Java est également très prisée par les développeurs de cadres d’appli-cations (« application framework ») DICOM. En effet, il existe une vaste gamme d’outils pour lire des fichiers DICOM, les recevoir, les envoyer, manipuler leur contenu. Les plus connus sont dcm4che, Dicom4J, JDCM et PixelMed pour ne nommer que les plus populaires. C’est à partir des cadres JDCM et PixelMed que nous avons conçu notre système d’anonymisation DICOM.

La contribution, présentée dans ce mémoire, consiste à prendre les outils précédents, à en faire l’analyse, à cerner les contraintes et à trouver le meilleur compromis approprié dans le but de concevoir et d’implémenter une solution logicielle permettant d’offrir une banque d’images médicales DICOM destinée à la recherche. Les informations nominatives du patient seront classifiées, certaines d’entre elles seront effacées, d’autres verront leur contenu modifié selon

1_{Une classe SOP (« Service-Object Pair Class ») consiste en l’union entre les définitions d’objets d’information}

(« Information Object Definition ») et l’ensemble des services qui peuvent s’y appliquer (« DICOM Message Service Element [DIMSE] Service Group »). Voir [23] pour plus de détails

(15)

une politique de désidentification clairement établie. Les images seront désidentifiées de ma-nière à assurer la confidentialité des patients présents dans la banque d’images. Les données cliniques et les données de recherche seront séparées mais évolueront au même rythme à me-sure que de nouvelles images arriveront des modalités d’acquisition. Dans le but d’asme-surer une mise à jour continue des données, la notion d’identificateur unique sera prise en compte à l’in-térieur de la politique de désidentification et une procédure spéciale de pseudonymisation sera appliquée qui pourra être, soit réversible, soit irréversible tout dépendant des règles stipulées dans la politique de désidentification. Grâce à ce lien, les données désidentifiées relatives à un individu seront répertoriées sous l’individu correspondant du côté de la recherche. Les fonc-tionnalités de chiffrement disponibles à l’intérieur du langage seront exploitées de manière à obtenir une solution sécuritaire pour générer des pseudonymes nous permettant de faire le lien entre le monde réel et celui de la recherche.

Ce mémoire se divise en tois chapitres. Le premier chapitre traite des concepts théoriques qui entrent dans l’analyse et la conception du processus d’anonymisation qui a lieu par la suite. Ce chapitre relate les points saillants de la littérature scientifiques qui sont directement reliés à notre problème. On aborde les concepts relatifs aux opérations de désidentification, d’anony-misation (généralisation des données) et de pseudonyd’anony-misation qui sont exploités dans la suite du mémoire. Le second chapitre consiste en l’analyse et la conception du système et sert à circonscrir d’avantage le problème en vue de l’élaboration de la solution finale. Le troisième et dernier chapitre qui traite de la mise en œuvre, présente une avenue de solution fonctionnelle de manière à répondre aux exigences dictées par les objectifs du projet. Ce mémoire comporte également 2 annexes pour servir d’appui à la partie traitant de l’implémentation. Le premier annexe dresse une liste assez complète des patrons de conception qui furent mis à profit dans l’élaboration du logiciel Anonym 1.0. Chaque patron y est décrit avec le niveau de détail né-cessaire à la compréhension du fonctionnement général du patron et du rôle spécifique qu’il remplit à l’intérieur de l’application. L’annexe III contient le guide d’exploitation qui aide à la compréhension du logiciel.

(16)

REVUE DE LA LITTÉRATURE

Notre objectif consiste à produire une banque d’images médicales provenant du secteur cli-nique pour la rendre disponible à la recherche. Cette banque d’images doit obligatoirement être conçue pour protéger la confidentialité des patients qui auront préalablement donné leur autorisation pour l’exportation de ces informations. Pour y arriver, l’information de chaque image contenue dans la banque doit être altérée de telle sorte qu’il soit impossible de retracer le patient auquel l’image appartient. Toutefois, ces modifications doivent se faire en conser-vant une qualité optimale des données. De plus, la banque d’images doit offrir des mécanismes pour permettre sa mise à jour périodique de façon incrémentale grâce à l’ajout successif de nouvelles images. Pour cela, il faut prendre en considération non seulement l’anonymisation des images elles-mêmes, mais aussi celle des images déjà présentes dans la banque au moment de l’insertion de la nouvelle image. Les opérations qu’il est possible d’effectuer sur un attribut d’une table qu’on cherche à anonymiser sont de l’enlever, le vider ou de changer son contenu. Ce chapitre présente les techniques de désidentification, d’anonymisation et de pseudonymisa-tion qui sont mises en œuvre dans ce mémoire. Les techniques de désidentificapseudonymisa-tion et d’ano-nymisation sont utiles pour la protection de la confidentialité des patients. La technique de pseudonymisation s’applique à la mise à jour incrémentale des bases de données anonymisées. Chaque technique est définie puis analysée sommairement.

1.1 La désidentification

La première étape que doit subir un ensemble de données qu’on veut rendre disponible à la recherche est la désidentification. La désidentification consiste à enlever tous les identificateurs explicites pouvant mener à l’identification directe du patient [3]. Le nom du patient, son adresse ou son numéro de patient sont des exemples d’identificateurs explicites. Les opérations qu’il est possible d’effectuer pour désidentifier un champs sont d’enlever ce champs, le vider (le remplir

(17)

de blancs) ou de modifier son contenu pour une valeur qui ne mènera pas à l’identification du patient.

Une image DICOM comporte une panoplie d’attributs provenant de différents modules. Tous les attributs ne mènent pas nécessairement à l’identification du patient ; leurs valeurs n’étant pertinentes que pour l’équipement ayant servi à faire l’acquisition de l’image. Le supplément 55 de DICOM propose un mécanisme de protection des attributs dans n’importe quelle ins-tance d’image DICOM (SOP insins-tance) [22]. Ce supplément présente une façon de sécuriser un fichier DICOM « à la pièce » (c.-à-d. chaque attribut individuellement) ce qui fait que l’on peut manipuler sans problème l’image avec une application qui n’est pas au fait du niveau de sécurité qui lui a été appliqué. Il est également possible de continuer à utiliser les fonctionna-lités de bas niveau du standard tels que les services de messages et les protocoles employés lors des transferts sur le réseau, du stockage et lors d’échange de média contenant des objets d’information.

Le supplément 55 dresse une liste des attributs contenus dans la plupart des objets d’infor-mation (IOD) qui doivent être protégés pour fournir un niveau minimal de confidentialité au patient. Le tableau I.1 reprend cette liste. Ce tableau contient le nom, l’étiquette (servant d’identificateur unique à l’attribut), le type et une brève description des attributs à protéger. La signification de la colonne type est expliquée plus loin dans le texte.

La désidentification présente trois alternatives : retirer l’attribut de l’objet DICOM, changer sa valeur ou vider l’attribut de son contenu (le remplir de blancs). Dans le cas du retrait, l’at-tribut ne fait plus partie de l’objet DICOM une fois l’opération de désidentification terminée. C’est la meilleure alternative dans la mesure où, puisque l’attribut du patient est enlevé, il ne peut contribuer à faire augmenter le risque de voir une personne malveillante déduire l’identité du patient. Cette technique a cependant le défaut de diminuer considérablement la qualité de l’information de l’objet DICOM ; la valeur de l’attribut utile à un adversaire pour déterminer l’identité du patient, peut aussi s’avérer pertinente à des fins de recherche. Son absence consti-tue souvent une perte grave au niveau de l’information utile. De plus, l’absence d’un attribut

(18)

peut compromettre la validité de l’objet d’information DICOM en fonction des règles énon-cées dans le standard. La deuxième technique, la modification, consiste à donner à un attribut DICOM une valeur factice. Il s’agit d’une techniques où l’attribut est conservé à l’intérieur de l’objet d’information DICOM tout en respectant certaines règles de conformité avec le stan-dard. La troisième et dernière alternative est un cas spécial d’application des deux premières techniques. Elle consiste à changer la valeur de l’attribut par des blancs. Elle s’apparente à la technique du retrait mais sans éliminer l’attribut. Même si cette approche ne règle pas le problème de qualité, cette technique a cependant le mérite de maintenir la validité des objets d’information DICOM une fois l’opération de désidentification effectuée.

Au moment d’effectuer une opération de désidentification qui modifie, vide ou enlève un attri-but ou une valeur d’attriattri-but DICOM, il est important de prendre en considération si un élément de donnée est obligatoire ou facultatif. La désignation de type, présentée à la section C.1.2.3 du document PS 3.3 du standard DICOM [23], indique si un élément de donnée est requis ou non dans un ensemble de données et, si sa présence est requise, quelle importance prend la valeur qu’il contient. Le tableau 1.1 liste les différents types qui sont utilisés dans DICOM.

Tableau 1.1 Les types d’élément de donnée DICOM

Type Description

1 Requis avec une valeur.

1C Requis avec une valeur, conditionnel. 2 Requis avec ou sans valeur.

2C Requis avec ou sans valeur, conditionnel. 3 Optionnel.

Un autre problème qui complique considérablement le processus de désidentification en DI-COM est la notion de valeur de représentation (« Value Representation ») des éléments de donnée. En effet, chaque élément de donnée DICOM possède une valeur de représentation (VR) qui décrit le type, le format et la longueur des données que l’élément peut accepter. Le dictionnaire des éléments avec leur VR respective se trouve dans le document PS 3.6 du stan-dard [23]. La liste des VRs disponibles est dans le document PS 3.5 du stanstan-dard [23]. Toutes

(19)

les VRs pour représenter les différents types de donnée allant de l’entité d’application (« Ap-plication Entity [AE] ») au texte illimité (« Unlimited Text [UT] ») en passant par le nom des personnes (« Person Name [PN] »), y sont scrupuleusement décrits. La désidentification doit obligatoirement se conformer à cet ensemble de règles pour produire une image DICOM qui soit conforme au standard. Cette standardisation n’aide en rien pour la désidentification des images DICOM.

Tel que mentionné précédemment, une des opérations qu’il est exigé d’effectuer pour désiden-tifier un objet de données consiste à retirer tous les identificateurs uniques pouvant mener à la réidentification du patient comme, par exemple, son numéro de patient. En plus des identifica-teurs qui sont propres à l’institution (comme le « Patient ID [0010,0020] »), DICOM introduit également des identificateurs uniques (« Unique identifier [UID] ») qui sont propres au stan-dard.

Les UIDs DICOM offrent la possibilité d’identifier de façon spécifique un large éventail d’ob-jets. Il garantissent le caractère unique des objets à travers plusieurs pays, sites, fournisseurs et types d’équipements. Ils permettent de distinguer les objets DICOM les uns des autres en dehors de toutes considérations sémantiques. Pour donner un exemple, la même valeur de UID ne peut être utilisée pour identifier une étude (« Study Instance UID ») et une série (« Series Instance UID ») à l’intérieur de cette étude ou à l’intérieur d’une étude différente. NEMA est l’organisme responsable de la définition et de l’enregistrement des UIDs DICOM.

Les UIDs sont omniprésents en DICOM et servent à identifier de façon unique toutes sortes d’objets. S’ils ne mènent pas tous nécessairement à l’identification directe du patient, plusieurs UIDs, s’il ne sont pas convenablement désidentifiés, offrent, de par leur unicité, une voie toute privilégiée à l’identification du patient auquel l’image appartient. Leur retrait inconditionnel du fichier DICOM n’est cependant pas une solution, les relations découlant des UIDs constituent une information très précieuse en DICOM que l’on désire sans aucun doute conserver. Si les UIDs ne peuvent rester inchangés pour des raisons évidentes de sécurité de l’information du

(20)

patient, il faut modifier leur valeur en respectant le format des UIDs et l’intégrité référentielle qu’ils servent à établir entre les objets.

La détermination des UIDs en DICOM est fondée sur la forme numérique du standard ISO 8824 traitant de l’identification des objets. Chaque UID est composé d’une portion <org root> et d’un <suffix> pour donner la forme suivante :

UID = <org root>.<suffix>

La partie <org root> de l’UID identifie une organisation (c.-à-d. un manufacturier, un labora-toire de recherche, NEMA, etc.) et est composé d’un ensemble de nombres tous séparés par des points tel que décrit dans ISO 8824. La portion <suffix> de l’UID est également composée d’un ensemble de composants numériques séparés par des points et doit être unique dans le champ d’application de <org root>.

La question des UIDs vient ajouter une contrainte supplémentaire à l’opération de désiden-tification des objets d’information DICOM. En effet, chaque objet disposant d’une panoplie d’identificateurs uniques, leur retrait inconditionnel ne peut avoir lieu sans compromettre consi-dérablement l’intégrité des objets de donnée. Il faudra donc élaborer une stratégie basée sur la pseudonymisation afin de protéger la confidentialité du patient. La pseudonymisation est traitée un peu plus loin dans ce chapitre.

1.2 L’anonymisation

Le retrait des identificateurs directs par la désidentification ne peut garantir à lui seul la confi-dentialité du patient. Il est possible en prenant les champs restants, en les combinant entre eux et en les comparant avec des données accessibles publiquement, d’identifier précisément un indi-vidu. On donne à ces ensembles de champs le nom de quasi-identificateur (« quasi-identifier »). L’anonymisation des données est un processus complexe qui consiste à généraliser la valeur de ces champs quasi-identificateurs afin de rassembler les enregistrements en groupes dans les-quels les enregistrements sont indiscernables les uns par rapport aux autres.

(21)

Cette section présente sommairement les modèles k-anonymat et -diversité qui sont actuelle-ment en usage en anonymisation. On traite du risque d’inférence dans les ensembles de données incrémentaux qu’on illustre à l’aide d’un exemple. Ensuite, le risque d’inférence est présenté de manière plus formelle. On y définit, entre autre, des canaux d’inférence entre classes d’équi-valence compatibles ; une classe d’équid’équi-valence étant un groupe d’enregistrements anonymisés ne pouvant être distingués entre eux. On présente ensuite une technique d’anonymisation pour les ensembles de données incrémentaux basée sur une métrique de qualité des données. Il est également question d’une manière de prévenir les canaux d’inférence pouvant être appropriée à notre problème [3].

Une technique qui s’avère appropriée à la protection des données biométriques est le modèle k-anonymat (en anglais, « k-anonymity »). Cette technique consiste à faire en sorte qu’il soit impossible de distinguer n’importe quel élément de l’ensemble de données d’au moins(k − 1) autres éléments dans l’ensemble [30]. De cette façon, la probabilité d’identifier un individu en particulier dans l’ensemble de données est gardée inférieure à1/k.

Un autre modèle intéressant est celui connu sous le nom de -diversité (« -diversity ») qui prend en considération qu’un ensemble de données privées contient des attributs sensibles (« sensitive attributes ») qui ne peuvent être modifiés. Un attribut sensible est dévoilé lorsque sa valeur peut être associée à un individu avec certitude. Pour prévenir de telles inférences, le mo-dèle -diversité suppose que chaque groupe d’enregistrements indicernables contient au moins valeurs distinctes d’attribut sensible. Ainsi, le risque de voir une valeur d’attribut sensible être dévoilée pour un patient donné est gardé inférieur à1/.

Ces techniques fonctionnent bien avec des ensembles de données statiques où les données à anonymiser est disponible en entier. Elles ne s’appliquent pas aussi bien aux ensembles de données dynamiques [3]. Or, comme nous le savons, il existe un réel besoin pour de l’informa-tion actualisée et colligée au jour le jour. Par exemple, supposons qu’un hôpital veuille rendre disponible un ensemble de données destiné à la recherche médicale. L’institution devra rendre l’information anonyme de manière à protéger la confidentialité des patients. Cette opération se

(22)

résumera à quelque chose d’assez simple pour la version initiale des données, mais les choses se compliqueront sitôt que de nouveaux enregistrements seront ajoutés à l’ensemble de don-nées.

La première approche pourrait être d’anonymiser et de publier les nouveaux enregistrements périodiquement. Les chercheurs pourraient étudier chacune des versions indépendemment ou fusionner les différents ensembles en un seul pour en faciliter l’analyse. Bien que relativement simple, cette approche a le défaut d’offrir des ensembles de données de qualité moindre. Le problème vient du fait que si de petits ensembles de données sont anonymisés indépendem-ment, les enregistrements doivent subir des modifications plus importantes que s’ils étaient anonymisés tous ensembles.

La seconde approche pourrait être d’anonymiser les données globalement à chaque fois que de nouvelles données s’ajoutent à l’ensemble original. Bien que cela puisse être réalisé avec les techniques existantes, cette approche comporte deux inconvénients majeurs qui ne peuvent être négligés. Le premier inconvénient est que cela représente une quantité importante d’opérations redondantes puisqu’il faut refaire l’anonymization du même ensemble de données à chaque nouvel ajout à l’ensemble de base. Un autre inconvénient, plus grave celui-là, est que même si les ensembles de données publiés sont anonymes de façon individuelle (ils sont anonymes par rapport à k-anonymat et -diversité), ils sont par contre vulnérables aux attaques par inférence s’ils sont observés collectivement. L’exemple suivant illustre une attaque par inférence.

1.2.1 Exemple d’inférence

Supposons qu’un hôpital possède un ensemble de données tel que celui présenté à la fi-gure 1.1(a) et qu’il veuille le rendre disponible à la recherche. Il décide d’apporter les mo-difications à l’ensemble de données de manière à ce qu’il soit impossible de distinguer chacun des items de l’ensemble d’au moins un autre item. L’ensemble est considéré 2-diverse dans ce cas et le résultat est présenté à la figure 1.1(b). Par exemple, si un attaquant savait que l’in-formation de Tom, un jeune homme de 21 ans était dans l’ensemble, il ne pourrait prédire le diagnostic de la maladie dont il souffre avec une probabilité supérieure à1/ où = 2. Dans

(23)

ce cas, tout ce qu’il pourrait apprendre est que Tom souffre d’asthme ou de la grippe. Plus tard, l’ensemble de données est mis à jour et de nouveaux items sont ajoutés avec comme résultat la table présentée à la figure 1.1(c). Les nouvelles données sont présentées en italique dans la table. L’hôpital publie donc une nouvelle version de sa table 2-diverse et cette version est présentée à la figure 1.1(d). La vie privée de Tom est toujours protégée dans cette nouvelle version, mais ce n’est pas le cas pour les autres. Voici deux exemples d’attaque par inférence tirés de Byun et al. [3] :

Exemple 1 : le premier exemple d’inférence suppose que l’attaquant sait que Alice, qui est dans la fin vingtaine, vient d’être admise à l’hôpital. Il est certain que Alice ne se trouve pas dans le premier ensemble de données [figure 1.1(b)], mais qu’elle est dans le nouvel ensemble anonymisé [figure 1.1(d)]. À l’aide du nouvel ensemble de données, il peut apprendre que Alice souffre d’une des trois maladies asthme, grippe, cancer. Cependant, par inférence, il peut facilement déterminer que Alice ne souffre ni d’asthme ni de la grippe. Il est assuré que Alice souffre bien du cancer.

Exemple 2 : l’attaquant sait que Bob a 52 ans et qu’il se fait traiter dans cet hôpital depuis longtemps. Il est donc certain que l’information de Bob se trouve dans les deux versions de l’ensemble anonymisé. Il étudie le premier ensemble pour apprendre que Bob souffre d’alzhei-mer ou de diabète. En observant le deuxième ensemble de données, la personne malveillante découvre que Bob est soit cardiaque ou alzheimer. Il en conclut donc que Bob est atteint d’alz-heimer. Noter que trois autres items dans l’ensemble de données sont vulnérables à de telles attaques par inférence.

L’idée maîtresse derrière l’approche de Byun et al. dans son article [3] est qu’on peut ano-nymiser efficacement un ensemble de données en insérant des items dans un ensemble déjà anonymisé. Cela implique que les nouveaux items ainsi que ceux qui se trouvent déjà dans l’ensemble anonymisés doivent être modifiés pour satisfaire aux exigences de l’anonymisation (c.-à-d. k-anonymat et -diversité). Cela doit se faire avec le souci de conserver une certaine qualité de l’information (« data quality ») et sans ouvrir la porte à des inférences indésirables.

(24)

Âge Sexe Diagnostic 21 Homme Asthme 23 Homme Grippe 52 Homme Alzheimer 57 Femme Diabète (a)

Âge Sexe Diagnostic [21 − 25] Homme Asthme [21 − 25] Homme Grippe [50 − 60] Personne Alzheimer [50 − 60] Personne Diabète

(b) Âge Sexe Diagnostic

21 Homme Asthme 23 Homme Grippe 52 Homme Alzheimer 57 Femme Diabète 27 Femme Cancer 53 Homme Cardiaque 59 Femme Grippe (c)

Âge Sexe Diagnostic [21 − 30] Personne Asthme [21 − 30] Personne Grippe [21 − 30] Personne Cancer [51 − 55] Homme Alzheimer [51 − 55] Homme Cardiaque [56 − 60] Femme Grippe [56 − 60] Femme Diabète (d)

Figure 1.1 (a) Ensemble de données initial - (b) ensemble de données initial anonymisé en 2-diverse - (c) nouvel ensemble de données mis à jour - (d)

nouvel ensemble anonymisé en 2-diverse.

Tiré de Byun et al. (2006, p. 2)

Le modèle k-anonymat tient compte d’une organisation des données en table. Chaque table étant composée de lignes d’information comportant des attributs dont les valeurs proviennent de différents domaines. La première opération à réaliser consiste à retirer tous les attributs tels que le nom ou le numéro de patient. Même si cela constitue une opération importante et essentielle à l’anonymisation des données, l’effacement des identificateurs directs n’est mal-heureusement pas suffisant pour garantir au patient la confidentialité. En effet, les attributs res-tants même si, pris individuellement, ne peuvent mener à l’identification du patient, peuvent, en les combinant, mener au dévoilement de l’identité du patient. C’est une constatation qu’a fait Sweeney dans son article [30] où elle déclare que 87% de la population états-unienne peut être identifée en combinant la date d’anniversaire, le sexe et le code postal (« zip code »). Cette combinaison d’attributs, appelée « quasi-identificateur », permet à un adversaire d’établir clai-rement l’identité des gens.

Le quasi-identificateur d’une table T , dénoté QT, est un ensemble d’attributs pris dans T qui, utilisés conjointement, peuvent mener à l’identification d’un individu avec une proba-bilité égale à1. L’objectif principal de la méthode k-anonymat est de transformer une table de

(25)

manière à ce que personne ne puisse établir de lien entre la table T et un individu avec une probalité inférieure à1/k.

On dit qu’une table T est k-anonyme en rapport avec un quasi-identificateur QT si et seulement si, pour tout enregistrement r dans T , il existe au moins(k − 1) autres enregistrements dans T qui ne peuvent être distingués de r par rapport à QT.

Par l’application du modèle k-anonymat, on s’assure que même si un adversaire sait que l’in-formation d’un individu se trouve à l’intérieur d’une table T et qu’il connaît la valeur des attributs particuliers lui permettant d’identifier précisément un individu, il ne peut savoir qu’un enregistrement de T appartient à cet individu avec une probabilité supérieure à1/k.

Le modèle k-anonymat est appliqué en généralisant les valeurs numériques d’un domaine par des intervalles (p. ex., [12 − 19]) et les valeurs catégoriques par un ensemble (p. ex., {homme, femme}) ou une valeur représentant cet ensemble (p. ex., P ersonne). Chaque groupe d’enregistrements d’un ensemble de données qu’on ne peut distinguer les uns des autres s’appelle une classe d’équivalence (« equivalence class »). Dans un ensemble qui est considéré comme2-anonyme les classes d’équivalence possèdent au moins 2 éléments chacun.

Les ensembles de données possèdent des attributs qu’on dit « sensibles » qui ne font pas partie du quasi-identificateur, mais qui jouent leur rôle dans la protection de la confidentialité des patients. Par exemple, dans l’ensemble de données de la figure 1.1(c), l’attribut Diagnostic est considéré sensible. Le modèle k-anonyme ne tient pas compte de cette menace où il est possible d’inférer certaines valeurs à des attributs sans qu’il soit nécessaire d’avoir à identifier à qui appartiennent les enregistrements. Par exemple, prenons une classe d’équivalence dont la valeur d’attribut sensible est la même pour tous les membres de la classe. Bien qu’aucun de ces enregistrements ne puissent être identifiés précisément, il n’en demeure pas moins que la valeur de leur attribut sensible puisse être déterminée avec une probabilité de 1. La méthode -diversité vient pallier ce défaut du modèle k-anonymat [19]. Une table T est dite -diverse si les enregistrements dans chaque classe d’équivalence contient au moins valeurs d’attributs sensibles. Là encore, comme le modèle -diversité garantit que chaque classe d’équivalence

(26)

contient au moins valeurs distinctes d’attributs sensibles, le risque d’identifier à qui appartient un attribut est gardé inférieur à1/.

1.2.2 Les canaux d’inférence

Supposons une table T avec un quasi-identificateur QT et un attribut sensible ST. Seule la ver-sion -diverse de T , dénoté ˆT , est rendue disponible au public. De nouveaux enregistrements sont ajoutés périodiquement à T et ˆT est mise à jour et publiée régulièrement pour tenir compte des changements apportés à T . C’est la mise à jour incrémentale des données. Les utilisateurs (y compris des adversaires) ont en leur possession une série de tables T₀, T₁, . . . , T_n anonymi-sées à différents moments dans le temps où| ˆTi| < | ˆTj| pour i < j. Les tables étant chacune -diverse, la probabilité de déterminer qu’un enregistrement est associé spécifiquement à un individu est maintenu sous1/. C’est lorsqu’on compare les changements qui existent entre les différentes tables anonymisées que l’on peut augmenter cette probabilité, on parle alors qu’il existe un canal d’inférence entre les tables. On dit qu’il existe un canal d’inférence entre deux tables ˆT_iet ˆT_j tirées de la même table privée T si, en comparant ces deux tables, on augmente la probabilité de dévoiler l’identité d’un individu avec une probabilité supérieur à1/. Un canal d’inférence entre une table ˆT_i et ˆT_j est dénoté ˆT_i ˆT_j. Il est de la responsabilité du fournis-seur de données (« data provider ») de garantir qu’il n’existe aucun canal d’inférence entre la dernière table publiée et toutes les versions précédentes de la table.

L’adversaire, tel que nous le conçevons, possède un ensemble de tables ˆT₀, ˆT₁, . . . , ˆTn, où ˆTiest une table publiée au temps i. Il est raisonable de croire que l’attaquant connaît la liste des indi-vidus inclus dans chaque table ainsi que leur quasi-identificateur respectif. Cependant, comme elles respectent le modèle -diversité, si les tables sont prises individuellement, la probabilité qu’un individu avec un certain quasi-identificateur possède un attribut sensible est limité à1/ ; P(St= s|QT = q) ≤ 1/. Le but de l’attaquant est d’augenter cette probabilité en comparant les tables entre elles.

Pour tenter dévoiler les attributs sensibles de Tom dont le quasi-identificateur est q, l’adversaire dispose de deux types de comparaison : 1) une comparaison où la table ˆTi ne contient pas

(27)

Tom et où la table ˆTj le contient [cette situation est représentée par δ(¬ ˆTi, ˆTj)], et 2) une comparaison où les deux tables ˆT_i et ˆT_j contiennent Tom [représentée par δ( ˆT_i, ˆTj)]. Dans les deux cas i < j. L’attaquant doit trouver, dans Ti, une classe d’équivalence ei où q ⊆ ei[QT]. Dans le cas de δ(¬ ˆT_i, ˆTj), l’adversaire sait pertinemment que Ti ne contient pas Tom ce qui peut lui permettre d’éliminer ces enregistrements de Tj. Dans le cas de δ( ˆTi, ˆTj), l’adversaire sait qu’un des enregistrements dans ei est celui de Tom et, bien qu’il lui soit impossible de déterminer précisément quels sont ses attributs sensibles de Tom (parce que ei contient un nombre d’enregistrements indiscernables soit par leur quasi-identificateur ou leurs valeurs d’attributs sensibles), cela peut représenter une information précieuse lorsqu’on examine la table ˆTj.

Une fois qu’il a obtenu ei, l’adversaire doit trouver les classes d’équivalence qui pourraient contenir Tom à l’intérieur de ˆTj. Cette opération consiste à rechercher toutes les classes d’équi-valence dites « compatibles » à ei.

-e_i1 e_i2 e_i3

e_j1 e_j2 e_j3 e_j4

(i) (ii) (iii)

T_i

Tj Âge Âge

Figure 1.2 Classes d’équivalence compatibles.

Byun et al. présentent la compatibilité entre les classes d’équivalence à l’aide d’un exemple [3]. La compatiblité entre deux classes d’équivalence implique qu’il y a des enregistrements présents dans les 2 classes d’équivalence. La figure 1.2 illustre ce qu’est la compatibilité entre les classes d’équivalence. Dans cet exemple, les deux tables Ti et Tj sont représentées par rapport au quasi-identificateur « Âge ». Nous posons l’hypothèse que les éléments sont dans l’ordre total (« Total Order of the elements »). La table Ticontient 6 enregistrements représentés

(28)

par des « » et sa version 2-diverse ˆT i consiste en 3 classes d’équivalence e_i1, e_i2 et e_i3. La table Tj contient quatre enregistrements supplémentaires représentés par des «♦ » et dont la version 2-diverse ˆTj est séparée en 4 classes d’équivalence distinctes ej1, ej2, ej3 et ej4. En considérant les tables ˆT_i et ˆT_j, nous pouvons tirer les conclusions suivantes quant à leur compatiblité :

a. e_j1 est identique à e_i1, c’est à dire que les valeurs de Q1 _{d’une classe d’équivalence à} l’autre sont égales [figure 1.2 (i)], on le dénote par e_i1 ∼= ej1.

b. e_j2 inclut e_i2, c.-à-d. que les valeurs de Q de e_i2 sont inclues dans celles de e_j2, on dit que les valeurs de Q de e_j2 sont plus généralisées que celles de e_i2[figure 1.2 (ii)] et on le dénote par e_i2 ≺ ej2.

c. e_j3 chevauche e_i3, c’est à dire que les valeurs de Q se recoupent pour engendrer de nouvelles classes d’équivalence [figure 1.2 (iii)]. On le dénote e_i3 ej3et e_i3 ej4. Il existe donc trois cas de compatibilité possibles entre deux classes d’équivalence, examinons le risque d’inférence pour les deux situations δ(¬ ˆT_i, ˆT_j) et δ( ˆT_i, ˆTj) vues précédemment. En supposant que ei[S] et ej[S] soient les projections qui conserve les enregistrements dupliqués2 des valeurs d’attributs sensibles dans les classes d’équivalence eiet ej respectivement.

Le tableau de la figure 1.3 résume les combinaisons pouvant mener à des canaux d’inférence. Voici quelques explications concernant chacune des parties du tableau :

ei ∼= ej ei ≺ ej ei ej1et ei ej2

δ(¬ ˆTi, ˆTj) ej[S] \ ei[S] ej[S] \ ei[S] ((ej1[S] ∪ ej2[S]) \ ei[S]) ∩ ejk[S], k = 1, 2 δ( ˆTi, ˆTj) ∅ ∅ ei[S] ∩ ejk[S], k = 1, 2

Figure 1.3 Sommaire des ensembles permettant l’inférence.

a. e_i ∼= ej ou ei ≺ ej : dans ces cas, l’adversaire sait que tous les enregistrements dans ei sont également dans ej. Disons que ei[S] et ej[S] représentent les projections de valeurs

1_Supposons_{Q = {q}

1, q2. . . , qm} un ensemble d’attributs formant un quasi-identificateur. 2_{Par conséquent, toutes les opérations}_{∩, ∪ et \ sont effectuées sur des multi-ensembles [1]}

(29)

d’attributs sensibles dans ei et ej respectivement. Les valeurs d’attributs sensibles pour un individu en particulier (Tom) sont représentées par sT.

(a) δ(¬ ˆTi, ˆTj) : l’adversaire sait que les valeurs d’attributs sensibles de Tom ne sont pas dans ei[S], mais sont dans ej[S]. En d’autres mots, sT ∈ ei[S] et sT/ ∈ ej[S]. Comme il sait que toutes les valeurs dans ei[S] doivent également se retrouver dans ej[S], il peut conclure que sT ∈ (ej[S] \ ei[S]). Par conséquent, l’attaquant peut inférer sT avec une probabilité supérieure à 1/ si (ej[S] \ ei[S]) contient moins que valeurs distinctes.

(b) δ( ˆT_i, ˆT_j) : dans ce cas sT ∈ ei[S] et sT ∈ ej[S]. Cependant, comme les deux ensembles sont -diverse, l’adversaire ne peut obtenir plus d’information sur sT. b. e_i e_j1 et ei ej23 : dans ce cas, l’adversaire sait que les enregistrements dans ei

peuvent se trouver dans e_j1 ou e_j2. Connaissant le quasi-identificateur de Tom (q), il peut facilement déterminer lequel des deux e_j1 et e_j2 contient l’enregistrement de Tom. Supposons que e_j1 contient l’enregistrement de Tom. Disons que ei[S], ej1[S] et ej2[S] sont les projections de valeurs d’attributs sensibles dans ei, ej1et ej2respectivement. (a) δ(¬ ˆT_i, ˆT_j) : l’attaquant sait que sT ∈ ei[S], sT/ ∈ e/ _j2[S] et sT ∈ e_j1[S]. Comme tous

les enregistrements de ei ne se sont pas nécessairement inclus dans e_j1, il ne peut conclure à sT ∈ (ej1[S] \ ei[S]) comme dans le cas précédent. Il peut néanmoins prétendre que l’enregistrement de Tom est dans e_j1∪ej2, mais ne se trouve pas dans ei. Il en déduit que sT ∈ (ej1[S] ∪ ej2[S]) \ ei[S]. Comme l’enregistrement de Tom doit être dans e_j1, l’adversaire conclut que sT ∈ ((ej1[S] ∪ ej2[S]) \ ei[S]) ∩ ej1[S]. Par conséquent, si l’ensemble qui en résulte ne contient pas au moins valeurs d’attributs sensibles distincts, l’adversaire peut inférer sT avec une probabilité qui est supérieure à1/.

(b) δ( ˆTi, ˆTj) : l’adversaire sait que les attributs sensibles de Tom apparaissent dans ei[S] et e_j1[S]. À partir de ce fait, nous pouvons conclure que sT ∈ (ei[S] ∩ e_j1[S]).

3_{Il est possible que ˆ}_T

j contienne plus que deux classes d’équivalence compatibles à ei. Cependant, il est question de seulement deux classes pour des raisons de simplicité.

(30)

L’attaquant peut donc inférer sT avec une probabilité supérieur à 1/ si (ei[S] ∩ e_j1[S]) contient moins de valeurs différente.

L’anonymisation des données est considérée comme un cas spécial d’optimisation où l’infor-mation doit subir le moins de modification afin d’assurer la meilleure qualité de données pos-sible, alors que les constraintes d’anonymisation (en termes de k-anonymat et de -diversité) doivent être maintenues au maximum. Sans s’attarder sur les détails de l’algorithme de -diversité de Byun et al., disons qu’il se divise en 2 étapes dont la première consiste en le parti-tionnement des enregistrements selon un espace d-dimensionnel où d est le nombre d’attributs dans le quasi-identificateur. Les enregistrements sont ensuite modifiés de manière à partager tous la même valeur de quasi-identificateur dans une même classe d’équivalence. La solution de Byun et al. pour la mise à jour incrémentale des ensembles de données anonymisés tient compte d’une métrique de la qualité de l’information qui calcule la distorsion des données basée sur l’expansion de chaque classe d’équivalence.

La figure 1.4 (i) présente un exemple d’un ensemble de données dont les enregistrements sont représentés par des points sur un plan à 2 dimensions en fonction du quasi-identificateur {Age, P oids}. L’ensemble comporte 2 classes d’équivalence 3-diverse e1 et e₂ représentées à l’aide de 2 régions traçée en ligne pointillée. Tous les enregistrements d’une même classe d’équivalence ont la même valeur pour les attributs du quasi-identificateurs. Par exemple, tous les enregistrements contenus dans e₁ partage la même valeur de quasi-identificateur [a1 − a2], [w1 − w2]. La distorsion des données (« data distortion ») peut être évaluée en mesurant la taille des régions couverte par ces classes d’équivalence. Basé sur cette idée, on définit une nouvelle métrique de la qualité de l’information (« Information Loss metric ») (IL). La mérique IL se définit comme suit :

Disons e = {r1, . . . , rn}, une classe d’équivalence où QT = {a1, . . . , am} est le quasi-identificateur. La quantité de distorsion en généralisant e, dénotée IL(e), est définie par : IL(e) = |e| ×_j=1,...,m |G_|Dj|

(31)

où|e| est le nombre d’enregistrements dans e, |Dj| représente la taille du domaine de l’attri-but aj.|Gj| représente l’ampleur de la généralisation pour l’attribut ai (c.-à-d. la longueur de l’intervalle contenant toutes les valeurs de l’attribut aj dans e).

-6 Âge a₁ a₂ a₃ a₄ Poids w₁ w₂ w₃ w₄ e₁ d d d e₂ d d d

(i) Avant l’insertion de r

-6 Âge a₁ a₂ a₃ a₄ Poids w₁ w₂ w₃ w₄ e₁ d d d tr e₂ d d d

(ii) Après l’insertion de r

Figure 1.4 Distorsion des données causée par la généralisation.

Tiré de Byun et al. (2006, p.10)

L’objectif est de produire un nouvel ensemble de données à jour en insérant de nouveaux enregistrements dans un ensemble de données déjà anonymisé. Supposons qu’il existe une table anonymisée ˆT qui est une version -diverse d’une table privée T . Suposons que, plus tard dans le temps, un nouvel ensemble d’enregistrements R = r₁, . . . , r₁ sont insérés dans T . On dénote cette nouvelle version de T par T. On peut penser intuitivement qu’une nouvelle version -diverse ˆT puisse être générée en insérant un à un les enregistrements de R dans ˆT . Pour cela, il faut respecter les exigences suivantes : 1) ˆT doit être -diverse, 2) la qualité des données doit être conservée autant que possible et 3) cela ne doit pas engendrer de nouveaux canaux d’inférence.

On décrit un algorithme d’insertion qui rencontre les deux premières exigences. L’idée consiste à insérer le nouvel enregistrement dans la classe d’équivalence la plus « rapprochée » de façon à réduire le plus possible les changements dûs à la généralisation. Pour illustrer ce concept, retournons à la figure 1.4 où (i) représente six enregistrements partitionnés en deux classes

(32)

d’équivalence3-diverse et (ii) montre les mêmes ensembles révisés une fois l’insertion d’un nouvel enregistrement r complété. L’enregistrement r est inséré dans e₁donnant comme résul-tat la nouvelle classe d’équivalence e₁. La perte d’information du nouvel ensemble de données est augmentée de IL(ei) − IL(ei). Cependant, si r avait été inséré dans e₂ la perte d’informa-tion aurait été supérieure. Basé sur cette idée, on élabore un algorithme d’inserd’informa-tion garantissant une qualité optimale des données.

a. (Ajout) Si un groupe d’enregistrements dans R forme une classe d’équivalence -diverse

qui ne chevauche aucune autre des classes d’équivalence existantes, alors ajouter ce groupe d’enregistrements à ˆT en tant que nouvelle classe d’équivalence.

b. (Insertion) Les enregistrements qui ne peuvent être ajoutés comme des classes

d’équi-valence à part entière doivent être insérés dans des classes d’équid’équi-valence existantes. De manière à minimiser la distorsion des données dans ˆT, chaque enregistrement ri doit être inséré dans une classe d’équivalence ej dans ˆT qui minimise la différence IL(ej ∪ {ri}) − IL(ej).

c. (Division) Après avoir ajouter ou insérer tous les enregistrements de R dans ˆT , il est possible que le nombre des valeurs distinctes dans quelques classes d’équivalence dé-passe2. Si une telle classe d’équivalence existe, alors on peut la diviser en deux classes d’équivalence pour une meilleure qualité des données. Il se peut qu’il ne soit pas possible de diviser une classe d’équivalence dépendemment de la distribution des enregistrements dans la classe d’équivalence.

À aucun moment dans cet algorithme il n’a été question des canaux d’inférence qui peuvent être introduits par l’insertion de nouveaux enregistrements dans un ensemble de données déjà ano-nymisé ni de la manière de prévenir ces canaux d’inférence. Il faut pourtant s’assurer que l’al-gorithme précédent produise des ensembles qui sont -diverse pour les trois opérations d’ajout, d’insertion et de division des classes d’équivalence.

Disons d’abord que l’opération d’ajout n’introduit aucun canaux d’inférence étant donné qu’elle ne fait qu’ajouter de nouvelles classe d’équivalence qui ne présentent aucune

(33)

compatibi-lité avec les classes existantes. L’opération d’insertion, quant à elle, peut introduire des canaux d’inférence lorsque de nouveaux enregistrements sont ajoutés et que les classes d’équivalence qui en résultent contiennent moins que instance de valeur d’attributs sensibles (ej[S] \ ei[S]). Tel que mentionné précédemment, les classes d’équivalence deviennent vulnérables aux at-taques à travers δ(¬ ˆTi, ˆTj). Cette sorte d’insertion ne peut être permise. Pour pallier ce pro-blème on doit modifier l’opération d’insertion comme suit : Durant la phase d’insertion, plutôt que d’insérer les enregistrements dans les classes d’équivalence, on insère les enregistrements dans une liste d’attente de classes d’équivalence. Au fur et à mesure que les enregistrements sont ajoutés à la liste d’attente, ils finissent par former des classes d’équivalence -diverse qui peuvent être insérées dans les ensembles de données anonymisés. Comme de nouveaux enre-gistrements sont continuellement ajoutés à la liste d’attente, le temps d’attente est relativement court pour la plupart des enregistrements.

Deux canaux d’inférence peuvent être introduits quand une classe d’équivalence ei est divisée en deux classes e_j1et e_j2. La première possibilité est((e_j1[S]∪e_j2[S])\ei[S])∩ejk[S], k = 1, 2. Si l’ensemble résultant n’est pas -diverse, les enregistrements sont vulnérables aux attaques à travers δ(¬ ˆT_i, ˆT_j). La condition doit être vérifiée avant de diviser ei. La deuxième possibilité est ei[S] ∩ ejk[S], k = 1, 2. Cela implique que s’il n’y a pas suffisamment de valeurs d’attribut sensibles se chevauchant entre la classe d’équivalence et les classes d’équivalence divisées, alors les classes d’équivalence divisées deviennent vulnérables aux attaques par inférence à travers δ( ˆT_i, ˆTj). Donc, à moins que cette condition ne soit remplie, ei ne doit pas être divisée. La question épineuse dans ce cas est que les canaux d’inférence peuvent exister avec toutes les classes d’équivalence publiée antérieurement. Par exemple, s’il existe une classe d’équivalence eiqui a été publiée avant ei, alors la condition de division doit être satisfaite avec eiégalement. Cela signifie que le système doit maintenir l’information sur toutes les versions précédentes. De manière à faciliter ceci, on stocke toute l’information au sujet des états précédents pour chaque classe d’équivalence. Cela ne représente pas une quantité si importante d’espace de stockage puisque l’on ne conserve que l’information au sujet des attributs sensibles (pas tous

(34)

les enregistrements). On purge également cette information lorsque les classes d’équivalence deviennent incompatibles à la classe d’équivalence courante.

Comme on peut le constater, les mécanismes de prévention des canaux d’inférence peuvent contribuer à atténuer la qualité des données anonymisées, mais il s’agit du prix à payer pour bénéficier d’une meilleure confidentialité.

1.3 La pseudonymisation

Le dossier médical électronique du patient (l’enregistrement patient), quand il est utilisé dans un contexte clinique où des soins sont promulgués au patient, devrait contenir toute l’infor-mation nécessaire à l’identification de ce dernier. Cependant, l’enregistrement patient possède aussi les usages alternatifs suivants : il peut servir dans les projet de recherche sur des ma-ladies spécifiques, en recherche épidémiologique, en recherche sur les soins de santé, lors de l’évaluation de la qualité des traitements et en recherche en économie de la santé. Ces utilisa-tions secondaires comportent les aspects typiques suivants : 1) l’enregistrement patient quitte le contexte intitutionnel où il bénéficie généralement de la protection conférée par le secret professionnel et 2) l’identité du patient n’a plus vraiment sa raison d’être dans l’enregistre-ment. Dans ce cas spécifique, toute l’information nominative pouvant mener directement à l’identification de l’individu doit être retirée de l’enregistrement patient. Certaines dispositions spéciales doivent être prises pour empêcher la réidentification du patient soit par déduction ou par quelques manières que ce soit.

Malheureusement, ce n’est pas toujours aussi simple. Dans plusieurs situations où l’on fait un usage secondaire de l’enregistrement patient, il peut être souhaité, voire même nécessaire, de retracer l’identité du répondant. Cela peut être le cas lorsque les données proviennent de différentes sources ou lorsque l’information devient disponible à des moments précis dans le temps ou qu’elle doit être mise à jour à des intervalles plus ou moins rapprochés comme ce que nous cherchons à réaliser dans ce mémoire. On peut même imaginer des situations où il serait nécessaire de conserver un lien à l’identité du patient pour l’informer du résultat de la recherche effectuée à son sujet (par exemple, s’il présente des dispositions génétiques spéciales). On peut

(35)

également vouloir constituer un lot d’individus prédisposés à une étude épidémiologique ou clinique spécifique. L’utilisation de pseudonymes est la solution à ce type de problème. La pseudonymisation sert à remplaçer un vrai identificateur tel que le nom ou le numéro d’iden-tification du patient par un pseudonyme qui est unique à l’individu, mais qui n’a aucun rapport avec cet individu. Un pseudonyme ne peut mener à l’identification du patient puisque le lien qui l’unit au patient est conservé de façon sécuritaire et séparément de l’information à traiter. Dans leur ouvrage sur la manière d’assurer la confidentialité des données de recherche, Bo-ruch et Cecil [2] expliquent qu’il existe des études transversales (« cross-sectional studies ») et des recherches longitudinales (« longitudinal researches »). Les études transversales permettent d’obtenir un échantillon d’information à un ou plusieurs moments dans le temps, mais aucune tentative n’est faite pour lier ces échantillons entre eux. On prend par exemple le bureau de re-censement qui investigue à tous les 10 ans sur le nombre de personnes que comporte un foyer, mais qui ne fait jamais de liens sur le nombre d’enfants qu’il y a à l’intérieur de chaque maison d’une fois à l’autre. Les études longitudinales, quant à elles, permettent d’obtenir de l’infor-mation sur les mêmes répondants à intervalle régulier. On essaie d’obtenir un cheminement logique en faisant des liens avec l’information obtenue précédemment. On donne l’exemple de l’étude correlationnelle dans le développement émotionnel des enfants désavantagés en éta-blissant la relation entre le comportement précédent de l’enfant et le comportement présent. Ce mémoire tient compte du fait qu’on veuille suivre un patient sur une période couvrant toute la durée de son traitement ; il s’agit donc d’une étude longitudinale et cela nécessite l’utilisation d’un pseudonyme.

La pseudonymisation est essentiellement de deux types : réversible ou à sens unique. La pseu-donymisation réversible permet la réidentification des individus alors que la pseupseu-donymisation à sens unique la rend impossible. Dans les deux cas, les pseudonymes permettent la liaison des enregistrements entre le secteur cliniques et celui de la recherche. L’utilisation de pseudo-nymes réversibles exige que la réidentification dépende d’une clé secrète et que l’opération de pseudonymisation soit effectuée par un tier de confiance (« trusted third party »). De plus, la

(36)

réidentification, si elle est possible et si elle est nécessaire, ne peut se faire qu’avec le consen-tement explicite du patient.

La figure 1.5 illustre un exemple de pseudonymisation utilisant une fonction de hachage à sens unique présenté par K. Pommerening [28]. Dans cette figure, MDAT représente les données médicales du patient, IDAT est l’information d’identification du patient, PID est le numéro du patient et PSN représente son pseudonyme.

Source de données MDAT IDAT PID Service de pseudonymisation PID PSN Usage secondaire MDAT PSN -chiffrement - -&% 6 hachage cryptographique (à sens unique)

Figure 1.5 Pseudonymisation à sens unique.

Tiré de Pommerening (2004, p. 3)

Ici, on peut imaginer que les données proviennent de diverses sources ou bien qu’elles sont disponibles à des moments différents dans le temps. Une condition préalable essentielle est qu’il existe une façon unique d’identifier le patient qui est partagée entre toutes les sources de données. Celle-ci est le « patient ID » ou PID. Le pseudonyme est généré à partir d’une fonction à sens unique (ce pourrait être du hachage) qui ne permet aucun retour en arrière sur l’information originale. Ce service devrait être fourni par un tier de confiance.

Une caractéristique typique de ce service est l’utilisation d’un algorithme de chiffrement asym-métrique : la source des données chiffre l’information médicale avec la clé publique de l’utili-sateur secondaire et envoie le PID (pas l’information d’identification) avec les données médi-cales chiffrées au service de pseudonymisation qui chiffre le PID pour générer le pseudonyme avant d’envoyer les données médicales accompagnée du pseudonyme. Noter que le service de pseudonymisation ne peut déchiffrer les données médicales, seul l’utilisateur secondaire peut

(37)

les déchiffrer grâce à sa clé privée. Cependant, l’utilisateur secondaire ne peut déchiffrer le pseudonyme et ainsi dévoiler le PID.

1.4 Conclusion

Dans ce chapitre nous avons étudié en détails les opérations impliquées dans le processus d’anonymisation qui sont la désidentification, l’anonymisation et la pseudonymisation. La dé-sidentification est l’opération qui consiste à retirer toute l’information nominative pouvant me-ner à l’identification du patient. Les opérations qu’il est possible de réaliser sur un attribut pour le désidentifier sont de l’effacer ou de modifier sa valeur. L’effacement d’un attribut signifie son retrait définitif de l’instance anonymisée. Les modifications qu’on effectue sur un attribut pour le désidentifier sont de le remplir de caractères blancs ou de changer sa valeur par une constante. Les attributs de type SQ (« Sequence of Items ») utilisent la récursivité pour se dé-sidentifier. Les attribut de type UID doivent faire l’objet d’un processus de désidentification particulier tenant compte du fait que leur valeur revêt une importance toute particulière en ce qui concerne l’intégrité référentielle qui existe entre les différents objets DICOM.

Une deuxième technique, complémentaire à la première, est l’anonymisation. L’anonymisation protège une image DICOM par la généralisation des données qu’elle contient. La généralisa-tion des données est une forme de modificagénéralisa-tion que peut subir un attribut d’une instance DI-COM. Deux modèles sont communément employés et ont fait leur preuve sur des ensembles de données statiques : il s’agit des modèle k-anonymat et -diversité. Le premier modèle stipule qu’un élément ne devrait pas se distinguer d’au moins k− 1 autres éléments dans l’ensemble de données par rapport à son quasi-identificateur de manière à garder la probabilité de réidenti-fication de l’information inférieure à1/k. Un quasi-identificateur étant un ensemble d’attributs considérés inoffensifs lorqu’ils sont pris individuellement, mais qui constituent une menace à la protection de la confidentialité du patient lorsqu’ils sont combinés entre eux. Le modèle -diversité vient compléter le premier modèle en stipulant qu’aucun élément de donnée ne devrait se distinguer de moins de −1 autres éléments par rapport à ses attributs sensibles de manière à garder la probabilité de réidentification inférieure à1/. Comme nous venons de le mentionner,