Objectif et contexte technique de l’étude

La réflexion qui a conduit à cette étude est la suivante : en raison de la richesse informationnelle des bases de données nationales anonymes du PMSI, il risque de devenir possible d’y ré-identifier un patient à condition de connaître de lui quelques traits caractéristiques, et d’accéder ainsi à son insu aux informations confidentielles afférentes à sa santé, contenues dans ces bases.

Les objectifs de cette étude sont donc de quantifier le pouvoir de ré-identification des patients dans les bases nationales du PMSI, et d’attirer sur le risque encouru l’attention des acteurs du PMSI, notamment institutionnels, de s’interroger sur ses causes et de proposer des pistes pour y remédier à l’avenir.

Depuis le début des années 1990, dans le cadre du programme de médicalisation des systèmes d’information (PMSI) les hôpitaux et les cliniques recueillent et codent au fil de l’eau un résumé de sortie standardisé (RSS) pour chaque séjour réalisé en secteur de médecine, chirurgie, obstétrique et odontologie (MCO). Ces établissements mettent en œuvre ensuite un logiciel national développé pour l’État par l’Agence technique de l’information sur l’hospitalisation (ATIH), qui classe chaque séjour dans l’un des groupes que compte la classification française des groupes homogènes de malades (GHM). Puis un dispositif d’anonymisation développé par l’ATIH transforme chaque RSS en un résumé de sortie anonymisé (RSA). Enfin un processus de centralisation des RSA comportant une seconde anonymisation transfère l’intégralité de ceux-ci dans les serveurs de l’ATIH, via une plateforme internet spécifique.

La fonction première de cette centralisation est le financement des établissements puisque le PMSI est devenu en 2005 le support de la tarification à l’activité (T2A). Le processus de ce calcul sort du cadre de notre étude. Notons simplement que la réalisation de cet objectif nécessite de disposer de l’intégralité des séjours et qu’en pratique la base nationale de données du PMSI est effectivement exhaustive : elle comporte un RSA pour chaque séjour en secteur MCO de quelque structure d’hospitalisation publique ou privée que ce soit.

Avec les deux anonymisations consécutives précédemment décrites, combinées à l’absence de table de correspondance entre les trois identifiants successifs (identifiant d’origine, identifiant anonyme de premier niveau et identifiant anonyme de second niveau), la base de données des RSA constituée à l’ATIH est réputée anonyme : quel que soit l’étage de la chaîne de production auquel on se place, il est impossible d’établir la correspondance entre l’identifiant administratif du séjour-patient contenu dans le RSS et l’identifiant anonyme du RSA enregistré dans la base nationale.

Partant donc du principe que cette base nationale de données est anonyme, la CNIL et les pouvoirs publics ont autorisé depuis la fin des années 1990 la diffusion de copies sur cédéroms : outre la fonction économique et budgétaire pour laquelle elle a été conçue, elle se révèle en effet être une mine d’informations exhaustive et d’excellente qualité pour tous les chercheurs – au sens large – qui consacrent leurs travaux à l’offre de soins, à la santé publique, et à l’épidémiologie hospitalières.

Car si le RSS de 1985 ne comptait en tout et pour tout que 22 informations, il s’est tellement enrichi que le RSA de 2008 en compte 72 dans sa partie fixe, et jusqu’à un maximum de 100 677 dans sa partie variable. Chacune des trois catégories d’informations qu’il véhicule s’est en effet accrue pour comporter désormais :

■ au titre des informations administratives : l’identifiant de l’établissement, le numéro d’ordre du RSA, le sexe du patient, son âge, la durée de son séjour, le mois de sa sortie, son mode d’entrée et sa provenance, son mode de sortie et sa destination, le nombre de services fréquentés pendant son séjour, la durée de son séjour dans chacun d’entre eux, son code géographique de résidence ;

■ au titre des informations médicales : d’une part la liste des diagnostics pris en charge lors du séjour (un au minimum et 101 au maximum), d’autre part celle des actes médicaux et chirurgicaux réalisés au cours de celui-ci (9 999 au maximum) ainsi que le délai écoulé entre la date d’entrée et la réalisation de chacun d’eux, et enfin quelques informations diverses : nombre de séances, poids de naissance et âge gestationnel pour les nouveau-nés, score de gravité simplifié utilisé en réanimation, qualification médicale de chaque service fréquenté au cours du séjour ;

■ au titre des informations dites médico-économiques :

>>>> le résultat de l’algorithme de classement national des séjours MCO (dit « fonction groupage MCO ») qui se compose de

deux éléments : la catégorie majeure de diagnostic (CMD) et le groupe homogène de malades (GHM). Pour mémoire, la classification complète comporte près de 3 000 GHM distincts répartis en 28 CMD ;

>>>> le groupe homogène de séjour (GHS), groupe tarifaire correspondant au GHM ;

>>>> le nombre de journées ouvrant droit à un supplément ;

>>>> un renseignement déterminant un éventuel abattement du tarif ;

>>>> une série de 24 renseignements ouvrant éventuellement droit au versement de suppléments ;

>>>> la valorisation partielle de chaque service fréquenté au cours du séjour ;

L’anonymisation du RSA consiste à remplacer l’identifiant individuel du RSS par une clef cryptée, dite parfois numéro d’anonymat. C’est un logiciel fourni par l’ATIH qui s’en charge. Cette clef est le résultat d’un algorithme non réversible, qui a les caractéristiques d’une application injective au sens mathématique du terme : d’une part pour un patient déterminé cette clef est la même quels que soient les établissements d’hospitalisation public ou privé qui l’ont pris en charge et quelles que soient les dates de ses séjours (autrement dit, tous les séjours hospitaliers d’un patient sont identifiés par une clef unique), d’autre part cette clef est distincte pour deux patients distincts.

En pratique la clef n’est pas enregistrée dans le RSA lui-même, mais dans un fichier dit « de chaînage » qui établit la correspondance entre le numéro d’ordre de chaque RSA dans la base nationale et la clef de chaînage (voir figure n°1).

Outre la clef de chaînage, le fichier de chaînage comporte une information essentielle mais non documentée que nous nommons « index chronologique », destinée à ordonner les séjours multiples d’un même patient, soit pour étudier les parcours de soins, soit pour détecter les recouvrements de séjours, involontaires ou non (erreurs de saisie de dates, fraude). Cette information représente le nombre de jours écoulés entre une date de référence propre à chaque patient (date fictive, dérivée de sa clef de chaînage) et la date d’entrée du séjour mentionnée dans le RSS. Par soustraction elle permet donc de calculer le délai écoulé entre deux hospitalisations d’un patient, sans toutefois permettre de dater précisément chaque séjour, ni de calculer un délai entre les séjours de patients distincts puisque leurs dates de référence sont distinctes (voir figure n°2).

FIGURE N°1

Principe de transformation du RSS en RSA (anonymisation) Principe de transformation du RSS en RSA (anonymisation)

FIGURE N°2

L’index chronologique et son utilisation

Dans le document Dossier de la DREES n°64 de juillet 2015 relatif aux « Données de santé : anonymat et risque de ré-identification » - APHP DAJDP (Page 77-80)