DES BIG DATA EN SANTÉ
JÉRÔME BÉRANGER
Devant le développement constant de l’e-santé, de la télémédecine, des m- Health et des big data médicaux, des changements juridiques qui s’accélèrent, des ruptures économiques qui s’amplifient, on assiste à une remise en question des principes et des règles éthiques qui entourent la relation médecin-patient.
Dès lors, la manipulation et l’utilisation de l’information médicale se trouvent en perpétuelle équilibre entre le secret médical et la transparence où les questionnements éthiques et juridiques prennent tout leur sens. Autant d’interrogations qui caractérisent une certaine angoisse et perte de confiance des acteurs de la santé notamment pour la gestion et l’usage des big data. Tout cela entraîne un sentiment global profondément déstabilisant.
Dans ce contexte, une évaluation éthique des données médicales à caractère personnel apparaît comme fondamentale pour contrôler leurs usages. Cela nécessite d’en connaître la valeur informative ou intrinsèque, de gestion et d’exploitation.
1. Introduction
Aujourd’hui, la médecine moderne est devenue presque inconcevable sans l’utilisation des données personnelles numérisées. L’émergence des nouvelles technologies de l’information et de la communication (NTIC) telles que la e- santé, la télémédecine, la m-Health ou des outils de traitement des big data modifient la prestation de santé, la relation médecin-patient, et la compréhension scientifique du corps humain et des maladies. L’exploitation des données personnelles est un sujet sensible, du fait que ces dernières touchent directement
à l’intimité de chaque individu. Les situations dans lesquelles se posent de difficiles problèmes de choix stratégiques en matière de gestion de la donnée personnelle sont chaque jour plus nombreuses. Dans ce contexte, l’interaction de la société avec les NTIC représente un système instable, voire précaire.
La numérisation croissante des données médicales, la capacité sans cesse accrue à stocker des données numériques, l’accumulation d’informations en tous genres qui en découle, contribuent alors à apporter certaines craintes et incertitudes en raison de ses usages multiples (voire complexes), de ses impacts difficilement mesurables touchant des populations très différentes, et de son information parfois hors de contrôle. C’est pourquoi, il devient nécessaire de mieux connaître et comprendre l’usage des NTIC dans le secteur médical afin de protéger la vie privée de chaque citoyen.
Dans ces conditions, il devient fondamental d’établir une réflexion sur la donnée de santé à caractère personnel via un prisme éthique afin de soulever le doute et de maîtriser les incertitudes entourant les dispositifs et les usages de la donnée médicale dans ce nouvel écosystème dématérialisé.
Enfin, nous souhaitons apporter un certain équilibre et une harmonie entre les intentions humaines et la finalité des outils technologiques associés aux big data. L’enjeu est de renforcer le sens de nos actions afin que le lecteur puisse prendre conscience, voire valider, les premières orientations d’une intégration saine et maîtrisée des « données massives » à l’écosystème de la médecine.
2. La valorisation de la donnée personnelle de santé
Il n’y a pas à proprement parler de définition des « données de santé ». La donnée de santé n’est définie dans aucun texte et il faut admettre qu’elle est un peu plus difficile à cerner que la « donnée personnelle sur l’origine ethnique » par exemple. En effet, il existe plusieurs types de données de santé :
– données personnelles sur les citoyens/patients ;
– données agrégées, statistiques épidémiologiques etc. qui résultent toujours de traitements de données individuelles collectées pour la gestion ou pour des enquêtes et études spéciales ;
– données sur l’offre – caractéristiques et activité des hôpitaux, tarifs de professionnels etc. Celles-ci approchent une autre problématique, fréquente pour les données publiques : la protection de l’information sur l’entreprise (Béranger et Bouadi, 2014).
Ici, seul le premier type de donnée de santé nous intéresse : les données personnelles sur les citoyens/patients. En effet, ces données de santé relèvent
de l’intimité de la personne et de sa vie privée. Elles relèvent donc du droit commun pour la protection des données à caractère personnel et sont régies par la loi du 6 janvier 1978. Ces données sont soumises au contrôle de la CNIL et font l’objet d’une protection particulière.
Au préalable, il convient de porter le regard sur la définition de ces données.
La notion de « données à caractère personnel » est définie à l’alinéa 2 de l’art. 2 de la loi Informatique et Libertés :
Constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres.
On observe ainsi une définition extensive de la notion de données à caractère personnel. Notons que le caractère direct ou indirect de l’identification ne modifie pas la nature juridique de la donnée. Aussi, il convient d’observer la définition légale de la notion de « traitement de données » qui se trouve à l’alinéa 3 de l’art. 2 de la loi Informatique et Libertés :
Constitue un traitement de données à caractère personnel toute opération ou tout ensemble d’opérations portant sur de telles données, quel que soit le procédé utilisé, et notamment la collecte, l’enregistrement, l’organisation, la conservation, l’adaptation ou la modification, l’extraction, la consultation, l’utilisation, la communication par transmission, diffusion ou toute autre forme de mise à disposition, le rapprochement ou l’interconnexion, ainsi que le verrouillage, l’effacement ou la destruction.
Par ailleurs, l’apparition des big data a permis l’émergence d’un gouvernement algorithmique alimenté essentiellement par des données brutes, des signaux extra et infra-personnels mais quantifiables, fonctionnant par configuration anticipative du possible plutôt que par normes de bonnes conduites, et ne s’adressant aux personnes uniquement par dispositifs d’alerte indépendamment de la volonté humaine. À partir de ce constat, nos réflexions se sont très vite orientées sur l’élaboration et la mise en place d’une modélisation adaptée pour analyser, comprendre et traiter ces grandes quantités de données complexes.
L’individu perçoit des « données », interprète des « informations », fait des liens avec d’autres « connaissances » mémorisées et est ensuite capable d’agir avec ses « connaissances », il acquiert ainsi des compétences qu’il est capable de mettre en œuvre ensuite de manière répétée traduisant une « sagesse pratique » (Ricœur, 1990). De ce fait, cette approche à la fois épistémologique et éthique fait partie du modèle fondamental pour comprendre la dimension humaine de l’usage des technologies de l’information et de la communication (TIC). C’est pourquoi, à l’heure de l’explosion des volumes, de l’avènement du big data, de
l’e-santé et des m-Health, la hiérarchisation et la sélection des données médicales apparaît comme fondamentale pour contrôler leurs usages. Cela nécessite d’en connaître la valeur informative et d’exploitation.
La mesure de la donnée à caractère personnel demande en prérequis d’établir une réflexion sur la valeur intrinsèque de ces dernières afin de pouvoir les évaluer. Pourquoi et comment évaluer ? Pour quoi faire, dans quel but et avec quels objectifs ? Comment évaluer la valeur d’une donnée, selon quels critères ? Que doit-on évaluer ? (Simonnot, 2007).
Dès lors, la valeur d’une donnée se définit dans le contexte de l’action et vient du sens qu’on arrive à en tirer, en termes de prédictibilité ou de corrélation. Il est alors possible d’apporter de la cohérence aux données personnelles en la rattachant à leur cause commune : le comportement de la personne. Ainsi, on peut non seulement étudier le comportement d’un individu à travers les traces numériques qu’il propage, mais également, in fine, reconstituer l’ADN de son identité numérique.
Par ailleurs, si cette valeur peut se juger bien évidemment sous l’angle du contenu, elle peut l’être également sous l’angle de la redondance, de la diversité et de la quantité. La valeur de la donnée est définie par son utilisation et non par sa nature ainsi que par le service rendu pour son utilisateur. Elle est proportionnelle à la connaissance intégrée et se détermine par le niveau de partage, la qualité et la quantité des échanges donnés. Après avoir estimé et déterminer la valeur d’une donnée, son évaluation devient possible. Évaluer une information, c’est également déterminer la stratégie de sa diffusion. Donner accès à la bonne information au bon moment, faire une transmission sélective de l’information en fonction des centres d’intérêt et des besoins des utilisateurs afin de lutter contre la désinformation, la surabondance et la déviance informationnelle.
En éthique, le terme de « valeur » est de l’ordre du devoir-être. C’est un étalon de mesure qui permet de jauger les faits. Il indique des idéaux à poursuivre. Ce mot a une connotation générale et dynamique ; il a d’abord une évocation philosophique avant d’avoir une retombée éthique. Un des fondements de l’éthique est cette impérativité à faire appel à la rationalité des acteurs. Cette idée passe nécessairement par une entente dans la coordination et l’échange entre les protagonistes. Chaque personne contribue à la recherche d’une intercompréhension de la situation à analyser. Cela présuppose une certaine solidarité entre les interlocuteurs qui partagent une même finalité.
Notre étude transdisciplinaire invite à une critique épistémologique portant principalement sur des « connaissances-processus » qui intègrent les pensées néo-platoniciennes du « faire pour comprendre et comprendre pour faire » de
Léonard de Vinci (Valéry, 1941 ; 1948). Dans ce contexte, la donnée personnelle devient le principal objet de l’action morale. Il revient de mesurer la valeur d’exploitation, intrinsèque, puis de gestion de celle-ci.
2.1. Valeur d’exploitation de la donnée
La valeur d’exploitation des données peut s’illustrer par le processus informationnel employé par l’utilisateur d’information. Cette valeur d’utilisation doit tendre vers une info-éthique générée par une modélisation éthique systémique néo-platonicienne (Ψ, G, Φ).
La modélisation systémique permet de développer des méthodes pertinentes de décisions et de légitimations en prenant en compte les enjeux éthiques sous- jacents à l’évènement étudié. Dans ces conditions, modéliser nous permet de mieux comprendre nos expériences des relations que nous avons au monde, en d’autres termes de « transformer nos expériences en sciences avec conscience » selon Léonard de Vinci. Cela passe par la prise en compte d’interactions à la fois relationnelles et cognitives avec, d’une part, la méthodologie employée pour « apprendre comment faire » et, d’autre part, la téléologie destinée à
« comprendre pour quoi faire ». Dès lors, une amélioration des outils de pensée entraîne nécessairement une amélioration de la prise de décisions.
Cette modélisation intègre trois paramètres : l’environnement du réel1 (Φ : Phi2), l’infosphère3 (G : Gnose4) et la pensée éthique5 (Ψ : Psi 6). (Voir schéma 1).
1. L’environnement du réel est une dimension propice : au repérage (identification, localisation, estimation, caractérisation, cartographie et hiérarchie) et à la préservation (acquisition, formalisation et conservation). L’environnement d’un SI se compose de quatre plans distincts : structurel et technologique, stratégique et méthodologique, organisationnel et réglementaire, et relationnel et culturel.
2. Cette lettre grecque détermine le chiffre d’or mesurant 1,618. Depuis l’Antiquité, ce symbole représente la proportion harmonieuse divine qui constitue la base des structures dans l’architecture, l’art, l’anatomie, la musique et la littérature, c’est-à-dire les aspects concrets et pratiques de la science et des arts.
3. Ce mot est inventé par Dan Simmons (1989) dans son roman de science-fiction intitulé Hypérion. Par la suite, ce terme a été repris par Floridi (1998) désignant l’environnement où se développe l’information. Cette infosphère amène à des actions telles que : l’actualisation (évaluation, mise à jour, enrichissement) et la valorisation (accès, diffusion, partage, exploitation et combinaison).
4. Le terme gnose signifie « connaissance » en latin.
5. Cela fait référence aux quatre principes éthiques universels : bienfaisance, autonomie, non-malfaisance et justice.
Schéma 1. Hiérarchisation sélective des données via la modélisation systémique néo-platonicienne (Ψ, G, Φ)
Notons que G et Φ appartiennent à un ensemble objectif dit de « rationalité informationnelle », alors que Ψ provient d’un ensemble subjectif dit de
« rationalité cognitive » (Fransman, 1994 ; Roth, 2004).
Ce dispositif informationnel aboutit à la création d’une info-éthique via la hiérarchisation sélective des données de santé à caractère personnel. Ce passage de la donnée à l’info-éthique résulte d’un mécanisme d’interprétation des données par une personne ou une organisation qui va conduire à ajouter du sens à une donnée. Pour cela, la personne doit au préalable reconnaître la valeur de la donnée médicale personnelle afin de pouvoir l’acquérir et l’assimiler avant de pouvoir la transformer en une information pertinente et cohérente. Ce modèle éthique contribue à faire diminuer l’entropie (degré de désordre) d’une donnée afin que cette dernière soit utilisée de manière optimale par les producteurs et/ou fournisseurs d’information.
6. Cette lettre grecque est souvent utilisée pour désigner la psychologie, la psychiatrie et la psychothérapie, globalement les sciences de la pensée humaine. Ce symbole signifie âme, psyché.
Cette recherche de l’info-éthique contribue à tendre vers une entropie (S : degré de désordre)7 très basse, c’est-à-dire un degré de désordre quasiment nul.
Ce processus de légitimation éthique des connaissances de l’infosphère (ou datasphère) associé au pragmatisme de l’environnement du réel, nous permet de simplifier nos savoirs en l’abordant à la fois d’une manière statique par son environnement et dynamique via ses interactions. Pour Edgar Morin (2004), l’éthique est inséparable de la connaissance complexe8 : « une connaissance qui relie, qui s’exprime et qui se construit, dès lors qu’on se veut citoyen responsable ou solidaire ».
Enfin, cette modélisation éthique (Ψ, G, Φ) peut être assimilé à de l’Ethical Data Mining mettant en œuvre des algorithmes qui ont pour vocation de faire émerger de nouvelles informations dites « info-éthiques » grâce à l’analyse d’une quantité importante de données. La réduction de la quantité de l’information est au cœur d’un dilemme éthique. Faut-il ou non perdre volontairement de l’information afin de réguler et rendre fonctionnelle cette information (info- éthique) ? Cette vision éthique démontre qu’une sélection des données de santé à caractère personnel possède une action positive pour le principe de :
– bienfaisance9 : une diffusion appropriée de la connaissance médicale envers l’utilisateur de système d’information (SI), notamment pour les professionnels de santé et les patients, constitue un bien-fondé et une légitimité d’action. La communication médicale et donc la prise en charge des soins deviennent plus efficients ;
– autonomie10 : une information préalable (claire, précise, adaptée et compréhensible) garantit le consentement éclairé de la personne. Ce dernier agit librement en disposant d’une capacité de délibérer, de décider et d’agir. Il réalise un acte autonome : intentionnel, volontaire et indépendant avec compréhension et sans influence extérieure de contrôle ;
7. Le mot « entropie » a été introduit par Clausius et est dérivé d’un mot grec signifiant transformation. Il représente toujours la complexité et donc le désordre possible d’un système, d’une structure ou d’une organisation.
8. Edgar Morin (1991) emploie le terme d’ « auto-éthique » afin de désigner la nécessité de « complexifier le jugement » dans l’action. Le mot « auto » signifie pour l’auteur :
« l’autonomie fondamentale » (autos).
9. Elle contribue au bien-être d’autrui. Elle doit répondre à deux règles bien précises : l’action entreprise doit être bénéfique et utile, c'est-à-dire avoir un rapport coût- bénéfice positif.
10. Elle désigne le fait qu’une personne se donne à elle-même sa règle de conduite, puisque les termes grecs autos et nomos signifient respectivement « soi-même » et « la loi, la règle ». Ce principe a pour vocation de faire participer le patient au processus décisionnel.
– non-malfaisance11 : l’accès limité aux données médicales personnelles selon le profil et la nature de l’utilisateur améliore donc la sécurité, la confidentialité et la protection de ces données.
Toutefois, ce dispositif sélectif des données de santé à caractère personnel produit une répercussion négative sur le principe de justice12, du fait que l’information médicale transmise n’est pas la même suivant l’utilisateur de la base de données. Un tel système impose des règles d’attribution et d’accès à l’information différente (et donc non égales) selon la nature et le profil de la personne. Cela traduit d’une certaine manière une discrimination des individus et une hiérarchisation des données médicales entraînant une dissymétrie de connaissances médicales, qui remet en cause la transparence de l’information médicale. Enfin, on peut redouter que l’organisation des données via cette hiérarchisation entraîne une vision trop partielle de l’état de santé du patient et une moins bonne intégrité de la donnée personnelle. De ce fait, la hiérarchisation des données aboutit à une plus grande simplification d’un point de vue des utilisateurs (professionnels de santé et patients) pour sa pratique des soins, mais également une plus grande complexité technique pour les producteurs et/ou fournisseurs d’information en termes de processus et de modalité.
Par ailleurs, dans son livre Computer Ethics, Johnson (1985) suggère que les codes éthiques professionnels devraient être examinés au travers de quatre grands types d’obligations, à savoir à l’égard de : la société, l’employeur, clients et des collègues et autres organisations professionnelles. À cela, nous avons associé deux autres niveaux d’action, à savoir :
– un rappel aux quatre principes de la bioéthique de Beauchamp et Childress (2001), à savoir le principe de : bienfaisance, autonomie, non-malfaisance, et justice qui doivent encadrer les données personnelles afin d’éviter les imprudences, les manques de clairvoyance ou les négligences ;
– une référence à laquelle il faut se reporter afin de clarifier les enjeux et les devoirs du citoyen et des professionnels de la donnée médicale personnelle.
11. Elle a pour objectif d’éviter le mal à celui dont on a la responsabilité (le patient) et de lui épargner des préjudices ou des souffrances qui n’auraient pas de sens pour lui. Sa finalité implique que l’on fasse du bien et que l’on s’abstienne de nuire. Ce principe apparaît dans la maxime hippocratique primum non nocere (« D’abord ne pas nuire), dont la conséquence est de faire du bien aux patients et de les écarter du mal et de l’injustice.
12. Elle a pour vocation de partager entre tous les patients les ressources disponibles (en temps, en argent, et en énergie). Ce principe est étroitement lié aux notions d’égalité et d’équité qui interviennent directement dans le processus d’une décision de justice.
Idéalement, toute action devrait tendre vers une égalité parfaite, mais selon les circonstances et la nature des personnes, l’équité s’impose souvent afin d’établir des priorités et une certaine hiérarchie dans les actes à réaliser.
Afin d’étudier la valeur d’utilisation des big data, nous appuyons nos réflexions à partir d’une vision éthique13. Notre approche correspond à une réflexion sur les habitudes qu’il faut contracter pour rendre un espace
« habitable ». Elle apporte un questionnement sur les valeurs qui sous-tendent l’action, propice à un conflit de valeurs dans un monde des idées. Elle « trouve naturellement sa source de réflexion dans l’action » (Hervé, 1997). Elle est là pour donner du sens à une action. L’éthique est une disposition individuelle à agir selon les vertus dans une situation donnée afin de rechercher la bonne décision. Elle n’a de sens que dans une situation propre dans laquelle elle admet l’argumentation, la discussion et les paradoxes. Tout cela place la responsabilité au centre de l’éthique, y compris les horizons d’espace et de temps qui correspondent à ceux des principes éthiques.
Une telle approche nous amène à nous poser toute une série de questions avant de mettre en application l’utilisation de ces données : quels sont les objectifs, les buts, les enjeux et le sens de cet usage ? Que vais-je utiliser comme données ? Des données partielles ou totales ? Comment vais-je l’utiliser ? À quel endroit ? Auprès de quels utilisateurs ? Plus globalement, comment exploiter l’ensemble hétérogène de ces données médicales accumulées et stockées dans un SI ? Quelle sera sa pertinence par rapport à ma situation ? Cela ne va-t-il pas dénaturer la valeur informative initiale ? L’intégrité de message final sera-t-elle conservée ? Cela rentre-t-il dans le cadre d’un meilleur usage des données personnelles, une communication médicale optimisée et d’une amélioration de la prise en charge des soins vis-à-vis du patient ?
Ainsi, en nous appuyant sur de nombreuses enquêtes terrain, des interviews ciblées auprès d’une centaine d’acteurs (directeurs de système d’information, éditeurs de SI, responsables d’établissement de santé, professionnels de santé, associations de malade, usagers de santé, institutions publiques, etc.), ainsi que sur une recherche bibliographique sur le sujet, nous avons pu élaborer un modèle qui se compose de 26 justifications représentant les principaux objectifs qui doivent entourer la conception, l’établissement et l’utilisation des données de santé à caractère personnel. Ces 26 recommandations intègrent les quatre principes éthiques universels qui sont rattachés à des valeurs sociales. Parmi ces actions, 9 sont associées au principe de bienfaisance, 6 respectivement au principe de justice et de non-malfaisance, et 5 au principe d’autonomie. On peut également classer ces items en fonction de la nature des valeurs sociales associées suivantes : (voir tableau 1).
13. Le mot « éthique » prend son origine dans le terme grecque ethos signifiant « les mœurs » (Cicéron), « les habitudes » (Platon et Aristote).
Tableau 1. Liste des objectifs éthiques sur la conception, la mise en place et l’utilisation des données de santé à caractère personnel
Justifications entourant les données personnelles en santé
Principes fondamentaux
éthiques
Valeurs sociales associées
Obligations à l’égard de 1 : Aider à la prise de décision
médicale établie par le professionnel de santé (PS)
Bienfaisance
2 : Promouvoir la qualité, l’organisation, la gestion et la planification des prises en charge du patient
Sollicitude envers son prochain
Collègues, organisation
profession
3 : Œuvrer pour le bien du patient Patients
4 : Partager une information transparente et accessible entre le
malade et le PS
Collègues, organisation
profession 5 : S’assurer de la qualité et du choix
de l’information transmise au patient Préservation
du lien social Patients
6 : Améliorer la continuité des soins
Collègues, organisation
profession 7 : Aider le ministère de la santé à
répondre aux attentes et à la prise des
soins pour l’usager de santé Patients
8 : Instaurer auprès du malade une légitimité du droit et du traitement
d’information Responsabilité
9 : Etablir un devoir de sécurité, d’intégrité, de traçabilité et de
protection des données médicales
Institutions juridiques et réglementaires 10 : Evaluer les performances et cerner
les domaines où l’action s’impose en listant les points de
dysfonctionnement Efficacité Collègues,
organisation profession 11 : Permettre une analyse
épidémiologique ou statistique (SAE) Société
12 : Améliorer et renforcer l’interactivité avec les acteurs
extérieurs à la structure de soins Préservation du lien social
Collègues, organisation
profession
13 : Renforcer la disponibilité des PS Justice
Justifications entourant les données personnelles en santé
Principes fondamentaux
éthiques
Valeurs sociales associées
Obligations à l’égard de 14 : Répartir de manière équitable des
inconvénients et des avantages d’un
tel outil dans la charge de travail du PS Justice sociale Collègues, organisation
profession 15 : Elaborer et partager une
information précise et adaptée à toute
la population Universalité Société
16 : Suivre la réglementation
législative des données médicales Universalité
17 : Respecter les règles de stockage, d’hébergement et de diffusion
instaurées par la CNIL
Institutions juridiques et réglementaires 18 : Minimiser ou éliminer des torts
faits aux patients du fait d’une mauvaise information
malfaisance Non‐
19 : Réduire les risques inutiles ou mal
calculés Précaution Patients
20 : Assurer la fiabilité du recueil de
données médicales et sa permanence
21 : S’assurer de la pertinence technique et du bien‐fondé humain de
l’outil Société
22 : Replacer le patient au centre de la décision en lui apportant une
information médicale plus complète et
rapide : Meilleur autonomie du patient Préservation
du lien social 23 : Respecter la vie privée et du droit
au secret médical et à la
confidentialité Patients
24 : Adapter une technologie aux
connaissances et au savoir‐faire du PS Autonomie Sollicitude envers son prochain
Collègues, organisation
profession 25 : S’assurer du consentement et de
l’adhésion du propriétaire de la
donnée Responsabilité
26 : Respecter le droit à l’information préalable, de rectification et d’opposition décris auprès du propriétaire de la donnée
Patient
7 appartiennent à la « Préservation du lien social » ; 2 appartiennent à l’« Efficacité » ;
4 appartiennent à la « Sollicitude envers son prochain » ; 4 appartiennent à la « Précaution » ;
3 appartiennent à l’« Universalité » ; 5 appartiennent à la « Responsabilité » ; 1 appartient à la « Justice sociale ».
À partir de cela, nous avons pu établir notre propre découpage de nos critères éthiques sur la conception, la mise en place et l’usage des données de santé à caractère personnel. (tableau 1). Ainsi, nous avons classé ces indicateurs éthiques selon deux versants :
– « Sociéto-humain » constitué les obligations à l’égard de la société, et des patients.
– « Médico-juridique » composé les obligations à l’égard des collègues, de l’organisation, de la profession, et des institutions juridiques.
2.2. Valeur intrinsèque de la donnée
Par définition, la valeur intrinsèque d’une chose qualifie la valeur de cette chose en elle-même, qu’elle permette ou non de satisfaire des besoins et préférences personnels. Dès lors, cela revient se recentrer sur l’aspect qualitatif de la donnée personnelle. La qualité ne constitue pas une notion objective unique. On peut la définir, lorsqu’on considère les choses au plan le plus global, comme le facteur qui va entraîner la satisfaction de l’usager de soins quant au produit ou au service consommé, en fonction des attentes, des besoins, ou des souhaits qui varient naturellement d’un type à l’autre de produit ou service, mais aussi d’une personne à une autre et, chez la même personne, éventuellement d’une circonstance à une autre.
En ce qui concerne les données médicales, la qualité désigne le fait que, lors de leurs traitements, de leurs conservations ou de leurs diffusions, les données n’ont subi aucune altération, destruction volontaire ou accidentelle et conservent un format permettant leur usage. Autrement dit, la qualité se définit comme l’assurance que le contenu de l’information n’a pas été modifié au cours de sa transmission14. Elle conditionne la réalité du consentement libre et éclairé du patient vis-à-vis du professionnel de santé.
14. Par exemple, suite à un transfert via un réseau.
Face à l’immense production quotidienne d’information, il convient de recenser les données qui demandent à être conservées et susceptibles d’être exploitées. Il semble nécessaire de retenir l’essentiel. Les données que l’on a retenues demandent non seulement à être stockées, mais également accessibles et rafraîchies à intervalles réguliers. Enfin, il est indispensable de les faire migrer de supports en supports, au rythme des évolutions technologiques. Il convient donc d’instituer des archives numériques, avec des règles claires et appropriées à un domaine en perpétuelle mutation. Idéalement, le particulier doit pouvoir déterminer lui-même ce qu’il souhaite conserver, apportant de ce fait une solution distribuée au problème du choix des données conservées.
Afin de prendre des décisions sages et des choix raisonnables au sujet de la santé, le grand public comme le professionnel de santé a besoin et a le droit d’attendre des SI hospitaliers qu’ils fournissent de l’information précise, à jour, facile à comprendre, ainsi que des produits et des services de haute qualité.
C’est pourquoi, la qualité d’une information médicale peut se caractériser en cinq éléments et critères bien déterminés qui sont : l’intégrité, l’exactitude, la précision, la validité et l’authenticité.
Par ailleurs, afin d’évaluer la qualité de la donnée, il nous semble indispensable de commencer par traduire les objectifs de la qualité en indicateurs mesurables. Un système complet de contrôle de la qualité utilise différents types d’indicateurs dont chacun mesure un aspect différent de la qualité et dégage une information complémentaire. Il existe diverses manières de conceptualiser et de définir les indicateurs. Par définition un indicateur est une information devant aider un acteur à conduire le cours d’une action vers l’atteinte d’un objectif ou devant lui permettre d’en évaluer le résultat. Parmi de nombreuses définitions, l’indicateur de qualité doit posséder certaines propriétés qui peuvent être réparties selon cinq famille de caractère, à savoir : la pertinence, l’opérationnel, le consolidable, le nominal, et le relationnel. (voir tableau 2) (Ponçon, 2009).
Pour Gilles Duhamel15, l’information délivrée aux patients contrairement à la communication, se doit d’être à la fois : objective, adaptée au patient, fondée sur des preuves scientifiques, actualisée, fiable, compréhensible, accessible, transparente (avec une source précise), pertinente, et en accord avec la législation. La donnée doit avoir une pertinence opérationnelle, une pertinence stratégique et une efficacité cognitive au niveau des connaissances qu’elle apporte. Elle permet de catégoriser, calculer, collecter, mesurer et recueillir l’information.
15. Inspecteur général des affaires sociales (IGAS) en France.
Tableau 2. Propriétés d’un indicateur de qualité
Caractère de
pertinence Caractère
opérationnel Caractère
consolidable Caractère
nominal Caractère relationnel Fidèle Facile à établir
(simplicité) Quantifiable N’est jamais
unique Reconnu / Acceptable Juste et stable Facile à utiliser Cumulable En nombre
limité
Motivant / Fédérateur / Mobilisateur Précis et sensible Communicant
Utile Utile à la
prévention
Tableau 3. Critères sur la qualité de la donnée dans l’infosphère
INFOSPHÈRE
Domaine d’étude Stratégique et méthodologique Structurel et technologique
27 : Applicabilité 49 : Cohérence / Sens
Epistémologie 28 : Richesse 50 : Exactitude
29 : Adaptabilité 51 : Intégrité
30 : Ordonné 52 : Exhaustivité
31 : Flexibilité 53 : Authenticité
Donnée/Information 32 : Evolution 54 : Fiabilité
33 : Performance 55 : Robustesse
34 : Réutilisabilité 56 : Légitimité
35 : Pragmatique 57 : Nominal / Base de
données
36 : Consolidation
37 : Fonctionnalité/Opérationnalité
Domaine d’étude Organisationnel et réglementaire Relationnel et culturel
38 : Pertinence 58 : Sécurité
Epistémologie 39 : Stabilité / Continuité 59 : Confidentialité
40 : Assurance 60 : Fédération
41 : Pluridisciplinarité 61 : Diffusion 42 : Systématicité 62 : Accessibilité Donnée/Information 43 : Référence 63 : Convivialité
44 : Normativité 64 : Universalité
45 : Maintenabilité 65 : Disponibilité
46 : Réglementation 66 : Coopération
47 : Auditabilité
48 : Coordination
Tableau 4. Questions sur la gestion de la donnée dans l’infosphère
INFOSPHÈRE
Pilotage
67. Existe‐t‐il une politique et stratégie de gestion de ces données de santé ? 68. Les responsabilités et missions de chaque acteur sont‐ils clairement définis en matière de gestion de données de santé ?
69. Une organisation dédiée spécifiquement au pilotage des données de santé est‐
elle mise en place ?
70. Un management prospectif des compétences requises auprès des utilisateurs des données de santé est‐il en place ?
71. Existe‐t‐il une gestion spécifique et développée des données de santé de référence ?
Mise en forme
72. Une catégorisation et hiérarchisation par importance des données de santé ont été réalisées ?
73. Les données de santé dites « essentielles » ont‐elles été modélisées ? 74. Un dispositif de partage des données de santé est‐il en place ? 75. Existe‐t‐il un répertoire des données essentielles de santé ?
76. Les flux et les localisations des données de santé sont‐ils cartographiés ?
Cycle de développement 77. Une même donnée de santé est‐elle collectée une seule fois ?
78. Les données de santé non‐structurées sont‐elles stockées de manière organisée ? 79. Existe‐t‐il un dispositif d’identification des sources de données de santé non‐
structurées utiles ?
80. Une politique de suivis du cycle de vie des données de santé est‐elle mise en place ?
81. Toutes les données de santé collectées ont‐elles fait l’objet d’un contrôle spécifique ?
82. Toutes les données de santé qui ont été transformées ont‐elles subis un contrôle ? 83. Les dysfonctionnements sur la qualité des données de santé sont‐ils gérés jusqu’à leurs corrections ?
84. Une démarche de reporting des données de santé est‐elle présente ?
Opérations
85. Existe‐t‐il des systèmes de préparation des données de santé afin de construire des ensembles de données cohérents ?
86. Un dispositif de traitement et d’exploration des données de santé est‐il mis en place ?
87. Les bases de données sont‐elles administrées ?
88. Les modules d’accès aux bases de données sont‐ils développés ?(connecteurs, web services, APIs, etc.)
89. Des applications de big data sont‐elles mise en place ?
90. Les données de santé sont‐elles archivées, potentiellement répliquées, et font‐
elles l’objet de sauvegardes?
91. Existe‐t‐il un contrôle de la démarche Qualité des sauvegardes des données de santé ?
92. Les données de santé sont‐elles restaurées sur demande ?
93. Des tests de continuité d’activité autour des données de santé sont‐ils opérés régulièrement ?
Ainsi, la donnée permet d’éclairer les différents types de décision axés sur : la stratégie et la méthodologie, la structure et la technologie, l’organisation et le réglementaire, et la relation et la culture. Dans ces conditions, cette liste non exhaustive des critères sur la qualité de la donnée est nécessaire afin que les utilisateurs de cette information puissent se faire leur propre opinion et avis.
(Voir tableau 3).
Dès lors, les individus doivent pouvoir juger par eux-mêmes de la qualité de la donnée de santé qu’ils ont en leur possession dans l’infosphère numérique qui les entoure. Enfin, nous pouvons également faire un benchmark des données en évaluant leur degré de digitalisation, multiplicité des sources, variété de format, volume des données, et intimité. Après avoir identifié et caractérisé la valeur intrinsèque de la donnée, il est indispensable d’analyser la valeur de gestion de cette dernière sous un angle éthique.
2.3. Valeur de gestion de la donnée
Il nous faut mesurer la valeur de gestion (de mise en place) des données de santé afin de pouvoir les appréhender et les maîtriser. Pour cela, nous avons répertorié dans notre infosphère quatre catégories de questions qui composent cette gestion de la donnée : le pilotage, la mise en forme, le cycle de développement, et les opérations. (Voir tableau 4).
L’établissement de cette liste de questions sur la valeur de gestion des données de santé a été en partie construit à partir des différents groupes de travail et interviews d’acteurs du terrain, réalisés par le CIGREF (réseau de grandes entreprises) qui a pour mission de « promouvoir la culture numérique comme source d’innovation et de performance ».
3. L’outil d’évaluation de la valeur éthique des données de santé à caractère personnel
Quelle approche éthique est la mieux adaptée pour outiller les professionnels et les décideurs de santé afin de créer des environnements sains ou des stratégies de modifications comportementales autour des SI ? L’évolution de la technologie et des mentalités a-t-elle abandonné certaines valeurs, règles et principes humains devant l’importance grandissante de l’information médicale ? D’une manière générale, le concept de secret médical a-t-il encore son bien-fondé et son sens face à l’émergence du big data ?
C’est sur cette base de questionnements que nous avons cherché à poser les jalons d’une éthique propre au big data de la e-santé ; une médecine personnalisée
2.0 fondée sur une modélisation d’analyse éthique16 et une amélioration des performances via la meilleure diffusion du savoir-faire du professionnel de santé.
À partir de ce guidage technico-éthique, les indicateurs sur l’exploitation de la donnée de santé à caractère personnel, ainsi que des critères sur la qualité et la gestion de cette data dans l’infosphère, nous avons pu construire un outil d’évaluation éthique de cette dernière. Cette valorisation éthique des données de santé à caractère personnel a abouti à l’élaboration d’un graphique radar qui permet de visualiser les axes de l’Infoethics Management (bienfaisance, justice, non- malfaisance, autonomie, stratégie & méthodologie, organisation & réglementaire, structure & technologie, relation & culture, pilotage, mise en forme, cycle de développement, et opérations) et d’identifier les zones de valorisation à améliorer pour la donnée de santé à caractère personnel17.
L’objectif est donc d’établir une évaluation de la valeur éthique des données de santé à caractère personnel. (Voir schéma 2 illustré par un diagramme radar).
Schéma 2. Valorisation éthique des données de santé à caractère personnel (conception, mise en place, et usage)
16. Cette étude a été rendue possible grâce à l’élaboration de notre modélisation d’analyse éthique (Ψ, G, Φ) de l’info-éthique (vu précédemment) et qui permet d’apporter une pondération chiffrée de tous ces résultats.
17. Cet outil peut être adapté et extrapolé à d’autres secteurs connexes impliquant la production et la diffusion d’autres types de données personnelles, tels que : la finance, l’aérospatial, l’agroalimentaire, le textile, les télécommunications, les transports, etc.
Le graphique radar produit en fin d’évaluation permet de se positionner sur chacun des 12 axes de l’Infoethics Management et d’identifier les zones de valorisation à améliorer pour mieux utiliser et maîtriser la big data en santé.
(Voir tableau 5).
Tableau 5. Critères d’évaluation de la valeur d’une donnée de santé à caractère personnel
Synthèse des scores moyens par axe
Valeur intrinsèque (de conception)
Stratégie & Méthodologie … / 4 Organisation & Réglementaire … / 4 Structure & Technologie … / 4
Relation & Culture … / 4
Valeur de gestion (de mise en place)
Pilotage … / 4
Mise en forme … / 4
Cycle de développement … / 4
Opérations … / 4
Valeur d’exploitation (d’usage)
Bienfaisance … / 4
Justice … / 4
Non‐malfaisance … / 4
Autonomie … / 4
Nous appliquons l’échelle de scoring suivante sur les 93 questions qui sont associées aux indicateurs de valeur intrinsèque, de gestion, et d’exploitation de la donnée de santé. Cette échelle est construire de la manière suivante :
– une réponse : « Oui totalement » vaut 4 pts / 4
– une réponse : « Oui partiellement » équivaut à 3 pts / 4 – une réponse : « Ni oui, ni non » constitue 2 pts / 4 – une réponse : « Non pas vraiment » équivaut à 1 pt / 4 – une réponse : « Non pas du tout » vaut 0 pt / 4
– une réponse : « Je ne sais pas » représente X (c.a.d. que nous ne prenons pas en compte cette question dans le score moyen du critère d’évaluation).
Dès lors, à partir des résultats obtenus, nous pouvons définir et mettre en place un dispositif de « management éthique » sur la conception, la mise en place et l’usage des données de santé à caractère personnel au sein d’un SI.
Enfin, à la lumière de cet outil d’évaluation de la valeur éthique des big data en santé, plusieurs mesures et recommandations s’imposent à nous afin de garantir la qualité et la protection des données de santé à caractère personnel. (Voir encadré 1).
Encadré 1. Recommandations entourant l’élaboration, la mise en place et l’exploitation de la donnée de santé à caractère personnel
Indiquer l’origine de la donnée : brute, consolidée via différents producteurs, construites à partir de tierces données.
La donnée médicale doit circuler en garantissant un souci de confidentialité et dans un processus de qualité.
Indiquer clairement la date de transfert ou d’hébergement des données afin de s’assurer de la bonne actualité et mise à jour de l’information.
Chiffrer la donnée pour assurer une traçabilité et un suivi de cette dernière.
Les outils de transmission de l’information doivent être valides.
La donnée médicale est sans cesse évolutive et doit être régulièrement mise à jour.
La data est revalidée (capacité de revalidation du diagnostic, des stratégies thérapeutiques, etc.).
Fournir de l’information consistante et basée sur des preuves médicales émanant de sources et références médicales (organismes de validation interne ou externe) afin de garantir la crédibilité et le bien‐fondé des données : pourcentage des données validées, mode de sélection des données validées, méthode de validation (critères), résultat (qualitatif et quantitatif) de la validation, fréquence de validation (cf.
données évolutives*).
Indiquer clairement si l’information est fondée sur des études scientifiques, consensus d’experts, sur une expérience, ou opinion professionnelle ou personnelle.
S’assurer que les avis médicaux ou conseils soient donnés par des praticiens qualifiés.
Décrire le processus de recrutement (typologie des contributeurs, contrat avec le fournisseur, mode de rémunération, consentement de la personne).
Indiquer les modalités de fabrication, de constitution ou de transformation de la donnée.
Décrire le processus d’usage et de conservation de ses données médicales par le fournisseur ainsi que les conditions dans lesquelles l’utilisateur pourra lui‐même accéder à ses data afin de garantir l’intégrité, la sécurité et la confidentialité des données personnelles.
Évaluer rigoureusement et équitablement l’information, y compris celle utilisée pour décrire produit ou service.
Respecter les droits associés à la protection intellectuelle : licence d’utilisation des sources, droits du producteur/fournisseur sur la donnée, altération de licence dû au traitement de la donnée.
S’assurer que les fournisseurs respectent les réglementations génériques et particulières liées à l’exploitation de la donnée personnelle.
Une cohérence de la donnée nécessite un temps de coordination (Fournier, 2008).
Rendre plus accessible l’information au patient ou au professionnel de santé non spécialisé afin qu’il puisse la comprendre et l’utiliser dans les meilleures conditions.
Pour cela, les produits ou services employés devraient être décris dans un langage clair, facile à lire et approprié aux utilisateurs ciblés.
* Cf. document intitulé Charte éthique et big data : faciliter la création, l’échange et la diffusion des données, réalisé par l’Institut des technologies multilingues et multimédias de l’information (IMMI‐
CNRS), le 14 juin 2013. (http://wiki.ethique‐big‐data.org).
À la lumière de ces réflexions, il semble indispensable d’apporter au cœur de la mise en place et l’exploitation des données personnelles, de la sociologie et de l’éthique en charge de produire un cadre conceptuel de bonnes pratiques de ces données. Une bonne utilisation des big data basée sur une intelligence organisationnelle consiste donc à éliminer, hiérarchiser et trier les données accessibles afin de leur donner du sens et de la cohérence, et non à les accumuler. Cela revient à dire qu’une technologie sans éthique et sans connaissance équivaut à un corps sans âme et sans esprit.
Enfin, ces recommandations ne doivent pas être utilisées comme un cadre rigide, mais plutôt comme une structure flexible à intégrer dans la conception, la mise en place et l’utilisation des données de santé à caractère personnel.
4. Conclusion
Avec le développement des NTIC, notre société multiplie les possibilités de choix, souvent contradictoires concernant l’usage de la donnée personnelle.
Désormais, chaque personne doit réfléchir, faire un tri et resituer chaque donnée dans une échelle de valeur rationnelle dans l’objectif de pouvoir assumer ses choix et ses décisions sur son usage, notamment en santé.
L’exploitation croissante de la donnée numérisée dans la société impose une certaine légitimité de l’information à l’usager de soins (Fainzang, 2006). Le développement du consumérisme de l’information médicale marque donc une évolution importante de la demande des patients. Ces derniers demandent plus naturellement des comptes sur la manière dont ils sont soignés et comment sont utilisées les données de santé à caractère personnel ? Les professionnels de santé, les producteurs et les fournisseurs d’information sont dans l’obligation d’adapter leurs prestations et la manière de travailler en tenant compte de cette nouvelle donne.
Dès lors, la surabondance de données suscite certaines préoccupations éthiques de leurs usages et des déviances qui peuvent en découler. En effet, la quête de sens qui marque cette période de transition entraîne nécessairement un questionnement sur les valeurs qui orientent nos comportements et nos actions tant individuels que collectifs (Saint-Jean, 2002). Cette éthique, située au centre de cette quête de sens entourant ces outils de communication et de diffusion de l’information, est d’autant plus forte qu’il s’agit du secteur médical.
Un des enjeux est de faire preuve de clarté sur les règles d’usage de nos données personnelles de santé dont disposent les acteurs, en facilitant notamment leur traçabilité et leur sécurisation dans le respect de la dignité et de la liberté humaine. Selon nous, le bon usage et la protection de ces données passent inéluctablement par une réflexion éthique sur des procédures de
contrôle et d’encadrement de ces dernières. L’objectif est de conserver une place prédominante à la confidentialité et la confiance auprès des producteurs et fournisseurs d’information, et ainsi contribuer à donner une certaine maîtrise des risques et des déviances de ces derniers. Dès lors, l’anonymat via les big data est devenu algorithmiquement impossible. C’est pourquoi, une « éthique algorithmique » devient décisive afin que les professionnels des big data trouvent un juste équilibre entre le traitement rationnel et mesuré des données, dans le respect de la vie privée, et un surtraitement qui serait contre-productif notamment dans la relation médecin-patient. Cette éthique permettra d’apporter du sens aux traitements de ces gigantesques volumes de données en redonnant notamment un lien de causalité aux corrélations qui sont révélées par ces exploitations.
En conséquence, la gestion informatique de la donnée de santé à caractère personnel appelle à une vigilance accrue en particulier pour sa protection. Dès lors, l’encadrement de la data ne pourra être envisagé que dans le respect de certaines conditions. Ceci nous amène à nous poser la question de la valorisation et de la protection des données de santé. Selon nous, le bon usage et la protection de ces données exigent une réflexion éthique sur les procédures de leurs contrôles et leurs gestions. L’objectif est de privilégier la confidentialité et la confiance auprès des producteurs et fournisseurs d’information, et de contribuer ainsi à la maîtrise des risques et des déviances de ces données. C’est pourquoi, nous espérons qu’une charte éthique autour des big data permettra de renforcer les partenariats public/privé autour du partage et de l’exploitation des données médicales personnelles, tout en préservant la sécurité des données personnelles dans des réseaux de confiance.
Les acteurs impliqués dans le cycle de vie de la data personnelle vont devoir s’aligner sur ce modèle de valorisation éthique afin que les responsabilités soient clairement délimitées et indiquées.
Notons que toutes nos réflexions et approches éthiques qui émanent de cet article peuvent être appliquées et adaptées à d’autres domaines d’activités afin de déclencher une dynamique similaire de sensibilisation et d’établir un cadre universel de référence sur la conception, l’utilisation et le contrôle des données numériques personnelles.
Enfin, on peut imaginer que dans les années à venir, toutes les explorations, tous les progrès et diffusions de donnée, jusque-là impossibles deviendront effectives dans tous les secteurs de la science, la santé, la médecine, et la société.
Les synergies qui n’étaient qu’imaginées, deviendront réelles et modifieront le rôle de la personne face à l’exploitation de la donnée de santé à caractère personnel. Dès lors, cela nous amène à nous demander, s’il ne serait pas
bénéfique de donner la propriété des données à leurs producteurs initiaux, c’est-à-dire aux personnes ? Cela permettrait, peut-être, aux individus de plus se protéger et se responsabiliser vis-à-vis de leurs données personnelles, tout en bénéficiant d’une partie de la valeur financière générée par leurs exploitations.
Dans ce contexte, l’usager de santé verrait son statut évoluer de « propriétaire- consommateur » à celui d’un « data trader » de ses propres données…
Remerciements
Cette réflexion a été réalisée en collaboration étroite avec la société Keosys. Ce leader IT en imagerie médicale appliquée à la recherche clinique et au diagnostic médical nous a aidé à approfondir l’aspect éthique et technique de nos recherches autour des big data en santé.
C’est pourquoi, nous leur dédions cet article.
Bibliographie
Beauchamp T.L, Childress J. (2001). Principles of Biomedical Ethics, Oxford University Press, 5e edition, New-York/Oxford.
Béranger J., Bouadi R. (2014). Approche éthico-juridique de l’usage des données médicales à caractère personnel. Les Cahiers du numériques, n°2/2014, p. 93-123.
Eveillard P. (2002). Ethique de l’Internet santé, Ellipses, Paris, p. 3-94.
Fainzang S. (2006). La relation médecin-malades : Information et mensonge, Presses universitaires de France, Paris.
Floridi L. (1998). L’éthique télématique, L’Agora, North-Hatley (Québec), vol. 5, n°4.
Fournier T. (2008). Ethique et cancérologie : Donner un sens au soin. Oncora, 29 janvier, p. 12.
Fransman M. (1994). Information, Knowledge, Vision and Theories of the Firm.
Industrial and Corporate Change, vol. 3, n° 3, p. 1-45.
Hervé C. (1997). Ethique médicale ou Biomédicale ? L’éthique en mouvement, L’Harmattan, Paris, p. 160.
Johnson D. (1985 1st éd. 1994 2nd éd.). Computer Ethics. Englewood Cliffs, NJ: Prentice- Hall. Third Edition Upper Saddle River, NJ: Prentice-Hall, 2001.
Morin E. (1991). La Méthode 4 : Les idées, Seuil, Paris.
Morin E. (2004). La Méthode 6 : Ethique. Seuil, Paris.
Ponçon G. (2009). Système d’information : Vers une éthique de l’usage ? Revue hospitalière de France, n° 531, décembre 2009, p. 74-77.
Roth F. (2004). Des mécanismes de gouvernance informationnels aux mécanismes de gouvernance cognitifs : une grille de lecture et quelques conséquences pour la
communication financière des enterprises. Congrès Gouvernance et juriscomptabilité, HEC Montréal, Juin, p. 19.
Ricœur P. (1990). Soi-même comme un autre, Seuil, Paris, p. 202.
Saint-Jean A. (2002). Ethique de l’information. Les presses de l’Université de Montréal, Québec, p. 22.
Simonnot B. (2007). Documentaliste. Sciences de l’information, vol. 44, n° 3, p. 215.
Valéry P. (1941). Les carnets de Léonard de Vinci, Traduits de l’anglais. Ed Gallimard, collection Tel.
Valéry P. (1948). Vues, Éditions La Table Ronde, Paris, p. 228. (Le texte date de 1939).