• Aucun résultat trouvé

Une quantité inédite de données relatives à la santé

Chapitre 2 – Les promesses de l’utilisation des systèmes d’intelligence artificielle en santé

1. L’intelligence artificielle et les données massives au cœur de l’innovation numérique en

1.1. Une quantité inédite de données relatives à la santé

Eric Schmidt, directeur général de Google, annonçait en 2010 lors de la conférence

Techonomy que nous produisons aujourd’hui autant d’information tous les deux jours que tout ce

que nous avons pu produire depuis le début de notre civilisation jusqu’à 2003 (Brown et al. 2018). Si certains remettent cette affirmation en question (ex. Moore 2011), il est avéré que la quantité de données produites et stockées chaque jour croît de manière exponentielle, particulièrement depuis les deux dernières décennies (Mittelstadt et Floridi 2016b). L’information disponible par la génération et le stockage de ces données est sans précédent, tant en ce qui concerne l’échelle de grandeur que la variété des données collectées. Ce phénomène est communément appelé le Big

lequel les architectures évolutives répondent aux exigences d’application analytique qui traitent, à grande vitesse, des volumes élevés de données aux formats variés » (Isitor et Stanier 2016, p. 4, traduction libre). Généralement, le Big Data réfère soit au processus d'analyse d'ensembles de données massives, soit à l’aspect massif des données elles-mêmes (Mittelstadt et Floridi 2016b). Considérant la croissance exponentielle des données disponibles, référer à la complexité procédurale de l’analyse plutôt qu’à une échelle de grandeur semble plus pertinent quand il s’agit de définir le Big Data, car ce qui est massif aujourd’hui risque de ne plus être considéré comme tel demain (Mittelstadt et Floridi 2016b).

Les données massives sont communément caractérisées par « les 5 V », référant en anglais aux 5 caractéristiques suivantes : volume, velocity, variety, veracity, value (Brown et al. 2018; Mittelstadt et Floridi 2016b). Le volume – ou l’échelle de grandeur – correspond à l’immense quantité de données générées. La variété réfère quant à elle à la grande diversité de données disponible, notamment concernant leur format, qu’il s’agisse de données structurées ou celles, non- structurées, qui requièrent un « prétraitement » supplémentaire (Brown et al. 2018). La liste présentée par Shafqat (2018) illustre cette diversité en ce qui concerne les données biomédicales :

The healthcare Big Data involves all the clinical data from Computerized Physician Order Entry (CPOE) and clinical decision support systems—physicians compiled reports, prescriptions, medical imaging, laboratory, pharmacy, insurance and other administrative data; electronic patient records (EPRs); machine generated/sensor data, from monitoring vital signs; social media posts including Twitter feeds, blogs, Web sites, Facebook updates and other platforms; and minimal patient care data including emergency care data, news feeds, and medical journals (p. 2).

La vélocité réfère à la vitesse à laquelle de nouvelles données sont rendues disponibles (certaines sont statiques tandis que d’autres sont mises à jour régulièrement) (Brown et al. 2018) ou à la vitesse à laquelle les données diffusées sont analysées (Mittelstadt et Floridi 2016b). La véracité réfère à la crédibilité que l’on peut accorder à ces données, considérant l’incertitude des informations qu’elles contiennent ou leur niveau de précision (Brown et al. 2018; Mittelstadt et Floridi 2016b). Un des enjeux étant alors de réussir à gérer de manière efficiente ces données produites à une échelle « inimaginable » (Bizer et al. 2012), une 5ème dimension est parfois ajoutée, celle de la valeur – l’accès aux données massives n’étant pertinent que s’il est possible de donner du sens à l’information qui en découle – notamment pour justifier l’effort nécessaire à l’analyse (Brown et al. 2018).

Parmi ces données massives, les données biomédicales ne sont pas des moindres. Plus de 30% des données stockées aujourd’hui dans le monde concernent la santé (Brouard 2017, citant le rapport du Internet of thing market de 2017). Les données massives considérées comme des données de santé proviennent de sources hétérogènes. D’abord, avec la numérisation croissante de tous les secteurs d’activité, différents systèmes de santé à travers le monde produisent eux-mêmes des données massives. De nombreuses initiatives gouvernementales incitent à la numérisation et au développement de bases de données harmonisées qui mutualisent les données de santé des populations, qu’elles soient publiques ou privées – plus particulièrement au travers des electronic

health records (EHRs)25 (Blumenthal et Tavenner 2010; Blumenthal 2009; Villani 2018; Devillier 2017b; OMS 2016). Les EHRs sont de différentes nature, allant des signes vitaux des patients à leurs données diagnostiques, en passant par leurs données démographiques (Blumenthal et Tavenner 2010).

Les systèmes de collecte et stockage des EHRs ont pour objectif d’emmagasiner des données spécifiques aux individus qui seront notamment essentielles au développement d’une médecine de précision prédictive (Mirnezami, Nicholson, et Darzi 2012) ou pour la recherche en santé par le biais de biobanques ou de la création de larges cohortes d’individus qui acceptent de partager leurs EHRs (Ashley 2015; Mittelstadt et Floridi 2016b; Lipworth et al. 2017). Les données massives en santé peuvent également provenir de firmes de santé privées comme, par exemple, la firme 23andme, lancée dans le but de fournir des tests génétiques directement au consommateur (patient) et qui a accumulé ces dernières années les données génétiques de près d’un million d’individus contactables et prêts à offrir leurs données à la recherche (Ashley 2015; Sharon 2016). Cette compagnie possède ainsi la plus grosse base de données ADN dans le monde, utilisable par les chercheurs, ayant déjà conduit à une quarantaine de publications scientifiques (Sharon 2016).

25 L’organisation mondiale de la santé (OMS) différencie les dossiers médicaux électroniques (Electronic medical

records ou EMRs) des dossiers de santé électroniques (Electronic health records ou EHRs) des dossiers de santé

personnels (Personal health records ou PHRs) (OMS 2012). Les EHRs sont des dossiers médicaux numérisés utilisés pour saisir, stocker et partager des informations entre les prestataires de soins de santé au sein d'une organisation. Les EMRs réfèrent aux mêmes types de données partagées entre les différentes organisations de santé. Ils peuvent par exemple inclurent des données démographiques, l’historique médical du patient, les données relatives à la médication et aux allergies. Ils ont été développés pour soutenir la dispensation de soins au-delà des frontières géographiques. Ils peuvent également être utilisés par les patients dans le but d’avoir un rôle plus actif dans la gestion de leur propre santé. Les PHRs, sont des dossiers médicaux informatisés créés et maintenus par une personne proactive dans la gestion de sa santé. Le dossier peut être privé ou mis à la disposition des prestataires de soins.

Elles peuvent également provenir d’institutions gouvernementales, comme aux États-Unis où la Food and Drug Administration (FDA) collecte en continu les données de facturation d’actes médicaux dans le cadre de son projet pilote Sentinel Initiative26, qui vise à faire un suivi anonyme de 125 millions de patients dans l’optique de mettre en place une surveillance proactive d’effets secondaires potentiels de médicaments approuvés.

Les données massives relatives à la santé proviennent non seulement des systèmes de santé et de la recherche biomédicale mais également de sources externes (Shafqat et al. 2018) ou de sources d’information « informelles » relatives au style de vie, au bien-être, à l’environnement ou aux facteurs socio-économiques (Cano et al. 2017). Elles peuvent par exemple provenir des téléphones intelligents et divers objets connectés (comme des capteurs); communément appelé « l’internet des objets » (au travers duquel les objets connectés communiquent entre eux) (Brouard 2017). Également, un intérêt croissant s’est observé ces dernières années en santé pour les données issues des médias sociaux et du web, données relativement différentes mais complémentaires des données scientifiques traditionnelles (Peek et al. 2015). Leur qualité est cependant variable, notamment parce-que les données issues d’Internet peuvent être dépassées, conflictuelles ou intentionnellement erronées (Bizer et al. 2012; Peek et al. 2015).

Ces données, utiles à la santé mais collectées en dehors du cadre formel d’une prise en charge médicale, amènent le Comité consultatif national d’éthique (CCNE) français à l’appellation « données relatives à la santé », qui « inclut nécessairement aussi celles qui – sans être en elles- mêmes qualifiées de données de santé – le deviennent, soit par leur croisement avec d’autres données qui permet de tirer une conclusion sur l’état de santé ou le risque pour la santé d’une personne, soit ‘par destination’ (parce qu’elles sont utilisées dans un parcours de soin) » (CCNE 2019, p. 20). Les données les plus considérées dans la littérature sur l’IA en santé demeurent cependant des données biomédicales « classiques » : il s’agit des images diagnostiques, des données génétiques et des données électro diagnostiques (Jiang et al. 2017). Selon les objectifs de recherche ou de soins, il peut s’agir également de données phénotypiques, moléculaires, issues d’essais cliniques ou d’études populationnelles, ou encore de dispositifs de mesures de signes vitaux (Shafqat et al. 2018; Shameer et al. 2018).

Toutes ces données – et notamment, leur mutualisation – représentent un intérêt majeur pour la médecine comme pour la recherche en santé (Rial-Sebbag 2017; Lipworth et al. 2017). Leur stockage promet l’amélioration de la qualité des soins (ex. aide à la décision médicale, surveillance de l’émergence de pathologies, gestion de la santé des populations) et la réduction des coûts (Shafqat et al. 2018). Cependant, un des principaux défis relatifs au données massives se situe dans leur interprétation, soit de trouver, de traiter et de combiner les informations qui en sont issues de manière à leur donner un sens (Bizer et al. 2012). En effet, sans un usage significatif, les données massives sont inutiles (Bizer et al. 2012). La disponibilité d’un nombre croissant de données de plus en plus diversifiées ouvre la porte à de nouvelles approches en recherche médicale (comme l’apprentissage automatique, ou autres approches statistiques) (Azencott 2018) et plus particulièrement d’IA. Ces méthodes permettent par différents moyens d’extraire de l’information pertinente de cet environnement de données qu’il est quasi impossible aujourd’hui d’analyser « manuellement » (Shafqat et al. 2018), afin de faire avancer la médecine comme la recherche en santé (Chen, Elenee Argentinis, et Weber 2016). La nécessaire complémentarité entre algorithmes et données massives est très bien illustrée par la Commission nationale informatique et libertés (CNIL) française (2017) : « L’algorithme sans données est aveugle. Les données sans algorithmes sont muettes » (p. 18). L’IA représentent alors différentes manières de valoriser les données