Entrepôt de Données de Santé AP-HP
Séminaire ISP - Rouen 13/02/2018
Auteurs : DRCI DSI AP-HP
2
Sommaire
1. Les enjeux & les usages présents et à venir
2. Gouvernance
3. Pilier réglementaire
4. Pilier éthique
5. Pilier technique
6. Opportunités pour la recherche en Technologies pour la Santé et en Santé Publique
7. Verrous technologiques & axes de recherche
Sommaire
1
Enjeux
Usages présents et à venir
4
Enjeux & usages
La plus grande base de données hospitalières de France
Intégrant les données administratives, sociales et médicales recueillies lors des consultations et hospitalisations de 8 millions de patients pris en charge dans les 39 hôpitaux de l’AP-HP
Projet prioritaire du schéma directeur du Système d’Information (SI) de l’AP-HP 2016-2020
Axe 2 : Un système d’information soutenant la recherche et l’innovation
• Mise en place de la plateforme Mégadonnées (architecture, organisation et modèle de gestion)
Axe 3: Un système d’information au service d’une gestion performante et d’un pilotage pertinent
Entrepôt de Données de Santé (EDS) de l’AP-HP
5
Enjeux & usages
L’EDS permet de développer la recherche
Développer la recherche sur données (n’impliquant pas la personne humaine)
• Etudes au sein des « équipes de soins » et études multicentriques (https://recherche.aphp.fr/eds/etudes/)
Faciliter la recherche interventionnelle (impliquant la personne humaine)
• Etudes de faisabilité d’essais cliniques
L’EDS permet de développer le pilotage
Faciliter le pilotage médico-économique hospitalier (DIM)
• Automatiser la détection d’atypies de codage PMSI et pré-coder es séjours
Faciliter le suivi de l’activité au sein des services hospitaliers
• Tableaux de bords de suivi d’activité pour les services
Usages présents de l’EDS
6
Enjeux & usages
Favoriser l’amélioration des pratiques au sein des services hospitaliers (qualité et sécurité des soins)
Développement de tableaux de bords et d’indicateurs HAS
Développer et évaluer des algorithmes d’aide à la décision
diagnostique et thérapeutique pour améliorer les pratiques de soin au bénéfice des patients
Développer la veille sanitaire (vigilances), etc.
Faciliter la formation (initiale et continue)
Faciliter le recrutement des patients dans les essais clinique
Usages à venir de l’EDS
7
Enjeux & usages
Stratégie nationale de santé 2017- 2022 quatre priorités
la prévention et la promotion de la santé, tout au long de la vie et dans tous les milieux;
la lutte contre les inégalités sociales et territoriales d’accès à la santé;
la nécessité d’accroître la pertinence et la qualité des soins ;
l’innovation.
Ministre des Solidarités et de la Santé, 18 septembre 2017
Enjeux : exploiter les données de santé pour
améliorer l’efficience du système de santé
8
Enjeux & usages
Learning Health System
A highly participatory rapid learning system that can be developed in part from meaningful use of electronic health records (EHRs)
• Future widespread adoption of EHRs will make increasing amounts of medical information available in computable form. Secured and trusted use of these data, beyond their original purpose of supporting the health care of individual patients.
Améliorer continuellement les pratiques de soin par l’analyse des données
Enjeux : exploiter les données de santé pour améliorer l’efficience du système de santé
Friedman CP, Wong AK, Blumenthal D. Achieving a nationwide learning health system. Sci Transl Med. 2010 Nov 10;2(57)
Friedman CP, Rubin JC, Sullivan KJ. Toward an Information Infrastructure for Global Health Improvement IMIA
Yearbook of Medical Informatics 2017
9
Améliorer les pratiques de soin par l’analyse des données
Développement d’algorithmes d’aide à la décision thérapeutique ou diagnostique, qui
seront à évaluer et à intégrer dans les outils quotidiens des professionnels de santé
10 Gestion des ressources &
facturation
Gestion médico- économique Production de soins et médico-techniques
Disponibilité actuelle et à venir des données
Données disponibles
Prise en charge du dossier administratif Identité Patient
Biologie / Micro-biologie
Coordination et planification Gestion des rendez-
vous
Réanimation moniteurs et capteurs
Imagerie (activité) Soins infirmiers
Génétique
Gestion des Ressources humaines
Prise en charge du patient Mouvements
Dossier social
Urgences Biobanque
Domaine métier présent dans EDS Domaine métier en cours d’intégration
Codage des actes
Groupage PMSI Codage des
diagnostics Soins
Dossiers de spécialités Production des documents cliniques
Données externes APHP Exposome
Gestion de la Facturation
Médico-technique
Chimiothérapie
Radiothérapie Cancérologie
Explorations fonctionnelles Gestion de la
planification des blocs opératoires
Anatomie pathologique
Données rapportées par les patients Objets connectés
Domaine métier priorisé pour 2018
Circuit du médicament (prescription ORBIS)
Dialyse
Domaine métier à prioriser en 2018
Imagerie (CR &
images) Prescription multimodale bio/radio/soins
Blocs opératoires (activité)
11
Disponibilité actuelle des données
Disponibilité actuelle des données - 7,6 M patients
Source : Tableau de bord – cartographie EDSP – Novembre 2017
Chiffres en cours de validation par les GH et DIM central 7 685 003 patients
17 601 292 dossiers
2 080 043 RUM
9 660 767 actes
9 357 784 diagnostics
162 359 931 résultats de labo
4 444 948 documents
2
Gouvernance
13
Pilotage du projet
Comité de pilotage du SI Innovation Recherche
(/6 mois)
Direction Générale, Commission Médicale d’Etablissement, DOMU, DSI, DAJ Pilotage stratégique
Comité de pilotage opérationnel
(mensuel)
DRCI, DIM, DSI, DAJ, Coordonnateurs EDS des GH
Orientations opérationnelles de l’EDS, priorisation des évolutions
Comité Scientifique et Ethique
(mensuel)
Communauté médicale, représentants de patients, DRCI, DIM, DSI , DAJ
Evalue les projets de recherche sur données de l’EDS
« Club utilisateur » EDS
(mensuel)
Coordonnateur EDS des GH
Centralisation des demandes d’évolution à l’EDS
Communauté d’investigateurs
Groupes de travail métiers thématiques
Comité
d’orientation
(/2 mois) DOMU, DSI
Orientations stratégiques de
l’EDS Commission d’orientation de la démarche éthique
3
Pilier réglementaire
15
Pilier réglementaire
Organisation
Correspondant Informatique et Libertés
Formalismes déclaratifs CNIL
Autorisation de la CNIL (n°1980120 du 19/01/2017) pour la constitution de l’EDS pour 3 finalités
• Recherches sur données multicentriques
• Etudes de faisabilité d’essais cliniques (ou cohortes prospectives)
• Pilotage hospitalier (missions des départements d’information médicale (DIM))
Déclaration de conformité à la MR-003 (n°1986127)
• Pour les recherches sur données de l’EDS conformes à la MR-003, pas de demande d’autorisation spécifique à la CNIL
Organisation et formalismes déclaratifs CNIL
16
Pilier réglementaire
Information des patients
Collective
• Livret d’accueil
• Portail de transparence https://recherche.aphp.fr/eds
Information individuelle
• Mentions sur les comptes rendus
• Personnes admises à l’AP-HP avant la mise en place de l’EDS : courriers électroniques et courriers postaux
Droit des patients
Téléservice sur le site internet pour l’exercice du droit d’opposition
Mise en conformité
4
Pilier éthique
Démocratie sanitaire
5
Pilier technique
19
Pilier technique
Extraction/Intégration/Exploitation des données
20
Pilier technique
Solution IBM Cognos
Support à l’évaluation et l’amélioration des pratiques grâce à la production d’indicateurs et de tableaux de bords
Applicatifs et services pour le pilotage
Exemples d’indicateurs :
• Identitovigilance
• Suivi du programme Hôpital Numérique Suivi de la réalisation des documents de sortie
• Suivi de l’activité en
imagerie
21
Pilier technique
Actuellement : plateforme analytique sécurisée (solutions i2b2 & Jupyter)
Solution de constitution de cohortes (i2b2)
Applicatifs spécialisés (R, Python, etc.) pour des experts en analyse de données (statisticiens / data scientists)
Cluster de calcul assurant la performance des traitements
A venir : offre de services à prioriser par le club utilisateurs [2018-2020]
Solutions d’optimisation de la recherche interventionnelle
• Aide à l’inclusion de patients/transfert de données (Champion, EHR2EDC)
Développement de services innovants d’aide décisionnelle à partir de données
• Aides décisionnelles pour l’amélioration des pratiques de soins (diabète, réanimation, imagerie, détection des atypies de codage PMSI)
• Recherche de cas similaires - Lien contextuel vers des publications scientifiques
Applicatifs et services pour la recherche
6 Exemples de réalisations
Opportunité pour la recherche en Santé
publique et en Technologies pour la Santé
23
Opportunités pour la recherche en Santé Publique
Exemples de projets de recherche sur données acceptés par le CSE
https://recherche.aphp.fr/eds/etudes/
Thématique des recherches Conformité à la MR-003
Recours hospitalier pour les crises douloureuses drépanocytaires Oui Comorbidités psychiatriques en médecine interne Oui
Dépistage opportuniste de l'ostéoporose* Non (appariement avec PMSI national)
Relation entre IMC et pression artérielle pour tester la qualité des données de l'entrepôt
Oui
Ischémie intestinale aiguë : identification de facteurs pronostiques de mortalité et de résection intestinale*
Non (appariement avec CépiDc)
Infections respiratoires à virus influenza dans les services de réanimation*
Non (traitement de données nominatives)
Fausses couches récurrentes inexpliquées Non (traitement de données
nominatives)
24
Opportunité pour la recherche en Technologies pour la Santé
Imagerie : évaluation d’algorithme de mesure automatique de densité osseuse
Objectif principal de la recherche
• Evaluation de la performance d’une mesure automatique de la densité osseuse vertébrale sur scanner abdominal de routine à prédire la survenue dans les 3 ans d’une fracture nécessitant l’hospitalisation.
Analyse envisagée
• Evaluation de la performance par calcul de l’aire sous la courbe ROC de la mesure automatique de la densité osseuse vertébrale
Biotechnologies et bioingénierie
Développement du médicament
Chirurgie, techniques interventionnelles et assistance au patient et à la personne
e-santé
25
Opportunités de l’Open Data en santé (MIMIC)
https://www.youtube.com/watch?v=eJpnrPPErq0 https://www.youtube.com/watch?v=cxFsCkGGpYE
DAT-ICU : 48h de datathon sur les données de
santé de 50 000 patients de réanimation (MIMIC)
7
Verrous technologiques &
recherche en informatique
médicale
27
Verrous technologiques & axes de recherche
Pilotée par la direction et les besoins des utilisateurs
Au service des utilisateurs
• Cas d’usages définis par le club utilisateurs EDS Recherche et des groupes de travail métier
Pilotée par la direction : stratégie d’exploitation de l’EDS
• Comité de pilotage du SI Innovation Recherche / Comité d’orientation DRCI/DOMU/
Schéma directeur du SI de l’AP-HP 2016-2020
Bénéficiant des collaborations
Internes (DIM, URC, épidemio biostat) avec un coordonnateur par GH
• En cible : laboratoire de science des données
Externes : académiques & industrielles
Partagée
Plan national : GT national EDS (commission recherche des DG de CHU), Healthcare Data Institute
Plan international : institut Européen IHD, fondation i2b2/transmart
Recherche & développement au sein de
WIND
28
Verrous technologiques & axes de recherche
Intégration et partage de données au sein de l’AP-HP/région
Massives (volumétrie, vélocité)
• Images (Murphy15), données génétiques (Murphy17), données temps réel (Sahoo14)
Hétérogènes (variété, variabilité)
• Données d’exposition (Martin Sanchez14), données de santé rapportées par les patients, objets connectés (Harle16)
Intégration, chaînage et partage de données au sein de réseaux
Interopérabilité
• Modèles de données communs (Garza16, Gini16), transformation de modèles (Klann16)
Plateformes nationales/internationales de partage de données
• Chainage avec des données publiques (ex : SNDS (SNIIRAM + CepiDC + PMSI)), méthode de chainage de données ((Anguita16, Kho15, Boyd14)
• Fédérations : exemples aux US (PCORnet (Hernandez15), FDA Mini-Sentinel (Psaty14)), en
Europe (EHR4CR (De Moor15)) et dans un cadre international (OHDSI (Hripcsak15))
29
Verrous technologiques & axes de recherche
Anonymisation pour le développement de la recherche multicentrique et démarrage de l’open data
« Anonymisation » : K-anonymisation, L-diversité, dé-identification des comptes rendus textuels
Constitution de données factices
Tests de ré-identification (Harmanci16)
Maitrise de la qualité (validité, véracité, vérification)
Qualité des données
• Cadre d’évaluation et d’amélioration des données (Kahn16), outils et mesures de qualité (Sáez16, Huser16), vers une certification des bases de données hospitalières?
Validité d’algorithmes d’identification de phénotypes cliniques (autoencodeurs)
• Multiples méthodes (Shivade14) et bases d’algorithmes validés (PheKB (Kirby16), REDSIAM (Goldberg16)), techniques d’apprentissage d’identification de phénotypes sur données incomplètement codées et bruitées (Beaulieu-Jones16, Halpern16, Agarwal16)
Validité des aides décisionnelles issues du « Big Data »
• Biais spécifiques aux bases de données « en vie réelle » (Rusanov14), replicabilité et explicabilité des techniques de (deep) machine learning
Evaluation medico-économique (valeur)
Mesure du retour sur investissement d’EDS (ex : EHR4CR (Dupont17))
30
Big data : promesse pour la médecine de précision?
Oui, mais…
Pilier technique
• Quelle qualité de données?
• Quelle validité des analyses et des résultats?
Pilier réglementaire
• Quelle mise en conformité avec le règlement Européen?
Pilier éthique
• Quelle modalités d’engagement des professionnels de santé et de la société civile?
Conclusion
Analyse de données de « vie réelle »
Merci de votre attention
Dsi-wind-pacte@aphp.fr
31
Agarwal V et al. Learning statistical models of phenotypes using noisy labeled training data. J Am Med Inform Assoc. 2016 Nov;23(6):1166-1173.
Anguita A et al. A method and software framework for enriching private biomedical sources with data from public online repositories. J Biomed Inform. 2016 Apr;60:177-86.
Beaulieu-Jones BK, Greene CS. Pooled Resource Open-Access ALS Clinical Trials Consortium. Semi-supervised learning of the electronic health record for phenotype stratification. J Biomed Inform. 2016 Dec;64:168-178.
Boyd JH et al.Technical challenges of providing record linkage services for research. BMC Med Inform Decis Mak. 2014 Mar 31;14:2.
Bruland P et al. Common data elements for secondary use of electronic health record data for clinical trial execution and serious adverse event reporting. BMC Med Res Methodol. 2016 Nov 22;16(1):159
Fadly A et al. Integrating clinical research with the Healthcare Enterprise: from the RE-USE project to the EHR4CR platform. J Biomed Inform. 2011 Dec;44 Suppl 1:S94-102.
Dupont D et al. Business analysis for a sustainable, multi-stakeholder ecosystem for leveraging the Electronic Health Records for Clinical Research (EHR4CR) platform in Europe. Int J Med Inform. 2017 Jan;97:341-352
Garza M et al. Evaluating common data models for use with a longitudinal community registry. J Biomed Inform. 2016 Dec;64:333-341.
Gini R et al. Data Extraction and Management in Networks of Observational Health Care Databases for Scientific Research: A Comparison of EU-ADR, OMOP, Mini-Sentinel and MATRICE Strategies. EGEMS (Wash DC). 2016 Feb 8;4(1):1189.
Girardeau Y et al. Leveraging the EHR4CR platform to support patient inclusion in academic studies: challenges and lessons learned. BMC Med Res Methodol. 2017 Feb 28;17(1):36.
Halpern Y et al. Electronic medical record phenotyping using the anchor and learn framework. J Am Med Inform Assoc. 2016 Jul;23(4):731-40.
Harle CA, Lipori G, Hurley RW. Collecting, Integrating, and Disseminating Patient-Reported Outcomes for Research in a Learning Healthcare System. EGEMS(Wash DC). 2016 Jul 7;4(1):1240.
Harmanci A, Gerstein M. Quantification of private information leakage from phenotype-genotype data: linking attacks. Nat Methods. 2016 Mar;13(3):251-6.
Hripcsak G et al. Observational Health Data Sciences and Informatics (OHDSI): Opportunities for Observational Researchers. Stud Health Technol Inform. 2015;216:574-8.
Huser V et al. Multisite Evaluation of a Data Quality Tool for Patient-Level Clinical Data Sets. EGEMS (Wash DC). 2016 Nov 30;4(1):1239.
Kho AN et al. Design and implementation of a privacy preserving electronic health record linkage tool in Chicago. J Am Med Inform Assoc. 2015 Sep;22(5):1072-80.
Kirby JC et al. PheKB: a catalog and workflow for creating electronic phenotype algorithms for transportability. J Am Med Inform Assoc. 2016 Nov;23(6):1046
Klann JG et al.Data interchange using i2b2. J Am Med Inform Assoc. 2016 Sep;23(5):909-15.
Martin Sanchez F etal. Exposome informatics:considerations for the design of future biomedical research information systems. J Am Med Inform Assoc. 2014 May- Jun;21(3):386-90.
Murphy SN et al.High throughput tools to access images from clinical archives for research. J Digit Imaging. 2015 Apr;28(2):194-204.
Murphy SN et al. Combining clinical and genomics queries using i2b2 - Three methods. PLoS One. 2017 Apr 7;12(4):e0172187.
Sahoo SS et al.Epilepsy and seizure ontology: towards an epilepsy informatics infrastructure for clinical research and patient care. J Am Med Inform Assoc. 2014 Jan- Feb;21(1):82-9.
Shivade C et al. A review of approaches to identifying patient phenotype cohorts using electronic health records. J Am Med Inform Assoc. 2014 Mar-Apr;21(2):221-30.
7
Annexes
33
Opportunités pour la recherche en Technologies pour la Santé
Objectif: amélioration de la prédiction de la mortalité des patients admis en réanimation
Modèle de référence : Indice de Gravité Simplifié (IGS) II (1993)
• Etabli sur un panel de 13 152 patients
• Variables explicatives: âge , mode d'admission, score de Glasgow, PAS, Fr cardiaque, T°, PaO2/FIO2(mmHg), diurèse (L/24 H) , urée sanguine,
leucocytes, kaliémie, natrémie, HCO3- , bilirubine (si ictère)
• Meilleure régression logistique
Logit= -7,7631+0,0737*IGS+0,9971*log(IGS+1)
• Probabilité de mortalité e (Logit) /(1+e (Logit) )
Nouveaux modèles prédictifs exploitant les données de haute fréquence des signaux vitaux (rythme cardiaque, respiratoire, pression artérielle, etc) produits par les moniteurs de lits de réanimation
Exemple de développement d’algorithme
prédictif en réanimation (1/4)
34
Opportunités pour la recherche en Technologies pour la Santé
Etape 1 : Faire évoluer l’infrastructure de l’EDS
Installation du cluster (grappe de serveurs)
Choix d’une distribution Hadoop
Choix d’un format de stockage adapté
Choix d’une architecture de collecte de données produites au fil de l’eau
Exemple de développement d’algorithme
prédictif en réanimation (2/4)
35
Opportunités pour la recherche en Technologies pour la Santé
Exemple de développement d’algorithme prédictif en réanimation (3/4)
Etape 2 : Intégrer les données de réanimation
Exploitation des données de pondération de l’IGS II et des données de mortalité
Intégration de signaux (toutes les 15 min)
• C, FR, PA systolique & diastolique
36