• Aucun résultat trouvé

PARTIE 1 : INTRODUCTION GENERALE

III. Analyse de données médico-administratives

La France dispose d’une grande quantité de bases de données médico-sociales et économiques gérées par des organismes publics, qui couvrent de façon quasi-exhaustive et permanente l’ensemble de la population. C’est le cas notamment de l’Assurance maladie qui détient une quantité « massive » de données médico-administratives, créées à des fins de gestion budgétaire, en particulier pour le remboursement et le suivi des dépenses de santé. Ces données présentent un potentiel considérable pour la recherche épidémiologique et pharmaco-épidémiologique du fait de leur disponibilité, de leur exhaustivité et du coût « nul » associé à leur extraction, dans une perspective de réutilisation (R-2). Cependant, elles sont encore largement sous-exploitées même si leur utilisation dans le domaine de la recherche

scientifique s’est largement développée au cours de ces dernières années. On observe une même tendance dans le monde entier comme par exemple à Taiwan (R-3), au Japon (R-4), au Canada (R-5) ou encore aux États-Unis (R-6, R-7, R-8).

En France, depuis quelques années déjà, les agences (Santé Publique France, Haute autorité de Santé, Agence nationale de sécurité du médicament, …) travaillent sur ces données notamment dans le cadre de la surveillance sanitaire (86, R-9). En effet, ces données peuvent être analysées dans le but d’améliorer la santé et le bien-être de la population, de réduire les dépenses de santé, de prévenir l’apparition de maladies ou d’épidémies, de détecter des évènements de santé inhabituels susceptibles de constituer une alerte de santé publique ou encore d’extraire des informations nécessaires à la prise de décisions éclairées par les pouvoirs publics (87,88). D’ailleurs, les données médico-administratives provenant du Système National des Données de Santé (SNDS)2 ont montré leur intérêt et la pertinence de leur utilisation en contribuant à alimenter des dispositifs pour la surveillance de maladies chroniques ou de maladies infectieuses (89,90). Par exemple, la cohorte française CONSTANCES (cohorte des consultants des centres d’examens de santé), constituée d’un échantillon de 200 000 adultes, procède notamment à un « suivi passif » des individus inclus en recueillant des données de systèmes nationaux dont le SNDS. Ceci en fait un outil utile pour la surveillance épidémiologique, qui se décline au travers de plusieurs projets, en collaboration avec Santé Publique France (R-10, 89).

D’un point de vue technique, l’utilisation des données de source assurantielle à des fins épidémiologiques et de surveillance nécessite un savoir-faire ainsi qu’une bonne connaissance des limites de ces données, du fait de leur complexité, de leur imprécision et de leur volume. De plus, contrairement aux données de registres3 ou récoltées pour des cohortes, le contrôle des biais liés aux données (qualité, cohérence, …) est bien moins aisé : différences possibles d’accès aux soins au sein de la population couverte, imprécision des données, difficultés pour évaluer la qualité du codage (pouvant varier géographiquement par exemple), absence de données cliniques ou de facteurs de risque comportementaux majeurs (ex : tabagisme), … (R-12, R-13). Un temps important consacré au nettoyage, au contrôle et à la compréhension de ces données pour en vérifier la fiabilité et en mesurer les limites, pour certaines incontournables, est donc un préalable indispensable avant d’entamer toute analyse

2 Système regroupant l’ensemble des données de l’Assurance Maladie (Système National d’Informations Inter-Régimes de l’Assurance Maladie, « Sniiram ») et des hôpitaux mais aussi les causes médicales de décès (CépiDC) et les données relatives au handicap. Ce système a pour finalité la mise à disposition des données de santé en France afin de favoriser les études contribuant par exemple à la surveillance, à la veille et à la sécurité sanitaire (https://www.snds.gouv.fr/).

3 Exemple : Dans les pays d’Europe du Nord, le croisement de registre du cancer aves les données de métier issues du recensement avec NOCCA, la « Nordic Occupational Cancer Study » (R-11)

statistique complexe (84, R-14). Il s’agit ensuite de réaliser les jointures et transformations nécessaires de ces données, pouvant être issues de nombreuses tables, pour permettre les analyses. Le choix éclairé des méthodes statistiques ou épidémiologiques classiques et/ou de méthodes issues plus largement des sciences de données et du machine learning est alors un challenge important. Ce choix est fonction tant des objectifs (ex : surveillance temporelle, génération d’hypothèses, etc) que des caractéristiques des données (R-15, R-16).

Ainsi, afin d’extraire des informations nouvelles et utiles à partir de ce type de données « massives », il convient d’utiliser des méthodes de fouille de données ou data mining. Le data mining désigne l’ensemble des méthodes et techniques destinées à l’exploration et l’analyse de grandes bases de données. Dans le domaine de la santé, ces méthodes sont déjà largement utilisées que ce soit pour des applications :

- descriptives, afin de permettre la mise en évidence d’informations présentes mais cachées par le volume de données (exemples : recherche d’associations entre des expositions environnementales et des maladies chroniques) ;

- ou prédictives, afin d’extrapoler de nouvelles informations à partir des données connues (exemple : prédiction du temps de rétablissement après une opération) (91,92, R-16).

Dans certains cas, les deux types d’applications sont utilisées. Par exemple, si le but est de suivre la propagation spatio-temporelle d’une épidémie, il s’agira dans un premier temps de décrire la situation à un instant t mais aussi de prédire l’évolution de la situation afin de mettre en place des actions de prévention. Pour ces différentes applications, la modélisation est souvent utilisée afin de traduire le phénomène voulant être étudié en langage mathématique. Selon la problématique de l’étude, diverses méthodes de modélisation peuvent être utilisées dont les plus connues, de façon générale, sont la régression linéaire, la régression logistique, les modèles de survie, les forêts aléatoires ou les réseaux de neurones.

Documents relatifs