• Aucun résultat trouvé

Que ce soit pour les bases de notifications spontanées ou les BMA, le développement de nouvelles méthodes de détection de signaux est essentiel pour améliorer la réactivité et l’efficacité des systèmes de surveillance en pharmacovigilance. Il s’agit de mettre au point des outils statistiques qui génèrent un nombre raisonnable de signaux à analyser par des experts, tout en fournissant une liste de signaux pertinents avec le moins de fausses associations possible.

L’objectif général de cette thèse est double. Le premier objectif est de proposer et évaluer de nouvelles méthodes statistiques pour la détection de signaux sur les données de notifications spontanées. Deux directions ont été prises. L’une porte sur la proposition d’approches développées pour l’analyse des BMA : l’utilisation du score de propension en grande dimension. L’autre prolonge les développements méthodologiques autour de la sélection de variables avec le lasso et propose d’exploiter le lasso adaptatif. Ces deux propositions méthodologiques font l’objet des chapitres 2 et 3 de ce manuscrit.

Le deuxième objectif, faisant l’objet du chapitre 4, vise à proposer des stratégies de détection exploitant les deux sources de données que sont les notifications spontanées et

les BMA. Nous avons, dans un premier temps, évalué les performances d’une détection basée sur l’EGB à partir d’une étude empirique. Dans un second temps, nous avons considéré une approche basée sur le lasso adaptatif afin d’intégrer dans la détection sur les notifications spontanées l’information apportée par un groupe contrôle constitué dans l’EGB.

L’évaluation de nouvelles méthodes de détection de signaux peut être conduite sur la base d’études de simulations ou d’études empiriques sur données réelles. Nous avons ici utilisé ces deux approches. Dans le premier cas, la difficulté consiste à proposer un modèle de simulation qui rende compte de la complexité des données. Dans le second cas, la difficulté réside dans le fait de devoir évaluer la pertinence d’un grand nombre de signaux générés. Cette évaluation, en plus d’être très chronophage, nécessite une expertise pharmacologique pointue. Cette difficulté a été contournée ces dernières années par la constitution d’ensembles de référence, c’est-à-dire d’ensembles de couples (médicament, EI) avec un lien avéré. Pour permettre l’évaluation quantitative de méthodes de détection de signaux, il est nécessaire que ces ensembles soient de taille conséquente. Parmi les ensembles de référence souvent utilisés dans littérature, on trouve celui établi par l’OMOP qui contient 400 couples en lien avec quatre événements indésirables : les lésions hépatiques aiguës, les lésions rénales aiguës, les infarctus du myocarde aigus et les hémorragies gastro-intestinales (Ryan et al., 2013b). Les études empiriques conduites tout au long de ce travail de thèse se sont appuyées sur un autre ensemble de référence établi plus récemment et relatif aux lésions hépatiques d’origine médicamenteuse (Drug-Induced Liver Injury, DILI) (Chen et al., 2011, 2016).

Score de propension en grande

dimension pour la détection de

signaux à partir des notifications

spontanées

2.1 Introduction

Afin de pallier certains biais inhérents aux méthodes de disproportionnalité, des ap-proches de détection de signaux qui s’appuient sur la forme individuelle des données de notifications spontanées ont été proposées. Les données se présentent sous la forme de deux matrices binaires qui ont toutes deux le même nombre de lignes, égal au nombre de notifications enregistrées, et respectivement autant de colonnes que de médicaments ou d’évènements indésirables (EI) renseignés dans la base. Ces deux matrices sont de grande dimension et ont la particularité d’être extrêmement creuses. En effet, le nombre de mé-dicaments et d’EI mentionnés dans une notification reste très faible comparé au nombre de médicaments et d’EI différents présents. Ainsi l’observation est une notification, les variables explicatives sont les nombreuses indicatrices de présence de médicaments et la réponse d’intérêt est la présence ou l’absence d’un EI donné. Une régression logistique multiple est alors utilisée pour régresser la réponse d’intérêt par rapport à toutes les va-riables médicament. Pour conduire une détection complète, il faut mener cette analyse

pour tous les EI présents dans la base de données.

Étant donné le nombre important de variables présentes, Caster et al. (2010) ont proposé d’utiliser une régression pénalisée de type lasso. Cette méthode est particuliè-rement adaptée au cadre de la grande dimension. De par le type de pénalité appliqué, elle permet d’obtenir des modèles parcimonieux en réduisant à exactement zéro certains coefficients de régression. Les signaux sont alors définis comme les couples formés par l’EI considéré et les variables ayant un coefficient de régression associé positif. Caster

et al. (2010) ont fixé le degré de pénalisation de la régression, qui influe directement sur le

nombre de variables ayant des coefficients non nuls et donc a fortiori positifs, en se com-parant au nombre de signaux générés par une méthode de disproportionnalité. Ahmed

et al. (2018) ont par la suite proposé une approche de détection basée sur une variation

de stability selection (Meinshausen et Bühlmann, 2010) qui repose sur une procédure de sous-échantillonnage déséquilibré.

Une stratégie alternative pour faire face au grand nombre de variables présentes est d’avoir recours à la méthodologie du score de propension (PS). Cette méthode permet de résumer l’information dans un score de synthèse défini comme la probabilité d’être exposé à un médicament d’intérêt conditionnellement aux variables observées. Largement utilisé en pharmacoépidémiologie, il permet d’étudier l’association entre un EI et un médicament donné en se rapprochant des conditions d’expérience des essais randomisés. Les variables à inclure dans le modèle d’estimation du PS sont sélectionnées à partir de la littérature, ou de connaissances d’experts. Le but de cette sélection est d’inclure les facteurs de confusion qui interviennent dans la relation entre l’EI et le médicament, ainsi que les prédicteurs de l’EI. Une fois le score estimé, il est intégré dans le modèle de régression sur l’évènement d’intérêt. Il permet de réduire le biais dans l’estimation de la relation entre l’EI et le médicament considéré en prenant en compte la confusion mesurée.

Récemment, l’idée a émergé d’utiliser le PS dans l’exploitation de grandes bases de données de santé, en particulier des bases médico-administratives (BMA). Les BMA, qui n’ont pas été conçues pour répondre à des questions de recherche biomédicale, ne contiennent pas, a priori, tout ou partie des variables de confusion associées à l’exposition et à l’évènement d’intérêt. Ainsi l’hypothèse qui est faite derrière l’utilisation de PS dans ce cadre, qui est celui de la grande dimension, est que la multitude des informations

présentes permettent de mesurer indirectement ces facteurs de confusions. La principale difficulté dans la mise en œuvre de la méthode du PS en grande dimension réside dans la sélection des variables à inclure dans le modèle d’estimation du PS. Dans le cadre de la pharmacoépidémiologie, Schneeweiss et al. (2009) ont proposé l’algorithme du score de propension en grande dimension (high-dimensional Propensity Score, hdPS) pour sélectionner de manière automatique les variables à inclure dans le modèle. Par la suite, d’autre méthodes de sélection de variables et d’estimation du PS en grande dimension ont été proposées (Mccaffrey et al., 2004; Franklin et al., 2015, 2017; Ju et al., 2019)

Dans le cadre de la pharmacovigilance, il s’agit de construire un score par exposi-tion médicamenteuse considérée. Cette stratégie, encore peu explorée, a donné lieu à de récents développements méthodologiques dans le cadre des bases médico-administratives (Demailly et al., 2020). Dans le contexte des données de notifications spontanées, Ta-tonetti et al. (2012) ont étudié l’utilisation d’une stratégie basée sur le PS et ont illustré son intérêt en la comparant à une méthode de disproportionnalité. Dans leur travail, les variables à inclure dans les scores étaient déterminées selon des critères empiriques.

Dans ce chapitre, nous présentons plusieurs méthodes basées sur le score de propen-sion en grande dimenpropen-sion pour la détection de signaux à partir des données de notifica-tions spontanées. Nous considérons quatre méthodes d’estimation du PS ainsi que trois stratégies d’intégration des scores estimés dans l’analyse de l’effet de l’exposition médica-menteuse sur l’EI d’intérêt. Nous comparons ces méthodes à des approches basées sur des régressions lasso. Cette étude comparative empirique est effectuée à partir une extraction de la BNPV sur la période 2000-2016 en utilisant un large ensemble de signaux de réfé-rence concernant un effet indésirable commun : drug-induced liver injury (DILI) (Chen

et al., 2011, 2016).

Dans un premier temps, nous présentons les méthodes de détection qui reposent sur la régression pénalisée lasso. Nous proposons également de formaliser une méthode de détection basée sur la régression lasso et qui repose sur le BIC. Dans un second temps, nous présentons la méthodologie du score de propension dans le cas classique puis dans le cas de la grande dimension. Enfin, nous présentons les méthodes de détection de signaux basées sur le score de propension en grande dimension que nous proposons. Les performances de toutes les méthodes de détection considérées sont comparées sur données réelles.