• Aucun résultat trouvé

Cette étude nous a permis d’explorer l’intérêt du score de propension en grande di-mension dans le cadre de la détection de signaux en pharmacovigilance sur les bases de notifications spontanées. En considérant plusieurs approches pour la construction des scores de chaque médicament de la base de données, et plusieurs manières de prendre en compte ces scores dans les analyses, nous avons pu mettre en évidence les approches qui se sont révélées être les plus pertinentes pour la détection. Pour évaluer les performances de nos approches ainsi que des approches concurrentes basées sur des régressions pénali-sées, nous avons utilisé un ensemble de signaux de référence relatif aux lésions hépatiques d’origine médicamenteuse : l’ensemble DILIrank.

L’approche basée sur le PS qui a montré les meilleurs résultats est celle qui s’appuie sur la pondération avec les poids MW. Ses performances en termes de détection des vrais/faux signaux sont très proches de celles des approches basées sur des régressions pénalisées, qui sont les plus performantes. En termes de classement des signaux générés, elle a eu des performances proches de celles de lasso-bic, qui a fourni un classement pertinent. Les approches mwPS ont un comportement intermédiaire entre les approches basées sur des régressions multiples pénalisées et l’approche univariée dans le type de signaux générés.

L’ajustement sur le PS n’est pas la méthodologie qui a obtenu les meilleures perfor-mances dans notre étude. Les approches adjustPS ont un comportement assez similaire à celui de l’approche univariée. En particulier, elles génèrent un très grand nombre de signaux par rapport aux autres approches basées sur le PS et aux approches basées sur des régressions pénalisées. Elles montrent également une faible spécificité et une bonne sensibilité. Néanmoins, ces méthodes fournissent un classement des signaux générés per-tinent.

Les approches basées sur la pondération IPTW ont donné des résultats extrêmement médiocres. Contrairement aux poids MW, les poids dans IPTW ne sont pas normalisés et peuvent potentiellement être très grands pour les individus non exposés ayant une valeur de PS proche de zéro. Cette instabilité numérique due à des poids élevés avec IPTW a déjà été signalée dans la littérature (Yoshida et al., 2017). Pour éviter ce problème, une solution consiste à procéder à une troncature des poids : les poids supérieurs à une valeur

donnée se voient attribuer cette valeur. On procède de la même manière pour les valeurs de poids faibles (Seeger et al., 2017). Plus récemment, d’autres poids calculés à partir du PS ont été proposés : les overlap weights (Li et al., 2019). Tout comme les poids MW, ils sont construits de manière à être compris entre zero et un. Dans leur travail Li et al. (2019) montrent que cette pondération produit une estimation des effets du traitement sur la réponse d’intérêt moins biaisée et de variance moindre par rapport aux estimations obtenues avec IPTW (avec et sans troncature). Il pourrait donc être intéressant d’évaluer les performances d’une telle pondération dans le cadre de la pharmacovigilance.

Outre l’algorithme de sélection de variables bien connu hdPS, nous avons mis en œuvre trois autres méthodes d’estimation du PS dans ce cadre : deux basées sur des régressions lasso et un algorithme d’apprentissage automatique basé sur des arbres de régression. Un inconvénient de l’algorithme hdPS dans le contexte de la pharmacovigilance est que le PS obtenu avec cette méthode est construit à partir de l’EI considéré. Lorsque l’on examine plusieurs milliers d’EI, cette tâche peut s’avérer très chronophage. Au contraire, les trois autres méthodes d’estimation présentent un avantage en termes de calcul : une fois le PS estimé pour un médicament donné, il peut être utilisé pour tester son association avec n’importe quel autre EI. Néanmoins, ne pas impliquer la réponse d’intérêt dans le processus de sélection des variables à inclure dans le modèle d’estimation du PS peut amener à choisir des variables instrumentales. Comme signalé par Brookhart et al. (2006), ajouter de telles variables dans la construction du PS augmente la variance de l’estimation de l’effet de l’exposition médicamenteuse sur la réponse. Au vu des résultats de notre comparaison empirique, nous sommes cependant assez confiant dans l’utilisation de ces algorithmes pour la construction des scores. En comparant les résultats des approches issues des différents scores obtenus, nous avons constaté que la variabilité des performances s’explique majoritairement par la manière de prendre en compte le score dans l’analyse et non la méthode d’estimation de celui-ci.

Une autre source de variabilité dans l’estimation de l’effet de l’exposition est liée à l’étape d’estimation du PS. La majorité des études conduites à l’aide du PS considèrent le PS comme une valeur théorique et non une valeur estimée. La variabilité issue de l’étape d’estimation du score n’est alors pas prise en compte dans l’estimation de la

variance de l’effet de l’exposition sur la réponse d’intérêt. Pour remédier à cela, plusieurs estimateurs de la variance de l’effet de l’exposition ont été définis pour les différentes stratégies de prise en compte du PS (Williamson et al., 2012; Li et Greene, 2013; Zou et al., 2016; Abadie et Imbens, 2016). Le contexte de la pharmacovigilance est exploratoire. Les méthodes développées ici ont surtout pour but de détecter un effet délétère d’une exposition médicamenteuse. Elles n’ont pas vocation à estimer la magnitude de cet effet. Néanmoins, mettre en œuvre ces estimateurs proposés et ainsi prendre en compte l’étape d’estimation du PS serait une perspective prometteuse de ce travail : une meilleure estimation de la variance amènerait à une détection plus fiable avec nos approches.

Pour attester de la qualité d’un score de propension, on mesure sa capacité à induire l’équilibre des distribution des variables observées entre les individus traités et non traités qui ont des valeurs de PS proches. La mesure d’équilibre la plus utilisée est celle de la dif-férence de moyennes standardisées (Standardized Mean Difference, SMD) (Austin, 2011). Généralement, la SMD est définie pour chaque variable observée comme la différence stan-dardisée des moyennes (pour une variable continue) ou des proportions (pour une variable binaire) entre des populations d’individus traités et non traités appariés sur le PS (Aus-tin, 2011). Ainsi, une valeur est calculée pour chacune des variables dont on souhaite tester l’équilibre induit par le PS. La moyenne de toutes ces valeurs (l’Average Standard

Mean Difference) est utilisée comme résumé de l’information portée par les différentes

va-leurs des SMD. D’autres métriques comme la distance de Mahalanobis (Caruana et al., 2015), la distance de Kolmogorov–Smirnov, la distance de Lévy ou encore le coefficient de superposition (overlapping coefficient) ont été proposées (Ali et al., 2014). Certains de ces critères ont été utilisés dans des études pharmacoépidémiologiques basées sur le PS en grande dimension et menées sur des bases médico-administratives (Groenwold et al., 2011). Un développement pertinent de ce travail serait de mettre en œuvre ces mesures d’équilibre pour comparer plus finement les scores obtenus par nos différentes méthodes d’estimation des scores. Se poserait alors la question, dans le cadre de la pharmacovigi-lance, de trouver une manière de résumer toutes ces mesures sur chacun des scores estimés associés aux différents médicaments.

L’utilisation du BIC comme critère pour sélectionner le paramètre de pénalisation a été largement étudié. Zou et al. (2007) ont recommandé d’avoir recours à ce critère quand l’objectif visé est un objectif de sélection de variables. Dans leur travail, le BIC est calculé à partir de la vraisemblance obtenue par maximisation de la vraisemblance pénalisée et le nombre de degrés de liberté du modèle est approché par le nombre de variables ayant des coefficients de régression estimés non nuls. Des variations du BIC ont été développées spécifiquement dans le cadre des régressions pénalisées comme l’extended

BIC (Chen et Chen, 2008), le modified BIC (Wang et al., 2009) ou encore le high dimensional BIC (Wang et Zhu, 2011). Dans ce travail, nous avons utilisé le BIC dans

un cadre de sélection de modèles où la liste des modèles candidats était déterminée à l’aide de la régression lasso. Une extension intéressante de ce travail serait de considérer d’autres critères basés sur le BIC pour choisir la pénalité à appliquer dans la régression lasso.

L’une des principales difficultés dans le développement de méthodes de détection de signaux est de disposer d’un ensemble fiable et suffisamment large de signaux de référence permettant d’évaluer les performances des méthodes envisagées. Nous avons utilisé ici l’ensemble DILIrank relatif à un événement indésirable commun, ce qui n’est pas le cas pour tous les EI de la base de données.

Les critères qui permettent d’évaluer les performances des méthodes testées sont ob-tenus à partir de l’ensemble de signaux de référence. Bien que cet ensemble soit de taille importante, les performances des approches peuvent être surestimées. En effet, il est rai-sonnable de penser que parmi tous les médicaments dont le statut d’association avec l’évènement DILI n’est pas connu, seul un petit nombre est associé de façon délétère à une DILI. Or, plus de la moitié des signaux générés par chaque approche ont un statut inconnu.

Un dernier aspect à prendre en considération dans le développement de méthodes de détection de signaux concerne le coût en termes de temps de calcul. Les méthodes ba-sées sur les régressions pénaliba-sées sont nettement plus lourdes de ce point de vue que les méthodes traditionnelles de disproportionnalité, car il faut les appliquer aux milliers d’EI présents dans les bases de données. Les approches proposées basées sur le PS sont

égale-ment très coûteuses en temps de calcul dans l’étape d’estimation des scores pour chaque exposition. Par exemple, lorsque les scores sont estimés à l’aide de la méthode lasso-bic, cela revient à mettre en œuvre autant de régressions pénalisées qu’il y a de médicaments renseignés. Dans ce travail, c’est le fait de pouvoir paralléliser les tâches d’estimation qui a rendu cette étape moins chronophage. En revanche, une fois les scores estimés, les approches basées sur l’ajustement ou la pondération sur le PS sont compétitives avec les approches basées sur des régressions pénalisées en termes de temps de calcul.