• Aucun résultat trouvé

2.4 Méthodes de détection basées sur le score de propension en grande dimension 20

2.4.3 Score de propension en grande dimension et pharmacovigilance

Appliquée dans le domaine de la pharmacovigilance, la méthodologie du score de pro-pension en grande dimension consiste à construire un PS pour chaque exposition médica-menteuse considérée. A notre connaissance, Tatonetti et al. (2012) sont les premiers à avoir mis en œuvre une stratégie de détection qui repose sur un PS en grande dimension dans le cadre des données de notifications spontanées. Dans leurs travaux, les variables à inclure dans le score d’une exposition d’intérêt étaient choisies parmi les autres médica-ments et parmi les autres EI que celui considéré. Les variables étaient sélectionnées selon leur fréquence de co-notification avec le médicament d’intérêt. Une fois les scores estimés avec des régressions logistiques, les individus exposés et non exposés étaient appariés selon leur PS.

Construction des scores de propension en grande dimension

Dans ce travail, nous avons cherché à construire un PS pour chaque exposition médica-menteuse présente dans la base de données. Les variables à inclure dans le modèle de PS sont sélectionnées parmi les autres expositions médicamenteuses. Nous avons considéré quatre approches pour l’estimation de PS en grande dimension.

La première approche mise en œuvre repose sur l’algorithme hdPS. Pour une ex-position, nous avons considéré les ν = 20 premières variables sélectionnées par cette algorithme.

Nous avons également testé deux méthodes d’estimation des scores qui reposent sur la régression logistique lasso. Nous avons utilisé les méthodes de sélection de variables présentées respectivement en section 2.3.4 et 2.3.3 : lasso-bic et CISL. Avec lasso-bic, les variables retenues pour la construction du score sont toutes celles présentes dans le modèle qui minimise le BIC. Dans CISL, la condition sur βbj dans (2.4) d’être strictement positif a été remplacée par une condition de non nullité. Toutes les variables dont le quantile à 10% de leur distribution est supérieur à zéro ont été sélectionnées.

Une fois les variables à inclure dans les PS en grande dimension obtenues avec hdPS, lasso-bic et CISL, les scores ont été estimés à l’aide de régressions logistiques multiples classiques.

La quatrième approche mise en œuvre pour l’estimation du PS repose sur l’utilisation d’arbres de régression boostés implémentés à l’aide de l’algorithme gradient tree boosting, (GTB) (Hastie et al., 2009). Nous avons fixé le nombre d’arbres à 200, la profondeur maximale de ces arbres à 6 et la valeur de ζ à 0,1.

Les régressions lasso ont été implémentées à l’aide de la version 2.0-10 du package R glmnet. Nous avons limité le nombre maximum de variables dans la régression lasso à 150 quand le BIC est utilisé pour sélectionner λ et à 50 avec CISL, évitant ainsi des instabilités numériques dans l’estimation des scores avec la régression logistique. Les arbres de régressions boostées ont été implémentés à l’aide de la version 0.6–4 du package R xgboost.

Utilisation des scores de propension en grande dimension

Une fois les différents PS estimés, nous avons examiné deux méthodes de prise en compte des scores sur les quatre présentées dans la section 2.4.1. Nous avons d’abord procédé à un ajustement sur le score de propension. En notant ebij le PS estimé associé à l’exposition médicamenteuse j de l’individu i, nous avons implémenté le modèle de régression logistique suivant :

logit(P (yi = 1|xij,ebij)) = β0+ βjxij +βejebij.

Nous avons implémenté la pondération IPTW, où le poids attribué à l’individu i selon le PS associé à Xj est défini par :

wIP T W ij = xij b eij + 1 − xij 1 −ebij .

Cette pondération va avoir tendance à donner un poids élevé aux individus non traités qui ont des valeurs de PS élevées et aux individus traités qui ont des valeurs de PS faibles. Comme certaines expositions médicamenteuses sont très peu notifiées, et ont ainsi très peu de notifications en commun avec l’EI d’intérêt, apparier les individus sur le PS peut conduire à des pertes dommageables d’individus qui ont fait l’expérience à la fois de l’exposition médicamenteuse et de la réponse. En gardant cette contrainte à l’esprit,

nous avons implémenté un autre type de pondération qui tend à mimer un appariement sur le PS en recréant une pseudo population moyenne qui serait celle d’un appariement classique 1:1. Ce type de poids sont appelés Matching Weights (MW) (Li et Greene, 2013; Franklin et al., 2017) et sont définis par :

wijM W = min(ebij,1 −ebij)

xijebij + (1 − xij)(1 −beij).

Contrairement à l’appariement qui écarte les sujets non appariés, la pondération avec les MW n’exclut aucun individu « entièrement », à la place elle réduit le poids de certains d’entre eux. Cette pondération va avoir tendance à donner un poids faible aux individus traités qui ont des valeurs de PS élevées et aux individus non traités qui ont des valeurs de PS faibles. Les individus qui reçoivent des poids élevés avec la pondération IPTW se voient attribuer avec cette pondération un poids égal à un, la valeur maximale des MW. Nous avons implémenté des régressions logistiques pondérées avec ces deux types de pondération, avec comme seule variable explicative l’exposition d’intérêt. La vraisem-blance d’une telle régression est définie par :

L=YN

i=1

P(yi = 1|xij)wγijyi(1 − P (yi = 1|xij))wγij(1−yi),

avec γ = IP T W ou MW . Toutes les régressions logistiques non pénalisées ont été implé-mentées à l’aide de la version 0.3-2 du package R speedglm.

Correction de tests multiples

Pour toutes ces méthodes de détection basées sur le PS en grande dimension, la règle de décision pour générer un signal est celle appliquée dans le cadre des tests d’hypothèses. Pour tenir compte de la multiplicité des hypothèses testées, nous avons employé une procédure de correction de tests multiples qui a été proposée dans le cadre de la phar-macovigilance (Ahmed et al., 2010). Cette procédure repose sur l’estimation du FDR à partir du location based estimator proposé par Dalmasso et al. (2005) et prend en compte le fait que les tests réalisés soient unilatéraux.