• Aucun résultat trouvé

4.2 Détection de signaux dans l’Échantillon Généraliste des Bénéficiaires

4.2.1 Case-Crossover : définition et mise en œuvre

Méthodes

Avec le case-crossover, la période d’observation considérée comme « période cas » correspond à l’intervalle de temps juste avant la survenue de l’EI, et la ou les « périodes témoins » sont définies sur une ou plusieurs périodes de temps antérieure(s) à la date de survenue de l’EI. La figure 4.1 représente schématiquement le design de cette approche.

Figure 4.1 – Schéma du design du case-crossover

Dans ce découpage de la période d’étude, plusieurs contraintes sont à prendre en compte (Delaney et Suissa, 2009). Afin d’assurer l’indépendance entre la période cas et les différentes périodes témoins, une ou plusieurs périodes dites de washout sont néces-saires. Pour respecter l’hypothèse d’echangeabilité selon laquelle les différentes périodes d’observation sont comparables en termes de facteurs de confusion variant dans le temps, les périodes témoins doivent être proches dans le temps de la période cas. Ainsi formalisé, le CCO peut être vu comme une version du design cas-témoins. L’outil classiquement utilisé pour l’analyse des données appariées est la régression logistique conditionnelle, qui permet d’introduire un terme d’intercept différent par strate d’individus appariés. En plus des notations définies en section 2.2, on note T le nombre de périodes considérées par indi-vidu, qui consistent donc en une période cas et T − 1 périodes témoins. Pour cette section uniquement, la matrice de données X sera de dimension (N × T ) × P : on compte par individu autant de lignes que de périodes considérées. De même, la réponse d’intérêt est ici définie par y ∈ R(N×T ). On note xit= (xit1, .., xitP) le vecteur de covariables observées

pour l’individu i ∈ {1, ..., N} sur la période t ∈ {1, ..., T }. On considère le modèle : Pit= P (yit = 1|xit) = exp(αi+PP j=1βj xitj) 1 + exp(αi+PP j=1βj xitj) = exp(αi + xitβ) 1 + exp(αi+ xitβ), (4.1) avec β ∈ RP le vecteur de paramètres d’intérêt. On peut réécrire le modèle (4.1) de la manière suivante :

logit(Pit) = log Pit

1 − Pit



= αi+ xitβ.

Pour une strate i, il n’y a qu’une seule valeur de t ∈ {1, .., T } telle que yit = 1. Dans le cas du case-crossover, c’est la dernière période d’observation qui remplit cette condition, on a alors yiT = 1. Ainsi, conditionnellement au fait qu’il n’y a qu’un seul cas par strate, la vraisemblance conditionnelle pour un individu donné s’écrit :

PiT ×QT −1 t=1(1 − Pit) PT l=1PilQTt=1,t6=l(1 − Pit) = PiT 1−PiT QT t=1(1 − Pit) PT l=1 1−PPililQTt=1(1 − Pit) = PiT 1−PiT PT l=1 1−PPilil = exp(αi) exp(xiTβ) exp(αi)PT l=1exp(xilβ) = exp(xiTβ) PT l=1exp(xilβ).

Le terme d’intercept αi disparaît. Ainsi la log-vraisemblance conditionnelle de ce modèle est donnée par l’expression :

l(β) =XN i=1 " T X t=1yitxitβ −log XT l=1 exp(xilβ) !# .

Dans le cadre de la grande dimension, il a été développé une version pénalisée du modèle (4.1) avec une pénalisation de type lasso (Avalos et al., 2012; Simpson et al., 2013) : lλ(β) =XN i=1 " T X t=1 yitxitβ −log XT l=1exp(xilβ) !# − λ|β|1. (4.2)

On note βbλ = arg maxβ(lλ(β)), avec βbλ ∈ RP. Ainsi, tout comme pour le lasso logistique présenté en section 2.3.1, la pénalité de norme L1 sur les coefficients de régression permet

de réduire à exactement zéro certains coefficients du vecteur βbλ et ainsi, de procéder à une sélection de variables. Le problème lié à la sélection du paramètre de pénalité λ se pose également dans le cadre de la régression logistique conditionnelle pénalisée.

Ici, nous avons considéré deux critères différents pour le choix de λ dans (4.2) pour mettre en œuvre des méthodes de détection de signaux : le BIC et l’AIC. La procédure utilisée est la même que celle présentée en section 2.3.4 : des régressions logistiques condi-tionnelles non pénalisées sont implémentées à partir des variables sélectionnées par le lasso pour différentes valeurs de λ, le BIC et l’AIC étant ensuite calculés pour chacun de ces modèles. Les signaux générés sont les variables qui ont un coefficient strictement positif dans les régressions logistiques conditionnelles multiples non pénalisées minimisant le BIC et l’AIC respectivement. Dans la suite, on fera référence à ces approches de détection sous les appellations cco-bic et cco-aic.

Nous avons également mis en œuvre une approche de détection univariée, qui consiste à implémenter des régressions logistiques conditionnelles univariées où la réponse d’intérêt est régressée par rapport à chaque exposition séparément. Cette approche naïve nous servira dans la suite comme d’un niveau de référence en termes de performances quand aucun moyen de prise en compte de la confusion n’est mis en œuvre. On appellera cette approche cco-univ. On considère comme signaux les variables qui sont associées de manière délétère avec la réponse d’intérêt et qui ont une p-valeur corrigée pour la multiplicité des tests inférieure à 5% (Benjamini et Yekuteli, 2001).

Les régressions logistiques conditionnelles pénalisées ont été implémentées à l’aide de la version 3.0.0 du package R Cyclops (Suchard et al., 2013), et les régressions logistiques conditionnelles non pénalisées ont été implémentées à l’aide de la version 3.1-8 package R survival.

Paramétrages

Nous avons testé au total huit paramétrages différents dans l’étape de mise en forme des données pour appliquer les approches autour du CCO. Nous avons fait varier :

• le nombre de périodes témoins : 1 ou 4 périodes

• la durée des périodes d’étude : 30, 60 ou 90 jours.

Toutes les configurations liées à ces différences de paramétrage ne sont pas testées. Les paramétrages que nous avons considérés sont présentés dans le tableau 4.1.

Paramétrage Nombre de Durée des périodes de Durée des périodes

périodes témoins washout (jours) à risque (jours)

1 1 30 30 2 4 30 30 3 1 15 30 4 4 15 30 5 1 30 60 6 4 30 60 7 1 30 90 8 4 30 90

Tableau 4.1 – Paramétrages testés dans la mise en œuvre du case-crossover pour la détection de signaux dans l’EGB.

Pour chaque paramétrage, on ne considère que les médicaments qui ont été prescrits chez au moins dix individus sur l’ensemble des périodes d’étude. En fonction du nombre de périodes d’étude considérées et de leur longueur, le nombre de variables médicaments varie.