• Aucun résultat trouvé

Méthodes de détection basées sur des régressions logistiques pénalisées

2.3.1 Définition de la régression logistique lasso

Le modèle de régression logistique multiple de notre réponse d’intérêt est défini par : logit(P (yi = 1|xi)) = β0+XP

j=1

βj xij, (2.1)

où β0 est le terme d’intercept et β ∈ RP le vecteur des coefficients de régression associés aux variables explicatives. Classiquement, la méthode du maximum de vraisemblance est utilisée pour estimer les paramètres (β0, β). Bien que nous ne soyons pas dans la situation où P est grand devant N, P est très grand, ce qui peut causer des problèmes numériques

pour l’estimation des coefficients de régression.

La régression pénalisée lasso introduit une contrainte sur la norme L1 des coefficients de régression. Elle consiste ainsi à estimer les coefficients de régression par

(βc0b)λ = argmax0){l((β0, β), y, X) − pen(λ)}, (2.2) où l est la log-vraisemblance du modèle (2.1), et pen(λ) est définie par :

pen(λ) = λ|β|1 = λXP

j=1

j|. (2.3)

Dans la suite, on note βbλ le vecteur de taille P dans (βc0b)λ. Grâce à la pénalité (2.3), certains coefficients de βbλ sont réduits à exactement zéro : les variables associées à ces coefficients ne sont pas « retenues » dans le modèle. Le paramètre λ permet de contrôler le degré de pénalisation qui influe directement sur le nombre de coefficients estimés non nuls : plus λ augmente, plus le nombre de composantes nulles dans βbλ augmente. On notera λk, pour k ∈ {1, .., K}, une valeur de pénalisation testée dans la régression lasso avec λ1 < .. < λk < .. < λK. Le vecteur de taille P des coefficients de régression estimés associé à λk sera noté βbλk. Un ensemble de variables dites « actives » est défini pour chacune de ces valeurs de pénalité :

S(λk) = {Xj :βbλk,j 6= 0; j = 1, ..., P },

avec βbλk,j le coefficient de régression associé à la variable Xj pour la valeur de pénalité

λk, k ∈ {1, .., K}.

2.3.2 Le lasso logistique pour la détection de signaux : premiers

travaux

Dans leur travail, Caster et al. (2010) ont développé une méthode de détection de signaux basée sur la régression lasso logistique. Ils ont mis en œuvre autant de régressions lasso que d’EI différents présents dans la base de données sur laquelle ils travaillaient (à savoir la base de pharmacovigilance de l’OMS), ce qui représentait plus de 2000 modèles

avec plus de 14 000 variables explicatives dans chaque modèle. Pour un EI donné, les signaux étaient définis comme les couples formés par cet EI et les variables appartenant à l’ensemble des variables actives associées positivement à l’EI. La valeur de pénalité λ, identique pour toutes les régressions lasso implémentées, a été fixée pour que le nombre to-tal de signaux générés soit équivalent à celui obtenu par la méthode de disproportionnalité BCPNN.

2.3.3 Stability selection et Class-Imbalanced Subsampling Lasso

Pour contourner le problème du choix du paramètre λ, la méthode stability selection proposée par Meinshausen et Bühlmann (2010) dans le cadre plus général des algo-rithmes de sélection de variables, peut être utilisée. Cette méthode consiste dans un pre-mier temps à perturber les données en les sous-échantillonnant plusieurs fois. Dans leur travail, Meinshausen et Bühlmann (2010) proposent d’implémenter un sous échan-tillonnage de taille N

2 et sans remise, afin de se rapprocher d’un échantillonnage de type

bootstrap (qui est un échantillonnage aléatoire avec remise de taille égale au nombre

d’ob-servations), tout en étant computationnellement plus efficace. Une régression lasso est ensuite implémentée sur chacun de ces sous-échantillons. Pour chaque variable Xj, on calcule pour une valeur de pénalité donnée λk la probabilité de sélection définie par :

b πλk j = 1 B B X b=1 1[βbλbk,j 6= 0], où B est le nombre de sous-échantillons considérés, et βbb

λk,j le coefficient de régression associé à la variable Xj sur le sous-échantillon b pour la valeur de pénalité λk. Les variables retenues avec cette approche sont toutes les variables Xj telles que max

λk∈{λ1,..,λK}πbλk

j ≥ πthr. Meinshausen et Bühlmann (2010) discutent de la valeur seuil πthr en fonction du contrôle du Family-Wise Error Rate (FWER).

Ahmed et al. (2018) ont proposé une variation de cette méthode pour prendre en compte le grand déséquilibre de la réponse binaire observée qu’il y a dans les bases de pharmacovigilance : l’algorithme Class-Imbalanced Subsampling Lasso (CISL). Ainsi dans CISL, les sous-échantillons sont déterminés de manière non équiprobable et avec remise pour permettre une meilleure représentation des individus qui ont experimenté l’EI

d’in-térêt. Tout comme pour stability selection, des régressions logistiques de type lasso sont implémentées sur chacun de ces B sous-échantillons. On note E la taille maximale des modèles étudiés avec le lasso logistique. La procédure CISL consiste à calculer la quantité :

b πb j = 1 E E X η=1 1[βbb η,j >0], (2.4) oùβbb

η,j est le coefficient de régression pénalisée associé à la variable Xj estimé sur le sous-échantillon b pour une valeur de pénalité menant à un ensemble de variables actives de taille η. La distribution empirique de πbb

j est déterminée sur les B sous échantillons pour chaque variable. Une variable est sélectionnée avec la méthode CISL si un certain quantile de la distribution de πbb

j est non nul. Dans leur travail, Ahmed et al. (2018) ont réalisé des études de simulation pour guider l’utilisateur sur le choix de ce quantile. Les couples définis par l’évènement d’intérêt et les variables sélectionnées avec CISL sont considérées comme des signaux puisque l’aspect délétère de l’association avec la réponse est pris en compte dans la condition de positivité sur βbj dans (2.4).

2.3.4 Utilisation du BIC pour la sélection variables avec le lasso

Dans leurs travaux, Caster et al. (2010) précisent que la très grande dimension des données considérées (qui comprenaient plus de quatre millions de notifications) ne leur avait pas permis de sélectionner le paramètre λ par validation croisée. Cette méthode consiste à diviser le jeu de données en nf sous-ensembles disjoints, ou folds, de même taille. Chaque folds est utilisé nf−1 fois pour estimer le modèle et une fois pour l’évaluer via une mesure de performance prédictive. Dans le contexte de la régression lasso, la validation croisée est effectuée pour tester les modèles correspondant aux différentes valeurs de λ considérées. Cette approche, majoritairement utilisée dans la littérature, est reconnue comme pertinente quand on cherche à répondre à un objectif de prédiction. Or, les enjeux de la pharmacovigilance s’inscrivent d’avantage dans un objectif de sélection de variables. Nous avons voulu dans ce travail mettre en œuvre un critère de sélection de λ qui serait plus approprié à cet objectif et qui ne serait pas dépendant d’une autre méthode de détection. Ainsi, nous avons choisi de considérer le critère BIC, classiquement utilisé pour la sélection de modèles. Dans un premier temps, une régression lasso est implémentée en

considérant différentes valeurs du paramètre de pénalisation λ1, ..., λK. Pour chacun des ensembles de variables actives, une régression non pénalisée est mise en œuvre. Ainsi, le BIC d’un modèle candidat issu de la régression lasso est défini comme suit :

BICk = −2 lk+ df(λk) ln(N), (2.5)

où lk est la log-vraisemblance du modèle de régression logistique non pénalisée qui com-prend comme variables explicatives l’ensemble S(λk), et df(λk) = |S(λk)|. Si des valeurs de pénalité différentes conduisent au même ensemble de variables actives, alors les mo-dèles non pénalisés correspondants sont les mêmes, tout comme leur BIC. Ainsi, cette approche, que nous appellerons lasso-bic, sélectionne l’ensemble de variables actives qui conduit au modèle logistique non pénalisé minimisant le BIC défini en (2.5). On consi-dère comme signaux les couples formés par l’évènement d’intérêt et les variables associées positivement à la réponse dans le modèle minimisant le BIC.

2.4 Méthodes de détection basées sur le score de