Sélection des variables d'intérêt - Discussion et conclusion

4.4 Discussion et conclusion

5.2.2 Sélection des variables d'intérêt

Nous avons choisi d'employer le modèle de Cox pour analyser les données de survie ainsi simulées. Un bref rappel de ce modèle et des notations utilisées est présenté ci-dessous.

5.2.2.1 Le modèle de Cox

Soit X une matrice (n, p) exprimant p variables (ici les gènes) pour n individus, telle que X ={x₁, ...,x_n}, oùx_iest le vecteur contenant les niveaux d'expression despgènes de l'individu i.t_i,i= 1, .., nsont les temps de suivi pour chacun des individus.d_i,i= 1...nsont les indicateurs de l'état observé du patient au temps ti, avec di = 1 si le décès a déjà été observé au temps t_i, et d_i = 0 si l'individu est toujours vivant au temps t_i (donnée censurée). Le modèle de Cox à taux proportionnel relie le risque instantané de décès λ(t, X) et la matrice de covariables X d'un individu par le modèle suivant :

λ(t, X) = λ₀(t)exp(β⁰X)

où λ0(t) est le risque de base, β = {β1, ..., βp} est le vecteur de paramètres associé aux p variables. Le vecteur β optimal est celui qui maximise la vraisemblance du modèle ci-dessus, appelée vraisemblance partielle de Cox (PL) et dénie par :

P L(β) = Y

k∈D

exp(β⁰x_k) P

j∈Rkexp(β⁰x_j)

où D est l'ensemble des indices de l'événement et R_k l'ensemble des individus à risque au temps tk. On posel(β) =−logP L(β), la log-vraisemblance partielle du modèle.

Dans le cas des gènes, le nombre de variables est trop important pour obtenir la forme analytique de la vraisemblance. Une solution à ce problème est d'utiliser des méthodes de régu-larisation, comme évoqué dans la partie 2.3.3. Parmi les méthodes proposées dans la littérature, nous avons retenu la méthode du "gradient seuillé", dite TGD pour "Threshold Gradient Des-cent path". Initialement proposée par Friedman et Popescu [74], cette méthode a été adaptée au modèle de Cox dans le cadre des biopuces par Gui et Li [75].

5.2.2.2 Méthode du gradient

Le principe de la méthode du gradient est de construire le vecteur des paramètres β de manière itérative. Les valeurs des paramètres à chacune des itérations dénissent un chemin dans l'espace des paramètres. Ce chemin est déni par un point initial, un point nal, et une formule dénissant le passage d'un point du chemin au suivant. Le point initial correspond au modèle nul, tous les paramètres étant à zéro ; le point nal correspond au modèle incluant toutes les variables. Le déplacement se fait dans la la direction opposée au gradient d'une fonction de perte choisie, l'erreur quadratique moyenne par exemple pour le modèle de régression linéaire.

Chaque pas est déni de la manière suivante :

βˆ(ν+ ∆ν) = ˆβ(ν) + ∆ν.g(ν)

Le paramètre ν, initialement nul, contrôle le nombre de pas ; ∆(ν)>0contrôle la largueur de ce pas ; enn, g(ν)est le gradient négatif de la fonction de perte à l'étape ν.

Avec cette méthode, les paramètres estimés pour des variables corrélées sont peu dispersés.

D'autres méthodes de régularisation, telles la régression ridge basée sur la pénalité de typeL2,

conduisent à ce même phénomène. A l'inverse, les méthodes basées sur la pénalité de type L1 produisent des estimations de paramètres très dispersées.

Dans l'objectif de construire des modèles intermédiaires entre ces deux extrêmes, et per-mettre une hétérogénéité des paramètres estimés, Friedman et Popescu [74] proposent une mé-thode de "gradient généralisé". La construction du vecteur de paramètres est cette fois dénie de la manière suivante :

βˆ(ν+ ∆ν) = ˆβ(ν) + ∆ν.h(ν)

h(ν)dénit la direction du chemin dans l'espace des paramètres, tangente àβˆ(ν), et est dénie par h(ν) = {fj(ν).gj(ν)}^p₁.

Les termes {fj(ν)}^p₀ ≤ 0 permettent de pondérer les composantes du gradient. L'introduction de cette pondération permet la diversication des paramètres estimés. Sa dénition conduit à diérentes méthodes, dont celle du "gradient seuillé" TGD ("Threshold Gradient Descent").

Dans ce cas :

fj(ν) = I[|gj(ν)| ≥τ.max1≤k≤p|gk(ν)|]

I[.] correspond au symbole de Kronecker, et τ ∈ [0,1] contrôle la diversité des paramètres estimés. A travers f(ν), les coecients mis à jour à chaque étape dépendent de la valeur de τ. La gure 5.2, issue du rapport technique de Friedman et Popescu [74], illustre le rôle du paramètreτ. Des données ont été simulées pour 150 observations telles que sur 10 000 variables, seules les 100 premières sont prédictives dans un modèle de régression linéaire. Les estimations des paramètres en bleu sont celles des variables simulées comme prédictives, tandis que celles en rouge sont celles des variables correspondant à du bruit. Pourτ = 0, toutes les variables sont retenues dans le modèle nal et les estimations sont peu dispersées. Toutes les variables prédic-tives sont conservées dans le modèle, mais au prix de la conservation de variables de bruit. Avec τ = 1, un nombre restreint de variables est cette fois retenu. L'essentiel des variables retenues sont eectivement prédictives, mais toutes les variables prédictives n'ont pas été retenues. Un seuil τ = 0.6 permet un compromis entre ces extrêmes : davantage de variables prédictives sont retenues, tout en conservant un nombre de variables de bruit faible.

Le seuil permet ainsi de dénir un compromis entre le nombre de vrais positifs et de faux positifs conservés dans le modèle nal. On peut également noter que plus il y a de variables sélectionnés, plus l'estimation de leur coecient est faible. Ce paramètre inuence donc

égale-ment la force du rétrécisseégale-ment des coecients des variables introduites dans le modèle nal.

Fig. 5.2: Estimation des 200 premiers paramètres du modèle de régression pour diérentes valeurs de τ. Les estimations des paramètres en bleu sont celles des variables prédic-tives, tandis que celles en rouge sont celles des variables correspondant à du bruit.

5.2.2.3 Adaptation au modèle de Cox

Dans le contexte des biopuces, Gui et Li [75] ont adapté le modèle du TGD au modèle de Cox.

Les auteurs ont choisi comme fonction de perte la log-vraisemblance partiellel(β) =−logP L(β) dénie plus haut. Dans ce cas, le gradient est déni par∂l/∂β et la construction du vecteur de paramètres se fait dans la direction opposée au gradient : g=−∂l/∂β

L'algorithme de cette méthode est le suivant : 1. β(0) = 0 etν = 0

2. Calcul du gradient de la fonction de perteg=−∂l/∂β pour le β courant.

3. Calcul de defj(ν) = I[|gj(ν)| ≥τ.max1≤k≤p|gk(ν)|]

4. Mise à jour du vecteur de paramètres :βˆ(ν+ ∆ν) = ˆβ(ν) + ∆ν.h(ν) 5. Répétition des étapes 2 à 4 jusqu'à convergence de l'estimation deβ.

La valeur de ν optimale est celle qui minimise la log-vraisemblance partielle cross-validée.

Au terme du processus itératif, seuls les gènes estimés comme reliés à la survie ont un coecient non nul, et seront donc ainsi sélectionnés.

Nous avons choisiτ = 0.8, comme proposé dans l'application de Gui et Li [75] de la méthode au jeu de données de Rosenwald sur 240 patients atteints d'un démembrement des lymphomes

B dius à grandes cellules (DLBCL). Étant donné le nombre important de gènes non informatifs attendus sur une biopuces, ce choix nous a semblé un bon compromis pour conserver dans le modèle le maximum de vrais positifs sans conserver trop de faux positifs.

5.2.2.4 Bilan

Appliquée aux gènes, la méthode du TGD combine ainsi la sélection des gènes d'intérêt et l'estimation de leur eet sur la survie. Nous avons utilisé cette méthode uniquement comme méthode de sélection, comme cela sera explicité par la suite (cf partie 5.4).

Pour les variables clinico-biologiques classiques en revanche, et pour tenir compte du fait qu'elles ne sont plus sujettes à sélection, nous les avons toutes deux introduites dans les modèles, que leur apport soit ou non signicatif sur le jeu de données considéré.

Dans le document Évaluation de modèles pronostiques issus de l'analyse du<br />transcriptome (Page 78-82)