• Aucun résultat trouvé

II. Etude des déterminants et contribution à une classifica-

1.3 Modèle à fragilités

`pl(t|X,β) =Xn i=1 δi βTxi−log(X j∈Ri exp(βTxj)) (9)

De nombreuses méthodes permettent d’analyser la survenue d’un événement en pré-sence de censure. L’estimation de la courbe de survie permet de visualiser l’effet d’une covariable. Le modèle de Cox permet de quantifier cet effet. Cependant, il est souvent peu réaliste du fait de l’hétérogénéité intrinsèque à la population observée. Cette hétéro-généité peut être prise en compte via un effet aléatoire dans le modèle à fragilités qui sera présenté dans la section suivante.

1.3 Modèle à fragilités

Dans le cadre de l’analyse de survie (comme dans d’autres champs statistiques), il n’est en général pas raisonnable d’omettre la prise en compte des différences inobservables entre individus [5]. En effet, ceux ayant un risque élevé sont susceptibles de connaître plus tôt l’événement, ne laissant que des individus avec un risque plus faible. Au fur et à mesure du temps, le taux de défaillance est ainsi tiré vers le bas, pour des raisons non pas liées aux covariables, mais à l’existence d’une hétérogénéité individuelle (comme des facteurs

1. Introduction aux méthodes de survie génétiques inobservés par exemple).

Cette hétérogénéité peut être modélisée par des effets fixes individuels, ou des effets aléatoires, qui sont appelés fragilités dans ce cadre (traduction de l’anglais « frailty »). Ces modèles sont généralement complexes, notamment du point de vue computationnel [42]. Il n’est en fait pas possible d’inclure des effets sur une base individuelle [112]. C’est pourquoi ceux-ci sont parfois ignorés (avec une réserve dans l’interprétation des résultats). En revanche, il est possible d’utiliser des modèles à fragilités multivariés, permettant de spécifier des dépendances au sein de groupes d’individus. Les temps de survie sont alors supposés indépendants, conditionnellement aux fragilités. Andersen et al. ont montré em-piriquement que la modélisation par des effets aléatoires donnait en général de meilleurs résultats qu’une spécification reposant sur des effets fixes [10]. Cette observation peut s’expliquer par le fait que, si la distribution des fragilités a été correctement modélisée, de l’information supplémentaire a été introduite (les effets fixes correspondant au choix de n’avoir aucun a priori sur l’hétérogénéité individuelle).

Afin de modéliser les fragilités, il est supposé que les individus appartiennent à un groupe k ∈ {1,...,K} et qu’au sein de ce groupe le taux de défaillance est amplifié d’un facteur exp(uk), où uk est un effet aléatoire lié au groupe k. Autrement dit, en notant u = (u1,...,uK)T et zi ∈ {0,1}K le vecteur indiquant le groupe d’appartenance d’un individu i, est faite l’hypothèse que le taux de défaillance h est de la forme :

h(t; xi) = h0(t) exp(βTxi+ uTzi) (10)

Les temps de survie étant supposés indépendants conditionnellement aux fragilités, la log-vraisemblance partielle devient alors :

`pl(β,u) =Xn i=1 δi βTxi+ uT zi−log(X j∈Ri exp(βT xj + uT zj)) (11)

Pour estimer les paramètres de ce modèle, une approche introduite par McGilchrist et Aisbette consiste à pénaliser la log-vraisemblance partielle conditionnelle par la dis-tribution des fragilités [153]. Ripatti et Palmgren ont développé cette approche pour les modèles à fragilités, suivant une loi log-normale [185] ; Therneau et al. l’ont fait lorsque les fragilités suivent une loi gamma [204]. Dans la suite de notre travail, le choix a été fait de se concentrer sur les fragilités log-normales. Duchateau et al. ont montré que dans un certain nombre de cas, une mauvaise spécification de la loi des fragilités (entre gamma et log-normale) conduisait à un écart faible dans l’estimation des paramètres [56]. En

1. Introduction aux méthodes de survie

effet, il est possible de faire le lien entre la loi gamma univariée et la loi log-normale. Par exemple, avec une loi gamma de variance 0.1, on peut construire une log-normale très proche à partir d’une loi N (−0.0477,0.0953) (graphique 26). De même pour une gamma de variance 0.2 à partir d’une N (−0.0917,0.1823).

Figure 26 – Lien entre lois gamma et loi log-normale (fonctions de densité) Avec une distribution gaussienne des fragilités, l’objet étudié est la log-vraisemblance partielle pénalisée :

`ppl(β,θ,u) = `pl(β,u) − 12 Klog(2πθ) +uTu θ

!

(12) Les paramètres d’intérêt à estimer sont ici β et θ, les fragilités u pouvant être vues comme des paramètres de nuisance. Pour estimer ces paramètres, il faudrait intégrer la vraisemblance partielle pénalisée :

`int(β,θ) =Z. . . Z

exp(`ppl(β,θ,u))∂u (13)

Comme le rappellent Katsahian et Boudreau, cette intégrale de dimension K peut être très difficile à calculer [123]. Ripatti et al. proposent donc de l’approximer à l’aide de la méthode de Laplace [185]. L’idée est la suivante : étant donnée une fonction f admettant un unique maximum en x0 et M > 0 suffisamment grand, on peut se contenter des points qui se trouvent au voisinage de x0pour estimer une intégrale de la formeRb

aexp(Mf(x))∂x. L’approximation est alors donnée par :

b Z a eM f (x)∂x ≈ s M |f00(x0)|exp(Mf(x0)) lorsque M → ∞ (14)

Dans le cadre multidimensionnel de la fonction `int, en notant ˆu le maximisateur de la log-vraisemblance partielle pénalisée à β fixé, cela aboutit à l’appoximation suivante :

1. Introduction aux méthodes de survie

`int(β,θ) ≈ exp(`ppl(β,θ,ˆu)) v u u t (2π)K |H(β,ˆu)|22 (15) où H22 est le bloc correspondant aux fragilités u de H, la matrice hessienne de moins la log-vraisemblance partielle pénalisée `ppl (prise comme fonction de β et u, θ étant fixé pour l’instant) : H(β,u) = H11 H12 H21 H22 = − 2`ppl ∂(β,u)∂(β,u)T = − 2`pl ∂(β,u)∂(β,u)T + 0 0 0 θ−1I (16)

En retirant les termes indépendants de β, on obtient enfin :

`int(β,θ) ≈ `pl(β,ˆu) − 12(K log(2πθ) − 12log |H(β,ˆu)22| (17) Ripatti et al. montrent empiriquement que peu d’information est perdue en omettant le logarithme du déterminant (le dernier terme de l’équation), ce qui suggère d’utiliser directement `ppl pour estimer β [185]. En maximisant `ppl conjointement en β et u on espère ainsi obtenir une bonne approximation du ˆβ, en maximisant la log-vraisemblance marginale `int à θ fixé.

La maximisation de `int conjointement en β et θ est finalement obtenue à l’aide d’un profilage. A θ fixé est estimé ˆβ maximisant `ppl (par un algorithme de Newton-Raphson par exemple), puis est recherché ˆθ maximisant :

`int( ˆβ,θ) ≈ −12 Klog(2πθ) + 1 θ K X k=1 ˆu2 k ! − 1 2log(|H( ˆβ,ˆu)22|) (18) Ripatti et al. [185] montrent que la solution est égale à :

ˆθ = P

u2k+ tr(H( ˆβ,ˆu)−1 22)

K (19)

Finalement, l’algorithme consiste à alterner entre les estimations de ( ˆβ,ˆu) (boucle in-terne) et de ˆθ (boucle exin-terne) jusqu’à convergence des paramètres d’intérêt (β et θ) (Figure 27). Pour simplifier les calculs, une approximation possible est de remplacer H22 par une matrice diagonale avec les coefficients diagonaux de H22 [204]. Therneau et al. proposent une implémentation dans la librairie R survival (fonction coxph) plutôt effi-cace [205] (résolution du modèle en un temps de l’ordre de la seconde pour 1000 individus répartis à part égale dans 10 centres hospitaliers et avec 46 covariables - des parties du code sont écrites en C).

1. Introduction aux méthodes de survie

Figure 27 – Estimations de ( ˆβ,ˆu) et de ˆθ