• Aucun résultat trouvé

Introduction à l’analyse de survie

Dans le document ma thèse (Page 15-18)

L’analyse statistique des durées de vie, ou analyse de survie, est l’étude du délai de la survenue d’un événement. En biostatistiques, on nomme l’événement étudié “décès”, et il peut être un temps de guérison, un temps avant rechute ou avant décès, par exemple.

Dans la plupart des études ou essais cliniques nécessitant l’analyse de données de survie, on dispose, en plus des temps de décès, de variables explicatives individuelles appelées covariables. Celles-ci peuvent être fixes comme le sexe, le type de traitement administré ou encore le lieu de résidence. Elles peuvent aussi dépendre du temps, c’est le cas pour l’âge, le stade de développement d’un cancer ou encore des mesures répétées d’une quantité biologique. L’étude des données de survie permet entre autres de relier certaines de ces covariables à la durée de vie, et ainsi limiter les facteurs de risque d’une maladie.

L’analyse des durées de vie pose des problèmes spécifiques dus au fait que certaines durées de vie ne sont pas observées totalement. Il s’agit du phénomène de censure. C’est par exemple le cas lorsqu’un patient quitte une étude avant que celle-ci se termine. On a alors accès à la date de son départ, mais pas à son temps de décès. Sa durée de vie est alors dite censurée. Cette censure empêche l’utilisation immédiate de nombreux résultats de statistiques classiques, tels que les résultats sur le maximum de vraisemblance. Nous commençons par définir les notations d’analyse de survie utilisées tout au long de la thèse.

1.1.1 Définitions et notations

Quelques définitions

Nous nous intéressons à la variable aléatoire T symbolisant le temps de décès. La fonctionF désigne la fonction de répartition de T etf sa densité. On note S la fonction de survie deT définie par

S : (

R+ → [0,1]

t 7→ P(T > t) = 1F(t).

S(t) représente donc la probabilité d’être encore en vie à l’instant t. Si la loi de T est absolument continue par rapport à la mesure de Lebesgue, on introduit la fonction de risque instantané.

Définition 1.1 (Risque instantané). Le risque instantané, ou taux de hasard, de la

va-16 Chapitre 1. Introduction

riable aléatoire positiveX, est la fonction λ:R+→R+ définie par λ(t) = lim

h→0

P(t≤X < t+h|Xt)

h , t≥0.

Le réelλ(t) représente donc la probabilité de mourir dans un petit intervalle de temps aprèst, sachant que l’on a survécu jusquet. C’est donc la probabilité de mort instantanée pour ceux qui ont survécu. On peut remarquer que la fonction de survie S et le risque instantanéλsont liés par la relation suivante. Pour toutt∈R+,

S(t) = exp

Z t

0

λ(s)ds

.

Il suffit donc de connaître l’une des trois fonctionsS, F ou λpour en déduire les autres.

Généralement, la fonctionλest la plus intéressante, puisqu’elle donne une description du futur immédiat d’un sujet encore observé et permet la prise en compte de différences entre modèles qui seraient difficiles à formuler pour la fonction de survie ou de répartition. La plupart du temps, on établit un modèle de données de survie à partir de cette fonction de risque instantané. C’est ce que nous effectuerons dans la Section1.2.

Quelques notations

En plus de la variable T, nous introduisons la variable aléatoire C représentant le temps de censure et Z(.) ∈ Rd un vecteur de covariables. Nous considérons que C est indépendant deT conditionnellement àZ(.) et qu’il existe τ >0 tel que le segment [0, τ] est le support deT etC. On note (Ti, Ci, Zi(.))i∈{1,...,n} unn-échantillon de loi (T, C, Z(.)).

Nous faisons l’hypothèse de censure à droite, i.e., nous considérons que, pour tout i ∈ {1, . . . , n}, nous observons la variable aléatoire Xi = min(Ti, Ci). Nous observons également un indicateur de décès ∆i=1Ti≤Ci. Cet indicateur prend la valeur 1 si l’obser-vationXi est un temps de décès, et 0 si c’est un temps de censure. Len-échantillon auquel nous avons accès est alors (Xi,i, Zi(.))i∈{1,...,n}. Pour tout i ∈ {1, . . . , n}, nous notons Yi(t) =1Xi≥t. Le processus (Yi(t))t∈R+ indique si l’individuiest encore à risque au temps t, c’est-à-dire si l’individu iest encore vivant au tempst. On note

Ni(t) =1{Xi≤t, Ti≤Ci},

le processus de comptage valant 1 à partir deXiet 0 avant. Ce processus est identiquement nul si l’individuiest censuré. La somme de ces processus de comptage individuels permet de définir le processus de comptage

N¯(t) =

n

X

i=1

Ni(t).

Ce processus possède un saut de taille 1 à chaque temps de décès. On suppose dans l’ensemble de la thèse qu’il n’y a pas d’égalité entre temps de décès : chaque temps de décès correspond au décès d’un seul individu.

1.1.2 Estimateur de Kaplan-Meier

Nous affirmions précédemment que la censure empêchait l’utilisation de résultats clas-siques en statistiques. Nous pouvons en faire la démonstration avec l’estimation de la fonction de survieS deT. En effet, une première idée pour l’estimation non paramétrique

1.1. Introduction à l’analyse de survie 17 de la fonction de survieS est d’utiliser la fonction de répartition empiriqueFndeT définie de la façon suivante : pour toutt∈[0, τ],

En effet, le théorème de Glivenko-Cantelli nous assure de la convergence uniforme deFn versF. Cependant, en présence de données censurées, nous n’avons pas accès à l’échantillon (T1, . . . , Tn) mais seulement à (X1, . . . , Xn). Nous ne pouvons donc évaluer la fonctionFn. On pourrait alors penser à utiliser la fonction de répartition empirique deX,

1

Cependant cette estimation deFest biaisée en présence de censure. En effet, son espérance au temps t vaut P(T ≤ t, TC), ce qui est une sous-estimation de P(T ≤ t). Un estimateur consistant deF, en présence de censure, est introduit pour la première fois par Kaplan and Meier(1958).

Définition 1.2(Estimateur de Kaplan-Meier). L’estimateur de Kaplan-Meier de la fonc-tion de répartifonc-tionF, noté ˆF, est défini, pour tout t∈[0, τ], par

Ce processus est constant par morceaux, continu à droite avec limite à gauche en tout point. Il possède de plus un saut à chaque temps de décès. On peut remarquer que l’estimateur ˆF coïncide avec Fn dans le cas où il n’y a pas de censure. On définit alors naturellement l’estimateur de Kaplan-Meier de la fonction de survie S par ˆS = 1−Fˆ. Illustrons la construction de l’estimateur de Kaplan-Meier de la fonction de survie S sur un exemple.

Exemple 1.3. Supposons qu’on ait accès aux données de la Table 1.1 Table1.1 – Exemple de jeu de données

X 2 3 7 9 12 15 16 20 21 24

En utilisant la définition de l’estimateur de Kaplan-Meier (1.1), on obtient l’estimateur représenté en Figure1.1. On constate bien que les sauts de l’estimateur de Kaplan-Meier, S, s’effectuent sur les temps de décès. De plus, on remarque qu’il ne s’annule pas à la finˆ du jeu de données, comme on pourrait l’imaginer pour un estimateur d’une fonction de survie. Ceci est dû au fait que le dernier temps de décès est un temps censuré.

18 Chapitre 1. Introduction

0 5 10 15 20

0.00.20.40.60.81.0

t

KM(t)

Figure1.1 – Exemple d’estimateur de Kaplan-Meier en fonction du temps On peut montrer que l’estimateur de Kaplan–Meier est uniformément convergent et asymptotiquement normal. Ces propriétés sont intéressantes pour l’utilisation de cet estimateur dans différents cadres. Par exemple, les incréments de l’estimateur de Ka-plan–Meier peuvent être utilisés pour pondérer des variables dépendantes du temps in-tégrées par rapport à ¯N(t). Les intégrales obtenues, dites intégrales de Kaplan-Meier, convergent alors vers l’espérance de fonctions deT et ne sont pas biaisées en présence de censure. De plus, ces intégrales sont asymptotiquement normales sous de bonnes conditions (Stute,1995).Satten and Datta (2001) ont montré qu’il est possible d’exprimer l’estima-teur de Kaplan–Meier de F comme une somme pondérée, avec des poids dépendants de l’estimateur de Kaplan–Meier de la fonction de répartition de la censureC.

De nombreux modèles ont été développés pour l’analyse de données de survie. La Section1.2présente un état de l’art de ces différents modèles en fonction de leur degré de paramétrisation, i.e., les modèles sont classés en deux catégories : semi-paramétriques et non paramétriques.

Dans le document ma thèse (Page 15-18)