• Aucun résultat trouvé

Estimation de la fonction de survie : l’approche non paramétrique

1.3 Objectifs de recherche

2.2.1 Estimation de la fonction de survie : l’approche non paramétrique

Le choix d’un modèle statistique dépend des hypothèses soulevées, des variables à étudier, mais surtout de la disponibilité des données. Puisque nous connaissions les dates de naissance et de décès avec précision, nous pouvions calculer les durées de vie à la journée près et ainsi disposer du temps de survie des individus à l’étude, ainsi que du moment auquel l’événement, en l’occurrence le décès, s’est produit. Dès lors, l’analyse de survie en temps continu s’imposait. L’analyse de survie, ou encore l’analyse des durées de vie, est un domaine de la statistique qui étudie l’apparition d’un événement, comme un décès, au cours du temps. Nous appelons temps de survie les données qui mesurent le délai entre le début de l’observation et l’occurrence de l’événement. Dans ce qui suit, nous proposons les définitions des principaux outils utilisés dans cette thèse.

La durée de vie d’un individu est une variable aléatoire T (T>0) dont la fonction de répartition est la probabilité que le décès survienne entre 0 et t. La fonction de répartition, notée F(t), de la variable aléatoire T est définie comme

F (t) = P (T  t). (2.1)

La fonction de survie, notée S(t), est définie comme la probabilité qu’un individu survive au-delà du temps t. Cette fonction peut être estimée par

S(t) = P (T > t) = 1 F (t). (2.2)

Une note sur la censure avant de poursuivre. Les modèles de durée ont cette particula- rité de pouvoir tenir compte des valeurs censurées, c’est-à-dire des valeurs pour lesquelles il manque une partie de l’information. Dans notre cas, la censure se traduit par des pertes de suivi, c’est-à-dire que l’échantillon dispose de plusieurs individus pour lesquels l’âge au décès est manquant, soit pour des raisons de collecte ou soit parce que ces individus ont émigré hors Québec. En analyse de survie, il est possible d’intégrer ces cas dans la mo- délisation des risques à condition que les individus soient observés à une date antérieure au décès. Or, puisque la période d’observation pour tous les sujets commence à l’âge de 40 ans, il nous fallait savoir si les individus sans date de décès étaient encore en vie à ce moment, chose presque impossible. Le seul moyen de savoir si un individu sans décès

a atteint l’âge de 40 ans est d’observer un mariage après cet âge, ce qui implique que l’individu doit avoir été marié et que son acte de mariage ait été trouvé. Onze individus sans date de décès ont pu être observés après l’âge de 40 ans en raison d’un mariage après cet âge. Nous avons toutefois pris la décision d’éliminer ces personnes de l’échantillon en raison du caractère sélectif de la procédure, qui ne permet ni de considérer les individus non mariés, ni ceux dont le mariage n’a pas été trouvé. Une méthode de gestion des décès manquants est toutefois proposée en 2.2.4.

La fonction de survie empirique S(t) est la probabilité qu’un individu survive pour un temps supérieur ou égal à t. En absence de données censurées, cette fonction peut être estimée par la fonction de survie empirique qui suit

˜

S(t) = Nombre d’individus dont le temps de survie est t

Total des individus à l’étude . (2.3)

Plus précisément, les probabilités de survie de l’âge de 40 ans jusqu’à l’âge x, basées sur les équations données parKlein et Moeschberger(1997), se calculent comme suit

ap40= Y ix ✓ 1 d(i, i + a) Yi ◆ . (2.4)

Un moyen efficace d’illustrer la survie dans un groupe homogène d’individus est de la représenter graphiquement. La représentation graphique de la survie, appelée courbe de survie, est une fonction monotone non croissante de la probabilité de survie en fonction du temps. Son taux de déclin varie selon le risque de vivre l’événement au temps t. La représentation graphique est également très utile pour comparer les probabilités de survie de deux groupes dans le temps. Pour ce faire, nous avons utilisé l’estimateur de Kaplan- Meier (Kaplan et Meier,1958), une approche non paramétrique laquelle est obtenue en calculant les probabilités conditionnelles de survie dans chaque intervalle de temps. Consi- dérant le décès de l’individu comme l’événement à l’étude et la durée écoulée entre l’âge de 40 ans et l’âge au décès comme la durée de l’événement, cette méthode permet de tester les différences de survie observées entre les frères, soeurs et conjoints de centenaires

et leur cohorte de naissance respective de la manière suivante

Survie relative = Survie des frères, soeurs et conjoints de centenaires

Survie dans la population générale . (2.5)

La survie relative peut être supérieure à 1. Dans un tel cas, la survie serait meilleure pour les frères et soeurs de centenaires que pour la population générale. À l’opposé, une survie relative inférieure à 1 signifie qu’il y a une plus forte probabilité de décéder parmi les frères et soeurs que dans la population de référence. La comparaison des survies s’effectue grâce au test statistique du log-rank qui fonctionne comme un test d’adéquation en com- parant le nombre de décès observés et le nombre de décès attendus dans chaque tranche temporelle, sous l’hypothèse nulle qu’il n’y ait pas de différence entre les deux courbes. La courbe de survie présente deux dimensions et l’interprétation des courbes peut se faire de manière horizontale ou verticale (Figure 2.6). La lecture horizontale permet de com- parer les médianes de survie, alors que la lecture verticale permet la comparaison des probabilités de survie ou des risques de décès à différents moments.

Figure 2.6 – Comparaison des probabilités de survie

0 5 10 15 20 25 0 0.2 0.4 0.6 0.8 1 - Temps (Années) Sur vie S( t)

0 5 10 15 20 25 0 0.2 0.4 0.6 0.8 1 - Temps (Années) Sur vie S( t)

Lecture horizontale des courbes de survie

2.2.2 La modélisation paramétrique

Cette thèse emprunte également les outils des modèles paramétriques à risques pro- portionnels et des modèles à fragilité partagée issus de nombreux travaux s’intéressant à la modélisation de l’hétérogénéité non observée.

2.2.2.1 Le modèle de Gompertz

Les modèles paramétriques permettant de faire l’étude des durées sont nombreux. La fonction de risque h(t), parfois appelée risque instantané ou encore force de mortalité µ(x)est la probabilité que l’on observe un décès dans l’intervalle t, t+ t, conditionnelle à la survie de l’individu jusqu’au temps t. Dans la fonction de mortalité humaine, telle qu’illustrée dans la figure 2.7, le risque de décéder est élevé au début, puis diminue pour remonter à nouveau. Le modèle de Gompertz, dans lequel la force de mortalité augmente de manière exponentielle avec l’âge, est encore aujourd’hui le modèle le plus utilisé en démographie. Une telle distribution convient aux données de mortalité pour les âges su- périeurs à 35 ans jusqu’à 95 ans, et permet un ajustement approprié à la mortalité adulte observée dans les pays développés (Vaupel et al.,1998). Selon ce modèle, à chaque âge x, le risque de mortalité µ(x) est exprimé par un paramètre a représentant le niveau initial de la mortalité, et par un paramètre b correspond au rythme d’accroissement de la mortalité avec l’âge, tel que

µt= aebt. (2.6)

Figure2.7 – Courbe de mortalité

0 20 40 60 80 100 10 2 10 1 100 Âge (x) Mortal ité q(x)

Dans ce modèle, les caractéristiques individuelles agissent multiplicativement sur la fonction de risque, tel que

µ(t, X) = µ0(t)e X (2.7)

où Xij est le vecteur de covariables et µ0(t)=aebt représente le risque de base.

Le risque relatif que l’événement survienne pour le sujet i de caractéristiques Xi par

rapport au sujet j de caractéristiques Xk est appelé rapport de risque ou hazard ratio et

peut être exprimé comme

Hr = µ(t|Xi) µ(t|Xk) = µ0(t)e tX i µ0(t)e tXk = e t(Xi Xk). (2.8)

2.2.3 La structure de corrélation de l’échantillon et l’hétérogénéité non