• Aucun résultat trouvé

Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes d'approximation stochastique

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes d'approximation stochastique"

Copied!
139
0
0

Texte intégral

(1)

HAL Id: tel-03112234

https://tel.archives-ouvertes.fr/tel-03112234

Submitted on 16 Jan 2021

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes

d’approximation stochastique

Ajmal Oodally

To cite this version:

Ajmal Oodally. Estimation dans des modèles de fragilité avec des structures de corrélation complexes

via des algorithmes d’approximation stochastique. Méthodologie [stat.ME]. Université Paris-Saclay,

2020. Français. �NNT : 2020UPASM003�. �tel-03112234�

(2)

Thè se de doctorat NNT : 2020UP ASM003

Estimation in frailty models with complex correlation structures through stochastic approximation algorithms

Thèse de doctorat de l’université Paris-Saclay

Ecole Doctorale n 574, Ecole Doctorale de Mathématique Hadamard (EDMH) Spécialité de doctorat: Mathématiques aux interfaces Unité de recherche: Université Paris-Saclay, INRAE, Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE), 78350, Jouy-en-Josas, France Référent: Faculté des sciences d’Orsay

Thèse présentée et soutenue à Orsay, le 28 Septembre 2020, par

Ajmal OODALLY

Composition du jury:

Agathe GUILLOUX Présidente

Professeure des Universités, Université d’Evry Val d’Essonne

Adeline LECLERCQ SAMSON Rapporteure et Examinatrice Professeure, Université Grenoble Alpes

Ingrid VAN KEILEGOM Rapporteure et Examinatrice Professeure, Katholieke Universiteit Leuven

Aurélien LATOUCHE Examinateur

Professeur des Universités, Conservatoire national des arts et métiers

Andreas WIENKE Examinateur

Professeur, University Halle-Wittenberg

Estelle KUHN Directrice de thèse

Directrice de recherche, INRAE

Luc DUCHATEAU Codirecteur de thèse

Professeur, Ghent University

(3)

“If I have seen further it is by standing on the shoulders of Giants.” - Isaac Newton

Ignis Vibrante Lumine

(4)

Remerciements

Je tiens tout d’abord `a remercier mes directeurs de th `ese qui m’ont accompagn ´e tout au long de cette aventure.

Ils ont fait preuve d’une grande patience et p ´edagogie et ont ainsi largement contribu ´e au succ `es de cette th `ese.

Estelle, tu m’as non seulement guid ´e pendant ces trois ans et demi mais tu m’as aussi ´et ´e d’une grande aide pour l’apr `es th `ese. J’ai beaucoup appr ´eci ´e ta gentillesse et ta bienveillance. Merci pour tout.

Luc, ton accueil chaleureux lors de toutes mes visites `a Ghent, ton humour et tes nombreuses autres qualit ´es humaines vont beaucoup me manquer. C’ ´etait un vrai plaisir de travailler avec toi et Estelle. Je garde un bon souvenir de notre dˆıner au Chateaubriand quelques jours avant le confinement.

Je remercie Adeline Leclercq Samson et Ingrid Van Keilegom d’avoir accept ´e de rapporter ma th `ese et pour leurs regards tr `es appr ´eci ´es sur mes travaux. Un grand merci `a Aur ´elien Latouche, Andreas Wienke et Agathe Guilloux pour leur participation `a ma soutenance de th `ese dans ces conditions particuli `eres et pour toutes leurs remarques tr `es pertinentes. Je tiens aussi `a remercier Christine K ´eribin qui m’a suivi depuis mes d ´ebuts en Master et pour sa participation `a mes comit ´es de th `ese.

J’ai pass ´e trois tr `es belles ann ´ees dans un lieu atypique qui m’a tout de suite tap ´e dans l’oeuil. Et oui, ce n’est pas donn ´e `a tous les doctorants de pr ´eparer une th `ese entour ´e de chevaux, de vaches, d’un potager et dans un bureau plein de vie; que ce soit les bact ´eries suite `a des restes de desserts laiss ´es `a l’abandon, les graines et plantes diss ´emin ´ees un peu partout. Ce bureau aura aussi servi d’atelier `a Maxime qui nous a r ´eguli `erement fait profiter de ses talents de p ˆatissier. Merci Romain pour ta bonne humeur, joie de vivre et ta sagesse (voix sarcastique). Merci `a tous mes autres coll `egues de l’INRAE qui ont tous contribu ´e `a rendre mon environnement de travail fort agr ´eable. Merci `a Sandra, Gildas, Franc¸ois, Maxime, Patrick, Simon, Olivier, B ´eatrice, Elisabetha, Maud, Catherine, Laurent, Pierre, Ousmane, Henri, Lina et tant d’autres.

Comment ne pas mentionner mon coll `egue de bureau L ´eo, ce beau sp ´ecimen landais, un r ˆeveur comme dirait son grand-p `ere. Tu auras rendu cette th `ese fort agr ´eable et unique. Cette fameuse sortie `a Trouville dans une combinaison trop grande aura ´et ´e le d ´ebut d’une nouvelle passion. Nos innombrables conversations sans filtres et totalement d ´ecomplex ´ees `a la cantine et au coin caf ´e avec un public (Romain, Lina, Henri) toujours `a l’ ´ecoute.

Une pens ´ee sp ´eciale `a Emile qui a ´et ´e `a mes c ˆot ´es depuis mes premiers pas en France. On en aura v ´ecu des

choses, la super semaine de No ¨el pass ´ee chez toi `a se goinfrer suivi d’une longue p ´eriode de collocation pleine de

(5)

rebondissements. Trugarez ! Breizh atav !

Mille mercis `a Val ´erie, Elisabeth, Sylvie et toute l’ ´equipe de la MISS. Je pense notamment `a tous les doctorants avec qui j’ai anim ´e tant d’ateliers et les autres que j’ai souvent crois ´e pendant les pauses d ´ejeuner et ap ´ero de fin d’ann ´ee.

J’adresse toute ma reconnaissance `a ma femme pour son soutien sans faille que ce soit dans les moments difficiles ou les moments de joie. Tu as toujours fait preuve d’une patience hors norme `a mon ´egard et tu as ´et ´e `a mes c ˆot ´es depuis tellement longtemps que je ne peux plus imaginer ma vie sans toi.

Un grand merci `a ma tante qui a relu toutes les lettres de motivations que j’ai ´ecrites. Je serai toujours recon- naissant pour toute l’aide qu’elle m’a apport ´ee

Enfin, je remercie ma m `ere, mon p `ere, mon petit fr `ere et ma petite soeur pour leur soutient ind ´efectible. Sans

eux, la r ´eussite de cette th `ese ne serait pas possible.

(6)

Contents

1 Introduction 9

1.1 Analyse de survie . . . . 9

1.1.1 Fonctions de survie et de risque . . . 10

1.1.2 Observation censur ´ee des dur ´ees de survie . . . 11

1.2 Estimateurs non param ´etriques des fonctions de survie et de risque . . . 12

1.2.1 Estimateur non param ´etrique de la fonction de survie . . . 12

1.2.2 Estimateur non param ´etrique de la fonction de risque cumul ´e . . . 13

1.3 Les mod `eles de survie param ´etriques . . . 13

1.3.1 Le mod `ele exponentiel . . . 14

1.3.2 Le mod `ele de Weibull . . . 14

1.3.3 Le mod `ele de Gompertz . . . 15

1.4 Le mod `ele de Cox . . . 16

1.4.1 Description du mod `ele . . . 16

1.4.2 Estimation des param `etres par maximum de la vraisemblance partielle . . . 17

1.4.3 Propri ´et ´es asymptotiques de l’estimateur . . . 18

1.4.4 Relation entre les estimateurs de maximum de vraisemblance partielle et de maximum de vraisemblance non param ´etrique dans le mod `ele de Cox . . . 18

1.5 Les mod `eles de fragilit ´e . . . 19

1.5.1 Mod `eles `a fragilit ´es univari ´ees . . . 19

1.5.2 Mod `eles `a fragilit ´es multivari ´ees . . . 21

1.5.3 Lois de fragilit ´es . . . 24

1.6 M ´ethodes d’estimation existantes pour les mod `eles de fragilit ´e . . . 25

1.6.1 Estimation param ´etrique . . . 26

1.6.2 Estimation semi-param ´etrique . . . 28

1.7 L’algorithme Expectation Maximization et ses variantes . . . 32

(7)

1.7.1 L’algorithme Expectation Maximization . . . 33

1.7.2 L’algorithme Stochastic Approximation Expectation Maximization . . . 34

1.7.3 Couplage d’une m ´ethode de Monte Carlo Markov Chain avec l’algorithme SAEM . . . 34

1.8 Les contributions de la th `ese . . . 35

1.8.1 Algorithme convergent pour l’estimation dans des mod `eles de fragilit ´e multivari ´es par maxi- mum de vraisemblance partielle int ´egr ´ee . . . 35

1.8.2 Etude des propri ´et ´es de convergence des estimateurs du maximum de vraisemblance dans le mod `ele param ´etrique `a fragilit ´es partag ´ees . . . 36

1.8.3 Estimation dans un mod `ele de fragilit ´e `a corr ´elations spatiales : application pour l’analyse de donn ´ees de malaria . . . 37

1.9 R ´esultats et conclusion de la th `ese . . . 37

2 Convergent stochastic algorithm for estimation in general multivariate correlated frailty models using integrated partial likelihood 41 2.1 Introduction . . . 41

2.2 The Frailty Model . . . 42

2.2.1 Description of the model . . . 42

2.2.2 Assumptions on the model . . . 43

2.3 Integrated partial likelihood for the frailty model . . . 43

2.4 Extended frailty model . . . 44

2.4.1 Description of the extended frailty model . . . 44

2.4.2 Definition of the maximum integrated partial likelihood estimate in the extended model . . . 45

2.4.3 Comparison between maximum integrated partial likelihood estimators in the frailty model and in the extended frailty model . . . 45

2.5 Algorithmic method for inference in the extended frailty model . . . 46

2.5.1 Description of the stochastic EM algorithm with truncation on random boundaries . . . 46

2.5.2 Practical details on the implementation of the algorithm . . . 47

2.5.3 Convergence property of the algorithm in the extended frailty model . . . 47

2.5.4 Estimation of the Fisher Information Matrix . . . 50

2.6 Simulation studies . . . 50

2.6.1 Study of the consistency property of the estimate . . . 51

2.6.2 Comparing the maximum integrated partial likelihood estimate with a parametric estimate . . . 52

2.6.3 Comparing the maximum integrated partial likelihood estimate with other estimates . . . 52

2.7 Real data analysis . . . 56

(8)

2.7.1 Mastitis dataset analysis . . . 56

2.7.2 Bladder cancer dataset analysis . . . 56

2.8 Conclusion and discussion . . . 57

3 Convergence properties of maximum likelihood estimates in parametric shared frailty models 59 3.1 Introduction . . . 59

3.1.1 Influence of the frailty terms on the convergence rates . . . 60

3.1.2 Influence of the structure of covariates on the convergence rates . . . 61

3.2 Convergence properties of maximum likelihood estimates in mixed-effects models . . . 62

3.2.1 Consistency and asymptotic normality of the MLE in generalized linear and nonlinear mixed- effects models . . . 62

3.2.2 Extension of these results to frailty models and discussion . . . 64

3.3 Case study of the convergence rates of maximum likelihood estimates in a linear mixed-effects model 65 3.3.1 Description of the model and likelihood expressions . . . 65

3.3.2 Maximum likelihood estimates of the parameters . . . 66

3.3.3 Influence of the structure of covariates on the convergence rates of the estimates . . . 67

3.4 Simulation study: Convergence properties of the MLE in parametric shared frailty models . . . 69

3.4.1 Description of the Weibull shared frailty model . . . 69

3.4.2 Definition of the MLE for the Weibull shared frailty model . . . 70

3.4.3 Criteria to evaluate the convergence rate . . . 70

3.4.4 Simulation setting with different covariate structures . . . 71

3.5 Numerical experiments on the convergence rates of MLEs . . . 72

3.5.1 Effects of covariates varying at group and observation levels . . . 72

3.5.2 Effect of a covariate at group level with an additive frailty term on the associated regression parameter . . . 76

3.5.3 Effect of a covariate at observation level with an additive frailty term on the associated regres- sion parameter . . . 78

3.5.4 Effect of the between-group heterogeneity on the estimates . . . 79

3.6 Conclusion and perspectives . . . 80

4 Estimation in a spatially correlated frailty model : application to malaria data 83 4.1 Introduction . . . 83

4.2 The malaria disease . . . 84

4.2.1 Malaria as a worldwide phenomenon . . . 84

4.2.2 Malaria in Ethiopia . . . 85

(9)

4.2.3 Transmission, diagnosis and treatment . . . 86

4.3 The Gilgel Gibe malaria dataset . . . 89

4.4 Previous analyses of the Gilgel Gibe dataset . . . 90

4.5 Review of modeling and estimation methods for spatially correlated survival data . . . 93

4.6 Estimation in spatially correlated multivariate frailty models . . . 94

4.6.1 Description of the spatially correlated multivariate frailty model . . . 94

4.6.2 Methods for parameter estimation and model comparison . . . 95

4.6.3 Implementation of the estimation algorithm . . . 99

4.6.4 Simulation study . . . 103

4.7 Gilgel Gibe malaria data analysis . . . 108

4.7.1 Modeling of the malaria data . . . 108

4.7.2 Description of the spatially correlated frailty models . . . 108

4.7.3 Model comparison and parameter estimation . . . 110

4.8 Conclusion and perspectives . . . 114

5 General conclusion of the thesis and perspectives 115

Bibliography 119

A Appendix A 127

B Appendix B 129

C Appendix C 133

(10)

List of Figures

1.1 Risque instantan ´e en fonction de ρ et λ . . . 15

1.2 Risque instantan ´e en fonction de ρ et λ . . . 16

1.3 Densit ´e de la distribution gamma pour diff ´erentes valeurs de η . . . 25

2.1 Posterior distribution of β 1 . . . 52

2.2 Representation of 100 runs of the algorithm for estimating parameters in the bladder cancer dataset. . 57

3.1 Boxplots of MLE of parameters of datasets simulated following model M 1 . . . 73

3.2 Boxplots of MLE of parameters of datasets simulated following model M 1 under different censoring settings . . . 75

3.3 Boxplots of MLE of parameters of datasets simulated following model M 2 . . . 77

3.4 Boxplots of MLE of parameters of datasets simulated following model M 3 . . . 78

3.5 Comparing the MLEs for two different values of σ 2 in model M 1 . . . 81

4.1 Malaria death rates by age . . . 84

4.2 Malaria worldwide status from 2000 to 2017 . . . 85

4.3 Malaria incidence due to Plasmodium falciparum in 2017 in Ethiopia . . . 86

4.4 Malaria transmission schema . . . 87

4.5 Elevation map of the the study area . . . 89

4.6 Map of Ethiopia showing districts in Jimma zone, Gilgel-Gibe hydroelectric dam and study villages . . 92

4.7 The three seasons and two years . . . 109

4.8 Time intervals based on average daily rainfall patterns . . . 110

4.9 Hazard rates for different rain patterns . . . 112

4.10 Graphical representation of correlation as a function of distance based on estimate ρ ˆ = 0.794 in model S 4 . . . 112

4.11 Hazard rates for the different seasons . . . 113

(11)

4.12 Graphical representation of correlation as a function of distance based on estimate ρ ˆ = 1.50 in model S 1 . . . 113 B.1 Boxplots of MLE of parameters of datasets simulated following model M 2 under different censoring

settings . . . 130 B.2 Boxplots of MLE of parameters of datasets simulated following model M 3 under different censoring

settings . . . 131

(12)

List of Tables

2.1 Parameter estimates η ˆ for different number of groups (N = 10, 20, 50) . . . 51

2.2 Comparing the parametric estimate to the integrated partial likelihood estimate in a Weibull shared frailty model . . . 53

2.3 Comparing the parametric estimate to the integrated partial likelihood estimate in a Gompertz shared frailty model . . . 54

2.4 Comparison of MIPL estimate with coxme and frailtyHL estimates . . . 54

2.5 Comparison of MIPL estimate with coxme and frailtyHL estimates : robustness to misspecification of the frailty distribution . . . 55

3.1 Snippet of mastitis data . . . 61

3.2 Reduction in variance in model M 1 . . . 73

3.3 Reduction in variance in model M 1 under different censoring settings . . . 74

3.4 Reduction in variance in model M 2 . . . 76

3.5 Variance reduction in model M 3 . . . 79

4.1 Numerical consistency of spatially correlated frailty model estimates . . . 104

4.2 Parameter estimates : robustness with respect to misspecification of the correlation structure . . . 105

4.3 Comparison of different estimators for simulated spatially correlated data . . . 107

4.4 Model comparison based on marginal log-likelihood values : malaria data analysis . . . 110

4.5 Mean and model-based standard errors in parentheses of parameters estimated in model S 4 . . . 111

4.6 Likelihood-ratio tests to test the significance of regression parameters β . . . 111

4.7 Mean and model-based standard errors in parentheses of parameters estimated in model S 1 . . . 111

B.1 Reduction in variance in model M 2 under different censoring settings . . . 129

B.2 Variance reduction in model M 3 under different censoring settings . . . 132

(13)

Chapter 1

Introduction

1.1 Analyse de survie

L’analyse de survie est une branche des statistiques visant `a analyser la dur ´ee attendue jusqu’ `a ce qu’un ou plusieurs ´ev ´enements se produisent. La premi `ere analyse de survie est apparue au d ´ebut du vingti `eme si `ecle.

Le premier domaine d’application concern ´e est celui de l’actuariat. Elle est utilis ´ee dans le domaine m ´edical pour la premi `ere fois en 1950. Par contre, la notion de table de survie (aussi appel ´e table de mortalit ´e) est ant ´erieure `a ces domaines et a ´et ´e introduite pour la premi `ere fois par John Graunt au XVII e si `ecle, consid ´er ´e par beaucoup comme l’un des premiers d ´emographes (cf. Greenwood (1938)). Ayant pour objectif de d ´etecter l’apparition de la peste bubonique `a Londres, il avait analys ´e les bulletins de d ´ec `es publi ´es hebdomadairement. Il est notamment reconnu pour avoir produit et largement diffus ´e la premi `ere table de mortalit ´e, donnant des probabilit ´es de survie en fonction des tranches d’ ˆage. Depuis, la survenue d’un ´ev ´enement est souvent qualifi ´ee d’ ´echec, g ´en ´eralement attribu ´ee au fait que l’ ´ev ´enement soit un d ´ec `es ou une maladie. Cependant, au cours des derni `eres d ´ecennies, les m ´ethodes statistiques pour l’analyse des donn ´ees de survie ont ´et ´e ´etendues au-del `a de la recherche biom ´edicale ou actu- arielle `a d’autres domaines tels que la criminologie, la sociologie et l’informatique. Les travaux de Canfora et al.

(2011) concerne l’application de l’analyse de survie visant `a ´etudier le risque de ne pas corriger un bug informatique dans un laps de temps donn ´e. Dans le domaine de la criminologie, des d ´etenus adultes lib ´er ´es du D ´epartement correctionnel de l’Oklahoma ont ´et ´e suivis et la r ´ecidive, mesur ´ee en temps de retour `a l’incarc ´eration, a ´et ´e ´etudi ´ee

`a l’aide de m ´ethodes d’analyse de survie par Spivak and Damphousse (2006).

Depuis, plusieurs mod `eles et des travaux s’orientant dans diff ´erentes directions ont permis d’enrichir ce do-

maine.

(14)

1.1.1 Fonctions de survie et de risque

Fonction de survie :

La quantit ´e centrale en analyse de survie est la dur ´ee de survie. Le terme de dur ´ee de survie d ´esigne le temps

´ecoul ´e jusqu’ `a la survenue d’un ´ev ´enement d’int ´er ˆet. On note T ce temps ´ecoul ´e. On suppose que T est une variable al ´eatoire de fonction de r ´epartition F. On d ´efinit la fonction de survie S au temps t par la probabilit ´e que l’ ´ev ´enement d’int ´er ˆet survienne apr `es un instant t fix ´e :

∀t ≥ 0, S(t) = P (T > t) = 1 − F (t) = Z ∞

t

f (x)dx

Par analogie, la fonction de r ´epartition F repr ´esente, pour t fix ´e, la probabilit ´e que l’ ´ev ´enement d’int ´er ˆet survi- enne avant l’instant t.

Fonction de risque instantan ´e :

La fonction de risque instantan ´e h caract ´erise la probabilit ´e que l’ ´ev ´enement d’int ´er ˆet survienne au cours d’une courte dur ´ee dt apr `es l’instant t donn ´e sachant que l’ ´ev ´enement ne s’est pas produit avant cet instant t.

∀t ≥ 0, h(t) = lim

dt→0 +

P (t ≤ T < t + dt|T ≥ t) dt

Le num ´erateur repr ´esente la probabilit ´e conditionnelle que l’ ´ev ´enement survienne dans l’intervalle [t, t +dt) ´etant donn ´e qu’il n’est pas survenu avant l’instant t, et le d ´enominateur est ´egale `a la largeur de l’intervalle. Le quotient permet donc d’obtenir un taux d’occurrence d’ ´ev ´enements par unit ´e de temps. La valeur limite quand la largeur de l’intervalle tend vers z ´ero donne le risque instantan ´e au temps t. C’est une fonction positive ou nulle et son int ´egrale sur [0, ∞] est infinie. Hormis ces deux contraintes, elle peut cro ˆ1tre, d ´ecro ˆ1tre, ˆetre non-monotone, non continue.

Fonction de risque cumul ´e :

La fonction de risque cumul ´e, aussi appel ´e taux de hasard cumul ´e, est l’int ´egrale du risque instantan ´e et s’ ´ecrit comme suit :

∀t ≥ 0, H (t) = Z t

0

h(u)du (1.1)

Ces quantit ´es sont reli ´ees et peuvent donc s’exprimer les unes en fonction des autres.

∀t ≥ 0, S(t) = 1 − F (t) (1.2)

∀t ≥ 0, f (t) = ∂

∂t F(t) (1.3)

(15)

∀t ≥ 0, h(t) = f (t)

S(t) (1.4)

∀t ≥ 0, S(t) = exp (−H (t)) (1.5)

1.1.2 Observation censur ´ee des dur ´ees de survie

Une caract ´eristique qui distingue l’analyse de survie des autres domaines des statistiques est la censure. La cen- sure se produit lorsque des informations incompl `etes sont disponibles sur la dur ´ee de survie. C’est un ph ´enom `ene courant en analyse de survie et doit donc ˆetre pris en compte. Il existe plusieurs m ´ecanismes qui peuvent conduire

`a des donn ´ees censur ´ees. On consid `ere un ´echantillon de taille n compos ´ee d’observations i, i = 1, . . . , n.

Censure de type I

Sous censure de type I, l’ ´echantillon est ´etudi ´e pendant un temps fixe τ. Le nombre d’observations pour lesquelles l’ ´ev ´enement survient est al ´eatoire mais la dur ´ee totale de l’ ´etude ´etant fix ´ee, le temps maximal consid ´er ´ee est ´egal

`a τ .

Censure de type II

Sous censure de type II, l’ ´echantillon de taille n est suivi jusqu’ `a ce que l’ ´ev ´enement survienne pour m observations.

Ce nombre m est fix ´e `a l’avance. La dur ´ee totale de l’ ´etude est alors al ´eatoire et inconnue.

Censure al ´eatoire

De fac¸on plus g ´en ´erale, on consid `ere la censure comme un ph ´enom `ene al ´eatoire. Sous censure al ´eatoire, on asso- cie `a chaque observation un temps de censure C i et une dur ´ee de survenue de l’ ´ev ´enement T i . Ces deux variables al ´eatoires sont usuellement suppos ´ees ind ´ependantes. On observe alors X i = min(T i , C i ), et un indicateur de censure not ´e ∆ i = 1 T i ≤C i qui nous indique si l’observation i est censur ´ee ou pas.

Une donn ´ee peut- ˆetre censur ´ee d’un c ˆot ´e comme de l’autre et aussi des deux c ˆot ´es. Ces trois cat ´egories de censure sont la censure `a doite, la censure `a gauche et la censure par intervalle. Nous illustrons ces diff ´erents types de censure dans le cas d’une ´etude clinique.

Censure `a droite

La censure `a droite se produit lorsqu’un patient quitte l’ ´etude avant qu’un ´ev ´enement ne se produise ou l’ ´etude se

termine avant que l’ ´ev ´enement ne se soit produit.

(16)

Censure `a gauche

La censure `a gauche se produit lorsque l’ ´ev ´enement a lieu avant le d ´ebut de l’ ´etude pour un patient et le moment exact de survenue n’est pas connu.

Censure par intervalle

La censure par intervalle se produit lorsque l’on sait que l’ ´ev ´enement a lieu dans un certain intervalle de temps mais que l’instant exact de survenue de l’ ´ev ´enement n’est pas connu.

On fait l’hypoth `ese que le m ´ecanisme de censure est non informatif, c’est- `a-dire que la censure d’une obser- vation ne doit fournir aucune information concernant la survenue de l’ ´ev ´enement pour cette observation partic- uli `ere au-del `a de la p ´eriode de censure. Cette hypoth `ese est indispensable pour l’analyse des mod `eles classiques d’analyse de survie. Dans la suite, on consid `ere uniquement le cas de censure al ´eatoire `a droite et non informative.

Nous nous r ´ef ´erons `a Klein and Moeschberger (2006) pour une ´etude plus approfondie de la censure.

1.2 Estimateurs non param ´etriques des fonctions de survie et de risque

1.2.1 Estimateur non param ´etrique de la fonction de survie

L’estimation non param ´etrique de la fonction de survie se fait assez facilement en s’inspirant de la d ´efinition de la fonction. Si les donn ´ees ne sont pas censur ´ees, l’estimateur empirique de cette fonction s’ ´ecrit :

S(t) = ˆ 1 n

n

X

i=1

1 T i >t

L’estimateur est tout simplement la proportion d’observations pour lesquelles l’ ´ev ´enement n’est pas encore sur- venue au temps t. Cet estimateur a ´et ´e adapt ´e par Kaplan and Meier (1958) pour prendre en compte des donn ´ees censur ´ees. Nous d ´efinissons la statistique d’ordre des temps d’ ´ev ´enements par T (1) < T (2) < · · · < T (n) , le nombre d’observations qui subissent l’ ´ev ´enement au temps T (i) par d i et le nombre d’observations `a risque au temps T (i)

par r i . L’estimateur de Kaplan-Meier s’ ´ecrit alors :

S(t) = ˆ Y

i:T (i) ≤t

1 − d i

r i

Cet estimateur, aussi appel ´e estimateur produit-limite, est l’estimation du maximum de vraisemblance non-

param ´etrique de la fonction de survie S(t) (cf. Kaplan and Meier (1958) pour plus de d ´etails). Nous proposons une

explication heuristique de S(t). Nous nous plac¸ons dans le contexte d’une ´etude de la dur ´ee de vie de patients ˆ

malades qui luttent contre une maladie. En consid ´erant l’objectif qui est de survivre jusqu’au temps t, il faut d’abord

(17)

ˆetre toujours vivant au temps T (1) . La prochaine ´etape consiste `a survivre de T (1) `a T (2) sachant que le patient a surv ´ecu jusqu’au temps T (1) et ainsi de suite. On estime la probabilit ´e conditionnelle de mourir au temps T (i) ´etant donn ´e que le patient ´etait vivant juste avant par d r i

i . La probabilit ´e conditionnelle de survivre au temps T (i) est le compl ´ement de la quantit ´e pr ´ec ´edente: 1 − d r i

i . La probabilit ´e de survivre jusqu’au temps t est obtenue en multipliant les probabilit ´es conditionnelles pour tous les temps pertinents jusqu’au temps t. La consistance de l’estimateur S(t) ˆ a ´et ´e d ´emontr ´ee par Kaplan and Meier (1958) et la normalit ´e asymptotique par Breslow and Crowley (1974).

1.2.2 Estimateur non param ´etrique de la fonction de risque cumul ´e

Une premi `ere approche consiste `a estimer S(t) ˆ et `a utiliser l’ ´equation (1.5) qui lie S(t) `a H(t). Un estimateur possible du risque cumul ´e s’ ´ecrit tout simplement: − log( ˆ S(t)). Il existe aussi un estimateur qui permet d’estimer directement H (t) sans passer par la fonction de survie S(t). Cet estimateur est appel ´e estimateur de Nelson-Aalen et s’ ´ecrit comme suit :

H ˆ (t) = X

i:T i ≤t

d i r i

Ainsi, H ˆ (t) est une fonction en escalier croissante continue `a droite avec des incr ´ements de d r i

i aux instants de survenue d’ ´ev ´enement. C’est un estimateur du maximum de vraisemblance non param ´etrique de H(t); la consistance et la normalit ´e asymptotique de l’estimateur ont ´et ´e d ´emontr ´ees par Greenwood and Wefelmeyer (1990) dans le cadre du mod `ele `a risque proportionnel de Cox.

Ces deux estimateurs peuvent ˆetre utilis ´es pour approcher la m ˆeme fonction. Les deux sont asymptotiquement

´equivalents et le choix d’une approche au d ´etriment de l’autre d ´epend du contexte comme indiqu ´e dans une ´etude comparative men ´ee par Colosimo et al. (2002).

1.3 Les mod `eles de survie param ´etriques

Dans la section pr ´ec ´edente, nous avons pr ´esent ´e les estimations non param ´etriques des fonctions de survie et de risque. Dans certains cas, des informations pr ´ealables peuvent ˆetre disponibles sur les temps d’ ´ev ´enement ´etudi ´es.

Une deuxi `eme approche consiste `a supposer que les temps de survie suivent une certaine distribution. Les mod `eles de survie param ´etriques sont souvent utilis ´es pour extrapoler des temps de survie au-del `a des donn ´ees de suivi disponibles. Cette particularit ´e fait la popularit ´e des mod `eles param ´etriques dans le domaine de la sant ´e o `u il est n ´ecessaire de prendre en compte les effets et les co ˆuts sur la survie suite `a des interventions m ´edicales (cf. Ishak et al. (2013) pour plus de d ´etails).

Toute distribution de variables al ´eatoires d ´efinie pour t ∈ [0, ∞) peut ˆetre utilis ´e pour d ´ecrire le temps de surv-

enue de l’ ´ev ´enement d’int ´er ˆet. On se place dans le cadre simple de temps d’ ´ev ´enement al ´eatoire et i.i.d. Les temps

(18)

d’ ´ev ´enement sont repr ´esent ´es par la variable al ´eatoire T . Nous donnons quelques exemples de distributions sou- vent utilis ´ees dans la litt ´erature. Les calculs des quantit ´es associ ´ees (densit ´e de probabilit ´e de la variable T , risque instantan ´e, risque cumul ´e, fonction de survie) ne seront pas explicit ´es et nous ne consid ´erons aucune covariable afin d’all ´eger les notations. Nous d ´etaillons trois distributions qui seront utilis ´ees dans les chapitres du manuscrit et renvoyons vers Duchateau and Janssen (2008) pour une liste plus exhaustive de distributions possibles.

1.3.1 Le mod `ele exponentiel

Le mod `ele exponentiel est le mod `ele param ´etrique le plus simple et suppose un risque constant dans le temps, qui refl `ete une propri ´et ´e implicite de la distribution. C’est la propri ´et ´e d’absence de m ´emoire. La probabilit ´e que l’ ´ev ´enement survienne dans un intervalle de temps particulier d ´epend uniquement de la longueur de l’intervalle mais pas des valeurs des bornes de cet intervalle. Supposons T ∼ Exp(λ). Alors pour t ≥ 0, λ > 0,

f (t) = λ exp(−λt) h(t) = λ

H (t) = λt S(t) = exp(−λt)

Il n’y a qu’un param `etre qui caract ´erise la distribution, ici not ´e par λ et l’inverse de ce param `etre est ´egale `a la fois `a la moyenne et l’ ´ecart type de T . Ces caract ´eristiques en font un mod `ele tr `es simple. Un exemple d’utilisation concerne la mod ´elisation de la dur ´ee de vie d’un syst `eme o `u les pi `eces sont remplac ´ees en cas de d ´efaillance (cf.

Mendenhall and Sincich (2016)). En revanche, en raison de la non flexibilit ´e de la distribution, peu de travaux en font usage et optent plut ˆot pour des distributions plus flexibles.

1.3.2 Le mod `ele de Weibull

Le mod `ele de Weibull est une g ´en ´eralisation du mod `ele exponentiel avec deux param `etres positifs qu’on note λ

et ρ. Le param `etre λ est le param `etre d’ ´echelle et ρ le param `etre de forme. Le param `etre d’ ´echelle caract ´erise la

fac¸on dont la densit ´e est ´etir ´ee alors que le param `etre de forme comme son nom l’indique est un param `etre qui

permet `a la densit ´e (de fac¸on ´equivalente le risque instantan ´e) de prendre une vari ´et ´e de formes en fonction de la

valeur du param `etre. Quand la valeur de ρ est inf ´erieure `a 1, h diminue de fac¸on monotone en fonction du temps et

inversement quand ρ est plus grand que 1, h augmente de fac¸on monotone avec le temps. Dans le cas o `u ρ = 1,

on retrouve le mod `ele exponentiel. Non seulement la distribution est plus flexible, mais les expressions des autres

quantit ´es restent simples comme on peut le voir ci-dessous. Supposons T ∼ Weibull(λ, ρ). Alors pour t ≥ 0, λ > 0,

(19)

ρ > 0,

f (t) = λρt ρ−1 exp(−λt ρ ) h(t) = λρt ρ−1

H(t) = λt ρ

S(t) = exp(−λt ρ )

Nous pr ´esentons graphiquement l’effet des param `etres ρ et λ sur le risque instantan ´e en fonction du temps.

Figure 1.1: Risque instantan ´e en fonction de ρ et λ

La distribution de Weibull peut ˆetre utilis ´ee pour mod ´eliser la distribution de survie d’une population `a risque croissant, d ´ecroissant ou constant, et s’applique donc `a de nombreux types de donn ´ees. Le risque diminue pour ρ < 1, est constant pour ρ = 1 et augmente pour ρ > 1. On remarque que pour ρ = 1, la distribution de Weibull est ´equivalente `a une distribution exponentielle param ´etr ´ee par λ. Ce mod `ele ´etant plus flexible, est plus souvent utilis ´e dans la litt ´erature comme dans les travaux de Zhu et al. (2011) pour analyser les facteurs pronostiques chez les patients atteints de cancer gastrique. Une g ´en ´eralisation de la loi de Weibull et les nombreuses avantages de cette loi sont ´etudi ´ees dans les travaux de Mudholkar et al. (1996).

1.3.3 Le mod `ele de Gompertz

La distribution de Gompertz trouve ses origines en 1825 et a ´et ´e propos ´e par l’actuaire britannique Benjamin Gom-

pertz. Il a remarqu ´e une augmentation exponentielle progressive dans le taux de mortalit ´e entre l’ ˆage de maturation

sexuelle et la vieillesse. Ces travaux sont encore d’actualit ´es dans les ´etudes d ´emographiques (cf. Wilson (1994))

et l’utilisation de cette distribution dans l’analyse de survie est courante. Supposons T ∼ Gompertz(α, λ). Alors

(20)

pour t ≥ 0, α > 0, λ > 0,

f (t) = λ exp(αt) exp(− λ

α ( exp(αt) − 1)) h(t) = λ exp(αt)

H(t) = λ

α ( exp(αt) − 1) S(t) = exp(− λ

α ( exp(αt) − 1))

Nous pr ´esentons graphiquement l’effet des param `etres α et ρ sur le risque instantan ´e en fonction du temps.

Figure 1.2: Risque instantan ´e en fonction de ρ et λ

Le risque augmente pour α > 0 et est constant pour α = 0. Lorsque α = 0, la loi de Gompertz est ´equivalente `a une loi exponentielle param ´etr ´ee par λ. La distribution de Gompertz est caract ´eris ´ee par le fait que le logarithme du risque instantan ´e est lin ´eaire en t et est donc ´etroitement li ´ee `a la distribution de Weibull o `u le logarithme du risque instantan ´e est lin ´eaire en logarithme de t.

1.4 Le mod `ele de Cox

Nous introduisons maintenant le mod `ele de Cox (1972) qui permet de mod ´eliser le risque instantan ´e et de quantifier l’effet des covariables sur les temps de survie.

1.4.1 Description du mod `ele

Le premier mod `ele propos ´e par Cox (1972), appel ´e mod `ele `a risque proportionnel exprime le risque instantan ´e

comme un produit de deux quantit ´es. Pour i = 1, . . . , n,

(21)

∀t ≥ 0, h(t|Z i ) = h 0 (t)exp (Z i t β ) (1.6) o `u h 0 est la fonction de risque de base qui correspond au risque instantan ´e lorsque toutes les covariables sont nulles, β ∈ R p les param `etres d’effet, aussi appel ´es param `etres de r ´egression, et Z i ∈ R p les covariables associ ´ees. On peut distinguer deux parties, la premi `ere (h 0 (t)) est d ´ependante du temps contrairement `a la seconde (exp (Z i t β)) qui elle ne d ´epend que des covariables. La forme de h 0 (t) n’ ´etant pas pr ´ecis ´ee, on s’int ´eresse plut ˆot

`a l’association entre les covariables Z i et la survenue de l’ ´ev ´enement d’int ´er ˆet. Les hypoth `eses inh ´erentes `a ce mod `ele sont les suivantes :

(C1) le rapport des risques instantan ´es de survenue de l’ ´ev ´enement de deux observations doit ˆetre ind ´ependant du temps.

(C2) le logarithme du risque est une fonction lin ´eaire des covariables

L’hypoth `ese (C1), aussi appel ´ee hypoth `eses de proportionalit ´e des risques, est la plus contraignante. Les donn ´ees r ´eelles ne permettent g ´en ´eralement pas de faire cette hypoth `ese. L’hypoth `ese (C2) est l’hypoth `ese de log-lin ´earit ´e, i.e, log(h(t|Z i )) = log(h 0 (t)) + Z i t β ce qui implique une relation lin ´eaire entre le logarithme du risque et les covariables.

1.4.2 Estimation des param `etres par maximum de la vraisemblance partielle

La vraisemblance partielle a ´et ´e d ´efinie permettant d’estimer le param `etre d’effet β en s’affranchissant de la fonction de risque de base h 0 (cf. Cox (1975)). Cette vraisemblance partielle ne fait plus intervenir la fonction de risque de base h 0 . Le param `etre d’int ´er ˆet principal ´etant β puisqu’il permet de quantifier l’effet des covariables alors que h 0

n’est g ´en ´eralement pas ´etudi ´e en survie.

On consid `ere un n- ´echantillon (X i , ∆ i ) 1≤i≤n de variables al ´eatoires distribu ´ees comme (X, ∆). Suivant Cox (1975), l’expression de la vraisemblance partielle s’ ´ecrit alors :

L p (β; X, ∆) =

n

Y

i=1

exp (Z i t β ) P

j∈R(X i ) exp (Z j t β)

! ∆ i

(1.7) o `u R(X (i) ) = {1 ≤ j ≤ n, X j ≥ X i } est l’ensemble des observations `a risque au temps X i . Les observations

`a risque au temps X i sont les observations pour lesquelles l’ ´ev ´enement n’est pas encore survenue au temps X i . L’estimateur de β qu’on note β ˆ est d ´efini comme le maximum de cette vraisemblance partielle.

β ˆ = argmax

β

L p (β; X, ∆)

(22)

Sous des hypoth `eses de r ´egularit ´e, les propri ´et ´es asymptotiques telles que la consistance et la normalit ´e asymp- totique de l’estimateur β ˆ ont ´et ´e d ´emontr ´ees par Tsiatis et al. (1981) et Andersen and Gill (1982). Ils ont montr ´e avec ´el ´egance ces bonnes propri ´et ´es de l’estimateur `a l’aide de processus de comptage et de martingales.

1.4.3 Propri ´et ´es asymptotiques de l’estimateur

Les travaux de Andersen and Gill (1982) n ´ecessitant une reformulation du mod `ele avec des processus de comptage, nous pr ´esentons les r ´esultats obtenus par Tsiatis et al. (1981). Nous commencons par ´ecrire la log-vraisemblance partielle dans le mod `ele de Cox :

l p (β; X, ∆) = log(L p (β; X, ∆))

=

n

X

i=1

i (Z i t β) − log X

j∈R(X (i) )

exp (Z j t β)

(1.8) L’estimateur β ˆ est donc la solution de l’ ´equation annulant la d ´eriv ´ee de la log-vraisemblance partielle d ´efinie dans l’ ´equation (1.8) par rapport `a β :

∂l p (β; X, ∆)

∂β =

n

X

i=1

∆ i Z i t − P

j∈R(X (i) ) Z j exp (Z j t β) P

j∈R(X (i) ) exp (Z j t β) (1.9)

Nous explicitons maintenant les hypoth `eses n ´ecessaires afin de prouver la consistance et la normalit ´e asymp- totique de β. ˆ

(H1) P (X ≥ τ) > 0

(H2) E [Zexp(Z t β)] 2 est born ´ee uniform ´ement dans un voisinage de β

Les temps d’ ´ev ´enements sont suppos ´es born ´es et la quantit ´e τ repr ´esente ici la fin de la p ´eriode d’observation.

L’hypoth `ese (H1) implique qu’ `a la fin de la p ´eriode d’observation, il y a une probabilit ´e non nulle pour qu’une observation qui n’a toujours pas subi l’ ´ev ´enement ne soit pas censur ´ee. C’est une condition qui est valid ´ee dans la plupart des ´etudes sur des donn ´ees r ´eelles. Sous les hypoth `eses (H1) et (H2), le th ´eor `eme 3.1 de Tsiatis et al.

(1981) garanti l’existence d’une suite de solutions β ˆ n de l’ ´equation (1.9) tel que β ˆ n converge p.s vers β 0 . Ils prouvent

´egalement la normalit ´e asymptotique de l’estimateur.

1.4.4 Relation entre les estimateurs de maximum de vraisemblance partielle et de maxi- mum de vraisemblance non param ´etrique dans le mod `ele de Cox

L’estimateur par maximum de vraisemblance partielle d ´efini dans le mod `ele de Cox peut- ˆetre consid ´er ´e comme un

maximum de vraisemblance non param ´etrique (NPMLE) (cf. Zeng and Lin (2007)). Nous ´ecrivons la vraisemblance

(23)

jointe pour les param `etres β et H 0 dans le mod `ele de Cox :

L j (β, H 0 ; X, ∆) =

n

Y

i=1

h 0 (X i ) exp(Z i t β) i

exp(− exp(Z i t β)H 0 (X i )) (1.10) o `u H 0 (X i ) = R X i

0 h 0 (t)dt.

En consid ´erant h 0 comme une fonction constante par morceaux entre les temps de survenue d’ ´ev ´enement non-censur ´es, L j (β, H 0 ; X, ∆) est maximis ´e simultan ´ement par β ˆ d ´efini comme le maximum de la vraisemblance partielle (cf. ´equation (1.7)) et l’estimateur de Breslow (cf. Zeng and Lin (2007)) :

H ˆ 0 (t) =

n

X

i=1

I X i ≤t ∆ i

P

j∈R(X i ) exp(Z j t β)

Ainsi, l’estimateur NPMLE de β et de H 0 sont ´egaux `a l’estimateur par maximum de vraisemblance partielle de β et l’estimateur de Breslow de H 0 respectivement.

1.5 Les mod `eles de fragilit ´e

Le mod `ele de fragilit ´e introduit par Vaupel et al. (1979) permet de s’affranchir de l’hypoth `ese de proportionnalit ´e des risques du mod `ele de Cox. Ce mod `ele peut- ˆetre consid ´er ´e comme une extension du mod `ele de Cox permettant de prendre en compte l’h ´et ´erog ´en ´eit ´e qu’il peut y avoir dans les donn ´ees. La notion de fragilit ´e est un moyen pratique d’introduire des effets al ´eatoires, une h ´et ´erog ´en ´eit ´e non observ ´ee ou des associations possibles dans les mod `eles d’analyse de survie. Dans sa forme la plus simple, une fragilit ´e peut ˆetre consid ´er ´ee comme un effet al ´eatoire non observ ´e qui modifie la fonction de risque instantan ´e d’une observation ou de plusieurs observations li ´ees les unes aux autres. Cet effet est mod ´elis ´e par une variable al ´eatoire suivant une distribution de probabilit ´e. Le ou les param `etres qui caract ´erisent cette distribution de probabilit ´e sont ´egalement estim ´es avec les autres param `etres du mod `ele.

De nombreux mod `eles ayant chacun une structure de fragilit ´e propre ont ´et ´e propos ´es depuis Vaupel et al.

(1979) et ces mod `eles permettent diff ´erentes mod ´elisations. Dans cette section, nous d ´ecrivons quelques mod `eles fr ´equemment utilis ´es dans la litt ´erature.

1.5.1 Mod `eles `a fragilit ´es univari ´ees

Nous commenc¸ons par le mod `ele propos ´e par Vaupel et al. (1979) qui propose de g ´erer l’h ´et ´erog ´en ´eit ´e pr ´esente

dans les donn ´ees par un effet al ´eatoire multiplicatif au mod `ele. Nous pouvons mod ´eliser de mani `ere ´equivalente

l’effet al ´eatoire comme un effet additif dans la fonction de lien exponentiel. Ils ont introduit la notion de fragilit ´e

et l’ont appliqu ´ee `a des donn ´ees d ´emographiques. Le mod `ele de fragilit ´e classique qui est principalement utilis ´e

(24)

suppose un mod `ele `a risques proportionnels qui est conditionnel `a l’effet al ´eatoire (fragilit ´e). Dans l’ ´etude de Vaupel et al. (1979), le risque instantan ´e d’un individu (observation) d ´epend en outre d’une variable al ´eatoire non observ ´ee, qui agit de mani `ere multiplicative sur la fonction de risque de base. Les auteurs consid `erent un mod `ele sans covariables et ´etudient les rapports de risque entre les observations. C’est un exemple de mod `ele univari ´e, du fait qu’il existe un effet al ´eatoire associ ´e `a chaque observation. Les covariables peuvent ˆetre naturellement incorpor ´ees au mod `ele pour obtenir une mod ´elisation plus g ´en ´erale du risque instantan ´e dans le mod `ele `a fragilit ´es univari ´ees. On consid `ere une population compos ´ee de n observations. Pour 1 ≤ i ≤ n, le temps de survenue de l’ ´ev ´enement et le temps de censure pour l’observation i sont mod ´elis ´es par des variables al ´eatoires not ´ees T i et C i respectivement. On observe alors pour 1 ≤ i ≤ n le temps censur ´e `a droite et l’indicateur de censure not ´es respectivement X i et ∆ i et d ´efinis par :

X i = min(T i , C i ) et ∆ i = 1 T i ≤C i

Pour 1 ≤ i ≤ n, le mod `ele s’ ´ecrit :

∀t ≥ 0 h i (t|u i ) = h 0 (t)u i exp(Z i t β) (1.11) o `u h i (t|u i ) est le risque instantan ´e de survenue de l’ ´ev ´enement pour l’observation i au temps X i , h 0 (t) le risque de base au temps t, u = (u i ) 1≤i≤N est le vecteur de fragilit ´e, β le vecteur des param `etres de r ´egression inconnu et Z i les covariables associ ´ees `a l’observation i.

On fait les hypoth `eses classiques suivantes :

(F1) Les temps de censure (C i ) 1≤i≤n sont ind ´ependants des temps de survenue de l’ ´ev ´enement (X i ) 1≤i≤n et des variables de fragilit ´e (u i ) 1≤i≤n .

(F2) Les temps de survenue de l’ ´ev ´enement (X i ) 1≤i≤n sont ind ´ependants et identiquement distribu ´es.

(F3) Les fragilit ´es (u i ) 1≤i≤n sont ind ´ependantes et identiquement distribu ´ees selon une loi de densit ´e g param ´etr ´ee par γ.

Ce mod `ele est identifiable si E (u) < ∞ et en pr ´esence de covariables (cf. Elbers and Ridder (1982)). Dans ce cas, aucune hypoth `ese sur la fonction de risque de base h 0 ou sur la classe de distribution de u est n ´ecessaire.

Nous pouvons aussi faire intervenir la fragilit ´e de fac¸on additive dans la fonction de lien exponentielle comme suit :

∀t ≥ 0 h i (t|b i ) = h 0 (t) exp(Z i t β + b i ) (1.12) Les limites du mod `ele `a fragilit ´es univari ´ees

Dans le mod `ele `a fragilit ´es univari ´ees, nous ne supposons aucune corr ´elation entre les temps de survie ce qui

(25)

implique donc une population homog `ene. C’est la cons ´equence directe de l’hypoth `ese (F2). Cela ne refl `ete pas toujours la r ´ealit ´e. Par exemple, dans un essai clinique men ´e sur plusieurs centres, les donn ´ees collect ´ees dans un m ˆeme centre sont s ˆurement plus corr ´el ´ees entres elles par rapport `a des donn ´ees collect ´ees dans un autre centre.

Cet ”effet centre” doit ˆetre pris en compte lors de la mod ´elisation de ce type de donn ´ees.

1.5.2 Mod `eles `a fragilit ´es multivari ´ees

En analyse de survie, la structure des donn ´ees conduit souvent `a des effets de groupe ou/et des corr ´elations fortes.

Ce type de donn ´ees se produit par exemple si l’on consid `ere les dur ´ees de vie (ou les p ´eriodes d’apparition d’une maladie) de personnes d’une m ˆeme famille (jumeaux, parents-enfants) ou des ´ev ´enements r ´ecurrents tels que des infections chez la m ˆeme personne. Une premi `ere approche qui r ´epond `a la probl ´ematique d’un ”effet groupe” tel que dans une ´etude clinique multi-centre consiste `a associer `a chaque groupe un effet al ´eatoire. Le mod `ele `a fragilit ´es partag ´ees permet de prendre en compte la structure en groupe et permet d’aborder la nature multivari ´ee des donn ´ees. Ce type de mod `ele a cependant des limites qui seront d ´etaill ´es. Des mod `eles plus flexibles permettent de contourner ces limites et offrent une alternative plus adapt ´ees `a certains types de donn ´ees. Nous d ´etaillons d’abord un exemple de mod `ele `a fragilit ´es partag ´ees, puis un mod `ele `a fragilit ´es multivari ´ees corr ´el ´ees.

Mod `eles `a fragilit ´es partag ´ees

Le mod `ele `a fragilit ´es partag ´ees est pertinent quand les temps d’ ´ev ´enements des observations ´etudi ´ees sont li ´es.

C’est un cas sp ´ecifique des mod `eles `a fragilit ´es multivari ´ees. On suppose que les observations d’un groupe parta- gent la m ˆeme fragilit ´e, ce qui explique pourquoi ce mod `ele est appel ´e mod `ele `a fragilit ´es partag ´ees. Il a ´et ´e introduit par Clayton (1978) et plus largement ´etudi ´e par Hougaard (2000).

On consid `ere une population compos ´ee de N groupes. Pour 1 ≤ i ≤ N , on note par n i la taille du i `eme groupe.

Pour 1 ≤ i ≤ N et 1 ≤ j ≤ n i , le temps de survenue de l’ ´ev ´enement et le temps de censure pour l’individu j du groupe i sont mod ´elis ´es par des variables al ´eatoires not ´ees T ij et C ij respectivement. On observe alors pour 1 ≤ i ≤ N et 1 ≤ j ≤ n i le temps censur ´e `a droite et l’indicateur de censure not ´es respectivement X ij et ∆ ij et d ´efinis par :

X ij = min(T ij , C ij ) et ∆ ij = 1 T ij ≤C ij

Le mod `ele de fragilit ´e est d ´efini pour 1 ≤ i ≤ N, 1 ≤ j ≤ n i par :

∀t ≥ 0 h ij (t|b i ) = h 0 (t) exp(Z ij t β + b i ) (1.13)

o `u h ij (t|b i ) est le risque instantan ´e de survenue de l’ ´ev ´enement pour l’individu j du groupe i au temps t, h 0 (t) le

(26)

risque de base au temps t, b i le vecteur de fragilit ´e du groupe i, β le vecteur des param `etres de r ´egression inconnu et Z ij les covariables associ ´ees `a l’observation j du groupe i.

Nous reformulons les hypoth `eses faites dans le mod `ele `a fragilit ´es univari ´ees pour prendre en compte la struc- ture en groupes :

(F1) Les temps de censure (C ij ) 1≤i≤N,1≤j≤n i sont ind ´ependants des temps de survenue de l’ ´ev ´enement (T ij ) 1≤i≤N,1≤j≤n i

(F2) Conditionnellement aux fragilit ´es (b i ) 1≤i≤N , les temps de survenue de l’ ´ev ´enement (T ij ) 1≤i≤N,1≤j≤n i sont ind ´ependants.

(F3). Les fragilit ´es (b i ) 1≤i≤N sont ind ´ependantes et identiquement distribu ´ees selon une loi de densit ´e g param ´etr ´ee par γ.

Ce mod `ele peut aussi ˆetre formul ´e avec une fragilit ´e agissant de fac¸on multiplicative sur la fonction de risque instantan ´e. Dans ce cas, le mod `ele s’ ´ecrit pour 1 ≤ i ≤ N, 1 ≤ j ≤ n i :

∀t ≥ 0 h ij (t|u i ) = h 0 (t)u i exp(Z ij t β) (1.14) o `u u i est le vecteur de fragilit ´e du groupe i. Cette param ´etrisation est courante dans la litt ´erature, notamment dans les mod `eles de fragilit ´e gamma. Cependant, mod ´eliser la fragilit ´e ainsi pose un probl `eme si nous voulons consid ´erer une covariable agissant sur le terme de fragilit ´e par exemple.

Diff ´erents mod `eles `a fragilit ´es partag ´ees peuvent ˆetre d ´efinis en utilisant diff ´erentes distributions de fragilit ´e pour les effets al ´eatoires. Les param `etres de la fonction de risque de base h 0 sont estim ´es dans certains cas sous l’hypoth `ese d’une forme param ´etrique de la fonction ou la fonction peut aussi ˆetre estim ´ee de fac¸on semi- param ´etrique sur une base de splines (cf. Rondeau et al. (2012)). Nous verrons plus en d ´etail les proc ´edures d’estimation dans la section suivante.

Les limites du mod `ele `a fragilit ´es partag ´ees

• Dans le mod `ele `a fragilit ´es partag ´ees, l’effet al ´eatoire partag ´e par chaque observation d’un groupe explique la corr ´elation entre les membres du groupe. Cette mod ´elisation impose les m ˆemes effets li ´es aux covariables non observ ´ees sur les observations du groupe ce qui peut ˆetre difficile `a justifier pour des donn ´ees r ´eelles.

• En pr ´esence de covariables, les estimations du param `etre de la loi de fragilit ´e et des coefficients de r ´egression sont confondues (cf. Clayton and Cuzick (1985)).

• Dans la plupart des cas, comme avec une fragilit ´e gamma par exemple, une fragilit ´e unidimensionnelle ne

peut qu’induire une association positive au sein du groupe.

(27)

Mod `eles `a fragilit ´es multivari ´ees corr ´el ´ees

La mod ´elisation des temps d’ ´ev ´enements de telle sorte que chaque membre d’un groupe partage la m ˆeme fragilit ´e comme dans le mod `ele `a fragilit ´es partag ´ees n’est pas la meilleure solution lorsqu’il peut exister une h ´et ´erog ´en ´eit ´e au sein du groupe. La difficult ´e que pose ce type de donn ´ees est due `a la d ´ependance des observations au sein des groupes, ou `a des mesures r ´ep ´et ´ees au sein des observations. La d ´ependance survient g ´en ´eralement lorsque les observations d’un m ˆeme groupe sont li ´es les unes aux autres ou en raison de la r ´ecurrence de l’ ´ev ´enement d’int ´er ˆet pour la m ˆeme observation. Des mod `eles `a fragilit ´es multivari ´ees corr ´el ´ees ont ´et ´e fr ´equemment utilis ´es pour mod ´eliser cette d ´ependance dans les donn ´ees (cf. Hougaard (2012)). Un premier mod `ele dans l’ ´etude de donn ´ees de survie de jumeaux danois a ´et ´e propos ´e par Yashin and Iachine (1995). Les auteurs ´etendent le mod `ele `a fragilit ´es univari ´ees et mod ´elisent les temps de survie par un mod `ele bivari ´e `a fragilit ´es individuelles corr ´el ´ees. Suivant les travaux de Yashin and Iachine (1995), pour 1 ≤ i ≤ N, 1 ≤ j ≤ 2 :

∀t ≥ 0 h ij (t|u ij ) = h 0 (t)u ij exp(Z ij t β) (1.15) o `u u i = (u i1 , u i2 ) 1≤i≤N sont i.i.d. au niveau des groupes mais les termes (u i1 , u i2 ) sont corr ´el ´es et on note ρ u = Corr(u i1 , u i2 ). Ce mod `ele peut ˆetre consid ´er ´e comme une version plus flexible du mod `ele `a fragilit ´es partag ´ees.

Dans le mod `ele `a fragilit ´es partag ´ees, u i1 = u i2 pour i = 1, . . . , N ce qui implique ρ u = 1. Le mod `ele de Yashin and Iachine (1995) permet d’estimer le param `etre ρ u dans l’intervalle [0, 1] et d’ ˆetre moins contraignant dans la mod ´elisation des donn ´ees. Des techniques similaires peuvent ˆetre appliqu ´ees afin de construire diff ´erents mod `eles de fragilit ´e corr ´el ´es en fonction de la structure des donn ´ees.

Les mod `eles de fragilit ´e `a corr ´elations spatiales

L’utilisation des statistiques spatiales en analyse de survie est relativement r ´ecente et s’av `ere cruciale dans l’analyse

et la mod ´elisation de certains types de donn ´ees. Le travail de Snow sur la carte de Broad Street est consid ´er ´e

comme le premier travail spatial sur des donn ´ees d’ ´epid ´emiologie (cf. Shiode et al. (2015)). ` A ce jour, il existe

peu de travaux sur les mod `eles de fragilit ´es spatiales. Banerjee et al. (2003) ont propos ´e un mod `ele de fragilit ´e

param ´etrique pour estimer les param `etres en utilisant une approche bay ´esienne sur des donn ´ees de mortalit ´e

infantile au Minnesota. Les donn ´ees consid ´er ´ees sont structur ´ees en groupe et la d ´ependance spatiale entre les

groupes est mod ´elis ´ee. Nous d ´efinissons un mod `ele de fragilit ´e spatiale g ´en ´eral qui peut ˆetre vu comme une

extension du mod `ele `a fragilit ´es partag ´ees qui prend en compte une d ´ependance spatiale entre les groupes. Ce

mod `ele est dans la m ˆeme veine que celui consid ´er ´e dans Li and Ryan (2002). Pour 1 ≤ i ≤ N , 1 ≤ j ≤ n i , on

consid `ere :

(28)

h ij (t|b i ) = h 0 (t) exp(Z ij t β + b i ) (1.16) o `u (b i ) 1≤i≤N ∼ N (0 N , Σ(ρ)). Le coefficient ρ est ici un coefficient de corr ´elation qui doit ˆetre estim ´e. Les mod `eles spatiales comme celui-ci consid `erent souvent des r ´egions comme groupe et les distances entre les groupes sont prises en compte dans le mod `ele. Les observations d’un m ˆeme groupe partagent le m ˆeme terme de fragilit ´e et les fragilit ´es des diff ´erents groupes sont corr ´el ´ees. Par exemple, dans Li and Ryan (2002), une position (coordonn ´ees g ´eographiques) est mesur ´ee par r ´egion. Dans le Chapitre 3, nous proposons un mod `ele spatiale qui permet de consid ´erer les distances entre toutes les observations et nous discutons les avantages de cette mod ´elisation par rapport `a la structure en groupe en l’appliquant pour analyser des donn ´ees de malaria.

1.5.3 Lois de fragilit ´es

Nous d ´ecrivons dans cette section une liste non exhaustive de lois de fragilit ´es couramment utilis ´ees dans la litt ´erature. Il existe bien s ˆur une plus grande palette de distributions (voir cf. Duchateau and Janssen (2008) pour plus de d ´etails).

La fragilit ´e gamma

La distribution gamma est l’un des choix de distribution les plus populaires et est donc tr `es pr ´esent dans la litt ´erature.

La forme simple de la densit ´e permet un calcul facile dans diff ´erentes approches d’estimation; que ce soit les approches de vraisemblance classiques ou quand il s’agit de trouver des expressions analytiques de la fonction de survie, du risque cumul ´e et de la fonction de risque instantan ´e. Par exemple, nous verrons plus tard que l’int ´egrale de la vraisemblance compl `ete par rapport `a une fragilit ´e gamma poss `ede une forme analytique contrairement `a d’autres distributions de fragilit ´e. D’autre part, la simplicit ´e de la transform ´ee de Laplace s’av `ere ´egalement tr `es utile dans de nombreuses applications. Il est tr `es fr ´equent de consid ´erer une distribution gamma avec une moyenne

´egale `a 1 et d’estimer le seul param `etre qui caract ´erise la distribution qu’on note η. Supposons le vecteur de fragilit ´e u qui suit une distribution gamma de moyenne ´egale `a 1, la densit ´e de la variable u s’ ´ecrit :

g(u) = u η−1 η η exp(−ηu) Γ(η)

Comme on peut le voir dans la Figure 1.3, c’est une distribution flexible qui prend diverses formes selon la valeur

du param `etre η. Le cas η = 1 correspond `a la distribution exponentielle et lorsque η est grand, elle prend une forme

en cloche rappelant la distribution normale. Cette loi de fragilit ´e est favoris ´ee dans la plupart des cas pour les

facilit ´es math ´ematiques et informatiques qu’elle offre. Il existe des tests d’ad ´equation `a une loi de fragilit ´e gamma

(cf. Geerdens et al. (2012)) pour les mod `eles `a fragilit ´es partag ´ees.

(29)

0.0 0.5 1.0 1.5

0 1 2 3 4 5

x

f(x)

η 0.5 1 2 4 Loi gamma

Figure 1.3: Densit ´e de la distribution gamma pour diff ´erentes valeurs de η

La fragilit ´e log-normale (multiplicative) ou normale (additive)

Le mod `ele de fragilit ´e log-normale est d ´efini suivant l’ ´equation du mod `ele (1.11) et le mod `ele de fragilit ´e normale selon le mod `ele (1.12). Dans les deux mod `eles, on impose souvent les contraintes suivantes : E (b) = 0 pour le mod `ele de fragilit ´e normale et E (u) = 1 pour le mod `ele log-normale. Le mod `ele (1.12) est le plus souvent utilis ´e dans la litt ´erature et c’est celui qu’on impl ´emente dans tous les chapitres du manuscrit. Elle permet l’inclusion de covariables au niveau de la fragilit ´e et offre donc plus de possibilit ´es de mod ´elisation. La fragilit ´e log-normale est particuli `erement utile pour mod ´eliser les structures de d ´ependance dans les mod `eles de fragilit ´e multivari ´es.

Cependant, il n’existe pas de forme explicite de la vraisemblance marginale pour ces deux mod `eles. Par cons ´equent, des strat ´egies d’estimation bas ´ees sur des approximations, int ´egrations num ´eriques ou algorithme de type Expectation Maximization (EM) sont n ´ecessaires dans une approche de maximisation de la vraisemblance marginale.

1.6 M ´ethodes d’estimation existantes pour les mod `eles de fragilit ´e

Il est important de distinguer les diff ´erents objectifs de l’analyse de survie suivant les quantit ´es qui nous int ´eressent.

Nous consid ´erons comme param `etres d’int ´er ˆets les param `etres de r ´egression β , le param `etre de la loi de fragilit ´e

et la fonction de risque de base h 0 selon le contexte. Les deux principales m ´ethodes comprennent l’approche

param ´etrique et l’approche semi-param ´etrique. L’approche semi-param ´etrique est plus riche car elle offre de nom-

breuses fac¸ons de g ´erer la fonction de risque de base h 0 . Nous commenc¸ons par d ´ecrire l’approche param ´etrique

(30)

qui consiste `a faire une hypoth `ese param ´etrique sur la fonction h 0 . Nous encha ˆ1nons ensuite avec les approches semi-param ´etriques.

1.6.1 Estimation param ´etrique

Dans les approches d’estimation param ´etrique, nous supposons que les dur ´ees de survie suivent une certaine dis- tribution. Habituellement, dans l’ ´etude de donn ´ees r ´eelles, des informations pr ´ealables sur les ´ev ´enements que l’on consid `ere sont prises en compte lors du choix d’une structure param ´etrique pour les temps de survie. La fonction de risque de base h 0 prend alors une forme totalement param ´etrique et les param `etres associ ´es doivent ˆetre es- tim ´es. La m ´ethode d’estimation classique dans ces mod `eles se fait par maximum de vraisemblance. Consid ´erons quelques-unes des nombreuses applications des mod `eles de fragilit ´e param ´etrique dans la litt ´erature. Dans de nombreux cas, l’hypoth `ese d’une distribution Weibull pour les temps d’ ´ev ´enements est privil ´egi ´ee (cf. Kuhn et al.

(2016), Kong et al. (2010)). Dans certaines situations, la mod ´elisation des temps d’ ´ev ´enements est choisie en fonc- tion de la structure des donn ´ees disponibles. Une fonction de risque de base h 0 constante par morceaux s’av `ere utile, en particulier lorsqu’il s’agit de mod ´eliser des effets saisonniers ou d’autres effets li ´es au climat comme dans les travaux de Getachew et al. (2013).

Le package R parfm (Munda et al. (2012)) permet d’estimer les param `etres par maximum de vraisemblance dans les mod `eles `a fragilit ´es partag ´ees. Il est possible de choisir parmi une large gamme de fonctions de risque de base (Weibull, Gompertz, log-normale, etc) et de lois de fragilit ´es dont la loi log-normale et la loi gamma.

Nous consid ´erons deux mod `eles de fragilit ´e param ´etriques et nous illustrons les m ´ethodes d’estimation dans les deux cas.

Estimation param ´etrique dans le mod `ele `a fragilit ´es partag ´ees gamma

Nous consid ´erons le mod `ele (1.14) avec u ∼ g(η, 1 η ) o `u g est la densit ´e de probabilit ´e d’une distribution gamma de moyenne ´egale `a 1.

∀t ≥ 0 h ij (t|b i ) = h 0 (t)u i exp(Z ij t β)

Les param `etres du mod `ele sont θ g = (β, h 0 , η). La structure de h 0 est souvent choisie suite `a des informations apriori sur les temps de survie. La vraisemblance compl `ete dans ce mod `ele s’ ´ecrit :

L comp (θ g ; X, ∆, u) =

N

Y

i=1 n i

Y

j=1

(h 0 (X ij )u i exp(Z ij t β)) δ ij

exp(−H 0 (X ij )u i exp(Z ij t β)) ×

N

Y

i=1

g η (u i )

(31)

La log-vraisemblance marginale est obtenue en int ´egrant la vraisemblance compl `ete par rapport `a la fragilit ´e u et en calculant ensuite le logarithme de l’expression obtenue :

log L margg ; X, ∆) = log Z

L compg ; X, ∆, u)du

=

N

X

i=1

d i log(η) − log Γ 1 η

+ log Γ 1 η + d i

− 1 η + d i

log 1 + η

n i

X

j=1

H 0 (X ij ) exp(Z ij t β)

+

n i

X

j=1

δ ij (Z ij t β + log(h 0 (X ij ))) (1.17) o `u d i = P n i

j=1 δ ij .

On obtient donc une expression analytique de la vraisemblance marginale. L’estimation des param `etres θ g se fait en maximisant (1.17). La mise `a jours des param `etres se fait g ´en ´eralement `a l’aide de m ´ethodes de descente de gradient.

Estimation param ´etrique dans le mod `ele `a fragilit ´es partag ´ees log-normale

Nous consid ´erons le mod `ele (1.13) avec b ∼ g η o `u g est la densit ´e de probabilit ´e d’une loi normale de moyenne

´egale `a 0 et de variance η.

∀t ≥ 0 h ij (t|b i ) = h 0 (t) exp(Z ij t β + b i )

Les param `etres du mod `ele sont θ = (β, h 0 , η). La vraisemblance compl `ete dans ce mod `ele s’ ´ecrit :

L comp (θ; X, ∆, b) =

N

Y

i=1 n i

Y

j=1

(h 0 (X ij ) exp(Z ij t β + b i )) δ ij

exp(−H 0 (X ij ) exp(Z ij t β + b i )) ×

N

Y

i=1

g η (b i )

La vraisemblance marginale est obtenue en int ´egrant la vraisemblance compl `ete par rapport `a la fragilit ´e b :

L marg (θ; X, ∆) = Z

L comp (θ; X, ∆, b)db (1.18)

L’estimation des param `etres θ se fait en maximisant cette vraisemblance marginale. Cependant, il n’existe pas

de forme analytique de l’int ´egrale quand on suppose que b suit une loi normale. Dans ce cas de figure, il existe des

m ´ethodes d’estimation telles que l’estimation via une version stochastique de l’algorithme Expectation Maximization

Références

Documents relatifs

Je pr´esenterai dans une premi`ere partie le canal d’´etude puis les donn´ees et les ´echantillons Monte-Carlo utilis´es, j’aborderai ensuite la strat´egie de s´election

Dans le pr´esent article nous pr´esentons l’esquisse d’un mod`ele visant `a cr´eer une partition des donn´ees d’´emissions acoustiques avec, `a la fois, la prise en compte du

Enfin, dans le cadre du mod` ele de croissance GreenLab 2, il n’existe pas de m´ ethode d’estimation g´ en´ erale pour les param` etres li´ es au fonctionnement de la plante.. Dans

Dans ce travail, nous nous int´ eressons ` a l’estimation de l’ordre d’un mod` ele ARM A ` a partir de donn´ ees incompl` etes par la technique de r´ e´ echantillonnage.. Nous