Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes d'approximation stochastique

(1)

HAL Id: tel-03112234

https://tel.archives-ouvertes.fr/tel-03112234

Submitted on 16 Jan 2021

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes

d’approximation stochastique

Ajmal Oodally

To cite this version:

Ajmal Oodally. Estimation dans des modèles de fragilité avec des structures de corrélation complexes

via des algorithmes d’approximation stochastique. Méthodologie [stat.ME]. Université Paris-Saclay,

2020. Français. �NNT : 2020UPASM003�. �tel-03112234�

(2)

Thè se de doctorat NNT : 2020UP ASM003

Estimation in frailty models with complex correlation structures through stochastic approximation algorithms

Thèse de doctorat de l’université Paris-Saclay

Ecole Doctorale n ^◦ 574, Ecole Doctorale de Mathématique Hadamard (EDMH) Spécialité de doctorat: Mathématiques aux interfaces Unité de recherche: Université Paris-Saclay, INRAE, Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE), 78350, Jouy-en-Josas, France Référent: Faculté des sciences d’Orsay

Thèse présentée et soutenue à Orsay, le 28 Septembre 2020, par

Ajmal OODALLY

Composition du jury:

Agathe GUILLOUX Présidente

Professeure des Universités, Université d’Evry Val d’Essonne

Adeline LECLERCQ SAMSON Rapporteure et Examinatrice Professeure, Université Grenoble Alpes

Ingrid VAN KEILEGOM Rapporteure et Examinatrice Professeure, Katholieke Universiteit Leuven

Aurélien LATOUCHE Examinateur

Professeur des Universités, Conservatoire national des arts et métiers

Andreas WIENKE Examinateur

Professeur, University Halle-Wittenberg

Estelle KUHN Directrice de thèse

Directrice de recherche, INRAE

Luc DUCHATEAU Codirecteur de thèse

Professeur, Ghent University

(3)

“If I have seen further it is by standing on the shoulders of Giants.” - Isaac Newton

Ignis Vibrante Lumine

(4)

Remerciements

Je tiens tout d’abord à remercier mes directeurs de th èse qui m’ont accompagn é tout au long de cette aventure.

Ils ont fait preuve d’une grande patience et p édagogie et ont ainsi largement contribu é au succ ès de cette th èse.

Estelle, tu m’as non seulement guid é pendant ces trois ans et demi mais tu m’as aussi ét é d’une grande aide pour l’apr ès th èse. J’ai beaucoup appr éci é ta gentillesse et ta bienveillance. Merci pour tout.

Luc, ton accueil chaleureux lors de toutes mes visites à Ghent, ton humour et tes nombreuses autres qualit és humaines vont beaucoup me manquer. C’ était un vrai plaisir de travailler avec toi et Estelle. Je garde un bon souvenir de notre dˆıner au Chateaubriand quelques jours avant le confinement.

Je remercie Adeline Leclercq Samson et Ingrid Van Keilegom d’avoir accept é de rapporter ma th èse et pour leurs regards tr ès appr éci és sur mes travaux. Un grand merci à Aur élien Latouche, Andreas Wienke et Agathe Guilloux pour leur participation à ma soutenance de th èse dans ces conditions particuli ères et pour toutes leurs remarques tr ès pertinentes. Je tiens aussi à remercier Christine K éribin qui m’a suivi depuis mes d ébuts en Master et pour sa participation à mes comit és de th èse.

J’ai pass é trois tr ès belles ann ées dans un lieu atypique qui m’a tout de suite tap é dans l’oeuil. Et oui, ce n’est pas donn é à tous les doctorants de pr éparer une th èse entour é de chevaux, de vaches, d’un potager et dans un bureau plein de vie; que ce soit les bact éries suite à des restes de desserts laiss és à l’abandon, les graines et plantes diss émin ées un peu partout. Ce bureau aura aussi servi d’atelier à Maxime qui nous a r éguli èrement fait profiter de ses talents de p âtissier. Merci Romain pour ta bonne humeur, joie de vivre et ta sagesse (voix sarcastique). Merci à tous mes autres coll ègues de l’INRAE qui ont tous contribu é à rendre mon environnement de travail fort agr éable. Merci à Sandra, Gildas, François, Maxime, Patrick, Simon, Olivier, B éatrice, Elisabetha, Maud, Catherine, Laurent, Pierre, Ousmane, Henri, Lina et tant d’autres.

Comment ne pas mentionner mon coll ègue de bureau L éo, ce beau sp écimen landais, un r êveur comme dirait son grand-p ère. Tu auras rendu cette th èse fort agr éable et unique. Cette fameuse sortie à Trouville dans une combinaison trop grande aura ét é le d ébut d’une nouvelle passion. Nos innombrables conversations sans filtres et totalement d écomplex ées à la cantine et au coin caf é avec un public (Romain, Lina, Henri) toujours à l’ écoute.

Une pens ée sp éciale à Emile qui a ét é à mes c ôt és depuis mes premiers pas en France. On en aura v écu des

choses, la super semaine de No ël pass ée chez toi à se goinfrer suivi d’une longue p ériode de collocation pleine de

(5)

rebondissements. Trugarez ! Breizh atav !

Mille mercis à Val érie, Elisabeth, Sylvie et toute l’ équipe de la MISS. Je pense notamment à tous les doctorants avec qui j’ai anim é tant d’ateliers et les autres que j’ai souvent crois é pendant les pauses d éjeuner et ap éro de fin d’ann ée.

J’adresse toute ma reconnaissance à ma femme pour son soutien sans faille que ce soit dans les moments difficiles ou les moments de joie. Tu as toujours fait preuve d’une patience hors norme à mon égard et tu as ét é à mes c ôt és depuis tellement longtemps que je ne peux plus imaginer ma vie sans toi.

Un grand merci à ma tante qui a relu toutes les lettres de motivations que j’ai écrites. Je serai toujours recon- naissant pour toute l’aide qu’elle m’a apport ée

Enfin, je remercie ma m ère, mon p ère, mon petit fr ère et ma petite soeur pour leur soutient ind éfectible. Sans

eux, la r ´eussite de cette th `ese ne serait pas possible.

(6)

1 Introduction 9

1.1 Analyse de survie . . . . 9

1.1.1 Fonctions de survie et de risque . . . 10

1.1.2 Observation censur ´ee des dur ´ees de survie . . . 11

1.2 Estimateurs non param ´etriques des fonctions de survie et de risque . . . 12

1.2.1 Estimateur non param ´etrique de la fonction de survie . . . 12

1.2.2 Estimateur non param ´etrique de la fonction de risque cumul ´e . . . 13

1.3 Les mod `eles de survie param ´etriques . . . 13

1.3.1 Le mod `ele exponentiel . . . 14

1.3.2 Le mod `ele de Weibull . . . 14

1.3.3 Le mod `ele de Gompertz . . . 15

1.4 Le mod `ele de Cox . . . 16

1.4.1 Description du mod `ele . . . 16

1.4.2 Estimation des param `etres par maximum de la vraisemblance partielle . . . 17

1.4.3 Propri ´et ´es asymptotiques de l’estimateur . . . 18

1.4.4 Relation entre les estimateurs de maximum de vraisemblance partielle et de maximum de vraisemblance non param ´etrique dans le mod `ele de Cox . . . 18

1.5 Les mod `eles de fragilit ´e . . . 19

1.5.1 Mod èles à fragilit és univari ées . . . 19

1.5.2 Mod èles à fragilit és multivari ées . . . 21

1.5.3 Lois de fragilit ´es . . . 24

1.6 M éthodes d’estimation existantes pour les mod èles de fragilit é . . . 25

1.6.1 Estimation param ´etrique . . . 26

1.6.2 Estimation semi-param ´etrique . . . 28

1.7 L’algorithme Expectation Maximization et ses variantes . . . 32

(7)

1.7.1 L’algorithme Expectation Maximization . . . 33

1.7.2 L’algorithme Stochastic Approximation Expectation Maximization . . . 34

1.7.3 Couplage d’une m ´ethode de Monte Carlo Markov Chain avec l’algorithme SAEM . . . 34

1.8 Les contributions de la th `ese . . . 35

1.8.1 Algorithme convergent pour l’estimation dans des mod èles de fragilit é multivari és par maxi- mum de vraisemblance partielle int égr ée . . . 35

1.8.2 Etude des propri ét és de convergence des estimateurs du maximum de vraisemblance dans le mod èle param étrique à fragilit és partag ées . . . 36

1.8.3 Estimation dans un mod èle de fragilit é à corr élations spatiales : application pour l’analyse de donn ées de malaria . . . 37

1.9 R ´esultats et conclusion de la th `ese . . . 37

2 Convergent stochastic algorithm for estimation in general multivariate correlated frailty models using integrated partial likelihood 41 2.1 Introduction . . . 41

2.2 The Frailty Model . . . 42

2.2.1 Description of the model . . . 42

2.2.2 Assumptions on the model . . . 43

2.3 Integrated partial likelihood for the frailty model . . . 43

2.4 Extended frailty model . . . 44

2.4.1 Description of the extended frailty model . . . 44

2.4.2 Definition of the maximum integrated partial likelihood estimate in the extended model . . . 45

2.4.3 Comparison between maximum integrated partial likelihood estimators in the frailty model and in the extended frailty model . . . 45

2.5 Algorithmic method for inference in the extended frailty model . . . 46

2.5.1 Description of the stochastic EM algorithm with truncation on random boundaries . . . 46

2.5.2 Practical details on the implementation of the algorithm . . . 47

2.5.3 Convergence property of the algorithm in the extended frailty model . . . 47

2.5.4 Estimation of the Fisher Information Matrix . . . 50

2.6 Simulation studies . . . 50

2.6.1 Study of the consistency property of the estimate . . . 51

2.6.2 Comparing the maximum integrated partial likelihood estimate with a parametric estimate . . . 52

2.6.3 Comparing the maximum integrated partial likelihood estimate with other estimates . . . 52

2.7 Real data analysis . . . 56

(8)

2.7.1 Mastitis dataset analysis . . . 56

2.7.2 Bladder cancer dataset analysis . . . 56

2.8 Conclusion and discussion . . . 57

3 Convergence properties of maximum likelihood estimates in parametric shared frailty models 59 3.1 Introduction . . . 59

3.1.1 Influence of the frailty terms on the convergence rates . . . 60

3.1.2 Influence of the structure of covariates on the convergence rates . . . 61

3.2 Convergence properties of maximum likelihood estimates in mixed-effects models . . . 62

3.2.1 Consistency and asymptotic normality of the MLE in generalized linear and nonlinear mixed- effects models . . . 62

3.2.2 Extension of these results to frailty models and discussion . . . 64

3.3 Case study of the convergence rates of maximum likelihood estimates in a linear mixed-effects model 65 3.3.1 Description of the model and likelihood expressions . . . 65

3.3.2 Maximum likelihood estimates of the parameters . . . 66

3.3.3 Influence of the structure of covariates on the convergence rates of the estimates . . . 67

3.4 Simulation study: Convergence properties of the MLE in parametric shared frailty models . . . 69

3.4.1 Description of the Weibull shared frailty model . . . 69

3.4.2 Definition of the MLE for the Weibull shared frailty model . . . 70

3.4.3 Criteria to evaluate the convergence rate . . . 70

3.4.4 Simulation setting with different covariate structures . . . 71

3.5 Numerical experiments on the convergence rates of MLEs . . . 72

3.5.1 Effects of covariates varying at group and observation levels . . . 72

3.5.2 Effect of a covariate at group level with an additive frailty term on the associated regression parameter . . . 76

3.5.3 Effect of a covariate at observation level with an additive frailty term on the associated regres- sion parameter . . . 78

3.5.4 Effect of the between-group heterogeneity on the estimates . . . 79

3.6 Conclusion and perspectives . . . 80

4 Estimation in a spatially correlated frailty model : application to malaria data 83 4.1 Introduction . . . 83

4.2 The malaria disease . . . 84

4.2.1 Malaria as a worldwide phenomenon . . . 84

4.2.2 Malaria in Ethiopia . . . 85

(9)

4.2.3 Transmission, diagnosis and treatment . . . 86

4.3 The Gilgel Gibe malaria dataset . . . 89

4.4 Previous analyses of the Gilgel Gibe dataset . . . 90

4.5 Review of modeling and estimation methods for spatially correlated survival data . . . 93

4.6 Estimation in spatially correlated multivariate frailty models . . . 94

4.6.1 Description of the spatially correlated multivariate frailty model . . . 94

4.6.2 Methods for parameter estimation and model comparison . . . 95

4.6.3 Implementation of the estimation algorithm . . . 99

4.6.4 Simulation study . . . 103

4.7 Gilgel Gibe malaria data analysis . . . 108

4.7.1 Modeling of the malaria data . . . 108

4.7.2 Description of the spatially correlated frailty models . . . 108

4.7.3 Model comparison and parameter estimation . . . 110

4.8 Conclusion and perspectives . . . 114

5 General conclusion of the thesis and perspectives 115

Bibliography 119

A Appendix A 127

B Appendix B 129

C Appendix C 133

(10)

List of Figures

1.1 Risque instantan ´e en fonction de ρ et λ . . . 15

1.2 Risque instantan ´e en fonction de ρ et λ . . . 16

1.3 Densit ´e de la distribution gamma pour diff ´erentes valeurs de η . . . 25

2.1 Posterior distribution of β 1 . . . 52

2.2 Representation of 100 runs of the algorithm for estimating parameters in the bladder cancer dataset. . 57

3.1 Boxplots of MLE of parameters of datasets simulated following model M 1 . . . 73

3.2 Boxplots of MLE of parameters of datasets simulated following model M 1 under different censoring settings . . . 75

3.3 Boxplots of MLE of parameters of datasets simulated following model M ₂ . . . 77

3.4 Boxplots of MLE of parameters of datasets simulated following model M ₃ . . . 78

3.5 Comparing the MLEs for two different values of σ ² in model M 1 . . . 81

4.1 Malaria death rates by age . . . 84

4.2 Malaria worldwide status from 2000 to 2017 . . . 85

4.3 Malaria incidence due to Plasmodium falciparum in 2017 in Ethiopia . . . 86

4.4 Malaria transmission schema . . . 87

4.5 Elevation map of the the study area . . . 89

4.6 Map of Ethiopia showing districts in Jimma zone, Gilgel-Gibe hydroelectric dam and study villages . . 92

4.7 The three seasons and two years . . . 109

4.8 Time intervals based on average daily rainfall patterns . . . 110

4.9 Hazard rates for different rain patterns . . . 112

4.10 Graphical representation of correlation as a function of distance based on estimate ρ ˆ = 0.794 in model S 4 . . . 112

4.11 Hazard rates for the different seasons . . . 113

(11)

4.12 Graphical representation of correlation as a function of distance based on estimate ρ ˆ = 1.50 in model S 1 . . . 113 B.1 Boxplots of MLE of parameters of datasets simulated following model M 2 under different censoring

settings . . . 130 B.2 Boxplots of MLE of parameters of datasets simulated following model M 3 under different censoring

settings . . . 131

(12)

List of Tables

2.1 Parameter estimates η ˆ for different number of groups (N = 10, 20, 50) . . . 51

2.2 Comparing the parametric estimate to the integrated partial likelihood estimate in a Weibull shared frailty model . . . 53

2.3 Comparing the parametric estimate to the integrated partial likelihood estimate in a Gompertz shared frailty model . . . 54

2.4 Comparison of MIPL estimate with coxme and frailtyHL estimates . . . 54

2.5 Comparison of MIPL estimate with coxme and frailtyHL estimates : robustness to misspecification of the frailty distribution . . . 55

3.1 Snippet of mastitis data . . . 61

3.2 Reduction in variance in model M ₁ . . . 73

3.3 Reduction in variance in model M 1 under different censoring settings . . . 74

3.4 Reduction in variance in model M 2 . . . 76

3.5 Variance reduction in model M 3 . . . 79

4.1 Numerical consistency of spatially correlated frailty model estimates . . . 104

4.2 Parameter estimates : robustness with respect to misspecification of the correlation structure . . . 105

4.3 Comparison of different estimators for simulated spatially correlated data . . . 107

4.4 Model comparison based on marginal log-likelihood values : malaria data analysis . . . 110

4.5 Mean and model-based standard errors in parentheses of parameters estimated in model S 4 . . . 111

4.6 Likelihood-ratio tests to test the significance of regression parameters β . . . 111

4.7 Mean and model-based standard errors in parentheses of parameters estimated in model S 1 . . . 111

B.1 Reduction in variance in model M 2 under different censoring settings . . . 129

B.2 Variance reduction in model M 3 under different censoring settings . . . 132

(13)

Chapter 1 Introduction

1.1 Analyse de survie

L’analyse de survie est une branche des statistiques visant à analyser la dur ée attendue jusqu’ à ce qu’un ou plusieurs év énements se produisent. La premi ère analyse de survie est apparue au d ébut du vingti ème si ècle.

Le premier domaine d’application concern é est celui de l’actuariat. Elle est utilis ée dans le domaine m édical pour la premi ère fois en 1950. Par contre, la notion de table de survie (aussi appel é table de mortalit é) est ant érieure à ces domaines et a ét é introduite pour la premi ère fois par John Graunt au XVII ê si ècle, consid ér é par beaucoup comme l’un des premiers d émographes (cf. Greenwood (1938)). Ayant pour objectif de d étecter l’apparition de la peste bubonique à Londres, il avait analys é les bulletins de d éc ès publi és hebdomadairement. Il est notamment reconnu pour avoir produit et largement diffus é la premi ère table de mortalit é, donnant des probabilit és de survie en fonction des tranches d’ âge. Depuis, la survenue d’un év énement est souvent qualifi ée d’ échec, g én éralement attribu ée au fait que l’ év énement soit un d éc ès ou une maladie. Cependant, au cours des derni ères d écennies, les m éthodes statistiques pour l’analyse des donn ées de survie ont ét é étendues au-del à de la recherche biom édicale ou actu- arielle à d’autres domaines tels que la criminologie, la sociologie et l’informatique. Les travaux de Canfora et al.

(2011) concerne l’application de l’analyse de survie visant à étudier le risque de ne pas corriger un bug informatique dans un laps de temps donn é. Dans le domaine de la criminologie, des d étenus adultes lib ér és du D épartement correctionnel de l’Oklahoma ont ét é suivis et la r écidive, mesur ée en temps de retour à l’incarc ération, a ét é étudi ée

`a l’aide de m ´ethodes d’analyse de survie par Spivak and Damphousse (2006).

Depuis, plusieurs mod `eles et des travaux s’orientant dans diff ´erentes directions ont permis d’enrichir ce do-

maine.

(14)

1.1.1 Fonctions de survie et de risque

Fonction de survie :

La quantit é centrale en analyse de survie est la dur ée de survie. Le terme de dur ée de survie d ésigne le temps

écoul é jusqu’ à la survenue d’un év énement d’int ér êt. On note T ce temps écoul é. On suppose que T est une variable al éatoire de fonction de r épartition F. On d éfinit la fonction de survie S au temps t par la probabilit é que l’ év énement d’int ér êt survienne apr ès un instant t fix é :

∀t ≥ 0, S(t) = P (T > t) = 1 − F (t) = Z ∞

t

f (x)dx

Par analogie, la fonction de r épartition F repr ésente, pour t fix é, la probabilit é que l’ év énement d’int ér êt survi- enne avant l’instant t.

Fonction de risque instantan ´e :

La fonction de risque instantan é h caract érise la probabilit é que l’ év énement d’int ér êt survienne au cours d’une courte dur ée dt apr ès l’instant t donn é sachant que l’ év énement ne s’est pas produit avant cet instant t.

∀t ≥ 0, h(t) = lim

dt→0 ⁺

P (t ≤ T < t + dt|T ≥ t) dt

Le num érateur repr ésente la probabilit é conditionnelle que l’ év énement survienne dans l’intervalle [t, t +dt) étant donn é qu’il n’est pas survenu avant l’instant t, et le d énominateur est égale à la largeur de l’intervalle. Le quotient permet donc d’obtenir un taux d’occurrence d’ év énements par unit é de temps. La valeur limite quand la largeur de l’intervalle tend vers z éro donne le risque instantan é au temps t. C’est une fonction positive ou nulle et son int égrale sur [0, ∞] est infinie. Hormis ces deux contraintes, elle peut cro ˆ1tre, d écro ˆ1tre, être non-monotone, non continue.

Fonction de risque cumul ´e :

La fonction de risque cumul é, aussi appel é taux de hasard cumul é, est l’int égrale du risque instantan é et s’ écrit comme suit :

∀t ≥ 0, H (t) = Z t

0 h(u)du (1.1)

Ces quantit ´es sont reli ´ees et peuvent donc s’exprimer les unes en fonction des autres.

∀t ≥ 0, S(t) = 1 − F (t) (1.2)

∀t ≥ 0, f (t) = ∂

∂t F(t) (1.3)

(15)

∀t ≥ 0, h(t) = f (t)

S(t) (1.4)

∀t ≥ 0, S(t) = exp (−H (t)) (1.5)

1.1.2 Observation censur ´ee des dur ´ees de survie

Une caract éristique qui distingue l’analyse de survie des autres domaines des statistiques est la censure. La cen- sure se produit lorsque des informations incompl ètes sont disponibles sur la dur ée de survie. C’est un ph énom ène courant en analyse de survie et doit donc être pris en compte. Il existe plusieurs m écanismes qui peuvent conduire

à des donn ées censur ées. On consid ère un échantillon de taille n compos ée d’observations i, i = 1, . . . , n.

Censure de type I

Sous censure de type I, l’ échantillon est étudi é pendant un temps fixe τ. Le nombre d’observations pour lesquelles l’ év énement survient est al éatoire mais la dur ée totale de l’ étude étant fix ée, le temps maximal consid ér ée est égal

`a τ .

Censure de type II

Sous censure de type II, l’ échantillon de taille n est suivi jusqu’ à ce que l’ év énement survienne pour m observations.

Ce nombre m est fix é à l’avance. La dur ée totale de l’ étude est alors al éatoire et inconnue.

Censure al ´eatoire

De façon plus g én érale, on consid ère la censure comme un ph énom ène al éatoire. Sous censure al éatoire, on asso- cie à chaque observation un temps de censure C i et une dur ée de survenue de l’ év énement T i . Ces deux variables al éatoires sont usuellement suppos ées ind épendantes. On observe alors X i = min(T i , C i ), et un indicateur de censure not é ∆ i = 1 ^T i ≤C _i qui nous indique si l’observation i est censur ée ou pas.

Une donn ée peut- être censur ée d’un c ôt é comme de l’autre et aussi des deux c ôt és. Ces trois cat égories de censure sont la censure à doite, la censure à gauche et la censure par intervalle. Nous illustrons ces diff érents types de censure dans le cas d’une étude clinique.

Censure `a droite

La censure à droite se produit lorsqu’un patient quitte l’ étude avant qu’un év énement ne se produise ou l’ étude se

termine avant que l’ ´ev ´enement ne se soit produit.

(16)

Censure `a gauche

La censure à gauche se produit lorsque l’ év énement a lieu avant le d ébut de l’ étude pour un patient et le moment exact de survenue n’est pas connu.

Censure par intervalle

La censure par intervalle se produit lorsque l’on sait que l’ év énement a lieu dans un certain intervalle de temps mais que l’instant exact de survenue de l’ év énement n’est pas connu.

On fait l’hypoth èse que le m écanisme de censure est non informatif, c’est- à-dire que la censure d’une obser- vation ne doit fournir aucune information concernant la survenue de l’ év énement pour cette observation partic- uli ère au-del à de la p ériode de censure. Cette hypoth èse est indispensable pour l’analyse des mod èles classiques d’analyse de survie. Dans la suite, on consid ère uniquement le cas de censure al éatoire à droite et non informative.

Nous nous r éf érons à Klein and Moeschberger (2006) pour une étude plus approfondie de la censure.

1.2 Estimateurs non param ´etriques des fonctions de survie et de risque

1.2.1 Estimateur non param ´etrique de la fonction de survie

L’estimation non param étrique de la fonction de survie se fait assez facilement en s’inspirant de la d éfinition de la fonction. Si les donn ées ne sont pas censur ées, l’estimateur empirique de cette fonction s’ écrit :

S(t) = ˆ 1 n

n

X

i=1

1 ^T i >t

L’estimateur est tout simplement la proportion d’observations pour lesquelles l’ év énement n’est pas encore sur- venue au temps t. Cet estimateur a ét é adapt é par Kaplan and Meier (1958) pour prendre en compte des donn ées censur ées. Nous d éfinissons la statistique d’ordre des temps d’ év énements par T ₍₁₎ < T ₍₂₎ < · · · < T _(n) , le nombre d’observations qui subissent l’ év énement au temps T (i) par d i et le nombre d’observations à risque au temps T (i)

par r i . L’estimateur de Kaplan-Meier s’ ´ecrit alors :

S(t) = ˆ Y

i:T _(i) ≤t

1 − d i

r i

Cet estimateur, aussi appel ´e estimateur produit-limite, est l’estimation du maximum de vraisemblance non-

param ´etrique de la fonction de survie S(t) (cf. Kaplan and Meier (1958) pour plus de d ´etails). Nous proposons une

explication heuristique de S(t). Nous nous plaçons dans le contexte d’une étude de la dur ée de vie de patients ˆ

malades qui luttent contre une maladie. En consid ´erant l’objectif qui est de survivre jusqu’au temps t, il faut d’abord

(17)

être toujours vivant au temps T ₍₁₎ . La prochaine étape consiste à survivre de T ₍₁₎ à T ₍₂₎ sachant que le patient a surv écu jusqu’au temps T ₍₁₎ et ainsi de suite. On estime la probabilit é conditionnelle de mourir au temps T _(i) étant donn é que le patient était vivant juste avant par ^d _r ⁱ

i . La probabilit é conditionnelle de survivre au temps T _(i) est le compl ément de la quantit é pr éc édente: 1 − ^d _r ⁱ

i . La probabilit é de survivre jusqu’au temps t est obtenue en multipliant les probabilit és conditionnelles pour tous les temps pertinents jusqu’au temps t. La consistance de l’estimateur S(t) ˆ a ét é d émontr ée par Kaplan and Meier (1958) et la normalit é asymptotique par Breslow and Crowley (1974).

1.2.2 Estimateur non param ´etrique de la fonction de risque cumul ´e

Une premi ère approche consiste à estimer S(t) ˆ et à utiliser l’ équation (1.5) qui lie S(t) à H(t). Un estimateur possible du risque cumul é s’ écrit tout simplement: − log( ˆ S(t)). Il existe aussi un estimateur qui permet d’estimer directement H (t) sans passer par la fonction de survie S(t). Cet estimateur est appel é estimateur de Nelson-Aalen et s’ écrit comme suit :

H ˆ (t) = X

i:T i ≤t

d _i r i

Ainsi, H ˆ (t) est une fonction en escalier croissante continue `a droite avec des incr ´ements de ^d _r ⁱ

i aux instants de survenue d’ év énement. C’est un estimateur du maximum de vraisemblance non param étrique de H(t); la consistance et la normalit é asymptotique de l’estimateur ont ét é d émontr ées par Greenwood and Wefelmeyer (1990) dans le cadre du mod èle à risque proportionnel de Cox.

Ces deux estimateurs peuvent être utilis és pour approcher la m ême fonction. Les deux sont asymptotiquement

équivalents et le choix d’une approche au d étriment de l’autre d épend du contexte comme indiqu é dans une étude comparative men ée par Colosimo et al. (2002).

1.3 Les mod `eles de survie param ´etriques

Dans la section pr éc édente, nous avons pr ésent é les estimations non param étriques des fonctions de survie et de risque. Dans certains cas, des informations pr éalables peuvent être disponibles sur les temps d’ év énement étudi és.

Une deuxi ème approche consiste à supposer que les temps de survie suivent une certaine distribution. Les mod èles de survie param étriques sont souvent utilis és pour extrapoler des temps de survie au-del à des donn ées de suivi disponibles. Cette particularit é fait la popularit é des mod èles param étriques dans le domaine de la sant é o ù il est n écessaire de prendre en compte les effets et les co ûts sur la survie suite à des interventions m édicales (cf. Ishak et al. (2013) pour plus de d étails).

Toute distribution de variables al éatoires d éfinie pour t ∈ [0, ∞) peut être utilis é pour d écrire le temps de surv-

enue de l’ év énement d’int ér êt. On se place dans le cadre simple de temps d’ év énement al éatoire et i.i.d. Les temps

(18)

d’ év énement sont repr ésent és par la variable al éatoire T . Nous donnons quelques exemples de distributions sou- vent utilis ées dans la litt érature. Les calculs des quantit és associ ées (densit é de probabilit é de la variable T , risque instantan é, risque cumul é, fonction de survie) ne seront pas explicit és et nous ne consid érons aucune covariable afin d’all éger les notations. Nous d étaillons trois distributions qui seront utilis ées dans les chapitres du manuscrit et renvoyons vers Duchateau and Janssen (2008) pour une liste plus exhaustive de distributions possibles.

1.3.1 Le mod `ele exponentiel

Le mod èle exponentiel est le mod èle param étrique le plus simple et suppose un risque constant dans le temps, qui refl ète une propri ét é implicite de la distribution. C’est la propri ét é d’absence de m émoire. La probabilit é que l’ év énement survienne dans un intervalle de temps particulier d épend uniquement de la longueur de l’intervalle mais pas des valeurs des bornes de cet intervalle. Supposons T ∼ Exp(λ). Alors pour t ≥ 0, λ > 0,

f (t) = λ exp(−λt) h(t) = λ

H (t) = λt S(t) = exp(−λt)

Il n’y a qu’un param ètre qui caract érise la distribution, ici not é par λ et l’inverse de ce param ètre est égale à la fois à la moyenne et l’ écart type de T . Ces caract éristiques en font un mod èle tr ès simple. Un exemple d’utilisation concerne la mod élisation de la dur ée de vie d’un syst ème o ù les pi èces sont remplac ées en cas de d éfaillance (cf.

Mendenhall and Sincich (2016)). En revanche, en raison de la non flexibilit ´e de la distribution, peu de travaux en font usage et optent plut ˆot pour des distributions plus flexibles.

1.3.2 Le mod `ele de Weibull

Le mod èle de Weibull est une g én éralisation du mod èle exponentiel avec deux param ètres positifs qu’on note λ

et ρ. Le param ètre λ est le param ètre d’ échelle et ρ le param ètre de forme. Le param ètre d’ échelle caract érise la

façon dont la densit é est étir ée alors que le param ètre de forme comme son nom l’indique est un param ètre qui

permet à la densit é (de façon équivalente le risque instantan é) de prendre une vari ét é de formes en fonction de la

valeur du param ètre. Quand la valeur de ρ est inf érieure à 1, h diminue de façon monotone en fonction du temps et

inversement quand ρ est plus grand que 1, h augmente de fac¸on monotone avec le temps. Dans le cas o `u ρ = 1,

on retrouve le mod `ele exponentiel. Non seulement la distribution est plus flexible, mais les expressions des autres

quantit ´es restent simples comme on peut le voir ci-dessous. Supposons T ∼ Weibull(λ, ρ). Alors pour t ≥ 0, λ > 0,

(19)

ρ > 0,

f (t) = λρt ^ρ−1 exp(−λt ^ρ ) h(t) = λρt ^ρ−1

H(t) = λt ^ρ

S(t) = exp(−λt ^ρ )

Nous pr ésentons graphiquement l’effet des param ètres ρ et λ sur le risque instantan é en fonction du temps.

Figure 1.1: Risque instantan ´e en fonction de ρ et λ

La distribution de Weibull peut être utilis ée pour mod éliser la distribution de survie d’une population à risque croissant, d écroissant ou constant, et s’applique donc à de nombreux types de donn ées. Le risque diminue pour ρ < 1, est constant pour ρ = 1 et augmente pour ρ > 1. On remarque que pour ρ = 1, la distribution de Weibull est équivalente à une distribution exponentielle param étr ée par λ. Ce mod èle étant plus flexible, est plus souvent utilis é dans la litt érature comme dans les travaux de Zhu et al. (2011) pour analyser les facteurs pronostiques chez les patients atteints de cancer gastrique. Une g én éralisation de la loi de Weibull et les nombreuses avantages de cette loi sont étudi ées dans les travaux de Mudholkar et al. (1996).

1.3.3 Le mod `ele de Gompertz

La distribution de Gompertz trouve ses origines en 1825 et a ét é propos é par l’actuaire britannique Benjamin Gom-

pertz. Il a remarqu é une augmentation exponentielle progressive dans le taux de mortalit é entre l’ âge de maturation

sexuelle et la vieillesse. Ces travaux sont encore d’actualit és dans les études d émographiques (cf. Wilson (1994))

et l’utilisation de cette distribution dans l’analyse de survie est courante. Supposons T ∼ Gompertz(α, λ). Alors

(20)

pour t ≥ 0, α > 0, λ > 0,

f (t) = λ exp(αt) exp(− λ

α ( exp(αt) − 1)) h(t) = λ exp(αt)

H(t) = λ

α ( exp(αt) − 1) S(t) = exp(− λ

α ( exp(αt) − 1))

Nous pr ésentons graphiquement l’effet des param ètres α et ρ sur le risque instantan é en fonction du temps.

Figure 1.2: Risque instantan ´e en fonction de ρ et λ

Le risque augmente pour α > 0 et est constant pour α = 0. Lorsque α = 0, la loi de Gompertz est équivalente à une loi exponentielle param étr ée par λ. La distribution de Gompertz est caract éris ée par le fait que le logarithme du risque instantan é est lin éaire en t et est donc étroitement li ée à la distribution de Weibull o ù le logarithme du risque instantan é est lin éaire en logarithme de t.

1.4 Le mod `ele de Cox

Nous introduisons maintenant le mod èle de Cox (1972) qui permet de mod éliser le risque instantan é et de quantifier l’effet des covariables sur les temps de survie.

1.4.1 Description du mod `ele

Le premier mod èle propos é par Cox (1972), appel é mod èle à risque proportionnel exprime le risque instantan é

comme un produit de deux quantit ´es. Pour i = 1, . . . , n,

(21)

∀t ≥ 0, h(t|Z i ) = h ₀ (t)exp (Z _i ^t β ) (1.6) o ù h 0 est la fonction de risque de base qui correspond au risque instantan é lorsque toutes les covariables sont nulles, β ∈ R ^p les param ètres d’effet, aussi appel és param ètres de r égression, et Z i ∈ R ^p les covariables associ ées. On peut distinguer deux parties, la premi ère (h 0 (t)) est d épendante du temps contrairement à la seconde (exp (Z _i ^t β)) qui elle ne d épend que des covariables. La forme de h 0 (t) n’ étant pas pr écis ée, on s’int éresse plut ôt

à l’association entre les covariables Z _i et la survenue de l’ év énement d’int ér êt. Les hypoth èses inh érentes à ce mod èle sont les suivantes :

(C1) le rapport des risques instantan és de survenue de l’ év énement de deux observations doit être ind épendant du temps.

(C2) le logarithme du risque est une fonction lin ´eaire des covariables

L’hypoth èse (C1), aussi appel ée hypoth èses de proportionalit é des risques, est la plus contraignante. Les donn ées r éelles ne permettent g én éralement pas de faire cette hypoth èse. L’hypoth èse (C2) est l’hypoth èse de log-lin éarit é, i.e, log(h(t|Z i )) = log(h 0 (t)) + Z _i ^t β ce qui implique une relation lin éaire entre le logarithme du risque et les covariables.

1.4.2 Estimation des param `etres par maximum de la vraisemblance partielle

La vraisemblance partielle a ét é d éfinie permettant d’estimer le param ètre d’effet β en s’affranchissant de la fonction de risque de base h ₀ (cf. Cox (1975)). Cette vraisemblance partielle ne fait plus intervenir la fonction de risque de base h 0 . Le param ètre d’int ér êt principal étant β puisqu’il permet de quantifier l’effet des covariables alors que h 0

n’est g én éralement pas étudi é en survie.

On consid ère un n- échantillon (X i , ∆ i ) _1≤i≤n de variables al éatoires distribu ées comme (X, ∆). Suivant Cox (1975), l’expression de la vraisemblance partielle s’ écrit alors :

L ^p (β; X, ∆) =

n

Y

i=1

exp (Z _i ^t β ) P

j∈R(X i ) exp (Z _j ^t β)

! ∆ i

(1.7) o `u R(X _(i) ) = {1 ≤ j ≤ n, X _j ≥ X _i } est l’ensemble des observations `a risque au temps X _i . Les observations

à risque au temps X _i sont les observations pour lesquelles l’ év énement n’est pas encore survenue au temps X _i . L’estimateur de β qu’on note β ˆ est d éfini comme le maximum de cette vraisemblance partielle.

β ˆ = argmax

β

L ^p (β; X, ∆)

(22)

Sous des hypoth èses de r égularit é, les propri ét és asymptotiques telles que la consistance et la normalit é asymp- totique de l’estimateur β ˆ ont ét é d émontr ées par Tsiatis et al. (1981) et Andersen and Gill (1982). Ils ont montr é avec él égance ces bonnes propri ét és de l’estimateur à l’aide de processus de comptage et de martingales.

1.4.3 Propri ´et ´es asymptotiques de l’estimateur

Les travaux de Andersen and Gill (1982) n écessitant une reformulation du mod èle avec des processus de comptage, nous pr ésentons les r ésultats obtenus par Tsiatis et al. (1981). Nous commencons par écrire la log-vraisemblance partielle dans le mod èle de Cox :

l ^p (β; X, ∆) = log(L ^p (β; X, ∆))

=

n

X

i=1

∆ _i (Z _i ^t β) − log X

j∈R(X (i) )

exp (Z _j ^t β)

(1.8) L’estimateur β ˆ est donc la solution de l’ équation annulant la d ériv ée de la log-vraisemblance partielle d éfinie dans l’ équation (1.8) par rapport à β :

∂l ^p (β; X, ∆)

∂β =

n

X

i=1

∆ i Z _i ^t − P

j∈R(X (i) ) Z j exp (Z _j ^t β) P

j∈R(X _(i) ) exp (Z _j ^t β) (1.9)

Nous explicitons maintenant les hypoth èses n écessaires afin de prouver la consistance et la normalit é asymp- totique de β. ˆ

(H1) P (X ≥ τ) > 0

(H2) E [Zexp(Z ^t β)] ² est born ´ee uniform ´ement dans un voisinage de β

Les temps d’ év énements sont suppos és born és et la quantit é τ repr ésente ici la fin de la p ériode d’observation.

L’hypoth èse (H1) implique qu’ à la fin de la p ériode d’observation, il y a une probabilit é non nulle pour qu’une observation qui n’a toujours pas subi l’ év énement ne soit pas censur ée. C’est une condition qui est valid ée dans la plupart des études sur des donn ées r éelles. Sous les hypoth èses (H1) et (H2), le th éor ème 3.1 de Tsiatis et al.

(1981) garanti l’existence d’une suite de solutions β ˆ _n de l’ ´equation (1.9) tel que β ˆ _n converge p.s vers β ₀ . Ils prouvent

´egalement la normalit ´e asymptotique de l’estimateur.

1.4.4 Relation entre les estimateurs de maximum de vraisemblance partielle et de maxi- mum de vraisemblance non param ´etrique dans le mod `ele de Cox

L’estimateur par maximum de vraisemblance partielle d éfini dans le mod èle de Cox peut- être consid ér é comme un

maximum de vraisemblance non param ´etrique (NPMLE) (cf. Zeng and Lin (2007)). Nous ´ecrivons la vraisemblance

(23)

jointe pour les param `etres β et H 0 dans le mod `ele de Cox :

L _j (β, H ₀ ; X, ∆) =

n

Y

i=1

h ₀ (X _i ) exp(Z _i ^t β) ^∆ i

exp(− exp(Z _i ^t β)H ₀ (X _i )) (1.10) o `u H 0 (X i ) = R X i

0 h 0 (t)dt.

En consid érant h 0 comme une fonction constante par morceaux entre les temps de survenue d’ év énement non-censur és, L j (β, H 0 ; X, ∆) est maximis é simultan ément par β ˆ d éfini comme le maximum de la vraisemblance partielle (cf. équation (1.7)) et l’estimateur de Breslow (cf. Zeng and Lin (2007)) :

H ˆ 0 (t) =

n

X

i=1

I X _i ≤t ∆ i

P

j∈R(X i ) exp(Z _j ^t β)

Ainsi, l’estimateur NPMLE de β et de H ₀ sont ´egaux `a l’estimateur par maximum de vraisemblance partielle de β et l’estimateur de Breslow de H ₀ respectivement.

1.5 Les mod `eles de fragilit ´e

Le mod èle de fragilit é introduit par Vaupel et al. (1979) permet de s’affranchir de l’hypoth èse de proportionnalit é des risques du mod èle de Cox. Ce mod èle peut- être consid ér é comme une extension du mod èle de Cox permettant de prendre en compte l’h ét érog én éit é qu’il peut y avoir dans les donn ées. La notion de fragilit é est un moyen pratique d’introduire des effets al éatoires, une h ét érog én éit é non observ ée ou des associations possibles dans les mod èles d’analyse de survie. Dans sa forme la plus simple, une fragilit é peut être consid ér ée comme un effet al éatoire non observ é qui modifie la fonction de risque instantan é d’une observation ou de plusieurs observations li ées les unes aux autres. Cet effet est mod élis é par une variable al éatoire suivant une distribution de probabilit é. Le ou les param ètres qui caract érisent cette distribution de probabilit é sont également estim és avec les autres param ètres du mod èle.

De nombreux mod èles ayant chacun une structure de fragilit é propre ont ét é propos és depuis Vaupel et al.

(1979) et ces mod èles permettent diff érentes mod élisations. Dans cette section, nous d écrivons quelques mod èles fr équemment utilis és dans la litt érature.

1.5.1 Mod èles à fragilit és univari ées

Nous commençons par le mod èle propos é par Vaupel et al. (1979) qui propose de g érer l’h ét érog én éit é pr ésente

dans les donn ées par un effet al éatoire multiplicatif au mod èle. Nous pouvons mod éliser de mani ère équivalente

l’effet al ´eatoire comme un effet additif dans la fonction de lien exponentiel. Ils ont introduit la notion de fragilit ´e

et l’ont appliqu ée à des donn ées d émographiques. Le mod èle de fragilit é classique qui est principalement utilis é

(24)

suppose un mod èle à risques proportionnels qui est conditionnel à l’effet al éatoire (fragilit é). Dans l’ étude de Vaupel et al. (1979), le risque instantan é d’un individu (observation) d épend en outre d’une variable al éatoire non observ ée, qui agit de mani ère multiplicative sur la fonction de risque de base. Les auteurs consid èrent un mod èle sans covariables et étudient les rapports de risque entre les observations. C’est un exemple de mod èle univari é, du fait qu’il existe un effet al éatoire associ é à chaque observation. Les covariables peuvent être naturellement incorpor ées au mod èle pour obtenir une mod élisation plus g én érale du risque instantan é dans le mod èle à fragilit és univari ées. On consid ère une population compos ée de n observations. Pour 1 ≤ i ≤ n, le temps de survenue de l’ év énement et le temps de censure pour l’observation i sont mod élis és par des variables al éatoires not ées T _i et C _i respectivement. On observe alors pour 1 ≤ i ≤ n le temps censur é à droite et l’indicateur de censure not és respectivement X _i et ∆ _i et d éfinis par :

X _i = min(T i , C _i ) et ∆ _i = 1 T i ≤C i

Pour 1 ≤ i ≤ n, le mod `ele s’ ´ecrit :

∀t ≥ 0 h i (t|u i ) = h 0 (t)u i exp(Z _i ^t β) (1.11) o ù h _i (t|u i ) est le risque instantan é de survenue de l’ év énement pour l’observation i au temps X _i , h ₀ (t) le risque de base au temps t, u = (u _i ) _1≤i≤N est le vecteur de fragilit é, β le vecteur des param ètres de r égression inconnu et Z _i les covariables associ ées à l’observation i.

On fait les hypoth `eses classiques suivantes :

(F1) Les temps de censure (C i ) _1≤i≤n sont ind épendants des temps de survenue de l’ év énement (X i ) _1≤i≤n et des variables de fragilit é (u i ) 1≤i≤n .

(F2) Les temps de survenue de l’ év énement (X i ) _1≤i≤n sont ind épendants et identiquement distribu és.

(F3) Les fragilit és (u _i ) _1≤i≤n sont ind épendantes et identiquement distribu ées selon une loi de densit é g param étr ée par γ.

Ce mod èle est identifiable si E (u) < ∞ et en pr ésence de covariables (cf. Elbers and Ridder (1982)). Dans ce cas, aucune hypoth èse sur la fonction de risque de base h 0 ou sur la classe de distribution de u est n écessaire.

Nous pouvons aussi faire intervenir la fragilit ´e de fac¸on additive dans la fonction de lien exponentielle comme suit :

∀t ≥ 0 h i (t|b i ) = h 0 (t) exp(Z _i ^t β + b i ) (1.12) Les limites du mod èle à fragilit és univari ées

Dans le mod èle à fragilit és univari ées, nous ne supposons aucune corr élation entre les temps de survie ce qui

(25)

implique donc une population homog ène. C’est la cons équence directe de l’hypoth èse (F2). Cela ne refl ète pas toujours la r éalit é. Par exemple, dans un essai clinique men é sur plusieurs centres, les donn ées collect ées dans un m ême centre sont s ûrement plus corr él ées entres elles par rapport à des donn ées collect ées dans un autre centre.

Cet ”effet centre” doit être pris en compte lors de la mod élisation de ce type de donn ées.

1.5.2 Mod èles à fragilit és multivari ées

En analyse de survie, la structure des donn ées conduit souvent à des effets de groupe ou/et des corr élations fortes.

Ce type de donn ées se produit par exemple si l’on consid ère les dur ées de vie (ou les p ériodes d’apparition d’une maladie) de personnes d’une m ême famille (jumeaux, parents-enfants) ou des év énements r écurrents tels que des infections chez la m ême personne. Une premi ère approche qui r épond à la probl ématique d’un ”effet groupe” tel que dans une étude clinique multi-centre consiste à associer à chaque groupe un effet al éatoire. Le mod èle à fragilit és partag ées permet de prendre en compte la structure en groupe et permet d’aborder la nature multivari ée des donn ées. Ce type de mod èle a cependant des limites qui seront d étaill és. Des mod èles plus flexibles permettent de contourner ces limites et offrent une alternative plus adapt ées à certains types de donn ées. Nous d étaillons d’abord un exemple de mod èle à fragilit és partag ées, puis un mod èle à fragilit és multivari ées corr él ées.

Mod èles à fragilit és partag ées

Le mod èle à fragilit és partag ées est pertinent quand les temps d’ év énements des observations étudi ées sont li és.

C’est un cas sp écifique des mod èles à fragilit és multivari ées. On suppose que les observations d’un groupe parta- gent la m ême fragilit é, ce qui explique pourquoi ce mod èle est appel é mod èle à fragilit és partag ées. Il a ét é introduit par Clayton (1978) et plus largement étudi é par Hougaard (2000).

On consid ère une population compos ée de N groupes. Pour 1 ≤ i ≤ N , on note par n _i la taille du i ème groupe.

Pour 1 ≤ i ≤ N et 1 ≤ j ≤ n _i , le temps de survenue de l’ év énement et le temps de censure pour l’individu j du groupe i sont mod élis és par des variables al éatoires not ées T ij et C ij respectivement. On observe alors pour 1 ≤ i ≤ N et 1 ≤ j ≤ n i le temps censur é à droite et l’indicateur de censure not és respectivement X ij et ∆ ij et d éfinis par :

X _ij = min(T ij , C _ij ) et ∆ _ij = 1 T ij ≤C ij

Le mod èle de fragilit é est d éfini pour 1 ≤ i ≤ N, 1 ≤ j ≤ n i par :

∀t ≥ 0 h ij (t|b i ) = h 0 (t) exp(Z _ij ^t β + b i ) (1.13)

o ù h _ij (t|b _i ) est le risque instantan é de survenue de l’ év énement pour l’individu j du groupe i au temps t, h ₀ (t) le

(26)

risque de base au temps t, b i le vecteur de fragilit é du groupe i, β le vecteur des param ètres de r égression inconnu et Z ij les covariables associ ées à l’observation j du groupe i.

Nous reformulons les hypoth èses faites dans le mod èle à fragilit és univari ées pour prendre en compte la struc- ture en groupes :

(F1) Les temps de censure (C ij ) 1≤i≤N,1≤j≤n _i sont ind épendants des temps de survenue de l’ év énement (T ij ) 1≤i≤N,1≤j≤n _i

(F2) Conditionnellement aux fragilit és (b i ) 1≤i≤N , les temps de survenue de l’ év énement (T ij ) 1≤i≤N,1≤j≤n i sont ind épendants.

(F3). Les fragilit és (b _i ) _1≤i≤N sont ind épendantes et identiquement distribu ées selon une loi de densit é g param étr ée par γ.

Ce mod èle peut aussi être formul é avec une fragilit é agissant de façon multiplicative sur la fonction de risque instantan é. Dans ce cas, le mod èle s’ écrit pour 1 ≤ i ≤ N, 1 ≤ j ≤ n i :

∀t ≥ 0 h ij (t|u i ) = h 0 (t)u i exp(Z _ij ^t β) (1.14) o ù u _i est le vecteur de fragilit é du groupe i. Cette param étrisation est courante dans la litt érature, notamment dans les mod èles de fragilit é gamma. Cependant, mod éliser la fragilit é ainsi pose un probl ème si nous voulons consid érer une covariable agissant sur le terme de fragilit é par exemple.

Diff érents mod èles à fragilit és partag ées peuvent être d éfinis en utilisant diff érentes distributions de fragilit é pour les effets al éatoires. Les param ètres de la fonction de risque de base h 0 sont estim és dans certains cas sous l’hypoth èse d’une forme param étrique de la fonction ou la fonction peut aussi être estim ée de façon semi- param étrique sur une base de splines (cf. Rondeau et al. (2012)). Nous verrons plus en d étail les proc édures d’estimation dans la section suivante.

Les limites du mod èle à fragilit és partag ées

• Dans le mod èle à fragilit és partag ées, l’effet al éatoire partag é par chaque observation d’un groupe explique la corr élation entre les membres du groupe. Cette mod élisation impose les m êmes effets li és aux covariables non observ ées sur les observations du groupe ce qui peut être difficile à justifier pour des donn ées r éelles.

• En pr ésence de covariables, les estimations du param ètre de la loi de fragilit é et des coefficients de r égression sont confondues (cf. Clayton and Cuzick (1985)).

• Dans la plupart des cas, comme avec une fragilit ´e gamma par exemple, une fragilit ´e unidimensionnelle ne

peut qu’induire une association positive au sein du groupe.

(27)

Mod èles à fragilit és multivari ées corr él ées

La mod élisation des temps d’ év énements de telle sorte que chaque membre d’un groupe partage la m ême fragilit é comme dans le mod èle à fragilit és partag ées n’est pas la meilleure solution lorsqu’il peut exister une h ét érog én éit é au sein du groupe. La difficult é que pose ce type de donn ées est due à la d épendance des observations au sein des groupes, ou à des mesures r ép ét ées au sein des observations. La d épendance survient g én éralement lorsque les observations d’un m ême groupe sont li és les unes aux autres ou en raison de la r écurrence de l’ év énement d’int ér êt pour la m ême observation. Des mod èles à fragilit és multivari ées corr él ées ont ét é fr équemment utilis és pour mod éliser cette d épendance dans les donn ées (cf. Hougaard (2012)). Un premier mod èle dans l’ étude de donn ées de survie de jumeaux danois a ét é propos é par Yashin and Iachine (1995). Les auteurs étendent le mod èle à fragilit és univari ées et mod élisent les temps de survie par un mod èle bivari é à fragilit és individuelles corr él ées. Suivant les travaux de Yashin and Iachine (1995), pour 1 ≤ i ≤ N, 1 ≤ j ≤ 2 :

∀t ≥ 0 h ij (t|u ij ) = h 0 (t)u ij exp(Z _ij ^t β) (1.15) o ù u _i = (u _i1 , u _i2 ) _1≤i≤N sont i.i.d. au niveau des groupes mais les termes (u _i1 , u _i2 ) sont corr él és et on note ρ _u = Corr(u i1 , u _i2 ). Ce mod èle peut être consid ér é comme une version plus flexible du mod èle à fragilit és partag ées.

Dans le mod èle à fragilit és partag ées, u _i1 = u _i2 pour i = 1, . . . , N ce qui implique ρ _u = 1. Le mod èle de Yashin and Iachine (1995) permet d’estimer le param ètre ρ u dans l’intervalle [0, 1] et d’ être moins contraignant dans la mod élisation des donn ées. Des techniques similaires peuvent être appliqu ées afin de construire diff érents mod èles de fragilit é corr él és en fonction de la structure des donn ées.

Les mod èles de fragilit é à corr élations spatiales

L’utilisation des statistiques spatiales en analyse de survie est relativement r ´ecente et s’av `ere cruciale dans l’analyse

et la mod élisation de certains types de donn ées. Le travail de Snow sur la carte de Broad Street est consid ér é

comme le premier travail spatial sur des donn ées d’ épid émiologie (cf. Shiode et al. (2015)). ` A ce jour, il existe

peu de travaux sur les mod èles de fragilit és spatiales. Banerjee et al. (2003) ont propos é un mod èle de fragilit é

param étrique pour estimer les param ètres en utilisant une approche bay ésienne sur des donn ées de mortalit é

infantile au Minnesota. Les donn ées consid ér ées sont structur ées en groupe et la d épendance spatiale entre les

groupes est mod élis ée. Nous d éfinissons un mod èle de fragilit é spatiale g én éral qui peut être vu comme une

extension du mod èle à fragilit és partag ées qui prend en compte une d épendance spatiale entre les groupes. Ce

mod èle est dans la m ême veine que celui consid ér é dans Li and Ryan (2002). Pour 1 ≤ i ≤ N , 1 ≤ j ≤ n i , on

consid `ere :

(28)

h _ij (t|b i ) = h ₀ (t) exp(Z _ij ^t β + b _i ) (1.16) o ù (b i ) _1≤i≤N ∼ N (0 N , Σ(ρ)). Le coefficient ρ est ici un coefficient de corr élation qui doit être estim é. Les mod èles spatiales comme celui-ci consid èrent souvent des r égions comme groupe et les distances entre les groupes sont prises en compte dans le mod èle. Les observations d’un m ême groupe partagent le m ême terme de fragilit é et les fragilit és des diff érents groupes sont corr él ées. Par exemple, dans Li and Ryan (2002), une position (coordonn ées g éographiques) est mesur ée par r égion. Dans le Chapitre 3, nous proposons un mod èle spatiale qui permet de consid érer les distances entre toutes les observations et nous discutons les avantages de cette mod élisation par rapport à la structure en groupe en l’appliquant pour analyser des donn ées de malaria.

1.5.3 Lois de fragilit ´es

Nous d écrivons dans cette section une liste non exhaustive de lois de fragilit és couramment utilis ées dans la litt érature. Il existe bien s ûr une plus grande palette de distributions (voir cf. Duchateau and Janssen (2008) pour plus de d étails).

La fragilit ´e gamma

La distribution gamma est l’un des choix de distribution les plus populaires et est donc tr ès pr ésent dans la litt érature.

La forme simple de la densit é permet un calcul facile dans diff érentes approches d’estimation; que ce soit les approches de vraisemblance classiques ou quand il s’agit de trouver des expressions analytiques de la fonction de survie, du risque cumul é et de la fonction de risque instantan é. Par exemple, nous verrons plus tard que l’int égrale de la vraisemblance compl ète par rapport à une fragilit é gamma poss ède une forme analytique contrairement à d’autres distributions de fragilit é. D’autre part, la simplicit é de la transform ée de Laplace s’av ère également tr ès utile dans de nombreuses applications. Il est tr ès fr équent de consid érer une distribution gamma avec une moyenne

égale à 1 et d’estimer le seul param ètre qui caract érise la distribution qu’on note η. Supposons le vecteur de fragilit é u qui suit une distribution gamma de moyenne égale à 1, la densit é de la variable u s’ écrit :

g(u) = u ^η−1 η ^η exp(−ηu) Γ(η)

Comme on peut le voir dans la Figure 1.3, c’est une distribution flexible qui prend diverses formes selon la valeur

du param `etre η. Le cas η = 1 correspond `a la distribution exponentielle et lorsque η est grand, elle prend une forme

en cloche rappelant la distribution normale. Cette loi de fragilit ´e est favoris ´ee dans la plupart des cas pour les

facilit és math ématiques et informatiques qu’elle offre. Il existe des tests d’ad équation à une loi de fragilit é gamma

(cf. Geerdens et al. (2012)) pour les mod èles à fragilit és partag ées.

(29)

0.0 0.5 1.0 1.5

0 1 2 3 4 5

x

f(x)

η 0.5 1 2 4 Loi gamma

Figure 1.3: Densit ´e de la distribution gamma pour diff ´erentes valeurs de η

La fragilit ´e log-normale (multiplicative) ou normale (additive)

Le mod èle de fragilit é log-normale est d éfini suivant l’ équation du mod èle (1.11) et le mod èle de fragilit é normale selon le mod èle (1.12). Dans les deux mod èles, on impose souvent les contraintes suivantes : E (b) = 0 pour le mod èle de fragilit é normale et E (u) = 1 pour le mod èle log-normale. Le mod èle (1.12) est le plus souvent utilis é dans la litt érature et c’est celui qu’on impl émente dans tous les chapitres du manuscrit. Elle permet l’inclusion de covariables au niveau de la fragilit é et offre donc plus de possibilit és de mod élisation. La fragilit é log-normale est particuli èrement utile pour mod éliser les structures de d épendance dans les mod èles de fragilit é multivari és.

Cependant, il n’existe pas de forme explicite de la vraisemblance marginale pour ces deux mod èles. Par cons équent, des strat égies d’estimation bas ées sur des approximations, int égrations num ériques ou algorithme de type Expectation Maximization (EM) sont n écessaires dans une approche de maximisation de la vraisemblance marginale.

1.6 M éthodes d’estimation existantes pour les mod èles de fragilit é

Il est important de distinguer les diff érents objectifs de l’analyse de survie suivant les quantit és qui nous int éressent.

Nous consid érons comme param ètres d’int ér êts les param ètres de r égression β , le param ètre de la loi de fragilit é

et la fonction de risque de base h 0 selon le contexte. Les deux principales m ´ethodes comprennent l’approche

param étrique et l’approche semi-param étrique. L’approche semi-param étrique est plus riche car elle offre de nom-

breuses façons de g érer la fonction de risque de base h 0 . Nous commençons par d écrire l’approche param étrique

(30)

qui consiste à faire une hypoth èse param étrique sur la fonction h 0 . Nous encha ˆ1nons ensuite avec les approches semi-param étriques.

1.6.1 Estimation param ´etrique

Dans les approches d’estimation param étrique, nous supposons que les dur ées de survie suivent une certaine dis- tribution. Habituellement, dans l’ étude de donn ées r éelles, des informations pr éalables sur les év énements que l’on consid ère sont prises en compte lors du choix d’une structure param étrique pour les temps de survie. La fonction de risque de base h 0 prend alors une forme totalement param étrique et les param ètres associ és doivent être es- tim és. La m éthode d’estimation classique dans ces mod èles se fait par maximum de vraisemblance. Consid érons quelques-unes des nombreuses applications des mod èles de fragilit é param étrique dans la litt érature. Dans de nombreux cas, l’hypoth èse d’une distribution Weibull pour les temps d’ év énements est privil égi ée (cf. Kuhn et al.

(2016), Kong et al. (2010)). Dans certaines situations, la mod élisation des temps d’ év énements est choisie en fonc- tion de la structure des donn ées disponibles. Une fonction de risque de base h 0 constante par morceaux s’av ère utile, en particulier lorsqu’il s’agit de mod éliser des effets saisonniers ou d’autres effets li és au climat comme dans les travaux de Getachew et al. (2013).

Le package R parfm (Munda et al. (2012)) permet d’estimer les param ètres par maximum de vraisemblance dans les mod èles à fragilit és partag ées. Il est possible de choisir parmi une large gamme de fonctions de risque de base (Weibull, Gompertz, log-normale, etc) et de lois de fragilit és dont la loi log-normale et la loi gamma.

Nous consid érons deux mod èles de fragilit é param étriques et nous illustrons les m éthodes d’estimation dans les deux cas.

Estimation param étrique dans le mod èle à fragilit és partag ées gamma

Nous consid érons le mod èle (1.14) avec u ∼ g(η, ¹ _η ) o ù g est la densit é de probabilit é d’une distribution gamma de moyenne égale à 1.

∀t ≥ 0 h _ij (t|b _i ) = h ₀ (t)u _i exp(Z _ij ^t β)

Les param ètres du mod èle sont θ g = (β, h 0 , η). La structure de h 0 est souvent choisie suite à des informations apriori sur les temps de survie. La vraisemblance compl ète dans ce mod èle s’ écrit :

L _comp (θ g ; X, ∆, u) =

N

Y

i=1 n _i

Y

j=1

(h 0 (X ij )u i exp(Z _ij ^t β)) ^δ ^ij

exp(−H ₀ (X _ij )u _i exp(Z _ij ^t β)) ×

N

Y

i=1

g _η (u _i )

(31)

La log-vraisemblance marginale est obtenue en int égrant la vraisemblance compl ète par rapport à la fragilit é u et en calculant ensuite le logarithme de l’expression obtenue :

log L _marg (θ _g ; X, ∆) = log Z

L _comp (θ _g ; X, ∆, u)du

=

N

X

i=1

d _i log(η) − log Γ 1 η

+ log Γ 1 η + d _i

− 1 η + d _i

log 1 + η

n i

X

j=1

H ₀ (X _ij ) exp(Z _ij ^t β)

+

n i

X

j=1

δ _ij (Z _ij ^t β + log(h ₀ (X _ij ))) (1.17) o `u d i = P n _i

j=1 δ ij .

On obtient donc une expression analytique de la vraisemblance marginale. L’estimation des param ètres θ _g se fait en maximisant (1.17). La mise à jours des param ètres se fait g én éralement à l’aide de m éthodes de descente de gradient.

Estimation param étrique dans le mod èle à fragilit és partag ées log-normale

Nous consid érons le mod èle (1.13) avec b ∼ g η o ù g est la densit é de probabilit é d’une loi normale de moyenne

´egale `a 0 et de variance η.

∀t ≥ 0 h ij (t|b i ) = h 0 (t) exp(Z _ij ^t β + b i )

Les param ètres du mod èle sont θ = (β, h ₀ , η). La vraisemblance compl ète dans ce mod èle s’ écrit :

L _comp (θ; X, ∆, b) =

N

Y

i=1 n i

Y

j=1

(h 0 (X ij ) exp(Z _ij ^t β + b i )) ^δ ^ij

exp(−H 0 (X ij ) exp(Z _ij ^t β + b i )) ×

N

Y

i=1

g η (b i )

La vraisemblance marginale est obtenue en int égrant la vraisemblance compl ète par rapport à la fragilit é b :

L _marg (θ; X, ∆) = Z

L _comp (θ; X, ∆, b)db (1.18)

L’estimation des param `etres θ se fait en maximisant cette vraisemblance marginale. Cependant, il n’existe pas

de forme analytique de l’int ´egrale quand on suppose que b suit une loi normale. Dans ce cas de figure, il existe des

m ´ethodes d’estimation telles que l’estimation via une version stochastique de l’algorithme Expectation Maximization

Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes d'approximation stochastique

HAL Id: tel-03112234

https://tel.archives-ouvertes.fr/tel-03112234

Submitted on 16 Jan 2021

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation dans des modèles de fragilité avec des structures de corrélation complexes via des algorithmes

d’approximation stochastique

Ajmal Oodally

To cite this version:

Ajmal Oodally. Estimation dans des modèles de fragilité avec des structures de corrélation complexes

via des algorithmes d’approximation stochastique. Méthodologie [stat.ME]. Université Paris-Saclay,

2020. Français. �NNT : 2020UPASM003�. �tel-03112234�

Thè se de doctorat NNT : 2020UP ASM003

Estimation in frailty models with complex correlation structures through stochastic approximation algorithms

Thèse de doctorat de l’université Paris-Saclay

Thèse présentée et soutenue à Orsay, le 28 Septembre 2020, par

Ajmal OODALLY

Composition du jury:

Agathe GUILLOUX Présidente

Professeure des Universités, Université d’Evry Val d’Essonne

Adeline LECLERCQ SAMSON Rapporteure et Examinatrice Professeure, Université Grenoble Alpes

Ingrid VAN KEILEGOM Rapporteure et Examinatrice Professeure, Katholieke Universiteit Leuven

Aurélien LATOUCHE Examinateur

Professeur des Universités, Conservatoire national des arts et métiers

Andreas WIENKE Examinateur

Professeur, University Halle-Wittenberg

Estelle KUHN Directrice de thèse

Directrice de recherche, INRAE

Luc DUCHATEAU Codirecteur de thèse

Professeur, Ghent University

“If I have seen further it is by standing on the shoulders of Giants.” - Isaac Newton

Ignis Vibrante Lumine

Remerciements

Je tiens tout d’abord à remercier mes directeurs de th èse qui m’ont accompagn é tout au long de cette aventure.

Ils ont fait preuve d’une grande patience et p édagogie et ont ainsi largement contribu é au succ ès de cette th èse.

Estelle, tu m’as non seulement guid é pendant ces trois ans et demi mais tu m’as aussi ét é d’une grande aide pour l’apr ès th èse. J’ai beaucoup appr éci é ta gentillesse et ta bienveillance. Merci pour tout.

Une pens ée sp éciale à Emile qui a ét é à mes c ôt és depuis mes premiers pas en France. On en aura v écu des

choses, la super semaine de No ël pass ée chez toi à se goinfrer suivi d’une longue p ériode de collocation pleine de

rebondissements. Trugarez ! Breizh atav !

Mille mercis à Val érie, Elisabeth, Sylvie et toute l’ équipe de la MISS. Je pense notamment à tous les doctorants avec qui j’ai anim é tant d’ateliers et les autres que j’ai souvent crois é pendant les pauses d éjeuner et ap éro de fin d’ann ée.

Un grand merci à ma tante qui a relu toutes les lettres de motivations que j’ai écrites. Je serai toujours recon- naissant pour toute l’aide qu’elle m’a apport ée

Enfin, je remercie ma m ère, mon p ère, mon petit fr ère et ma petite soeur pour leur soutient ind éfectible. Sans

eux, la r ´eussite de cette th `ese ne serait pas possible.

Contents

1 Introduction 9

1.1 Analyse de survie . . . . 9

1.1.1 Fonctions de survie et de risque . . . 10

1.1.2 Observation censur ´ee des dur ´ees de survie . . . 11

1.2 Estimateurs non param ´etriques des fonctions de survie et de risque . . . 12

1.2.1 Estimateur non param ´etrique de la fonction de survie . . . 12

1.2.2 Estimateur non param ´etrique de la fonction de risque cumul ´e . . . 13

1.3 Les mod `eles de survie param ´etriques . . . 13

1.3.1 Le mod `ele exponentiel . . . 14

1.3.2 Le mod `ele de Weibull . . . 14

1.3.3 Le mod `ele de Gompertz . . . 15

1.4 Le mod `ele de Cox . . . 16

1.4.1 Description du mod `ele . . . 16

1.4.2 Estimation des param `etres par maximum de la vraisemblance partielle . . . 17

1.4.3 Propri ´et ´es asymptotiques de l’estimateur . . . 18

1.4.4 Relation entre les estimateurs de maximum de vraisemblance partielle et de maximum de vraisemblance non param ´etrique dans le mod `ele de Cox . . . 18

1.5 Les mod `eles de fragilit ´e . . . 19

1.5.1 Mod èles à fragilit és univari ées . . . 19

1.5.2 Mod èles à fragilit és multivari ées . . . 21

1.5.3 Lois de fragilit ´es . . . 24

1.6 M éthodes d’estimation existantes pour les mod èles de fragilit é . . . 25

1.6.1 Estimation param ´etrique . . . 26

1.6.2 Estimation semi-param ´etrique . . . 28

1.7 L’algorithme Expectation Maximization et ses variantes . . . 32

1.7.1 L’algorithme Expectation Maximization . . . 33

1.7.2 L’algorithme Stochastic Approximation Expectation Maximization . . . 34

1.7.3 Couplage d’une m ´ethode de Monte Carlo Markov Chain avec l’algorithme SAEM . . . 34

1.8 Les contributions de la th `ese . . . 35

1.8.1 Algorithme convergent pour l’estimation dans des mod èles de fragilit é multivari és par maxi- mum de vraisemblance partielle int égr ée . . . 35

1.8.2 Etude des propri ét és de convergence des estimateurs du maximum de vraisemblance dans le mod èle param étrique à fragilit és partag ées . . . 36

1.8.3 Estimation dans un mod èle de fragilit é à corr élations spatiales : application pour l’analyse de donn ées de malaria . . . 37

1.9 R ´esultats et conclusion de la th `ese . . . 37

2 Convergent stochastic algorithm for estimation in general multivariate correlated frailty models using integrated partial likelihood 41 2.1 Introduction . . . 41

2.2 The Frailty Model . . . 42

2.2.1 Description of the model . . . 42