• Aucun résultat trouvé

Estimation dans des modèles de fragilité à partir d'une vraisemblance partielle

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation dans des modèles de fragilité à partir d'une vraisemblance partielle"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-02733964

https://hal.inrae.fr/hal-02733964

Submitted on 2 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation dans des modèles de fragilité à partir d’une vraisemblance partielle

Estelle Kuhn, Ajmal Oodally

To cite this version:

Estelle Kuhn, Ajmal Oodally. Estimation dans des modèles de fragilité à partir d’une vraisemblance partielle. SFdS- 50ème Journées de Statistique de la SFdS (JdS’2018), May 2018, Palaiseau, France.

6 p. �hal-02733964�

(2)

Estimation dans des mod` eles de fragilit´ e ` a partir d’une vraisemblance partielle

Ajmal Oodally 1 & Estelle Kuhn 2

1 INRA, MaIAGE, Domaine de Vilvert 78352 Jouy-en-Josas Cedex FRANCE [email protected]

2 INRA, MaIAGE, Domaine de Vilvert 78352 Jouy-en-Josas Cedex FRANCE [email protected]

R´ esum´ e. En analyse de survie, on ´ etudie le temps de survenue d’un ´ ev´ enement d’int´ erˆ et. Le mod` ele de Cox (1972) permet de mod´ eliser le risque de survenue de l’´ ev´ enement comme produit d’une fonction de risque de base et d’une fonction des covariables. Les param` etres de r´ egression des covariables sont classiquement estim´ es en maximisant la vraisemblance partielle qui ne d´ epend pas du risque de base. Les mod` eles de fragilit´ e introduits par Vaupel et al. (1979) sont une extension du mod` ele de Cox et permettent de prendre en compte l’h´ et´ erog´ en´ eit´ e pr´ esente dans les donn´ ees via des effets al´ eatoires non observ´ es. Pour estimer les param` etres de r´ egression des covariables dans un mod` ele de fragilit´ e, on peut choisir une mod´ elisation param´ etrique pour le risque de base et consid´ erer l’estimateur param´ etrique du maximum de vraisemblance. Des approches non param´ etriques bas´ ees sur des approximations fonctionnelles du risque de base ont

´ egalement ´ et´ e propos´ ees. Nous proposons une nouvelle approche alternative bas´ ee sur une vraisemblance partielle inspir´ ee de celle du mod` ele de Cox qui permet de s’affranchir de l’influence du risque de base sur l’estimation des param` etres de r´ egression. Nous d´ efinissons tout d’abord une vraisemblance partielle dans le mod` ele de fragilit´ e. Puis, nous proposons ` a partir de ce crit` ere un nouvel estimateur et pr´ esentons un algorithme stochastique d’estimation pour calculer sa valeur. Nous comparons les performances et illustrons les avantages de cet estimateur sur des donn´ ees simul´ ees et r´ eelles de mastitis.

Mots-cl´ es. Mod` eles de fragilit´ e, Vraisemblance partielle, algorithme EM stochas- tique, Estimation

Abstract. In survival analysis, we are interested in the time of occurence of an event.

The Cox model (1972) is often used in this area. It allows us to model the risk of occurence

of the event considered as a function of the covariates. The regression coefficients are

usually estimated by maximisation of the partial likelihood which does not depend on the

baseline hazard function. Frailty models introduced by Vaupel et al. (1979) allow us to

do away with this assumption by taking into account heterogeneity through non observed

random effects. Choosing a parametric structure for this baseline may strongly constrain

the model when fitting data and lead to bad adjustment. Nonparametric approaches

based on functional approximation of the baseline have been proposed. We develop an

(3)

the influence of the baseline hazard in the estimaton procedure. We start by defining an observed partial likelihood of the frailty model. Based on this criteria, we define an estimate and present a stochastic estimation algorithm to approximate its value. We highlight the benefit of using the partial likelihood approach through simulation studies and real data analysis.

Keywords. Frailty models, Partial likelihood, Stochastic EM algorithm, Estimation

1 Mod` ele de fragilit´ e

On consid` ere une population d’individus compos´ ee de N groupes. Pour 1 ≤ i ≤ N , on note par n i la taille du i` eme groupe. Pour 1 ≤ i ≤ N et 1 ≤ j ≤ n i , le temps de survenue de l’´ ev´ enement et le temps de censure pour l’individu j du groupe i sont mod´ elis´ es par des variables al´ eatoires not´ ees T ij et C ij respectivement.

On observe alors pour 1 ≤ i ≤ N et 1 ≤ j ≤ n i le temps censur´ e ` a droite et l’indicateur de censure not´ es respectivement X ij et ∆ ij et d´ efinis par :

X ij = min(T ij , C ij ) et ∆ ij = 1 T

ij

≤C

ij

Dans la suite, on note X = (X ij ) 1≤i≤N,1≤j≤n

i

et ∆ = (∆ ij ) 1≤i≤N,1≤j≤n

i

. Le mod` ele de fragilit´ e (Vaupel et al. 1979) est d´ efini pour 1 ≤ i ≤ N, 1 ≤ j ≤ n i par :

∀t ≥ 0 h ij (t|b i ) = h 0 (t) exp(z ij 0 β + w ij 0 b i ) (1) o` u h ij (t|b i ) est le risque instantan´ e de survenue de l’´ ev´ enement pour l’individu j du groupe i au temps t, h 0 (t) le risque de base au temps t, b i le vecteur de fragilit´ e du groupe i, β le vecteur des param` etres de r´ egression inconnu, z ij et w ij les vecteurs de covariables associ´ ees ` a l’individu j du groupe i et x 0 d´ esigne le vecteur transpos´ e de x pour tout vecteur x.

On fait les hypoth` eses classiques suivantes :

• Les temps de censures (C ij ) 1≤i≤N,1≤j≤n

i

sont ind´ ependants des temps de survenue de l’´ ev´ enement (T ij ) 1≤i≤N,1≤j≤n

i

et des variables de fragilit´ e (b i ) 1≤i≤N .

• Conditionnellement aux variables de fragilit´ e (b i ) 1≤i≤N , les temps de survenue de l’´ ev´ enement (T ij ) 1≤i≤N,1≤j≤n

i

sont ind´ ependants.

• Les variables de fragilit´ e (b i ) 1≤i≤N sont ind´ ependantes et identiquement distribu´ ees

selon une loi param´ etrique centr´ ee de densit´ e g param´ etr´ ee par γ.

(4)

2 Estimation des param` etres

On note l’ensemble des param` etres du mod` ele θ = (h 0 , β, γ). Les param` etres d’int´ erˆ et sont β et γ. Les variables de fragilit´ e (b i ) ne sont pas observ´ ees, il s’agit de variables latentes du mod` ele. L’estimation des param` etres du mod` ele se fait ` a partir des seules observations (X, ∆).

2.1 Estimation par maximum de vraisemblance param´ etrique

Une premi` ere approche consiste ` a faire une hypoth` ese param´ etrique sur la fonction de risque de base h 0 . On peut consid´ erer par exemple des fonctions de risque de base de type Weibull, Gompertz ou exponentielle d´ etaill´ ees par Duchateau et Janssen (2008). La vraisemblance compl` ete s’´ ecrit alors :

L comp (θ; X, ∆, b) =

N

Y

i=1 n

i

Y

j=1

h ij (x ij |b i ) δ

ij

exp

− Z x

ij

0

h ij (u|b i )du N

Y

i=1

g γ (b i ) (2) Comme les variables de fragilit´ e (b i ) ne sont pas observ´ es, on consid´ ere comme crit` ere la vraisemblance observ´ ee d´ efinie par :

L obs (θ; X, ∆) = Z

L comp (θ; X, ∆, b)db

On note alors ˆ θ l’estimateur du maximum de vraisemblance observ´ ee d´ efini par : θ ˆ = argmax L obs (θ; X, ∆)

Cependant, le choix d’une mod´ elisation param´ etrique du risque de base n’est pas facile en pratique. Par ailleurs, il contraint fortement l’estimation des autres param` etres, en par- ticulier celle des param` etres de r´ egression β. Cette limitation motive l’approche propos´ ee qui permet de s’affranchir d’un choix de mod´ elisation du risque de base h 0 .

2.2 Estimation par maximum de vraisemblance partielle

En s’inspirant de la construction de la vraisemblance partielle dans le mod` ele de Cox, on d´ efinit une vraisemblance partielle compl` ete dans le mod` ele de fragilit´ e par :

L p comp (θ; X, ∆, b) =

N

Y

i=1

g γ (b i )

N

Y

i=1 n

i

Y

j=1

exp(z ij 0 β + w 0 ij b i ) P

(l,k)∈R(x

(ij)

) exp(z lk 0 β + w lk 0 b l )

! δ

ij

(3)

o` u R(x (ij) ) =

1 ≤ l ≤ N, 1 ≤ k ≤ n l : x lk ≥ x (ij) est l’ensemble des individus ` a risque

au temps x . Cette vraisemblance partielle ne d´ epend plus de h . Dans la suite, on note

(5)

La vraisemblance partielle observ´ ee correspondante s’´ ecrit alors : L p obs (θ p ; X, ∆) =

Z

L p comp (θ p ; X, ∆, b)db

On d´ efinit ˆ θ p l’estimateur du maximum de la vraisemblance partielle observ´ ee par : θ ˆ p = argmax L p obsp ; X, ∆)

Le calcul de ces deux estimateurs ne peut en g´ en´ eral pas se faire analytiquement dans les mod` eles de fragilit´ e. Nous proposons de les approximer en pratique via un algorithme it´ eratif stochastique de type Expectation Maximization (EM).

3 Algorithme d’estimation stochastique

Nous consid´ erons l’algorithme EM stochastique propos´ e par Kuhn et El Nouty (2013) pour estimer les param` etres du mod` ele de fragilit´ e. Chaque it´ eration de l’algorithme se compose de trois ´ etapes. A l’it´ eration k :

1. Des r´ ealisations b k des variables de fragilit´ e non observ´ ees sont simul´ ees selon le noyau de transition d’une chaˆıne de Markov convergente Π θ

k−1

ayant comme dis- tribution stationnaire la distribution conditionnelle des variables de fragilit´ e not´ ee π θ

k−1

(.|X, ∆).

2. On effectue une approximation stochastique sur la log-vraisemblance compl` ete : Q k (θ) = Q k−1 (θ) + γ k (log L comp (θ; X, ∆, b k ) − Q k−1 (θ))

o` u γ k ≥ 0, P

γ k = +∞, P

γ k 2 < +∞.

3. On met ` a jour les param` etres selon : θ k = argmax

θ

Q k (θ)

Les quantit´ es Q 0 et θ 0 sont initialis´ ees arbitrairement. En pratique, on construit le noyau de transition Π θ comme une ´ etape d’un algorithme de Metropolis Hastings.

Cet algorithme converge presque sˆ urement vers un point critique de la vraisemblance

observ´ ee sous des hypoth` eses g´ en´ erales (cf. Kuhn et El Nouty (2013)). Nous l’appliquons

pour calculer une approximation de l’estimateur du maximum de vraisemblance observ´ ee

θ ˆ en utilisant la log-vraisemblance compl` ete param´ etrique d´ efinie en (2) et ´ egalement

pour calculer une approximation de l’estimateur du maximum de vraisemblance partielle

observ´ ee ˆ θ p en utilisant la log-vraisemblance compl` ete partielle d´ efinie en (3).

(6)

4 Exp´ eriences num´ eriques

On compare les deux estimateurs ˆ θ p et ˆ θ, respectivement obtenus par maximum de vraisemblance partielle observ´ ee et par maximum de vraisemblance param´ etrique ob- serv´ ee. On consid` ere 2 covariables qui sont simules suivant une loi binomiale et on suppose que les variables de fragilit´ e suivent une loi gaussienne centr´ ee de variance γ . On met en oeuvre l’algorithme stochastique d´ ecrit en Section 3 pour calculer les estimateurs.

4.1 Etude de simulation

Les donn´ ees sont d’abord simul´ ees selon le mod` ele de fragilit´ e (1) avec un risque de base de type Weibull d´ efini par h 0 (t) = λρt ρ−1 avec λ > 0, ρ > 0 pour N = 250 et n i = 4. On fait l’hypoth` ese param´ etrique d’un risque de base de type Weibull pour mettre en oeuvre l’estimation par maximisation de la vraisemblance param´ etrique observ´ ee. Les param` etres β et γ sont estim´ es suivant les deux crit` eres. On observe que les deux estimateurs sont proches de la valeur utilis´ ee pour simuler les donn´ ees.

Table 1: Moyennes et ´ ecart-type empiriques des estimateurs obtenus sur 100 r´ ep´ etitions

`

a partir de donn´ ees simul´ ees avec un risque de base de type Weibull. ˆ θ est estim´ e en consid´ erant un risque de base de type Weibull.

Param` etres Vraies valeurs θ ˆ p θ ˆ

β 1 2 2.033 (0.125) 1.930 (0.079)

β 2 3 3.044 (0.143) 2.940 (0.105)

γ 2 2.096 (0.284) 1.765 (0.253)

Les donn´ ees sont ensuite simul´ ees selon le mod` ele de fragilit´ e (1) avec un risque de base de type Gompertz d´ efini par h 0 (t) = λ exp(αt) avec λ > 0 et α > 0. On estime les param` etres par maximum de vraisemblance param´ etrique observ´ ee sous l’hypoth` ese param´ etrique d’un risque de base de type Weibull. On observe que l’estimateur par maximum de vraisemblance partielle est proche de la vraie valeur utilis´ ee pour simuler les donn´ ees contrairement ` a celui obtenu par maximum de vraisemblance param´ etrique (cf Table 2 colonne de droite).

Table 2: Moyennes et ´ ecart-type empiriques des estimateurs obtenus sur 100 r´ ep´ etitions

`

a partir de donn´ ees simul´ ees avec un risque de base de type Gompertz. ˆ θ est estim´ e en consid´ erant un risque de base de type Weibull.

Param` etres Vraies valeurs θ ˆ p θ ˆ

β 1 2 2.055 (0.195) 1.452 (0.281)

β 3 3.093 (0.202) 2.203 (0.304)

(7)

Les simulations mettent en ´ evidence les avantages de l’estimateur par maximum de vraisemblance partielle observ´ ee par rapport ` a l’estimateur par maximum de vraisem- blance param´ etrique observ´ ee. En particulier, lorsqu’on estime les param` etres par maxi- mum de vraisemblance param´ etrique observ´ ee avec une fonction de risque de base param´ e- trique mal sp´ ecifi´ ee, on peut observer un biais cons´ equent dans l’estimation des param` etres de r´ egression.

Nous comparons ´ egalement sur des donn´ ees simul´ ees les performances de notre esti- mateur ` a celles de l’estimateur propos´ e par Rondeau et al. (2012) et impl´ ement´ e dans le package fraitypack.

4.2 Analyse de donn´ ees r´ eelles de mastitis

On applique ensuite la m´ ethode d’estimation par maximum de vraisemblance partielle observ´ ee sur un jeu de donn´ ees de mastitis. Ces donn´ ees proviennent de 1196 vaches.

Chaque vache est consid´ er´ ee comme un groupe (N = 1196). Les quatre pis de chaque vache (n i = 4) sont suivis individuellement pour le temps d’infection pendant une p´ eriode de lactation. Les pis sans infection sont censur´ es ` a la fin de la p´ eriode de lactation. Les covariables sont le caract` ere primipare de la vache et l’emplacement du pis. On compare les r´ esultats obtenus ` a ceux obtenus par Kuhn et al. (2016) o` u une hypoth` ese de type Weibull sur la fonction de risque de base est faite.

Bibliographie

[1] Cox, D.R. (1972), Regression models and life tables, J. R. Stat. Soc. B 34, 187-220.

[2] Vaupel, J. W., Manton, K.G. et Stallard, E. (1979), The impact of heterogeneity in individual frailty on the dynamics of mortality, Demography, 16, 439–454.

[3] Duchateau, L. et Janssen, P. (2008), The Frailty Model, Statistics For Biology and Health, Springer-Verlag, New York

[4] Kuhn, E. et El-Nouty, C. (2013), On a convergent stochastic estimation algorithm for frailty models, Statistics and Computing, 23, 3, 413–423.

[5] Rondeau, V., Mazroui, Y. et Gonzales, J.R. (2012), frailtypack: An R Package for the Analysis of Correlated Survival Data with Frailty Models Using Penalized Likelihood Estimation or Parametrical Estimation, Journal of Statistical Software, 47, 4, 1–25.

[6] Kuhn, E., Goethals, K., El-Nouty, C. et Duchateau, L. (2016), Assessing the correlation

structure in cow udder quarter infection times through extensions of the correlated frailty

model. JABES, 21, 3, 601–618.

Références

Documents relatifs

De meilleures performances sont obtenues dans [Yang 01] avec une approche diff´erente s’ap- puyant sur l’estimation des param`etres du canal physique, consistant ` a estimer

R´esum´e – Dans ce travail nous nous int´eressons au probl`eme d’estimation des param`etres d’un processus α stable sym´etrique (SαS) `a partir de ses modes empiriques

l’estimation de l’ensemble des param`etres photophysiques du mod`ele est, d’apr`es cette ´etude, possible dans des conditions exp´erimentales r´ealistes, il reste `a estimer

Enfin, dans le cadre du mod` ele de croissance GreenLab 2, il n’existe pas de m´ ethode d’estimation g´ en´ erale pour les param` etres li´ es au fonctionnement de la plante.. Dans

On rappelle que les deux techniques les plus utilisées pour estimer un ECM sont, d'une part, la méthode de Engle et Granger (1987) consistant à estimer dans un premier temps la

De nombreuses fonctionnalit´ es sont impl´ ement´ ees dans Monolix: estimation des param`etres du mod`ele avec SAEM, estimation de la vraisemblance du mod` ele par ´ echantillonage

Introduction Crit` eres classiques Th´ eorie de l’utilit´ e esp´ er´ ee Goˆ ut et aversion pour le risque.. Mod´

Estimation des param` etres et de l’´ etat cach´ e des mod` eles d’espace d’´ etats: application au mod`