I- Exemple d’ajustement d’un modèle de Cox II- Programmation sous R

(1)

Cours7- Exemple et programmation

I- Exemple d’ajustement d’un modèle de Cox II- Programmation sous R

II- Programmation sous R

(2)

I- 1- les données

Rossi.txt= Récidivisme de 432 hommes prisoniers, observés durant l’année de leur sortie de prison (Rossi, Berk, and Lenihan, 1980).

week: Date de la première récidive (en semaines depuis la sortie de prison), ou censure (ici, il s’agit d’une censure fixe=52 semaines).

arrest: indicateur de censure. Egal à 1 si il y a eu récidive (arrestation) durant la période d’observation, 0 sinon.

d’observation, 0 sinon.

fin: variable égale à 1 si le prisonnier a reçu une aide financière après sa sortie de prison, 0 sinon.

age: en années à la semaine de la sortie.

race: variable égale à 1 si l’individu est noir, 0 sinon.

wexp: variable égale à 1 si l’individu avait un travail à plein temps avant son incarcération et zero sinon.

mar: variable égale à 1 si l’individu était marié au moment de sa sortie de prison, 0 sinon.

paro: variable égale à 1 si l’individu a été relaché sur parole, 0 sinon.

prio: nombre de condamnations précédentes.

educ: education, variable égale à 2 (grade 6 ou moins), 3 (grades 6 à 9), 4 (grades 10 et 11), 5 (grade 12), 6 (études post-secondaires).

emp1 - emp52: variables égales à 1 si l’individu a été employé dans la semaine correspondante de l’étude, 0 sinon.

(3)

I- 1- les données

>rossi[1:5, 1:10]

week arrest fin age race wexp mar paro prio educ 1 20 1 0 27 1 0 0 1 3 3 2 17 1 0 18 1 0 0 1 8 4 3 25 1 0 19 0 1 0 1 13 3 4 52 0 1 23 1 1 1 1 1 5 4 52 0 1 23 1 1 1 1 1 5 5 52 0 0 19 0 1 0 1 3 3

Exemple : le premier individu a été arrêté à la semaine 20; le quatrième n’a

jamais été réarrêté (temps de censure=fin de l’étude: semaine 52).

(4)

I- 1- les données

RQ : Test du log-rank de comparaison des survies selon les valeurs de la variable d’intérêt (existence d’un financement)

survdiff(Surv(week, arrest)~fin, data=rossi) Call:

survdiff(formula = Surv(week, arrest) ~ fin, data = rossi) survdiff(formula = Surv(week, arrest) ~ fin, data = rossi)

N Observed Expected (O-E)^2/E (O-E)^2/V fin=0 216 66 55.6 1.96 3.84

fin=1 216 48 58.4 1.86 3.84

Chisq= 3.8 on 1 degrees of freedom, p= 0.0501

Dans la suite, on cherche à ajuster un modèle de Cox du temps de

réarrestation avec les covariables fixes ci-dessus

(5)

I- 2- ajustement d’un modèle de Cox

rossi=read.table("rossi.txt",header=T)

cox=coxph(Surv(week, arrest) ~ fin + age + race + wexp + mar + paro + prio,data=rossi)

Call:

coxph(formula = Surv(week, arrest) ~ fin + age + race +

Modèle ajusté :

fin + age + race + wexp + 5 mar + paro + 7 prio

1 2 3 4 6

( ) 0 ( )

h week h week e β β β β β β β

=

coxph(formula = Surv(week, arrest) ~ fin + age + race + wexp + mar + paro + prio, data = rossi)

(6)

I- 2- ajustement d’un modèle de Cox

coef exp(coef) se(coef) z p fin -0.3794 0.684 0.1914 -1.983 0.0470 age -0.0574 0.944 0.0220 -2.611 0.0090 race 0.3139 1.369 0.3080 1.019 0.3100 wexp -0.1498 0.861 0.2122 -0.706 0.4800 mar -0.4337 0.648 0.3819 -1.136 0.2600 paro -0.0849 0.919 0.1958 -0.434 0.6600 paro -0.0849 0.919 0.1958 -0.434 0.6600 prio 0.0915 1.096 0.0286 3.194 0.0014

Likelihood ratio test=33.3 on 7 df, p=2.36e-05 n= 432

ˆ

0

; se(coef) ,

ˆ j

coef exp(coef) =

Pour tout 1,...,7

ˆ ˆ ˆ

; ( ) racine du ° terme diagonal de Test de H : 0

ˆ

valeur de la statistique de Wald ; (| | )= p-value; U N(0,1) ˆ ( )ˆ

Te

j

j j n

j

j j j

j

j j

j

e V j

z n p P U z

V

β β

β

β β β

= =

=

= Σ

=

= = = >

0 1 7

st de H : .... 0

Likelihood ratio=valeur de la stat. du test du ratio des maxima de vrais.; df=ddl du chi2; p=p-value

β

= =

β

=

(7)

I- 2- ajustement d’un modèle de Cox

summary(cox) Call:

coxph(formula = Surv(week, arrest) ~ fin + age + race + wexp + mar + paro + prio, data = rossi)

n= 432

coef exp(coef) se(coef) z p fin -0.3794 0.684 0.1914 -1.983 0.0470 age -0.0574 0.944 0.0220 -2.611 0.0090 race 0.3139 1.369 0.3080 1.019 0.3100 wexp -0.1498 0.861 0.2122 -0.706 0.4800 mar -0.4337 0.648 0.3819 -1.136 0.2600 paro -0.0849 0.919 0.1958 -0.434 0.6600 prio 0.0915 1.096 0.0286 3.194 0.0014

(8)

I- 2- ajustement d’un modèle de Cox

exp(coef) exp(-coef) lower .95 upper .95 fin 0.684 1.461 0.470 0.996 age 0.944 1.059 0.904 0.986 race 1.369 0.731 0.748 2.503 wexp 0.861 1.162 0.568 1.305 mar 0.648 1.543 0.307 1.370 mar 0.648 1.543 0.307 1.370 paro 0.919 1.089 0.626 1.348 prio 1.096 0.913 1.036 1.159

[ ]

^ˆ ^1.96 ^ˆ⁽ ^ˆ ⁾ ^ˆ ^1.96 ^ˆ⁽^ˆ ⁾

95%

lower .95,upper .95 ; .

ˆ

Construit en utilisant le fait que (0,1) ˆ( ) ˆ

j V j j V j

j

j j

j

IC e e

N V

β β β β

β β β

− +

 

= =    

− →

(9)

I- 2- ajustement d’un modèle de Cox

Rsquare= 0.074 (max possible= 0.956 )

Likelihood ratio test= 33.3 on 7 df, p=2.36e-05 Wald test = 32.1 on 7 df, p=3.87e-05 Score (logrank) test = 33.5 on 7 df, p=2.11e-05

Nombre de covariables

P(X²(7)>S)

Ne pas interpréter le R-square

R donne les valeurs des statistiques de test pour les trois tests du cours pour l’hypothèse :

Avec les degrés de libertés correspondants pour la loi (du chi2) limite de la statistique de test sous H0 et les p- values.

0 1 7

Test de H : β = .... = β = 0

(10)

I- 3- significativité du modèle

On suppose que l’hypothèse de HP est vérifiée (sinon conclusions de I-3 non valables)

Qualité d’ajustement globale du modèle :

Application : Les p-values des 3 tests sont très inférieures à 5%, ce qui

montre que l’ajustement d’un modèle de Cox est très pertinent au seuil 5% : il existe une influence significative d’au moins une covariable sur le taux d’arrestation.

p-values pour tests de Wald, du Score et du Ratio < à 5%

Il existe au moins une covariable influant sur la taux

(11)

I- 3- significativité du modèle

Significativité de l’effet de chaque covariable sur la durée:

p-values pour le test de Wald de la covariable j < à 5%

La covariable j influe de façon significative sur la taux

Application : Les tests de Wald pour les covariables « age » et « prio » montrent que les coefficients correspondants sont fortement

significatifs au seuil 5% (p-values << 5) : ces covariables ont un effet important sur la durée. A la marge, la covariable « fin » a aussi un effet significatif. Les autres covariables ne modifient pas significativement la durée lorsque age, prio, fin sont dans le modèle.

Rq : Le test de Wald teste l’effet d’une covariable, les autres étant dans le modèle.

S’il n’est pas significatif, cela ne veut pas dire qu’il ne le serait pas dans le

modèle constitué uniquement de cette covariable (cf collinéarité)

(12)

I- 3- significativité du modèle

Application : en supposant que toutes les autres covariables restent L’exponentielle des coefficients mesure l’effet multiplicatif d’une augmentation de la covariable d’une unité sur le taux, toutes choses égales par ailleurs.

Application : en supposant que toutes les autres covariables restent

constantes, l’age a un effet positif sur la durée, l’effet marginal d’une augmentation d’age de 1 an à la sortie de prison réduit le taux de

réarrestation hebdomadaire par un facteur de en moyenne, c’est à dire par 100%-94,4%=5,6%. A contrario, le nombre

d’arrestations antérieures a un effet négatif sur le durée une arrestation antérieure augmente le taux par un facteur en moyenne soit de 109,6%-100%=9,6%.

Au plus on est agé, au moins on récidive. Au plus on récidive, au plus on récidive. En revanche l’effet de la variable aide financière (point d’interet de l’étude) est significatif, mais marginal

ˆ2

0.944 e^β =

ˆ7

1.096 e^β =

(13)

I-4- représentations graphiques

Graphe de la fonction de survie et de la fonction de hasard ajustés (Nécessite l’estimation non-paramétrique de la baseline ):

Pour l’individu i

( )

1 2 3 4 5 6 7

ˆ ˆ ˆ ˆ ˆ ˆ ˆ

exp 1fin + i 2age + i 3race + i 4wexp + i 5mar + i 6paro + i 7

fin age race wexp mar paro

i i i i i i

ˆ

ˆ ( ) ˆ0( )

ˆ + ˆ + ˆ + ˆ + ˆ + ˆ + ˆ

( ) ˆ0( )

prioi i

prioi Hi

S t S t

t H t e

β β β β β β β

=

(14)

I-4- représentations graphiques

survfit()Appliquée à l’objet créé par coxph() renvoie

Les valeurs de la fonction de survie conditionnelle estimée aux

différents temps d’observation, la valeur de chaque covariable étant par défaut égale à la valeur moyenne de la covariable. La méthode d’estimation est donnée dans « type » (Kaplan Meier = Kalbfleisch- d’estimation est donnée dans « type » (Kaplan Meier = Kalbfleisch- Prentice , aalen =Breslow). Le défaut est aalen

les intervalles de confiances à 95%(la loi de la survie estimée est (qu’on utilise KM ou FH) asymptotiquement normale et la variance est

estimée par la méthode donnée dans « error »: soit Tsiatis (ok pour

breslow) soit Greenwood(OK pour prentice). Le défaut est Tsiatis. Pour les enlever, se.fit=F

1fin 2age 3race 4wexp 5mar 6paro 7prio

ˆ + ˆ + ˆ + ˆ + ˆ + ˆ + ˆ

ˆ ( / ) ˆ 0 ( )

S week z ₌ S week e β β β β β β β

(15)

I-4- représentations graphiques

summary(survfit(cox))

Call: survfit.coxph(object = cox)

time n.risk n.event survival std.err lower 95% CI upper 95% CI 1 432 1 0.998 0.00196 0.994 1.000 2 431 1 0.996 0.00277 0.991 1.000 3 430 1 0.994 0.00340 0.987 1.000 4 429 1 0.992 0.00393 0.985 1.000 5 428 1 0.990 0.00439 0.982 0.999 6 427 1 0.988 0.00482 0.979 0.998

plot(survfit(cox), ylim=c(.7, 1), xlab="Semaine", ylab="Proportion de non récidive", main="graphe de la fonction de survie")

RQ: survie de Breslow

(16)

I-4- représentations graphiques

basehaz() estime la fonction de hasard de baseline

basehaz(cox) hazard time 1 0.001958082 1 2 0.003921961 2 3 0.005887233 3

………..

plot(basehaz(cox), main=« fonction

de hasard de baseline", type="l")

(17)

I-4- représentations graphiques

Graphe de la survie suivant les valeurs d’une covariable : pour vérifier l’hypothèse de HP (à faire sur toutes les covariables), ou juste pour regarder

Construction d’un tableau, chaque ligne (strate) correspondant à une valeur de la covariable étudiée. Les colonnes sont les différentes

valeur de la covariable étudiée. Les colonnes sont les différentes

covariables. Seule la covariable étudiée a des modalités différentes, les autres sont fixées à une valeur, par exemple leur valeur moyenne.

Tracer des fonctions de survie dans chaque strate.

RQ : compare la loi de la durée sur les valeurs de cette unique covariable, les valeurs des autres covariables étant égales dans les différents

groupes. Ne tient donc pas compte de la collinéarité éventuelle existant

entre cette variable et les autres (qui induirait dans chaque strate des

valeurs différentes des autres covariables)..

(18)

I-4- représentations graphiques

Exemple : Etude de la variable financement (fin)

Rfin= data.frame(fin=c(0,1), age=rep(mean(rossi$age),2), race=rep(mean(rossi$race),2), wexp=rep(mean(rossi$wexp),2), wexp=rep(mean(rossi$wexp),2), mar=rep(mean(rossi$mar),2), paro=rep(mean(rossi$paro),2), prio=rep(mean(rossi$prio),2))

Rfin

fin age race wexp mar paro prio

1 0 24.59722 0.8773148 0.5717593 0.1226852 0.6180556 2.983796 2 1 24.59722 0.8773148 0.5717593 0.1226852 0.6180556 2.983796

plot(survfit(cox, newdata=Rfin),lty=c(1,2), ylim=c(.6, 1))

legend(locator(1), legend=c("fin = 0", "fin =

1"), lty=c(1,2))

(19)

I-4- représentations graphiques

Autre solution : modèle stratifié . Pas tout à fait identique (l’effet des autres covariables est estimé sans fin)

cox1=coxph(Surv(week, arrest) ~ age + race + wexp + mar + paro + prio+strata(fin),

wexp + mar + paro + prio+strata(fin), data=rossi)

coef exp(coef) se(coef) z p

age -0.0569 0.945 0.0220 -2.589 0.0096 race 0.3089 1.362 0.3080 1.003 0.3200 wexp -0.1507 0.860 0.2122 -0.710 0.4800 mar -0.4343 0.648 0.3819 -1.137 0.2600 paro -0.0819 0.921 0.1958 -0.418 0.6800 prio 0.0916 1.096 0.0287 3.188 0.0014

Likelihood ratio test=29.2 on 6 df, p=5.46e-05 n= 432 plot(survfit(cox1),ylim=c(0.6,1),lty=c(1,2))

(20)

I-5- Sélection de variables

Examen de la colinéarité : ici, il y en a peu

cor(rossi[,3:9])

fin age race wexp mar

fin 1.0000000000 0.061412030 0.063501644 0.004678059 -0.03527869 age 0.0614120301 1.000000000 -0.002712182 0.350482033 0.17372409 race 0.0635016441 -0.002712182 1.000000000 -0.038453338 -0.05371633 wexp 0.0046780586 0.350482033 -0.038453338 1.000000000 0.25233972 mar -0.0352786912 0.173724094 -0.053716334 0.252339716 1.00000000 paro -0.0142930085 -0.075260021 0.040036547 0.051418056 0.09066211 prio -0.0008002226 -0.100883897 -0.089903820 -0.260363336 -0.02961411

paro prio fin -0.01429301 -0.0008002226 age -0.07526002 -0.1008838975 race 0.04003655 -0.0899038199 wexp 0.05141806 -0.2603633357 mar 0.09066211 -0.0296141139 paro 1.00000000 -0.1262824070 prio -0.12628241 1.0000000000

(21)

I-5- Sélection de variables

Sélection des variables pertinentes : sélection de variables pas à pas (on enlève celle dont la statistique de Wald est la plus faible (p-value la plus élevée), on refait tourner le modèle et on recommence jusqu’à

obtention de toutes les variables significatives.

Application : Ici, en supposant que l’hypothèse de HP est vérifiée, il reste le Application : Ici, en supposant que l’hypothèse de HP est vérifiée, il reste le

modèle avec covariables age, prio et fin.

cox2= coxph(Surv(week, arrest) ~ fin + age + prio, data=rossi) coef exp(coef) se(coef) z p

fin -0.3469 0.707 0.1902 -1.82 0.06800 age -0.0671 0.935 0.0209 -3.22 0.00130 prio 0.0969 1.102 0.0273 3.56 0.00038

Likelihood ratio test=29.1 on 3 df, p=2.19e-06 n= 432

(22)

I- 6-Diagnostics

a- Vérification de l’hypothèse de HP

Avant d’interpréter plus avant le modèle, il est utile de voir si

l’hypothèse d’un modèle de HP est vérifiée (forme multiplicative et covariables indépendantes du temps)

Cette vérification est à faire sur le modèle global, avant même

d’interpréter les tests (qui ne sont pas valables lorsque l’hypothèse n’est

pas vérifiée), et avant de sélectionner des variables : il se peut qu’une

covariable ait un effet non significatif lorsque cet effet est moyenné

dans le temps mais qu’elle ait une interaction significative avec le

temps. C’est pourquoi il vaut mieux tester l’hypothèse de HP avant

d’interpréter la significativité des effets (les analyses faite en I-3 et I-5

devraient être faite après la vérification de l’hypothèse)

(23)

I- 6-Diagnostics

a- Vérification de l’hypothèse de HP

Différentes Méthodes :

tracer les graphes de la fonction de survie estimée (resp. fonctions de hasard estimées) versus le temps pour les différents sous-ensembles de valeurs des covariables : on doit obtenir des courbes proportionnelles valeurs des covariables : on doit obtenir des courbes proportionnelles (translatées)

• Test graphique des résidus de Schoenfeld : il doit y avoir absence de tendance temporelle.

• Test analytique basé sur les résidus de Schoenfeld : R calcule la corrélation entre les résidus et une fonction du temps basée sur l’estimateur de KM.

• Test des résidus de Cox-snell

(24)

I- 6-Diagnostics

a- Vérification de l’hypothèse de HP

Tracer des fonctions de survie

: Variable fin : OK

(25)

I- 6-Diagnostics

a- Vérification de l’hypothèse de HP

(26)

I- 6- Vérification de l’hypothèse de HP

tracer et test des résidus de Schoenfeld

res.c=cox.zph(cox)

rho chisq p fin 0.00646 0.00502 0.943519 age -0.26455 11.27897 0.000784 race -0.11224 1.41652 0.233977

0

Pour chaque variable, teste H : ( )

contre

j

t

j

β = β

Corrélation t*residu

race -0.11224 1.41652 0.233977 wexp 0.22976 7.14021 0.007537 mar 0.07295 0.68627 0.407435 paro -0.03618 0.15496 0.693841 prio -0.01366 0.02304 0.879353 GLOBAL NA 17.65862 0.013609

Le test global de validité de l’hypothèse de HP conduit à rejeter cette hypothèse : certaines covariables on un effet dépendant du temps. Ce sont l’age et wexp (emploi avant prison) qui conduisent à rejeter cette hypothèse (p valeur <5%).

1

i

contre H : ( )

en testant la nullité de a (ou r) dans

* , 1...

j j

ij i

t

s at i n

β β

ε

≠

= + =

0 1

Test global :

H : ( ) β t = β contre H : ( ) β t ≠ β

(27)

I- 6-Diagnostics

a- Vérification de l’hypothèse de HP

par(mfrow=c(2,4)) plot(res.c)

Tout éloignement de l’horizontale traduit un effet dépendant du temps. L’effet de l’age décroit linéairement avec le temps, inversement pour l’expérience

professionnelle. Les autres effets ont l’air fixes.

.Remarque : R trace le graphe des résidus en incluant par défaut un lissage par des

splines (trait plein), et des IC à 95%.

(28)

I- 6-Diagnostics

a- Vérification de l’hypothèse de HP

Beta(t) for fin -2-1012 Beta(t) for age 0.00.51.0 Beta(t) for race -8-6-4-202 Beta(t) for wexp -4-2024

T im e 7 . 9 2 5 4 4

-3

T im e 7 . 9 2 5 4 4

-10

T im e 7 . 9 2 5 4 4

-4

T im e

Beta(t) for mar

7 . 9 2 5 4 4

-5051015

T im e

Beta(t) for paro

7 . 9 2 5 4 4

-3-2-10123

T im e

Beta(t) for prio

7 . 9 2 5 4 4

0.00.51.0

(29)

I- 6-Diagnostics

b- test d’exponentialité du lien

Test de la forme du lien

On trace le graphe des résidus de martingale versus les covariables .On peut lisser les courbes avec des polynômes locaux d’ordre 1. N’a pas d’interet sur les variables dichotomiques.

Si la fonction de lien est bien exponentielle , le log du taux est une fonction linéaire des covariables. On trace le log de la fonction de lien estimée +résidus (résidus partiels) versus les covariables : permet de voir le cas échéant la forme du lien. La forme fonctionnelle est alors suggérée par la forme de la courbe : une croissance lente (resp. rapide) de la courbe suggèrera une transformation logarithme ou racine (resp.

puissance avec p> 1).

le tracé des résidus en fonction de variables explicatives non incluses dans le modèle peut être utilisé pour indiquer si certaines variables devraient être incluses dans le modèle, ce qui est le cas si une

dépendance apparait.

(30)

I- 6-Diagnostics

b- test d’exponentialité du lien

Edition des résidus de martingales

res.m=residuals(cox, type="martingale")

1 2 3 4 5 6

0.90305578 0.80750845 0.67611313 -0.13426506 -0.33421594 -0.34099656 7 8 9 10 11 12

7 8 9 10 11 12

0.94602933 -0.30578632 -0.64068115 -0.35731910 -0.24322731 -0.13602906 par(mfrow=c(2,2))

Graphique résidus de martingale versus covariables non dichotomiques

par(mfrow=c(2,1)

X = as.matrix(rossi[,c("age","prio")]) for (j in 1:2) {

plot(X[,j], res.m, xlab=c("age", "prio")[j], ylab="residuals") abline(h=0, lty=2)

lines(lowess(X[,j], res.m, iter=0))}

(31)

I- 6-Diagnostics

b- test d’exponentialité du lien

Résidus partiels

b=coef(cox)[c(2,3)]

for (j in 1:2) {

plot(X[,j], b[j]*X[,j]+res.m, xlab=c("age","prio")[j], ylab="component+residual")

ylab="component+residual")

abline(lm(b[j]X[,j]+res.m~X[,j]), lty=2) lines(lowess(X[,j], b[j]X[,j]+res.m, iter=0))}

D’après les graphes, un lien exponentiel semble approprié.

(32)

I- 6-Diagnostics

b- test d’exponentialité du lien

-1.0-0.50.00.51.0

residuals -1.0-0.50.00.51.0

residuals

20 25 30 35 40 45

-1.0

age

0 5 10 15

-1.0

prio

20 25 30 35 40 45

-2.5-1.5-0.5

age

component+residual

0 5 10 15

0123456

prio

component+residual

(33)

I- 6-Diagnostics

c- Influence des observations

On cherche à vérifier que les coefficients du modèles ne sont pas définis qu’à partir d’un petit nombre d’observations mais correspondent bien à l’ensemble de la population. Des approximations des différences dans les valeurs des coefficients provoqués par le retrait d’une observation

particulière (dfbeta) peuvent être obtenues, par exemple pour les trois particulière (dfbeta) peuvent être obtenues, par exemple pour les trois premières covariables par :

dfbeta = residuals(cox, type=’dfbeta’) par(mfrow=c(2,2))

for (j in 1:3) {

plot(dfbeta[,j], ylab=names(coef(cox))[j]) abline(h=0, lty=2)}

•

(34)

I- 6-Diagnostics

c- Influence des observations

On compare l’ordre de grandeurs des plus grands dfbeta aux coefficients.

Ici, ils sont petits para rapport aux valeurs des coefficients, donc, pas

d’observations anormalement influentes.

(35)

I- 7- Résolution des problèmes

Prise en compte des variables dépendent du temps

Issue 1 : Chaque individu*temps est considéré comme un individu

Issue 2 : Modèle de Cox avec interactions entre les covariables et le temps : forme de l’interaction?

Issue 3 : Modèle de Cox stratifié : chaque strate peut avoir une baseline

différente mais les coefficients des autres covariables sont les mêmes

d’une strate à l’autre. Ne permet pas d’examiner l’effet de la variable de

stratification. Il nbe doit pas y avoir trop de modalités, à moins de faire

des classes.

(36)

I- 7- Résolution des problèmes

Illustration de l’issue 1 : variable d’ emploi

Principe : On peut utiliser coxph() pour prendre en compte des covariables dépendant du temps : nécessite que pour un individu donné, chaque période distincte d’observation non manquante apparaisse comme une période distincte d’observation non manquante apparaisse comme une observation(un individu) distinctE : pour i, autant de lignes que de périodes.

Pour chaque période, on enregistre le début et la fin de l’intervalle, ainsi

qu’un indicateur indiquant si l’évènement s’est ou non produit sur la

(37)

I- 7- Résolution des problèmes

Application au travail avant réincarcération : emp1-emp52 fournit les semaines travaillées

- Création d’une ligne par individu et par période non manquante (51 lignes au plus par individus)

lignes au plus par individus)

- Création de 4 variables supplémentaires : Start= semaine de début d’emploi

Stop= semaine de fin d’emploi

Arrest.time=1 si rearrestation durant la semaine en cours, 0 sinon (censure)

Employed= covariable dépendant du temps=1 si employé durant la

semaine en cours, 0 sinon

(38)

I- 7- Résolution des problèmes

nm=sum(!is.na(rossi[,11:62])) # compte le nombre de valeurs non manquantes Rossi.2=matrix(0, nm, 14) # nouveau data. Frame

colnames(Rossi.2) =c("start", "stop", "arrest.time", names(rossi[1:10]),"employed") row=0

for (i in 1:nrow(rossi)) { for (j in 11:62) { if (is.na(rossi[i, j])) next else{

if (is.na(rossi[i, j])) next else{

row=row+1 start=j-11 stop=start+1

arrest.time=if(stop== rossi[i, 1]&& rossi[i, 2]==1) 1 else 0

Rossi.2[row,]=c(start, stop, arrest.time, unlist(rossi[i, c(1:10, j)])) }}}

Rossi.2 =as.data.frame(Rossi.2)

remove(i, j, row, start, stop, arrest.time)

(39)

I- 7- Résolution des problèmes

> Rossi.2 [1:50,]

start stop arrest.time week arrest fin age race wexp mar paro prio educ 1 0 1 0 20 1 0 27 1 0 0 1 3 3 2 1 2 0 20 1 0 27 1 0 0 1 3 3 3 2 3 0 20 1 0 27 1 0 0 1 3 3 4 3 4 0 20 1 0 27 1 0 0 1 3 3 4 3 4 0 20 1 0 27 1 0 0 1 3 3 5 4 5 0 20 1 0 27 1 0 0 1 3 3

employed 1 0 2 0 3 0 4 0

5 0

Il y a 20 lignes pour le sujet 1 car il a été réarrété en semaine 20. Il n’a pas travaillé

(emplyed=0 sur les 20 lignes)

(40)

I- 7- Résolution des problèmes

cox3=coxph(Surv(start, stop, arrest.time)~fin+age+race+wexp+mar+paro + prio + employed, data= Rossi.2)

coef exp(coef) se(coef) z p fin -0.3567 0.700 0.1911 -1.866 6.2e-02 age -0.0463 0.955 0.0217 -2.132 3.3e-02 age -0.0463 0.955 0.0217 -2.132 3.3e-02 race 0.3387 1.403 0.3096 1.094 2.7e-01 wexp -0.0256 0.975 0.2114 -0.121 9.0e-01 mar -0.2937 0.745 0.3830 -0.767 4.4e-01 paro -0.0642 0.938 0.1947 -0.330 7.4e-01 prio 0.0851 1.089 0.0290 2.940 3.3e-03

employed -1.3282 0.265 0.2507 -5.298 1.2e-07

Le taux de réarrestation est réduit de (100-26,5)%=73,5% durant la

semaine où l’individu a travaillé. La variable emploi a donc un effet

important sur la durée avant récidive.

(41)

I- 7- Résolution des problèmes

Remarque : Suggestion d’Amélioration : Certains auteurs ont remarqué que l’on ne peut pas travailler lorsqu’on est en prison. Au lieu de

considérer l’activité présente, on devrait plutôt considérer l’activité de la semaine précédente, donc décaler la variable « employed» d’une semaine. On perd alors l’information sur la première semaine après la sortie.

sortie.

Rossi.3= fold(Rossi, ’week’, ’arrest’, 11:62, ’employed’, lag=1) cox3b=coxph(Surv(start, stop, arrest.time) ~

+ fin + age + race + wexp + mar + paro + prio + employed, data=Rossi.3)

(42)

I- 7- Résolution des problèmes

Illustration de l’issue 2 : effet de l’age : on considère une interaction linéaire entre l’âge et le temps.

NB: Le modèle ne nécessite pas d’effet principal temps

cox4=coxph(Surv(start, stop, arrest.time)~fin + age + age:stop + prio, data=Rossi.2)

coef exp(coef) se(coef) z p

fin -0.34855 0.706 0.19023 -1.832 0.06700 age 0.03219 1.033 0.03943 0.817 0.41000 prio 0.09820 1.103 0.02726 3.603 0.00031

age:stop -0.00383 0.996 0.00147 -2.608 0.00910

Likelihood ratio test=36 on 4 df, p=2.85e-07 n= 19809

(43)

I- 7- Résolution des problèmes

coef exp(coef) se(coef) z p

fin -0.34855 0.706 0.19023 -1.832 0.06700 age 0.03219 1.033 0.03943 0.817 0.41000 prio 0.09820 1.103 0.02726 3.603 0.00031 prio 0.09820 1.103 0.02726 3.603 0.00031

age:stop -0.00383 0.996 0.00147 -2.608 0.00910

Likelihood ratio test=36 on 4 df, p=2.85e-07 n= 19809

Le coefficient de l’interaction est négatif et très significatif. L’effet de l’age décline avec le temps. Initialement, l’âge a un effet partiel positif sur le taux, donné par le coefficient d’age, 0.032 (accroissement de 3.3% du taux), mais cet effet s’amoindrit progressivement décroissance de 0.4%

du taux par semaine), devenant négatif au bout d’à peu près 10

semaines.

(44)

I- 7- Résolution des problèmes

Illustration de l’issue 3 : stratification sur wexp

cox5=coxph(Surv(start, stop, arrest.time)~fin+race+ age + age:stop +mar+paro + prio + strata(wexp)+employed, data= Rossi.2)

coef exp(coef) se(coef) z p fin -0.36800 0.692 0.19103 -1.926 5.4e-02 race 0.31187 1.366 0.30971 1.007 3.1e-01 age 0.08230 1.086 0.04035 2.040 4.1e-02 mar -0.23248 0.793 0.38430 -0.605 5.5e-01 paro -0.06422 0.938 0.19495 -0.329 7.4e-01 prio 0.08172 1.085 0.02904 2.814 4.9e-03 employed -1.32364 0.266 0.25119 -5.270 1.4e-07 age:stop -0.00499 0.995 0.00153 -3.268 1.1e-03

Likelihood ratio test=70.3 on 8 df, p=4.21e-12 n= 19809

(45)

I- 7- Résolution des problèmes

cox.zph(cox5)

rho chisq p fin 0.03564 0.147182 0.701 race -0.10916 1.345408 0.246 age -0.00783 0.009306 0.923 age -0.00783 0.009306 0.923 mar 0.06035 0.469525 0.493 paro -0.02350 0.064681 0.799 prio -0.00235 0.000703 0.979 employed 0.03813 0.168617 0.681 age:stop 0.00244 0.000949 0.975 GLOBAL NA 2.431707 0.965

Le test de proportionalité n’indique pas d’anomalie. Le modèle semble

Adapté. On peut donc interpréter les tests de significativité.

(46)

I- 7- Résolution des problèmes

Remarque : stratification sur l’age

Comme il y a trop de modalités, on fait des classes.

library(car)

Rossi.2$age.cat=recode(rossi$age, "lo:19=1; 20:25=2; 26:30=3; 31:hi=4") Rossi.2$age.cat=recode(rossi$age, "lo:19=1; 20:25=2; 26:30=3; 31:hi=4") table(Rossi$age.cat)

1 2 3 4

66 236 66 64

cox4b=coxph(Surv(start, stop, arrest.time)~fin+race+wexp+mar+paro +

prio + strata(age.cat)+employed, data= Rossi.2)

(47)

I- 8- Modèle final

cox5

coef exp(coef) se(coef) z p fin -0.36800 0.692 0.19103 -1.926 5.4e-02 race 0.31187 1.366 0.30971 1.007 3.1e-01 age 0.08230 1.086 0.04035 2.040 4.1e-02 mar -0.23248 0.793 0.38430 -0.605 5.5e-01 paro -0.06422 0.938 0.19495 -0.329 7.4e-01 prio 0.08172 1.085 0.02904 2.814 4.9e-03 employed -1.32364 0.266 0.25119 -5.270 1.4e-07 age:stop -0.00499 0.995 0.00153 -3.268 1.1e-03 Likelihood ratio test=70.3 on 8 df, p=4.21e-12 n=

19809

Le test de significativité du modèle global indique que le modèle est très

bien ajusté aux données.

(48)

I- 8- Modèle final

En revanche, certaines variables ne semblent pas apporter de pouvoir explicatif au modèle en présence des autres covariables : paro, mar, race et accessoirement fin. Faisons une sélection pas à pas

cox5b=coxph(Surv(start, stop, arrest.time)~fin+race+ age + age:stop +mar+ prio + strata(wexp)+employed, data= Rossi.2); cox5b

coef exp(coef) se(coef) z p

fin -0.36413 0.695 0.19064 -1.910 5.6e-02

race 0.30849 1.361 0.30951 0.997 3.2e-01

age 0.08299 1.087 0.04025 2.062 3.9e-02

mar -0.23668 0.789 0.38415 -0.616 5.4e-01

prio 0.08268 1.086 0.02888 2.863 4.2e-03

employed -1.32597 0.266 0.25115 -5.280 1.3e-07

age:stop -0.00498 0.995 0.00152 -3.268 1.1e-03

(49)

I- 8- Modèle final

cox5c=coxph(Surv(start, stop, arrest.time)~fin+race+ age + age:stop + prio + strata(wexp)+employed, data= Rossi.2); cox5c

coef exp(coef) se(coef) z p

fin -0.36176 0.696 0.19060 -1.90 5.8e-02

race 0.33065 1.392 0.30825 1.07 2.8e-01

age 0.08365 1.087 0.04044 2.07 3.9e-02

prio 0.08208 1.086 0.02885 2.84 4.4e-03

employed -1.33787 0.262 0.25063 -5.34 9.4e-08

age:stop -0.00507 0.995 0.00153 -3.32 9.0e-04

(50)

I- 8- Modèle final

cox5d=coxph(Surv(start, stop, arrest.time)~fin+ age + age:stop + prio + strata(wexp)+employed, data= Rossi.2); cox5d

coef exp(coef) se(coef) z p fin -0.35061 0.704 0.19041 -1.84 6.6e-02 age 0.08587 1.090 0.04036 2.13 3.3e-02 prio 0.07806 1.081 0.02875 2.72 6.6e-03 prio 0.07806 1.081 0.02875 2.72 6.6e-03 employed -1.33654 0.263 0.25053 -5.33 9.6e-08 age:stop -0.00514 0.995 0.00152 -3.37 7.5e-04 Likelihood ratio test=68.6 on 5 df, p=2.03e-13 n=

19809

Conclusion : En toute rigueur, on devrait enlever fin (on le laisse pour

faire plaisir aux auteurs de l’étude). C’est le fait de travailler qui influe

le plus sur la durée, quelle que soit la strate considérée, suivi de l’age et

de son effet dans le temps puis du nombre de récidives.

(51)

II-1 Fonction Surv()

Description: crée un objet de type « survival », utilisé généralement comme variable dépendante dans la formule d’un modèle.

Usage : Surv(time, time2, event, type =, origin = 0) Arguments

Time: pour un modèle de censure aléatoire, c’est l’instant d’occurrence. pour des données censurées par intervalle, le premier argument est l’instant de début de l’intervalle.

censurées par intervalle, le premier argument est l’instant de début de l’intervalle.

Event : indicateur de censure, 0=censuré, 1=panne. des données censurées par intervalle, 0=censuré à droite, 1=panne, 2=censuré à gauche, 3=censuré sur l’intervalle. Lorsque l’indicateur de censure est omis, aucun système n’est supposé censuré.

Time2 : in de l’intervalle pour une censure par intervalle. Les intervalles sont supposés ouverts à gauche et fermés à droite (start, end].

Type : chaine de caractère spécifiant le type de censure: "right", "left", "counting", "interval", or

"interval2". Le défaut est "right" ou "counting" (processus de comptage) suivant que l’argument time2 est absent ou présent.

Origin : pour des données de processus de comptage, l’origine de la fonction de hasard.

Details Surv(time, event) ; Surv(time, time2, event, type=, origin=0) ValueOn obtient un objet de classe Surv

(52)

II-2 Fonction coxph()

coxph package:survival R Documentation Fit Proportional Hazards Regression Model

Description: Ajuste un modèle de Cox à hasard proportionnel. Les covariables Description: Ajuste un modèle de Cox à hasard proportionnel. Les covariables

dépendant du temps, les strates dépendant du temps, les évènements multiples par observation et d’autres extensions sont possibles avec cette fonction.

Usage: coxph(formula, data=parent.frame(), weights, subset,

na.action, init, control, method=c("efron","breslow","exact"),

singular.ok=TRUE, robust=FALSE, model=FALSE, x=FALSE, y=TRUE,... )

(53)

II-2 Fonction coxph()

Arguments:

formula: un objet de type formule, dont la réponse (variable à expliquer) est mise à gauche de l’opérateur '~‘ , et les variables explicatives à droite. La réponse doit être un objet de type Surv (comme ceux retournés par Surv()).

data: un data.frame dans lequel se trouvent les variables données dans 'formula', ou dans les arguments 'subset' et 'weights'.

arguments 'subset' et 'weights'.

subset: expression indiquant que seules les lignes de « subset » doivent être utilisées pour l’ajustement.

na.action: une fonction de filtre pour les valeurs manquantes. Default is 'options()$na.action'.

weights: poids éventuels.

init: vecteur de valeurs initiales pour l’itération dans le calcul des estimations du maximum de la vraisemblance partielle. Par défaut, ces valeurs sont nulles pour toutes les variables.

(54)

II-2 Fonction coxph()

control:Objets de classe 'coxph.control' spécifiant le nombre max d’itérations et d’autres options de contrôle. Default is 'coxph.control(...)'.

method: chaîne de caractères spécifiant la méthode utilisée pour le calcul de la vraisemblance en cas d’ex-aequos (s’il n’y a pas d’ex-aequos toutes les méthodes sont équivalentes). Par défaut, méthode de « Efron ». La méthode « Exact » calcule la vraisemblance partielle exacte, mais très gourmande en temps.

exacte, mais très gourmande en temps.

singular.ok: valeur logique indiquant gérer la collinéarité. Si 'TRUE', le programme va automatiquement enlever les covariables qui sont combinaison linéaires des covariables précédentes (dans la matrice des covariables). Dans ce cas, les coefficients pour ces covariables sont NA, et la matrice de var-cov des coefficients contient des zeros.

robust: Si TRUE un estimateur robuste de la matrice de var-cov des coefficients est donné.

Default is 'FALSE‘.

Details: Le modèle de HP est généralement exprimé en terme d’un unique temps de survie par personne (ou système), éventuellement censuré. Andersen and Gill on reformulé le

problème en terme de processus de comptage: en fonction du temps, on enregistre le nombre d’évènements par personne. Les données par personne sont présentées sur plusieurs lignes, chacune étant relative à un intervalle (start, stop].

Value: Un objet de classe '"coxph"'. See 'coxph.object' for details.

(55)

II-2 Fonction coxph()

SPECIAL TERMS: Il y a deux termes spéciaux pouvant être utilisés dans la formule. Le terme 'strata' identifie un modèle de Cox stratifié: des baselines distinctes sont ajustées à chaque strate. Le terme 'cluster' est utilisé pour calculer une variance robuste pour le modèle. Le terme '+ cluster(id)', où 'id == unique(id)', revient à spécifier l’argument 'robust=T' et produit un estimateur approché par Jacknife de la variance.Si la variable 'id' n’est pas unique mais identifie des classes d’observations corrélées, alors l’estimateur de la variance est basé sur un Jacknife groupé.

est basé sur un Jacknife groupé.

CONVERGENCE: Dans certains cas, le MLE d’un coefficent est infini, par exemple, dans le cas d’une covariable dichotomique dont l’un des groupes n’a pas d’événement. Dans ce cas, l’algorithme de recherche du MLE diverge. Ce programme permet de détecter lorsque cela arrive.

PENALISED REGRESSION: 'coxph' peut maximiser une vraisemblance partielle pénalisée avec une fonction de pénalisation définie par l’utilisateurcan now maximise a penalised partial likelihood with arbitrary user-defined penalty. Parmi les fonctions de pénalisation pré- définies dans R, on trouve la ridge regression (ridge), les smoothing splines (pspline), and les frailty models (frailty).

(56)

II-2 Fonction coxph()

> names(coxph())

[1] "coefficients" "var" "loglik"

[4] "score" "iter" "linear.predictors"

[7] "residuals" "means" "method"

[10] "n" "terms" "assign"

[13] "wald.test" "y" "formula"

[16] "call"

>cox$coef : donne le vecteur des coefficients

>cox$score: donne la valeur de la statistique du test des scores

>cox$wald.test: donne la valeur de la statistique du test des scores

>cox$loglik:donne deux valeurs : la valeur de la log-vraisemblance avec les coefficients initiaux (mis à 0 sauf si ils sont donnés dans init) et celle avec les coefficients finaux (estimés)

>cox$var : matrice de var-cov des coefficients (sigma)

>cox$iter : nombre d’itérations utilisées pour calculer les coefficients (optimisation de la log-vraisemblance partielle)

>cox$linear.predictors: valeurs beta’z pour chaque individu

>cox$residuals: résidus de martingales

ˆj

β

(57)

II-2 Fonction coxph()

>cox$method: méthode de calcul de la log-vraisemblance en cas d’ex-aequo (Efron par défaut)

>cox$residuals: résidus de martingales

>cox$y : vecteur des observations (+ indique qu’il s’agit d’une censure)

(58)

II-2 fonctions annexes: residuals.coxph

Description : Calcule les résidus de martingale, de la deviance, du score et les résidus de Schoenfeld pour un modèle de Cox.

Usage: residuals(object, type=c("martingale", "deviance", "score", "schoenfeld", "dfbeta",

"dfbetas", "scaledsch","partial"), collapse=FALSE, weighted=FALSE, ...) Arguments

Object : Typiquement, la sortie de coxph()

Type: chaine de caractère indiquant le type de résidu désiré. Les valeurs possibles sont

"martingale", "deviance", "score", "schoenfeld", "dfbeta"', "dfbetas", and "scaledsch".

Collapse : vecteur indiquant quelles sont les lignes que l’on doit sommer : dans les modèles de HP dépendants du temps, on peut avoir plusieurs lignes par individu.

Weighted : Si TRUE et que le modèle a été ajusté en tenant compte de poids, les résidus pondérés sont retounés.

Value : Pour les résidus de déviance et de martingales, l’objet retourné est un vecteur avec une composante par individu. Pour le résidu des scores, c’est une matrice avec une ligne par sujet et une colonne par covariable. Pour les résidus de Schoenfeld, c’est une matrice avec une ligne par événement et une colonne par covariable. Les lignes sont rangées par instants d’occurrence croissants à l’intérieur d’une même strate. Pour les résidus de Schoenfeld normalisés, on utilie cox.zph. Les résidus de scores représentent chaque contribution

individuelle au vecteur de score. Deux transformations sont souvent utilisées : dfbeta est le changement approximatif dans le vecteur de coefficients lorsque une observation est enlevée et dfbetas est le changement approximatif dans les coefficients, renormalisé par l’écart-type des coefficients.

(59)

II-2 fonctions annexes: coxph.zph

Description : Teste l’hypothèse de HP pour un modèle de cox (coxph).

Usage : cox.zph(fit, transform="km", global=TRUE) Arguments

Fit : le résultat de coxph().

Transform : une chaine de caractère spécifiant comment les temps de survie doivent être transformés avant de faire le test : les valeur possibles sont "km", "rank", "identity" .Le défaut est "km" pour des données censurées à droite, "identity" pour des données de processus de comptage.

processus de comptage.

Global: permet de calculer un test du chi2 global en plus des tests pour chaque covariable.

Value : un objet de classe "cox.zph", avec les composants:

Table: matrice avec une ligne par covariable et de facon optionnelle une dernière ligne pour le test global. Les colonnes de la matrice contiennet les coefficients de corrélationentre les temps de survie transformés et les résidus de Schoenfeld renormalisés, une p-value pour le test du chi2 et pour le test bilateral.

x: l’axe de temps transformé.

y : la matrice des scaled Schoenfeld residuals. Une colonne par covariable et une ligne par événement.

(60)

III- Fonction survfit()

Description : Calcule un estimateur de la fonction de survie pour des données censurées en utilisant les méthode de Kaplan-Meier ou de Fleming-Harrington ou bien calcule la fonction de survie prédite par le modèle de Cox .

Usage: survfit(formula, data, weights, subset, na.action, newdata, individual=F, conf.int=.95, se.fit=T, type=c("kaplan-meier","fleming-harrington", "fh2"),

error=c("greenwood","tsiatis"), conf.type=c("log","log-log","plain","none"), conf.lower=c("usual", "peto", "modified")) , basehaz(fit,centered=TRUE) conf.lower=c("usual", "peto", "modified")) , basehaz(fit,centered=TRUE) Arguments

Formula: Un objet de type formula ou coxph. Si un objet de type formule est donné, il doit avoir un objet de type Surv en réponse et éventuellement des termes séparés par l’opérateur + à droite de ~ . Un de ces termes peut être un objet « strata ». Pour une seule courbe de survie

"~ 1" peut être omis.

Data: un data frame dans lequel figurent les données Weights: des poids éventuels

Subset : sous ensemble de lignes utilisées pour l’ajustement

na.action : fonction de filtre pour les valeurs manquantes. Default is options()$na.action.

(61)

III- Fonction survfit()

Newdata: utilisé avec une formule de classe coxph. Nouveau data frame ayant les mêmes noms de variables que les covariables utilisées dans la formule de coxph. Les fonctions de survie produites seront celles d’une cohorte dont les covariables correspondent aux valeurs de ce nouveau tableau. Par défaut, survfit() trace la fonction de survie en utilisant les valeurs moyennes des covariables.

Individual: une valeur logique indiquant si les données représentent différentes époques d’un mêmle individu (T) ou si au contraire les différentes lignes du tableu représentent des individus différents (F, le défaut). Dans le premier cas, une seule courbe sera^produite.

individus différents (F, le défaut). Dans le premier cas, une seule courbe sera^produite.

Dans le second cas, il y aura une courbe par ligne de newdata.

conf.int : le niveau de confiance pour l’intervalle de confiance bilatéral autour de la courbe de survie. Le défaut est 95%.

Type : une chaîne de caractère indiquant le type d’estimation utilisée pour la fonction de survie.

Les valeurs possibles sont "kaplan-meier", "fleming-harrington" ou "fh2" si une formule est donnée et "aalen" ou "kaplan-meier" si le premier argument est de type coxph. Le défaut est

"aalen" dans le dernier cas et "kaplan-meier" dans le premier cas.

Error : chaine de caractère dont les valeurs possible sont "greenwood" pour la formule de

Greenwood ou "tsiatis" pour la formule de Tsiatis (estimateurs de la matrice de var-cov des coefficients). Le défaut est "tsiatis" lorsqu’un objet de type coxph est donné et

"greenwood" sinon.

(62)

III- Fonction survfit()

Details: Les estimateurs utilisés sont ceux de Kalbfleisch-Prentice et

Tsiatis/Link/Breslow, qui se réduisent aux estimateurs de Kaplan-Meier and Fleming-Harrington lorsque les individus ont tous le même poids.

La formule de Greenwood pour la variance est une somme de termes d/(n(n-m)), où d est le nombre de morts à un instant donné, n est la somme des poids pour tous les individus toujours à risque à cet instant et m est la somme des poids des tous les individus toujours à risque à cet instant et m est la somme des poids des morts à cet instant. Tsiatis (1981) proposes une somme des termes d/(nn). Les deux variantes de l’estimateur de F-H sont relatives à la façon dont on traite les ex-aequos. Pour les courbes crées après un modèle de Cox, elles correspondent aux estimateurs de Breslow et Efron respectivement et le choix approprié est fait automatiquement par R. La méthode fh2 donnera des résultats plus proches du Kaplan-Meier.

Value: un objet de classe survfit;

(63)

IV- Fonction survreg()

Description : Régression pour un modèle de survie paramétrique. Inclut les modèles de vieillissement accélérés.

Usage: survreg(formula=formula(data), data=parent.frame(), weights, subset,na.action,dist="weibull", init=NULL, scale=0,

control=survreg.control(),parms=NULL,model=FALSE, x=FALSE, y=TRUE, robust=FALSE, ...)

Arguments Arguments

Formula : une formule comme pour les autres modèles de régression.

Data : tableau où se trouvent les variables.

Weights : poids éventuels des observations

Subset : sous-ensemble d’observations à utiliser pour l’ajustement na.action : fonction utilisée pour traiter les valeurs manquantes.

distassumed : distribution pour la variable y. cela inclut les distributions "weibull",

"exponential", "gaussian", "logistic", "lognormal" and "loglogistic".

Parms : une liste de paramètres fixes. Pour la distribution de student par exemple, c’est le nombre de ddl. La plupart des distributions n’ont pas de paramètres.

Init : vecteur de valeurs initiales des paramètres (initialisation de l’algorithme de recherche du MLE) vector of initial values for the parameters.

Value Retourne un objet de classe survreg