• Aucun résultat trouvé

Cours 6- Tests dans les modèles de durée

N/A
N/A
Protected

Academic year: 2022

Partager "Cours 6- Tests dans les modèles de durée"

Copied!
36
0
0

Texte intégral

(1)

Cours 6- Tests dans les modèles de durée I- tests d’adéquation

II- tests d’homogénéité

III- tests de significativité des covariables dans un modèle avec covariable

IV- tests de validation de l’hypothèse de HP

(2)

I - Tests d’adéquation

Objectif : on a supposé une forme pour la loi de la durée de vie, on veut la valider.

ü  Hypothèse simple : forme complètement spécifiée

ü  Hypothèse composite : forme paramétrique

(3)

I- Tests d’adéquation

1- hypothèse simple

Test :

Au risque

Où est une fdr spécifiée (suggérée par exemple par les procédures d’estimation)

0 0

1 0

: ( ) ( ) : ( ) ( ) H F t F t H F t F t

⎧ =

⎨ ≠

⎩

F0

α

(4)

I- Tests d’adéquation 1- hypothèse simple

Cas non censuré :

ü  Statistiques de test classiques :

Kolmogorov-Smirnov:

Cramer-Von-Mises:

Anderson-Darling:

ü  Loi des statistiques sous H0 : Quantiles asymptotiques tabulés ü  Décision : on rejette H0 si la valeur de la statistique dépasse le

quantile d’ordre α lu dans la table.

sup ( ) 0( )

n x R n

D + F x F x

=

( )

2

2

0 0

0 ( ) ( ) ( )

n n

W = n

+∞ F xF x dF x

( )

2 0

0 0

0 0

( ) ( ) ( ) 1 ( ) ( )

n n

F x F x

A n dF x

F x F x

+∞

=

(5)

I- Tests d’adéquation

1- hypothèse simple

Cas d’une censure aléatoire droite

ü  on remplace Fn par l’estimateur de Kaplan-Meier. La

distribution des statistiques de tests dépend du processus de censure.

ü  Lorsque la censure est de type Koziol-Green la distribution asymptotique de la statistique de CVM est connue (Koziol- Green ,1976) .

(6)

I- Tests d’adéquation

2 - hypothèse composite

ü  Test :

ü  Problème: La distribution sous H0 des statistiques de test

précédentes dépend généralement du paramètre inconnu ; les tests sont donc infaisables en pratique

ü  Exception: famille exponentielle (weibull, exponentielle, etc..).

Loi limite indépendante du paramètre. Quantiles asymptotiques tabulés dans le cas non censuré.

{ }

{ }

0 1

: ( ) ( , ), : ( ) ( , ), H F t F t

H F t F t

θ θ θ θ

⎧ ∈ ∈ Θ

⎨ ∉ ∈ Θ

⎩

θ0

(7)

I- Tests d’adéquation

3- test graphique des résidus de Cox-Snell

ü  Idée : si T suit un loi de fonction de hasard cumulé H(t), alors Y=H(T) suit une loi Exp(1).

ü  Mise en pratique :

•  On estime H dans le cadre (para/semi-para) du modèle supposé

•  On calcule . Si le modèle est correct, ce sont des réalisation d’une exp(1) (HY(t)=t)

–  On estime HY de façon non paramétrique (Nelson). Soit cet estimateur.

–  On trace versus t, on doit être proche de la première bissectrice

Yi = Hˆ(Ti)

ˆY

H

Hˆ

HˆY(t)

(8)

I- Tests d’adéquation

5- test graphique des résidus de Cox-Snell

t=rexp(100,3); d=rep(1,100) theta=100/sum(t)

y=theta*t

HY=basehaz(coxph(Surv(y,d)~1) plot(HY[[2]],HY[[1]], type="s")

(9)

II- Tests d’homogénéité

1- comparaison de deux échantillons

ü  Données:

ü  Test:

ü  Cas non censuré : tests de rang de Wilcoxon, Savage, Mantel- Haenzsel

A B

n + n = n

0 1

: ( ) ( )

: ( ) ( )

A B

A B

H S t S t H S t S t

⎧ =

⎨ ≠

⎩

1 1

: ,...,

: ,...,

A

B

A A

n

B B

n

A X X

B X X

(1) ... ( )n classement des observations X < < X

(10)

II- Tests d’homogénéité 1-

comparaison de deux échantillons ü  Statistiques :

= iéme événement sur les deux groupes confondus

= poids

=nombre de morts dans le 1° échantillon à l’instant = nombre de morts dans le groupe A à l’instant

=nombre de sujets à risques dans le groupe A juste avant = nombre de sujets à risques juste avant

Nombre de morts attendues à dans le groupe A sous H0=

S = δiWi MiARiAMi Ri

"

#$$ %

&

i=1 ''

n

A

Ri A

Mi

Ri

RiAMi / Ri Wi

( )i

X X( )i

( )i

X

( )i

X

morts vivants total A MiA RiA MiA RiA B MiB RiB MiB RiB total Mi Ri Mi Ri

Mi

( )i

X

( )i

X

(11)

II- Tests d’homogénéité 1-

comparaison de deux échantillons

ü  : test de Gehan ou Wilcoxon : Attribue un poids important aux premières sorties. Bonne puissance lorsque groupes de moyennes différentes et d’égale variance

ü  : test du log-rank ou de Mantel Haenszel : Le plus utilisé. Attribue un poids égal à toutes les sorties. Puissance optimale pour les modèles HP

ü  : test de Tarone et Ware: Attribue un poids fort aux premières sorties

ü  : test de Prentice

Ces tests manquent de puissance lorsque les courbes de survie se croisent

Wi = nSˆKM (X(i))

i i

W = R

i 1 W =

i i

W = R

(12)

II- Tests d’homogénéité 1-

comparaison de deux échantillons

ü  La loi exacte sous H0 de la statistique est obtenue par des arguments de permutations, dès lors que la loi de la censure est la même dans les deux échantillons.

ü  Loi asymptotique : sous H0,

SE0(S) V0(S)

" →L" N(0,1)

avec E0(S) = 0 ;V0(S) =

δiwi2vi ; vi = mi(ri mi)ri

AriB ri2(ri −1)

S

V0(S)

" →L" χ2(1) sous H0

(13)

II- Tests d’homogénéité 2- extensions

ü  Adaptation des tests précédents au cas de p échantillons

ü  Tests paramétriques : tests d’exponentialité, tests de tendance Sous R : Le test d'une différence de survie statistiquement significative entre plusieurs sous-groupes ou échantillons se fait dans le logiciel R au moyen de la fonction survdiff du package survival. L'instruction de base pour un test sur un traitement est :

survdiff(Surv(time,status)~treatment, data=mydata) (test du log-rank)

survdiff(Surv(time,status)~treatment,data=mydata, rho=1) (test de Gehan)

(14)

II- Tests d’homogénéité

3- exemple

(15)

Test du log-rank d’une différence entre les groupes :

xx=c(6,6,6,6,7,9,10,10,11,13,16,17,19,20,22,23,25,32,32,34,35,1,1,2,2,3,4 ,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23)

dd=c(1,1,1,0,1,0,1,0,0,1,1,0,0,0,1,1,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ,1,1,1,1,1); t=c(rep("T",21),rep("P",21))

survdiff(Surv(xx,dd)~t) Call:

survdiff(formula = Surv(xx, dd) ~ t)

N Observed Expected (O-E)^2/E (O-E)^2/V t=P 21 21 10.7 9.77 16.8

t=T 21 9 19.3 5.46 16.8

Chisq= 16.8 on 1 degrees of freedom, p= 4.17e-05

(16)

III- Tests de significativité d’une (ou d’un groupe de) variables dans un modèle avec covariables

ü  Hypothèses : (h paramétrique)

ü  Test

ü  Notations et rappels : = EMV de β (resp. v);

=log-vrais. observable; sous de bonnes conditions :

avec Σ(v) matrice de var-cov des coefficients, estimée

par h(t / z)h(t,z,υ) υ = β

λ

"

#

$$

%

&

'' ∈ Rp, β ∈ Rq, λ ∈ Rr,r+q = p

0 1

: 0

: 0

H H

β β

⎧ =

⎨ ≠

⎩

ˆn(resp. )ˆn

β υ

ln

ˆ 1/ 2

( n ) L (0, ( ))

n υ −υ ⎯⎯→N Σ υ

1

1 ,1

²

ˆn 1 n ( ,..., n, )ˆn

k j k p j p

l O O

n ν

υ υ ≤ ≤ ≤ ≤

⎡ ∂ ⎤

Σ = − ⎢ ⎥

⎢∂ ∂ ⎥

⎣ ⎦

(17)

III- Tests de significativité de variables dans un modèle avec covariables

ü  Test de Wald

UˆW = nβˆn( ˆΣβ(υ))−1/2

Σβ(υ) = bloc de dim q dans ˆΣn associé au vecteur ˆβ (matrice de var-cov empirique de ˆβn)

Loi sous H0 : UWN (0,1)

Statistique de test : ξW = UW 2 = nβˆn' Σβ(υ)−1βˆn Loi sous H0W → χ2(q)

2

1 0

Décision: ξW ≥ χ α ( )q ⇒on rejette H

(18)

III- Tests de significativité de variables dans un modèle avec covariables

ü  Rapport des maxima de vraisemblances

Idée : On compare les deux valeurs de la fonction objectif suivant que l’on est sous H0 ou non; on rejette si l’écart entre les deux valeurs est trop grand

Sous l’hypothèse générale : Si l’on impose H0 :

ˆn arg maxυ l On( ,...,1 On, )

υ = ∈Θ υ

0

0 1

ˆn arg maxυ l On( ,...,On, )

β

υ ∈Θ υ

=

=

0

1 1

0

ˆ ˆ

Statistique de test: 2 ( ,..., , ) ( ,..., , )

Loi sous H : ²( )

RMV n n n n n n

RMV

l O O l O O

q

ξ υ υ

ξ χ

⎡ ⎤

= ⎣ − ⎦

2

1 0

Décision: ξRMV ≥ χ α( )q ⇒on rejette H

(19)

III- Tests de significativité de variables dans un modèle avec covariables

ü  Test du score:

Idée : si H0 est satisfaite, doncυˆn υˆn0

l On( ,...,1 On, ) 0υˆn0 β

∂ ≈

'

0 0 1 0

1 1

0

1 ˆ ˆ ˆ

Statistique de test : ( ,..., , ) ( ) ( ,..., , ) Loi sous H : ²( )

S n n n n n n n

S

l O O l O O

n p

ξ υ β υ υ

β β

ξ χ

⎛ ∂ ⎞

= ⎜⎝∂ ⎟⎠ Σ ∂

2

1 0

Décision : ξS ≥ χ α ( )p ⇒ on rejette H

(20)

Application aux données de Freireich : hp2=coxph(Surv(xx,dd)~t)

summary(hp2)

Call:!

coxph(formula = Surv(xx, dd) ~ t)!

n= 42 !

coef exp(coef) se(coef) z p!

tT -1.57 0.208 0.412 -3.81 0.00014!

exp(coef) exp(-coef) lower .95 upper .95!

tT 0.208 4.82 0.0925 0.466!

!

Rsquare= 0.322 (max possible= 0.988 )!

Likelihood ratio test= 16.4 on 1 df, p=5.26e-05!

Wald test = 14.5 on 1 df, p=0.000138!

Score (logrank) test = 17.2 on 1 df, p=3.28e-05!

(21)

IV- Tests dans les modèles de HP

Une fois estimé les paramètres sous l’hypothèse de HP, on peut se demander si le modèle de HP est adéquat. On utilise alors des tests pour

•  Valider l’hypothèse de HP.

•  Tester la forme fonctionnelle (lien) de l’influence d’une covariable, les autres covariables étant dans le modèle.

•  Tester la qualité de prévision du modèle.

•  Tester l’influence de chaque individu sur l’estimation des paramètres

(22)

IV- Tests dans les modèles de HP

1- Validation de l’hypothèse de HP

Modèle de HP le rapport des taux de hasard entre deux sous- ensembles de valeurs des covariables est constant dans le temps.

ü  Trois méthodes possibles:

Ø  Tests graphiques basés sur des estimateurs des fonctionnelles de survie

Ø  Tests basés sur les résidus de Schoenfeld

Ø  Tests basés sur les résidus de Cox-Snell (cf précédemment)

(23)

IV- Tests dans les modèles de HP

1- Validation de l’hypothèse de HP

Tests graphiques

ü  Pour les différents sous-ensembles de valeurs d’une covariable:

Ø  tracer les graphes d’un estimateur de S(t/z) (Prentice ou Breslow) versus le temps: on doit obtenir des courbes proportionnelles

Ø  Tracer les graphes d’un estimateur de H(t/z) (Breslow) ou de h(t/z) versus le temps: on doit obtenir des courbes translatées

Ø  Tracer les graphes du rapport des estimateur de H(t/z) (Breslow) ou de h(t/

z) versus le temps pour différentes valeurs des covariables: on doit obtenir des droites parallèles à l’axe des abscisses

ü  Pour plus de lisibilité, on peut lisser les estimations (par des splines par exemple, cf R)

ü  fonctionne bien lorsqu’on a peu de strates et un nombre suffisant d’individus, peu lisible lorsque l’on a beaucoup de strates (covariables continues) ou peu de données.

(24)

IV- Tests dans les modèles de HP

1- Validation de l’hypothèse de HP

(25)

Application aux données de Freireich :

hp3=coxph(formula = Surv(xx, dd) ~ 1 + strata(t)) plot(survfit(hp3), col=c(2,3), main="Fonctions de

survies estimées")

legend("topright", col=c(2,3),legend=c("T","P"), pch=15)

0 5 10 15 20 25 30 35

0.00.20.40.60.81.0

Fonctions de survies estimées

T P T P

(26)

IV- Tests dans les modèles de HP

1- Validation de l’hypothèse de HP

ü  Résidu de Schoenfeld (1982) : permet de tester

ü  pour chaque mort Ti, vecteur dont la j° composante mesure la

différence entre la valeur de la covariable j au temps Ti et une moyenne pondérée des valeurs de cette covariable sur l’ensemble des sujets à risque au temps Ti:

(vraisemblance d’observer k à T i)

(

1,..., ,...

)

'

si = si sij sip sij = zijzR(i)j

( ) ( )

( )

( , ˆ )

; ( , ˆ )

k n

R i j kj k k

k R i

k n

k R i

z z p p z

z β

β

= ∑ = Ψ

Ψ

si

H0 : zj(t) = zj contre H1: zj(t) ≠ zj

(27)

IV- Tests dans les modèles de HP

1- Validation de l’hypothèse de HP

Idée : Si l’hypothèse de HP est vérifiée (ie l’effet de la covariable ne change pas dans le temps, les résidus de Schoenfield sont distribués de la même manière dans le temps. Ils n’exhibent

pas de tendance.

ü  Re-scaled Schoenfield residuals : où r est le nombre de morts et la matrice de var-cov des paramètres estimés

si* = rΣˆsi Σˆn

(28)

IV- Tests dans les modèles de HP

1- Validation de l’hypothèse de HP

ü  Tests :

Ø  Graphique : pour chaque covariable j, on trace (ou )versus le temps : les résidus doivent être répartis aléatoirement à l’intérieur d’une bande horizontale centrée en zero (on MQ ils sont nuls en moyenne). Si oui HP accepté. Pour plus de lisibilité, on lisse ces plots par des splines

Ø  analytique : pour chaque covariable j on effectue la régression des résidus sur le temps : et on teste la nullité de a via un test de student

*

sij

*

ij i i

s = at

sij

(29)

HP accepté :

(30)

HP rejeté :

hp2=coxph(formula = Surv(xx, dd)~as.factor(t) ) res.c=cox.zph(hp2)

res.c2=residuals(hp2,type="schoenfeld") res.c2

1 1 2 2 3 4 4 5 5 ! -0.1754423 -0.1754423 -0.1908059 -0.1908059 -0.2041077 -0.2196632 -0.2196632 -0.2442986 -0.2442986 ! 6 6 6 7 8 8 8 8 10 ! 0.7430206 0.7430206 0.7430206 0.7727348 -0.2419122 -0.2419122 -0.2419122 -0.2419122 0.7198094 ! 11 11 12 12 13 15 16 17 22 ! -0.2652602 -0.2652602 -0.3129718 -0.3129718 0.6162149 -0.3634262 0.5677905 -0.4089876 0.5527956 ! 22 23 23 !

-0.4472044 0.3749256 -0.6250744 !

!

mean(res.c2)!

[1] -3.996785e-16!

Time

Beta(t) for as.factor(t)T

2 4.4 6.2 8.2 10 12 16 22

-4-202

Résidus de Schoenfield pour la covariable t

(31)

IV-2 Validation de la forme du lien: Test des résidus de martingales

ü  Test de résidus de martingales : permet de tester l’hypothèse de HP et le cas échéant la forme fonctionnelle d’une covariable, dans un modèle qui tient déjà compte des autres covariables.

(32)

IV-2 Validation de la forme du lien: Test des résidus de martingales

ü  Résidu de Martingales :

Pour chaque individu i, on compare au temps d’observation xi le nombre de morts sur [O,xi] et le nombre de morts attendues sur [O,xi] si le modèle est vrai (excès de mort). On a :

•  Lorsque le modèle est vrai, les sont nuls en moyenne et non corrélés

(M(t)=N(t)-H(t) est une martingale)

•  La forme fonctionnelle de l’effet de Zj est très proche de la courbe de

regression de M sur zj . Valable lorsque Zj n’est pas dichotomique

0 ˆ

ˆ i i ˆ ( ) ( , )i i

M =δ − H x Ψ z β Mˆ i ∈ −∞( ,1]

ˆ i

M

(33)

IV-2 Validation de la forme du lien: Test des résidus de martingales

Test graphique : le nuage des points permet de détecter une forme de lien non correcte pour la covariable , les autres étant dans le modèle. Lorsque le lien est

correct, on observe une absence de tendance (cf slide précédent).

res.m=residuals(hp,type="martingale) plot(pbc$bili, res.m, xlab="Bilirubin", ylab="Martingale residual")

lines(smooth.spline(pbc$bili, mresids, df=6), col="red", lwd=2)

lines(pbc$bili, fitted(lm(mresids ~ pbc$bili)), col="blue", lwd=2)

Si l’on considère une transformation logarithmique …

Lecture 10 Stat 255 V. Nguyen

Regression diagnostics

Questions to address

Overall fit

Cox-Snell residuals

Functional form

Martingale residuals Ex: PBC data

Identification of outliers

Deviance residuals

Assessment of influence

Score residuals Delta-beta values

PH assumption

Schoenfeld residuals

Summary

10.17

Example: PBC data

I Now, let’s consider a log-transformation for bilirubin

##### Consider functional form of bilirubin mresids <- residuals(fit, type="martingale")

plot(pbc$bili, mresids, xlab="Bilirubin", ylab="Martingale residual") lines(smooth.spline(pbc$bili, mresids, df=6), col="red", lwd=2)

lines(pbc$bili, fitted(lm(mresids ~ pbc$bili)), col="blue", lwd=2)

Lecture 10 Stat 255 V. Nguyen

Regression diagnostics

Questions to address

Overall fit

Cox-Snell residuals

Functional form

Martingale residuals Ex: PBC data

Identification of outliers

Deviance residuals

Assessment of influence

Score residuals Delta-beta values

PH assumption

Schoenfeld residuals

Summary

10.18

Example: PBC data

−1 0 1 2 3

432101

log(Bilirubin)

Martingale residual

( ,z Mij ˆi) Zj

Lecture 10 Stat 255 V. Nguyen

Regression diagnostics

Questions to address

Overall fit

Cox-Snell residuals

Functional form

Martingale residuals Ex: PBC data

Identification of outliers

Deviance residuals

Assessment of influence

Score residuals Delta-beta values

PH assumption

Schoenfeld residuals

Summary

10.15

Example: PBC data

I What is the “correct” functional form for bilirubin in the context of this model? That is, for predicting mortality risk, adjusting for the other covariates . . .

I Martingale residual plot for bilirubin

I R: residuals(fit, type="martingale")

I Need to adjust for other covariates

I Use a smoother to capture relationship

I Include regression line to compare linearity

##### Consider functional form of bilirubin mresids <- residuals(fit, type="martingale")

plot(pbc$bili, mresids, xlab="Bilirubin", ylab="Martingale residual") lines(smooth.spline(pbc$bili, mresids, df=6), col="red", lwd=2) lines(pbc$bili, fitted(lm(mresids ~ pbc$bili)), col="blue", lwd=2)

Lecture 10 Stat 255 V. Nguyen

Regression diagnostics

Questions to address

Overall fit

Cox-Snell residuals

Functional form

Martingale residuals Ex: PBC data

Identification of outliers

Deviance residuals

Assessment of influence

Score residuals Delta-beta values

PH assumption

Schoenfeld residuals

Summary

10.16

Example: PBC data

●●●

●●

●●

●●

0 5 10 15 20 25

432101

Bilirubin

Martingale residual

(34)

IV-2 Validation de la forme du lien: Test des résidus de martingales

ü  Variante : résidus de déviance: normalisation des résidus de martingales, pour corriger leur asymétrie . Rôle identique

ü  Les résidus de déviance sont compris entre 0 et 1. Valent 0 en HP

res.d=residuals(hp2,type= »deviance »)

(35)

IV-3 Recherche des observations influentes dans un modèle de HP

ü  Résidus dfbeta: permet d’identifier les observations qui contribuent fortement à la détermination des paramètres du modèle.

ü  Pour chaque covariable, vecteur de dimension n

ü  Où est le paramètre estimé relatif à la covariable j en enlevant du modèle la i° observation.

res.m=residuals(hp2,type="dfbeta") Δβˆ(ij ) = βˆj −βˆ−(ij ) βˆj(i)

(36)

IV-4 Issues des tests

Lorsque les tests relatifs à l’hypothèse de HP montrent que l’hypothèse n’est pas vérifiée, c’est que le modèle n’est pas multiplicatif et/ou des covariables dépendent du temps. Plusieurs solutions :

- Changer de type de modèles (frailty, modèle de Aalen, vieillissement accéléré…)

-  Si les covariables dépendent du temps, on peut

ü  Stratifier sur la (les) covariable responsable. Cela revient à considérer que la baseline est différente suivant les valeurs de la covariable. Un tel modèle ne permet pas d’analyser l’effet de la covariable sur laquelle repose la stratification.

ü  partitionner le temps. Le modèle sera donc à HP par morceaux. Le choix des morceaux est parfois subjectif et arbitraire quelquefois.

ü  Utiiliser des modèles avec intéraction

Références

Documents relatifs

Dans un travail de recherche publié il y a quelques temps, et qui portait sur l’image de soi et de l’autre à travers les textes proposés dans le manuel de

[r]

En déduire que si l'on s'arrête de jouer au temps T (qui peut dépendre des résultats observés jusque-là), où T est borné (par exemple, on s'impose de s'arrêter avant la

Aux 1/3 et 2/3 de la longueur du fil, deux masses identiques m sont accrochées, dont on étudie les oscillations transverses dans un plan donné, qui est le plan de la figure.. Les

Les récentes avancées en neuro-imagerie fonctionnelle et structurelle ont permis de rapprocher des a ff ections aussi dissemblables que la dystonie et le syndrome de Gilles de

Il apparaît donc que c’est l’existence ou l’émergence des marchés fi nanciers dans la Communauté Economique et Moné- taire de l’Afrique Centrale (CEMAC) et

L’intérieur d’une pièce est séparée de l’extérieur par une paroi vitrée de surface S, orthogonale à l’axe Ox, et dont le verre a une conductivité thermique k v.. Par un

Tout comme pour la courbe dans le cas d’une charge résistive, nous constatons une diminution de plus en plus importante de la tension secondaire en fonction de l’augmentation