• Aucun résultat trouvé

The DART-Europe E-theses Portal

N/A
N/A
Protected

Academic year: 2022

Partager "The DART-Europe E-theses Portal"

Copied!
185
0
0

Texte intégral

(1)

HAL Id: tel-01408070

https://tel.archives-ouvertes.fr/tel-01408070

Submitted on 3 Dec 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application

aux décès par cancer de la prostate

Adeline Morisot

To cite this version:

Adeline Morisot. Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application aux décès par cancer de la prostate. Médecine humaine et pathologie.

Université Montpellier, 2015. Français. �NNT : 2015MONTT010�. �tel-01408070�

(2)

Sp´ecialit´e : Biostatistique

Pr´epar´ee au sein de l’unit´e de recherche EA 2415 :

Laboratoire de Biostatistique, d’Epid´emiologie et de Sant´e Publique Et de l’´ecole doctorale n°166 : Information, Structures, Syst`emes (I2S)

Pr´esent´ee et soutenue publiquement par :

Adeline Morisot

Le 2 D´ecembre 2015

Directeur de th`ese : Jean-Pierre Daur`es Co-directeur de th`ese : Paul Landais

M´ ethodes d’analyse de survie, valeurs manquantes et fractions attribuables temps d´ ependantes : application aux d´ ec` es par cancer de

la prostate.

Jury compos´e de :

Christophe COMBESCURE Privat Docent opitaux Universitaires de Gen`eve Rapporteur

Yohann FOUCHER MCU Universit´e de Nantes Rapporteur

Christine LASSET PU–PH Universit´e Claude Bernard Lyon 1 Examinateur Christian PRADIER PU–PH Universit´e de Nice Sophia Antipolis Pr´esident du jury

Jean-Pierre DAUR`ES PU–PH Universit´e de Montpellier Directeur

Paul LANDAIS PU–PH Universit´e de Montpellier Co-directeur

Institut Universitaire de Recherche Clinique (IURC) 641, avenue de doyen Gaston Giraud

34093 Montpellier Cedex 5

(3)

Remerciements

Je tiens `a exprimer mes sinc`eres et profonds remerciements `a monsieur le Professeur Jean- Pierre Daur`es, mon directeur de th`ese. Je vous remercie pour votre disponibilit´e, vos conseils, votre confiance, votre rigueur et votre soutien durant ces 3 ann´ees et demie. Ce fˆut un immense honneur et un plaisir de mener cette th`ese `a vos cot´es. Nos ´echanges fructueux et chaleureux vont beaucoup me manquer.

Je remercie aussi le Professeur Paul Landais, mon co-directeur de th`ese, pour son aide pr´e- cieuse tout au long de cette th`ese. Je vous remercie particuli`erement pour la r´edaction des articles, des posters et de ce manuscrit, ainsi que pour votre confiance, votre ´ecoute et vos encouragements.

Je tiens `a remercier vivement les membres du jury : M. Yohann Foucher et M. Christophe Combescure pour avoir accept´e d’ˆetre les rapporteurs de ce travail et pour leurs remarques perti- nentes qui ont contribu´e `a l’am´elioration de ce manuscrit. Je tiens aussi `a vivement remercier M.

le professeur Christian Pradier et Mme le professeur Christine Lasset qui ont accept´e d’examiner ma th`ese.

Je voudrais ´egalement remercier tout particuli`erement Christel Castelli, qui a beaucoup compt´e pour moi durant ces 4 derni`eres ann´ees, en ´etant `a la fois un guide et un mod`ele.

Je te remercie pour nos discussions et tes conseils toujours tr`es avis´es et tr`es pertinents avant et pendant la th`ese. Je te remercie aussi infiniment pour ton aide sur mon premier article. Malgr´e la distance, j’esp`ere que nous garderons contact, tant sur le plan professionnel que personnel.

Je voudrais ´egalement adresser mes remerciements `a Fa¨ıza et `a Xavier R´ebillard pour leur investissement dans ce travail.

Je remercie aussi toute l’´equipe de l’Institut Universitaire de Recherche Clinique. Un merci particulier `a S´everine et Sandy pour les s´eances de sport et les repas partag´es ensemble, `a Sylvie pour votre gentillesse et votre aide ainsi qu’`a Yohan pour tes d´epannages informatiques, pour ton ´ecoute, tes encouragements et ta bonne humeur.

Je pense ´egalement `a certaines personnes qui m’ont marqu´ee, comme Imad qui a effectu´e un stage dans mon bureau et Damien qui m’a beaucoup aid´ee au d´ebut de ma th`ese.

Surtout, je souhaiterais remercier de tout mon coeur mes deux coll`egues de th`ese qui ont

´egay´e et embelli cette derni`ere ann´ee : Pamela et Audrey. Les filles, je n’oublierai jamais les moments pass´es ensemble, et j’esp`ere qu’il y en aura d’autres, je vous attends sur Nice ! Je remercie aussi Charles, pour ta bonne humeur et tes visites quotidiennes, je regrette de ne pas avoir eu l’occasion de te connaitre vraiment.

Je remercie aussi mes amis. Merci `a vous pour tous les bons moments pass´es ensemble et `a venir !

Enfin, mes derniers remerciements sont pour ma famille, j’ai beaucoup de chance de vous avoir avec moi pour ce jour important, je vous aime. Une mention sp´eciale pour Maman et Philippe, je vous remercie d’avoir lu enti`erement ma th`ese afin de corriger les fautes d’orthographe ! Et bien

´evidemment, mon ultime merci est pour toi, R´emi. Je te remercie d’avoir ´et´e un soutien sans faille pour moi pendant ces ann´ees de th`ese, et j’en profite pour t’exprimer tout mon amour.

2

(4)

Table des mati` eres

Liste des abbr´eviations. . . 7

Liste des symboles. . . 8

Introduction. . . 12

Pr´esentation de la base de donn´ees ERSPC. . . 15

Chapitre 1–Les m´ethodes de gestion des donn´ees manquantes : l’imputation multiple 22 1.1 Introduction . . . 22

1.2 Caract´eristiques des donn´ees manquantes . . . 23

1.2.1 Notations . . . 23

1.2.2 M´ecanisme des donn´ees manquantes : MCAR, MAR et MNAR . . . 23

1.2.3 Ignorable et non ignorable . . . 24

1.2.4 Configuration des donn´ees manquantes . . . 25

1.2.4.1 Univari´ee . . . 25

1.2.4.2 Monotone . . . 26

1.2.4.3 Non monotone ou arbitraire . . . 26

1.2.5 Flux entrant et sortant . . . 26

1.3 Les m´ethodes dites simples . . . 26

1.3.1 Analyse des cas complets (Complete case analysis) . . . 27

1.3.2 Etude des cas disponibles (Pairwise deletion) . . . 27

1.3.3 Proc´edures de mod´elisation de la distribution des donn´ees manquantes . . 28

1.3.4 Imputation par la moyenne . . . 28

1.3.5 Imputation par r´egression . . . 29

1.3.6 LOCF et BOCF . . . 29

1.3.7 M´ethode de l’indicatrice . . . 29

1.4 L’imputation multiple en th´eorie . . . 30

1.4.1 Proc´edure g´en´erale . . . 31

1.4.2 M´ethodes d’imputation multiple pour donn´ees univari´ees . . . 32

1.4.2.1 R´egression lin´eaire bay´esienne . . . 32

1.4.2.2 Predictive mean matching (PMM) . . . 33

1.4.2.3 Variables qualitatives . . . 34

1.4.2.4 R´esum´e . . . 35

1.4.3 Algorithmes d’imputation multiple pour donn´ees multivari´ees . . . 35

1.4.3.1 Imputation des donn´ees monotones . . . 35

1.4.3.2 Mod´elisation conjointe (Joint Modeling (JM)) . . . 36

(5)

4 Table des mati`eres

1.4.3.3 Sp´ecification conditionnelle enti`ere (Fully Conditional Specifica-

tion (FCS)) . . . 39

1.4.3.4 Comparaison entre FCS et JM . . . 41

1.4.4 Combinaison des estimations . . . 42

1.4.4.1 Les r`egles de Rubin . . . 42

1.4.4.2 Formules propos´ees : R`egles de Rubin apr`es une transformation log-log compl´ementaire . . . 44

1.4.5 Propri´et´es de l’IM . . . 45

1.4.5.1 Les raisons de l’utilisation de l’IM . . . 45

1.4.5.2 But de l’IM . . . 46

1.4.5.3 Imputation appropri´ee . . . 46

1.4.5.4 Fraction d’information manquante (FIM) . . . 47

1.4.6 Choix du nombre m d’imputations . . . 48

1.4.7 Conclusion . . . 49

1.5 L’imputation multiple en pratique . . . 50

1.5.1 Avant l’imputation : construction du mod`ele d’imputation . . . 50

1.5.1.1 MAR, MCAR ou MNAR ? . . . 51

1.5.1.2 Choix des m´ethodes univari´ees . . . 52

1.5.1.3 Choix des pr´edicteurs . . . 53

1.5.1.4 Choix des variables d´eriv´ees . . . 53

1.5.1.5 Choix de l’ordre des imputations . . . 53

1.5.2 Apr`es l’imputation : diagnostic, analyse des donn´ees imput´ees et analyse de sensibilit´e . . . 54

1.5.2.1 Convergence et v´erification des imputations . . . 54

1.5.2.2 Analyse des donn´ees imput´ees . . . 54

1.5.2.3 Analyse de sensibilit´e . . . 55

1.6 Application sur la base ERSPC . . . 55

1.6.1 Hypoth`ese MAR, MNAR ou MCAR ? . . . 56

1.6.2 Construction du mod`ele d’imputation . . . 57

1.6.2.1 Variables du mod`ele d’imputation . . . 57

1.6.2.2 M´ethodes univari´ees . . . 57

1.6.2.3 Choix des pr´edicteurs . . . 59

1.6.2.4 Ordre des imputations . . . 60

1.6.2.5 Nombre d’imputations et d’it´erations . . . 60

1.6.3 Validation du mod`ele d’imputation . . . 60

1.6.4 Analyse de sensibilit´e . . . 62

1.6.5 Pr´ecision sur les imputations . . . 65

1.7 Conclusion . . . 66

Chapitre 2 –L’analyse de survie. . . 68

2.1 Introduction . . . 68

2.2 Notations et notions pr´eliminaires . . . 69

2.2.1 Rappels sur les fonctions de survie . . . 70

2.2.2 Notations en processus de comptage . . . 71

2.3 D´efinitions des survies brutes et nettes . . . 71

2.3.1 Toutes causes de d´ec`es en un seul ´ev´enement . . . 72

2.3.1.1 La survie brute . . . 72

2.3.1.2 La survie nette . . . 72

2.3.2 Une cause de d´ec`es parmi les autres . . . 72

2.3.2.1 La survie brute pour la cause 1 . . . 72

(6)

2.3.2.2 La survie nette pour la cause 1 . . . 73

2.4 Les m´ethodes classiques d’estimation de la survie . . . 74

2.4.1 Mod`eles non param´etriques . . . 74

2.4.1.1 Estimateur de Kaplan-Meier . . . 74

2.4.1.2 Estimateur de Nelson-Aalen . . . 75

2.4.2 Mod`eles param´etriques . . . 75

2.4.2.1 Pr´esentation de quelques lois . . . 75

2.4.2.2 Vraisemblance . . . 76

2.4.3 Estimateur semi-param´etrique de Cox . . . 77

2.4.4 M´ethode IPCW . . . 78

2.4.4.1 Estimateur IPCW de Kaplan-Meier . . . 79

2.5 Les risques comp´etitifs : mod`ele multi-´etats . . . 80

2.5.1 Mod`ele de risques comp´etitifs multi-´etats . . . 81

2.5.2 Fonction de risque cause-sp´ecifique . . . 83

2.5.2.1 D´efinition . . . 83

2.5.2.2 Estimateur non param´etrique de Nelson-Aalen . . . 83

2.5.2.3 Estimation avec un mod`ele `a risques proportionnels . . . 84

2.5.3 Fonction d’incidence cumul´ee . . . 87

2.5.3.1 D´efinition . . . 87

2.5.3.2 Estimateur non param´etrique d’Aalen-Johansen . . . 88

2.5.4 Fonction de risque de sous-r´epartition . . . 88

2.5.4.1 D´efinition . . . 88

2.5.4.2 Comparaison avec les risques cause-sp´ecifiques . . . 90

2.5.4.3 Estimation avec un mod`ele `a risque proportionnel . . . 90

2.6 Les risques comp´etitifs : mod`ele des temps latents . . . 92

2.7 Survie sp´ecifique avec correction IPCW : avec causes de d´ec`es . . . 94

2.7.1 La survie nette sp´ecifique . . . 94

2.7.1.1 Estimateur de la survie nette sp´ecifique . . . 94

2.7.1.2 Estimation de la variance . . . 95

2.7.2 M´ethode sp´ecifique IPCW propos´ee . . . 96

2.8 Les m´ethodes d’estimation dites de survie relative : sans causes de d´ec`es . . . 96

2.8.1 D´efinition du rapport de survie relative . . . 97

2.8.2 Estimateur d’Ederer II . . . 98

2.8.3 Estimateurs d’Ederer I et d’Hakulinen . . . 99

2.8.4 Estimateur de Pohar-Perme . . . 99

2.9 R´esum´e . . . 101

2.10 Application . . . 102

2.10.1 Survies classiques pour toutes les causes . . . 102

2.10.2 Risques comp´etitifs multi-´etats . . . 103

2.10.2.1 Analyses bas´ees sur le risque cause-sp´ecifique . . . 103

2.10.2.2 Analyse bas´ee sur le risque de sous-r´epartition . . . 108

2.10.3 Mod`ele des temps latents . . . 111

2.10.4 Survies sp´ecifiques IPCW . . . 111

2.10.5 Survie relative . . . 114

2.11 Conclusion et Discussion . . . 115

Chapitre 3– Les fractions attribuables. . . .118

3.1 Introduction . . . 118

3.2 Fractions attribuables ind´ependantes du temps . . . 120

3.2.1 Fractions attribuables univari´ees : pour une seule exposition binaire . . . 120

(7)

6 Table des mati`eres

3.2.2 Fractions attribuables multivari´ees : pour plusieurs expositions `a plusieurs

niveaux . . . 121

3.2.2.1 Fractions attribuables sans prise en compte des facteurs de confu- sion . . . 121

3.2.2.2 Fractions attribuables avec prise en compte des facteurs de confu- sion . . . 122

3.2.3 Fraction de pr´evention (FP) . . . 124

3.3 Fractions attribuables d´ependantes du temps . . . 125

3.3.1 Intervention au temps 0, estimation de la FAP `a l’instant t . . . 126

3.3.1.1 Fraction attribuable en population (FAP) . . . 126

3.3.1.2 Fraction de survie attribuable en population (FSAP) . . . 127

3.3.1.3 Fraction de temps moyen de survie attribuable en population (FTSAP) . . . 128

3.3.1.4 Estimation . . . 128

3.3.2 Intervention au temps τ . . . 128

3.3.2.1 Fraction attribuable en population (FAP) . . . 131

3.3.2.2 Fraction de survie attribuable en population (FSAP) . . . 131

3.3.2.3 Fraction de temps moyen de survie attribuable en population (FTSAP) . . . 132

3.3.2.4 Estimation . . . 133

3.3.3 Intervention et estimation `a l’instant t . . . 133

3.4 Application . . . 134

3.4.1 Contexte univari´e . . . 135

3.4.1.1 D´ec`es par cancer de la prostate . . . 135

3.4.1.2 D´ec`es de toutes causes . . . 135

3.4.2 Contexte multivari´e . . . 142

3.4.2.1 D´ec`es par cancer de la prostate . . . 142

3.4.2.2 D´ec`es de toutes causes . . . 143

3.5 Conclusion et Discussion . . . 143

Conclusion. . . .145

Valorisations scientifiques. . . .149

Liste des figures. . . .150

Liste des tableaux. . . .151

Bibliographie. . . .152

Annexe A – D´emonstrations. . . .166

A.1 Chapitre2 . . . 166

A.2 Chapitre3 . . . 170

Annexe B –Codes R. . . .176

B.1 Chapitre1 . . . 176

B.2 Chapitre2 . . . 179

(8)

Liste des abbr´ eviations

ERSPC European Randomized Study of Screening for Prostate Cancer C´epiDC Centre d’´epid´emiologie sur les causes m´edicales de d´ec`es RNIPP R´epertoire national d’identification des personnes physiques IM Imputation Multiple

MCAR Missing Completely At Random MAR Missing At Random

MNAR Missing Not At Random CCA Analyse des Cas Complets EM Expectation Maximization

LOCF Derni`ere Observation Report´ee (Last Observation Carried Forward)

BOCF Observation de R´ef´erence Report´ee (Baseline Observation Carried Forward) PMM Predictive Mean Matching

JM Joint Modeling (Mod´elisation jointe)

FCS Fully Conditional Specification (Sp´ecification conditionnelle enti`ere)

MICE Multiple Imputation of Chained Equation (Imputation multiple par ´equations chai- n´ees)

MCMC Monte Carlo Markov Chain (Monte-Carlo par Chaˆınes de Markov) FIM Fraction d’Information Manquante

MWW Mann-Whitney-Wilcoxon

KM Kaplan-Meier

IPCW Inverse

NA Nelson-Aalen

AJ Aalen-Johansen

HR Hazard Ratio (Rapport des risques) IC Intervalle de confiance

NS Nette sp´ecifique RR Risque relatif

OR Odds ratio

FA Fraction attribuable

FAP Fraction attribuable en population

MH Mantel-Haenszel

FP Fraction de pr´evention

FSAP Fraction de survie attribuable en population

FTSAP Fraction de temps moyen de survie attribuable en population

7

(9)

Liste des symboles

Symboles Description Section

i d´esigne les individus, i“1, . . . , n

p nombre de variables

Concernant le chapitre1

Y matrice nˆp contenant les valeurs des p variables pour les nindividus

(1.2.1) R matricenˆpd’indicatrice de r´eponse (1 si valeur observ´ee,

0 sinon)

(1.2.1) yij etrij ce sont les ´el´ements de Y et de R o`u o`u i “ 1, . . . , n et

j“1, . . . , p

(1.2.1) Yobs etYmis les donn´ees observ´ees et manquantes de Y “ pYobs, Ymisq (1.2.1)

ψ param`etres du mod`ele des donn´ees manquantes (1.2.3)

θ param`etres du mod`ele pour les donn´ees totales Y (1.2.3)

Ij coefficient de flux entrat (1.2.5)

Oj coefficient de flux sortant (1.2.5)

m nombre d’imputations multiple (1.4.1)

y Y univari´e (1.4.2)

yobs vecteur des n1 valeurs observ´ees dey (1.4.2)

ymis vecteur des n0 valeurs manquantes de y (1.4.2)

X matricenˆq des pr´edicteurs du mod`ele d’imputation (1.4.2) Xobs sous-ensemble den1 lignes de X pour lesquellesy est ob-

serv´e

(1.4.2) Xmis sous-ensemble den0lignes deXpour lesquellesyest man-

quant

(1.4.2)

y9 vecteur des n0 valeurs imput´ees dansy (1.4.2)

T nombre d’it´eration (1.4.3.3)

Q le param`etre statistique d’int´erˆet (1.4.4.1)

i,i“1, . . . , m les mparam`etres estim´e sur chaque jeu de donn´ees impu- t´ees

(1.4.4.1) Ui,i“1, . . . , m la matrice de variance-covariance estim´ee pour chaque jeu

de donn´ees imput´ees

(1.4.4.1) Q¯ param`etre combin´e `a partir des mparam`etres (1.4.4.1)

U¯ variance combin´ee `a partir desm variance (1.4.4.1)

B variance entre imputation (1.4.4.1)

T variance totale pour ¯Q (1.4.4.1)

λ la proportion de variation attribuable aux donn´ees man- quantes

(1.4.5.4) r l’augmentation relative de la variance due `a la non r´eponse (1.4.5.4)

γ la fraction d’information manquante (1.4.5.4)

8

(10)

Symboles Description Section Concernant le chapitre2

Trl temps de d´ec`es,l“1, . . . , L (2.2)

T1 temps de d´ec`es de la maladie ´etudi´ee (2.2)

T2 temps de d´ec`es d’autres causes (2.2)

C temps de censure (2.2)

T “minpT1, T2q temps de d´ec`es observ´e (2.2)

U “minpT, Cq temps de suivi observ´e (2.2)

D les covariables d´emographiques (2.2)

Z les autres covariables (2.2)

X “ pD, Zq le vecteur de longueurp de toutes les covariables (2.2)

T la cause de d´ec`es qui se produit au tempsT (2.2)

δU le type d’´ev´enement qui se produit enU, censure ou d´ec`es (2.2) Yptq le nombre d’individus `a risque au tempst (2.2.2) N.ptq le nombre de d´ec`es de toutes causes pendant r0, ts (2.2.2) Nkptq le nombre de d´ec`es de cause kpendant r0, ts,k“1 ou 2 (2.2.2) δN.ptq le nombre de d´ec`es de toutes causes au tempst (2.2.2) δNkptq le nombre de d´ec`es de cause kau temps t (2.2.2) Sptq,Hptqethptq respectivement : la survie, le risque cumulatif et le risque,

index´es de la mˆeme fa¸con suivant leur d´efinitions

(2.2.1)

h˚.ptq risque brut pour toutes les causes (2.3.1)

h.ptq risque net pour toutes les causes (2.3.1)

h˚kptq risque brut pour la causek,k“1 ou 2 (2.3.2) h˚˚k ptq risque cause-sp´ecifique pour la cause k,k“1 ou 2 (2.3.2)

hkptq risque net pour la causek,k“1 ou 2 (2.3.2)

Sp.KMptq estimateur de KM de la survie pour toutes les causes (2.4.1) Hp.NAptq estimateur de NA du risque cumulatif pour toutes les

causes

(2.4.1) hexp. ptq risque de la loi exponentielle pour toutes les causes (2.4.2) hWeib. ptq risque de la loi de Weibull pour toutes les causes (2.4.2) hWeibG. ptq risque de la loi de Weibull g´en´eralis´ee pour toutes les

causes

(2.4.2)

hcptq risque de la censure (2.4.4)

Kiptq pour l’individui, c’est la probabilit´e d’ˆetre censur´e apr`es le tempstsachant certaines covariables

(2.4.4) K0ptq c’est la probabilit´e d’ˆetre censur´e apr`es le temps t (2.4.4) Sp.WKMptq estimateur IPCW de KM de la survie pour toutes les

causes

(2.4.4) HpkNAptq estimateur de NA du risque cumulatif pour la cause k,

k“1 ou 2

(2.5.2.2) Hpk0,NAptq estimateur de Breslow du risque cumulatif de base pour la

causek,k“1 ou 2

(2.5.2.3) F ICkptq fonction d’incidence cumul´ee pour la causek,k“1 ou 2 (2.5.3) F ICzAJk ptq estimateur de Aalen-Johansen de la FIC pour la cause k,

k“1 ou 2

(2.5.3.2) λptq risque de sous-r´epartition, associ´e `a F IC1ptq (2.5.4) SFIC1ptq survie associ´ee au risque λptq, SFIC1ptq “ 1´F IC1ptq “

expr´Λptqdts

(2.5.4)

(11)

10 Liste des symboles

Symboles Description Section

Yνptq le nombre d’individu `a risque au temps t dans le mod`ele de sous-r´epartition

(2.5.4.3) Ypνptq estimateur de Fine et Gray de Yνptq (2.5.4.3) Hp1NSptq estimateur IPCW de NA (appel´e survie nette sp´ecifique)

pour le risque cumulatif de la cause 1

(2.7.1) Sp1WKMptq estimateur IPCW de KM pour le risque cumulatif de la

cause 1

(2.7.1) SPptq la survie dans la population, obtenue `a partir des tables

de mortalit´e

(2.8.1) S1SRptq le rapport de survie relative pour la cause 1 (2.8.1) Hp1Ed2ptq estimateur d’Ederer II du risque cumulatif sp´ecifique `a la

cause 1

(2.8.2) Hp1Ed1ptq estimateur d’Ederer I du risque cumulatif associ´e au rap-

port de survie relative pour la cause 1

(2.8.3) Hp1Hakptq estimateur d’Hakulinen du risque cumulatif associ´e au rap-

port de survie relative pour la cause 1

(2.8.3) Hp1PPptqtq estimateur de Pohar-Perme du risque cumulatif net pour

la cause 1

(2.8.4)

SpF ICAJ 1ptq 1´F ICzAJ1 ptq (2.10.2.2)

SpF ICAJ 2ptq 1´F ICzAJ2 ptq (2.10.2.2)

Sp1KMptq estimateur de KM de la survie de la cause 1 en supposant les d´ec`es et la censure ind´ependants dans leur ensemble

(2.10.3) Sp1Weibptq estimateur de Weibull de la survie de la cause 1 en sup-

posant les d´ec`es et la censure ind´ependants dans leur en- semble

(2.10.3)

Concernant le chapitre3

M variable binaire d´esignant un ´ev´enement (M : malade ou d´ec´ed´e , M : non malade ou non d´ec´ed´e)

(3.2) E facteur d’exposition dichotomiqueE (E : expos´e ,E: non

expos´e)

(3.2)

X˚ valeurs des covariables apr`es une intervention (3.3)

Π“PpEq proportion d’expos´es (3.3)

S1ptq survie chez les expos´es (3.3)

S0ptq survie chez les non expos´es (3.3)

Fptq proportion d’´ev´enement au temps t (3.3)

Πptq proportion d’expos´es en vie au temps t (3.3)

Eptq,E0ptq l’aire sous la courbe Sptq etS0ptq, respectivement (3.3.1.3) E0,Eτ le fait d’ˆetre expos´e au temps 0 et τ, respectivement (3.3.2) p10,p11 la proportion d’expos´es qui deviennent non expos´es et qui

restent expos´es, respectivement

(3.3.2) p00,p01 la proportion de non expos´es qui restent expos´es et qui

deviennent non expos´es, respectivement

(3.3.2) p ´egal `a p10 quand on consid`ere que tous les non expos´es

restent expos´es

(3.3.2) F APzWKM1 ptq FAP estim´ee par Kaplan-Meier avec IPCW, en ne consi-

d´erant que les d´ec`es du cancer

(3.4)

(12)

Symboles Description Section F APzWKM. ptq FAP estim´ee par KM avec IPCW, pour les d´ec`es de toutes

causes

(3.4) F SAP{WKM1 ptq FSAP estim´ee par Kaplan-Meier avec IPCW, en ne consi-

d´erant que les d´ec`es du cancer

(3.4) F SAP{WKM. ptq FSAP estim´ee par KM avec IPCW, pour les d´ec`es de

toutes causes

(3.4) F T SAP{ WKM1 ptq FTSAP estim´ee par Kaplan-Meier avec IPCW, en ne

consid´erant que les d´ec`es du cancer

(3.4) F T SAP{ WKM. ptq FTSAP estim´ee par KM avec IPCW, pour les d´ec`es de

toutes causes

(3.4)

(13)

Introduction

En France, le nombre de nouveaux cas de cancer diagnostiqu´es en 2012 est estim´e `a 200 350 chez l’homme et 155 004 chez la femme. Le cancer est depuis des ann´ees une question majeure de sant´e publique, il est la premi`ere cause de d´ec`es en France chez l’homme et la deuxi`eme cause chez la femme [INCa, 2015] ainsi que la premi`ere cause de d´ec`es pr´ematur´e avant 65 ans tant chez l’homme que chez la femme.

En particulier, le cancer de la prostate est le plus fr´equent chez l’homme, il repr´esente 28%

des cas de cancer avec 56 840 nouveaux cas estim´es pour 2012 [INCa,2015]. Le nombre de d´ec`es par cancer de la prostate a baiss´e ces derni`eres ann´ees ; il ´etait de 8900 en 2012 et se situait au 3erang apr`es le cancer du poumon (21 300 d´ec`es) et le cancer colorectal (9 300 d´ec`es). Le cancer de la prostate concernait jusqu’`a r´ecemment les hommes ˆag´es, il est aujourd’hui diagnostiqu´e de plus en plus jeune (33% des cas ont moins de 65 ans), grˆace `a l’incitation au d´epistage oppor- tuniste par les m´edecins g´en´eralistes, urologues et oncologues. Par cons´equent, les cancers sont diagnostiqu´es `a un stade plus pr´ecoce et la survie du cancer de la prostate s’est am´elior´ee tous stades confondus, ce qui en fait un cancer de bon pronostic.

Dans cette th`ese nous nous int´eressons `a la survie des patients atteints de cancer de la prostate et plus particuli`erement aux diff´erentes m´ethodes d’estimation de la survie.

En biostatistique, les m´ethodes d’analyse de survie estiment le temps d’apparition d’un ´ev´e- nement (par exemple : le d´ec`es de toutes causes, le d´ec`es d’une cause particuli`ere, une maladie, etc.). Dans une situation id´eale, le temps de l’´ev´enement d’int´erˆet est connu pour tous les indivi- dus. En pratique, certains individus peuvent ˆetre perdus de vue avant l’apparition de l’´ev´enement ou un autre ´ev´enement peut se produire avant l’observation de l’´ev´enement d’int´erˆet, on parle alors de donn´ees censur´ees.

La plupart des m´ethodes d’estimation de la survie supposent que ces donn´ees censur´ees n’affectent pas la survenue de l’´ev´enement d’int´erˆet. Si cette hypoth`ese est valide pour les patients perdus de vue et surtout pour la censure administrative, elle semble peu r´ealiste quand par exemple on s’int´eresse aux d´ec`es par cancer de la prostate et que les donn´ees censur´ees sont les d´ec`es d’autres causes.

De plus, quand on ´etudie le d´ec`es d’une cause particuli`ere, certaines m´ethodes n´ecessitent la connaissance des causes de d´ec`es (m´ethodes dites sp´ecifiques) et d’autres non (m´ethodes de survie relative). Toutes ces m´ethodes reposent sur des hypoth`eses fortes, qui ne sont pas toujours v´erifi´ees ou suppos´ees. Les m´ethodes de survie relative sont tr`es simples `a appliquer, et sont largement utilis´ees dans la litt´erature. N´eanmoins, quand les hypoth`eses ne sont pas respect´ees (par exemple quand la population ´etudi´ee n’est pas repr´esentative de la population g´en´erale), ces m´ethodes peuvent donner des survies sup´erieures `a 100%, ce qui n’est pas acceptable.

Quant aux m´ethodes sp´ecifiques, elles semblent plus pr´ecises `a condition que les causes de d´ec`es soient bien renseign´ees. En outre, la plupart des bases de donn´ees contiennent des valeurs absentes, notamment en ce qui concerne l’information sur les causes de d´ec`es. Par cons´equent, nous nous int´eressons dans un premier temps aux m´ethodes de gestion des donn´ees manquantes et en particulier `a l’imputation multiple. L’imputation multiple permet d’obtenir plusieurs fichiers

12

(14)

avec des donn´ees compl´et´ees par des valeurs plausibles tir´ees de distributions sp´ecifiquement mo- d´elis´ees pour chaque entr´ee manquante. L’amplitude des valeurs imput´ees refl`ete l’incertitude `a propos de la vraie valeur [Van Buuren and Groothuis-Oudshoorn,2011]. Une fois les fichiers ob- tenues, l’analyse statististique d’int´erˆet, ici la survie, est estim´ee sur chacun des jeux de donn´ees compl´et´ees, puis les estimations sont combin´ees en une seule avec des r`egles sp´ecifiques.

Par ailleurs, la notion de fraction attribuable, qui permet de d´eterminer le pourcentage de d´ec`es ou de maladie potentiellement imputable `a un ou plusieurs facteurs de risque a depuis peu

´et´e ´etendue aux donn´ees de survie. Ainsi, nous nous int´eressons aux estimations et `a l’interpr´e- tation des fractions attribuables `a partir des survies sp´ecifiques `a une cause ou pour toutes les causes. Il semble int´eressant de comparer les estimations obtenues avec les diff´erentes m´ethodes d’estimation de la survie consid´er´ees.

Objectifs de la th`ese

Les objectifs de la th`ese sont les suivants :

‚ Etudier et utiliser les m´ethodes de gestion de donn´ees manquantes afin d’obtenir des causes de d´ec`es renseign´ees et des covariables compl´et´ees. Appliquer les r`egles de Rubin apr`es une transformation log-log compl´ementaire afin de combiner les survies et proposer une fonction Rpour cette combinaison (chapitre1).

‚ Pr´esenter toutes les m´ethodes d’estimation de la survie de fa¸con unifi´ee avec les mˆemes notations. Pr´eciser les conditions d’applications et de validit´e de chaque m´ethode, ainsi que ce qu’elles estiment. Proposer une m´ethode sp´ecifique qui prenne en compte une ´eventuelle censure informative et proposer une fonction Rpour cette m´ethode (chapitre 2).

‚ Pr´esenter les diff´erentes notions de fractions attribuables : ind´ependantes et d´ependantes du temps. Utiliser toutes les m´ethodes d’estimation de la survie pr´esent´ees au chapitre 2 afin de calculer les fractions attribuables dans un but pr´edictif (chapitre3).

On peut proposer le sch´ema suivant (figure1) :

Figure1 – Objectifs de la th`ese.

Gestion des donn´ees manquantes notamment

des causes de d´ec`es.

Unification des survies nette et brute, sp´ecifiques ou non.

Notion de fractions attribuables d´ependantes

du temps.

Part de la survie imputable `a une ou plusieurs covariables.

Survies sp´ecifiques ou non avec censure informative

ou non.

(15)

14 Introduction

Structure de la th`ese

Ce travail de th`ese est donc compos´e de trois grandes parties : la gestion des donn´ees man- quantes, l’analyse de survie et les fractions attribuables. Tout d’abord, nous pr´esentons la base de donn´ees de cancer de la prostate utilis´ee.

L’objectif principal de cette th`ese concerne les m´ethodes d’analyses de survie. Cependant, afin de pouvoir consid´erer et surtout appliquer les m´ethodes de survie n´ecessitant les causes de d´ec`es, nous devons dans un premier temps utiliser l’imputation multiple. En effet, l’imputation multiple est la premi`ere ´etape de l’analyse de notre base de donn´ees. Ainsi, mˆeme si pour la validation de notre mod`ele d’imputation multiple nous aurons besoin d’appliquer une m´ethode de survie sp´ecifique, nous choisissons de consid´erer les m´ethodes de gestion des manquantes et l’application de l’imputation multiple sur notre base de donn´ees dans le chapitre1, et de r´ef´erer au chapitre 2lors de l’analyse de sensibilit´e qui valide le mod`ele d’imputation.

Plus pr´ecis´ement, dans le chapitre 1 concernant les m´ethodes de gestion de donn´ees man- quantes, nous faisons une revue de toutes les m´ethodes disponibles, puis pr´esentons en d´etails l’imputation multiple en th´eorie et en pratique. Dans notre cas, nous allons estimer des survies apr`es l’imputation multiple, nous avons donc pr´esent´e les formules pour combiner les survies, puis nous avons mis en oeuvre l’imputation multiple sur notre base de donn´ees.

Le chapitre 2 traite de toutes les m´ethodes d’analyse de survie. Dans un premier temps, nous d´efinissons pr´ecis´ement les notions de survies brutes et nettes, dans le cas d’une seule cause de d´ec`es parmi les autres ou de toutes les causes de d´ec`es consid´er´ees en une seule. Puis, nous pr´esentons les mod`eles de survie classiques, de risques comp´etitifs, des temps latents, de survie relative. Nous pr´esentons aussi un mod`ele qui prend en compte la censure informative sans avoir besoin des causes de d´ec`es, et nous proposons d’utiliser une m´ethode sp´ecifique (avec connaissance des causes de d´ec`es) qui prend en compte la censure informative (par d´ec`es d’autres causes et classique). Nous appliquons toutes ces m´ethodes `a notre base avec donn´ees imput´ees et comparons les r´esultats obtenus. Nous discutons des int´erˆets et des limites de chacune d’entre elles en pratique clinique.

Enfin, dans le chapitre3, nous pr´esentons les notions de fractions attribuables ind´ependantes du temps et d´ependantes du temps avec intervention au temps 0 ou `a un tempsτ quelconque. Les fractions attribuables d´ependantes du temps s’expriment en fonction de la survie, nous estimons donc les fractions attribuables avec toutes les m´ethodes propos´ees et comparons les r´esultats obtenus afin d’appliquer les fractions attribuables dans un but pr´edictif.

(16)

Pr´ esentation de la base de donn´ ees ERSPC

Etude ERSPC

L’´etude European Randomized Study of Screening for Prostate Cancer (ERSPC) est une

´etude europ´eenne sur le d´epistage du cancer de la prostate. Cette ´etude a ´et´e men´ee dans 8 pays europ´eens : Belgique, Finlande, France, Italie, Pays-Bas, Espagne, Su`ede et Suisse et `a commenc´ee en 1994 [Jegu et al., 2009]. Son objectif principal ´etait d’´etudier si le d´epistage du cancer de la prostate par un dosage s´erique du PSA (antig`ene prostatique sp´ecifique) pouvait r´eduire la mortalit´e d’au moins 20%.

En France, ce n’est qu’en 2001 que l’´etude a d´ebut´e, suite `a une d´ecision de l’Association Fran¸caise d’Urologie (AFU). Les hommes fran¸cais inclus dans l’ERSPC ´etaient ˆag´es de 55 `a 69 ans, sans cancer de la prostate avant l’inclusion et r´esidant dans les d´epartements du Tarn et de l’H´erault couverts par un registre des cancers avec enquˆete permanente d’incidence [Jegu et al., 2009]. Ces patients ont ´et´e s´electionn´es `a partir de la liste d’assurance maladie des d´epartements, puis ont ´et´e randomis´es dans deux bras : les d´epist´es et les t´emoins.

Ceux affect´es au bras d´epist´e ont ´et´e invit´es `a participer `a l’´etude et ont re¸cu un formulaire de consentement qu’ils devaient signer et renvoyer. Ensuite, ils ont re¸cu une convocation pour faire un pr´el`evement sanguin, puis le dosage du PSA ´etait centralis´e et effectu´e dans un seul laboratoire, et de fa¸con identique pour les 8 pays de l’´etude. Si le dosage du PSA ´etait sup´erieur

`a 3 ng/ml, il ´etait recommand´e au patient d’effectuer une biopsie prostatique. Ceux n’ayant pas fait le dosage du PSA ´etaient relanc´es par courrier puis par t´el´ephone par le biais de leur m´edecin traitant [Jegu et al.,2009]. Un deuxi`eme tour `a ´et´e effectu´e entre 2008 et 2010.

Les deux bras d´epist´es et t´emoins sont suivis par les registres de cancers, qui peuvent d´eter- miner les patients chez qui un cancer de la prostate `a ´et´e diagnostiqu´e `a partir d’un croisement de la base de donn´ees de l’ERSPC avec celles des registres. Plus de d´etails sur le protocole de l’´etude fran¸caise ERSPC sont disponibles dans Schr¨oder et al.[2003].

Base ERSPC utilis´ ee

La base utilis´ee dans cette th`ese est issue de la cohorte ERSPC et se compose de 2844 patients atteints de cancer de la prostate et r´esidant dans l’H´erault (34). Ces patients ont ´et´e diagnostiqu´es entre le 29/07/2003 et le 28/12/2011. Ils sont ˆag´es de 56 `a 78 ans, avec une moyenne de 67 ans et demi.

322 patients sont d´ec´ed´es entre le 14/11/2004 et le 23/06/2013.

Les variables cliniques ont ´et´e compl´et´ees par le registre des cancers de l’H´erault et les causes de d´ec`es par la cohorte ERSPC.

La date de point est le 30/06/2013. A cette date, le statut vital ainsi que la date de d´ec`es des 2844 patients ont ´et´e obtenu par le R´epertoire d’Identification des Personnes Physiques

15

(17)

16 Pr´esentation de la base de donn´ees ERSPC

(RNIPP).

Pour les personnes qui sont d´ec´ed´ees, la cause de d´ec`es a ´et´e obtenue par le Centre d’Epi- d´emiologie sur les causes m´edicales de d´ec`es (C´epiDC). Cette requˆete a ´et´e effectu´ee pour les patients d´ec´ed´es jusqu’au 31 D´ecembre 2010. Pour les patients d´ec´ed´es entre le 31 d´ecembre 2010 et la date de point, la demande n’a pas encore ´et´e faite.

Variables

Causes de d´ec`es

Nous disposons des codes du C´epiDC pour la moiti´e des patients d´ec´ed´es (161 individus), qui d´esignent la cause principale du d´ec`es pour chaque individu. Le code ”C61” d´esigne les patients d´ec´ed´es du cancer de la prostate. Nous savons ´egalement si le cancer de la prostate est mentionn´e dans la partie 1 du certificat de d´ec`es. La partie 1 correspond aux ”Maladies ou affections morbides ayant directement provoqu´e le d´ec`es”.

Nous avons donc consid´er´e comme ´etant d´ec´ed´es du cancer de la prostate, les individus ayant le code ”C61” (53 individus), et ceux ayant un cancer de la prostate mentionn´e dans la partie 1 du certificat de d´ec`es (2 individus ayant comme cause principale de d´ec`es le code ”C97” qui d´esigne les tumeurs malignes de si`eges multiples ind´ependants.).

Cette variable est cod´ee :

‚ D´ec`es autres causes : 106 individus

‚ D´ec`es cancer de la prostate : 55 individus

‚ Valeurs absentes : 161 Age au diagnostic

Age=(Date de diagnostic du cancer - Date de naissance)/365.25.

L’ˆage est consid´er´e comme continu ou comme cat´egorique. La r´epartition par classe est :

‚ 56 ďˆageď70 : 1931 individus

‚ 70 <ˆageď79 : 913 individus

Pour la variable ˆage, nous n’avons pas de valeurs absentes.

Taux de PSA au diagnostic et apr`es traitement

Comme leurs noms l’indiquent, ces deux variables sont le taux de PSA au diagnostic du cancer de la prostate et le taux de PSA apr`es traitement. Toutes les deux sont exprim´ees en ng/l.

En moyenne le taux de PSA ´etait de 23.61 ng/ml au diagnostic du cancer de la prostate, et de 1.66 ng/ml apr`es traitement.

Dans la suite, ces deux variables seront consid´er´ees comme continues ou cat´egoriques.

Pour le taux de PSA au diagnostic (diag.), nous consid´erons soit les classes : 0-10 et 10-max soit 0-20 et 20-max telles que :

‚ 0ď PSA diag.ď 10 : 1952 patients

‚ 10 <PSA diag. ď4377 : 715 patients

‚ Valeurs absentes : 177

‚ 0ďPSA diag. ď 20 : 2424 patients

‚ 20 <PSA diag. ď4377 : 243 patients

‚ Valeurs absentes : 177

Pour le taux de PSA apr`es traitement, not´e ”PSA post” nous consid´erons les classes : 0-3 et 3-max, telles que :

‚ 0ď PSA post< 3 : 1920 individus

‚ 3ď PSA postď 1090 : 154 individus

‚ Valeurs absentes : 770

(18)

Stades cliniques T,N et M

Il s’agit des stades cliniques de la tumeur [Salomon et al.,2010], obtenus par un touch´e rectal ou une biopsie.

Stade cT : Tumeur primitive

– 1 : tumeur non palpable au touch´e rectal ou non visible en imagerie – 1a : tumeur occupant moins de 5% du tissu r´es´equ´e

– 1b : tumeur occupant plus de 5% du tissu r´es´equ´e

– 1c : tumeur d´ecouverte sur une biopsie prostatique en raison d’une ´el´evation du taux PSA.

– 2 : tumeur limit´ee `a la prostate

– 2a : tumeur atteignant la moiti´e d’un lobe ou moins

– 2b : tumeur atteignant plus de la moiti´e d’un lobe mais sans atteindre les deux lobes – 2c : tumeur atteignant les deux lobes

– 3 : extension au del`a de la capsule

– 3a : extension extra-capsulaire uni- ou bilat´erale

– 3b : extension aux v´esicules s´eminales uni- ou bilat´erale

– 4 : tumeur fix´ee ou atteignant d’autres structures que les v´esicules s´eminales (sphincter externe, rectum, muscles releveurs de l’anus ou paroi pelvienne).

Dans un premier temps (pour le mod`ele d’imputation du chapitre 1), nous avons consid´er´e la variable cT cod´ee comme ceci :

‚ 1abc (cT=1,1a,1b ou 1c) : 1430 individus

‚ 2a (cT=2 ou 2a) : 243 individus

‚ 2b : 147 individus

‚ 2c : 212 individus

‚ 3-4 (cT=3, 3a 3b ou 4) : 223 individus

‚ Valeurs absentes : 589

Puis afin d’avoir des effectifs raisonnables dans chaque classe (pour les analyses de survie des chapitres 2 et3), nous consid´erons la variable cT cod´ee comme :

‚ 1abc : 1430 individus

‚ 2abc : 602 individus

‚ 3-4 : 223 individus

Stade cN : Ganglions r´egionaux

‚ 0 (absence de m´etastase ganglionnaire r´egionale) : 978 individus

‚ 1 (atteinte ganglionnaire r´egionale) : 51 individus

‚ Valeurs absentes : 1815

Stade cM : M´etastases `a distance

‚ 0 (absence de m´etastase `a distance) : 2355 individus

‚ 1 (m´etastases `a distance) : 103 individus

‚ Valeurs absentes : 386 Premier Traitement

Cette variable d´ecrit la nature du premier traitement administr´e aux patients, qui peut ˆetre : – Ultrasons focalis´es

– Chimioth´erapie – Surveillance – Hormonoth´erapie – Radioth´erapie

(19)

18 Pr´esentation de la base de donn´ees ERSPC

– Chirurgie

Dans le but d’obtenir des groupes de patients homog`enes ayant le mˆeme niveau de risque, nous avons cod´e la variable premier traitement en :

‚ Chirurgie : 1521 individus

‚ Radioth´erapie : 467 individus

‚ Surveillance + ultrasons focalis´es : 111 individus

‚ Hormonoth´erapie + Chimioth´erapie : 453 individus

‚ Valeurs absentes : 292

Stades pathologiques T, N et M

Ce sont les stades pathologiques de la tumeur, pT et pN sont disponibles si et seulement s’il y a eu de la chirurgie comme traitement et pM est disponible si et seulement si il y a eu une biopsie.

Dans notre base de donn´ees, puisque nous avons tr`es peu de biopsies, nous consid´erons pM=cM.

Les valeurs du stade pT sont d´efinies par : – 2 : Tumeur limit´ee `a la prostate

– 2a : tumeur limit´ee `a un demi-lobe ou moins

– 2b : tumeur unilat´erale avec atteinte de plus d’un demi-lobe, mais pas des deux lobes – 2c : tumeur bilat´erale

– 3 : extension extra-prostatique

– 3a : extension extra-prostatique uni ou bilat´erale incluant le col v´esical – 3b : envahissement des v´esicules s´eminales uni ou bilat´erale

– 4 : envahissement d’autres structures que les v´esicules s´eminales (sphincter externe, rec- tum, muscles releveurs de l’anus ou paroi pelvienne)

Nous avons cod´e la variable pT en :

‚ 2a (cT=2 ou 2a) : 280 individus

‚ 2b : 314 individus

‚ 2c : 619 individus

‚ 3-4 (cT=3, 3a 3b ou 4) : 229 individus

‚ Valeurs absentes : 1402 Stade pN : Ganglions r´egionaux

‚ 0 (absence de m´etastase ganglionnaire r´egionale) : 891 individus

‚ 1 (atteinte ganglionnaire r´egionale) : 42 individus

‚ Valeurs absentes : 1911 Cr´eation des variables T et N

Puisque les stades pathologiques T et N ne sont disponibles que s’il y a eu une chirurgie, nous avons cr´e´e 2 nouvelles variables appel´ees T et N. Ce sont des combinaisons des variables cliniques et pathologiques.

Voici comment la variable T est cr´e´ee, la variable N est construite de la mˆeme fa¸con : – T=pT si et seulement si premier traitement = chirurgie

– T=cT si et seulement si premier traitement ‰chirurgie

On ne consid`ere pas T=pT s’il y a eu de la chirurgie en traitement 2 ou 3 puisque le premier traitement aura r´eduit la taille de la tumeur.

On obtient les cat´egories et les effectifs suivants pour la variable T :

(20)

‚ 1abc : 512 patients

‚ 2a : 387 patients

‚ 2b : 378 patients

‚ 2c : 739 patients

‚ 3-4 : 413 patients

‚ Valeurs absentes : 415

Nous cat´egorisons la variable T (pour les analyses de survie des chapitres 2 et 3) de cette fa¸con :

‚ 1abc-2abc : 2016 individus

‚ 3-4 : 413 individus

La r´epartition de la nouvelle variable N est donn´ee par :

‚ 0 (absence de m´etastase ganglionnaire r´egionale) : 1235 individus

‚ 1 (atteinte ganglionnaire r´egionale) : 81 individus

‚ Valeurs absentes : 1528 individus Gleason

Le score de Gleason `a ´et´e cr´e´e en 1966 et red´efini en 2005, il est utilis´e pour ´evaluer le pronostic du cancer de la prostate. Le score de Gleason est obtenu `a partir d’une biopsie, en additionnant deux grades de Gleason les plus repr´esent´es de deux cellules. Le grade de Gleason est le degr´e de diff´erenciation de la tumeur, allant du grade 1 `a 5, ainsi le score de Gleason est cot´e de 2 `a 10.

Dans un premier temps (pour le mod`ele d’imputation du chapitre 1), nous avons consid´er´e la variable Gleason cod´ee comme :

‚ 2 `a 5 : 79 individus

‚ 6 : 1314 individus

‚ 7 : 1150 individus

‚ 8 `a 10 : 223 individus

‚ Valeurs absentes : 78

Puis, pour les analyses de survie des chapitres 2 et3, nous avons cat´egoriser la variable de deux fa¸cons possible :

‚ 2-7 : 2543 patients

‚ 8-10 : 223 patients

‚ 2-6 : 1393 patients

‚ 7-10 : 1373 patients Classification de d’Amico g´en´eralis´ee

La classification de d’Amico [D’Amico et al., 1998] permet de d´efinir la gravit´e d’´evolution des cancers de la prostate localis´es (ie ayant un stade clinique inf´erieur ou ´egal `a 2c) :

– Risque faible : PSA diag.< `a 10ng/mletscore de Gleason <`a 6et cTď2a

– Risque interm´ediaire : PSA diag. entre 10 et 20 ng/mlouscore de Gleason = 7oucT=2b – Risque ´elev´e : PSA diag.>20 ng/ml ouscore de Gleason >7oucT = 2c

Dans la classification g´en´eralis´ee, nous prenons en plus en compte les cancers localement avanc´es, c’est-`a-dire ayant un stade clinique cT = 3a, 3b ou 4. Nous tenons ´egalement compte de la pr´esence ou non de ganglions et de m´etastases `a distance (N` et M` si N=1 ou M=1).

La variable de d’Amico g´en´eralis´ee est cod´ee de cette fa¸con :

‚ Risque faible : 800 individus

‚ Risque interm´ediaire : 1136 individus

(21)

20 Pr´esentation de la base de donn´ees ERSPC

‚ Risque ´elev´e : 412 individus

‚ Risque localement avanc´e : 71 individus

‚ N` ou M` : 134 individus

‚ Valeurs absentes : 291

Afin de r´eduire le nombre de cat´egories pour les analyses de survie des chapitres2et3, nous consid´erons les nouvelles classes suivantes :

‚ d’Amico I (risque faible et interm´ediaire) : 1936 individus

‚ d’Amico II (risque ´elev´e et localement avanc´e) : 483 individus

‚ d’Amico III (N` ou M`) : 134 individus Temps de suivi

Date de point´date de diagnostic avec : – Date de point = Date de d´ec`es si d´ec`es

– Date de point = Date de derni`ere nouvelle si patient perdu de vue – Date de point = 30/06/2013 sinon

Remarque : 46 patients avaient un temps de suivi de 0 jours, car ils ont ´et´e perdus de vue depuis leur date de diagnostic. Nous les avons exclus de l’´etude.

La dur´ee moyenne de suivi des patients est de presque 5 ans (4 ans, 11 mois et 26 jours) et la moiti´e des patients `a ´et´e suivie au moins 5 ans et 26 jours. Le temps de suivi le plus court est de 1 jour et le plus long est de 9 ans, 11 mois et 1 jour.

(22)

Tableau r´ ecapitulatif

Le tableau3 ci-dessous propose un r´ecapitulatif des variables de la base ERSPC.

Tableau3: Distribution des variables.

Total (N=2844) Nombre de

patients %

Ageď70 ans 1931 68

ą70 ans 913 32

PSA diag.ď10 1952 69

10<PSAď20 472 17

ą20 243 8

Manquant 177 6

cT 1abc 1430 50

2a 243 9

2b 147 5

2c 212 7

3–4 223 8

Manquant 589 21

cN 0 978 34

1 51 2

Manquant 1815 64

cM 0 2355 82

1 103 4

Manquant 386 14

Premier trait. Chirurgie 1521 53

Radioth´erapie 467 16

Surv.+ultrasons 111 5

Hormono.+chimio. 453 16

Manquant 292 10

Gleason 2-6 1393 49

7 1150 40

8-10 223 8

Manquant 78 3

d’Amico g´en´eralis´e I 1936 68

II 483 17

III 134 5

Manquant 291 10

T 1abc 512 18

2a 387 14

2b 378 13

2c 739 26

3–4 413 14

Manquant 415 15

N 0 1235 43

1 81 3

Manquant 1528 54

PSA post<3 1920 68

ě3 154 5

Manquant 770 27

(23)

Chapitre 1

Les m´ ethodes de gestion des donn´ ees manquantes : l’imputation multiple

1.1 Introduction

L’analyse des donn´ees manquantes est un point essentiel dans l’analyse de donn´ees. Il est quasiment impossible de ne pas avoir de donn´ees manquantes en recherche clinique (patient qui d´em´enage, question `a laquelle le patient ne veut pas r´epondre, perte d’information, etc.). Avant les ann´ees 70, la m´ethode standard pour g´erer les donn´ees manquantes au d´ebut d’une analyse statistique ´etait de supprimer les individus pr´esentant une ou plusieurs variables absentes, ce qui conduisait `a une perte d’informations consid´erable. Ainsi, g´erer les donn´ees manquantes est primordial afin d’extraire des bases le plus d’information possible.

Les premiers `a proposer une m´ethode statistique pour remplacer les valeurs manquantes sont Allan and Wishart [1930]. Ils ont d´evelopp´e deux formules pour estimer la valeur d’une seule observation manquante, et ils conseil-laient de remplacer la valeur manquante par cette estimation dans les donn´ees. Afin de corriger les donn´ees, il fallait enlever un degr´e de libert´e dans l’analyse effectu´ee sur cette nouvelle base de donn´ees compl`ete.

Cette m´ethode a ´et´e g´en´eralis´ee pour plusieurs observations manquantes parYates[1933]. Le travail de Yates est `a l’origine de l’algorithme EM (Expectation-Maximization) qui fut propos´e en 1977 parDempster et al.[1977], apr`es plusieurs interm´ediaires.

Le terme ”imputation” n’est utilis´e qu’`a partir de 1983, dans l’ouvrage deMadow et al.[1983]

qui passe en revue les m´ethodes d’imputation. Ce travail est le pr´ed´ecesseur de la premi`ere ´edition de ”Statistical analysis with missing data” deLittle and Rubin [1987], un livre qui pr´esente des m´ethodes bas´ees sur des mod`eles de distribution pour les donn´ees, comme le maximum de vraisemblance et l’imputation de donn´ees manquantes.

Au d´ebut des ann´ees 70, Rubin observa qu’une seule imputation n’´etait pas correcte en g´en´e- ral, et il proposa de cr´eer plusieurs imputations qui refl´eteraient l’incertitude des donn´ees man- quantes. En 1987, il fournit les bases m´ethodologiques et statistiques de l’imputation multiple (IM) [Rubin,1987]. Il donne les formules n´ecessaires (appel´ees r`egles de Rubin) pour combiner en une seule valeur les estimations r´ealis´ees sur les diverses bases de donn´ees compl´et´ees avec les donn´ees imput´ees et il d´ecrit les conditions sous lesquelles l’inf´erence statistique sous l’im- putation multiple est valide. Mˆeme si quelques am´eliorations ont ´et´e propos´ees depuis 1987, cet ouvrage ´etait vraiment en avance sur son temps et il aborde les ´el´ements essentiels de l’imputa- tion moderne [Van Buuren,2012, p. 26].

Dans un premier temps, (sections1.2et1.3) nous pr´esentons les caract´eristiques des donn´ees manquantes (les 3 m´ecanismes de donn´ees manquantes d´ecrits parRubin[1976], la notion d’igno-

22

(24)

rabilit´e et les diff´erentes configurations de donn´ees manquantes), puis nous d´ecrivons bri`evement les m´ethodes alternatives `a l’imputation multiple. Dans les sections 1.4 et 1.5nous pr´esentons l’imputation multiple en th´eorie et en pratique de fa¸con d´etaill´ee. Enfin nous mettons en oeuvre l’imputation multiple sur la base ERSPC d´ecrite pr´ec´edemment, et nous pr´esentons les r´esultats dans la section 1.6.

1.2 Caract´ eristiques des donn´ ees manquantes

Connaitre les raisons de l’absence de certaines donn´ees est la premi`ere ´etape de toute analyse de donn´ees manquantes.

Nous pouvons distinguer deux types de donn´ees manquantes : intentionnelles et non inten- tionnelles. Les donn´ees intentionnelles sont pr´evues par l’enquˆeteur, elles peuvent se produire

`

a cause du d´eroulement des questions de l’enquˆete (par exemple : question 1 : oui ou non, si oui question 2, si non question 3), ou `a cause de l’exclusion de certaines unit´es de l’´echantillon.

Les donn´ees non intentionnelles ne sont pas sous le contrˆole de l’enquˆeteur et peuvent avoir de multiples raisons. Par exemple, le sujet a saut´e une question en r´epondant `a un questionnaire, il a abandonn´e l’´etude avant la fin du suivi, ou encore il a ´et´e ´echantillonn´e mais a ensuite refus´e de participer `a l’´etude. Il peut ´egalement y avoir des probl`emes dans la transmission ou dans la saisie des donn´ees. Ceci nous dit pourquoi les informations sont manquantes.

Par ailleurs, nous pouvons d´eterminer la quantit´e d’information manquante en distinguant les non r´eponses ponctuelles ou totales, qui se produisent si le patient a respectivement saut´e une question ou refus´e de participer `a l’´etude. Historiquement, les non r´eponses totales ´etaient plutˆot abord´ees par des m´ethodes pond´er´ees tandis que les non r´eponses partielles ´etaient abord´ees par des techniques de v´erification et d’imputation [Van Buuren,2012, p. 29].

1.2.1 Notations

Les notations utilis´ees dans cette th`ese sont celles deVan Buuren [2012], elles sont proches de celles de Rubin[1987] etSchafer [1997].

Soit Y une matricenˆp contenant les valeurs des p variables pour tous les nindividus de l’´echantillon.

SoitR l’indicatrice de r´eponse, c’est `a dire une matricenˆpde 0 et de 1.

Les ´el´ements deY et de R sont d´esign´es par yij et rij, o`ui“1, . . . , n etj“1, . . . , p.

Siyij est observ´e alors rij “1.

Siyij est absent alorsrij “0.

Les donn´ees observ´ees sont d´esign´ees par Yobs et les donn´ees manquantes par Ymis. Ainsi, Y “ pYobs, Ymisqcontient toutes les valeurs des donn´ees. Cependant, les valeurs de la partieYmis

nous sont inconnues, elles sont indiqu´ees par R.

SiY “Yobs (c’est-`a-dire que l’´echantillon est compl`etement observ´e) et si nous connaissons le m´ecanisme de cr´eation de l’´echantillon, alors il est possible de faire une estimation valide des quantit´es statistiques d’int´erˆet (survie sp´ecifique par exemple).

Chaque individu de l’´echantillon repr´esente une ligne deY. Si aucune donn´ee n’a ´et´e obtenue pour l’individu i (non r´eponse totale), l`a i-i`eme ligne de Y contiendra uniquement le num´ero de cet individu et ´eventuellement des donn´ees administratives, les autres variables seront toutes absentes.

1.2.2 M´ecanisme des donn´ees manquantes : MCAR, MAR et MNAR

Rubin [1976] a class´e les probl`emes de donn´ees manquantes en 3 cat´egories. Dans cette

(25)

24 Section 1.2 – Caract´eristiques des donn´ees manquantes

th´eorie, chaque point de donn´ees a une probabilit´e d’ˆetre absente. Le processus qui r´egit ces probabilit´es est appel´e m´ecanisme de donn´ees manquantes ou m´ecanisme de non r´eponse.

La matrice R stocke les emplacements des donn´ees manquantes de Y. La distribution deR peut d´ependre de Y “ pYobs, Ymisq soit de part sa conception, soit de fa¸con fortuite, et cette relation est d´ecrite par le mod`ele des donn´ees manquantes.

Soit ψcontenant les param`etres du mod`ele des donn´ees manquantes alors l’expression g´en´e- rale du mod`ele des donn´ees manquantes est

PpR|Yobs, Ymis, ψq

Les donn´ees sont dites MCAR (Missing Completely At Random) si : PpR “0|Yobs, Ymis, ψq “PpR“0|ψq

C’est-`a-dire que la probabilit´e d’avoir une observation yij absente ne d´epend pas des don- n´ees Y mais d´epend uniquement de certains param`etres ψ. Ceci implique que les causes des donn´ees manquantes ne sont pas reli´ees aux donn´ees. Nous pouvons par cons´equent ignorer les nombreuses complexit´es qui d´ecoulent des donn´ees manquantes, en dehors de la perte ´evidente d’information. Un exemple de donn´ees MCAR est un dosage pour lequel les donn´ees absentes correspondent `a une panne de mat´eriel. Bien que pratique, MCAR est souvent irr´ealiste.

Les donn´ees sont dites MAR (Missing At Random) si :

PpR“0|Yobs, Ymis, ψq “PpR “0|Yobs, ψq

C’est-`a-dire que la probabilit´e des donn´ees manquantes peut d´ependre de l’information ob- serv´ee, y compris des facteurs de conception. Cette probabilit´e est la mˆeme que dans les groupes d´efinis par les donn´ees observ´ees. Par exemple, si `a partir d’un certain temps on a des donn´ees manquantes de mani`eres al´eatoire, alors les donn´ees sont MAR. MAR est beaucoup plus large que MCAR, elle est plus g´en´erale et plus r´ealiste que MCAR. Les m´ethodes modernes de donn´ees manquantes commencent g´en´eralement par une hypoth`ese MAR.

Les donn´ees sont dites MNAR (Missing Not At Random) si : PpR“0|Yobs, Ymis, ψq ne se simplifie pas

C’est-`a-dire que la probabilit´e d’ˆetre absent d´epend aussi de l’information non observ´ee, y comprisYmis et elle varie pour des raisons qui nous sont inconnues. Par exemple, si les donn´ees absentes d´ependent de la personne qui les r´ecolte et que cette personne change au cours du temps sans que nous ayons l’information de ce changement, nous obtenons des donn´ees MNAR.

MNAR est le cas le plus complexe, les strat´egies pour traiter les cas MNAR sont de trouver plus de donn´ees sur les causes de l’absence, ou d’effectuer une analyse de sensibilit´e, voir section 1.5.2.3 page55.

Les techniques simples fonctionnent habituellement seulement sous MCAR, mais cette hy- poth`ese est tr`es restrictive et souvent irr´ealiste.

Plusieurs tests ont ´et´e propos´es pour tester MCAR vs MAR. Ces tests ne sont pas largement utilis´es et leur valeur pratique n’est pas claire. Enders [2010] propose deux proc´edures, voir section 1.5.1.1 page 51 pour plus de d´etails. Notez qu’il n’est pas possible de tester MAR vs MNAR puisque l’information n´ecessaire pour un tel test est absente.

1.2.3 Ignorable et non ignorable

Les param`etresψn’ont pas de valeur scientifique intrins`eque et sont g´en´eralement inconnus.

Si nous pouvions simplement ignorer ces param`etres, cela simplifierait l’analyse. La distinction

(26)

entre MCAR, MAR et MNAR est tr`es importante puisqu’elle pr´ecise les conditions sous lesquelles nous pouvons estimer les param`etres d’int´erˆet, sans avoir besoin de connaitre ψ [Van Buuren, 2012, p. 33].

Les donn´ees r´eellement observ´ees sont constitu´ees de Yobs et de R. La fonction de densit´e conjointe fpYobs, R|θ, ψqdeYobs et deRd´epend des param`etresθpour les donn´ees compl`etesY et des param`etresψpour l’indicatrice de r´eponseR. Les param`etresθont un int´erˆet scientifique contrairement aux param`etres ψ.

La densit´e conjointe est proportionnelle `a la vraisemblance deθetφ, ie lpθ, φ|yobs, Rq9fpYobs, R|θ, ψq

Ce qui est int´eressant c’est de savoir s’il est possible de d´eterminerθsans connaitre ψ, c’est

`

a dire d´eterminerθ en ignorant le m´ecanisme qui cr´ee les valeurs absentes.

La r´eponse est donn´ee parLittle and Rubin [2002] :

Le m´ecanisme des donn´ees manquantes estignorable pour l’inf´erence probabiliste si : 1. MAR : les donn´ees manquantes sont Missing At Random

2. Distinction : les param`etres θ etψ sont distincts, c’est-`a-dire que l’espace des param`etres joints (ψ,θ) est le produit de l’espace des param`etresψ et de l’espace des param`etres θ.

La condition MAR est g´en´eralement consid´er´ee comme la condition la plus importante.

SelonSchafer[1997], dans beaucoup de situations, la condition sur les param`etres est ”intui- tivement raisonnable, sachant queθfournira peu d’informations surψet vice-versa”. Il faut juste faire attention aux situations o`u l’int´erˆet scientifique se concentre sur le processus de donn´ees manquantes lui-mˆeme.

Pour des fins pratiques, le mod`ele de donn´ees manquantes est dit ˆetreignorablesi l’hypoth`ese MAR tient.

1.2.4 Configuration des donn´ees manquantes

La configuration des donn´ees manquantes peut ˆetre class´ee en 3 cat´egories, illustr´ees dans la figure 1.1.

Figure 1.1 – Configuration des donn´ees manquantes. Les cases en gris clair repr´esentent les donn´ees manquantes.

Univari´ee Monotone Arbitraire

1.2.4.1 Univari´ee

Les donn´ees manquantes sont dites univari´ees si une seule variable poss`ede des donn´ees absentes. Ce cas est rarement observ´e en pratique.

(27)

26 Section 1.3 – Les m´ethodes dites simples

1.2.4.2 Monotone

Les donn´ees manquantes sont dites monotones si les variables peuvent ˆetre ordonn´ees en fonction de leur donn´ees absentes. On consid`ere Y une matricenˆp comme d´efinie pr´ec´edem- ment. Les variablesY1, .., Yp ont une structure monotone siYj est manquante pour un individu i, i “ 1, . . . , n alors toutes les variables suivantes Yk pour k ą j sont absentes pour ce mˆeme individu.

1.2.4.3 Non monotone ou arbitraire

Les donn´ees manquantes sont dites arbitraires si il n’y a pas de structures dans les donn´ees manquantes. C’est-`a-dire que les donn´ees manquantes sont r´eparties uniform´ement dans le jeu de donn´ees.

1.2.5 Flux entrant et sortant

Les configurations des donn´ees manquantes d´ecrites dans la section pr´ec´edente influencent la quantit´e d’information qui peut ˆetre transf´er´ee entre les variables. L’imputation peut ˆetre plus pr´ecise si d’autres variables sont non manquantes pour les cas qui sont `a imputer. La r´eciproque est aussi vraie. Les pr´edicteurs sont potentiellement plus puissants s’ils ont des valeurs observ´ees dans les lignes qui ont beaucoup de valeurs absentes. Cette partie pr´esente deux mesures qui permettent de savoir comment chaque variable se connecte aux autres : le flux entrant et le flux sortant.

Le coefficient de flux entrant Ij est d´efini parVan Buuren [2012, p. 99] : Ij

řp j

řp k

řn

ip1´rijqrik řp

k

řn i rik

(1.1) Le coefficient est ´egal au nombre de variables paires pYj, Ykq avec Yj manquant et Yk ob- serv´e, divis´e par le nombre total de cellules de donn´ees observ´ees. La valeur deIj d´epend de la proportion de donn´ees manquantes de la variable. Le flux entrant d’une variable compl`etement observ´ee est ´egal `a 0, tandis que pour une variable totalement absente il est ´egal `a 1. Pour deux variables avec la mˆeme proportion de donn´ees manquantes, la variable avec le flux entrant le plus ´elev´e est mieux connect´ee aux donn´es observ´ees, et ainsi pourrait ˆetre plus facile `a imputer.

Le coefficient de flux sortant Oj est d´efini de fa¸con analogue parVan Buuren [2012, p. 99] : Oj

řp j

řp k

řn

i rijp1´rikq řp

k

řn i 1´rij

(1.2) La quantit´e Oj est le nombre de variables paires avec Yj observ´e et Yk manquant, divis´e par le nombre total de cellules de donn´ees incompl`etes. Le flux sortant est un indicateur de l’utilit´e potentielle deYj pour imputer d’autres variables, il d´epend de la proportion de donn´ees manquantes de la variable. Le flux sortant d’une variable compl`etement observ´ee sera ´egal `a 1 tandis que celui d’une variable compl`etement manquante est ´egale `a 0. Pour deux variables ayant la mˆeme proportion de donn´ees manquantes, la variable avec le flux entrant le plus ´elev´e est mieux connect´ee aux donn´ees absentes, et ainsi est susceptible d’ˆetre plus utile pour imputer les autres variables.

1.3 Les m´ ethodes dites simples

Le domaine de la recherche sur les donn´ees manquantes est vaste. Cette th`ese se concentre sur l’imputation multiple et ne cherche pas `a couvrir la litt´erature sur les autres approches de donn´ees

Références

Documents relatifs

Ces derniers, à l’occasion de tensions localisées ou dans des démarches au long cours, interviennent dans l’aménagement de leur cadre de vie comme dans les modes de

L’iconique se présente aussi comme un commentaire postérieur à l’œuvre, comme sa paraphrase ou son contresens parfois, sous forme d’illustrations, couvertures illustrées

On peut lancer assez de rayons afin d’obtenir une discr´etisation de la surface ´eclair´ee du mˆeme ordre que dans le cadre d’un calcul en m´ethode int´egrale.. Lors de calculs

Pour répondre à cette problématique, la solution proposée dans le cadre de cette thèse consiste à mettre en place un système interactif proposant à l'utilisateur diérents

Figure 5-5 : Comparaison des EISF déduits de l’analyse phénoménologique des spectres à 100µeV moyenné sur les trois températures (croix) à ceux attendus en

A titre d’illustration, nous allons exposer la r´ ` eponse de l’atome unique pour l’harmonique 35 g´ en´ er´ ee dans le n´ eon (calcul´ ee dans le cadre de l’approximation

Dans le cas o` u G est un groupe de Baire ab´ elien et A une alg` ebre de Banach, nous obtenons ` a l’aide du th´ eor` eme du graphe ferm´ e et du th´ eor` eme de Gelfand un r´

Proceedings of the American Mathematical Society, to appear. Linear forms in the logarithms of algebraic numbers I. Linear forms in the logarithms of algebraic numbers II. Linear