The DART-Europe E-theses Portal

(1)

HAL Id: tel-01408070

https://tel.archives-ouvertes.fr/tel-01408070

Submitted on 3 Dec 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application

aux décès par cancer de la prostate

Adeline Morisot

To cite this version:

Adeline Morisot. Méthodes d’analyse de survie, valeurs manquantes et fractions attribuables temps dépendantes : application aux décès par cancer de la prostate. Médecine humaine et pathologie.

Université Montpellier, 2015. Français. �NNT : 2015MONTT010�. �tel-01408070�

(2)

Sp´ecialit´e : Biostatistique

Préparée au sein de l’unité de recherche EA 2415 :

Laboratoire de Biostatistique, d’Epidémiologie et de Santé Publique Et de l’école doctorale n°166 : Information, Structures, Systèmes (I2S)

Pr´esent´ee et soutenue publiquement par :

Adeline Morisot

Le 2 D´ecembre 2015

Directeur de thèse : Jean-Pierre Daurès Co-directeur de thèse : Paul Landais

M´ ethodes d’analyse de survie, valeurs manquantes et fractions attribuables temps d´ ependantes : application aux d´ ec` es par cancer de

la prostate.

Jury compos´e de :

Christophe COMBESCURE Privat Docent Hˆopitaux Universitaires de Gen`eve Rapporteur

Yohann FOUCHER MCU Universit´e de Nantes Rapporteur

Christine LASSET PU–PH Université Claude Bernard Lyon 1 Examinateur Christian PRADIER PU–PH Université de Nice Sophia Antipolis Président du jury

Jean-Pierre DAUR`ES PU–PH Universit´e de Montpellier Directeur

Paul LANDAIS PU–PH Universit´e de Montpellier Co-directeur

Institut Universitaire de Recherche Clinique (IURC) 641, avenue de doyen Gaston Giraud

34093 Montpellier Cedex 5

(3)

Remerciements

Je tiens à exprimer mes sincères et profonds remerciements à monsieur le Professeur Jean- Pierre Daurès, mon directeur de thèse. Je vous remercie pour votre disponibilité, vos conseils, votre confiance, votre rigueur et votre soutien durant ces 3 années et demie. Ce fût un immense honneur et un plaisir de mener cette thèse à vos cotés. Nos échanges fructueux et chaleureux vont beaucoup me manquer.

Je remercie aussi le Professeur Paul Landais, mon co-directeur de thèse, pour son aide pré- cieuse tout au long de cette thèse. Je vous remercie particulièrement pour la rédaction des articles, des posters et de ce manuscrit, ainsi que pour votre confiance, votre écoute et vos encouragements.

Je tiens à remercier vivement les membres du jury : M. Yohann Foucher et M. Christophe Combescure pour avoir accepté d’être les rapporteurs de ce travail et pour leurs remarques perti- nentes qui ont contribué à l’amélioration de ce manuscrit. Je tiens aussi à vivement remercier M.

le professeur Christian Pradier et M^me le professeur Christine Lasset qui ont accept´e d’examiner ma th`ese.

Je voudrais également remercier tout particulièrement Christel Castelli, qui a beaucoup compté pour moi durant ces 4 dernières années, en étant à la fois un guide et un modèle.

Je te remercie pour nos discussions et tes conseils toujours très avisés et très pertinents avant et pendant la thèse. Je te remercie aussi infiniment pour ton aide sur mon premier article. Malgré la distance, j’espère que nous garderons contact, tant sur le plan professionnel que personnel.

Je voudrais également adresser mes remerciements à Fa¨ıza et à Xavier Rébillard pour leur investissement dans ce travail.

Je remercie aussi toute l’équipe de l’Institut Universitaire de Recherche Clinique. Un merci particulier à Séverine et Sandy pour les séances de sport et les repas partagés ensemble, à Sylvie pour votre gentillesse et votre aide ainsi qu’à Yohan pour tes dépannages informatiques, pour ton écoute, tes encouragements et ta bonne humeur.

Je pense également à certaines personnes qui m’ont marquée, comme Imad qui a effectué un stage dans mon bureau et Damien qui m’a beaucoup aidée au début de ma thèse.

Surtout, je souhaiterais remercier de tout mon coeur mes deux coll`egues de th`ese qui ont

égayé et embelli cette dernière année : Pamela et Audrey. Les filles, je n’oublierai jamais les moments passés ensemble, et j’espère qu’il y en aura d’autres, je vous attends sur Nice ! Je remercie aussi Charles, pour ta bonne humeur et tes visites quotidiennes, je regrette de ne pas avoir eu l’occasion de te connaitre vraiment.

Je remercie aussi mes amis. Merci à vous pour tous les bons moments passés ensemble et à venir !

Enfin, mes derniers remerciements sont pour ma famille, j’ai beaucoup de chance de vous avoir avec moi pour ce jour important, je vous aime. Une mention spéciale pour Maman et Philippe, je vous remercie d’avoir lu entièrement ma thèse afin de corriger les fautes d’orthographe ! Et bien

évidemment, mon ultime merci est pour toi, Rémi. Je te remercie d’avoir été un soutien sans faille pour moi pendant ces années de thèse, et j’en profite pour t’exprimer tout mon amour.

2

(4)

Table des mati` eres

Liste des abbr´eviations. . . 7

Liste des symboles. . . 8

Introduction. . . 12

Pr´esentation de la base de donn´ees ERSPC. . . 15

Chapitre 1–Les m´ethodes de gestion des donn´ees manquantes : l’imputation multiple 22 1.1 Introduction . . . 22

1.2 Caract´eristiques des donn´ees manquantes . . . 23

1.2.1 Notations . . . 23

1.2.2 M´ecanisme des donn´ees manquantes : MCAR, MAR et MNAR . . . 23

1.2.3 Ignorable et non ignorable . . . 24

1.2.4 Configuration des donn´ees manquantes . . . 25

1.2.4.1 Univari´ee . . . 25

1.2.4.2 Monotone . . . 26

1.2.4.3 Non monotone ou arbitraire . . . 26

1.2.5 Flux entrant et sortant . . . 26

1.3 Les m´ethodes dites simples . . . 26

1.3.1 Analyse des cas complets (Complete case analysis) . . . 27

1.3.2 Etude des cas disponibles (Pairwise deletion) . . . 27

1.3.3 Procédures de modélisation de la distribution des données manquantes . . 28

1.3.4 Imputation par la moyenne . . . 28

1.3.5 Imputation par r´egression . . . 29

1.3.6 LOCF et BOCF . . . 29

1.3.7 M´ethode de l’indicatrice . . . 29

1.4 L’imputation multiple en th´eorie . . . 30

1.4.1 Procédure générale . . . 31

1.4.2 Méthodes d’imputation multiple pour données univariées . . . 32

1.4.2.1 Régression linéaire bayésienne . . . 32

1.4.2.2 Predictive mean matching (PMM) . . . 33

1.4.2.3 Variables qualitatives . . . 34

1.4.2.4 R´esum´e . . . 35

1.4.3 Algorithmes d’imputation multiple pour donn´ees multivari´ees . . . 35

1.4.3.1 Imputation des donn´ees monotones . . . 35

1.4.3.2 Mod´elisation conjointe (Joint Modeling (JM)) . . . 36

(5)

4 Table des mati`eres

1.4.3.3 Sp´ecification conditionnelle enti`ere (Fully Conditional Specifica-

tion (FCS)) . . . 39

1.4.3.4 Comparaison entre FCS et JM . . . 41

1.4.4 Combinaison des estimations . . . 42

1.4.4.1 Les r`egles de Rubin . . . 42

1.4.4.2 Formules proposées : Règles de Rubin après une transformation log-log complémentaire . . . 44

1.4.5 Propri´et´es de l’IM . . . 45

1.4.5.1 Les raisons de l’utilisation de l’IM . . . 45

1.4.5.2 But de l’IM . . . 46

1.4.5.3 Imputation appropri´ee . . . 46

1.4.5.4 Fraction d’information manquante (FIM) . . . 47

1.4.6 Choix du nombre m d’imputations . . . 48

1.4.7 Conclusion . . . 49

1.5 L’imputation multiple en pratique . . . 50

1.5.1 Avant l’imputation : construction du mod`ele d’imputation . . . 50

1.5.1.1 MAR, MCAR ou MNAR ? . . . 51

1.5.1.2 Choix des m´ethodes univari´ees . . . 52

1.5.1.3 Choix des pr´edicteurs . . . 53

1.5.1.4 Choix des variables d´eriv´ees . . . 53

1.5.1.5 Choix de l’ordre des imputations . . . 53

1.5.2 Après l’imputation : diagnostic, analyse des données imputées et analyse de sensibilité . . . 54

1.5.2.1 Convergence et v´erification des imputations . . . 54

1.5.2.2 Analyse des donn´ees imput´ees . . . 54

1.5.2.3 Analyse de sensibilit´e . . . 55

1.6 Application sur la base ERSPC . . . 55

1.6.1 Hypoth`ese MAR, MNAR ou MCAR ? . . . 56

1.6.2 Construction du mod`ele d’imputation . . . 57

1.6.2.1 Variables du mod`ele d’imputation . . . 57

1.6.2.2 M´ethodes univari´ees . . . 57

1.6.2.3 Choix des pr´edicteurs . . . 59

1.6.2.4 Ordre des imputations . . . 60

1.6.2.5 Nombre d’imputations et d’it´erations . . . 60

1.6.3 Validation du mod`ele d’imputation . . . 60

1.6.4 Analyse de sensibilit´e . . . 62

1.6.5 Pr´ecision sur les imputations . . . 65

1.7 Conclusion . . . 66

Chapitre 2 –L’analyse de survie. . . 68

2.1 Introduction . . . 68

2.2 Notations et notions pr´eliminaires . . . 69

2.2.1 Rappels sur les fonctions de survie . . . 70

2.2.2 Notations en processus de comptage . . . 71

2.3 D´efinitions des survies brutes et nettes . . . 71

2.3.1 Toutes causes de décès en un seul événement . . . 72

2.3.1.1 La survie brute . . . 72

2.3.1.2 La survie nette . . . 72

2.3.2 Une cause de d´ec`es parmi les autres . . . 72

2.3.2.1 La survie brute pour la cause 1 . . . 72

(6)

2.3.2.2 La survie nette pour la cause 1 . . . 73

2.4 Les m´ethodes classiques d’estimation de la survie . . . 74

2.4.1 Mod`eles non param´etriques . . . 74

2.4.1.1 Estimateur de Kaplan-Meier . . . 74

2.4.1.2 Estimateur de Nelson-Aalen . . . 75

2.4.2 Mod`eles param´etriques . . . 75

2.4.2.1 Pr´esentation de quelques lois . . . 75

2.4.2.2 Vraisemblance . . . 76

2.4.3 Estimateur semi-param´etrique de Cox . . . 77

2.4.4 M´ethode IPCW . . . 78

2.4.4.1 Estimateur IPCW de Kaplan-Meier . . . 79

2.5 Les risques compétitifs : modèle multi-états . . . 80

2.5.1 Modèle de risques compétitifs multi-états . . . 81

2.5.2 Fonction de risque cause-sp´ecifique . . . 83

2.5.2.1 D´efinition . . . 83

2.5.2.2 Estimateur non param´etrique de Nelson-Aalen . . . 83

2.5.2.3 Estimation avec un mod`ele `a risques proportionnels . . . 84

2.5.3 Fonction d’incidence cumul´ee . . . 87

2.5.3.1 D´efinition . . . 87

2.5.3.2 Estimateur non param´etrique d’Aalen-Johansen . . . 88

2.5.4 Fonction de risque de sous-r´epartition . . . 88

2.5.4.1 D´efinition . . . 88

2.5.4.2 Comparaison avec les risques cause-sp´ecifiques . . . 90

2.5.4.3 Estimation avec un mod`ele `a risque proportionnel . . . 90

2.6 Les risques comp´etitifs : mod`ele des temps latents . . . 92

2.7 Survie spécifique avec correction IPCW : avec causes de décès . . . 94

2.7.1 La survie nette sp´ecifique . . . 94

2.7.1.1 Estimateur de la survie nette sp´ecifique . . . 94

2.7.1.2 Estimation de la variance . . . 95

2.7.2 Méthode spécifique IPCW proposée . . . 96

2.8 Les méthodes d’estimation dites de survie relative : sans causes de décès . . . 96

2.8.1 D´efinition du rapport de survie relative . . . 97

2.8.2 Estimateur d’Ederer II . . . 98

2.8.3 Estimateurs d’Ederer I et d’Hakulinen . . . 99

2.8.4 Estimateur de Pohar-Perme . . . 99

2.9 R´esum´e . . . 101

2.10 Application . . . 102

2.10.1 Survies classiques pour toutes les causes . . . 102

2.10.2 Risques comp´etitifs multi-´etats . . . 103

2.10.2.1 Analyses bas´ees sur le risque cause-sp´ecifique . . . 103

2.10.2.2 Analyse bas´ee sur le risque de sous-r´epartition . . . 108

2.10.3 Mod`ele des temps latents . . . 111

2.10.4 Survies sp´ecifiques IPCW . . . 111

2.10.5 Survie relative . . . 114

2.11 Conclusion et Discussion . . . 115

Chapitre 3– Les fractions attribuables. . . .118

3.1 Introduction . . . 118

3.2 Fractions attribuables ind´ependantes du temps . . . 120

3.2.1 Fractions attribuables univari´ees : pour une seule exposition binaire . . . 120

(7)

6 Table des mati`eres

3.2.2 Fractions attribuables multivari´ees : pour plusieurs expositions `a plusieurs

niveaux . . . 121

3.2.2.1 Fractions attribuables sans prise en compte des facteurs de confu- sion . . . 121

3.2.2.2 Fractions attribuables avec prise en compte des facteurs de confu- sion . . . 122

3.2.3 Fraction de pr´evention (FP) . . . 124

3.3 Fractions attribuables d´ependantes du temps . . . 125

3.3.1 Intervention au temps 0, estimation de la FAP `a l’instant t . . . 126

3.3.1.1 Fraction attribuable en population (FAP) . . . 126

3.3.1.2 Fraction de survie attribuable en population (FSAP) . . . 127

3.3.1.3 Fraction de temps moyen de survie attribuable en population (FTSAP) . . . 128

3.3.1.4 Estimation . . . 128

3.3.2 Intervention au temps τ . . . 128

3.3.2.1 Fraction attribuable en population (FAP) . . . 131

3.3.2.2 Fraction de survie attribuable en population (FSAP) . . . 131

3.3.2.3 Fraction de temps moyen de survie attribuable en population (FTSAP) . . . 132

3.3.2.4 Estimation . . . 133

3.3.3 Intervention et estimation `a l’instant t . . . 133

3.4 Application . . . 134

3.4.1 Contexte univari´e . . . 135

3.4.1.1 D´ec`es par cancer de la prostate . . . 135

3.4.1.2 D´ec`es de toutes causes . . . 135

3.4.2 Contexte multivari´e . . . 142

3.4.2.1 D´ec`es par cancer de la prostate . . . 142

3.4.2.2 D´ec`es de toutes causes . . . 143

3.5 Conclusion et Discussion . . . 143

Conclusion. . . .145

Valorisations scientifiques. . . .149

Liste des figures. . . .150

Liste des tableaux. . . .151

Bibliographie. . . .152

Annexe A – D´emonstrations. . . .166

A.1 Chapitre2 . . . 166

A.2 Chapitre3 . . . 170

Annexe B –Codes R. . . .176

B.1 Chapitre1 . . . 176

B.2 Chapitre2 . . . 179

(8)

Liste des abbr´ eviations

ERSPC European Randomized Study of Screening for Prostate Cancer CépiDC Centre d’épidémiologie sur les causes médicales de décès RNIPP Répertoire national d’identification des personnes physiques IM Imputation Multiple

MCAR Missing Completely At Random MAR Missing At Random

MNAR Missing Not At Random CCA Analyse des Cas Complets EM Expectation Maximization

LOCF Derni`ere Observation Report´ee (Last Observation Carried Forward)

BOCF Observation de Référence Reportée (Baseline Observation Carried Forward) PMM Predictive Mean Matching

JM Joint Modeling (Mod´elisation jointe)

FCS Fully Conditional Specification (Sp´ecification conditionnelle enti`ere)

MICE Multiple Imputation of Chained Equation (Imputation multiple par ´equations chai- n´ees)

MCMC Monte Carlo Markov Chain (Monte-Carlo par Chaˆınes de Markov) FIM Fraction d’Information Manquante

MWW Mann-Whitney-Wilcoxon

KM Kaplan-Meier

IPCW Inverse

NA Nelson-Aalen

AJ Aalen-Johansen

HR Hazard Ratio (Rapport des risques) IC Intervalle de confiance

NS Nette sp´ecifique RR Risque relatif

OR Odds ratio

FA Fraction attribuable

FAP Fraction attribuable en population

MH Mantel-Haenszel

FP Fraction de pr´evention

FSAP Fraction de survie attribuable en population

FTSAP Fraction de temps moyen de survie attribuable en population

7

(9)

Liste des symboles

Symboles Description Section

i d´esigne les individus, i“1, . . . , n

p nombre de variables

Concernant le chapitre1

Y matrice nˆp contenant les valeurs des p variables pour les nindividus

(1.2.1) R matricenˆpd’indicatrice de r´eponse (1 si valeur observ´ee,

0 sinon)

(1.2.1) y_ij etr_ij ce sont les éléments de Y et de R où où i “ 1, . . . , n et

j“1, . . . , p

(1.2.1) Y_obs etYmis les donn´ees observ´ees et manquantes de Y “ pY_obs, Ymisq (1.2.1)

ψ paramètres du modèle des données manquantes (1.2.3)

θ paramètres du modèle pour les données totales Y (1.2.3)

Ij coefficient de flux entrat (1.2.5)

O_j coefficient de flux sortant (1.2.5)

m nombre d’imputations multiple (1.4.1)

y Y univari´e (1.4.2)

y_obs vecteur des n₁ valeurs observ´ees dey (1.4.2)

y_mis vecteur des n₀ valeurs manquantes de y (1.4.2)

X matricenˆq des pr´edicteurs du mod`ele d’imputation (1.4.2) X_obs sous-ensemble den₁ lignes de X pour lesquellesy est ob-

serv´e

(1.4.2) X_mis sous-ensemble den₀lignes deXpour lesquellesyest man-

quant

(1.4.2)

y9 vecteur des n₀ valeurs imput´ees dansy (1.4.2)

T nombre d’it´eration (1.4.3.3)

Q le paramètre statistique d’intérêt (1.4.4.1)

Qˆ_i,i“1, . . . , m les mparamètres estimé sur chaque jeu de données impu- tées

(1.4.4.1) U_i,i“1, . . . , m la matrice de variance-covariance estim´ee pour chaque jeu

de donn´ees imput´ees

(1.4.4.1) Q¯ paramètre combiné à partir des mparamètres (1.4.4.1)

U¯ variance combin´ee `a partir desm variance (1.4.4.1)

B variance entre imputation (1.4.4.1)

T variance totale pour ¯Q (1.4.4.1)

λ la proportion de variation attribuable aux donn´ees manquantes

(1.4.5.4) r l’augmentation relative de la variance due `a la non r´eponse (1.4.5.4)

γ la fraction d’information manquante (1.4.5.4)

8

(10)

Symboles Description Section Concernant le chapitre2

Trl temps de d´ec`es,l“1, . . . , L (2.2)

T₁ temps de décès de la maladie étudiée (2.2)

T₂ temps de d´ec`es d’autres causes (2.2)

C temps de censure (2.2)

T “minpT₁, T₂q temps de décès observé (2.2)

U “minpT, Cq temps de suivi observ´e (2.2)

D les covariables d´emographiques (2.2)

Z les autres covariables (2.2)

X “ pD, Zq le vecteur de longueurp de toutes les covariables (2.2)

∆T la cause de d´ec`es qui se produit au tempsT (2.2)

δU le type d’événement qui se produit enU, censure ou décès (2.2) Yptq le nombre d’individus à risque au tempst (2.2.2) N_.ptq le nombre de décès de toutes causes pendant r0, ts (2.2.2) Nkptq le nombre de décès de cause kpendant r0, ts,k“1 ou 2 (2.2.2) δN_.ptq le nombre de décès de toutes causes au tempst (2.2.2) δN_kptq le nombre de décès de cause kau temps t (2.2.2) Sptq,Hptqethptq respectivement : la survie, le risque cumulatif et le risque,

indexés de la même fa¸con suivant leur définitions

(2.2.1)

h^˚_.ptq risque brut pour toutes les causes (2.3.1)

h_.ptq risque net pour toutes les causes (2.3.1)

h^˚_kptq risque brut pour la causek,k“1 ou 2 (2.3.2) h^˚˚_k ptq risque cause-sp´ecifique pour la cause k,k“1 ou 2 (2.3.2)

h_kptq risque net pour la causek,k“1 ou 2 (2.3.2)

Sp_.^KMptq estimateur de KM de la survie pour toutes les causes (2.4.1) Hp_.^NAptq estimateur de NA du risque cumulatif pour toutes les

causes

(2.4.1) hêxp_. ptq risque de la loi exponentielle pour toutes les causes (2.4.2) h^Weib_. ptq risque de la loi de Weibull pour toutes les causes (2.4.2) h^WeibG_. ptq risque de la loi de Weibull généralisée pour toutes les

causes

(2.4.2)

h_cptq risque de la censure (2.4.4)

K_iptq pour l’individui, c’est la probabilité d’être censuré après le tempstsachant certaines covariables

(2.4.4) K⁰ptq c’est la probabilité d’être censuré après le temps t (2.4.4) Sp_.^WKMptq estimateur IPCW de KM de la survie pour toutes les

causes

(2.4.4) Hp_k^NAptq estimateur de NA du risque cumulatif pour la cause k,

k“1 ou 2

(2.5.2.2) Hp_k^0,NAptq estimateur de Breslow du risque cumulatif de base pour la

causek,k“1 ou 2

(2.5.2.3) F ICkptq fonction d’incidence cumul´ee pour la causek,k“1 ou 2 (2.5.3) F ICz^AJ_k ptq estimateur de Aalen-Johansen de la FIC pour la cause k,

k“1 ou 2

(2.5.3.2) λptq risque de sous-répartition, associé à F IC₁ptq (2.5.4) S_FIC₁ptq survie associée au risque λptq, S_FIC₁ptq “ 1´F IC₁ptq “

expr´Λptqdts

(2.5.4)

(11)

10 Liste des symboles

Symboles Description Section

Y^νptq le nombre d’individu à risque au temps t dans le modèle de sous-répartition

(2.5.4.3) Yp^νptq estimateur de Fine et Gray de Y^νptq (2.5.4.3) Hp₁^NSptq estimateur IPCW de NA (appel´e survie nette sp´ecifique)

pour le risque cumulatif de la cause 1

(2.7.1) Sp₁^WKMptq estimateur IPCW de KM pour le risque cumulatif de la

cause 1

(2.7.1) S_Pptq la survie dans la population, obtenue `a partir des tables

de mortalit´e

(2.8.1) S₁^SRptq le rapport de survie relative pour la cause 1 (2.8.1) Hp₁Êd2ptq estimateur d’Ederer II du risque cumulatif spécifique à la

cause 1

(2.8.2) Hp₁^Ed1ptq estimateur d’Ederer I du risque cumulatif associ´e au rap-

port de survie relative pour la cause 1

(2.8.3) Hp₁^Hakptq estimateur d’Hakulinen du risque cumulatif associ´e au rap-

port de survie relative pour la cause 1

(2.8.3) Hp₁^PPptqtq estimateur de Pohar-Perme du risque cumulatif net pour

la cause 1

(2.8.4)

Sp_{F IC}^AJ ₁ptq 1´F ICz^AJ₁ ptq (2.10.2.2)

Sp_{F IC}^AJ ₂ptq 1´F ICz^AJ₂ ptq (2.10.2.2)

Sp₁^KMptq estimateur de KM de la survie de la cause 1 en supposant les décès et la censure indépendants dans leur ensemble

(2.10.3) Sp₁^Weibptq estimateur de Weibull de la survie de la cause 1 en sup-

posant les décès et la censure indépendants dans leur ensemble

(2.10.3)

Concernant le chapitre3

M variable binaire désignant un événement (M : malade ou décédé , M : non malade ou non décédé)

(3.2) E facteur d’exposition dichotomiqueE (E : expos´e ,E: non

expos´e)

(3.2)

X^˚ valeurs des covariables apr`es une intervention (3.3)

Π“PpEq proportion d’expos´es (3.3)

S¹ptq survie chez les expos´es (3.3)

S⁰ptq survie chez les non expos´es (3.3)

Fptq proportion d’´ev´enement au temps t (3.3)

Πptq proportion d’expos´es en vie au temps t (3.3)

Eptq,E⁰ptq l’aire sous la courbe Sptq etS⁰ptq, respectivement (3.3.1.3) E₀,Eτ le fait d’être exposé au temps 0 et τ, respectivement (3.3.2) p₁₀,p₁₁ la proportion d’exposés qui deviennent non exposés et qui

restent expos´es, respectivement

(3.3.2) p₀₀,p₀₁ la proportion de non expos´es qui restent expos´es et qui

deviennent non expos´es, respectivement

(3.3.2) p égal à p₁₀ quand on considère que tous les non exposés

restent expos´es

(3.3.2) F APz^WKM₁ ptq FAP estim´ee par Kaplan-Meier avec IPCW, en ne consi-

dérant que les décès du cancer

(3.4)

(12)

Symboles Description Section F APz^WKM_. ptq FAP estimée par KM avec IPCW, pour les décès de toutes

causes

(3.4) F SAP{^WKM₁ ptq FSAP estim´ee par Kaplan-Meier avec IPCW, en ne consi-

dérant que les décès du cancer

(3.4) F SAP{^WKM_. ptq FSAP estimée par KM avec IPCW, pour les décès de

toutes causes

(3.4) F T SAP{ ^WKM₁ ptq FTSAP estim´ee par Kaplan-Meier avec IPCW, en ne

considérant que les décès du cancer

(3.4) F T SAP{ ^WKM_. ptq FTSAP estimée par KM avec IPCW, pour les décès de

toutes causes

(3.4)

(13)

Introduction

En France, le nombre de nouveaux cas de cancer diagnostiqués en 2012 est estimé à 200 350 chez l’homme et 155 004 chez la femme. Le cancer est depuis des années une question majeure de santé publique, il est la première cause de décès en France chez l’homme et la deuxième cause chez la femme [INCa, 2015] ainsi que la première cause de décès prématuré avant 65 ans tant chez l’homme que chez la femme.

En particulier, le cancer de la prostate est le plus fr´equent chez l’homme, il repr´esente 28%

des cas de cancer avec 56 840 nouveaux cas estimés pour 2012 [INCa,2015]. Le nombre de décès par cancer de la prostate a baissé ces dernières années ; il était de 8900 en 2012 et se situait au 3êrang après le cancer du poumon (21 300 décès) et le cancer colorectal (9 300 décès). Le cancer de la prostate concernait jusqu’à récemment les hommes âgés, il est aujourd’hui diagnostiqué de plus en plus jeune (33% des cas ont moins de 65 ans), grâce à l’incitation au dépistage oppor- tuniste par les médecins généralistes, urologues et oncologues. Par conséquent, les cancers sont diagnostiqués à un stade plus précoce et la survie du cancer de la prostate s’est améliorée tous stades confondus, ce qui en fait un cancer de bon pronostic.

Dans cette thèse nous nous intéressons à la survie des patients atteints de cancer de la prostate et plus particulièrement aux différentes méthodes d’estimation de la survie.

En biostatistique, les méthodes d’analyse de survie estiment le temps d’apparition d’un évé- nement (par exemple : le décès de toutes causes, le décès d’une cause particulière, une maladie, etc.). Dans une situation idéale, le temps de l’événement d’intérêt est connu pour tous les individus. En pratique, certains individus peuvent être perdus de vue avant l’apparition de l’événement ou un autre événement peut se produire avant l’observation de l’événement d’intérêt, on parle alors de données censurées.

La plupart des méthodes d’estimation de la survie supposent que ces données censurées n’affectent pas la survenue de l’événement d’intérêt. Si cette hypothèse est valide pour les patients perdus de vue et surtout pour la censure administrative, elle semble peu réaliste quand par exemple on s’intéresse aux décès par cancer de la prostate et que les données censurées sont les décès d’autres causes.

De plus, quand on étudie le décès d’une cause particulière, certaines méthodes nécessitent la connaissance des causes de décès (méthodes dites spécifiques) et d’autres non (méthodes de survie relative). Toutes ces méthodes reposent sur des hypothèses fortes, qui ne sont pas toujours vérifiées ou supposées. Les méthodes de survie relative sont très simples à appliquer, et sont largement utilisées dans la littérature. Néanmoins, quand les hypothèses ne sont pas respectées (par exemple quand la population étudiée n’est pas représentative de la population générale), ces méthodes peuvent donner des survies supérieures à 100%, ce qui n’est pas acceptable.

Quant aux méthodes spécifiques, elles semblent plus précises à condition que les causes de décès soient bien renseignées. En outre, la plupart des bases de données contiennent des valeurs absentes, notamment en ce qui concerne l’information sur les causes de décès. Par conséquent, nous nous intéressons dans un premier temps aux méthodes de gestion des données manquantes et en particulier à l’imputation multiple. L’imputation multiple permet d’obtenir plusieurs fichiers

12

(14)

avec des données complétées par des valeurs plausibles tirées de distributions spécifiquement mo- délisées pour chaque entrée manquante. L’amplitude des valeurs imputées reflète l’incertitude à propos de la vraie valeur [Van Buuren and Groothuis-Oudshoorn,2011]. Une fois les fichiers obtenues, l’analyse statististique d’intérêt, ici la survie, est estimée sur chacun des jeux de données complétées, puis les estimations sont combinées en une seule avec des règles spécifiques.

Par ailleurs, la notion de fraction attribuable, qui permet de déterminer le pourcentage de décès ou de maladie potentiellement imputable à un ou plusieurs facteurs de risque a depuis peu

été étendue aux données de survie. Ainsi, nous nous intéressons aux estimations et à l’interpré- tation des fractions attribuables à partir des survies spécifiques à une cause ou pour toutes les causes. Il semble intéressant de comparer les estimations obtenues avec les différentes méthodes d’estimation de la survie considérées.

Objectifs de la th`ese

Les objectifs de la th`ese sont les suivants :

‚ Etudier et utiliser les méthodes de gestion de données manquantes afin d’obtenir des causes de décès renseignées et des covariables complétées. Appliquer les règles de Rubin après une transformation log-log complémentaire afin de combiner les survies et proposer une fonction Rpour cette combinaison (chapitre1).

‚ Présenter toutes les méthodes d’estimation de la survie de fa¸con unifiée avec les mêmes notations. Préciser les conditions d’applications et de validité de chaque méthode, ainsi que ce qu’elles estiment. Proposer une méthode spécifique qui prenne en compte une éventuelle censure informative et proposer une fonction Rpour cette méthode (chapitre 2).

‚ Présenter les différentes notions de fractions attribuables : indépendantes et dépendantes du temps. Utiliser toutes les méthodes d’estimation de la survie présentées au chapitre 2 afin de calculer les fractions attribuables dans un but prédictif (chapitre3).

On peut proposer le sch´ema suivant (figure1) :

Figure1 – Objectifs de la th`ese.

Gestion des donn´ees manquantes notamment

des causes de d´ec`es.

Unification des survies nette et brute, sp´ecifiques ou non.

Notion de fractions attribuables d´ependantes

du temps.

Part de la survie imputable `a une ou plusieurs covariables.

Survies sp´ecifiques ou non avec censure informative

ou non.

(15)

14 Introduction

Structure de la th`ese

Ce travail de thèse est donc composé de trois grandes parties : la gestion des données manquantes, l’analyse de survie et les fractions attribuables. Tout d’abord, nous présentons la base de données de cancer de la prostate utilisée.

L’objectif principal de cette thèse concerne les méthodes d’analyses de survie. Cependant, afin de pouvoir considérer et surtout appliquer les méthodes de survie nécessitant les causes de décès, nous devons dans un premier temps utiliser l’imputation multiple. En effet, l’imputation multiple est la première étape de l’analyse de notre base de données. Ainsi, même si pour la validation de notre modèle d’imputation multiple nous aurons besoin d’appliquer une méthode de survie spécifique, nous choisissons de considérer les méthodes de gestion des manquantes et l’application de l’imputation multiple sur notre base de données dans le chapitre1, et de référer au chapitre 2lors de l’analyse de sensibilité qui valide le modèle d’imputation.

Plus précisément, dans le chapitre 1 concernant les méthodes de gestion de données manquantes, nous faisons une revue de toutes les méthodes disponibles, puis présentons en détails l’imputation multiple en théorie et en pratique. Dans notre cas, nous allons estimer des survies après l’imputation multiple, nous avons donc présenté les formules pour combiner les survies, puis nous avons mis en oeuvre l’imputation multiple sur notre base de données.

Le chapitre 2 traite de toutes les méthodes d’analyse de survie. Dans un premier temps, nous définissons précisément les notions de survies brutes et nettes, dans le cas d’une seule cause de décès parmi les autres ou de toutes les causes de décès considérées en une seule. Puis, nous présentons les modèles de survie classiques, de risques compétitifs, des temps latents, de survie relative. Nous présentons aussi un modèle qui prend en compte la censure informative sans avoir besoin des causes de décès, et nous proposons d’utiliser une méthode spécifique (avec connaissance des causes de décès) qui prend en compte la censure informative (par décès d’autres causes et classique). Nous appliquons toutes ces méthodes à notre base avec données imputées et comparons les résultats obtenus. Nous discutons des intérêts et des limites de chacune d’entre elles en pratique clinique.

Enfin, dans le chapitre3, nous présentons les notions de fractions attribuables indépendantes du temps et dépendantes du temps avec intervention au temps 0 ou à un tempsτ quelconque. Les fractions attribuables dépendantes du temps s’expriment en fonction de la survie, nous estimons donc les fractions attribuables avec toutes les méthodes proposées et comparons les résultats obtenus afin d’appliquer les fractions attribuables dans un but prédictif.

(16)

Pr´ esentation de la base de donn´ ees ERSPC

Etude ERSPC

L’´etude European Randomized Study of Screening for Prostate Cancer (ERSPC) est une

étude européenne sur le dépistage du cancer de la prostate. Cette étude a été menée dans 8 pays européens : Belgique, Finlande, France, Italie, Pays-Bas, Espagne, Suède et Suisse et à commencée en 1994 [Jegu et al., 2009]. Son objectif principal était d’étudier si le dépistage du cancer de la prostate par un dosage sérique du PSA (antigène prostatique spécifique) pouvait réduire la mortalité d’au moins 20%.

En France, ce n’est qu’en 2001 que l’étude a débuté, suite à une décision de l’Association Fran¸caise d’Urologie (AFU). Les hommes fran¸cais inclus dans l’ERSPC étaient âgés de 55 à 69 ans, sans cancer de la prostate avant l’inclusion et résidant dans les départements du Tarn et de l’Hérault couverts par un registre des cancers avec enquête permanente d’incidence [Jegu et al., 2009]. Ces patients ont été sélectionnés à partir de la liste d’assurance maladie des départements, puis ont été randomisés dans deux bras : les dépistés et les témoins.

Ceux affectés au bras dépisté ont été invités à participer à l’étude et ont re¸cu un formulaire de consentement qu’ils devaient signer et renvoyer. Ensuite, ils ont re¸cu une convocation pour faire un prélèvement sanguin, puis le dosage du PSA était centralisé et effectué dans un seul laboratoire, et de fa¸con identique pour les 8 pays de l’étude. Si le dosage du PSA était supérieur

à 3 ng/ml, il était recommandé au patient d’effectuer une biopsie prostatique. Ceux n’ayant pas fait le dosage du PSA étaient relancés par courrier puis par téléphone par le biais de leur médecin traitant [Jegu et al.,2009]. Un deuxième tour à été effectué entre 2008 et 2010.

Les deux bras dépistés et témoins sont suivis par les registres de cancers, qui peuvent déter- miner les patients chez qui un cancer de la prostate à été diagnostiqué à partir d’un croisement de la base de données de l’ERSPC avec celles des registres. Plus de détails sur le protocole de l’étude fran¸caise ERSPC sont disponibles dans Schröder et al.[2003].

Base ERSPC utilis´ ee

La base utilisée dans cette thèse est issue de la cohorte ERSPC et se compose de 2844 patients atteints de cancer de la prostate et résidant dans l’Hérault (34). Ces patients ont été diagnostiqués entre le 29/07/2003 et le 28/12/2011. Ils sont âgés de 56 à 78 ans, avec une moyenne de 67 ans et demi.

322 patients sont décédés entre le 14/11/2004 et le 23/06/2013.

Les variables cliniques ont été complétées par le registre des cancers de l’Hérault et les causes de décès par la cohorte ERSPC.

La date de point est le 30/06/2013. A cette date, le statut vital ainsi que la date de décès des 2844 patients ont été obtenu par le Répertoire d’Identification des Personnes Physiques

15

(17)

16 Pr´esentation de la base de donn´ees ERSPC

(RNIPP).

Pour les personnes qui sont décédées, la cause de décès a été obtenue par le Centre d’Epi- démiologie sur les causes médicales de décès (CépiDC). Cette requête a été effectuée pour les patients décédés jusqu’au 31 Décembre 2010. Pour les patients décédés entre le 31 décembre 2010 et la date de point, la demande n’a pas encore été faite.

Variables

Causes de d´ec`es

Nous disposons des codes du CépiDC pour la moitié des patients décédés (161 individus), qui désignent la cause principale du décès pour chaque individu. Le code ”C61” désigne les patients décédés du cancer de la prostate. Nous savons également si le cancer de la prostate est mentionné dans la partie 1 du certificat de décès. La partie 1 correspond aux ”Maladies ou affections morbides ayant directement provoqué le décès”.

Nous avons donc considéré comme étant décédés du cancer de la prostate, les individus ayant le code ”C61” (53 individus), et ceux ayant un cancer de la prostate mentionné dans la partie 1 du certificat de décès (2 individus ayant comme cause principale de décès le code ”C97” qui désigne les tumeurs malignes de sièges multiples indépendants.).

Cette variable est cod´ee :

‚ D´ec`es autres causes : 106 individus

‚ D´ec`es cancer de la prostate : 55 individus

‚ Valeurs absentes : 161 Age au diagnostic

Age=(Date de diagnostic du cancer - Date de naissance)/365.25.

L’âge est considéré comme continu ou comme catégorique. La répartition par classe est :

‚ 56 ďˆageď70 : 1931 individus

‚ 70 <ˆageď79 : 913 individus

Pour la variable ˆage, nous n’avons pas de valeurs absentes.

Taux de PSA au diagnostic et apr`es traitement

Comme leurs noms l’indiquent, ces deux variables sont le taux de PSA au diagnostic du cancer de la prostate et le taux de PSA apr`es traitement. Toutes les deux sont exprim´ees en ng/l.

En moyenne le taux de PSA ´etait de 23.61 ng/ml au diagnostic du cancer de la prostate, et de 1.66 ng/ml apr`es traitement.

Dans la suite, ces deux variables seront considérées comme continues ou catégoriques.

Pour le taux de PSA au diagnostic (diag.), nous consid´erons soit les classes : 0-10 et 10-max soit 0-20 et 20-max telles que :

‚ 0ď PSA diag.ď 10 : 1952 patients

‚ 10 <PSA diag. ď4377 : 715 patients

‚ Valeurs absentes : 177

‚ 0ďPSA diag. ď 20 : 2424 patients

‚ 20 <PSA diag. ď4377 : 243 patients

Pour le taux de PSA après traitement, noté ”PSA post” nous considérons les classes : 0-3 et 3-max, telles que :

‚ 0ď PSA post< 3 : 1920 individus

‚ 3ď PSA postď 1090 : 154 individus

(18)

Stades cliniques T,N et M

Il s’agit des stades cliniques de la tumeur [Salomon et al.,2010], obtenus par un touch´e rectal ou une biopsie.

Stade cT : Tumeur primitive

– 1 : tumeur non palpable au touché rectal ou non visible en imagerie – 1a : tumeur occupant moins de 5% du tissu réséqué

– 1b : tumeur occupant plus de 5% du tissu réséqué

– 1c : tumeur découverte sur une biopsie prostatique en raison d’une élévation du taux PSA.

– 2 : tumeur limit´ee `a la prostate

– 2a : tumeur atteignant la moiti´e d’un lobe ou moins

– 2b : tumeur atteignant plus de la moiti´e d’un lobe mais sans atteindre les deux lobes – 2c : tumeur atteignant les deux lobes

– 3 : extension au del`a de la capsule

– 3a : extension extra-capsulaire uni- ou bilat´erale

– 3b : extension aux vésicules séminales uni- ou bilatérale

– 4 : tumeur fixée ou atteignant d’autres structures que les vésicules séminales (sphincter externe, rectum, muscles releveurs de l’anus ou paroi pelvienne).

Dans un premier temps (pour le modèle d’imputation du chapitre 1), nous avons considéré la variable cT codée comme ceci :

‚ 1abc (cT=1,1a,1b ou 1c) : 1430 individus

‚ 2a (cT=2 ou 2a) : 243 individus

‚ 2b : 147 individus

‚ 2c : 212 individus

‚ 3-4 (cT=3, 3a 3b ou 4) : 223 individus

Puis afin d’avoir des effectifs raisonnables dans chaque classe (pour les analyses de survie des chapitres 2 et3), nous consid´erons la variable cT cod´ee comme :

‚ 1abc : 1430 individus

‚ 2abc : 602 individus

‚ 3-4 : 223 individus

Stade cN : Ganglions r´egionaux

‚ 0 (absence de m´etastase ganglionnaire r´egionale) : 978 individus

‚ 1 (atteinte ganglionnaire r´egionale) : 51 individus

Stade cM : M´etastases `a distance

‚ 0 (absence de m´etastase `a distance) : 2355 individus

‚ 1 (m´etastases `a distance) : 103 individus

‚ Valeurs absentes : 386 Premier Traitement

Cette variable décrit la nature du premier traitement administré aux patients, qui peut être : – Ultrasons focalisés

– Chimiothérapie – Surveillance – Hormonothérapie – Radiothérapie

(19)

– Chirurgie

Dans le but d’obtenir des groupes de patients homogènes ayant le même niveau de risque, nous avons codé la variable premier traitement en :

‚ Chirurgie : 1521 individus

‚ Radioth´erapie : 467 individus

‚ Surveillance + ultrasons focalis´es : 111 individus

‚ Hormonoth´erapie + Chimioth´erapie : 453 individus

Stades pathologiques T, N et M

Ce sont les stades pathologiques de la tumeur, pT et pN sont disponibles si et seulement s’il y a eu de la chirurgie comme traitement et pM est disponible si et seulement si il y a eu une biopsie.

Dans notre base de données, puisque nous avons très peu de biopsies, nous considérons pM=cM.

Les valeurs du stade pT sont définies par : – 2 : Tumeur limitée à la prostate

– 2a : tumeur limit´ee `a un demi-lobe ou moins

– 2b : tumeur unilat´erale avec atteinte de plus d’un demi-lobe, mais pas des deux lobes – 2c : tumeur bilat´erale

– 3 : extension extra-prostatique

– 3a : extension extra-prostatique uni ou bilatérale incluant le col vésical – 3b : envahissement des vésicules séminales uni ou bilatérale

– 4 : envahissement d’autres structures que les v´esicules s´eminales (sphincter externe, rectum, muscles releveurs de l’anus ou paroi pelvienne)

Nous avons cod´e la variable pT en :

‚ 2a (cT=2 ou 2a) : 280 individus

‚ 2b : 314 individus

‚ 2c : 619 individus

‚ 3-4 (cT=3, 3a 3b ou 4) : 229 individus

‚ Valeurs absentes : 1402 Stade pN : Ganglions r´egionaux

‚ Valeurs absentes : 1911 Cr´eation des variables T et N

Puisque les stades pathologiques T et N ne sont disponibles que s’il y a eu une chirurgie, nous avons créé 2 nouvelles variables appelées T et N. Ce sont des combinaisons des variables cliniques et pathologiques.

Voici comment la variable T est créée, la variable N est construite de la même fa¸con : – T=pT si et seulement si premier traitement = chirurgie

– T=cT si et seulement si premier traitement ‰chirurgie

On ne consid`ere pas T=pT s’il y a eu de la chirurgie en traitement 2 ou 3 puisque le premier traitement aura r´eduit la taille de la tumeur.

On obtient les cat´egories et les effectifs suivants pour la variable T :

(20)

‚ 1abc : 512 patients

‚ 2a : 387 patients

‚ 2b : 378 patients

‚ 2c : 739 patients

‚ 3-4 : 413 patients

Nous cat´egorisons la variable T (pour les analyses de survie des chapitres 2 et 3) de cette fa¸con :

‚ 1abc-2abc : 2016 individus

‚ 3-4 : 413 individus

La r´epartition de la nouvelle variable N est donn´ee par :

‚ Valeurs absentes : 1528 individus Gleason

Le score de Gleason à été créé en 1966 et redéfini en 2005, il est utilisé pour évaluer le pronostic du cancer de la prostate. Le score de Gleason est obtenu à partir d’une biopsie, en additionnant deux grades de Gleason les plus représentés de deux cellules. Le grade de Gleason est le degré de différenciation de la tumeur, allant du grade 1 à 5, ainsi le score de Gleason est coté de 2 à 10.

Dans un premier temps (pour le modèle d’imputation du chapitre 1), nous avons considéré la variable Gleason codée comme :

‚ 2 `a 5 : 79 individus

‚ 6 : 1314 individus

‚ 7 : 1150 individus

‚ 8 `a 10 : 223 individus

Puis, pour les analyses de survie des chapitres 2 et3, nous avons cat´egoriser la variable de deux fa¸cons possible :

‚ 2-7 : 2543 patients

‚ 8-10 : 223 patients

‚ 2-6 : 1393 patients

‚ 7-10 : 1373 patients Classification de d’Amico généralisée

La classification de d’Amico [D’Amico et al., 1998] permet de définir la gravité d’évolution des cancers de la prostate localisés (ie ayant un stade clinique inférieur ou égal à 2c) :

– Risque faible : PSA diag.< `a 10ng/mletscore de Gleason <`a 6et cTď2a

– Risque intermédiaire : PSA diag. entre 10 et 20 ng/mlouscore de Gleason = 7oucT=2b – Risque élevé : PSA diag.>20 ng/ml ouscore de Gleason >7oucT = 2c

Dans la classification généralisée, nous prenons en plus en compte les cancers localement avancés, c’est-à-dire ayant un stade clinique cT = 3a, 3b ou 4. Nous tenons également compte de la présence ou non de ganglions et de métastases à distance (N^` et M^` si N=1 ou M=1).

La variable de d’Amico généralisée est codée de cette fa¸con :

‚ Risque faible : 800 individus

‚ Risque interm´ediaire : 1136 individus

(21)

‚ Risque ´elev´e : 412 individus

‚ Risque localement avanc´e : 71 individus

‚ N^` ou M^` : 134 individus

Afin de réduire le nombre de catégories pour les analyses de survie des chapitres2et3, nous considérons les nouvelles classes suivantes :

‚ d’Amico I (risque faible et interm´ediaire) : 1936 individus

‚ d’Amico II (risque élevé et localement avancé) : 483 individus

‚ d’Amico III (N^` ou M^`) : 134 individus Temps de suivi

Date de point´date de diagnostic avec : – Date de point = Date de décès si décès

– Date de point = Date de derni`ere nouvelle si patient perdu de vue – Date de point = 30/06/2013 sinon

Remarque : 46 patients avaient un temps de suivi de 0 jours, car ils ont été perdus de vue depuis leur date de diagnostic. Nous les avons exclus de l’étude.

La durée moyenne de suivi des patients est de presque 5 ans (4 ans, 11 mois et 26 jours) et la moitié des patients à été suivie au moins 5 ans et 26 jours. Le temps de suivi le plus court est de 1 jour et le plus long est de 9 ans, 11 mois et 1 jour.

(22)

Tableau r´ ecapitulatif

Le tableau3 ci-dessous propose un r´ecapitulatif des variables de la base ERSPC.

Tableau3: Distribution des variables.

Total (N=2844) Nombre de

patients %

Ageď70 ans 1931 68

ą70 ans 913 32

PSA diag.ď10 1952 69

10<PSAď20 472 17

ą20 243 8

Manquant 177 6

cT 1abc 1430 50

2a 243 9

2b 147 5

2c 212 7

3–4 223 8

Manquant 589 21

cN 0 978 34

1 51 2

Manquant 1815 64

cM 0 2355 82

1 103 4

Manquant 386 14

Premier trait. Chirurgie 1521 53

Radioth´erapie 467 16

Surv.+ultrasons 111 5

Hormono.+chimio. 453 16

Manquant 292 10

Gleason 2-6 1393 49

7 1150 40

8-10 223 8

Manquant 78 3

d’Amico généralisé I 1936 68

II 483 17

III 134 5

Manquant 291 10

T 1abc 512 18

2a 387 14

2b 378 13

2c 739 26

3–4 413 14

Manquant 415 15

N 0 1235 43

1 81 3

Manquant 1528 54

PSA post<3 1920 68

ě3 154 5

Manquant 770 27

(23)

Chapitre 1

Les m´ ethodes de gestion des donn´ ees manquantes : l’imputation multiple

1.1 Introduction

L’analyse des données manquantes est un point essentiel dans l’analyse de données. Il est quasiment impossible de ne pas avoir de données manquantes en recherche clinique (patient qui déménage, question à laquelle le patient ne veut pas répondre, perte d’information, etc.). Avant les années 70, la méthode standard pour gérer les données manquantes au début d’une analyse statistique était de supprimer les individus présentant une ou plusieurs variables absentes, ce qui conduisait à une perte d’informations considérable. Ainsi, gérer les données manquantes est primordial afin d’extraire des bases le plus d’information possible.

Les premiers à proposer une méthode statistique pour remplacer les valeurs manquantes sont Allan and Wishart [1930]. Ils ont développé deux formules pour estimer la valeur d’une seule observation manquante, et ils conseil-laient de remplacer la valeur manquante par cette estimation dans les données. Afin de corriger les données, il fallait enlever un degré de liberté dans l’analyse effectuée sur cette nouvelle base de données complète.

Cette méthode a été généralisée pour plusieurs observations manquantes parYates[1933]. Le travail de Yates est à l’origine de l’algorithme EM (Expectation-Maximization) qui fut proposé en 1977 parDempster et al.[1977], après plusieurs intermédiaires.

Le terme ”imputation” n’est utilis´e qu’`a partir de 1983, dans l’ouvrage deMadow et al.[1983]

qui passe en revue les méthodes d’imputation. Ce travail est le prédécesseur de la première édition de ”Statistical analysis with missing data” deLittle and Rubin [1987], un livre qui présente des méthodes basées sur des modèles de distribution pour les données, comme le maximum de vraisemblance et l’imputation de données manquantes.

Au début des années 70, Rubin observa qu’une seule imputation n’était pas correcte en géné- ral, et il proposa de créer plusieurs imputations qui refléteraient l’incertitude des données manquantes. En 1987, il fournit les bases méthodologiques et statistiques de l’imputation multiple (IM) [Rubin,1987]. Il donne les formules nécessaires (appelées règles de Rubin) pour combiner en une seule valeur les estimations réalisées sur les diverses bases de données complétées avec les données imputées et il décrit les conditions sous lesquelles l’inférence statistique sous l’imputation multiple est valide. Même si quelques améliorations ont été proposées depuis 1987, cet ouvrage était vraiment en avance sur son temps et il aborde les éléments essentiels de l’imputation moderne [Van Buuren,2012, p. 26].

Dans un premier temps, (sections1.2et1.3) nous présentons les caractéristiques des données manquantes (les 3 mécanismes de données manquantes décrits parRubin[1976], la notion d’igno-

22

(24)

rabilité et les différentes configurations de données manquantes), puis nous décrivons brièvement les méthodes alternatives à l’imputation multiple. Dans les sections 1.4 et 1.5nous présentons l’imputation multiple en théorie et en pratique de fa¸con détaillée. Enfin nous mettons en oeuvre l’imputation multiple sur la base ERSPC décrite précédemment, et nous présentons les résultats dans la section 1.6.

1.2 Caract´ eristiques des donn´ ees manquantes

Connaitre les raisons de l’absence de certaines données est la première étape de toute analyse de données manquantes.

Nous pouvons distinguer deux types de données manquantes : intentionnelles et non intentionnelles. Les données intentionnelles sont prévues par l’enquêteur, elles peuvent se produire

`

a cause du déroulement des questions de l’enquête (par exemple : question 1 : oui ou non, si oui question 2, si non question 3), ou à cause de l’exclusion de certaines unités de l’échantillon.

Les données non intentionnelles ne sont pas sous le contrôle de l’enquêteur et peuvent avoir de multiples raisons. Par exemple, le sujet a sauté une question en répondant à un questionnaire, il a abandonné l’étude avant la fin du suivi, ou encore il a été échantillonné mais a ensuite refusé de participer à l’étude. Il peut également y avoir des problèmes dans la transmission ou dans la saisie des données. Ceci nous dit pourquoi les informations sont manquantes.

Par ailleurs, nous pouvons déterminer la quantité d’information manquante en distinguant les non réponses ponctuelles ou totales, qui se produisent si le patient a respectivement sauté une question ou refusé de participer à l’étude. Historiquement, les non réponses totales étaient plutôt abordées par des méthodes pondérées tandis que les non réponses partielles étaient abordées par des techniques de vérification et d’imputation [Van Buuren,2012, p. 29].

1.2.1 Notations

Les notations utilis´ees dans cette th`ese sont celles deVan Buuren [2012], elles sont proches de celles de Rubin[1987] etSchafer [1997].

Soit Y une matricenˆp contenant les valeurs des p variables pour tous les nindividus de l’´echantillon.

SoitR l’indicatrice de r´eponse, c’est `a dire une matricenˆpde 0 et de 1.

Les éléments deY et de R sont désignés par y_ij et r_ij, oùi“1, . . . , n etj“1, . . . , p.

Siyij est observ´e alors rij “1.

Siyij est absent alorsrij “0.

Les données observées sont désignées par Y_obs et les données manquantes par Y_mis. Ainsi, Y “ pYobs, Ymisqcontient toutes les valeurs des données. Cependant, les valeurs de la partieYmis

nous sont inconnues, elles sont indiqu´ees par R.

SiY “Y_obs (c’est-à-dire que l’échantillon est complètement observé) et si nous connaissons le mécanisme de création de l’échantillon, alors il est possible de faire une estimation valide des quantités statistiques d’intérêt (survie spécifique par exemple).

Chaque individu de l’échantillon représente une ligne deY. Si aucune donnée n’a été obtenue pour l’individu i (non réponse totale), là i-ième ligne de Y contiendra uniquement le numéro de cet individu et éventuellement des données administratives, les autres variables seront toutes absentes.

1.2.2 M´ecanisme des donn´ees manquantes : MCAR, MAR et MNAR

Rubin [1976] a classé les problèmes de données manquantes en 3 catégories. Dans cette

(25)

24 Section 1.2 – Caract´eristiques des donn´ees manquantes

théorie, chaque point de données a une probabilité d’être absente. Le processus qui régit ces probabilités est appelé mécanisme de données manquantes ou mécanisme de non réponse.

La matrice R stocke les emplacements des données manquantes de Y. La distribution deR peut dépendre de Y “ pYobs, Ymisq soit de part sa conception, soit de fa¸con fortuite, et cette relation est décrite par le modèle des données manquantes.

Soit ψcontenant les paramètres du modèle des données manquantes alors l’expression géné- rale du modèle des données manquantes est

PpR|Y_obs, Y_mis, ψq

Les donn´ees sont dites MCAR (Missing Completely At Random) si : PpR “0|Y_obs, Y_mis, ψq “PpR“0|ψq

C’est-à-dire que la probabilité d’avoir une observation y_ij absente ne dépend pas des don- nées Y mais dépend uniquement de certains paramètres ψ. Ceci implique que les causes des données manquantes ne sont pas reliées aux données. Nous pouvons par conséquent ignorer les nombreuses complexités qui découlent des données manquantes, en dehors de la perte évidente d’information. Un exemple de données MCAR est un dosage pour lequel les données absentes correspondent à une panne de matériel. Bien que pratique, MCAR est souvent irréaliste.

Les donn´ees sont dites MAR (Missing At Random) si :

PpR“0|Y_obs, Y_mis, ψq “PpR “0|Y_obs, ψq

C’est-à-dire que la probabilité des données manquantes peut dépendre de l’information ob- servée, y compris des facteurs de conception. Cette probabilité est la même que dans les groupes définis par les données observées. Par exemple, si à partir d’un certain temps on a des données manquantes de manières aléatoire, alors les données sont MAR. MAR est beaucoup plus large que MCAR, elle est plus générale et plus réaliste que MCAR. Les méthodes modernes de données manquantes commencent généralement par une hypothèse MAR.

Les donn´ees sont dites MNAR (Missing Not At Random) si : PpR“0|Y_obs, Ymis, ψq ne se simplifie pas

C’est-à-dire que la probabilité d’être absent dépend aussi de l’information non observée, y comprisY_mis et elle varie pour des raisons qui nous sont inconnues. Par exemple, si les données absentes dépendent de la personne qui les récolte et que cette personne change au cours du temps sans que nous ayons l’information de ce changement, nous obtenons des données MNAR.

MNAR est le cas le plus complexe, les stratégies pour traiter les cas MNAR sont de trouver plus de données sur les causes de l’absence, ou d’effectuer une analyse de sensibilité, voir section 1.5.2.3 page55.

Les techniques simples fonctionnent habituellement seulement sous MCAR, mais cette hy- pothèse est très restrictive et souvent irréaliste.

Plusieurs tests ont été proposés pour tester MCAR vs MAR. Ces tests ne sont pas largement utilisés et leur valeur pratique n’est pas claire. Enders [2010] propose deux procédures, voir section 1.5.1.1 page 51 pour plus de détails. Notez qu’il n’est pas possible de tester MAR vs MNAR puisque l’information nécessaire pour un tel test est absente.

1.2.3 Ignorable et non ignorable

Les paramètresψn’ont pas de valeur scientifique intrinsèque et sont généralement inconnus.

Si nous pouvions simplement ignorer ces param`etres, cela simplifierait l’analyse. La distinction

(26)

entre MCAR, MAR et MNAR est très importante puisqu’elle précise les conditions sous lesquelles nous pouvons estimer les paramètres d’intérêt, sans avoir besoin de connaitre ψ [Van Buuren, 2012, p. 33].

Les données réellement observées sont constituées de Y_obs et de R. La fonction de densité conjointe fpY_obs, R|θ, ψqdeY_obs et deRdépend des paramètresθpour les données complètesY et des paramètresψpour l’indicatrice de réponseR. Les paramètresθont un intérêt scientifique contrairement aux paramètres ψ.

La densit´e conjointe est proportionnelle `a la vraisemblance deθetφ, ie lpθ, φ|y_obs, Rq9fpY_obs, R|θ, ψq

Ce qui est int´eressant c’est de savoir s’il est possible de d´eterminerθsans connaitre ψ, c’est

`

a dire déterminerθ en ignorant le mécanisme qui crée les valeurs absentes.

La r´eponse est donn´ee parLittle and Rubin [2002] :

Le mécanisme des données manquantes estignorable pour l’inférence probabiliste si : 1. MAR : les données manquantes sont Missing At Random

2. Distinction : les paramètres θ etψ sont distincts, c’est-à-dire que l’espace des paramètres joints (ψ,θ) est le produit de l’espace des paramètresψ et de l’espace des paramètres θ.

La condition MAR est généralement considérée comme la condition la plus importante.

SelonSchafer[1997], dans beaucoup de situations, la condition sur les paramètres est ”intui- tivement raisonnable, sachant queθfournira peu d’informations surψet vice-versa”. Il faut juste faire attention aux situations où l’intérêt scientifique se concentre sur le processus de données manquantes lui-même.

Pour des fins pratiques, le modèle de données manquantes est dit êtreignorablesi l’hypothèse MAR tient.

1.2.4 Configuration des donn´ees manquantes

La configuration des données manquantes peut être classée en 3 catégories, illustrées dans la figure 1.1.

Figure 1.1 – Configuration des données manquantes. Les cases en gris clair représentent les données manquantes.

Univari´ee Monotone Arbitraire

1.2.4.1 Univari´ee

Les données manquantes sont dites univariées si une seule variable possède des données absentes. Ce cas est rarement observé en pratique.

(27)

26 Section 1.3 – Les m´ethodes dites simples

1.2.4.2 Monotone

Les données manquantes sont dites monotones si les variables peuvent être ordonnées en fonction de leur données absentes. On considère Y une matricenˆp comme définie précédem- ment. Les variablesY₁, .., Y_p ont une structure monotone siY_j est manquante pour un individu i, i “ 1, . . . , n alors toutes les variables suivantes Y_k pour k ą j sont absentes pour ce même individu.

1.2.4.3 Non monotone ou arbitraire

Les données manquantes sont dites arbitraires si il n’y a pas de structures dans les données manquantes. C’est-à-dire que les données manquantes sont réparties uniformément dans le jeu de données.

1.2.5 Flux entrant et sortant

Les configurations des données manquantes décrites dans la section précédente influencent la quantité d’information qui peut être transférée entre les variables. L’imputation peut être plus précise si d’autres variables sont non manquantes pour les cas qui sont à imputer. La réciproque est aussi vraie. Les prédicteurs sont potentiellement plus puissants s’ils ont des valeurs observées dans les lignes qui ont beaucoup de valeurs absentes. Cette partie présente deux mesures qui permettent de savoir comment chaque variable se connecte aux autres : le flux entrant et le flux sortant.

Le coefficient de flux entrant I_j est d´efini parVan Buuren [2012, p. 99] : I_j “

řp j

řp k

řn

ip1´r_ijqr_ik řp

k

řn i rik

(1.1) Le coefficient est égal au nombre de variables paires pY_j, Y_kq avec Y_j manquant et Y_k ob- servé, divisé par le nombre total de cellules de données observées. La valeur deIj dépend de la proportion de données manquantes de la variable. Le flux entrant d’une variable complètement observée est égal à 0, tandis que pour une variable totalement absente il est égal à 1. Pour deux variables avec la même proportion de données manquantes, la variable avec le flux entrant le plus élevé est mieux connectée aux donnés observées, et ainsi pourrait être plus facile à imputer.

Le coefficient de flux sortant O_j est d´efini de fa¸con analogue parVan Buuren [2012, p. 99] : Oj “

řp j

řp k

řn

i r_ijp1´r_ikq řp

k

řn i 1´rij

(1.2) La quantité Oj est le nombre de variables paires avec Yj observé et Y_k manquant, divisé par le nombre total de cellules de données incomplètes. Le flux sortant est un indicateur de l’utilité potentielle deY_j pour imputer d’autres variables, il dépend de la proportion de données manquantes de la variable. Le flux sortant d’une variable complètement observée sera égal à 1 tandis que celui d’une variable complètement manquante est égale à 0. Pour deux variables ayant la même proportion de données manquantes, la variable avec le flux entrant le plus élevé est mieux connectée aux données absentes, et ainsi est susceptible d’être plus utile pour imputer les autres variables.

1.3 Les m´ ethodes dites simples

Le domaine de la recherche sur les données manquantes est vaste. Cette thèse se concentre sur l’imputation multiple et ne cherche pas à couvrir la littérature sur les autres approches de données