• Aucun résultat trouvé

Prédiction de survie sur des données cliniques censurées et application à la MPOC

N/A
N/A
Protected

Academic year: 2021

Partager "Prédiction de survie sur des données cliniques censurées et application à la MPOC"

Copied!
71
0
0

Texte intégral

(1)

PRÉDICTION DE SURVIE SUR DES DONNÉES

CLINIQUES CENSURÉES ET APPLICATION À LA

MPOC

par

Aurélien Bach

Mémoire présenté au Département d’informatique

en vue de l’obtention du grade de maître ès sciences (M.Sc.)

FACULTÉ DES SCIENCES

UNIVERSITÉ DE SHERBROOKE

(2)

Le 13 décembre 2017

le jury a accepté le mémoire de Monsieur Aurélien Bach dans sa version finale

Membres du jury

Professeur Shengrui Wang Directeur de recherche Département d’Informatique

Professeur Mohamed Bouguessa Membre externe

Département d’Informatique

Professeur Djemel Ziou Président-rapporteur Département d’Informatique

(3)

Sommaire

La MPOC (Maladie Pulmonaire Obstructive Chronique) est une maladie respira-toire chronique causée principalement par le tabagisme et touchant le plus souvent des personnes âgées de plus de quarante ans. Parce qu’elle est responsable du plus haut taux de réadmission ainsi que de la troisième cause de décès en Amérique du Nord et dans le reste du monde, les chercheurs et cliniciens s’intéressent à prédire le risque auquel les patients font face, de sorte à améliorer les soins et les traitements tout en optimisant les prestations des services de santé. Dans le domaine de l’ana-lyse de survie, on s’intéresse à prédire le temps avant qu’un évènement particulier ne survienne, à savoir une éventuelle réhospitalisation ou un décès dans le cas de la MPOC.

L’objet de ce mémoire est basé sur la prédiction de survie dans un contexte cli-nique en distinguant deux types de prédictions. Le premier type de prédiction consiste à déterminer la probabilité qu’à un patient de subir un évènement au cours d’une pé-riode de temps déterminée. Dans cette partie nous comparerons différentes méthodes émergeant principalement du modèle à risque proportionnel de Cox. Ce modèle, très répandu en analyse de survie, utilise un estimateur du maximum de vraisemblance partielle pour calculer les coefficients du modèle. L’une des contributions de ce mé-moire consiste en une nouvelle représentation séquentielle des données permettant de définir une nouvelle vraisemblance pour le modèle de Cox. De plus, contrairement à la vraisemblance partielle de Cox, cette nouvelle vraisemblance intègre l’intégralité des données.

Le second type de prédiction consiste à déterminer à quel groupe de risque ap-partient le patient. Pour mener à bien cette opération, des méthodes de classification simples seront utilisées. L’une des contributions de cette partie sera l’utilisation de

(4)

Sommaire

réseaux de neurones pour la classification de données cliniques dans le contexte de la prédiction de survie, comparée à des méthodes de classification classiques. Avant de réaliser cela, il faudra étiqueter les données de sorte à faire correspondre chaque patient à son groupe de risque. L’autre contribution de cette partie consiste à définir l’indicateur utilisé pour réaliser la classification. Cette tâche est nécessaire car dans le contexte de l’analyse de survie, les données sont étiquetées en fonction de l’ap-parition de l’évènement et non en fonction du risque encouru par le patient. Dans toute l’étude, l’accent sera mis sur la comparaison de ces méthodes dans leur façon de gérer les données censurées. Une série de tests sur des données publiques réelles ainsi que sur une cohorte de patients atteints de MPOC a été réalisée pour évaluer les approches proposées dans ce mémoire.

Mots-clés: Prédiction de survie ; Analyse de survie ; Groupe de risque ;

(5)

Remerciements

Mes remerciements s’adressent à mon directeur de recherche, Shengrui Wang, pour sa bienveillance, ses conseils et pour m’avoir guidé dans mon travail.

Je remercie également l’ensemble des membres du Laboratoire ProspectUS, en lesquels j’ai trouvé bien plus que des collègues de travail, et en particulier Jianfei Zhang pour m’avoir grandement aidé pour mener à bien ce travail.

Enfin, je remercie ma famille qui, depuis l’autre côté de l’Atlantique, m’a soutenu et m’a encouragé et me témoignant de son soutien inconditionnel.

(6)

Abréviations

MPOC Maladie Pulmonaire Obstructive Chronique(parfois COPD pour Chronic

Obstructive Pulmonary Disease)

CHUS Centre Hospitalier Universitaire de Sherbrooke

MPLE Estimateur du Maximum de Vraisemblance (de l’anglais Maximum Partial

Likelihood Estimator)

EN Elastic-Net

RSF Forêt Aléatoire de Survie (de l’anglais Random Survival Forest) Seq Régression utilisant la méthode de séquence d’évènements

SVM Machine à Vecteur de Support

SVR Machine à Vecteur de support pour la Régression SAUC de l’anglais Survival Area Under the Curve

SCI Indice de concordance (de l’anglais Survival Concordance Index) SBS Score de Brier (de l’anglais Survival Brier Score)

(7)

Table des matières

Sommaire iii

Remerciements v

Abréviations vi

Table des matières vii

Liste des figures ix

Liste des tableaux xi

1 Introduction 1

1.1 Mise en contexte . . . 1

1.2 La Maladie Pulmonaire Obstructive Chronique. . . 2

1.3 Problématique. . . 3

1.4 Objectifs et structure du mémoire . . . 5

1.5 Contribution du mémoire. . . 6

2 État de l’art 8 2.1 Données temps-avant-évènement . . . 9

2.2 Prédiction de la probabilité de survie . . . 11

2.2.1 Modélisation de la probabilité de survie . . . 11

2.2.2 Modèle de Cox . . . 12

2.2.3 Vraisemblance partielle . . . 12

(8)

2.2.5 Régression pénalisée . . . 15

2.2.6 Forêts aléatoires de survie . . . 15

2.3 Classification par groupe de risque . . . 17

2.3.1 Régression logistique . . . 17

2.3.2 Machine à vecteurs de support. . . 19

2.3.3 Réseaux de neurones artificiels . . . 21

3 Prédiction de la probabilité de survie 24 3.1 Approche par séquence d’évènements . . . 25

3.1.1 Séquence d’évènements . . . 25

3.1.2 Vraisemblance totale . . . 26

3.2 Évaluation des prédictions . . . 29

3.3 Collecte des données et prétraitement . . . 31

3.3.1 Données MPOC . . . 31

3.3.2 Données publiques . . . 34

3.4 Étude de cas. . . 34

3.4.1 Résultats sur les données MPOC . . . 35

3.4.2 Résultats sur les données publiques . . . 37

3.4.3 Contribution des données censurées . . . 38

3.5 Conclusion . . . 39

4 Classification par groupe de risque 40 4.1 Indicateur de classification . . . 40

4.2 Date de la prédiction . . . 43

4.3 Évaluation des prédictions . . . 45

4.4 Étude de cas. . . 46

4.4.1 Résultats sur les données MPOC . . . 46

4.4.2 Résultats sur les données publiques . . . 47

4.5 Conclusion . . . 50

(9)

Liste des figures

Liste des figures

2.1 Example de suivi d’une cohorte de six patients pour une étude de 60 jours . . . 10

2.2 Exemple de réseaux de neurones utilisés, avec 4 variables d’entrées (en rouge), 3 neurones cachés (en bleu) et une seule sortie (en vert) . . . 22

3.1 Différentes formes pour la fonction h0 en fonction des paramètres k et λ. 29

3.2 Distribution des temps de survie pour les 503 patients atteint de MPOC (en échec ou censurés) selon l’age et le sexe. . . 32

3.3 Comparaison des probabilités de survie de deux patients sur une pé-riode de un an. Le trait vertical est tracé à 83 jours, date de décès du patient à haut risque. . . 37

3.4 Comparaison des performances des modèles en terme de SAUC, SCI, SBS sur les trois jeux de données publics, PBC, LUNG et STD. . . . 38

3.5 Comparaison des performances des modèles en terme de SCI, SBS sur les trois jeux de données publics PBC, LUNG et STD. Pour chaque paire, la colonne de gauche est le résultats sur les données complètes, et la colonne de droite est le résultat sur les données non censurées uniquement. . . 39

4.1 Exemple de définition de l’indicateur de statut (ou censure) et de l’in-dicateur de risque pour les données censurées. . . 41

4.2 Répartition des classes selon l’indicateur (de risque sur la ligne supé-rieure, de statut sur la ligne inférieure) pour les jeux de données COPD, PBC, LUNG, STD à la date de fin de la période de suivi. . . 42

(10)

Liste des figures

4.3 Répartition des classes, pour les indicateurs de statut et de risque, à

t1, t2 et t3 pour les données (a) MPOC, (b) PBC, (c) LUNG, (d) STD 44

4.4 Comparaison des différentes approches en terme d’Exactitude, de Rap-pel, de Précision et de F-mesure, pour les données MPOC aux temps

t1, t2, t3 et t4. . . 48

4.5 Comparaison des différentes approches en terme d’Exactitude, de Rap-pel, de Précision et de F-mesure, pour les données publiques aux temps

t1, t2, t3 selon l’indicateur de statut. . . 49

4.6 Comparaison des différentes approches en terme d’Exactitude, de Rap-pel, de Précision et de F-mesure, pour les données publiques aux temps

(11)

Liste des tableaux

3.1 Facteurs de risques spécifiques à la MPOC utilisés pour la prédiction de la probabilité de survie . . . 33

3.2 Statistiques des données publiques. . . 34

3.3 Comparaison des performances des modèles, en terme de SAUC, SCI et SBS, pour une période d’observation de 1 an, issus d’une validation croisée (k=3), présentés sous la forme "moyenne(écart-type)" . . . 36

3.4 Comparaison des performances des modèles (validation croisée, k=3) en terme de SAUC, pour différentes périodes d’observation . . . 36

(12)
(13)

Chapitre 1

Introduction

1.1

Mise en contexte

L’analyse de survie, ou la prédiction de survie intervient dans des domaines variés pour examiner le risque qu’un évènement se produise au cours d’une période d’obser-vation fixée. Bien que ce type de prédiction soit surtout utilisé dans le milieu médical, on l’utilise aussi beaucoup en économie (p.ex. prédiction de faillite), en mécanique (p.ex. panne de moteur), en électronique (p.ex. temps de vie des composants élec-troniques), en sciences sociales (p.ex. estimation du temps entre les mariages et les divorces) ainsi que dans divers autres domaines [40].

Dans les recherches cliniques, les spécialistes sont généralement confrontés à la prévision d’un temps (p.ex. le temps avant lequel un patient doit être mis en garde contre un évènement médical indésirable, comme l’apparition d’une maladie, la ré-admission ou le décès) ou à la prévision d’un groupe à risque (p.ex. quel groupe de patient est le plus susceptible de subir un évènement indésirable). Dans ce contexte, l’analyse de survie permet deux types de prédiction :

1. la prédiction de survie : il s’agit de prédire la probabilité de survie d’un patient au cours d’une période de temps déterminée.

2. la classification par groupe de risque : il s’agit de prédire quel groupe de patient a le plus de risque de subir un évènement.

(14)

Chapitre 1. Introduction

Il est alors possible d’effectuer une prédiction de survie sur des données de type "temps-avant-évènement" et de générer des modèles pronostiques pour comprendre les processus pathologiques [42], pour explorer les interactions entre les facteurs de risque [24,32], et pour prédire comment les nouveaux patients se comporteront dans le contexte des données connues [46]. L’utilisation des méthodes de prédiction de survie permet aux cliniciens de répondre aux questions des patients concernant les risques probables au cours du temps. Par exemple, un médecin pourra dire à un patient de 70 ans que ses chances de survie sont de 60% un an après le diagnostic et qu’elles seront de 40% après trois ans. De telles prédictions aident la prise de décision quant au choix du traitement, de l’adaptation du mode de vie et parfois, des mesures de soin en fin de vie [29,46].

Les données de type temps-avant-évènement incluent pour chaque patient un in-dicateur dit "de censure". Il s’agit d’un inin-dicateur d’évènement binaire indiquant si le patient a subi l’évènement pendant la période de suivi ou non. Les données de type temps-avant-évènement pour un patient donné peuvent être résumées par trois éléments : les valeurs des facteurs de risque, l’indicateur de censure, le temps d’intérêt (c’est-à-dire le temps de survie ou le temps de censure).

1.2

La Maladie Pulmonaire Obstructive Chronique

La Maladie Pulmonaire Obstructive Chronique (MPOC) désigne une maladie res-piratoire chronique caractérisée par l’essoufflement, la toux chronique et la production accrue de mucus. Elle est souvent causée par le tabagisme et est habituellement diag-nostiquée chez des personnes de plus de quarante ans. La MPOC est une maladie évitable et traitable mais irréversible. Elle est à elle seule responsable du plus haut taux de réadmission et représente la quatrième cause de mortalité au Canada et dans le reste du monde selon l’Organisation Mondiale de la Santé [44]. Habituelle-ment, la MPOC est causée non seulement par des facteurs génétiques, mais aussi par différentes variables, comme le sexe, l’âge, le tabagisme, etc. Un grand nombre de patients atteints de MPOC pourraient être traités de manière adéquate si les évè-nements cliniques indésirables, comme par exemple la ré-hospitalisation ou le décès, étaient prévus plus tôt, avant l’aggravation de leur état. Par conséquent, il y a un

(15)

1.3. Problématique

intérêt à prédire le risque que l’évènement se réalise, de sorte à distinguer les patients entre ceux présentant un risque élevé et ceux présentant un risque faible ou modéré selon les mesures de différents facteurs de risque. Cette classification est importante pour les services de santé, car elle fournit des informations utiles aux cliniciens dans la découverte de la gravité de la maladie du patient, et permettent d’éviter des hos-pitalisations inutiles ou des décès précoces.

Pour mener à bien ces objectifs, de nombreuses applications récentes dans la pré-diction de survie ont été rendues possibles grâce à l’utilisation de méthodes d’appren-tissage telles que des méthodes de régression ou de classfication [12, 17, 23,35].

1.3

Problématique

En ce qui concerne la prédiction de la probabilité de survie, les méthodes de régres-sion existantes utilisent les valeurs des facteurs de risques collectées sur une population homogène, puis calculent les coefficients de régression du modèle correspondant aux facteurs de risque pour décrire les effets simultanés de ces facteurs sur la probabilité de survie. Les méthodes de régression les plus communes émergent généralement du modèle à risque proportionnel de Cox [7, 8] et utilisent logiquement la méthode du maximum de vraisemblance pour estimer les coefficients de régression, calcul qui peut se faire de manière efficace. Cependant, pour les essais cliniques pratiques, la méthode du maximum de vraisemblance s’avère être déficiente en efficacité et robustesse, prin-cipalement parce que 1) elle est sensible aux valeurs manquantes des facteurs de risque ainsi qu’aux échantillons de données de tailles petites ou moyennes ; 2) elle considère les données censurées comme non informatives (c’est-à-dire que le mécanisme de cen-sure est indépendant de l’évènement observé), ce qui entraîne une perte importante d’information en terme de prédiction [11,36]. La vraisemblance est d’ailleurs appelée vraisemblance partielle. Enfin, il est fréquent que les échantillons de données cliniques peuvent être de petites ou moyennes tailles. De plus, une quantité non négligeable de données est souvent manquante ou censurée. Cela représente un grand défi pour l’apprentissage de modèles basés sur le principe de maximum de vraisemblance.

Une autre méthode souvent utilisée concerne les forêts aléatoires de survie (de l’anglais Random Survival Forest) [17, 31] s’inspirant des forêts d’arbres décisionnels

(16)

Chapitre 1. Introduction

pour construire des ensembles de risque permettant de calculer les probabilités de survie. Lors de la création des arbres de décision, les noeuds sont divisés de sorte à maximiser la statistique de test du logrank [4]. Le test du logrank est un test non-paramétrique qui permet de comparer plusieurs courbes de survie sur l’ensemble du temps de suivi. Il n’est valide que sous l’hypothèse de censure non informative. Cette méthode souffre globalement des mêmes problèmes que les méthodes de régression précédentes, à savoir que les résultats dépendent grandement de la taille des données et du taux de censure des données. En effet, un fort taux de censure semble mener à de mauvaises performances [17].

Alors que l’analyse de survie était traditionnellement utilisée par les biostatisti-ciens, plusieurs approches d’apprentissage automatique ont été appliquées dans ce contexte [23]. L’une des premières approches pour traiter des données censurées uti-lisait des arbres de décision [14]. D’autres approches, dont diverses formes de réseaux de neurones [1, 10,22] ont aussi été utilisées. Les réseaux de neurones ont obtenus de bons résultats grâce à leur capacité de détection des dépendances non linéaires.

L’adoption répandue des approches basées sur la régression (régression logistique) et d’autres basées sur les Machines à Vecteurs de Support (SVM) ou les Machines à Vecteurs de support pour la Régression (SVR) a mené à des applications récentes en analyse de survie [13, 16,34, 39]. Des approches comme [16] traitent le problème de prédiction du groupe de risque comme un problème de classification et non comme un problème de régression. C’est bien dans un contexte de classification des patients par groupe de risque que se situe cette étude. Dans ce contexte, l’indicateur de censure peut être utilisé comme variable réponse pour effectuer une classification des patients par groupe de risque. Cependant, dans les cas pratiques et comme évoqué plus haut, une grande partie des données est censurée. Dans ce cas de figure, il est difficile pour les cliniciens d’utiliser l’indicateur de censure pour classer les patients par groupe de risque. En effet, si le patient est censuré pour n’avoir pas subi l’évènement avant la fin de la période d’observation, on peut facilement le considérer comme un patient à faible risque, en revanche, si le patient est censuré pour avoir abandonné l’étude avant de subir l’évènement, on ne peut conclure quant au groupe de risque auquel le patient appartient. L’utilisation de méthodes de classification supervisées classiques, telles que les Machines à Vecteurs de Support (SVM) sera limitée par ce problème.

(17)

1.4. Objectifs et structure du mémoire

En ce qui concerne les méthodes populaires à notre époque, l’utilisation de réseaux de neurones pour la classification est très largement répandue. Mais leur application à la prédiction de survie ainsi qu’à des cas cliniques concrets reste assez minoritaire. L’avantage de ce genre de techniques est quelles sont capables de fouiller l’information cachée dans les données sans aucune contrainte sur les propriétés de ces données. C’est pour cette raison que ces modèles sont considérés comme faisant partie des modèles les plus flexibles. Par contre, le problème majeur de cette méthode réside dans sa façon de gérer les données. En effet, agissant comme une boîte noire, elle fournit un modèle flou qui ne peut pas être exprimé explicitement.

1.4

Objectifs et structure du mémoire

Pour relever les défis évoqués plus haut, ce mémoire sera consacré aux deux ob-jectifs suivants :

— Comparer différents modèles de prédiction pour quantifier les relations entre les différents facteurs de risque et le temps de survie (ou probabilité de survie) pour une cohorte de patients atteints de MPOC.

— Utiliser des méthodes de classification pour grouper les patients selon le niveau de risque encourus.

Pour ce faire, le travail se découpe en trois principales étapes comportant chacune des objectifs précis. La première partie du travail dans le Chapitre 2 a pour but de dresser un état de l’art des principales approches existantes dans la littérature.

Dans la partie suivante, le Chapitre 3, l’objectif est de comparer différentes mé-thodes permettant de prédire la probabilité de survie pour une cohorte de patients atteints de MPOC. Ce travail a pour objectif de comparer comment les différentes méthodes utilisent les données censurées et non-censurées. D’un côté, nous abordons des méthodes existantes qui supposent les données censurées comme non informatives. De l’autre côté nous abordons une méthode qui s’éloigne de cette hypothèse. Cette méthode adopte une nouvelle représentation des données sous forme de séquence. À partir de cette représentation est définie une nouvelle vraisemblance dite "totale" basée sur la totalité des données, qu’elles soient censurées ou non. À l’inverse, les mé-thodes existantes n’utilisent que les données non-censurées, considérant les données

(18)

Chapitre 1. Introduction

censurées comme non informatives. Cette nouvelle vraisemblance (totale) ne dépend que des temps de survie ou de censure des patients, plutôt que de l’ordre des temps observés dans la vraisemblance partielle. Il est à noter que cette méthode fait l’objet d’une publication acceptée à la Conférence Internationale Advanced Information Net-working and Applications Workshops (WAINA), 2017 [47] pour laquelle j’ai participé sur la partie expérimentale.

Enfin dans la dernière partie, le Chapitre 4, l’objectif est d’appliquer des méthodes de classification sur des données cliniques pour obtenir un regroupement des patients selon le risque qu’ils encourent de subir l’évènement d’intérêt. La raison ayant mené à cette étude est la volonté d’étudier l’impact des données censurées dans une tâche supposée simple qu’est la classification (binaire) des patients. Pour mener à bien cet objectif, il faut tout d’abord définir ce qu’est un patient à faible risque, et ce qu’est un patient à fort risque, et comment ils sont représentés à l’aide des données censurées. À partir de cela, l’étude compare les résultats de la classification dans les deux cas possibles ; (1) la classification est réalisée selon l’indicateur de risque et (2) la classification est réalisée selon l’indicateur de censure (dit aussi indicateur de statut). Pour ce faire, plusieurs méthodes seront utilisées. Il s’agit de la régression logistique, des Machines à Vecteurs de Support (SVM) [16, 37] pour la classification et enfin de réseaux de neurones permettant de modéliser des structures plus complexes.

L’ensemble des approches théoriques présentées dans les deuxièmes et troisièmes parties de ce travail de recherche ont été évaluées sur des données réelles, à savoir une cohorte de patient atteint de MPOC, ainsi que les trois ensembles de données publiques suivant : PBC1 (Primary Biliary Cirrhosis), LUNG2 et STD3 (Sexually

Transmitted Disease).

1.5

Contribution du mémoire

Voici les principales contributions qu’apporte ce mémoire :

— La comparaison de méthodes pour la prédiction de la probabilité de survie, 1. http ://www.mayo.edu/research/documents/pbchtml/doc-10027635.

2. North Central Cancer Treatment Group.

3. Klein and Moeschberger (1997) Survival Analysis Techniques for Censored and truncated data, Springer.

(19)

1.5. Contribution du mémoire

mettant l’accent sur l’utilisation que ces méthodes font des données censurées et non-censurées.

— Cette comparaison inclut une nouvelle représentation des données ainsi que qu’une nouvelle vraisemblance totale permettant d’utiliser les données censu-rées au même titre que les données non-censucensu-rées.

— La comparaison de méthodes de classification dans un contexte de prédiction de survie sur des données cliniques pour regrouper les patients par groupe de risque.

— L’application pratique de nos approches théoriques sur des données réelles extraites de cas cliniques concrets.

(20)

Chapitre 2

État de l’art

Dans ce chapitre, nous présentons les travaux récents en lien avec les objectifs mentionnés précédemment. Ces travaux peuvent être classés en deux catégories. La première concerne la prédiction de la probabilité de survie au cours de la période de suivi alors que la seconde concerne la classification des individus selon le risque encouru. Pour la prédiction de la probabilité de survie, nous nous intéressons à deux approches. La première concerne la très utilisée régression de Cox [7] alors que la seconde concerne les forêts aléatoires de survie [17]. Ces deux méthodes se basent sur l’hypothèse que la censure est non informative. Pour la classification par groupe de risque, nous nous intéressons aussi à trois approches classiques pour la classification. Il s’agit de la régression logistique, des Machines à Vecteur de Support et des réseaux de neurones pour la classification.

Dans la première section, nous présentons le type de données utilisées en analyse de survie. Les deux sections suivantes présentent les travaux effectués dans les deux catégories, d’abord la prédiction de la probabilité de survie, puis la classification par groupe de risque.

(21)

2.1. Données temps-avant-évènement

2.1

Données temps-avant-évènement

Dans les recherches cliniques, il est souvent intéressant de mesurer le temps qui s’écoule avant qu’un évènement précis ne survienne. Cela peut être le temps entre le diagnostic et le décès dans une recherche sur le cancer, le temps entre le début du traitement et la rémission dans le suivi d’une tumeur, ou la durée avant une ré-hospitalisation après le premier séjour à l’hôpital. Les données recueillies sont alors des données de type "temps-avant-évènement" et le temps est appelé temps de sur-vie. Parfois l’évènement considéré est défavorable, comme le décès ou la récidive d’une maladie, mais il peut aussi être bénéfique, comme la guérison. Parce qu’on ne considé-rera ici que des évènements néfastes, on parle "d’échec" lorsque l’évènement survient. Les techniques et méthodes statistiques développées pour traiter ce genre de données relèvent de l’analyse de survie.

L’analyse des données de type temps-avant-évènement ne nécessiterait pas de mé-thodes particulières si nous connaissions le temps-avant-évènement pour chaque pa-tient. En effet, dans ce contexte nous ignorons les temps de survie exacts de certains patients, ce qui rend les données difficiles à analyser. Pour ces patients, le temps de survie est dit "censuré" (à droite), indiquant que le délai exact avant l’évènement (non observé) est supérieur ou égal ("à droite") à son délai de suivi. Nous ne savons pas quand et si l’événement se produira mais à la date où sont analysées les données, le patient est toujours "à risque" (c’est-à-dire qu’il n’a pas subi l’évènement et risque donc de le subir). L’autre mécanisme principal de censure concerne les patients dits "perdus de vue", c’est-à-dire ceux dont le suivi s’interrompt avant la date de fin de manière inopinée (p.ex. du fait d’un déménagement ou de changement de filière mé-dicale). De plus, dans de nombreux cas, les patients commencent l’étude à des dates différentes, certains d’entre eux seront donc toujours à risque à la fin de l’étude, mais n’auront été observés que sur une courte période de temps. Plus généralement, l’un des problèmes principaux des données temps-avant-évènement est que les individus sont habituellement observés sur des périodes de temps différentes.

La Figure 2.1 montre un exemple d’une cohorte de six patients recrutés pour une étude de 60 jours suivant un évènement comme le décès. Les patients A et B sont recrutés au début de l’étude. Le patient A subi l’évènement avant la fin mais

(22)

Chapitre 2. État de l’art

pas le patient B, qui est donc censuré. Les patients C, D et E sont recrutés après le début de l’étude et sont censurés à la fin de l’étude (le patient D car il n’a pas subi l’évènement et les patients C et E car ils ont abandonné l’étude avant la fin). Enfin, le patient F est recruté vers la fin de l’étude et il subit l’évènement avant la fin de la période de suivi. Lorsque le patient subit l’évènement, on parle de temps de survie pour le temps-avant-évènement, et on parle de temps de censure lorsque le patient est censuré. La survie signifie que le patient risque toujours de subir l’évènement. Autrement dit, le patient n’a pas encore échoué. La censure signifie que le patient a soit abandonné l’étude avant la fin de la période de suivi, soit a été jusqu’au bout de l’étude sans avoir subi l’évènement. Par conséquent, leur temps de survie exact est plus long que leur temps de censure.

Figure 2.1 – Example de suivi d’une cohorte de six patients pour une étude de 60 jours

En pratique les données de type temps-avant-évènement pour un patient i peuvent être résumées par le triplet (xi,t, yi, i) avec :

— xi,t = (x(1)i,t, x(2)i,t, ..., x(V )i,t ), le vecteur de dimension V contenant les valeurs des V facteurs de risque au temps t.

(23)

2.2. Prédiction de la probabilité de survie

— i, l’indicateur d’évènement (ou indicateur de censure) de sorte que

i = ⎧ ⎪ ⎨ ⎪ ⎩

1 si le patient i est en échec 0 sinon

(2.1)

— yi, le temps observé, qui représente soit le temps de survie Ti soit le temps de censure Ci, c’est-à-dire yi = ⎧ ⎪ ⎨ ⎪ ⎩ Ti si i = 1 Ci sinon (i = 0) (2.2)

2.2

Prédiction de la probabilité de survie

2.2.1

Modélisation de la probabilité de survie

Une fonction de survie est communément utilisée pour prévoir la probabilité de survie jusqu’à l’instant t, ou plus généralement, la probabilité que l’évènement n’aie pas encore eu lieu avant t. Cette probabilité, notée S(t|xi,t), est appelée probabilité de survie, et est calculée par :

S(t|xi,t) = P r(Ti ≥ t) = exp{−  t

0

h(u|xi,u)du}, (2.3) où la fonction de risque h(∗) donne la probabilité que l’évènement arrive au temps t, sachant qu’il n’est pas survenu avant t. Cette fonction de risque est définie par :

h(t|xi,t) = lim dt→0

P r(t ≤ Ti ≤ t + dt | Ti ≥ t)

dt . (2.4)

Le numérateur de cette expression représente la probabilité conditionnelle que l’évènement se réalise dans l’intervalle de temps [t, t + dt] sachant qu’il ne s’est pas réalisé avant, alors que le dénominateur est la largeur de l’intervalle de temps.

(24)

Chapitre 2. État de l’art

2.2.2

Modèle de Cox

Les modèles de régression de type Cox [7, 8] considèrent que le risque pour une observation xi est proportionnel à un risque de base h0 commun à toutes les observa-tions. Cela donne à la fonction de risque h(∗) la forme suivante :

h(t|xi,t; β) = h0(t) exp{β · xi,t} , (2.5) où

— β ∈ RV est le vecteur contenant les coefficients de régression, i.e., les para-mètres du modèle, qui décrivent comment le risque varie selon les facteurs de risque.

— h0(t) est le risque de base, qui décrit comment le risque d’évènement par unité de temps varie en fonction du temps. Il a pour propriété d’être positif, indé-pendant de β et est laissé indéterminé, ce qui rend le modèle de Cox semi-paramétrique.

Le modèle de Cox est dit à risques proportionnels. C’est une hypothèse importante qui signifie que le rapport des risques instantannés de deux individus xi et xj ne dépend pas du temps :

h(t|xi,t) h(t|xj,t) =

h0(t) exp{β · xi,t}

h0(t) exp{β · xj,t} = exp{β · (xi,t− xj,t)} (2.6) C’est une hypothèse importante du modèle de Cox. En effet, si βk est positif (respectivement négatif) et si deux sujets ne diffèrent que par la k-ième caractéristique, des valeurs élevées de cette caractéristique seront associées à un risque instantané plus élevé (respectivement plus faible).

2.2.3

Vraisemblance partielle

La popularité de ce modèle est sûrement due à l’utilisation d’une vraisemblance partielle dont les propriétés sont très similaires aux fonctions de vraisemblance ordi-naires. En effet, la clé de l’apprentissage d’un modèle de Cox consiste à déterminer la valeur des coefficients β qui maximisent la vraisemblance connaissant les données

(25)

2.2. Prédiction de la probabilité de survie

observées. Comme c’est généralement le cas pour estimer la vraisemblance, il faut uti-liser la probabilité (ou la densité de probabilité) des données observées en fonction de β. Les temps de survie de tous les individus d’une population homogène sont des va-riables aléatoires continues de densité de probabilité f (t). Étant donné les coefficients de regression β du modèle et l’ensemble des données avec N individus, c’est-à-dire (xi,t, yi, i),∀i = 1, 2, . . . , N, on peut analyser comment ces individus contribuent à la vraisemblance, comme suit :

— L’individu i pour qui l’évènement est observé au temps yi, c’est-à-dire i = 1, contribue par f (yi|xi; β) à la vraisemblance.

— L’individu i qui est censuré au temps yi, c’est-à-dire i = 0, contribue par S(t|xi; β), car tout ce que nous savons est qu’il a survécu jusqu’à ce moment. Ainsi, la vraisemblance complète a la forme :

L(β;{(xi,t, yi, i)}Ni=1) = N  i=1 f (yi|xi; β)iS(yi|xi; β)1−i (2.7) = N  i=1 h(yi|xi; β)iS(yi|xi; β), (2.8)

où h(t|xi; β) = S(t|xif (t|xi;β);β).

En particulier, compte tenu des N patients, les modèles de Cox visent à maximiser la vraisemblance partielle sous la forme :

L(β;{(xi, yi, i)}Ni=1) = N  i=1 P r(i échoue à yi; β) P r(j ∈ R(yi) échoue à yi; β) (2.9) = N  i=1 ( exp{β · xi} j∈R(yi)exp{β · xj} )i (2.10) =  i∈1 exp{β · xi}  j∈R(yi)exp{β · xj} , (2.11)

R(t) := {i tel que yi ≥ t} est l’ensemble des patients à risque, qui contient tous les patients qui, à t, risquent de subir l’évènement. On l’appelle plus brièvement "ensemble de risque". Comme h0 est présent au numérateur comme au dénominateur,

(26)

Chapitre 2. État de l’art

il a été supprimé, et donc aucune hypothèse sur la forme du risque de base n’est nécessaire, ce qui permet un calcul plus efficace.

2.2.4

Calcul pratique

Le calcul des coefficients β consiste alors à résoudre le problème d’optimisation suivant :

maxβL(β;{(xi, yi, i)}Ni=1) (2.12) en utilisant l’algorithme de descente du gradient par exemple. Une fois qu’un ˆβ optimal est trouvé, on peut calculer la probabilité de survie grâce aux Équations 2.3

et 2.5. La distribution de Weibull [43] est souvent utilisée avec les modèles à risque proportionnels :

W eibull(λ, k) = kλktk−1exp(−ktk) (2.13) Par conséquent, le risque de base s’identifie [25] à la fonction suivante :

h0(t) = kλktk−1 (2.14)

où l’échelle de la distribution est déterminée par λ et la forme par k.

En pratique, pour des recherches cliniques, la méthode de maximisation de la vraisemblance souffre des faiblesses suivantes :

— L’ensemble de risque R(∗) au dénominateur signifie que la vraisemblance par-tielle dépend uniquement de l’ordre des temps de survie observés, c’est-à-dire de l’inégalité Tj ≥ Ti pour xj et xi, plutôt que de leur valeur numérique. En conséquence, le biais de précision au niveau de l’estimation des coefficients β issus de l’utilisation de la vraisemblance partielle peut devenir assez impor-tant dans le cas d’échantillons de tailles faibles ou modérées ayant des valeurs manquantes pour certains facteurs de risque [11, 20].

— Le numérateur révèle que la vraisemblance partielle ne modélise explicitement que les patients en échec (i = 1), alors que les données censurées ne contri-buent que par l’intermédiaire de l’ensemble de risque (c’est-à-dire au déno-minateur). Autrement dit, les patients censurés sont considérés comme non

(27)

2.2. Prédiction de la probabilité de survie

informatifs [3,36,28]. Cela conduit à une perte substantielle d’information en matière de prédiction [46].

Effectivement, dans de nombreux cas cliniques concrets, les tailles des échantillons de données sont faibles ou modérées avec, en général, une proportion non négligeable de données censurées ou manquantes.

2.2.5

Régression pénalisée

Comme le problème d’optimisation à l’Équation 2.12 peut conduire à du sur-apprentissage, une modification possible de la fonction de vraisemblance consiste à ajouter une pénalité de type elastic net. Cette pénalité consiste en une fonction basée sur les régression de type Ridge et LASSO, de sorte que le problème d’optimisation devienne :

minβL(β;{(xi, yi, i)}Ni=1) + λ1β1+ λ2β22 (2.15) Cette pénalité devient une pénalité Ridge avec (λ1 = λ, λ2 = 0) et devient une pénalité LASSO avec (λ1 = 0, λ2 = λ). Pénaliser la vraisemblance de cette manière devrait permettre d’améliorer les résultats et de limiter le sur-apprentissage en théorie [48]. En pratique, l’utilisation d’ensembles de données de taille faible ou modérée ne permet pas d’assurer de meilleurs résultats que pour le modèle de Cox classique.

2.2.6

Forêts aléatoires de survie

Les méthodes basées sur l’hypothèse de risques proportionnels deviennent moins efficaces lorsqu’il s’agit de modéliser des dépendances non-linéaires entre les variables, notamment à cause de leur caractère semi-paramétrique. Pour améliorer l’apprentis-sage [2], des techniques de randomisation comme les forêts aléatoires de survie (RSF) peuvent être utilisées. Ces techniques permettent de surmonter les problèmes précé-dents en facilitant la découverte de structures de données complexes.

La méthode de forêts aléatoires de survie (RSF) [17, 31] définit deux principes particuliers dans le contexte de l’analyse de survie. Le premier est l’utilisation du test du logrank pour construire les arbres de décision. Le second est la construction

(28)

Chapitre 2. État de l’art

d’ensembles de mortalité pour prédire la probabilité de survie. De manière générale, l’algorithme RSF peut être résumé par les trois étapes suivantes :

1. Création de B échantillons par bootstrap depuis les données d’origine.

2. Croissance d’un arbre pour chaque échantillon : chaque noeud est divisé de sorte à maximiser la statistique du test du logrank sur p variables présélectionnées. Un noeud est terminal si le nombre d’individus en échec à ce noeud est égal à un certain seuil.

3. Pour chaque arbre, calcul d’une fonction de risque cumulatif. La moyenne des B fonctions sert à prédire la probabilité de survie.

Lorsqu’un noeud est divisé en deux branches, la règle la plus utilisée cherche à maximiser la statistique de test du logrank [4,27] pour ces deux groupes. En analyse de survie, le test du logrank permet d’estimer les fonctions de survie de deux groupes à chaque temps d’intérêt (c’est-à-dire à chaque temps de survie ou de censure). Il s’agit d’un test non-paramétrique pour des données censurées dans le contexte de censure non-informative. Il est utilisé pour tester l’hypothèse nulle selon laquelle il n’y a aucune différence dans la probabilité de survie entre les deux groupes à chaque temps d’intérêt. Le calcul de cette statistique est basé sur les temps de chaque évènement. Pour chacun de ces temps j, on totalise le nombre d’évènements observés O1,j et O2,j (pour les groupes 1 et 2) et le nombre d’invidus à risque N1,j et N2,j. On peut alors estimer le nombre d’évènements attendus pour chaque groupe i∈ {1, 2} :

Ei,j = Oj

NjNi,j avec Oj = O1,j+ O2,j et Nj = N1,j+ N2,j (2.16) La statistique de test est alors calculée par :

Z = (O1− E1) 2 E1 + (O2− E2)2 E2 avec Ei = T j=1 Ei,j et Oi = T j=1 Oi,j (2.17)

Tout comme la régression de Cox, les forêts aléatoires de survie se placent dans le contexte où la censure est non-informative. En effet, la statistique de test du logrank ne dépend que du nombre d’évènements à chaque instant. Cependant, les applications

(29)

2.3. Classification par groupe de risque

existantes des forêts aléatoires de survie font état d’une amélioration de l’erreur de prédiction [17].

2.3

Classification par groupe de risque

Plusieurs méthodes permettant de réaliser un travail de classification ont été pro-posées pour des données cliniques. L’objectif de ces travaux est de prédire le risque auquel fait face un patient en le classant dans le bon groupe de risque. Les méthodes présentées abordent le problème de classification comme un problème de régression.

2.3.1

Régression logistique

Le modèle de régression logistique [26] est un membre de la famille des modèles linéaires généralisés très souvent utilisé dans le domaine de la santé. Il permet de mettre en évidence une relation de dépendance entre une variable binaire Y (telle que Y = 1 s’il y a succès et Y = 0 s’il y a échec) et des variables explicatives continues ou binaires X = (X1, X2, . . . , XJ). Le modèle linéaire est relié à la variable prédictive par une fonction lien, généralement la fonction logit.

Le modèle définit l’espérance de Yidépendemment des observation xi = (xi,1, . . . , xi,J) par :

E[Yi|xi] = 0× P (Yi = 0|xi) + 1× P (Yi = 1|xi) = pi (2.18) La régression est dite logistique car la loi de probabilité est modélisée à partir d’une loi logistique, par la fonction de lien logit :

log pi

1− pi = β0+ β1xi,1+ . . . + βJxi,J = β tx

i (2.19)

où β est le vecteur des coefficients de régression du modèle. Cette dernière équation permet d’écrire : pi = exp(β tx i) 1 + exp(βtx i) (2.20)

(30)

Chapitre 2. État de l’art

Les coefficients de régression (β1, . . . , βJ) permettent d’interpréter l’impact des va-riables prédictives (x1, . . . , xJ) sur la probabilité de succès.

Le calcul de ces coefficients est communément effectué en maximisant la fonction de vraisemblance. Comme la fonction de probabilité pour une observation (yi, xi) est, sous l’hypothèse que Yi suit une loi binomiale :

fβ(yi; xi) = pyii (1− pi)1−yi, y

i ∈ {0, 1} (2.21)

On en déduit alors que pour N observation indépendantes et identiquement distri-buées, la fonction de vraisemblance s’écrit :

L(β; y, x) = N  i=1 fβ(yi; xi) (2.22) = N  i=1 pyii (1− pi)1−yi (2.23)

Le calcul des coefficients constitue un problème d’optimisation qui peut être résolu en maximisant cette vraisemblance (ou en minimisant l’inverse de la log-vraisemblance) à l’aide d’une méthode itérative comme la méthode de Newton. Ainsi, le modèle appliqué à un individu x est alors calculée par exp( ˆβtx)

1+exp( ˆβtx).

Différentes méthodes ont été mises au point pour pénaliser et améliorer les prédic-tions, dont la régression logistique bayésienne [6]. Dans ce mémoire, nous utiliserons la même approche que pour la régression de Cox, à savoir l’ajout d’un terme de péna-lisation [48] qui permet de sélectionner un sous-ensemble de variable au travers d’une pénalité de type LASSO et d’une pénalité de type Ridge. Le problème consiste alors à maximiser la vraisemblance suivante :

L(β; y, x) = N  i=1 pyii (1− pi)1−yi+ λβ1+β2 2 (2.24)

(31)

2.3. Classification par groupe de risque

2.3.2

Machine à vecteurs de support

La méthode SVR (Machine à vecteurs de support pour la Régression) s’est avérée être une approche robuste et utile dans divers domaines d’application [30]. Du point de vue de la régression, le problème est de trouver une fonction f :RV → R qui fait correspondre précisément la cible yi ∈ {0, 1} au xi correspondant. Cependant, étant donné qu’il est impossible de construire un modèle qui conviendra parfaitement à tous les individus, une marge d’erreur acceptable est réglée avec un paramètre  appelé "perte". Ainsi, la perte est minimisée en même temps que la régularisation contrôle la capacité d’apprentissage du modèle. La perte c(e) = max(0,|e| − ) où e = f(xi)− yi est nulle aussi longtemps que la différence entre les valeurs actuelles et les valeurs prédites est inférieure à . Quand cette différence dépasse , il y a un coût qui croît linéairement.

Quand f est linéaire, f (x) = w·x+b, le SVR optimal peut être obtenu en résolvant le problème d’optimisation suivant :

minw,b1 2||w|| 2+ C N i=1 i+ ξi) (2.25) t.q.yi− w · xi− b ≤  + ξi (2.26) w· xi+ b− yi ≤  + ξi ξi, ξi ≥ 0, ∀i (2.27) où le paramètre C est un compromis entre la marge et la pénalité. Les variables ressort ξi, ξi représentent l’écart entre l’individu et la frontière et permettent d’assouplir les contraintes.

Pour gérer les relations non-linéaires entre les variables pronostiques et la cible, la méthode SVR a souvent recours à un noyau [9]. En projetant chaque individu dans l’espace de Hilbert H via une application Φ : RV → H, il est alors possible d’effectuer la régression dans cet espace de Hilbert, donnant ainsi une fonction complexe dans l’espace de départ RV. De plus, ces applications ne sont pas définies explicitement, mais implicitement par une fonction du noyau [9] κ(xi, xj) = Φ(xi)· Φ(xj). La formu-lation de SVR avec noyau et utilisant les multiplicateurs de Lagrange [9] est donnée par :

(32)

Chapitre 2. État de l’art minα,α1 2 N i=1 i− α∗i)(αj − α∗j)κ(xi, xj) N i=1 (yi− )αi N i=1 (yi+ )α∗i (2.28) t.q. N i=1 i− α∗i) = 0 (2.29) 0≤ αi, α∗i ≤ C, ∀i (2.30)

où les αi sont les multiplicateurs de Lagrange.

Une fois que la formulation ci-dessus est résolue pour trouver les α et α∗optimaux, la valeur de la fonction en x est donnée par :

f (x) = N i=1

i− α∗i)κ(xi, x) + b (2.31)

L’utilisation de techniques de classification visent à trouver une fonction φ :RV {−1, +1} de sorte à faire correspondre les signes des étiquettes des données actuelles avec les étiquettes prédites, chaque patient étant étiquetté par δi ∈ {−1, +1}. Les machines à vecteurs de support trouvent une règle de classification φ(x) = sgn(w· x + b) en maximisant la marge. Par conséquent, la classification abordée dans [34] se rapporte au problème quadratique suivant :

minw,b1 2||w|| 2+ C N i=1 siξi (2.32) t.q.δi(w· xi+ b)≥ 1 − ξi (2.33) ξi ≥ 0, ∀i (2.34)

où les si sont les poids associés à l’individu i selon la méthode de Machine à vecteurs de support pondérée [45]. De manière simple, on souhaite que les individus de chaque classe aient des poids équivalents. On peut alors fixer si = 1 pour tous les individus de la classe en excès et si = taille de la classe en défauttaille de la classe en excès pour tous les individus de la classe en défaut. Pour une frontière de décision non linéaire, la formulation avec noyau

(33)

2.3. Classification par groupe de risque

ci-dessous peut être appliquée pour résoudre le problème.

minα N i=1 N j=1 αiαjyiyjκ(xi, xj)− ||α||1 (2.35) t.q. N i=1 αiyi (2.36) 0≥ αi ≥ C, ∀i (2.37)

Au final, la limite de décision non linéaire peut être obtenue par :

φ(x) = N i=1

αiyiκ(xi, x) + b (2.38)

2.3.3

Réseaux de neurones artificiels

Plusieurs approches utilisant des réseaux de neurones ont été explorées en analyse de survie [10,22,1]. Ces approches ont généralement pour objectif de réaliser la tâche de prédiction de la probabilité de survie. Dans ce mémoire comme dans certaines autres approches [19, 21], les réseaux de neurones utilisés ont pour objectif de classer les patients selon leur groupe de risque.

Les réseaux de neurones artificiels sont très utilisés actuellement, notamment pour effectuer ce type de tâches de classification supervisée. Comme le montre la Figure

2.2, il est en général composé d’une succession de couches (cachées) qui prennent chacune leur entrée dans la couche précédente alors que la première couche prend ses entrées dans les variables explicatives X = (X1, . . . , XJ) qui composent les données. Chaque couche est composée d’un certain nombre de neurones auxquels sont associés des poids (W, θ). La sortie d’un neurone de la couche i+1 est calculée par combinaison linéaires des sorties de la couche i en fonction des poids du neurone.

oi+1= f ( Ki k=1

(34)

Chapitre 2. État de l’art

Figure 2.2 – Exemple de réseaux de neurones utilisés, avec 4 variables d’entrées (en rouge), 3 neurones cachés (en bleu) et une seule sortie (en vert)

où Kiest le nombre de neurones de la couche précédente, θ le biais et f est une fonction d’activation. Cette fonction sert à introduire une non-linéarité dans le fonctionnement du neurone, même si en général, des fonctions comme la fonction sigmoïde ou tangente hyperbolique sont souvent utilisées. Ces fonctions permettent de maintenir la valeur de sortie du réseau dans [0, 1] ou [−1, 1]. Il est alors possible de convertir cette valeur dans {0, 1} pour obtenir la classe prédite par le neurone.

L’apprentissage du réseaux de neurones consiste à apprendre les valeurs des poids. Les exemples d’entrainement sont d’abord propagés dans le réseau, puis les erreurs de la couche de sortie sont propagés depuis la couche de sortie vers la couche d’entrée, par l’algorithme de rétropropagation du gradient. Les poids des neurones sont alors mis à jour en fonction de l’erreur commise dans chaque neurone.

Ce type de réseau offre une alternative simple en terme d’apprentissage de données complexes. Notamment car il permet de déceler des relations non-linéaires tout en s’adaptant à tout type de données. Cependant, les estimations produites par ces réseaux de neurones ne peuvent généralement pas être expliqués concrètement. En

(35)

2.3. Classification par groupe de risque

effet, les calculs aboutissant aux résultats constituent une boîte noire qui empêche d’avoir une confiance solide dans les résultats produits.

(36)

Chapitre 3

Prédiction de la probabilité de

survie

Après avoir présenté les approches existantes, nous avons constaté que, de ma-nière générale, les méthodes les plus classiques supposent une hypothèse forte sur les données. Cette hypothèse consiste à considérer que les données censurées sont non informatives (c’est-à-dire ne portent pas d’information concernant l’évolution de la probabilité de survie). Cette hypothèse émerge du fait que le mécanisme de censure est indépendant de l’évènement observé. En effet, dans le cas d’une étude clinique, un patient est censuré soit s’il abandonne l’étude en cours, soit s’il atteint la fin de l’étude sans avoir subi ou expérimenté l’évènement d’intérêt. Par exemple, si le suivi d’un patient cesse pendant l’étude parce que le patient déménage dans un autre pays, la raison de son départ de l’étude est indépendante de son risque de décès. Cela si-gnifie qu’à chaque temps, les patients censurés ont la même perspective de survie que ceux qui continuent d’être suivis. Cependant, les approches présentées précédemment (régression de Cox et forêts aléatoires de survie) ne prennent en considération que les temps (ou l’ordre des temps) auxquels un évènement est observé. Les données censurées n’interviennent que dans le compte des patients étant toujours à risque aux dates où un évènement survient.

L’objectif de ce chapitre est de proposer une nouvelle approche permettant de prendre en compte tout les temps d’intérêts, que ce soient des temps de survie ou des

(37)

3.1. Approche par séquence d’évènements

temps de censure. L’étude comparative des différentes approches aura pour objectif de comparer leur performances prédictives dans deux cas de figure. Dans un premier temps les approches seront appliquées sur l’ensemble des données (censurées et non-censurées), et dans un second temps les approches seront appliquées uniquement sur les données non-censurés, de sorte à comparer l’utilisation par chaque approche des données censurées.

3.1

Approche par séquence d’évènements

L’approche par séquence d’évènements proposée dans cette partie a fait l’objet d’une publication acceptée à la Conférence Internationale Advanced Information Net-working and Applications Workshops (WAINA, 2017) [47]. Elle a été mise au point par l’élève au doctorat Jianfei Zhang. Mon implication a porté sur la partie expéri-mentale. Afin de proposer une approche qui prend en compte l’intégralité des données (c’est-à-dire la totalité des temps observés), une nouvelle vraisemblance est définie à partir d’une représentation séquentielle des évènements.

3.1.1

Séquence d’évènements

Comme mentionné précédemment, la méthode de maximisation de la vraisem-blance partielle ordonne les patients selon Ti (indiqué par yi et i) avant d’estimer la vraisemblance partielle. Les modèles de type Cox effectuent ces calculs en se concen-trant uniquement sur la présence explicite de l’évènement d’intérêt (c’est-à-dire sur l’ordre des temps de survie). L’apparition de l’évènement au temps ti pour un patient i peut être représentée par une séquence binaire :

zi  0, . . . , 0, i

τ,2τ,...,yi

(3.1)

où τ est l’intervalle unitaire de temps observé (1 jour, 1 semaine, 1 mois, etc.). Les entrées de cette séquence prennent les valeurs binaires 0 ou 1, indiquant si l’évènement survient à chaque temps enregistré τ, 2τ, . . . , yi. La séquence révèle aussi également le

(38)

Chapitre 3. Prédiction de la probabilité de survie

statut du patient i à chaque intervalle de temps au cours de la période d’observation (entre le début du suivi du patient i et la dernière observation au temps yi). Il est évident que la longueur de la séquence dépend du moment où l’évènement se produit et varie donc d’un patient à un autre. Grâce à cette représentation, il est maintenant plus aisé d’estimer efficacement la vraisemblance développée dans la suite.

3.1.2

Vraisemblance totale

Nous définissons ici la vraisemblance totale qui prend en compte aussi bien les données non censurées que les données censurées. Ayant N séquences d’évènements (z1, . . . , zn), la vraisemblance au coefficient β est égale à la probabilité d’apparition de ces séquences connaissant β, i.e.,

L(β; z1, . . . , zN) =N

i=1p(zi; β), (3.2)

qui sous l’Équation (3.1) devient L(β; z1, . . . , zN) =  i∈1 p(0, . . . , 0, 1 τ,2τ,...,yi ; β)×  i∈0 p(0, . . . , 0, 0 τ,2τ,...,yi ; β). (3.3)

La fonction L(∗) dépend des temps de survie ou de censure des patients, plutôt que de l’ordre des temps observés dans la vraisemblance partielle du modèle de Cox. En outre, en plus des patients en échec (dans 1), les patients censurés (dans 0) contribuent aussi à la vraisemblance. En d’autres termes, le modèle qui utilise cette vraisemblance peut s’adapter à toutes les données, aussi bien pour les patients ayant échoués que pour les patients censurés.

La probabilité d’observer la séquence d’évènements pour un patient censuré i peut être calculée par le produit des probabilités conditionnelles au cours du temps, comme suit : p(0, . . . , 0, 0 τ,2τ,...,yi ; β) = p( 0 τ ; β)× p( 0 | 0 τ ; β)× · · · × p( 0 yi | 0, 0 . . . , 0 τ,2τ,...,yi−τ ; β) (3.4)

(39)

3.1. Approche par séquence d’évènements

l’état de survie précédent. On a donc p( 0 t |∗; β) = p( 0 t ; β) et p(0, . . . , 0, 0 τ,2τ,...,yi ; β) = p( 0 τ ; β)× p( 0 ; β)× · · · × p( 0 yi ; β) (3.5) Notons que 0, . . . , 0, 0 τ,2τ,...,yi signifie que p( 0 yi

; β) > 0 ; c’est-à-dire que le patient i survit au-delà de yi. Autrement dit, l’évènement ne se produit pas pour i avant yi− τ. Par conséquent, la propriété suivante est vérifiée :

p( 0 yi

; β) > 0 =⇒ p( 0 t

; β)≡ 1, ∀t < yi. (3.6)

En utilisant la formule ci-dessus, on peut continuer le calcul : p(0, . . . , 0, 0 τ,2τ,...,yi ; β) = p( 0 yi ; β) = P r(Ti ≥ yi; β) (3.7) = exp{−  yi 0 h(t|xi; β)dt} =  t∈{τ,2τ,...,yi} exp{−h(t|xi; β)τ} (3.8)

Comme l’équation3.8, la vraisemblance peut être calculée par les probabilités d’appa-rition des évènements au cours des intervalles unitaires de temps, plutôt qu’au cours des temps observés yi pour i = 1, 2, . . . , N dont les écarts varient. Par conséquent, cette approche serait moins sensible aux différences de distribution des temps obser-vés, et donc plus adaptée aux divers ensembles de données cliniques.

De même, la probabilité d’apparition d’une séquence d’évènements pour un patient i en échec peut être calculée par :

p(0, . . . , 0, 1 τ,2τ,...,yi ; β) = p( 0 yi−τ ; β)× p( 1 yi ; β), (3.9) où p( 0 yi−τ ; β) =  t∈{τ,2τ,...,yi−τ}

(40)

Chapitre 3. Prédiction de la probabilité de survie

et p( 1 yi

; β) représente la probabilité que i subisse l’évènement juste après yi, est donnée par

p( 1 yi

; β) = 1− P r(Ti > yi; β) = 1− exp{−h(yi|xi; β)τ}. (3.11)

Au final, l’équation donnant la vraisemblance "totale" est : L(β; z1,· · · , zn) =  i∈1  t∈{τ,2τ,...,yi−τ} exp{−h(t|xi; β)τ} × (1 − exp{−h(yi|xi; β)τ}) (3.12) ×  i∈0  t∈{τ,2τ,...,yi} exp{−h(t|xi; β)τ} (3.13)

Une fois qu’un β optimal est trouvé en utilisant notre approche, la probabilité de survie du patient i à t peut être calculée par

S(t; xi) = S0(t)exp{β·xi} (3.14) S0(t) = exp{−  t 0 h0(u)du} =  u∈{τ,2τ,...,t} exp{−h0(u)}τ, (3.15)

où, sans perte de généralité, l’intervalle unitaire de temps τ peut prendre la valeur 1. La distribution de Weibull est souvent utilisée avec les modèles de risque proportionel [47]. Par conséquent, pour le risque de base, nous utilisons une fonction basée sur la loi de Weibull,

h0(t) = kλktk−1, (3.16)

où l’échelle de la distribution est déterminée par λ et la forme par k. Plus simplement, on peut fixer λ = 1. Selon [33] et notre travail, nous constatons que k prend ses valeurs entre 0.5 et 1, ce qui ne donnera pas de changement significatif dans la précision de la prédiction, nous fixons donc k = 0.8, ce qui rend le risque de base décroissant selon t. En réalité, ce choix de paramètre est souvent plus réaliste que l’hypothèse d’un risque de base constant. Dans la pratique, les paramètres (k, λ) sont difficiles à estimer et la fonction de base dépend grandement de ces paramètres, comme le

(41)

3.2. Évaluation des prédictions

montre la Figure 3.1. Les performances de cette approche seront impactées par le choix de ces paramètres.

Figure 3.1 – Différentes formes pour la fonction h0 en fonction des paramètres k et λ.

3.2

Évaluation des prédictions

Pour évaluer les performances prédictives des modèles précédents, nous avons be-soin de métriques de performances facilement et utilement exploitable pour l’analyse clinique, au sens où elles doivent rendre compte de la capacité des modèles à distin-guer les patients à haut risque des patient à bas risque. Nous redéfinissons donc trois métriques de performance : l’aire sous la courbe ROC (AUC), l’indice de concordance (CI) et le score de Brier (BS).

— L’AUC de survie (SAUC) fournit une mesure de probabilité de la capacité prédictive au cours de la période d’observation t0, et que nous définissions comme : SAUC = 1 |0| × |1| i∈1 j∈0 1{S(t0|xi,t) < S(t0|xj,t)} (3.17) où 1 = {i/i = 1} représente l’ensemble des patients ayant subi l’évène-ment pendant la période d’observation (ce sont les patients en échec) et où

(42)

Chapitre 3. Prédiction de la probabilité de survie

0 = {i/i = 0} représente l’ensemble des patients n’ayant pas subi l’évè-nement pendant la période d’observation (ce sont les patient censurés). Le SAUC mesure la précision de la classification binaire, c’est-à-dire la précision des comparaisons des temps de survie entre les patients en échec et les pa-tients censurés. La raison pour laquelle on utilise cette métrique est qu’elle est intéressante pour la prise de décision clinique. En effet, les cliniciens et les chercheurs sont souvent plus intéressés par l’évaluation du risque relatif pour un patient au regard d’un certain évènement, plutôt que par leur temps de survie absolu. Le SAUC prend ses valeurs entre 0.5 (prédicteur aléatoire) et 1 (prédicteur parfait).

— Le CI de survie (SCI) se présente comme une généralisation du SAUC et se définit comme :

SCI = 1 np

i∈1&yi<yj

1{S(Ti|xi,Ti) < S(Ti|xj,Ti)} (3.18) où np est le nombre de paires de patients comparables. De même que pour le SAUC, le SCI prend ses valeurs entre 0.5 (prédicteur aléatoire) et 1 (prédicteur parfait).

— Le Score de Brier de survie (SBS) mesure la qualité des prédictions, c’est-à-dire la précision des prédictions. Il peut être calculé comme une erreur globale parmi tous les patients observés :

SBS = 1 N N i=1 (1− i− S(yi|xi,yi))2 (3.19) où N est le nombre de patients. Le SBS peut prendre des valeurs dans l’inter-valle [0,1]. Un faible SBS correspond à une précision élevée des prédictions.

Ces trois métriques sont très indépendantes l’une de l’autre. Cela signifie qu’un modèle qui obtient un bon score sur une des métriques n’aura pas forcément d’aussi bons résultats sur les deux autres. Un modèle de prédiction de survie sophistiqué devrait obtenir des scores élevés pour le SAUC et le SCI mais un faible score pour le SBS. Ces métriques sont utiles car elles permettent de décrire la capacité qu’à un

(43)

3.3. Collecte des données et prétraitement

modèle à répondre à différentes questions, comme suit :

— SAUC : Est-ce qu’un patient est susceptible de subir l’évènement au cours d’une certaine période d’observation ?

— SCI : Lequel des deux patients est le plus susceptible de subir l’évènement ? — SBS : Quelle est la précision de la prédiction que l’évènement survienne pour

un patient donné ?

3.3

Collecte des données et prétraitement

Pour tester les performances des modèles, nous avons mené nos expériences sur des données réelles. Pour recueillir et prétraiter des données publiques pour l’analyse de survie, nous avons coopéré avec le groupe de recherche PRIMUS1 du département

de Médecine de Famille de la Faculté de Médecine de l’Université de Sherbrooke. Les données cliniques sont fournies par le Centre Hospitalier Universitaire de Sher-brooke(CHUS).

3.3.1

Données MPOC

Nous avons pu recueillir à partir du CHUS (Centre Hospitalier Universitaire de Sherbrooke) les données relatives à 503 patients atteints de MPOC qui ont été admis ou réadmis entre 2012 et 2013. Les facteurs de risque spécifiques à la MPOC, au nombre de 39 et dont les statistiques sont résumées dans le Tableau 3.1, ont été sélectionnés par le Dr. Vanasse et son groupe de recherche au CHUS. Ils sont classés selon la démographie et les soins de santé, les tests cliniques et les diagnostiques ainsi que les médicaments et traitements prescrits.

Parmi ces patients, 63% ont été réadmis dans une période de un an suivant leur première admission, et ce à cause de la MPOC ou d’autres maladies telles que les troubles digestifs, les maladies infectieuses, etc. Étant donné que la réadmission

Figure

Figure 2.1 – Example de suivi d’une cohorte de six patients pour une étude de 60 jours
Figure 2.2 – Exemple de réseaux de neurones utilisés, avec 4 variables d’entrées (en rouge), 3 neurones cachés (en bleu) et une seule sortie (en vert)
Figure 3.1 – Différentes formes pour la fonction h 0 en fonction des paramètres k et λ.
Figure 3.2 – Distribution des temps de survie pour les 503 patients atteint de MPOC (en échec ou censurés) selon l’age et le sexe.
+7

Références

Documents relatifs

Compter le nombre de données censurées dans les deux groupes définis par le sexe.. Récuperer les âges respectifs des hommes et des femmes dans

Les résultats de ce paragraphe sont dûs à Gross S. L'exemple illustratif est celui de la durée d'induction du SIDA induit par trans- fusion, qui donne des durées tronquées à droite.

(3) Voir plus haut, dans le tableau de la vie moyenne des têtes choisies, la vie moyenne des hommes et des femmes d'après les tables des 20 compagnies anglaises, celle

\ Le suivi temporel des espèces \ IUCN \ La liste rouge.?. L’hydrosaure des Philippines (Hydrosaurus pustulatus) fait son apparition dans

Elle coupe l’ADN dans une région où les bases sont appariées, voisine de la cassure, de telle façon que l’ADN se trouve excisé et libère soit des mononucléotides ou

De plus, le coefficient de corrélation génétique moyen (r), au sein des colonies de rats-taupes s'élevant à 0,81, ainsi que la production d'un grand nombre de jeunes par les

Deux biais potentiels affectant les durées de survie dans les études évaluant l’intérêt d’un dépistage. ◼ Biais du « temps d'avance au

Un grand nombre de ces morts pourraient être évités si les témoins étaient formés à intervenir en attendant les secours médicalisés : de moins de 2% de survie dans