• Aucun résultat trouvé

seq. . . 121 4.5 Dégradation des données de séquençage . . . 123

4.5.1 Dégradation de la profondeur de séquençage . . . 123

4.5.2 Diminution du nombre de patients . . . 124

4.6 Impact de la taille des banques et du nombre de patients sur la prédiction125

4.6.1 Impact de la taille des banques . . . 126

4.6.2 Impact du nombre de patients . . . 129

4.7 Cause de la dégradation de la qualité de prédiction . . . 129

4.7.1 Deux hypothèses envisagées . . . 129

4.7.2 Test de la première hypothèse . . . 130

4.7.3 Test de la deuxième hypothèse . . . 131

4.8 Conclusions . . . 133 4.9 Références . . . 134

4.1 Contexte de l’étude

4.1.1 Intérêt des miARN dans le cancer

Nous avons décri les miARN dans l’introduction (1.2.3). Pour rappel, ce sont de petites molécules d’ARN (20 à 24 nucléotides) non codantes qui interviennent principalement dans la régulation post-transcriptionelles des gènes (i.e. les miARN agissent directement sur les molécules d’ARNm) [BARTEL,2018].

CALIN et CROCE [2006] ont mis en évidence une association entre le niveau d’ex-

pression des miARN et la survie. Depuis, les miARN ont étaient largement étudiés, et apparaissent comme une cible thérapeutique intéressante dans le cancer [RUPAIMOOLE et SLACK,2017]. En effet, de nombreuses études ont utilisé les niveaux d’expression des miARN dans le modèle de Cox pour établir des signatures de gènes prédictives de la sur- vie [SHIet collab.,2018;YUet collab.,2008;ZHANGet collab.,2015;ZHOUet collab.,2016]. Enfin, l’intérêt pour les miARN dans les études portant sur le cancer ne cesse de croître depuis 2005 : le nombre de papiers référencés dans PubMed contenant les mot « miRNA » et « cancer » dans leur titre ou leur résumé est passé de 20 en 2005 à 2734 en 2019 (Fig.4.1).

0 1000 2000 2005 2010 2015 2020 Année N pub lications

FIGURE4.1 – Nombre de publications référencées dans PubMed et publiées entre 2003 et 2019

contenant les mots-clefs « miRNA » et « cancer » dans leur titre ou leur abstract.

La recherche associée au nombre de publications est "(miRNA[Title/Abstract]) AND (cancer[Title/Abstract])" dans le moteur de recherche de PubMed, et a était faite le

18/08/2020.

4.1.2 La taille des banques

Nous avons fait une description technique du séquençage à haut débit en introduc- tion (partie 1.2). Nous rappelons ici que pour un patient donné, la taille de la banque correspond au nombre total de lectures alignées sur un génome de référence. Elle peut

varier suivant les expériences (et donc ici les patients), et est équivalente à la notion de « profondeur de séquençage ». Ces deux nomenclatures seront utilisées de manière inter- changeable dans la suite du texte.

4.1.3 Calibration des études transcriptomiques

Les deux paramètres essentiels à calibrer lors de l’élaboration d’une étude basée sur les transcriptomes de biopsies d’une cohorte de patients sont la taille des banques et le nombre de patients, et cette calibration s’effectue sous contrainte de coûts.

La taille des banques est un paramètre central du séquençage haut débit : plus cette taille est importante, plus le nombre de gènes détectés sera important et plus précises se- ront les mesures du niveau d’expression, mais plus le coût sera élevé [MORTAZAVIet col- lab., 2008;SIMSet collab.,2014]. Bien que les coûts de la technologie RNA-seq aient di- minué drastiquement au cours de la dernière décennie, ils restent trop élevés pour que le séquençage soit utilisé de manière routinière en clinique [CIE ´SLIKet CHINNAIYAN,2018;

KUMAR-SINHAet CHINNAIYAN,2018;MICHIELSet collab.,2016;SENFTet collab.,2017]. Pour un budget donné, connaître la taille de banque minimale permettant d’obtenir les performances nécessaires permet de maximiser le nombre de patients de la cohorte. Plus le nombre de patients est élevé, plus la puissance statistique est importante, et plus les prédictions obtenues seront réalistes. Les grandes cohortes de patients permettent aussi d’utiliser des algorithmes modernes tel que les réseaux de neurones profonds, de prendre en compte des termes d’interaction avec des variables cliniques ou des traite- ments [KURTZ et collab., 2019], ou encore de stratifier les patients suivant des caracté- ristiques cliniques (âge, sexe, traitements reçus, etc.) ou transcriptomiques. D’autres ap- plications peuvent être envisagées, comme le séquençage longitudinal (i.e. à différents instants t ) des patients [MCGRANAHANet SWANTON,2017], et / ou le séquençage de diffé- rentes zones de la tumeur [ANDORet collab.,2016;GERLINGERet collab.,2012] (hétérogé-

néité intra-tumorale). Pour résumé, il y a donc un compromis à trouver entre la profon- deur du séquençage et le nombre d’échantillons séquencés.

Ensuite, lorsque des données sont analysées, une appréciation de l’impact de la taille des banques sur les métriques d’évaluation choisies à travers les « courbes de saturation » [TARAZONAet collab.,2011] permet de vérifier que les résultats ne sont pas sous-optimaux du fait d’une profondeur de séquençage trop faible. Par exemple,BASSet collab.[2019] ont montré que le nombre de gènes différentiellement exprimés n’était pas saturé en fonction de la taille des banques dans certaines études. Plus de gènes auraient été détectés avec une profondeur de séquençage plus importante, et de l’information est donc perdue à cause d’une profondeur de séquençage trop faible des données. D’autres chercheurs se sont intéressés à l’impact de la profondeur de séquençage [LIUet collab.,2014;RAPAPORT et collab.,2013;TARAZONAet collab.,2011] et du nombre de patients [PAWITANet collab.,

biologiquement pertinentes [HEIMBERGet collab.,2016;KLIEBENSTEIN,2012].

Enfin,MILANEZ-ALMEIDAet collab.[2020] ont montré que séquencer quelques cen- taines de milliers de lectures par échantillon suffit à converger vers les prédictions op- timales avec un modèle de Cox et une pénalisation elastic net. Cela revient à diviser la taille des banques des données mRNA-seq de TCGA d’un facteur 100, ce qui correspond en moyenne à 500 000 lectures.

4.1.4 Objectifs du chapitre

Ainsi, plusieurs questions émergent concernant la calibration d’une étude clinique qui repose sur le séquençage haut débit des miARN :

— quelles capacités de prédiction peut-on attendre pour une taille de banque et un nombre de patients donnés ?

— pour un budget donné, quel est le meilleur compromis entre la taille des banques et le nombre de patients permettant de maximiser les capacités de prédiction ?

Dans ce contexte, l’objectif de ce chapitre est d’étudier l’impact du nombre de patients et de la taille des banques des données RNA-seq de miARN sur les capacités de prédiction du modèle de Cox pénalisé. En d’autres termes, le but est d’optimiser les prédictions et le nombre d’échantillons séquencés sous contrainte de coûts..

Dans la suite de ce chapitre, nous utiliserons la pénalisation ridge (VERWEIJet VANHOU- WELINGEN [1994], partie 1.8.3). Si un modèle parcimonieux est souhaité, la même dé-

marche peut être adoptée avec la pénalisation elastic net. Nous avons remarqué au cha- pitre2que les prédictions obtenues avec elastic net et ridge sont très similaires. Les conclu- sions que nous allons tirer de notre analyse devraient donc être très similaire avec la pé- nalisation elastic net. Plus généralement, la méthodologie que nous allons présenter peut s’étendre à tout type d’algorithme de prédiction de la survie.

Les données utilisées proviennent de la base de données TCGA (https://www.cancer. gov/tcga). Pour le séquençage des miARN et afin de comparer différentes études portant sur le séquençage des miARN,CHUet collab.[2016] ont détaillés en détail les technologies et la procédure RNA-seq mise en place.

4.2 Choix des cancers étudiés

4.2.1 Critères de qualité des données pour prédire la survie

Pour les données miRNA-seq de la base de données TCGA, nous avons retenu 25 can- cers suivant les critères décrits en introduction (partie 1.5.2). Nous utilisons ensuite la même méthodologie qu’au chapitre précédent (partie3.1.5pour ne retenir qu’un nombre restreint de cancers).

Ensuite, nous avons choisi de n’utiliser que les cancers pour lesquels les données transcriptomiques de miARN permettent de prédire correctement la survie dans le mo- dèle de Cox avec pénalisation ridge. En effet, ce sont pour ces cancers que les données du niveau d’expression des miARN ont le plus d’applications et de valorisations potentielles. Dans ce sens, nous considérons qu’un jeu de données a un pouvoir prédictif si le C-index médian est significativement supérieur à 0, 6. Ainsi, nous avons calculé 50 C-index par 10 répétitions d’une validation croisée (K=5) pour chaque cancer avec les données miRNA- seq (Fig.1.6). Un test de Wilcoxon unilatéral nous permet alors de déterminer si la mé- diane m des C-index obtenus est significativement supérieure à 0,6. Ce test a pour hy- pothèse nulle H0: m < 0,6, et pour hypothèse alternative H1: m > 0.6. La méthode de

Benjamini-Hochberg (partie1.5.3,BENJAMINIet HOCHBERG[1995]) nous permet de cor- riger les p-valeurs obtenues pour les 25 cancers.

Suite à ces tests et au niveau 5%, nous avons sélectionné 11 cancers parmi les 25 (Fig. 4.2). Pour s’assurer d’une bonne association des données avec la survie, nous avons com- paré les distributions des C-index obtenues avec et sans permutations par un test de Wil- coxon unilatéral. Ce test permet de vérifier que la médiane des C-index obtenus est signi- ficativement supérieure à la médiane des C-index obtenus s’il n’y avait aucun lien entre les données transcriptomiques et la survie. Permuter les patients dans les données de sur- vie sans toucher aux données de transcriptomique permet en effet de décorréler ces deux types de données. Les p-valeurs corrigées par la procédure de Benjmaini-Hochberg pour les 25 cancers restent significatives pour les 11 cancers retenus (données non montrées).

Les caractéristiques de ces 11 cancers sont reportées dans le Tableau4.1.

TABLEAU4.1 – Caractéristiques des onze cancers étudiés dans le chapitre 4.

Nous calculons les C-index médians par 10 répétitions d’une validation croisée (K=5) avec l’en- semble des gènes (miARN) et le modèle de Cox avec pénalisation ridge. Les cancers sont classés par ordre décroissant de ces C-index médians.

Cancer C-index estimé n (#patients) p (#miARN) Taux de censure Taux de survie à 3 ans ACC 0,83 79 499 0,65 0,76 UVM 0,82 80 502 0,71 0,72 KIRP 0,79 287 461 0,85 0,87 MESO 0,72 85 495 0,14 0,19 KIRC 0,70 513 462 0,67 0,76 LGG 0,70 507 500 0,62 0,56 CESC 0,69 291 526 0,76 0,72 LIHC 0,67 361 529 0,65 0,63 PRAD 0,67 493 452 0,81 0,80 UCEC 0,65 534 553 0,84 0,83 BLCA 0,64 403 561 0,56 0,49

0.25 0.50 0.75 1.00

ACC UVM KIRPMESO KIRC LGGCESC LIHCPRADUCEC BLCATHYMHNSC LAML LUADESCABRCA TGCT THCA PAAD STAD CO AD LUSC O V READ Cancer C−inde x

FIGURE4.2 – Boxplot des C-index pour 25 cancers de TCGA obtenus avec les données miRNA-

seq.

Les C-index sont calculés sans permutations (bleu foncé) et avec permutations (bleu clair). Chaque boite contient 50 C-index calculés par 10 répétitions d’une validation croisée (K=5) avec l’ensemble des gènes (miARN) et le modèle de Cox avec pénalisation

ridge. Les noms des 11 cancers écrits en rouge sont ceux pour lesquels la p-valeur corrigée par la procédure de Benjmaini-Hochberg pour l’ensemble des 25 tests de wilcoxon unilatéraux permettant de comparer le C-index médian à 0,6 (ligne pointillée

horizontale rouge) est inférieure au niveau choisiα = 0,05.

4.2.2 Variabilité de la taille des banques

Tout d’abord, la taille des banques varie suivant les expériences (et donc les patients) pour un cancer donné (Fig.4.3.A et Fig. AnnexeA.13). Comme nous l’avons mentionné en introduction (partie1.3.7), ces différences peuvent s’expliquer par certains biais tech- niques du séquençage haut-débit :

— quelques fragments d’ADN ne reçoivent pas d’adaptateur, et ne vont pas être sé- quencés.

— certaines lectures ne sont pas alignées sur le génome (e.g. problème de séquençage de l’adaptateur qui empêche la lecture d’être associée à un patient), et leur nombre peut varier d’un patient à l’autre.

— l’amplification PCR de séquences d’ADN riches en bases nucléotidiques guanine (G) et cytosine (C) est difficile [MAMMEDOV et collab., 2008], et implique un biais dans les données RNA-seq [BENJAMINIet SPEED,2012;RISSOet collab.,2011]. — le nombre de fragments peut varier d’une grille à l’autre, et le multiplexage peut

induire des nombre de lectures différentes pour deux patients dont les échantillons ne sont pas sur la même grille.

Ensuite, la taille des banques est équivalente suivant les cancers, à quelques excep- tions près, et se répartie autour de 5 × 106pour les miARN (Fig.4.3.A), et de 5 × 107pour les ARNm (Fig. AnnexeA.13). La taille des banques des ARNm est donc supérieure à celle des miARN d’un facteur 10 en moyenne, et il n’y a pas de lien particulier entre la pro- fondeur de séquençage choisie pour les ARNm et les miARN entre les différents cancers. Notons que pour LAML, nous observons une profondeur de séquençage plus faible que pour les autres cancers (Fig.4.3.B). De plus, les données d’ARNm et de miARN se com- pose respectivement de 20 000 et 500 gènes en moyenne. Ainsi, il y a en moyenne 4 fois plus de lectures alignées par gène pour les miARN que pour les ARNm.

Enfin, quelques différences notables sont à noter concernant la taille des banques entre cancers. Par exemple, pour les miARN, la taille médiane des banques est de 720 000 lectures pour LAML, 2,5 millions pour KIRC et 7,5 millions pour LGG (Fig.4.3).

0.0e+00 5.0e+06 1.0e+07 1.5e+07 2.0e+07

ACC UVM KIRPMESO KIRC LGGCESC LIHCPRADUCECBLCATHYMHNSC LAML LUADESCABRCATGCTTHCA PAAD STADCOADLUSC OVREAD Cancer

Taille des banques

ACC BLCA BRCA CESC COAD ESCA HNSC KIRC KIRP LAML LGG LIHC LUAD LUSC MESO OV PAAD PRAD READ STAD TGCT THCA THYM UCEC UVM 2e+07 3e+07 4e+07 5e+07 6e+07

2e+06 4e+06 6e+06

miRNA

mRNA

B

A

FIGURE4.3 – Tailles des banques pour 25 cancers de TCGA obtenues avec les données RNA-seq

(miARN et mARN).

Les 11 cancers dont le nom est écrit en rouge sont ceux qui seront étudiés par la suite. (A) Boxplot des tailles des banques pour 25 cancers de TCGA, obtenu avec les données miRNA-seq. Les cancers sont classés par ordre décroissant du C-index médian obtenu

après un modèle de Cox avec pénalisation ridge sur les données miARN. (B) Médianes des tailles des banques pour 25 cancers de TCGA obtenues avec les

données mRNA-seq (ordonnée) et miRNA-seq (abscisse).

4.3 Comparaison des prédictions obtenues avec les ARNm

et les miARN

Les 25 C-index médians obtenus avec les données RNA-seq pour les ARNm et les miARN sont fortement corrélés (corrélation de Pearson de 0,95 - p-valeur = 2, 7×10−13, test de corrélation de Pearson, Fig.4.4.A). Les différentes capacités de prédiction proviennent ainsi plus du choix du cancer que du type de données utilisées (i.e. miARN ou ARNm).

Pour approfondir ce premier résultat, nous avons utilisé un test de Wilcoxon permet- tant de comparer les C-index médians obtenus avec les données RNA-seq de miARN et d’ARNm pour l’ensemble des 25 cancers (Fig.4.4.B). Nous avons effectué une correc- tion de tests multiples par la méthode de Benjamini-Hochberg [BENJAMINI et HOCH- BERG,1995] pour l’ensemble de ces 25 tests. Ainsi, avec vingt fois moins de prédicteurs en

moyenne, les miARN permettent de prédire la survie de manière équivalentes aux ARNm pour 16 cancers sur 25 (ACC, UVM, MESO, KIRC, CESC, LIHC, PRAD, UCEC, BLCA, THYM, HNSC, LAML, LUAD, TGCT, LUSC, READ). Pour 8 cancers (KIRP, LGG, BRCA, THCA, PAAD, STAD, COAD, OV), les données d’ARNm permettent d’obtenir un C-index médian signi- ficativement plus important que celui obtenu avec les données miRNA-seq (p-valeur < 0,05, test de Wilcoxon avec correction de Benjamini-Hochberg).

Enfin, pour ESCA, les données de miARN ont une plus grande valeur prédictive de la survie que les données d’ARNm (i.e. C-index médian significativement plus important, p-valeur < 0,01, test de Wilcoxon avec correction de Benjamini-Hochberg). L’intérêt des miARN pour prédire la survie dans ce cancer a déjà été démontré [MATHÉet collab.,2009;

YANG et collab., 2020]. De plus, il est intéressant de remarquer que le C-index médian obtenu avec les données mRNA-seq (0.51) n’est pas significativement différent de 0,5 (p- valeur > 0,05, test de Wilcoxon unilatéral), alors celui obtenu avec les données miRNA- seq (0,61) l’est (p-valeur < 0.001, test de Wilcoxon unilatéral). Ce résultat suggère que les miARN pourraient avoir un rôle biologique particulier pour ce cancer.

+ n.s. * n.s. n.s. *** n.s. n.s. + n.s. n.s. n.s. n.s. + n.s. *** *** n.s. ** *** * ** n.s. *** n.s.

0.25 0.50 0.75 1.00

ACC UVM KIRPMESO KIRC LGGCESC LIHCPRADUCEC BLCATHYMHNSC LAML LUADESCABRCA TGCT THCA PAAD STADCOADLUSC OVREAD Cancer C inde x Données miRNA mRNA ACC BLCA BRCA CESC COAD ESCA HNSC KIRC KIRP LAML LGG LIHC LUAD LUSC MESO OV PAAD PRAD READ STADTGCT THCA THYM UCEC UVM 0.4 0.5 0.6 0.7 0.8 0.4 0.5 0.6 0.7 0.8 C−index − miRNA C inde x mRNA

B

A

FIGURE4.4 – C-index obtenus avec les données RNA-seq pour les ARNm et les miARN pour 25

cancers de TCGA

Les 11 cancers dont le nom est écrit en rouge sont ceux qui seront étudiés par la suite. (A) C-index médians obtenus avec les données mRNA-seq en fonction de ceux obtenus

avec les données miRNA-seq pour 25 cancers de TCGA. La droite d’équation y = x est tracée en pointillé.

(B) Boxplot des C-index obtenus avec les données RNA-seq pour les miARN (bleu) et les ARNm (orange) pour 25 cancers de TCGA. Les p-valeurs d’un test de Wilcoxon corrigées par la méthode de Benjamini-Hochberg sont indiquées au sommet du graphique sous forme d’étoiles (légende ci-dessous). La p-valeur est bleue lorsque le C-index médian est

significativement plus important pour les miARN, orange lorsque le C-index médian est significativement plus important pour les ARNm, et noir lorsque la différence n’est pas

significative (le seuil de 0,05 a été choisi).

n.s. : non-significatif ; + : p-valeur < 0,1 ; * : p-valeur < 0,05 ; ** : p-valeur < 0,01 ; *** : p-valeur < 0,001.

4.4 Prédiction de la survie avec les variables cliniques et les