• Aucun résultat trouvé

Le séquençage d'un fragment d'ADN consiste à déterminer la séquence des nucléotides (parmi A, T, C et G) de ce fragment. Depuis une dizaine d'années, le développement des nouvelles technologies de séquençage et la diminution des coûts a permis d'approfondir notre compréhension du paysage mutationnel des tumeurs, en particulier grâce aux méthodes de séquençage haut débit permettant de séquencer des génomes entiers, des exomes entiers et des épigénomes de cancers.

Pour notre projet d'analyse mutationnelle de TP53 dans les SMD del(5q), nous avons mis en œuvre quatre techniques différentes appartenant à trois générations de

séquençage qui seront détaillées ci-après : le séquençage Sanger, la technologie 454®

Roche, la technologie SBS Solexa/Illumina et enfin la technologie SMRT® de Pacific

Biosciences.

Illustration 3: Chronologie des évolutions technologiques du séquençage

! " # $ % & % ' ( & ")* + ' , - " -. +'/ ! -!!! % - 0 - 1 2 3 !!4 $% * 4 5 % 6 # % 7 !!. $% %+ # / - ' 5 0 5 !! $% 89 & :+' ! $% / "% ;" < 9 2 ! = -" 2 ' " ' 5 ! 8#2 $ /

1.2.1. Séquençage Sanger

L'éclosion de la biologie moléculaire et de la chimie de synthèse des nucléotides dans les années 1950 a permis en 1977 la mise au point simultanée de deux méthodes de séquençage d'ADN rapidement devenues très populaires : La méthode de Maxam et Gilbert qui a été abandonnée et la méthode de Sanger utilisant la méthode de terminaison de chaîne (irréversible) qui est encore utilisée aujourd'hui.

Le séquençage du fragment d'ADN d'intérêt est amorcé par un oligonucléotide. L'élongation de l'amorce est réalisée lors d'une réaction de séquence (un seul cycle de température obtenu sur un thermocycleur) par une ADN polymérase de haute fidélité qui incorpore les 4 désoxyribonucléotides dATP, dGTP, dTTP, dCTP. Le réactif appelé BDT® (Big Dye Terminator®) permet de les mélanger à de faibles quantités de didésoxyribonucléotides marqués par un fluorochrome émettant une lumière de longueur d'onde différente pour chacun (ddATP en vert, ddGTP en jaune, ddTTP en rouge, ddCTP en bleu). Ces derniers, lorsqu'ils sont incorporés dans le brin néo-synthétisé, agissent comme des terminateurs de chaînes en empêchant la poursuite de l'élongation. Par exemple, l'ajout de ddATP va arrêter la synthèse des néo-brins au niveau de chaque A générant des fragments marqués en vert de longueur variable selon la position des A dans la séquence du fragment d'ADN. Il en est ainsi avec chaque didéoxynucléotide. Puis les produits de la réaction de séquence contenant tous ces fragments marqués subissent une migration par électrophorèse capillaire dans un polymère dédié hautement résolutif ("POP") sur un automate dédié (ex : 3130XL® ou 3730XL®). La migration permet d'"ordonner" les fragments en fonction de leur taille en favorisant d'abord la migration des plus petits fragments et en retenant davantage les plus grands fragments. A l’extrémité du capillaire, le polymère contenant les produits marqués de la réaction de séquence passe devant une caméra CCD capable de détecter la fluorescence et de restituer les signaux qui sont intégrés sous forme d'électrophorégrammes ou chromatogrammes (Illustration 4). Ceux-ci

sont validés visuellement sur des logiciels de type Sequencing Analysis® et les variants

apparaissant sous forme de double pics peuvent être interprétés sur le logiciel

SeqScape® paramétré au préalable pour les régions d'intérêt des gènes à analyser.

C'est en technique Sanger automatisée que le premier génome humain a été séquencé entre 1990 et 2004 (Human Genome Project). Le séquençage des 3 milliards de paires de bases était prévu pour durer 15 ans et coûter 3 milliards de dollars. La première ébauche a été publiée en 2000 et le dernier chromosome a été publiée en 2006.

ASPECTS METHODOLOGIQUES 59/280

Pour notre projet, nous avons procédé à une PCR par exon d'intérêt du gène TP53 (initialement 2 à 11 puis réduit aux exons 4 à 9 pour validation des résultats NGS) (figure 35 ).

Figure 35: Feuille de paillasse pour amplification par PCR des exons 4 à 9 de TP53

! " # $ $ %& $ $ '(!) $ $ * + " + ,#- +' $ $ $ . # : # :6 # 4: :6 # .:4:6 # :.:6 # : :6 # : :6 $ $ $ . # : :* # 4: 4:* # .:.:* # : :* # : :* # : :* # $./ / $ $ $ * .! 4! ! 0# " " 1 + 2 . . . . . . 3 + 4 ) 56 # '7 8 ! $$ # )! $$ " -- ")* )+ 9 # : + # ;2+ ' # !" # $ .! 4. 4 4 .! 4 < # & # < # & # ! " # $% & 9# + 2 + " + 9 + ! = ) "

Illustration 4: Séquençage Sanger.

En haut : Séquenceur capillaire développé par Applied Biosystems (ABI 3130XL). Au milieu : Protocole du séquençage Sanger ; en bas : Electrophorégramme

Avant séquençage, les produits de PCR ont été rapidement migrés sur gel d'agarose pour vérifier la taille des amplicons et l'absence de bande non spécifique comme illustré ci-dessous :

Après séquençage, l'analyse Seqscape® nous a permis de valider visuellement les électrophorégrammes comme illustré ci-dessous :

et enfin, nous avons interprété les variants comme illustré ci-dessous. > - -' ( () ) * + ( , -' ( (+ ( , -' ( (+ ( , -. ( (+ ( , -. ( (+ ( , -/ ( (+ ( , -/ ( (+ , ( , -# -' ( () ) * + ( ' ( () ) * + ( ' ( () ) * + ( ' ( () ) * + ( ' ( () ) * + (

ASPECTS METHODOLOGIQUES 61/280

Dans le cadre de notre étude, la stratégie de backtracking que nous avons adoptée consistait à d'abord analyser les points de progression tumorale dans lesquels les blastes leucémiques représentaient au moins 20 % de l'ensemble des cellules possiblement encore enrichis par la mise en culture requise pour obtenir des métaphases en cytogénétique. La technique de séquençage Sanger a suffi à identifier les mutations TP53 dont la fréquence allélique déterminée ensuite par NGS était supérieure à 15 %. En revanche, la recherche de ces mutations sous-clonales au diagnostic était à une exception près "négative" en Sanger au seuil de 15 %.

En séquençage Sanger, en effet, c'est le mélange des séquençages de l'ensemble des amplicons présents dans le mix réactionnel qui est visualisé. Même les logiciels d’analyse tels que SeqscapeTM

ne peuvent détecter une fréquence d’hétérozygotie <15 % de manière fiable.

La technique conventionnelle de recherche de ces sous-clones tumoraux aurait nécessité un sous-clonage bactérien par patient et par exon cible puis, pour chaque sous-clonage bactérien, le séquençage double sens en technique Sanger de dizaines voire de centaines de colonies. (Illustration 5). Nous avions déjà mis en œuvre cette technique pour le projet TP53/Myélome de la "première inscription en thèse" (Lodé et al, 2010), l'opportunité de tester une technique de séquençage de seconde génération s’est présenté et nous a évité cette étape très chronophage et très coûteuse.

Illustration 5: Principe de l'identification de sous-clones mutés par séquençage Sanger

1.2.2. Séquençage de nouvelle génération (NGS)

ou seconde génération

Le challenge représenté par l'analyse bioinformatique de la masse de données dites "Big data" générées par les nouvelles technologies de séquençage ne sera pas exposé ici.

Concernant l'analyse biologique des données de séquençage de cancers, la mise au point de méta-analyses et d'outils statistiques pouvant intégrer les données de reséquençage de génomes (Whole Genome Sequencing ou WGS) et d'exomes entiers (Whole Exome Sequencing ou WES) permettra d'améliorer les connaissances des voies fonctionnelles en jeu dans les cancers et d'en tirer des informations utiles pour le clinicien. Nous avons abordé cet aspect dans la leucémie lymphoïde chronique (LLC) en synthétisant du point de vue de l’addiction à la voie p53 les données de WGS et WES de LLC publiées par deux grandes équipes. Cette analyse bibliographique a fait l'objet d'une publication et est présentée en annexe de ce manuscrit (Lodé et al., 2016).

+

Plusieurs appellations ont été proposées pour désigner la technologie de séquençage qui a succédé à la technologie Sanger :

- NGS pour Next-Generation Sequencing puis Now-Generation Sequencing : la traduction en séquençage de "nouvelle" génération est désormais obsolète mais l'acronyme "NGS" est toujours en vigueur.

- Séquençage de seconde génération

- HTS pour High-throughput sequencing : cet aspect haut débit est mis à profit pour séquencer des génomes entiers ou des exomes entiers.

- MPS pour Massively Parallel Sequencing

ASPECTS METHODOLOGIQUES 63/280

La profondeur de séquençage d'une base donnée est le nombre de fois où cette base est séquencée lors d'un run, autrement dit, le nombre de reads (la traduction française de "lecture" étant parfois utilisée) porteurs de ce variant dans le run analysé. La fréquence allélique d'un variant, ou fréquence à laquelle un allèle mineur est représenté dans une population donnée, est calculée en divisant le nombre de reads porteurs de ce variant par la profondeur à la position de ce variant. Par exemple, pour valider une fréquence allélique de 1 %, sachant qu'il faut au moins une dizaine de reads porteurs d'un variant pour qu'il soit validé, il est nécessaire d'atteindre une profondeur de 1000X . Seul le NGS, et non le Sanger, en permet la détermination. Ce sont les deux aspects de séquençage ciblé "profondeur" et "séquençage en parallèle de chaque fragment d'ADN" qui nous ont permis de nous affranchir de l'étape de sous-clonage bactérien pour tenter de rechercher les sous-clones mutés minoritaires. En effet, en NGS, chaque fragment d'ADN est séquencé de nombreuses fois"parallèlement aux autres" et produit un "read" qui pourra être individualisé et interprété indépendamment des autres (contrairement au séquençage Sanger, c'est le résultat des séquençages de l'ensemble des amplicons présents dans le mix réactionnel qui est restitué et interprété).

Illustration 6: Année d'introduction de chaque plateforme NGS qui a réussi à être commercialisée. SBS, sequencing by synthesis; SMS, single-molecule sequencing; SBL, sequencing by ligation (Mardis 2013)

! 0 % ( (

8

9 !

Pour notre projet, le statut mutationnel du gène TP53 (exons 4 à 11) a principalement été déterminé dans cette étude par NGS de type pyroséquençage 454® sur système GS-Junior® (Roche, Basel, Germany). Les librairies de type amplicons ont été préparées en utilisant la chimie GS-Junior Titanium® (Roche) et des plaques 96 puits préparées et distribuées par le Laboratoire des Leucémies de Münich (Munich

Leukemia Laboratory, MLL, Munich, Germany) en partenariat avec les Laboratoires Roche dans le cadre du réseau interlaboratoire d'étude de la robustesse du NGS (Interlaboratory RObustness of Next-generation sequencing ; IRON-II study) (Grossmann et al., 2013; Kohlmann et al., 2011).

ASPECTS METHODOLOGIQUES 65/280

) / "

Chaque puits contenait les amorces de

PCR permettant d'amplifier

séparément (en “simplex”) par run les exons 4 à 11 de TP53 de 11 échantillons et 1 contrôle sans matrice (No template control ou NTC )(figure 36).

La spécificité de la PCR a été optimisée par un programme de type "touchdown" (forte stringence par élévation de la température en début de PCR pour favoriser la spécificité de l'hybridation des amorces de PCR puis diminution de la température et donc de la stringence pour augmenter le rendement de la PCR). Elle était néanmoins contrôlée sur gel d'agarose à 2% avant poursuite du protocole.

Sans automatisation des étapes suivant la PCR générant les amplicons, les étapes ultérieures de construction de la librairie à savoir purification, quantification, normalisation et mélange ("pool") des 88 amplicons étaient particulièrement fastidieuses et chronophages (figures 37 et 39).

Figure 36: Plan de plaque pour préparation de la librairie d'amplicons. . / * $ !) <1# > . / * $ %?: > ( & 9 # +#

Figure 38: Ligation des adaptateurs aux fragments cibles. Identification de chaque échantillon par un MID permettant de retrouver l'origine de chaque séquence. Les primers de séquençage A et B permettent la capture des amplicons sur billes "A" et "B" avant l'étape de PCR en émulsion puis l'enrichissement. La clé ("Key") sert à calibrer les puits.

Figure 37: Protocole expérimental (Jour 1) 01. @ 2+ + 'A " # 2 3% 4 0$ ! 3 5 # + # 7 2 3% 4 5$ ! 3 0 3 / 6 7 , 033 89 # 3 # :$ < "# + 1 $ "# BC@ 0$ ! 3 ' D ## 5(E* + # 7 5$ ! 3 0 3 ' D ## 033 ! 9 3$% % 3 % "# + 1 $ "# BC@ ' 3 ; 9 - 3 8 F $> G A4 A<")

Figure 39: Purification des produits de PCR à l'aide des billes AMPure XP ®Agencourt

Le fait que des échantillons différents soient séquencés dans le même run était rendu possible par ajouts de séquences d'identification ("MID") prolongeant les amorces de PCR (Figure 38) et utilisées dans le pipeline bioinfomatique pour démultiplexer les reads obtenus.

Le second jour était consacré à l'amplification clonale par PCR en émulsion (Figure 41). Au préalable, la librairie était diluée de façon à obtenir 1 à 2 copies par bille de capture et mélangée avec le mix réactionnel de PCR et une huile spécifique dans un

système TURRAX® permettant de créer l'émulsion eau dans huile. La capture sur billes

était rendue possible par la présence sur les billes des séquences complémentaires des séquences "A" et "B" présentes dans les amplicons grâce aux adaptateurs présents dans les amorces utilisées pendant l'étape de PCR.

L'émulsion était distribuée en plaque 96 puits avant étape d'amplification clonale par PCR en émulsion qui durait environ 6h.

Illustration 9: Emulsion eau dans huile Illustration 8: Système TURRAX®

Figure 40: Obtention de la librairie finale (pool équimolaire d'amplicons)

?

" - @

%

$

ASPECTS METHODOLOGIQUES 67/280

Le troisième jour, l'émulsion était cassée par lavage en isopropranol, les fragments d'ADN amplifiés rendus simple brin et hybridés à des primers biotinylés reconnaissant les primers A et B. Les billes portant les fragments amplifiés étaient enrichies par ajout de billes magnétiques liées à de la streptavidine et passage sur un aimant (Figure 42).

Le taux d'enrichissement était évalué visuellement, un taux de 5% soit 500000 billes étant jugé optimal pour lancer le séquençage (Illustration 10) .

$ 3 : 0 ' 3 : 0 )

8

L'étape de séquençage nécessitait 2h de préparation : pré-lavage du séquenceur, chargement de la PicoTiterPlate® (étape délicate, illustration 11), chargement du séquençeur puis lancement du run qui durait environ 10h.

L'avancée majeure de la technologie 454® (décrite en 2005) résidait justement dans la

mise au point de la Pico Titer Plate® (Illustration 12), un support solide dont chaque

puits pouvait contenir une seule micro-bille portant de l'ADN et le mix réactionnel (déposé lui aussi sur des microbilles) offrant ainsi un environnement réactionnel propice au séquençage d'un seul clone issu de l'amplification d'un seul fragment

Figure 42: Enrichissement en billes avec fragments amplifiés. < % 9= 6 %% "% # > 9 & < % > # !8 "- 3 & < % > 9 % Illustration 10: Evaluation du taux d'enrichissement. $H H

d'ADN. L'ensemble des puits permettait le séquençage massivement parallèle de l'ensemble des fragments d'ADN captés et amplifiés par les billes, en l'occurrence sur

le GS junior®, environ 125 000 séquences étaient générées par run.

Le pyroséquençage mis en oeuvre sur les systèmes 454® Roche est une technologie de séquençage par synthèse, i.e., séquençage par détection du nucléotide incorporé par une ADN polymérase, en l'occurrence, via la détection d'un signal lumineux. Quand un dNTP est incorporé par l'ADN polymérase au fragment simple brin à séquencer, la création d'une liaison Phosphodiester entraîne la

libération d'un pyrophosphate (PPi). Le relargage du PPi déclenche alors une réaction en chaîne impliquant une ATP sulfurylase et une luciférase et conduisant à l'émission

d'un signal lumineux qui était intégré sous forme d'images par le GS Junior® (Figure

43). Les images étaient collectées à chaque bain successif des 4 dNTP, pendant 200 cycles, permettant de déduire avec quel dNTP le signal lumineux avait été émis ("basecalling", figure 44).

5 ' + " 3

Après collecte des fichiers (binaires) SFF (Standard Flowgram File), l'analyse primaire (appel de base et démultiplexage, figure 44) était réalisée sur le séquenceur.

Illustration 12: PicoTiterPlate® rendant possible le séquençage massivement parallèle

ASPECTS METHODOLOGIQUES 69/280

L'analyse secondaire (appel de variants) couplait d'une part le logiciel Roche AVA® et des outils statistiques disponibles sous R ("453 plus One Toolkit") et d'autre part, une analyse par le logiciel commercial SeqPilot de JSI SeqNext®, permettant la détection de mutations et un début d'annotation (Illustration 16).

Figure 44: Appel de bases ou basecalling

Illustration 14: Longueur des reads obtenus

Illustration 15: Critères de qualité du run

Illustration 13: PicoTiterPlate

L'interprétation des variants était réalisée grâce aux bases dédiées à TP53 comme mentionné dans l'introduction sur p53 :

- la base de l'agence internationale de recherche contre le cancer (IARC) de l'OMS (Bouaoun et al., 2016), http://p53.iarc.fr/

- la base UMD créée et maintenue par le Pr Thierry Soussi (Leroy et al., 2013) qu'il a

remise à jour en 2017, http://www.p53.fr/.

ASPECTS METHODOLOGIQUES 71/280

Le séquençage en technologie 454® Roche permettait de séquencer des fragments de

400 paires de bases dans chaque sens (voire davantage en adaptant le protocole, rejoignant les 700 à 1000 paires de bases obtenues en Sanger), ce qui est largement supérieur aux fragments séquencés par les autres technologie de NGS.

Ce fut la première des technologies NGS, et elle nous a permis de conduire la majeure partie de ce projet, mais plusieurs inconvénients ont conduit la firme Roche à annoncer dès l'été 2013 l'abandon progressif de cette technologie (voir chapitre 1.2.4). Dans ce contexte, les équipes se sont orientées peu à peu vers les technologies IonTorrent (non exposée ici) ou Illumina.

! 0 " 1 3

Le projet initial était terminé quand nous avons acquis un MiSeq® (Illumina, San Diego, CA, USA) mais nous avons réanalysé quelques échantillons ciblés.

) ; /

Le choix du kit "HaloPlex Target Enrichment"® (Agilent, Santa Clara, CA, USA) plutôt que du kit de préparation de librairie

d'amplicons TruSeq Custom Amplicon® (TSCA®) d'Illumina

était un choix validé par notre plate-forme prenant en compte entre autres l'avantage du principe de "tiling" (Figure 46).

Figure 45: Protocole expérimental $' #$ #()*!' + $ # , !' #' - #' . / $ / $' # $ !#! )$ 0 ! '!' #1 2) /!' # / $ $ #/ $ 03 / $ / $' #$ , !' #'1 -! ' 0 ' '! / # 1 4 5 !' # * 67!' # -8 67!' # 0 $ 1 - #' . / $ $ $ ! '!' # 9 !#' 67!' # / $ $ # + -8 0: ' ;! !1 ' 7:! / $ $ 7 #7 #' <$

Figure 46: Tiling : Avantage de la technique Haloplex.

En cas de variant polymorphique sur un site d'hybridation d'une amorce de PCR, la perte de cet amplicon sera compensée par au moins un autre amplicon couvrant cette position, ce qui n'est pas le cas des autres méthodes de préparation de librairies (Source : Agilent technologies)

Illustration 17: Système MiSeq®

Le design "custom" de 54 gènes d'intérêt myéloïde et lymphoïde (Panels INCa élargis) a été réalisé grâce à l'outil Suredesign® d'Agilent et avait une taille globale de 137kb. La couverture (proportion du design couverte par un nombre suffisant de reads) était de 99,8 %. Pour couvrir les 275 exons (codants et non codants), un total de 5227 amplicons d'environ 207 paires de bases était généré pendant la construction de la librairie d'amplicons. Le protocole expérimental est beaucoup plus simple que celui de 454® Roche (environ 6 heures de manipulation) et commence par une fragmentation de l'ADN par digestion enzymatique (Figure 47).

La fragmentation par 8 enzymes de restriction génère théoriquement huit fragments couvrant tous chaque position cible. Lors du design, quelques fragments (en bleu) sont sélectionnés pour être capturés par les sondes haloplex qui généreront des amplicons tels qu'au moins deux amplicons couvrent chaque position selon le principe du "tiling" ou chevauchement (figure 46).

ASPECTS METHODOLOGIQUES 73/280

Les sondes "Haloplex®" biotinylées permettent la circularisation des fragments cibles et leur capture par billes steptavidinées puis leur confèrent (lors de la PCR) le barcode d'identification des échantillons. Seuls les "halos" seront amplifiés par PCR (Figure 49).

Figure 48: Principe du tiling.

Figure 49: Formation des halos par les sondes Haloplex

(Source : https://www.agilent.com/cs/library/eseminars/public/HaloPlex%20Disease %20Research%20Panels%20Part%201.pdf)

$ 5" + 3 : 0 ' !&

" 9 / 6 "

Contrairement aux techniques de NGS faisant appel à la PCR en émulsion, la technologie Illumina comprend une amplification clonale sur support solide (flow cell, Illustration 18), ce qui permet de la réaliser juste avant le séquençage directement sur le MiSeq sans intervention humaine entre les deux étapes.

La première étape consiste à fixer aux extrémités de chaque amplicon une paire d’amorces commune ("adapters", figure 50), qui permettra le séquençage simultané de tous les fragments de la librairie sur la flow cell.

Après fixation covalente de ces adaptateurs sur la flow-cell portant des séquences complémentaires des amorces de séquençage (figure 50), l'amplification clonale par

bridge-PCR permet de copier chaque fragment d’ADN en générant un cluster de copies de ce fragment à une position donnée sur la flow cell (Figure 52 ).

Figure 51: Adaptateurs Illumina permettant d'ajouter au fragment d'ADN à séquencer : les index i5 et i7 permettant d'identifier l'échantillon, et les amorces de séquençage P5 et P7.

Figure 50: Ligation des adaptateurs communs puis fixation covalente sur la flow-cell (Source : Illumina).

Illustration 18: Flow cell Illumina

ASPECTS METHODOLOGIQUES 75/280

Cette première étape de génération de clusters ne prend que quelques heures et

permet assez vite de vérifier via le logiciel SAV® d'Illumina si la densité de clusters

n'est pas trop importante, si c'est le cas, on court le risque que les clusters se chevauchent et rendent le séquençage ininterprétable par contamination de signaux lumineux (Illustration 19).

La lecture simultanée des séquences de chacun de ces clusters se produit selon un principe appelé « séquençage par synthèse», de façon similaire à la technique Sanger et Roche 454®. Les fragments d'ADN formant chaque cluster sont réduits à l’état simple brin, et l’une des deux amorces de séquençage est hybridée.

Figure 52: Amplification clonale par ponts et génération des clusters.

Illustration 19: Logiciel SAV (Sequencing Analysis Viewer®)

La flow cell est ensuite mise en présence des réactifs de séquençage contenant les 4 nucléotides fluorescents, et l’élongation de l’amorce de séquençage par l’une de ces bases est détectée indépendamment pour chaque cluster, défini par sa position sur la flow cell. À chaque cycle, un unique nucléotide pourra être incorporé et un unique signal lumineux sera émis. Cet avantage est dû à une modification chimique de ces nucléotides qui bloque leur élongation en 3’ et permet d'éviter les artéfacts dus aux

homopolymères rencontrés avec la technologie 454® (Pyroséquençage) ou Ion

Torrent® (variation de courant par libération de proton). Ces nucléotides étant marqués par des fluorochromes, les nucléotides non incorporés doivent être éliminés par lavage avant que la lecture des 4 fluorescences sur l’ensemble de la flow cell permette d’identifier le nucléotide incorporé dans chaque cluster.

Chaque signal lumineux émis par un fragment d'ADN est