• Aucun résultat trouvé

PARTIE II : LES DONNEES MOLECULAIRES A L’HEURE DU SEQUENÇAGE HAUT

CHAPITRE 3 - DE SANGER AUX NGS : L’ACQUISITION DES DONNEES

3.1. Le séquençage haut – débit, de « nouvelle génération » ou NGS

La première décennie des années 2000 a vu l’acquisition des données moléculaires faire un saut en avant grâce au développement des technologies de séquençage massif aussi connues comme de nouvelle génération ou NGS (pour « New Generation Sequencing »). En effet, ces nouvelles méthodologies ont permis

une augmentation nette de la quantité de séquences obtenues tout en diminuant les coûts (Figure 3.1) et ont rendu possible d’envisager et de conduire avec succès des études à des échelles plus ambitieuses aussi bien du point de vue des données que par rapport à l’échantillonnage taxonomique.

Ces technologies ont commencé à être disponibles de manière commercial en 2004 avec la technologie 454 ou pyroséquençage. Puis viendront, entre autres, Solexa (actuel Illumina) et SoLID en 2006, puis IonTorrent en 2010, chacune mettant en pratique différentes stratégies de séquençage et avec de différents niveaux d’adéquation selon le type de molécule à séquencer [Metzker, 2010].

Pendant cette thèse, nous avons utilisé la technologie Illumina qui offre la possibilité d’optimiser le compromis entre la quantité de données et le nombre d’individus qui peuvent être traités par séance de séquençage, tous les deux d’importance au vu de la diversité spécifique du groupe qui nous intéresse et de la rareté du matériel biologique disponible pour certains des taxons. Nous avons décidé d'employer le séquençage en single-end car la proportion de lectures d'origine mitochondriale devait être suffisante pour le couvrir plusieurs fois avec des lectures chevauchantes.

De manière générale, le processus de construction de librairies, tel que proposé par [Meyer et Kircher, 2010] implique les étapes suivantes (voir figure 3.3) :

1. Fragmentation de l’ADN, nécessaire si l’ADN génomique est peu dégradé pour produire des fragments d’une taille adéquate à la construction des librairies, ce qui correspond à quelques centaines de nucléotides.

2. Dosage des fragments selon leur taille (sizing), afin d’enlever les fragments d’une taille trop grande ou trop petite par rapport à celle requise pour la librairie.

3. Réparation des extrémités des molécules d’ADN (blunt-end repair), lesquelles sont fréquemment abîmées lors de la fragmentation, qu’elle soit naturelle ou mécanique.

Figure 3.1. Evolution du coût de séquençage de 1Mb (1Mb = 106 sites) depuis le séquençage du premier génome humain, en 2001, jusqu’à aujourd’hui. Données de

http://www.genome.gov/sequencingcosts/. 0 1 2 3 4 5 6

C

o

û

t/

M

b

(

M

il

li

e

rs

d

e

d

o

ll

a

rs

)

Date

454 Solexa (Illumina) 54

4. Ligation des adaptateurs : l’ADN est dénaturé au stade simple brin et des adaptateurs sans phosphates en position 5’ sont additionnés aux extrémités des fragments.

5. Remplissage (fill-in), qui permet de compléter les nucléotides manquants lors de la ligation afin que tout le fragment soit à l’état double-brin.

6. Addition des ‘tags’ ou étiquettes, permettant d’identifier les molécules. 7. PCR indexée.

8. Séquençage.

Les fragments à partir desquels sont construites les librairies peuvent être obtenus par fragmentation de l’ADN en utilisant de moyens mécaniques comme les ultrasons, ou des traitements enzymatiques comme l'ADN [Knierim et al., 2011; Poptsova et al., 2014], mais ils peuvent aussi être déjà présents dans des échantillons naturellement dégradés [Rowe et al., 2011], ce qui constitue un premier avantage de cette technologie par rapport au séquençage classique.

En effet, pour être utilisables avec les technologies classiques (ex. séquençage Sanger), elles-mêmes dépendantes de l’amplification par PCR, les échantillons doivent fournir une quantité suffisante d’ADN peu ou pas dégradé du tout [Golenberg et al., 1996].

Ces conditions sont facilement remplies lorsque l’ADN est obtenu à partir d’échantillons frais, conservés dans de l’éthanol ou congelés à de basses températures. En revanche, ceci n’est pas le cas des échantillons provenant, par exemple, de tissus anciens, de spécimens de musée, ou encore des restes fossiles lesquels généralement fournissent des échantillons pauvres en ADN, ou des ADN très dégradés [Miller et al., 2009; Mason et al., 2011; Rowe et al., 2011].

Figure 3.2. Séquençage single-end et paired-end. Dans le premier, les fragments sont

séquencés à partir d’une seule des extrémités, soit le bout 5’, soit le bout 3’. Dans le deuxième, le fragment est séquencé à partir des deux extrémités. Par conséquent, si le fragment est plus long que deux fois la taille d’une lecture, il y aura entre les deux un gap connu sous le nom de « inner mate distance » dont la valeur joue un rôle clé au moment de paramétrer l’assemblage.

Figure 3.3. Protocole de construction de librairies multiplexées (d’après [Meyer et Kircher,

2010]).

Un deuxième avantage introduit par le séquençage haut-débit est le multiplexage entendu comme le séquençage de plusieurs échantillons de manière simultanée [Smith et al., 2010]. Contrairement au séquençage classique, où chaque échantillon devait être traité de manière individuelle, multipliant le travail de laboratoire et la quantité de réactifs dépensés, le séquençage haut-débit a aussi introduit la possibilité de séquencer plusieurs échantillons mélangés grâce à l’utilisation d’étiquettes ou « tags » qui consistent en oligonucléotides d’entre 6 et 8 nucléotides, incorporés dans des adaptateurs universels [Craig et al., 2008]. Ce marquage va permettre d’identifier les échantillons, puis de les mélanger, de les séquencer ensemble et d’en faire le tri après séquençage en utilisant des outils bioinformatiques.

Le troisième avantage du séquençage haut-débit par rapport au séquençage classique est ce qu’on appelle la couverture ou profondeur (en anglais, coverage ou depth), défini comme le nombre de fois où chaque site d’une séquence est représenté dans les lectures. En effet, les fragments présents dans l’échantillon original vont être amplifiés plusieurs centaines, voire milliers de fois, et ils seront représentés de manière proportionnelle dans les données finales. Ceci représente un outil permettant d’évaluer quantitativement la qualité des assemblages puisque chaque site est représenté plusieurs fois au lieu des deux, dans le meilleur des cas, pour une séquence obtenue avec séquençage classique (voir par exemple [Hampton et al., 2011].

Par ailleurs, les étapes de préparation des librairies jusqu’à l’indexation, nécessitent un maximum de soins afin d’éviter les contaminations croisées [Li et Stoneking, 2012]. En effet, étant donné que tout fragment d’ADN sera amplifié des centaines à des milliers des fois, il suffit d’une toute petite goutte pour qu’un échantillon soit totalement rempli de séquences exogènes. Ce danger est encore plus important lorsqu’il y a des qualités hétérogènes d’ADN, car un échantillon où l'ADN est abondant peut facilement envahir un échantillon où l’ADN est en faible quantité.

Pendant la fabrication des différentes librairies utilisées pour obtenir les données de cette thèse, un protocole alternatif et diminuant considérablement les coûts a été mis au point et validé de manière consistante par l’assemblage de génomes

mitochondriaux sans enrichissement préalable [Tilak et al., 2014]. Ce protocole est décrit de manière détaillée dans le papier # 1 (voir Partie V : Articles) et nous y fournissons également des informations sur les avantages et inconvénients rencontrés pendant la mise au point.

@HWI-D00473:35:C36N9ACXX:1:1101:1419:1999 1:N:0:CAATAT NTCTGTTTTAAGGGGCAGTCATGCAGAAGATGGTTTTGTGGGGAGAG GGATGTGTAAATCAGAGAAAGGAAAANCAGGAAACTGGCACAAGTAT GACATTG + #1=DDDFFHGHHHJJJJJIJJIIJGIJJJIJJJHIJJJGIIIIJJJJJJJJJHIHHHGHHH FFFDDEEEECCD#,;?@BDDDDCDDCDDDDCCDEDDDDCC ID Séquence Scores de qualité