• Aucun résultat trouvé

Chapitre IV : Le séquençage Haut-débit

A. Principe et Méthodes

La méthode de séquençage de Sanger est considérée comme technologie de « première génération ». Cependant, les limites de cette technologie (longueur des séquences, a priori requis pour le

design d’une amorce…) ont conduit au développement de nouvelles techniques de séquençage, les NGS ou Next-Generation Sequencing. Différentes plateformes existent à l’heure actuelle, chacune ayant mis en place sa propre méthodologie, la préparation des matrices, le séquençage, et la capture d’image, et l’analyse des données. Les NGS disponibles sur le marché sont le Roche/454, Illumina/Solexa, Life/APG, Helicos Biosciences, et l’instrument Polonator (Zhang et al., 2011). De nombreuses autres technologies sont en cours de développement

Je me suis, ici, focalisée sur le séquençage de type Illumina, puisque il a été utilisé dans notre étude, pour obtenir des informations quant aux autres technologies, le lecteur pourra se référer aux revues de M.Metzker (Metzker, 2010) ou J.Zhang (Zhang et al., 2011).

L’approche utilisée est le séquençage par synthèse (SBS, Sequencing-by-synthesis). L’ADN est tout d’abord fragmenté, puis immobilisé sur un support. La plupart des systèmes d’imagerie ne peuvent détecter un seul événement de fluorescence, les matrices ADN doivent donc être amplifiées.

Figure 16. Description du processus de Séquence par Synthèse (d’après Lakdawalla et Van Steenhouse, 2008).

Préparation de la librairie : les extrémités des fragments d’ADN sont réparées (a), phosphorylées (b), et une adénine est ajoutée (c). Enfin, des adaptateurs directs et inverses sont ligasés (d). Formation des

colonies : les fragments d’ADN sont dénaturés, puis hybridés aux adaptateurs sur la « flow-cell » (e), étendus (f), puis dénaturés (g). L’ADN simple brin forme un pont en se liant aux amorces proches, liées à la « flow-cell » (h), de nouveau est étendu, formant un double brin (i), puis dénaturé et réhybridé pour former un nouveau pont (j). Le processus est répété plusieurs fois, formant une colonie de plusieurs milliers de fragments identiques (k). Les brins inverses sont clivés, libérant l’extrémité 3’ (k). L’extrémité 3’ est bloquée, et les amorces du séquençage s’hybrident aux brins (m). Séquençage : l’ADN polymérase incorpore un nucléotide terminateur réversible (n), l’image de la fluorescence est capturée (o), le fluorophore et le terminateur sont clivés (p). Le processus est répété sur plusieurs cycles.

Chez Illumina, l’amplification est réalisée sur un support solide, la flow-cell. C’est l’étape de « solid-phase amplification ». Des adaptateurs directs ou inverses sont ligasés aux extrémités des matrices. Ces mêmes adaptateurs sont fixés covalemment sur la flow-cell. Ces adaptateurs ou amorces directes ou inverses, répartis aléatoirement sur la surface de la flow-cell, permettent aux matrices de s’hybrider sur le support. Une première étape d’extension reconstitue le brin complémentaire de la matrice. Après dénaturation, ce simple brin s’hybride via son adaptateur en 3’ à l’amorce adjacente fixée sur la flow-cell, et le brin complémentaire est synthétisé. Cette étape de « bridge amplification » est répétée plusieurs fois. Cette amplification clonale résulte en une population de matrices identiques, regroupés physiquement sur la flow-cell, formant des colonies (clusters). Une amorce peut ensuite s’hybrider aux extrémités 3’ de ces matrices pour l’étape du séquençage. Illumina utilise la méthode « Cyclic reversible terminator » (CRT). Une ADN polymérase liée à la matrice ajoute un seul nucléotide complément de la base de la matrice. Ce nucléotide auquel est fixé un fluorophore, est modifié de façon à bloquer l’addition du nucléotide suivant. Après l’incorporation, les nucléotides non fixés sont éliminés par un lavage. L’image de la fluorescence de chacun des quatre fluorophores est capturée, permettant de déterminer l’identité du nucléotide ajouté à une colonie donnée. Le terminateur et le fluorophore sont clivés, un nouveau lavage permet d’enlever les fluorophores et terminateur, avant de passer au cycle suivant, où l’élongation peut reprendre. Actuellement, le nouveau Genome Analyser HiSeq 2000 peut séquencer des fragments de 100 pb, et générer jusqu’à 200 giga bases par cycles d’utilisation.

Le ChIP-seq offre bien des avantages par rapport au ChIP-chip. Premièrement, contrairement au ChIP-chip, le ChIP-seq permet d’obtenir une résolution à la base près. Bien que les sondes des puces « tiling » puissent couvrir le génome entier, dans le cas des mammifères, il faudrait utiliser un très grand nombre de puces, pour accéder à l’ensemble de leur génome, multipliant ainsi les coûts. Les puces sont également limitées en résolution du fait de contraintes de l’hybridation. L’hybridation des acides

concentration et la structure secondaire des cibles et des sondes. Un autre avantage notable de l’utilisation du ChIP-seq est qu’il est possible de couvrir une surface plus étendue du génome. La couverture du ChIP- seq n’est pas limitée par le répertoire des sondes fixé sur la puce. Ceci est d’autant plus vrai si l’on considère les génomes plus complexes des mammifères. Ceux-ci sont composés à plus de 50% de séquences répétées, or ces régions sont typiquement masquées sur les puces. Dans le cas du ChIP-seq, les variations minimes de séquences au sein des répétitions peuvent être capturées, et utilisées pour cartographier les lectures. De même, les séquences uniques flanquant les répétitions peuvent aider à la cartographie des lectures. Ainsi, par exemple, des séquences de 30 nt sont suffisantes pour cartographier 80 % du génome, et jusqu’à 90% si les séquences sont de 70 nt (Rozowsky et al., 2009).

Toute technologie présente bien évidemment un certain nombre d’artefact. Le ChIP-seq n’y échappe pas. Bien que les erreurs de séquençage aient été réduites, il existe toujours un biais spécialement à la fin de chaque lecture. Ce problème peut être contourné par les algorithmes d’alignements, qui n’aligneront qu’une partie de la séquence, dénommée graine (« seed »), et ne correspondant qu’aux x premières bases de la séquence. Cette méthodologie entraîne tout de même une perte d’information. Le biais des séquences riches en G-C influence également au moment de la préparation de la librairie (PCR), et au cours du séquençage, pour le nombre de lectures d’une séquence donnée.

B. Schéma expérimental