• Aucun résultat trouvé

1.5 Outils d’analyse bioinformatique

1.5.1 Notion de séquençage haut débit

Les analyses WGS produisent la séquence complète du génome observé. L’obtention de ces informations génomiques passe par l’utilisation du séquençage à haut débit. Pour mieux com- prendre cette technique, il faut d’abord repartir aux techniques historiques du séquençage. Techniques de séquençage

Séquençage Sanger. Le premier séquençage disponible est le séquençage Sanger (du nom de son inventeur Frederick Sanger), publié en 1977 [105]. L’utilisation d’une ADN polymérase permet de synthétiser des nouveaux brins d’ADN complémentaires des brins existants. L’hybridation d’une amorce sur la séquence à lire permet à l’ADN polymérase, en présence des 4 nucléotides, l’élongation de la séquence en cours de synthèse, en ajoutant le nucléo- tide complémentaire au brin d’ADN matrice. Des "terminateurs de chaîne" sont incorporés dans le milieu de synthèse, permettant de bloquer l’élongation. L’obtention de séquences de différentes tailles, chacune avec à son extrémité un terminateur de chaîne permet d’obtenir

l’ensemble de la séquence observée. Les différentes séquences sont séparées en électrophorèse capillaire de manière très précise puisque la séparation se fait à la base près. Un laser permet de révéler les agents fluorescents fixés sur les terminateurs de chaîne. Les signaux lumineux ainsi produits sont lus par ordinateur. Les profils obtenus sont visibles sur la figure 1.20.

Figure 1.20 – Visualisation de résultats de séquençage Sanger [106]. Le schéma du haut représente le signal lumineux capté par le séquenceur. Chaque pic correspond à un nucléotide. La bande du milieu représente le résultat de la révélation dans un capillaire. La partie basse du schéma correspond à l’électrophorèse classique avec une piste par nucléotide.

La taille du fragment qui peut être séquencé est comprise entre 400 et 900 nucléotides. Les nucléotides lus sont peu fiables en début et en fin de séquence. Les limites principales de la technique sont son coût élevé par bp et son temps d’analyse long. Pour pallier à cela, les techniques dites à haut-débit ou NGS ont vu le jour (tableau 1.4). Le principe est la parallé- lisation de la lecture qui permet de lire un grand nombre de fragments d’ADN en un temps court.

Technique (Fournisseur)

Longueur de

reads (bp)

Reads Précision Temps (1 run) Coût

($/Mbp) Sanger 400-900 1 99,99 % 20 min à 3h 2400 454 (Roche) 500-700 1 million 99,90 % 24h 10 Ion Torrent (Life Technolo- gies) < 400 80 millions 98 % 2h 1 MiSeq (Illu- mina) 50-300 6 milliards 98 % 1-10 jours 0,05- 0,15 SMRT (Pac- Bio) 10.000- 15.000 0,5-1 milliard 87 % 30 min à 4h 0,13- 0,60

Le tableau 1.4 résume les caractéristiques des différentes techniques permettant d’avoir une vision globale de chacune avec leurs avantages et inconvénients.

Il existe différentes techniques de séquençage haut-débit disponibles à l’heure actuelle et toutes ne seront pas décrites ici.

La plupart de ces techniques haut-débit reposent sur l’utilisation de la PCR décrite ci-dessous. PCR. Le but de cette technique est de dupliquer un grand nombre de fois un même fragment d’ADN. Après séparation des deux brins d’ADN, une amorce s’hybride sur le début de la séquence à amplifier. Une polymérase va ensuite copier le brin d’ADN qui sert de modèle. Après, un nouveau cycle commence : séparation des brins, fixation de l’amorce, élongation (figure 1.21). Après plusieurs dizaines de cycles, la séquence d’intérêt est présente des millions de fois dans le milieu.

Figure 1.21 – Schéma des différentes étapes de la technique de PCR [109]

collection de fragments d’ADN auxquels sont ajoutés des adaptateurs, permettant de fixer les fragments sur une surface.

Parmi les techniques de séquençage haut-débit, les quatre plus connues sont le 454 de Roche, l’Ion Torrent de Life Technilogies, le HiSeq et MiSeq d’Illumina ou encore la technique SMRT de Pacific Biosciences (PacBio). Les caractéristiques de chacune sont répertoriées dans le ta- bleau 1.4.

Roche 454. Après création de la librairie, les fragments d’ADN sont fixés sur une bille (un seul fragment par bille). Une PCR amplifie chacun des fragments. Celle-ci se fait en émulsion dans une goutte d’huile. Cette amplification permet l’obtention d’un signal plus élevé lors de la lecture des bases. Ensuite, chaque bille est déposée dans un puits (figure 1.22).

Figure 1.22 – Séquençage haut débit, création de librairie : A. Puits de dépôt des billes pour PCR en émulsion [110], B. Billes déposées dans les puits sur lesquelles sont visibles les fragments d’ADN après amplification [110]

Il s’agit d’une technique de synthèse séquentielle. Après la préparation de la librairie, les 4 bases sont ajoutées de manières séquentielles dans le milieu. La première est ajoutée, le milieu est lavé puis une autre est ajoutée et ainsi de suite. Lorsqu’un ou plusieurs nucléotides sont incorporés, un signal lumineux (émis par une luciférase) est enregistré. L’avantage de cette technique tient à des reads assez longs et à sa rapidité, 24h pour une expérience. En revanche, la difficulté à discriminer les signaux lumineux (figure 1.23) quand il y a plus d’un nucléotide incorporé en une seule étape tend à produire des erreurs d’homopolymère, par exemple ’TAAA’ facilement confondu avec ’TAAAA’. Ce séquenceur a été lancé en 2005, et les kits de réactifs pour cette machine ne sont plus disponibles depuis l’été 2016.

Figure 1.23 – Signal lumineux produit par l’appareil Roche 454

fragments sont liés à des billes puis amplifiés par PCR en émulsion. De plus, les bases sont également ajoutées de manières séquentielles dans le milieu mais cette fois, l’incorporation de nucléotide(s) est mesurée par une variation de pH. Quand un nucléotide est incorporé, il libère un proton dans le milieu qui va faire varier le pH. C’est cette variation qui est mesurée. Tout comme pour le 454, la méthode est peu discriminante lorsqu’il s’agit de connaître exac- tement le nombre de fois qu’un même nucléotide est incorporé, ce qui génère fréquemment des erreurs d’homopolymère. L’avantage de cette technique est tout de même le coût moindre de l’équipement par rapport aux autres (Illumina et PacBio) et sa rapidité (2h pour un run), voir tableau 1.4.

Illumina. Après création de la librairie, les fragments d’ADN sont fixés sur une plaque avant d’être amplifiés par une PCR en colonie qui va générer des clusters de fragments d’ADN identiques (figure 1.24).

Figure 1.24 – Fixation de l’ADN sur plaque et création de cluster par PCR [111]

Cette dernière technique repose sur un principe différent des deux précédentes. En effet, il ne s’agit pas ici d’une synthèse séquentielle. Les nucléotides ajoutés dans le milieu sont des ter- minateurs de chaînes. Les nucléotides sont incorporés un à la fois ce qui élimine le problème de détection de nucléotides répétés. Lorsque la séquence est lue par fluorescence (figure 1.25), le terminateur est enlevé du nucléotide ce qui permet la continuation de l’élongation. Cette technique est la moins chère, avec un coût situé entre 0,05 et 0,15$ pour 1 million de bases, et avec le rendement le plus élevé (jusqu’à 6 milliards de reads par run), voir tableau 1.4.

PacBio. Une autre technique a vu le jour plus récemment développée par Pacific Bios- ciences [113]. Le séquençage se fait cette fois en temps réel, sans aucune amplification préa- lable (séquençage SMRT, Single Molecule Real Time ). Après extraction, l’ADN doit être intact c’est à dire, peu fragmenté. Dans le cas contraire, les résultats seront de mauvaise qualité avec des reads courts.

Figure 1.26 – Schéma de la technique de séquençage PacBio [114]

Contrairement aux autres techniques ou la molécule d’ADN est fixée sur un support (lors de la création de la librairie), ici c’est l’enzyme qui est fixe (voir figure 1.26). En présence de la mo- lécule d’ADN et de nucléotides fluorescents, l’enzyme va synthétiser le nouveau brin d’ADN. Lors de l’incorporation d’un nucléotide, l’enzyme libère le marqueur fluorescent détecté par l’appareil. Cela permet de générer des reads qui sont beaucoup plus longs ce qui facilitera les étapes de traitement par la suite. En revanche, la précision est légèrement moindre que celle des autres appareils. Il n’existe pour le moment que peu d’appareils disponibles dans le monde du à son coût relativement élevé.

Multiplexage. Lors de l’utilisation de techniques de séquençage haut-débit, un grand nombre de séquences sont lues simultanément. La couverture produite par ces techniques NGS cor- respond au nombre de fois qu’une base sera théoriquement lue. Elle est calculée en fonction du nombre total de bases lues dans un run (un séquençage) et de la taille du génome à sé- quencer. Le nombre de bases qui peuvent être lues en un seul run dépasse souvent le nombre de bases voulues (environ 80X pour 80 lectures de chaque bases). Il est donc avantageux de séquencer plusieurs échantillons/génomes en même temps. Pour cela, on va utiliser la technique de multiplexage qui consiste à ajouter un tag (une séquence nucléotidique spéci- fique) à chacun des fragments d’ADN au moment de la création de la librairie. Chaque tag est spécifique d’un échantillon. Lors de l’analyse, les reads seront triés grâce au tag qu’ils portent. Données

Les données brutes récupérées après séquençage sont généralement des fichiers au format fastq qui contiennent les reads, c’est à dire les lectures de chacun des fragments d’ADN. Ce sont des fichiers très volumineux puisqu’il y a plusieurs millions de reads lus au cours d’un run de séquençage. Chacun des reads présent dans le fichier correspond à 4 lignes. La première, commençant obligatoirement par un ’@’ correspond au nom de la séquence. C’est souvent un nom générique donné par l’appareil. La deuxième ligne correspond à la séquence nucléotidique du read. La troisième ligne ne contient que le symbole ’+’ qui sert de séparateur. En effet la dernière ligne correspondant au score de qualité peut contenir les lettres présentes dans la séquence. Le ’+’ sert donc bien ici de séparateur. Le score de qualité ou phred score

donne la précision avec laquelle la base a été lue. Il est codé par 40 caractères variant en fonction des séquenceurs (par exemple, pour le score de qualité Illumina 1.8+ Phred+33 / vaut 15, A vaut 33 et E vaut 37). Plus le score est élevé plus la certitude d’avoir lue la bonne base est forte. Un exemple est présenté en figure 1.27.

Figure 1.27 – Extrait d’un fichier au format fastq. La première ligne correspond au nom de la séquence (commençant par @NS500311), vient ensuite la séquence du read, un ’+’ qui sert de séparateur et le score de qualité (commençant par AAAAAEEEEE, codé en Illumina 1.8+ Phred+33). La ligne suivante indique le début d’un nouveau read. Ici, les séquences et scores de qualités de trois reads sont présentés.

Ce format s’oppose au format fasta qui contient des séquences nucléotidiques ou protéiques et non plus des reads. Le format fasta ne comporte que deux lignes, la première commence par un ’>’ qui est suivi par le nom de la séquence, qui peut être un nom de chromosome par exemple. La deuxième ligne correspond à la séquence elle-même (nucléotidique ou protéique), exemple en figure 1.28.

Figure 1.28 – Extrait d’un fichier au format fasta. La première ligne correspond au nom de la séquence (commençant par >), puis la séquence elle même sur une ou plusieurs lignes. La séquence présentée correspond au début du génome de P. aeruginosa PAO1.

N qui correspond à un nucléotide non défini, soit A, T, G ou C. Il existe également d’autres lettres symbolisant les combinaisons possibles de chaque bases (tableau 1.5).

Code Nucléotides R A ou G Y C ou T S G ou C W A ou T K G ou T M A ou C B C ou G ou T D A ou G ou T H A ou C ou T V A ou C ou G

N N’importe quelle base

Tableau 1.5 – Code IUPAC (International Union of Pure and Applied Chemistry )

Documents relatifs