• Aucun résultat trouvé

Chapitre 3 : Analyse du génome

1. Séquençage du génome complet

1.1. Méthodes NGS

Basées sur le séquençage massif en parallèle, trois méthodes principales ont été développées: la méthode 454®, la méthode Illumina/Solexa® et la méthode SOLID®. Ces méthodes diffèrent dans leurs caractéristiques (tailles des lectures, nombre de lectures générées, …) et ont permis de diminuer les coûts de séquençage. Ces méthodes sont ainsi recommandées lorsque l’on souhaite caractériser une souche (Read et al., 2002): c’est la méthode de typage la plus fine, car basée sur la lecture de l’information génétique.

1.1.1. Séquençage 454 ®

Une des principales limites de la méthode Sanger est le recours à l’amplification in vivo de fragments d’ADN à séquencer, clonés au préalable dans des bactéries hôtes (Morozova et Marra, 2008). Cette étape est susceptible d’introduire un biais lié à l’hôte, en plus d’être longue et fastidieuse. La technologie 454 (pyroséquençage), la première des NGS apparue sur le marché, contourne cette étape de clonage : elle utilise une méthode particulière d’amplification d’ADN, la PCR en émulsion. Le principe de la méthode est présenté en Figure 25.

Dans un premier temps, l’ADN génomique est fragmenté par sonication. Les brins sont ensuite séparés et un adaptateur complémentaire d’une amorce PCR est ajouté sur les brins. La réaction PCR se fait dans des micelles, d’où le terme de PCR en émulsion. Dans chaque micelle se trouve une micro-bille qui fixe un fragment d’ADN. Ce dernier est amplifié à l’intérieur de la

70

Figure 26: Principe de la méthode de séquençage Illumina. Figures extraites de (Gibrat, 2014)

71

micelle (107 copies d’un ADN unique) (Morozova et Marra, 2008). Chaque bille est ensuite placée dans un micro-puits. Les nucléotides sont ajoutés tour à tour dans les puits et lorsque l’un d’eux est incorporé, un pyrophosphate inorganique (PPi) est libéré. Le signal relatif à cette émission est mesuré : il est proportionnel au nombre de photons émis, et donc au nombre de nucléotides incorporés. La séquence est ainsi reconstituée nucléotide par nucléotide.

L’un des principaux biais associé à cette méthode est lié au principe de mesure des photons : un effet de saturation du capteur est observé en présence d’un homopolymère. L’estimation est alors incorrecte (Gibrat, 2014). Les principales caractéristiques de cette méthode sont résumées dans la Figure 28.

1.1.2. Séquençage Illumina ®

Une autre méthode de séquençage permet d’éviter l’étape de clonage limitante de la méthode Sanger : il s’agit du séquençage Illumina. Le principe de cette technique est illustré en Figure 26. La première étape consiste à fragmenter l’ADN génomique (sonication, transposase,…). Des adaptateurs sont ajoutés aux extrémités des fragments d’ADN. Ces derniers sont fixés par une extrémité sur une surface solide où sont situées des amorces complémentaires aux adaptateurs: la « flow cell ». Les molécules se courbent ensuite pour s’hybrider aux adaptateurs complémentaires en formant un « pont ». L’amplification est réalisée à partir de cette structure en « pont » et permet d’obtenir près de 40 millions de clusters d’amplification (chaque cluster contient approximativement 1000 copies d’une même molécule) (Morozova et Marra, 2008). Le cycle de séquençage est initié en ajoutant les 4 nucléotides marqués de couleur différente, les amorces et l’ADN polymérase. La séquence ADN est déduite à la fin de chaque incorporation de nucléotides : un laser permet d’exciter les nucléotides et la fluorescence émise est enregistrée.

Le séquençage Illumina permet une meilleure reconstitution des homopolymères que la méthode 454. Cependant, les lectures de séquençage sont de taille inférieures, ce qui peut poser problème lors de la reconstruction de séquences répétées au sein du génome (Morozova et Marra, 2008). Les principales caractéristiques de cette méthode sont résumées dans la Figure 28.

1.1.3. Séquençage SOLID ®

Cette méthode de séquençage est basée sur une approche par hybridation-ligation (SOLID pour « Supported Oligonucleotide Ligation and Detection system ») (Morozova et Marra, 2008). Le principe de cette méthode est illustré en Figure 27.

Les librairies de séquençage sont constituées via une PCR en émulsion. Les produits PCR sont transférés sur une surface de verre où le séquençage a lieu, via un cycle d’hybridation-ligation. Une combinaison de 16 dinucléotides marqués par quatre fluorophores différents est utilisée. Ce système permet de marquer chaque position deux fois. Le nucléotide de la séquence est défini par l’analyse de la couleur de deux réactions de ligations successives (Morozova et Marra, 2008). Cela permet ainsi de faire la distinction entre une erreur de séquençage et un polymorphisme de séquence : l’erreur sera détectée dans seulement une réaction de ligation, alors que le polymorphisme le sera dans les deux. Les principales caractéristiques de cette méthode sont résumées dans la Figure 28.

Une troisième génération de séquenceurs arrive sur le marché depuis peu, avec des tailles de lectures de plus en plus importantes (Ion-Torrent, Pacific Bioscience, MinIon Oxford Nanopore). Ces technologies ne sont pas encore autant utilisées que celles citées précédemment (Figure 28).

72

Figure 27: Principe de la méthode de séquençage SOLID

(Source : http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid- next-generation-sequencing/next-generation-systems/solid-sequencing-chemistry.html)

73

Différentes méthodes de séquençage

Première génération

o Méthode Sanger : séquençage par synthèse (clonage)

Deuxième génération

o Méthode 454 : séquençage par synthèse (amplification PCR)

o Méthode Illumina/Solexa : séquençage par synthèse (amplification PCR)

o Méthode SOLID : séquençage par ligation (amplification PCR)

Troisième génération

o Méthode Pacific Bioscience : séquençage par synthèse (molécule unique)

o Méthode Ion Torrent : séquençage par synthèse (amplification PCR)

o Méthode Nanopore : séquençage « nanopore » (molécule unique)

Instrument Durée d’un

run (heures) Nombre de lectures (millions) Taille lectures (bases) Production (Mbase/run) Coût ($/Mbase) Sanger 3730xl 2 0.000096 650 0.06 10000 454 FLX+ 18-20 1 700 900 85 Illumina Hiseq2000 v3 240 <3000 100+100 <600000 0.03 SOLID 5500xl 192 1400 75+35 155000 0.04 Ion Torrent 318 Chip 2 4-8 200 800 5 PacBio RS 3 0.05 Moyenne : 8.5kb Top 5% : >18kb 375 100 Oxford Nanopore MinIon ?? ?? Médiane : 5kb Plus de 20kb ?? ??

Figure 28 : Caractéristiques des principales méthodes de séquençage passées et actuelles. Figure extraite de (Gibrat, 2014)

74 2. Application des NGS

Les possibilités d’utilisation des NGS sont multiples. Ayant accès à la quasi-totalité de l’information génétique de l’organisme séquencé, les possibilités d’analyse sont immenses (re-séquençage de génomes, identification et expression de gènes, biologie comparative, épidémiologie, identification de facteurs de virulence…) (Grada et Weinbrecht, 2013). Cependant, elles nécessitent un traitement des données important. Bien que l’on parle de séquençage du génome complet, la totalité du génome n’est jamais reconstruite via l’utilisation d’assembleurs ou très difficilement. Il est souvent nécessaire de combiner différentes techniques de séquençage lorsque l’on souhaite obtenir un génome dans sa quasi-totalité. Cependant, une très grande partie du génome (>99%) est souvent reconstruite avec une seule méthode de séquençage, ce qui est très souvent suffisant. Tout dépend de la finalité du projet.

Grâce au séquençage du génome complet, il apparait désormais possible d’identifier de nouveaux polymorphismes de séquence permettant de discriminer des isolats entre eux (Chen et al., 2010; Cummings et al., 2010). Plusieurs projets de séquençage de génome de B. anthracis ont été menés et ont permis l’obtention de séquences complètes ou de « draft » génomes selon les méthodes utilisées (Antwerpen et al., 2012; Birdsell et al., 2013; Chun et al., 2012; Kim et al., 2014; Ohnishi et al., 2014; Ravel et al., 2009; Read et al., 2003).

Avec des coûts de moins en moins importants, les NGS sont de plus en plus utilisées au sein de plateformes ou de laboratoires, et pourraient devenir à terme la méthode de typage de référence.

3. Analyse bioinformatique

Bien que de plus en plus accessibles en raison de la diminution des coûts, les NGS restent une méthode complexe à analyser. Les données générées sont conséquentes (Figure 28) et leur analyse nécessite un savoir-faire particulier, ainsi qu’un matériel approprié. Après l’étape de séquençage proprement dite, les données brutes (lectures de séquençage) doivent être traitées afin de reconstituer le génome de l’organisme séquencé. Deux alternatives sont possibles : l’assemblage de novo ou l’assemblage par homologie.

Documents relatifs