Apport des technologies de séquençage pour l’analyse des génomes chez les plantes

II. Du séquençage des génomes à la génomique comparative et fonctionnelle chez les

1. Apport des technologies de séquençage pour l’analyse des génomes chez les plantes

L’explosion des études de génomique comparative ces dernières années est complètement liée à l’augmentation du nombre de projets de séquençage des génomes (Figure 6) et aux développements des outils informatiques pour le traitement des données de séquences. Le premier génome de plante séquencé a été celui de l’espèce modèle A. thaliana (125 Mb ; Arabidopsis Genome Initiative, 2000) par séquençage avec la technologie Sanger (Sanger & Coulson, 1975; Sanger et al., 1977) de BAC préalablement ordonnés par cartographie physique. D’autres technologies de séquençage à très haut débit ont été développées ces dix dernières années (Pareek et al., 2011; Hirsch & Buell, 2013). Parmi l’ensemble de ces technologies, les plateformes 454 et Illumina ont été les plus utilisées et sont à l’origine de l’explosion des projets de séquençage et de reséquençage de génomes de différents organismes et en particulier les génomes de plantes (Todd & Jackson, 2013).

Dès 2005, une technologie de séquençage haut-débit par synthèse basée sur la méthode brevetée de pyroséquençage (Melamede, 1985) est publiée (Margulies et al., 2005). La plateforme utilise la PCR en émulsion qui consiste à amplifier par clonage un fragment unique d’ADN en immergeant des gouttelettes d’eau contenant des réactifs de PCR dans de l’huile. Les lectures séquencées peuvent être de type « single-end » ou de type « mate-pair » (Figure 7) afin de fournir des informations de « scaffolding » (assemblage de lectures dans un

Tableau 1. Comparaison des technologies de séquençage

Société Roche GS FLX

(454) ^{Illumina-Solexa} ^{Life Technologies}(SoLiD™) ^{Pacific Biosciences} Préparation de la matrice Amplification clonale par PCR en émulsion sur la surface d’une bille Amplification enzymatique par « pont PCR » Amplification clonale par PCR en émulsion sur la surface d’une bille

Détection d’une molécule unique

Méthode de

détection ^{Lumière émise}issue des réactions initiées par la libération de pyrophosphate Emission de fluorescence issue des nucléotides marqués et incorporés au cours de la synthèse Emission de fluorescence issue des nucléotides marqués et incorporés au cours de la synthèse

Détection en temps réel du marqueur fluorescent incorporé dans le site actif de la polymérase

Méthode de génération des données

PCR en

émulsion ^{« Amplification par}ponts » sur une surface solide

PCR en émulsion Séquençage par synthèse en temps réel d’une molécule unique Chimie/méthode

de séquençage ^{Pyroséquençage Marquage}réversible ^{Séquençage par}cycles itératifs de liaison de sonde oligonucléotidique

Séquençage par synthèse avec des nucléotides fluorescents

Bases par

matrice ⁴⁰⁰ ^35-100 ^35-50 ^800-1000

Longueur des lectures

400-1000 bases 35-100 bases 35-50 bases > 1000 bases (moyenne à 4500)

Nombre de bases par série

450-700 Mb 50-600 Gb 25-100 Gb 100 Gb par heure

Durée d’une série de séquençage

> 1 jour 2-11 jours 4-16 jours 10 heures

Coût par Mb ~80 $ ~5 $ ~5 $ < 5 $

D’après (Pareek et al., 2011) ; http://454.com/products/gs-flx-system/index.asp ;

http://res.illumina.com/documents/products/datasheets/datasheet_hiseq_systems.pdf ;

http://www3.appliedbiosystems.com/cms/groups/global_marketing_group/documents/general

ordre précis). La dernière mise à jour du système Roche 454 FLX Titanium génère un million de lectures d’une taille avoisinant les 1000 paires de bases (Tableau 1).

En 2008, une méthode de séquençage par synthèse à très haut-débit utilisant des marqueurs réversibles est développée par Solexa et rapidement acquise par Illumina (Bentley

et al., 2008 ; http://www.illumina.com). Cette technologie se caractérise par l’utilisation de

« ponts PCR ». Des groupes de fragments d’ADN correspondant aux ADN à séquencer sont directement synthétisés sur un support solide et vont être utilisés pour amplifier la matrice d’ADN. Le séquençage se fait directement sur ces produits PCR à l’aide de ponts nucléotidiques marqués par fluorescence et modifiés avec une séquence terminatrice afin qu’ils ne puissent pas être étendus au-delà d’un cycle. Les lectures séquencées peuvent aussi être de type « single-end », « paired-ends » ou de type « mate-pair » (Figure 7). La dernière plateforme Illumina (HiSeq2000) peut générer entre 540 et 600 gigabases par série. Cela correspond à près de six milliards de lectures de 100 paires de bases synthétisées et pré-analysées en une durée maximale de deux semaines (Tableau 1).

Parmi les nouvelles méthodes de séquençage à très haut-débit, la plateforme SoLiDTM

(Applied Biosystems) utilise aussi la PCR en émulsion et séquence par cycles itératifs de ligatures (McKernan et al., 2009). Bien que moins utilisée en comparaison à la technologie 454 ou celle d’Illumina, cette technologie a été utilisée pour plusieurs applications avec succès comme l’analyse de transcriptomes et des projets de re-séquençage chez A. thaliana (Ashelford et al., 2011; Autran et al., 2011) ainsi qu’un projet de séquençage de novo du génome du fraisier des bois (Fragaria vesca ; Shulaev et al., 2011). D’autres nouvelles technologies dites de « troisième génération » ont récemment émergé comme la technologie Pacific Biosciences PacBio qui mesure l’activité enzymatique d’une unique polymérase d’ADN en temps réel (e.g. Rasko et al., 2011). Cependant, ces technologies sont encore peu utilisées en comparaison aux technologies citées précédemment. De nombreux projets utilisent plusieurs technologies de séquençage afin de combiner les différents avantages de celles-ci (Tableau 2).

Avec le développement de ces technologies de séquençage, la stratégie initiale de séquençage BAC par BAC par la méthode Sanger a été remplacée par des approches basées sur le « shotgun » initialement utilisé pour séquencer les génomes de virus (Staden, 1979). Le principe repose sur la cassure aléatoire de l’ADN en nombreux fragments qui sont séquencés. Les lectures séquencées chevauchantes sont ensuite ordonnées pour former des contigs (séquences génomiques continues et ordonnées). Les contigs peuvent ensuite être reliés entre eux au sein de scaffolds en suivant les connections des séquences « mate pairs » et/ou des

Tableau 2. Liste des génomes de plantes publiés

Nom scientifique Année Groupe d’espèces Chr. Type de séquenceur Revue PMID

Arabidopsis thaliana 2000 dicot 5 Sa Nature 11130711

Oryza sativa 2002 monocot (graminée) 12 Sa Science 11935017

Oryza sativa 2002 monocot (graminée) 12 Sa Science 11935018

Oryza sativa 2005 monocot (graminée) 12 Sa Nature 16100779

Populus trichocarpa 2006 dicot 19 Sa Science 16973872

Vitis vinifera 2007 dicot 19 Sa Nature 17721507

Vitis vinifera 2007 dicot 19 Sa,4 PlosOne 18094749

Physcomitrella patens 2008 bryophyta 27 Sa Science 18079367

Carica papaya 2008 dicot 9 Sa Nature 18432245

Lotus japonicus 2008 dicot 6 Sa DNA Research 18511435

Sorghum bicolor 2008 monocot (graminée) 10 Sa Nature 19189423

Cucumis sativus 2009 dicot 7 Sa,I Nature Genetics 19881527

Zea mays 2009 monocot (graminée) 10 Sa Science 19965430

Glycine max 2009 dicot 20 Sa Nature 20075913

Glycine soja 2009 dicot 20 I, 4 PNAS 21131573

Brachypodium distachyon 2010 dicot 5 Sa Nature 20148030

Oryza glaberrima 2010 monocot (graminée) 12 NA The Plant Journal 20626650

Ricinus communis 2010 monocot (graminée) 10 Sa Nature Biotechnology 20729833

Malus x domestica 2010 dicot 17 Sa,4 Nature Genetics 20802477

Jatropha curcas 2010 dicot NA Sa, DNA Research 21149391

Theobroma cacao 2011 dicot 10 Sa,4,I Nature Genetics 21186351

Fragaria vesca 2011 dicot 7 4,S,I Nature Genetics 21186353

Arabidopsis lyrata 2011 dicot 8 Sa Nature Genetics 21478890

Selaginella moellendorffii 2011 lycopod NA Sa Science 21551031

Phoenix dactylifera 2011 monocot (non graminée) 18 I Nature Biotechnology 21623354

Solanum tuberosum 2011 dicot 12 Sa,4,I Nature 21743474

Thellungiella parvula 2011 dicot 7 4,I Nature Genetics 21822265

Cucumis sativus 2011 dicot 7 Sa,4 PlosOne 21829493

Cucumis sativus 2011 dicot 10 I Nature Genetics 21873998

Cannabis sativa 2011 dicot ? 4,I Genome Biology 22014239

Cajanus cajan 2011 dicot 11 Sa,I Nature Biotechnology 22057054

Medicago truncatula 2011 dicot 8 Sa,4,I Nature 22089132

Brassica rapa 2011 dicot 10 I Nature Genetics 21873998

Setaria italica 2012 monocot (graminée) 9 I Nature Biotechnology 22580950

Setaria italica 2012 monocot (graminée) 9 Sa Nature Biotechnology 22580951

Solanum lycopersicum 2012 dicot 12 Sa,4,S,I Nature 22660326

Solanum pimpinellifolium 2012 dicot 12 Sa,4,S,I Nature 22660326

Cucumis melo 2012 dicot 12 Sa,4,I PNAS 22753475

Linum usitatissimum 2012 dicot 15 I The Plant Journal 22757964

Musa acuminata 2012 monocot (non graminée) 11 Sa,4,I Nature 22801500

Gossypium raimondii 2012 dicot 13 I Nature Genetics 22922876

Azadirachta indica 2012 dicot 14 4,I BMC Genomics 22958331

Hordeum vulgare 2012 monocot (graminée) 7 NA Nature 23075845

Citrullus lanatus 2013 dicot 11 I Nature Genetics 23179023

Triticum aestivum 2012 monocot (graminée) 21 4 Nature 23192148

Sa, Sanger; 4, Roche/454; S, SOLiD; I, Illumina; T, Ion Torrent, NA, non disponible dans la publication; Chr, chromosome; PMID, PubMed ID (d’après Todd & Jackson, 2013).

Tableau 2. Liste des génomes de plantes publiés (suite)

Nom scientifique Année Groupe d’espèces Chr. Type de séquenceur Revue PMID

Nicotiana benthamiana 2012 dicot 19 I Molecular Plant-Microbe interaction

22876960

Prunus mumus 2012 dicot 8 I Nature communications 23271652

Gossypium raimondii 2012 dicot 13 Sa, 4, I Nature 23257886

Hordeum vulgare 2012 monocot (graminée) 7 Sa, I Nature 23075845

Citrullus lanatus 2012 dicot 11 I Nature Genetics 23179023

Azadirachta indica 2012 dicot 12 I, T BMC Genomics 22958331

Pyrus bretschneideri 2013 dicot 17 I Genome Research 23149293

Cicer arietinum 2012 dicot 8 Sa,I Nature Biotechnology 23354103

Hevea brasiliensis 2012 dicot 18 4,S,I BMC Genomics 23375136

Phyllostachys heterocycla 2013 monocot (graminée) 24 I Nature Genetics 23435089

Oryza brachyantha 2013 monocot (graminée) 12 I Nature Communications 23481403

Prunus persica 2013 dicot 8 Sa Nature Genetics 23525075

Aegilops tauschii 2013 monocot (graminée) 7 4,I Nature 23535592

Triticum urartu 2013 monocot (graminée) 7 I Nature 23535596

Nelumbo nucifera 2013 dicot 8 I Genome Biology 23663246

Utricularia gibba 2013 dicot 16 4,I Nature 23665961

Picea abies 2013 gymnosperm 12 I Nature 23698360

Capsella rubella 2013 dicot 8 Sa Nature Genetics 23749190

Betula nana 2012 dicot 14 I Molecular Ecology 23167599

Aethionema arabicum 2013 dicot 22 I Nature Genetics 23817568

Eutrema salsugineum 2013 dicot 7 Sa Frontiers in Plant Science

23518688

Leavenworthia alabamica 2013 dicot 11 I Nature Genetics 23817568

Sisymbrium irio 2013 dicot 11 I Nature Genetics 23817568

Citrus sinensis 2013 dicot 9 I Nature Genetics 23179022

Cicer arietinum L. 2013 dicot 8 4, I The Plant Journal 23489434

Theobroma cacao 2013 dicot 10 4 Genome Biology 23731509

Nicotiana sylvestris 2013 dicot 12 I Genome Biology 23773524

Nicotiana tomentosiformis 2013 dicot 12 I Genome Biology 23773524

Oryza brachyantha 2013 monocot (graminée) 12 I Nature communications 23481403

Phoenix dactylifera 2013 monocot (non graminée) NA 4, S Nature communications 23917264

Elaeis guineensis 2013 monocot (non graminée) 16 4 Nature 23883927

Elaeis oleifera 2013 monocot (non graminée) 16 4 Nature 23883927

Morus notabilis 2013 dicot 7 I Nature communications 24048436

Sa, Sanger; 4, Roche/454; S, SOLiD; I, Illumina; T, Ion Torrent, NA, non disponible dans la publication; Chr, chromosome; PMID, PubMed ID (d’après Todd & Jackson, 2013).

séquences des extrémités des BAC (« BAC ends ») dans le cas de stratégies hybrides. En se basant sur la distance attendue entre les séquences pairées, des « gaps » ou espaces de différentes tailles (correspondant à une série de N) seront insérés entre deux contigs d’un même scaffold. Enfin, les scaffolds sont ancrés sur des pseudomolécules (correspondant aux séquences de chromosomes) à partir de cartes génétiques. L’approche hybride consiste à associer différentes plateformes de séquençage (Sanger, 454, Illumina et SoLiD pour la tomate par exemple ; The Tomato Genome Consortium, 2012) et différents types de lectures (« single reads », « paired reads » et « mate pairs »). Cette stratégie a permis l’obtention de nombreuses séquences de génomes de plantes principalement au cours de ces trois dernières années (Figure 6, Tableau 2) dont celle du génome du bananier (D’Hont et al., 2012).

Dans le document Organisation et évolution de familles de gènes impliqués dans la maturation du fruit chez le bananier (Page 51-57)