II. Du séquençage des génomes à la génomique comparative et fonctionnelle chez les
1. Apport des technologies de séquençage pour l’analyse des génomes chez les plantes
L’explosion des études de génomique comparative ces dernières années est complètement liée à l’augmentation du nombre de projets de séquençage des génomes (Figure 6) et aux développements des outils informatiques pour le traitement des données de séquences. Le premier génome de plante séquencé a été celui de l’espèce modèle A. thaliana (125 Mb ; Arabidopsis Genome Initiative, 2000) par séquençage avec la technologie Sanger (Sanger & Coulson, 1975; Sanger et al., 1977) de BAC préalablement ordonnés par cartographie physique. D’autres technologies de séquençage à très haut débit ont été développées ces dix dernières années (Pareek et al., 2011; Hirsch & Buell, 2013). Parmi l’ensemble de ces technologies, les plateformes 454 et Illumina ont été les plus utilisées et sont à l’origine de l’explosion des projets de séquençage et de reséquençage de génomes de différents organismes et en particulier les génomes de plantes (Todd & Jackson, 2013).
Dès 2005, une technologie de séquençage haut-débit par synthèse basée sur la méthode brevetée de pyroséquençage (Melamede, 1985) est publiée (Margulies et al., 2005). La plateforme utilise la PCR en émulsion qui consiste à amplifier par clonage un fragment unique d’ADN en immergeant des gouttelettes d’eau contenant des réactifs de PCR dans de l’huile. Les lectures séquencées peuvent être de type « single-end » ou de type « mate-pair » (Figure 7) afin de fournir des informations de « scaffolding » (assemblage de lectures dans un
Tableau 1. Comparaison des technologies de séquençage
Société Roche GS FLX
(454) Illumina-Solexa Life Technologies (SoLiD™) Pacific Biosciences Préparation de la matrice Amplification clonale par PCR en émulsion sur la surface d’une bille Amplification enzymatique par « pont PCR » Amplification clonale par PCR en émulsion sur la surface d’une bille
Détection d’une molécule unique
Méthode de
détection Lumière émise issue des réactions initiées par la libération de pyrophosphate Emission de fluorescence issue des nucléotides marqués et incorporés au cours de la synthèse Emission de fluorescence issue des nucléotides marqués et incorporés au cours de la synthèse
Détection en temps réel du marqueur fluorescent incorporé dans le site actif de la polymérase
Méthode de génération des données
PCR en
émulsion « Amplification par ponts » sur une surface solide
PCR en émulsion Séquençage par synthèse en temps réel d’une molécule unique Chimie/méthode
de séquençage Pyroséquençage Marquage réversible Séquençage par cycles itératifs de liaison de sonde oligonucléotidique
Séquençage par synthèse avec des nucléotides fluorescents
Bases par
matrice 400 35-100 35-50 800-1000
Longueur des lectures
400-1000 bases 35-100 bases 35-50 bases > 1000 bases (moyenne à 4500)
Nombre de bases par série
450-700 Mb 50-600 Gb 25-100 Gb 100 Gb par heure
Durée d’une série de séquençage
> 1 jour 2-11 jours 4-16 jours 10 heures
Coût par Mb ~80 $ ~5 $ ~5 $ < 5 $
D’après (Pareek et al., 2011) ; http://454.com/products/gs-flx-system/index.asp ;
http://res.illumina.com/documents/products/datasheets/datasheet_hiseq_systems.pdf ;
http://www3.appliedbiosystems.com/cms/groups/global_marketing_group/documents/general
37
ordre précis). La dernière mise à jour du système Roche 454 FLX Titanium génère un million de lectures d’une taille avoisinant les 1000 paires de bases (Tableau 1).
En 2008, une méthode de séquençage par synthèse à très haut-débit utilisant des marqueurs réversibles est développée par Solexa et rapidement acquise par Illumina (Bentley
et al., 2008 ; http://www.illumina.com). Cette technologie se caractérise par l’utilisation de
« ponts PCR ». Des groupes de fragments d’ADN correspondant aux ADN à séquencer sont directement synthétisés sur un support solide et vont être utilisés pour amplifier la matrice d’ADN. Le séquençage se fait directement sur ces produits PCR à l’aide de ponts nucléotidiques marqués par fluorescence et modifiés avec une séquence terminatrice afin qu’ils ne puissent pas être étendus au-delà d’un cycle. Les lectures séquencées peuvent aussi être de type « single-end », « paired-ends » ou de type « mate-pair » (Figure 7). La dernière plateforme Illumina (HiSeq2000) peut générer entre 540 et 600 gigabases par série. Cela correspond à près de six milliards de lectures de 100 paires de bases synthétisées et pré-analysées en une durée maximale de deux semaines (Tableau 1).
Parmi les nouvelles méthodes de séquençage à très haut-débit, la plateforme SoLiDTM
(Applied Biosystems) utilise aussi la PCR en émulsion et séquence par cycles itératifs de ligatures (McKernan et al., 2009). Bien que moins utilisée en comparaison à la technologie 454 ou celle d’Illumina, cette technologie a été utilisée pour plusieurs applications avec succès comme l’analyse de transcriptomes et des projets de re-séquençage chez A. thaliana (Ashelford et al., 2011; Autran et al., 2011) ainsi qu’un projet de séquençage de novo du génome du fraisier des bois (Fragaria vesca ; Shulaev et al., 2011). D’autres nouvelles technologies dites de « troisième génération » ont récemment émergé comme la technologie Pacific Biosciences PacBio qui mesure l’activité enzymatique d’une unique polymérase d’ADN en temps réel (e.g. Rasko et al., 2011). Cependant, ces technologies sont encore peu utilisées en comparaison aux technologies citées précédemment. De nombreux projets utilisent plusieurs technologies de séquençage afin de combiner les différents avantages de celles-ci (Tableau 2).
Avec le développement de ces technologies de séquençage, la stratégie initiale de séquençage BAC par BAC par la méthode Sanger a été remplacée par des approches basées sur le « shotgun » initialement utilisé pour séquencer les génomes de virus (Staden, 1979). Le principe repose sur la cassure aléatoire de l’ADN en nombreux fragments qui sont séquencés. Les lectures séquencées chevauchantes sont ensuite ordonnées pour former des contigs (séquences génomiques continues et ordonnées). Les contigs peuvent ensuite être reliés entre eux au sein de scaffolds en suivant les connections des séquences « mate pairs » et/ou des
Tableau 2. Liste des génomes de plantes publiés
Nom scientifique Année Groupe d’espèces Chr. Type de séquenceur Revue PMID
Arabidopsis thaliana 2000 dicot 5 Sa Nature 11130711
Oryza sativa 2002 monocot (graminée) 12 Sa Science 11935017
Oryza sativa 2002 monocot (graminée) 12 Sa Science 11935018
Oryza sativa 2005 monocot (graminée) 12 Sa Nature 16100779
Populus trichocarpa 2006 dicot 19 Sa Science 16973872
Vitis vinifera 2007 dicot 19 Sa Nature 17721507
Vitis vinifera 2007 dicot 19 Sa,4 PlosOne 18094749
Physcomitrella patens 2008 bryophyta 27 Sa Science 18079367
Carica papaya 2008 dicot 9 Sa Nature 18432245
Lotus japonicus 2008 dicot 6 Sa DNA Research 18511435
Sorghum bicolor 2008 monocot (graminée) 10 Sa Nature 19189423
Cucumis sativus 2009 dicot 7 Sa,I Nature Genetics 19881527
Zea mays 2009 monocot (graminée) 10 Sa Science 19965430
Glycine max 2009 dicot 20 Sa Nature 20075913
Glycine soja 2009 dicot 20 I, 4 PNAS 21131573
Brachypodium distachyon 2010 dicot 5 Sa Nature 20148030
Oryza glaberrima 2010 monocot (graminée) 12 NA The Plant Journal 20626650
Ricinus communis 2010 monocot (graminée) 10 Sa Nature Biotechnology 20729833
Malus x domestica 2010 dicot 17 Sa,4 Nature Genetics 20802477
Jatropha curcas 2010 dicot NA Sa, DNA Research 21149391
Theobroma cacao 2011 dicot 10 Sa,4,I Nature Genetics 21186351
Fragaria vesca 2011 dicot 7 4,S,I Nature Genetics 21186353
Arabidopsis lyrata 2011 dicot 8 Sa Nature Genetics 21478890
Selaginella moellendorffii 2011 lycopod NA Sa Science 21551031
Phoenix dactylifera 2011 monocot (non graminée) 18 I Nature Biotechnology 21623354
Solanum tuberosum 2011 dicot 12 Sa,4,I Nature 21743474
Thellungiella parvula 2011 dicot 7 4,I Nature Genetics 21822265
Cucumis sativus 2011 dicot 7 Sa,4 PlosOne 21829493
Cucumis sativus 2011 dicot 10 I Nature Genetics 21873998
Cannabis sativa 2011 dicot ? 4,I Genome Biology 22014239
Cajanus cajan 2011 dicot 11 Sa,I Nature Biotechnology 22057054
Medicago truncatula 2011 dicot 8 Sa,4,I Nature 22089132
Brassica rapa 2011 dicot 10 I Nature Genetics 21873998
Setaria italica 2012 monocot (graminée) 9 I Nature Biotechnology 22580950
Setaria italica 2012 monocot (graminée) 9 Sa Nature Biotechnology 22580951
Solanum lycopersicum 2012 dicot 12 Sa,4,S,I Nature 22660326
Solanum pimpinellifolium 2012 dicot 12 Sa,4,S,I Nature 22660326
Cucumis melo 2012 dicot 12 Sa,4,I PNAS 22753475
Linum usitatissimum 2012 dicot 15 I The Plant Journal 22757964
Musa acuminata 2012 monocot (non graminée) 11 Sa,4,I Nature 22801500
Gossypium raimondii 2012 dicot 13 I Nature Genetics 22922876
Azadirachta indica 2012 dicot 14 4,I BMC Genomics 22958331
Hordeum vulgare 2012 monocot (graminée) 7 NA Nature 23075845
Citrullus lanatus 2013 dicot 11 I Nature Genetics 23179023
Triticum aestivum 2012 monocot (graminée) 21 4 Nature 23192148
Sa, Sanger; 4, Roche/454; S, SOLiD; I, Illumina; T, Ion Torrent, NA, non disponible dans la publication; Chr, chromosome; PMID, PubMed ID (d’après Todd & Jackson, 2013).
39
Tableau 2. Liste des génomes de plantes publiés (suite)
Nom scientifique Année Groupe d’espèces Chr. Type de séquenceur Revue PMID
Nicotiana benthamiana 2012 dicot 19 I Molecular Plant-Microbe interaction
22876960
Prunus mumus 2012 dicot 8 I Nature communications 23271652
Gossypium raimondii 2012 dicot 13 Sa, 4, I Nature 23257886
Hordeum vulgare 2012 monocot (graminée) 7 Sa, I Nature 23075845
Citrullus lanatus 2012 dicot 11 I Nature Genetics 23179023
Azadirachta indica 2012 dicot 12 I, T BMC Genomics 22958331
Pyrus bretschneideri 2013 dicot 17 I Genome Research 23149293
Cicer arietinum 2012 dicot 8 Sa,I Nature Biotechnology 23354103
Hevea brasiliensis 2012 dicot 18 4,S,I BMC Genomics 23375136
Phyllostachys heterocycla 2013 monocot (graminée) 24 I Nature Genetics 23435089
Oryza brachyantha 2013 monocot (graminée) 12 I Nature Communications 23481403
Prunus persica 2013 dicot 8 Sa Nature Genetics 23525075
Aegilops tauschii 2013 monocot (graminée) 7 4,I Nature 23535592
Triticum urartu 2013 monocot (graminée) 7 I Nature 23535596
Nelumbo nucifera 2013 dicot 8 I Genome Biology 23663246
Utricularia gibba 2013 dicot 16 4,I Nature 23665961
Picea abies 2013 gymnosperm 12 I Nature 23698360
Capsella rubella 2013 dicot 8 Sa Nature Genetics 23749190
Betula nana 2012 dicot 14 I Molecular Ecology 23167599
Aethionema arabicum 2013 dicot 22 I Nature Genetics 23817568
Eutrema salsugineum 2013 dicot 7 Sa Frontiers in Plant Science
23518688
Leavenworthia alabamica 2013 dicot 11 I Nature Genetics 23817568
Sisymbrium irio 2013 dicot 11 I Nature Genetics 23817568
Citrus sinensis 2013 dicot 9 I Nature Genetics 23179022
Cicer arietinum L. 2013 dicot 8 4, I The Plant Journal 23489434
Theobroma cacao 2013 dicot 10 4 Genome Biology 23731509
Nicotiana sylvestris 2013 dicot 12 I Genome Biology 23773524
Nicotiana tomentosiformis 2013 dicot 12 I Genome Biology 23773524
Oryza brachyantha 2013 monocot (graminée) 12 I Nature communications 23481403
Phoenix dactylifera 2013 monocot (non graminée) NA 4, S Nature communications 23917264
Elaeis guineensis 2013 monocot (non graminée) 16 4 Nature 23883927
Elaeis oleifera 2013 monocot (non graminée) 16 4 Nature 23883927
Morus notabilis 2013 dicot 7 I Nature communications 24048436
Sa, Sanger; 4, Roche/454; S, SOLiD; I, Illumina; T, Ion Torrent, NA, non disponible dans la publication; Chr, chromosome; PMID, PubMed ID (d’après Todd & Jackson, 2013).
41
séquences des extrémités des BAC (« BAC ends ») dans le cas de stratégies hybrides. En se basant sur la distance attendue entre les séquences pairées, des « gaps » ou espaces de différentes tailles (correspondant à une série de N) seront insérés entre deux contigs d’un même scaffold. Enfin, les scaffolds sont ancrés sur des pseudomolécules (correspondant aux séquences de chromosomes) à partir de cartes génétiques. L’approche hybride consiste à associer différentes plateformes de séquençage (Sanger, 454, Illumina et SoLiD pour la tomate par exemple ; The Tomato Genome Consortium, 2012) et différents types de lectures (« single reads », « paired reads » et « mate pairs »). Cette stratégie a permis l’obtention de nombreuses séquences de génomes de plantes principalement au cours de ces trois dernières années (Figure 6, Tableau 2) dont celle du génome du bananier (D’Hont et al., 2012).