a. Analyse des données RNA-seq et
reconstruction des transcrits pleine longueur (assemblage)
Les difficultés d'analyse et de reconstruction des transcrits pleine longueur à partir des données de séquençage en masse sont les suivantes :
● l'existence ou non d'un génome de référence (annoté ou pas)
● la qualité des séquences (le taux d'erreur de séquençage - "sequencing error rates")
● la différence de taux de transcription des gènes donc la différence du nombre de copie des transcrits
● la conséquence des deux précédents peut-être un nombre élevé de séquences incorrectes (un transcrit fortement exprimé avec des erreurs de séquençage) et un petit nombre de séquences correctes (un transcrit faiblement exprimé sans erreur de séquençage)
● les transcrits codés par des loci adjacents peuvent se chevaucher et peuvent être fusionnés en un transcrit chimérique erroné
● la structure des données de séquençage doit autoriser plusieurs transcrits par locus en raison de l'épissage alternatif
● des séquences qui sont répétées dans différents gènes sont source d'ambiguïté Figure ci-dessous : exemple de suite logicielle ("pipeline") pour l'analyse RNA-seq.
● Bowtie : alignement des lectures via l'algorithme de Burrows - Wheeler (permutation réversible de caractères dans un texte) - voir article
● TopHat : recherche de jonctions d'épissage alternatif potentielles et donc de différentes isoformes de transcrits (combinaison d'exons) - voir article
● Cufflinks : mesure de l'expression d'isoformes de transcrits (assemblage / estimation de l'abondance des transcrits / mesure des différences
d'expression) - voir article
● CummeRbund : script R pour l'analyse et la visualisation
Voir une liste (impressionante) de logiciels dédiés à l'analyse des résultats RNA-seq.
Méthodes et logiciels pour l'assemblage de génomes et la reconstruction des transcrits
Les approches de type "Mapping-first" Les approches de type "Assembly-first (de novo)"
Elles alignent d'abord toutes les lectures par rapport à un génome de référence (non annoté) puis assemblent les séquences (alignements de séquences chevauchantes) et enfin essayent de couvrir les bordures d'épissage alternatif avec les lectures de type "single-end sequencing / paired-end sequencing".
Elles utilisent les lectures pour assembler les séquences des transcrits qui seront ensuite positionnés sur un génome de référence (s'il en existe un).
Ces approches ont, en principe, une sensibilité maximale mais dépendent de l'alignement correct [lectures - génome de référence] qui est compliqué du fait de l'épissage alternatif, des erreurs de séquençage et de l'absence de génomes de référence dans de nombreux cas.
Ces approches ne nécessitent pas d'alignement [lectures - génome de référence], point capital si on ne dispose pas de génome de référence, ou si celui-ci contient beaucoup de "gap" ou s'il est très fragmenté ou ou s'il est modifié de façon substantielle.
● site web avec des applications de visualisation ("mapper") et d'annotation. Exemple : TopHat : "a fast splice junction mapper for RNA-Seq reads".
● base de données TSA : "Transcriptome Shotgun Assembly Database"
● base de données SRA : "The Sequence Read Archive stores raw sequencing data from the next generation of sequencing platforms".
● programmation par contraintes : CLASS ("Constraint-based Local Assembly and Selection of Splice variants")
Principe (très simplifié) de la reconstruction des transcrits avec des graphes de type de Bruijn
Dans ce type de graphe, un nœud est défini par une séquence de nucléotides d'une longueur k fixe (appelée « k-mer »). Cette longueur k est beaucoup plus courte que la longueur d'une lecture. Les noeuds sont reliés par des arêtes si les noeuds se chevauchent parfaitement sur (k-1) nucléotides. Chaque nœud est relié à un nœud "jumeau" qui est la série inverse des séquences complémentaires des « k-mer ». Cela permet de prendre en compte le chevauchement entre les lectures de brins opposés.
Cette représentation compacte permet d'énumérer toutes les solutions par lequelles les séquences des transcrits peuvent être reconstruites: pour l'assemblage du transcriptome, chaque chemin dans le graphe représente un transcrit possible.
La qualité des assemblages
Elle est mesurée par la taille et la précision de leurs contigs. La taille d'un assemblage est corrélée à des valeurs statistiques : la longueur maximale, la longueur moyenne, la longueur totale combinée et la valeur du contig N50.
Le contig N50 est la longueur du plus petit contig dans l'ensemble qui contient le moins de contigs (donc l'ensemble qui contient les contigs les plus grands) et dont la longueur combinée de ces contigs représente au moins 50% de l'assemblage.
b. Caractéristiques des bordures exon-intron ("exon-intron borders") Voir un cours sur l'épissage des ARN messager et le spliceosome.
La plupart des introns commencent par la séquence consensus 5'-GU et finissent par la séquence consensus AG-3'. Ces séquences sont appelés respectivement "site donneur lors de l'épissage" et "site accepteur lors de l'épissage" ("splice donor site" et "splice acceptor site").
Il existe en général une région riche en nucléotides pyrimidiques (C et U) en amont du site AG.
Figure ci-contre : Séquences consensus de pré-ARNm subissant un épissage.
En amont de cette région se trouve le "point de branchement" ("branch point") qui contient toujours une adénine, mais qui par ailleurs est faiblement conservée.
Une séquence typique est YNYYRAY où Y est une pyrimidine (C ou U), N n'importe quel nucléotide, R est une purine (G ou A) et A est l'adenine.
Dans 60% des cas, l'extrémité de la séquence de l'exon situé en 5' (site donneur) est (A/C)AG et l'extrémité de la séquence de l'exon situé en 3' (site accepteur) est G (voire A).
Source : "RNA sequence analysis tools"
11. Liens Internet et références bibliographiques
"Précis de génomique" - Gibson & Muse (2004) - Ed. De Boeck Université - ISBN : 2-8041-4334-1 Méthode de séquençage de F. Sanger
Sanger et al. (1977) "DNA sequencing with chain-terminating inhibitors" Proc. Natl Acad. Sci. USA 74, 5463 - 5467 Film (format QuickTime) : "Dideoxy Sequencing of DNA"
Voir l'animation : "Sanger sequencing"
Article Aller au site Aller au site
ENCODE
ENCODE : The Encyclopedia of DNA Elements
The ENCODE Project Consortium (2011) "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)" PLoS Biol 9, e1001046
The ENCODE project Consortium (2012) "An integrated encyclopedia of DNA elements in the human genome" Nature 489, 57 - 74
Mouse ENCODE Consortium (2012) "An encyclopedia of mouse DNA elements (Mouse ENCODE)" Genome Biol. 13, 418
ENCODE Article Article Article
Le séquençage des génomes - Université Jussieu
Génoscope : Questions fréquemment posées à propos du génome humain.
"DNA Sequencing Costs : Data from the NHGRI Large-Scale Genome Sequencing Program"
"Transcriptome Shotgun Assembly (TSA) Database"
Aller au site Aller au site Aller au site
TSA Quelques articles en relation avec les nouvelles technologies de séquençage
● Brenner et al. (2000) "Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays" Nat.Biotechnol. 18, 630-634
● Hanna et al. (2000) "Comparison of sequencing by hybridization and cycle sequencing for genotyping of human immunodeficiency virus type 1 reverse transcriptase" J. Clinic. Microbiol. 38, 2715 - 2721
● Drmanac et al. (2002) "Sequencing by hybridization (SBH): advantages, achievements, and opportunities" Adv. Biochem. Eng. Biotechnol.77,
75 - 101
● Margulies et al. (2005) "Genome Sequencing in Open Microfabricated High Density Picoliter Reactors" Nature 437, 376 - 380
● Edwards et al. (2005) "Mass-spectrometry DNA sequencing". Mutation Research 573, 3 - 12
● Weber et al. (2007) "Sampling the Arabidopsis transcriptome with massively parallel pyrosequencing" Plant Physiol. 144, 32 - 42
● Morozova & Marra (2008) "Applications of next-generation sequencing technologies in functional genomics" Genomics 92, 255 - 264
● Cloonan et al. (2008) "Stem cell transcriptome profiling via massive-scale mRNA sequencing" Nature Methods 5, 613 - 619
● Zerbino & Birney (2008) "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs" Genome Res. 18, 821 - 829
● Lieberman-Aiden et al. (2009) "Comprehensive mapping of long-range interactions reveals folding principles of the human genome" Science 326, 289 - 293
● Metzker M. (2010) "Sequencing technologies — the next generation" Nature Rev. Genet. 11, 31-46
● Li & Homer (2010) "A survey of sequence alignment algorithms for next-generation sequencing" Brief. Bioinform. 11, 473 - 483
● Suzuki et al. (2011) "Comparison of Sequence Reads Obtained from Three Next-Generation Sequencing Platforms" PLoS ONE 6, e19534
● Glenn, T.V. (2011) "Field guide to next-generation DNA sequencers" Molec. Ecol. Res. 11, 759 - 769
● Rothberg et al. (2011) "An integrated semiconductor device enabling non-optical genome sequencing" Nature 475, 348 - 352
● de Wit & de Laat (2012) "A decade of 3C technologies: insights into nuclear organization" Genes Dev. 26, 11 - 24
● Machida & Knowlton (2012) "Ways to mix multiple PCR amplicons into single 454 run for DNA barcoding" Meth. Mol. Biol. 858, 355 - 361
● Rusk, N. (2013) "Disruptive nanopores" Nature Meth. 10, 35
La méthode "Massively parallel signature sequencing" - MPSS - Brenner et al. (2000)
Une séquence signature de 16 à 20 pb (en moyenne 17 pb) fixée à une bille est séquencée / identifiée. Cette identification est effectuée en parallèle sur des centaines de milliers de billes et environ 1 million de signatures sont obtenues par expérience. Voir une animation décrivant cette technique.
Caractéristiques de cette technique :
● détection de quasiment tous les génes exprimés dans un tissus, même ceux dont le niveau d'expression est faible
● détection de "petits" ARN ("small RNAs" : snRNA, snoRNA, siRNA ("small interfering RNA"), miRNA, piRNA, ...) de faible taille (20 - 30 nucléotides)
● mesure fine du niveau d'expression via un comptage précis et non biaisé des ARN messagers d'un tissus Application à Arabidopsis
● Article : Meyers et al. (2004) "The Use of MPSS for Whole-Genome Transcriptional Analysis in Arabidopsis" Genome Res. 14, 1641-1653
● Base de données "Arabidopsis MPSS Plus database". Voir un tuteur pour l'utilisation de cette base de données.
Smith et al. (1986) "Fluorescence detection in automated DNA sequencing" Nature 321, 674 - 679 Ronaghi et al. (1998) "A sequencing method based on real-time pyrophosphate" Science 281, 363 - 365 Ahmadian et al. (2006) "Pyrosequencing: History, biochemistry and future" Clinica Chimica Acta 363, 83 - 94 Edwards & Batley (2010) "Plant genome sequencing: applications for crop improvement" Plant Biotechnol. J. 8, 2 - 9 Sboner et al. (2011) "The real cost of sequencing: higher than you think" Genome Biology 12, 125
Article Biotage
Article Article Article Wang et al. (2012) "TILLING in extremis" Plant Biotechnol. J. 10, 761 - 772
Sarov et al. (2012) "A Genome-Scale Resource for In Vivo Tag-Based Protein Function Exploration in C. elegans" Cell 150, 855 - 866
Lu et al. (2012) "Effective driving force applied on DNA inside a solid-state nanopore" Phys. Rev. E 86, 01192-1 - 01192-8
Vlassarev & Golovchenko (2012) "Trapping DNA near a Solid-State Nanopore" Biophysical J. 103, 352 - 356
Article Article Article Article
Curtis et al. (2012) "Algal genomes reveal evolutionary mosaicism and the fate of nucleomorphs" Nature 492, 59 - 65 Axelsson et al. (2013) "The genomic signature of dog domestication reveals adaptation to a starch-rich diet" Nature 495, 360–364
Goldman et al. (2013) "Towards practical, high-capacity, low-maintenance information storage in synthesized DNA"
Nature 494, 77 - 80
Green et al. (2010) "A Draft Sequence of the Neandertal Genome" Science 328, 710 - 722
Article Article Article Article Bock et al. (2010) "Genome-wide mapping of DNA methylation: a quantitative technology comparison" Nat. Biotechnol.
28, 1106 - 1114
Manrao et al. (2012) "Reading DNA at single-nucleotide resolution with a mutant MspA nanopore and phi29 DNA polymerase" Nat. Biotechnol. 30, 349 - 353
Ramaswami et al. (2013) "Identifying RNA editing sites using RNA sequencing data alone" Nature Meth. 10, 128 - 13 Hoque et al. (2013) "Analysis of alternative cleavage and polyadenylation by 3' region extraction and deep sequencing"
Nature Meth. 10, 133 - 139
Shendure & Aiden (2012) "The expanding scope of DNA sequencing" Nature Biotech. 30, 1084–1094
Article Article Article Article Article