• Aucun résultat trouvé

Établissement d’une séquence de référence

Assemblage de génome de novo à partir des données MinION

Les différents jeux de données de lectures MinION 2D, correspondant aux couvertures théoriques du génome (10, 15, 20 et l’ensemble des lectures 2D) ont été sujets à 4 assembleurs : ABruijin25 (v 0.3b), Canu26 (v 1.1), miniasm27 (v 0.2-r137-dirty) et SMARTdenovo

(https://github.com/ruanjue/smartdenovo).

ABruijin et miniasm ont été lancés avec les paramètres par défaut. Pour Canu et SMARTdenovo les options « genomeSize = 13m, minReadLength = 2500, mhapSensitivity = high, corMhapSensitivity = high corOutCoverage = 500 » et « -c 1 -k 14 -J 2500 -e zmo » ont été utilisées respectivement. Après assemblage, les contigs ont été corrigés par Pilon28

(v 1.18) à partir de lectures Illumina pairées de 100 bp. Finalement, SSPACE-LongRead29

(v 1.1) a été utilisé afin de regrouper les assemblages grâce aux informations provenant des lectures longues.

Évaluation de la qualité des assemblages

La qualité des différents assemblages a tout d’abord été évaluée par l’analyse des lectures courtes non mappées déterminées grâce à Samtools30 (v 0.1.19) avec les options « view -f 4 -c ». Cette analyse a été complétée par l’examination des gènes eucaryotes très conservés retrouvés par CEGMA31 (v 2.5) en utilisant les paramètres par défaut.

Comparaison des génomes complets

La comparaison des génomes obtenus a été réalisée grâce à MUMmer13 (v 3.0). Nucmer avec l’option « -maxmatch » a permis l’alignement des séquences. Les coordonnées des alignements ont été extraits afin de déterminer la proportion des résidus non-ambigües (N) pour chaque assemblage. Les fichiers delta ont par la suite été filtrés afin d’ignorer les alignements d’une taille inférieure à 5 kb. Les données obtenues ont par la suite été soumises à mummerplot afin d’obtenir les représentations graphiques de la colinéarité des génomes.

Alignement des lectures courtes

Les lectures ont été alignées contre le génome grâce à BWA30 (v 0.7.4) et le nombre de lectures non-alignées a été estimé grâce à Samtools10 (v 0.1.19). GATK11 (v 3.3) a par la suite été utilisé afin de réaligner les lectures dans les régions présentant des insertions et délétions de petites taille, de déterminer les variants nucléotidiques et d’obtenir la fréquence allélique de ces derniers.

Accessibilité des données

L’ensemble des données de séquençage générées dans cette étude, ainsi que l’assemblage de référence obtenue pour la souche UMY321 ont été déposés sur la base de données “European Nucleotide Archive” (ENA) sous l’identifiant PRJEB21262.

Annotation du génome

Afin de produire une annotation des éléments fonctionnels au sein de la séquence de référence de D. bruxellensis, le logiciel Amadea Annnotation transfer tool (Isoft, France) a été utilisé. Les génomes de la souche CNS3082T (Lachancea kluyveri) et celui de la souche CBS767T

(Debaryomyces hansenii) ont été utilisés comme génome de référence (versions corrigées, disponible sur GRYC (http://gryc.inra.fr)). Cette étape a été suivie d’un nettoyage manuel à partir de données de RNA-Seq provenant de la souche de D. bruxellensis CBS249932 (SRA : SRR427169 – Projet : PRJNA76499). Le logiciel d’alignement Tophat233 (v. 2.1.0) a par la suite été utilisé afin d’aligner les lectures contre le génome assemblé de YJS5431. Afin de modifier les fichiers bam, le logiciel Artemis34 (v. 16.0.0) a été utilisé, permettant de corriger les coordonnées des exons et des introns, ainsi que d’identifier les IncRNA. Les ARNt ont par la suite été identifiés grâce à tRNA-scan-SE35 (v. 1.3.1) et les éléments transposables ont été déterminés grâce à une comparaison Blast contre des éléments transposables de levures provenant de différentes familles, tels que Ty1-copia, Ty3-gypsy, et hAT.

Correction de la séquence de référence

Après la première étape d’annotation, plusieurs pseudo-gènes présentant une taille de CDS non divisible par trois ont été déterminés (1427 / 5226), résultant essentiellement d’erreurs d’assemblage de par la forte hétérozygotie de la souche de référence séquencée. Afin de corriger ces annotations, nous avons réassemblé le génome grâce à SOAPdenovo à partir des données de type Illumina. Cet assemblage a par la suite été soumis au logiciel Redundans36 (v. 0.13c) en utilisant la séquence de référence produite initialement comme modèle. Les différentes séquences des pseudo-gènes ont par la suite été confrontées à l’assemblage produit par Redundans grâce au logiciel Blastn, et seuls les HSP couvrant de manière complète les séquences des pseudo-gènes ont été conservés. Un alignement global à partir du logiciel needle de la suite EMBOSS37 a été réalisé à partir de la séquence protéique des CDS sélectionnés et seuls ceux présentant une similarité supérieure à 80 % ont été conservés. Dans ce cas, la séquence nucléotidique a été remplacée dans la séquence de référence et l’ensemble des coordonnées des différents éléments fonctionnels ont été mis à jour. Cette procédure a permis de corriger la séquence de 872 gènes dans l’assemblage initial, et l’annotation comme pseudo-gène a été conservée pour les 555 pseudo-gènes restants.

Références

1. Hirakawa, M. P. et al. Genetic and phenotypic intra-species variation in Candida

albicans. Genome Res. gr.174623.114- (2015). doi:10.1101/gr.174623.114

2. Almeida, P. et al. A Gondwanan imprint on global diversity and domestication of wine and cider yeast Saccharomyces uvarum. Nat. Commun. 5, 4044 (2014).

3. Leducq, J.-B. et al. Speciation driven by hybridization and chromosomal plasticity in a wild yeast. Nat. Microbiol. 1, 15003 (2016).

4. Friedrich, A., Jung, P., Reisser, C., Fischer, G. & Schacherer, J. Population genomics reveals chromosome-scale heterogeneous evolution in a protoploid yeast. Mol. Biol.

Evol. 32, 184–92 (2015).

5. Dujon, B. et al. Genome evolution in yeasts. Nature 430, 35–44 (2004).

6. Souciet, J.-L. et al. Comparative genomics of protoploid Saccharomycetaceae. Genome

Res. 19, 1696–709 (2009).

7. Scannell, D. R. et al. The awesome power of yeast evolutionary genetics: new genome sequences and strain resources for the Saccharomyces sensu stricto genus. G3

(Bethesda). 1, 11–25 (2011).

8. Jones, T. et al. The diploid genome sequence of Candida albicans. Proc. Natl. Acad. Sci.

101, 7329–7334 (2004).

9. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads.

EMBnet.journal 17, 10–12 (2011).

10. Li, H. et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics 25, 2078–9 (2009).

11. McKenna, A. et al. The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 20, 1297–303 (2010). 12. Boeva, V. et al. Control-free calling of copy number alterations in deep-sequencing data

using GC-content normalization. Bioinformatics 27, 268–269 (2011).

13. Kurtz, S. et al. Versatile and open software for comparing large genomes. Genome Biol.

5, R12 (2004).

14. Danecek, P. et al. The variant call format and VCFtools. Bioinformatics 27, 2156–2158 (2011).

15. Cingolani, P. et al. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3. Fly (Austin). 6, 80–92

16. Kumar, P., Henikoff, S. & Ng, P. C. Predicting the effects of coding non-synonymous variants on protein function using the SIFT algorithm. Nat. Protoc. 4, 1073–81 (2009). 17. Huson, D. H. Drawing rooted phylogenetic networks. IEEE/ACM Trans. Comput. Biol.

Bioinforma. (2009). doi:10.1109/TCBB.2008.58

18. Pritchard, J. K., Stephens, M. & Donnelly, P. Inference of population structure using multilocus genotype data. Genetics 155, 945–59 (2000).

19. Vilella, A. J., Blanco-Garcia, A., Hutter, S. & Rozas, J. VariScan: Analysis of evolutionary patterns from large-scale DNA sequence polymorphism data.

Bioinformatics 21, 2791–3 (2005).

20. Tajima, F. Statistical Method for Testing the Neutral Mutation Hypothesis by DNA Polymorphism. Genetics 123, 585–595 (1989).

21. Yang, Z. PAML 4: phylogenetic analysis by maximum likelihood. Mol. Biol. Evol. 24, 1586–91 (2007).

22. Jackman, S. D. et al. ABySS 2.0: resource-efficient assembly of large genomes using a Bloom filter. Genome Res. 27, 768–777 (2017).

23. Stanke, M. & Waack, S. Gene prediction with a hidden Markov model and a new intron submodel. Bioinformatics 19 Suppl 2, ii215-25 (2003).

24. Korf, I. Gene finding in novel genomes. BMC Bioinformatics 5, 59 (2004).

25. Lin, Y. et al. Assembly of long error-prone reads using de Bruijn graphs. Proc. Natl.

Acad. Sci. U. S. A. 113, E8396–E8405 (2016).

26. Koren, S. et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome Res. 27, 722–736 (2017).

sequences. Bioinformatics 32, 2103–10 (2016).

28. Walker, B. J. et al. Pilon: An Integrated Tool for Comprehensive Microbial Variant Detection and Genome Assembly Improvement. PLoS One 9, e112963 (2014).

29. Boetzer, M. & Pirovano, W. SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information. BMC Bioinformatics 15, 211 (2014).

30. Li, H. & Durbin, R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754–60 (2009).

31. Parra, G., Bradnam, K. & Korf, I. CEGMA: a pipeline to accurately annotate core genes in eukaryotic genomes. Bioinformatics 23, 1061–1067 (2007).

32. Piškur, J. et al. The genome of wine yeast Dekkera bruxellensis provides a tool to explore its food-related properties. Int. J. Food Microbiol. 157, 202–9 (2012).

33. Kim, D. et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol. 14, R36 (2013).

34. Carver, T., Harris, S. R., Berriman, M., Parkhill, J. & McQuillan, J. A. Artemis: an integrated platform for visualization and analysis of high-throughput sequence-based experimental data. Bioinformatics 28, 464–9 (2012).

35. Lowe, T. M. & Chan, P. P. tRNAscan-SE On-line: integrating search and context for analysis of transfer RNA genes. Nucleic Acids Res. 44, W54-7 (2016).

36. Pryszcz, L. P. & Gabaldón, T. Redundans: An assembly pipeline for highly heterozygous genomes. Nucleic Acids Res. 44, e113 (2016).

37. Rice, P., Longden, I. & Bleasby, A. EMBOSS: The European Molecular Biology Open Software Suite. Trends Genet. 16, 276–277 (2000).