• Aucun résultat trouvé

Bloocoo, a memory efficient read corrector

N/A
N/A
Protected

Academic year: 2021

Partager "Bloocoo, a memory efficient read corrector"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01092960

https://hal.inria.fr/hal-01092960

Submitted on 9 Dec 2014

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Bloocoo, a memory efficient read corrector

Gaëtan Benoit, Dominique Lavenier, Claire Lemaitre, Guillaume Rizk

To cite this version:

Gaëtan Benoit, Dominique Lavenier, Claire Lemaitre, Guillaume Rizk. Bloocoo, a memory efficient read corrector. European Conference on Computational Biology (ECCB), Sep 2014, Strasbourg, France. ECCB 2014, 2014. �hal-01092960�

(2)

Bloocoo

: a memory efficient read corrector 

 

  

    

 

Gaëtan Benoit

1

, Dominique Lavenier

1

, Claire Lemaitre

1

 and Guillaume Rizk

Inria/IRISA GenScale, Campus de Beaulieu, 35042 Rennes cedex, France.  

[email protected][email protected] 

Next generaPon sequencing technologies generate 

 a high amount of short DNA sequences, but 

 may contain imperfecPons. 

 

 Some applicaPons, such as assembly, yield beSer 

 results with high quality data, triggering the need 

 for short‐read correcPon soVware. 

 

Error correcPon  –  

common methods 

• 

Exploits high depth of coverage 

• 

MulPple sequence alignment 

• 

Suffix tree 

• 

Kmer frequency spetrum 

 

Most methods use large amount of memory  

And therefore limited to small datasets 

No tool  able to handle large whole genome re‐ sequencing 

 data files 

Mo&va&ons 

References: 

[1] Rizk, G., Lavenier, D., & Chikhi, R. (2013). DSK: k‐mer counPng with very low memory usage. BioinformaPcs,  bS020.  [2] Liu, Yongchao, Jan Schröder, and BerPl Schmidt. "Musket: a mulPstage k‐mer spectrum‐based error corrector  for Illumina sequence data." BioinformaPcs 29.3 (2013): 308‐315.  [3] Yang, X., Chockalingam, S. P., & Aluru, S. (2013). A survey of error‐correcPon methods for next‐generaPon  sequencing. Briefings in bioinformaPcs, 14(1), 56‐66.  [4] Ilie, L., & Molnar, M. (2013). RACER: Rapid and accurate correcPon of errors in reads. BioinformaPcs, bS407.  [5] Li R, Zhu H, Ruan J et al. De novo assembly of human genomes with massively parallel short read sequencing,  Genome research 2010;20:265‐272.  [6] Heo, Y., Wu, X. L., Chen, D., Ma, J., & Hwu, W. M. (2014). BLESS: Bloom filter‐based error correcPon soluPon for  high‐throughput sequencing reads. BioinformaPcs, btu030.   

PublicaPon: E. Drezen, G. Rizk, R. Chikhi, C. Deltel, C. 

Lemaitre, P. Peterlongo, D. Lavenier  

GATB: Genome Assembly & Analysis Tool Box 

 Bioinforma)cs, 2014 

 

Download this poster: 

h@p://&ny.cc/bloocooposter 

Download and use Bloocoo 

 

h@p://gatb.inria.fr/soEware/bloocoo/

 

C++, Open Source, released under A‐GPL license 

Bloocoo 

read file 

1. Kmer coun&ng 

ATCATCCC 25

ACGTACAA

2

GTCTATCC

12 

…...    

 

 

as in DSK[1] 

2. Inser&on in Bloom filter 

3. Error Correc&on 

Bloom 

filter of 

solid kmers 

Kmer spectrum crea&on 

Kmer counPng and inserPon of solid kmers in Bloom filter : GATB library 

DSK: disk streaming of kmers [1] 

Bloom filter 

Methods 

IdenPfy and correct errors by querying the bloom filter for solid kmers 

Correc&on 

Corrected 

read file 

Results 

Easy integraPon in GATB assembly pipeline 

Simulated data: 

 

Simulated read sets on C.elegans 

 

1% error rate, 40 x, 100 bp, 40 M reads 

Comparison with Musket[2], Racer [4], SOAPec [5], Bless [6] 

Real «big» data : 

 

Human NA12878, 2.8 G reads ~ 100x 

 

440 GB fasta file 

 

~ 2  billion  errors corrected 

 

Requiring only 3.8GB of memory, 

executed in ~ 30 h 

Bloocoo: 

Able to correct large datasets 

Easy integraPon in the GATB assembly pipeline 

 

Time/memory scalable on big datasets 

Works also on indel errors  (ion torrent) 

bloom

001010

bloom

001010

Read  

file 

Minia assembly on the real C. elegans dataset 

SRX026594 (70x) with and without error‐correcPon. 

 

 

 

 

 

 

 

 

 

• 

Keep solid kmers ( with abundance above threshold)   

• 

Insert them in a bloom filter 

• 

Fast cache‐coherent implementaPon 

• 

11 bits /kmer 

 0.5 % false posPves 

50 0 5 10 15 20 25 30 35 40 45 me mo ry GB

HSHREC Reptile SOAPec Quake Coral

Memory used on a 56x D.Melanogaster dataset (98M reads) on  

state‐of‐the‐art methods . From  A survey of error‐correc)on 

methods, 2013 [3] 

 

GTATTACTATTC

G

ATCTATTATTTA

k weak k-mers

Error detecPon and correcPon 

GTATTACTATTC

G

ATCTATTATTTA

k weak k-mers

1) Error detection

TATTC

A

T

C

Query BF for

2) Correction

GTATTACTATTC

C

ATCTATTATTTA

k solid k-mers

3) Validation

Complex cases

G

C

ATTACTATTC

G

A

A

CTATTATTTA

- multistage correction

- vote algorithm

Références

Documents relatifs

To test whether the vesicular pool of Atat1 promotes the acetyl- ation of -tubulin in MTs, we isolated subcellular fractions from newborn mouse cortices and then assessed

Néanmoins, la dualité des acides (Lewis et Bronsted) est un système dispendieux, dont le recyclage est une opération complexe et par conséquent difficilement applicable à

Cette mutation familiale du gène MME est une substitution d’une base guanine par une base adenine sur le chromosome 3q25.2, ce qui induit un remplacement d’un acide aminé cystéine

En ouvrant cette page avec Netscape composer, vous verrez que le cadre prévu pour accueillir le panoramique a une taille déterminée, choisie par les concepteurs des hyperpaysages

Chaque séance durera deux heures, mais dans la seconde, seule la première heure sera consacrée à l'expérimentation décrite ici ; durant la seconde, les élèves travailleront sur

A time-varying respiratory elastance model is developed with a negative elastic component (E demand ), to describe the driving pressure generated during a patient initiated

The aim of this study was to assess, in three experimental fields representative of the various topoclimatological zones of Luxembourg, the impact of timing of fungicide

Attention to a relation ontology [...] refocuses security discourses to better reflect and appreciate three forms of interconnection that are not sufficiently attended to