• Aucun résultat trouvé

Simka: fast kmer-based method for estimating the similarity between numerous metagenomic datasets

N/A
N/A
Protected

Academic year: 2021

Partager "Simka: fast kmer-based method for estimating the similarity between numerous metagenomic datasets"

Copied!
2
0
0

Texte intégral

(1)

HAL Id: hal-01180603

https://hal.inria.fr/hal-01180603 Submitted on 27 Jul 2015

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Simka: fast kmer-based method for estimating the similarity between numerous metagenomic datasets

Gaëtan Benoit, Pierre Peterlongo, Dominique Lavenier, Claire Lemaitre

To cite this version:

Gaëtan Benoit, Pierre Peterlongo, Dominique Lavenier, Claire Lemaitre. Simka: fast kmer-based method for estimating the similarity between numerous metagenomic datasets. JOBIM 2015, Jul 2015, Clermont-Ferrand, France. �10.1093/Bioinforma-cs/btu406�. �hal-01180603�

(2)

    Rela&ve  similarity:               Absolute  Similarity:       Rela&ve  similarity:               Absolute  Similarity:   q

 

   

•  Filtering  input  reads  

•  Provide  similarity  confidence   intervals  with  bootstrap  

•  Selec:ng  discrimina:ve  kmers  

    Rela&ve  similarity:               Absolute  Similarity:     Is  kmer   solid  ?   (op:onal)      

Idea:  similarity  is  given  by  the  size  of  the  intersec&on  

                   

Commet  [1]  (state  of  the  art)  

•  Heuris:c:  Two  read  are  similar  if  they  share  some  kmers   •  Computes  one  intersec:on  in  few  hours  

•  S&ll  does  not  scale  on  large  metagenomic  projects   •  N(N-­‐1)  intersec&ons  to  compute  

Simka:  

fast  kmer-­‐based  method  for  es:ma:ng  the  

similarity  between  numerous  metagenomic  datasets

 

Gaëtan  Benoit

1

,  Pierre  Peterlongo

1

,  Dominique  Lavenier

1

,  Claire  Lemaitre

1  

1  Inria/IRISA  GenScale,  Campus  de  Beaulieu,  35042  Rennes  cedex,  France.    

gaetan.benoit@inria.fr,  claire.lemaitre@inria.fr,  pierre.peterlongo@inria.fr  

A   B   specific   specific   specific specific distinct shared kmers A B C … N ACGTAT   0 4 52 … 0 A   B   C   D   2   0   1   0  

GATB[2]  -­‐  DSK  

mul:-­‐dataset  kmer  

coun:ng  

✓ Clustering  less  noisy  and    more  readable  

✓ Close  to  Commet  while  using    only  18%  of  dis:nct  kmers    (half  of  the  datasets)  

   

[1]  COMMET:  comparing  and  combining  mul&ple  metagenomic  datasets  

N.  Maillet,  G.  Collet,  T.  Vannier,  D.  Lavenier,  P.  Peterlongo  

IEEE  BIBM,  2014  

[2]  GATB:  Genome  Assembly  &  Analysis  Tool  Box  

E.  Drezen,  G.  Rizk,  R.  Chikhi,  C.  Deltel,  C.  Lemaitre,  P.  Peterlongo,  D.  Lavenier   10.1093/Bioinforma-cs/btu406,  2014  

hbps://gatb.inria.fr/  

 

Funding:  ANR  Hydrogen,  ANR-­‐14-­‐CE23-­‐0001  

 

 New  similarity  func:ons  based  on  shared  kmers  

 Based  on  abundance  and  presence/absence  of  species  

 Results  close  to  read-­‐based  methods  

 Fast  and  low  memory  thanks  to  the  GATB  library  [2]  

 

•  We  have  very  fast  methods  for  indexing  and  

 querying  kmers  

•  A  read-­‐sets  is  now  view  as  a  set  of  its  kmers   •  We  define  new  pairwize  similarity  measures  

based  on  shared  kmers  

1)  Presence  /  Absence  of  kmers  

 

 

 

     

2)  Abundance  of  shared  kmers  

specific specific

amount of shared

kmers

Similarity  based  on   presence/absence   of  species  

 

 

 

 

fasta fasta fasta

…  

fasta

A                B                  C                              N           To  scale  on  N  large  

datasets,  we  count  the   kmers  of  N  datasets   simultaneously.  

For  each  kmer,  we  get  a   vector  of  its  abundances   in  N  datasets   Kmer’s abundances v A   B   C   D   52   0   1   1   A   B   C   D   0   1   1   0  

 

Simka  was  tested  and  

compared  to  Commet[1]   (state  of  the  art)  on  21  

Tara  Oceans  samples:  

•  3G  reads  

•  400  GB  of  data   •  219G  31-­‐mers  

•  123G  dis:nct  31-­‐mers  

 

n  Can  differs  from  Commet   because  not  based  on  

species’s  abundance  

✓ Simka  is  the  first  method  to    provide  quickly  informa:on    about    presence  and  absence  of    species  

 

✓ Similarity  and  clustering  close    to  read-­‐based  methods  

 

Rela&ve  similarity:               Absolute  Similarity:    

 

Weeks  

Alignment based methods

5  Hours  

5  Hours  

5  Hours  

 

 

 

✓ Read-­‐based  

✗ Too  slow  on  large  

 metagenomic  projects  

 

 

A   B  

Similarity  based  on   abundance  of  species  

A   B  

Kmer  solid:  

A  kmer  that  contains  no  sequencing  errors    

Sta&s&cs:  

 80%  of  dis:nct  kmers  appear  only  one  &me  and  only  

 in  a  single  dataset   Noisy  data:  

 It  is  hard  to  dis:nguish  erroneous  kmers  from  unique    genomic  kmers  

 

We  defined  a  solidity  defini&on  that  can  saved  some   unique  kmers:  

 Given  a  solidity  threshold  t  (t=2),  a  kmer  w  is  solid  if:    

 

 

abundance(w)  in  at  least  one  dataset  >=  t  

 

 Examples  on  4  datasets:  

   

 

Sta&s&cs  on  solid  31-­‐mers  from  21  Tara  Oceans  samples:  

•  Dis:nct:  18G  (15%  of  all  dis:nct  kmers)   •  Abundance:  106G  (49%  of  all  kmers)  

0 4 8 12% 0 20 50% 0 10 20% 0 10 20%

Intersec:on  =  number  of  similar  reads  

100M  reads  

Blast-like approach required

months of computation for

a single intersection

Similar:  their  alignment  score  >  90%    

N  metagenomic  samples  

N  >  1000  in  Tara  Oceans  project  

Similarity  heatmap  N²   with  hierarchical  clustering    

A   B   C   …   N   A   B   C   …   N  

fasta fasta

…  

fasta

N  read-­‐sets   Usually  >100M  reads   per  dataset  

 

 

 

 

 

 

 

 

A  liter  of  sea  water:  

•  Hundred  of  millions  of  species   •  >  90%  unknown  species   Jaccard(A, B) = DistinctKmers(A ∩ B) DistinctKmers(A ∪ B) AbundanceJaccard(A, B) =

w∈A∩BNA(w) + NB(w) NA(w) + NB(w) w∈A∪B

w:  kmer,  Ni(w):  abundance  of  w  in  read-­‐set  i  

Update  intersec&ons  

A B C

ACC 0 4 2

Kmer  shared  by  B  and  C  

B C

+2 +4

A B C

TGC 0 0 8

Kmer  specific  to  C  

+8

+4 +2

Execu&on  &me  repar&&on:  

•  Coun:ng  kmers  O(N):  75%  

•  Upda:ng  intersec:ons  O(N²):  25%  

 

Es&ma&ng  

similarity  is  now  

a  problem  of  

coun&ng  kmers  

Références

Documents relatifs

To test whether the vesicular pool of Atat1 promotes the acetyl- ation of -tubulin in MTs, we isolated subcellular fractions from newborn mouse cortices and then assessed

Néanmoins, la dualité des acides (Lewis et Bronsted) est un système dispendieux, dont le recyclage est une opération complexe et par conséquent difficilement applicable à

Cette mutation familiale du gène MME est une substitution d’une base guanine par une base adenine sur le chromosome 3q25.2, ce qui induit un remplacement d’un acide aminé cystéine

En ouvrant cette page avec Netscape composer, vous verrez que le cadre prévu pour accueillir le panoramique a une taille déterminée, choisie par les concepteurs des hyperpaysages

Chaque séance durera deux heures, mais dans la seconde, seule la première heure sera consacrée à l'expérimentation décrite ici ; durant la seconde, les élèves travailleront sur

A time-varying respiratory elastance model is developed with a negative elastic component (E demand ), to describe the driving pressure generated during a patient initiated

The aim of this study was to assess, in three experimental fields representative of the various topoclimatological zones of Luxembourg, the impact of timing of fungicide

Attention to a relation ontology [...] refocuses security discourses to better reflect and appreciate three forms of interconnection that are not sufficiently attended to