6.2 Séquences issues du séquençage des métagénomes
6.2.2 Assemblage des reads et annotation fonctionnelle des gènes
L’ensemble des reads a été assemblé pour chaque métagénome de façon indépendante.
Nous avons donc travaillé avec les assemblages produits par Megahit (version 0.3.3 pour
Al-chichica et version 1.3.0 pour Llamara ;Li et al. 2015) avec les paramètres par défaut et une
taille minimale de 200 pb pour lesreadsassemblés (ou contigs). La taille de kmer (i.e. un motif
constitué d’un nombre défini de bases) à partir de laquelle Megahit commence l’assemblage est
un paramètre critique pour la qualité de celui-ci (les kmer permettent de découper les séquences
en petites entités), que ce soit pour la longueur totale des séquences ou le nombre de contigs
produits. Nous avons ainsi testé des tailles de kmer allant de 15 à 121 nt afin de sélectionner
la taille optimale pour le kmer de départ, c’est-à-dire celle qui permettait d’optimiser la taille
cumulée de l’ensemble des contigs assemblés, la taille du plus long contig assemblé et la valeur
du N50 (i.e. taille du plus petit contig tel que la moitié de la longueur cumulée de l’ensemble
des contigs soit contenue dans des contigs de taille égale ou supérieure). Au final, les tailles
de kmer choisies ont été 21 (LLA9-D-1 et LLA9-D-2), 23 (LLA9-A-1, LLA9-B-1, LLA9-C-1,
LLA9-C-2 et LLA9-C-3), 27 (AL-N-1, AL-N-5, AL-N-10 et AL-N-15) et 57 (AL-W). Les
triplicats techniques de l’échantillon AL-W ont été assemblés ensemble afin d’améliorer la
qualité de l’assemblage.
Nous avions auparavant comparé les performances de deux assembleurs, Megahit (Liet al.
2015) et MetaVelvet (Namikiet al.2012). Alors que la taille cumulée des contigs était
relative-ment comparable (moyenne de 970 Mb contre 1,1 Gb), Megahit se distinguait par un N50 bien
supérieur (1480 pb contre 200 pb, en moyenne). De même, la taille moyenne du contig le plus
long produit par Megahit était environ dix fois supérieure à celle produite par MetaVelvet (0,47
Mb versus 0,05 Mb).
Prédiction de la présence de gènes
Le logiciel Prodigal (version 2.6.0 pour Alchichica et version 2.6.2 pour Llamara ; Hyatt
et al.2012) a été utilisé pour prédire la présence de gènes dans les contigs, avec les paramètres
par défaut du mode métagénomique. Ce logiciel a été mis au point pour prédire la présence de
gènes procaryotes, dont la structure est relativement plus simple que celle des gènes eucaryotes.
Le fait que Prodigal soit plus efficace pour détecter les gènes procaryotes pourrait biaiser
l’analyse fonctionnelle d’une communauté où les eucaryotes sont très abondants, ce qui n’est
pas le cas à Alchichica (chapitre8) et encore moins à Llamara (chapitre12). Nous avons choisi
d’utiliser Prodigal sur les contigs plutôt que sur les reads pour optimiser la prédiction de la
présence de gènes (les séquences plus longues sont plus informatives et facilitent la prédiction).
Nous avions conscience que l’assemblage introduit des biais, inhérents à chaque algorithme et
souvent difficiles à identifier, qui peuvent influencer le contenu des gènes prédits. Cependant,
plusieurs paramètres (taille cumulée de l’ensemble des contigs assemblés, taille du plus long
contig assemblé et valeur du N50 ; voir Tableau 1 du chapitre9) font apparaître Megahit comme
un assembleur robuste et nous avons estimé qu’il était raisonnable de privilégier la qualité de la
prédiction des gènes.
Annotation fonctionnelle
Afin d’optimiser la précision de l’annotation fonctionnelle, nous avons utilisé les séquences
d’acides aminés correspondant aux gènes prédits. L’annotation a été faite avec la commande
blastp du logiciel Diamond (version 0.7.9 pour Alchichica et version 0.7.9.59 pour Llamara,
avec une e-value maximale de 10e-5 ; Buchfink et al. 2015). Trois bases de données
fonc-tionnelles ont été utilisées : COG (Galperin et al. 2015), SEED (version du 14 septembre
2011 ; Overbeek et al. 2005) et celle du NCBI (RefSeq nr n˚63 pour Alchichica, n˚74 pour
Llamara). Les bases de données COG et SEED contiennent des groupes de protéines auxquels
ont été assignés manuellement un (ou plusieurs) caractère(s) fonctionnel(s) (appelés «
catégo-ries » dans COG et « subsystèmes » dans SEED). La fiabilité des assignations fonctionnelles
de ces deux bases de données diffère en cela de celles de RefSeq, qui ne sont pas vérifiées
manuellement. COG et SEED peuvent ainsi être utilisées pour caractériser le profil fonctionnel
potentiel d’une communauté. En revanche, elles contiennent bien moins de séquences que
RefSeq (quelques centaines de milliers contre plusieurs dizaines de millions). Cette dernière
CHAPITRE 6. TRAITEMENT DES SÉQUENCES
des gènes d’intérêt et connaître leur affiliation taxonomique. Nous avons par la suite retenu
uniquement le best hit pour représenter chaque gène, lorsque celui-ci présentait un minimum
d’identité de 50% sur au moins 80% de la longueur de la séquence en acides aminés du gène
annoté. Afin de caractériser plus précisément les acteurs majeurs des différents systèmes, nous
avons aussi recherché dans les annotations de RefSeq les gènes fonctionnels marqueurs (aussi
appelés « gènes diagnostiques ») de certaines voies métaboliques (Tableau6.2).
Tableau 6.2 –Les voies métaboliques, et leurs gènes marqueurs associés, étudiées dans les communautés
microbiennes des microbialites d’Alchichica et des tapis microbiens de Llamara.
Voie Métabolique Marqueur (gène)
Photosynthèse oxygénique photosystème I (psa) et II (psb) Photosynthèse anoxygénique bacteriochlorophyll synthasephotosynthetic reaction centre(bch(puf) ) Sulfato-réduction phosphoadenylylsulfate reductase dissimilatory sulfite reductase(dsr)(apr) Oxydation du sulfure sarcosine oxidase (sox)
Fixation de l'azote atmosphérique nitrogénase (nif)
Dénitrification réductases de nitrate (nir), oxyde nitrique (nornar) et oxyde nitreux (, nap), nitrite (nrfnos, ) Oxydation de l'ammonium ammonia oxidation (amo)
Méthanogenèse
Utilisation du phosphore phosphatase (pho)
formylméthanofurane déshydrogénase methyl coenzyme M reductase(mcr)
Utilisation de gènes conservés et présents en copie unique dans les génomes pour compléter les
analyses de diversité
Leshitscorrespondant à 40 familles COG dont les gènes sont conservés et présents en
co-pie unique dans les génomes (Creeveyet al. 2011) ont été utilisés pour décrire la structure des
communautés microbiennes, en complément des analyses faites à partir des fragments d’ADNr
16S et 18S présents dans les paires appareillées (voir section 6.2.1). Les gènes de ces 40
fa-milles codent pour des protéines indispensables au fonctionnement des cellules (à l’exception
de certains parasites qui représentent des cas particuliers de réduction génomique), dont de
nombreuses protéines ribosomales et des ARNt synthétases (Creeveyet al.2011). La base de
données COG la plus à jour se concentrant uniquement sur les procaryotes, nous n’avons pu
analyser que les procaryotes avec cette approche, soit tout de même 90 à 99% des
communau-tés selon les métagénomes (voir la Figure 3 du chapitre8et la Figure12.8du chapitre12). Du
fait de leur présence en copie unique, ils reflètent de manière plus précise l’abondance relative
des organismes d’un échantillon donné. Ils sont cependant moins utilisés que les ADNr 16S
et 18S, notamment parce que les bases de données de référence des ces derniers sont mieux
fournies, et donc plus représentatives de la diversité des micro-organismes, et que le nombre
d’études utilisant le métabarcoding est pour le moment bien supérieur au nombre d’études
mé-tagénomiques.
Dans le document
Caractérisation phylogénétique et fonctionnelle de microbialites et de tapis microbiens
(Page 96-99)