• Aucun résultat trouvé

Assemblage des reads et annotation fonctionnelle des gènes

6.2 Séquences issues du séquençage des métagénomes

6.2.2 Assemblage des reads et annotation fonctionnelle des gènes

L’ensemble des reads a été assemblé pour chaque métagénome de façon indépendante.

Nous avons donc travaillé avec les assemblages produits par Megahit (version 0.3.3 pour

Al-chichica et version 1.3.0 pour Llamara ;Li et al. 2015) avec les paramètres par défaut et une

taille minimale de 200 pb pour lesreadsassemblés (ou contigs). La taille de kmer (i.e. un motif

constitué d’un nombre défini de bases) à partir de laquelle Megahit commence l’assemblage est

un paramètre critique pour la qualité de celui-ci (les kmer permettent de découper les séquences

en petites entités), que ce soit pour la longueur totale des séquences ou le nombre de contigs

produits. Nous avons ainsi testé des tailles de kmer allant de 15 à 121 nt afin de sélectionner

la taille optimale pour le kmer de départ, c’est-à-dire celle qui permettait d’optimiser la taille

cumulée de l’ensemble des contigs assemblés, la taille du plus long contig assemblé et la valeur

du N50 (i.e. taille du plus petit contig tel que la moitié de la longueur cumulée de l’ensemble

des contigs soit contenue dans des contigs de taille égale ou supérieure). Au final, les tailles

de kmer choisies ont été 21 (LLA9-D-1 et LLA9-D-2), 23 (LLA9-A-1, LLA9-B-1, LLA9-C-1,

LLA9-C-2 et LLA9-C-3), 27 (AL-N-1, AL-N-5, AL-N-10 et AL-N-15) et 57 (AL-W). Les

triplicats techniques de l’échantillon AL-W ont été assemblés ensemble afin d’améliorer la

qualité de l’assemblage.

Nous avions auparavant comparé les performances de deux assembleurs, Megahit (Liet al.

2015) et MetaVelvet (Namikiet al.2012). Alors que la taille cumulée des contigs était

relative-ment comparable (moyenne de 970 Mb contre 1,1 Gb), Megahit se distinguait par un N50 bien

supérieur (1480 pb contre 200 pb, en moyenne). De même, la taille moyenne du contig le plus

long produit par Megahit était environ dix fois supérieure à celle produite par MetaVelvet (0,47

Mb versus 0,05 Mb).

Prédiction de la présence de gènes

Le logiciel Prodigal (version 2.6.0 pour Alchichica et version 2.6.2 pour Llamara ; Hyatt

et al.2012) a été utilisé pour prédire la présence de gènes dans les contigs, avec les paramètres

par défaut du mode métagénomique. Ce logiciel a été mis au point pour prédire la présence de

gènes procaryotes, dont la structure est relativement plus simple que celle des gènes eucaryotes.

Le fait que Prodigal soit plus efficace pour détecter les gènes procaryotes pourrait biaiser

l’analyse fonctionnelle d’une communauté où les eucaryotes sont très abondants, ce qui n’est

pas le cas à Alchichica (chapitre8) et encore moins à Llamara (chapitre12). Nous avons choisi

d’utiliser Prodigal sur les contigs plutôt que sur les reads pour optimiser la prédiction de la

présence de gènes (les séquences plus longues sont plus informatives et facilitent la prédiction).

Nous avions conscience que l’assemblage introduit des biais, inhérents à chaque algorithme et

souvent difficiles à identifier, qui peuvent influencer le contenu des gènes prédits. Cependant,

plusieurs paramètres (taille cumulée de l’ensemble des contigs assemblés, taille du plus long

contig assemblé et valeur du N50 ; voir Tableau 1 du chapitre9) font apparaître Megahit comme

un assembleur robuste et nous avons estimé qu’il était raisonnable de privilégier la qualité de la

prédiction des gènes.

Annotation fonctionnelle

Afin d’optimiser la précision de l’annotation fonctionnelle, nous avons utilisé les séquences

d’acides aminés correspondant aux gènes prédits. L’annotation a été faite avec la commande

blastp du logiciel Diamond (version 0.7.9 pour Alchichica et version 0.7.9.59 pour Llamara,

avec une e-value maximale de 10e-5 ; Buchfink et al. 2015). Trois bases de données

fonc-tionnelles ont été utilisées : COG (Galperin et al. 2015), SEED (version du 14 septembre

2011 ; Overbeek et al. 2005) et celle du NCBI (RefSeq nr n˚63 pour Alchichica, n˚74 pour

Llamara). Les bases de données COG et SEED contiennent des groupes de protéines auxquels

ont été assignés manuellement un (ou plusieurs) caractère(s) fonctionnel(s) (appelés «

catégo-ries » dans COG et « subsystèmes » dans SEED). La fiabilité des assignations fonctionnelles

de ces deux bases de données diffère en cela de celles de RefSeq, qui ne sont pas vérifiées

manuellement. COG et SEED peuvent ainsi être utilisées pour caractériser le profil fonctionnel

potentiel d’une communauté. En revanche, elles contiennent bien moins de séquences que

RefSeq (quelques centaines de milliers contre plusieurs dizaines de millions). Cette dernière

CHAPITRE 6. TRAITEMENT DES SÉQUENCES

des gènes d’intérêt et connaître leur affiliation taxonomique. Nous avons par la suite retenu

uniquement le best hit pour représenter chaque gène, lorsque celui-ci présentait un minimum

d’identité de 50% sur au moins 80% de la longueur de la séquence en acides aminés du gène

annoté. Afin de caractériser plus précisément les acteurs majeurs des différents systèmes, nous

avons aussi recherché dans les annotations de RefSeq les gènes fonctionnels marqueurs (aussi

appelés « gènes diagnostiques ») de certaines voies métaboliques (Tableau6.2).

Tableau 6.2 –Les voies métaboliques, et leurs gènes marqueurs associés, étudiées dans les communautés

microbiennes des microbialites d’Alchichica et des tapis microbiens de Llamara.

Voie Métabolique Marqueur (gène)

Photosynthèse oxygénique photosystème I (psa) et II (psb) Photosynthèse anoxygénique bacteriochlorophyll synthasephotosynthetic reaction centre(bch(puf) ) Sulfato-réduction phosphoadenylylsulfate reductase dissimilatory sulte reductase(dsr)(apr) Oxydation du sulfure sarcosine oxidase (sox)

Fixation de l'azote atmosphérique nitrogénase (nif)

Dénitrification réductases de nitrate (nir), oxyde nitrique (nornar) et oxyde nitreux (, nap), nitrite (nrfnos, ) Oxydation de l'ammonium ammonia oxidation (amo)

Méthanogenèse

Utilisation du phosphore phosphatase (pho)

formylméthanofurane déshydrogénase methyl coenzyme M reductase(mcr)

Utilisation de gènes conservés et présents en copie unique dans les génomes pour compléter les

analyses de diversité

Leshitscorrespondant à 40 familles COG dont les gènes sont conservés et présents en

co-pie unique dans les génomes (Creeveyet al. 2011) ont été utilisés pour décrire la structure des

communautés microbiennes, en complément des analyses faites à partir des fragments d’ADNr

16S et 18S présents dans les paires appareillées (voir section 6.2.1). Les gènes de ces 40

fa-milles codent pour des protéines indispensables au fonctionnement des cellules (à l’exception

de certains parasites qui représentent des cas particuliers de réduction génomique), dont de

nombreuses protéines ribosomales et des ARNt synthétases (Creeveyet al.2011). La base de

données COG la plus à jour se concentrant uniquement sur les procaryotes, nous n’avons pu

analyser que les procaryotes avec cette approche, soit tout de même 90 à 99% des

communau-tés selon les métagénomes (voir la Figure 3 du chapitre8et la Figure12.8du chapitre12). Du

fait de leur présence en copie unique, ils reflètent de manière plus précise l’abondance relative

des organismes d’un échantillon donné. Ils sont cependant moins utilisés que les ADNr 16S

et 18S, notamment parce que les bases de données de référence des ces derniers sont mieux

fournies, et donc plus représentatives de la diversité des micro-organismes, et que le nombre

d’études utilisant le métabarcoding est pour le moment bien supérieur au nombre d’études

mé-tagénomiques.