6.2 Séquences issues du séquençage des métagénomes
6.2.1 Extraction, sélection et a ffi liation des fragments d’ADNr 16S et 18S
Lesreads appartenant à une même paire ont été appareillés en utilisant le logiciel FLASH
version 1.2.11 (Magoˇc et Salzberg 2011), avec les paramètres par défaut et un recouvrement
minimum de 10 nt. Les reads appareillés correspondant à des fragments de gènes d’ARNr
16S et 18S ont ensuite été extraits à l’aide du script nhmmer du logiciel Hmmer, version
3.1b1 (Eddy 2009), avec des matrices contenant les profils HMM de séquences d’ADNr 16S
et 18S produites à partir du fichier d’alignement multiple n˚108 disponible sur le site de Silva
(https://www.arb-silva.de/). Même s’il a été montré que des amplicons d’ADNr 16S
aussi courts que 100 pb étaient suffisants pour affilier correctement une séquence à un phylum
(Liu et al. 2011), nous avons choisi de garder seulement les séquences > 130 nt. En effet,
contrairement aux amplicons où la même région génomique (souvent hypervariable) est
ampli-fiée dans tous les organismes présents, les séquences d’ADNr 16S et 18S directement extraites
de métagénomes peuvent correspondre à différentes parties des gènes d’ARNr. Or, dans les
régions conservées, des séquences plus longues sont requises pour différentier les séquences
attribuables à différents taxons. Il nous a ainsi paru plus rigoureux de choisir une valeur plus
conservatrice que celle généralement utilisée avec des amplicons. Nous avons ensuite regroupé
enclustersles séquences identiques à 100% sur toute leur longueur, avec Cd-Hit (Li et Godzik
2006). Cependant, ces clusters ne peuvent être qualifiés d’OTU puisque les séquences
utili-sées pour les construire ne correspondent pas à une même région génomique/génique. Par la
suite, l’utilisation de la séquence la plus longue comme séquence représentative nous a permis
d’optimiser la précision de l’affiliation taxonomique pour l’ensemble des séquences de chaque
cluster. Les séquences représentatives desclusterset les singletons ont été ensuite blastés avec
le logiciel Blast (e-valuemaximale de 10e-5 ;Altschulet al.1990) contre une base de données
de référence contenant des séquences d’ADNr 16S et 18S : PR2 (Guillouet al.2013) et Silva
SSU (Ref NR 115 dans le cas d’Alchichica et Ref NR 123.1 dans le cas de Llamara ; Quast
et al.2013). Ici, les singletons correspondent à des séquences uniques qui n’appartiennent à
aucun cluster dans un métagénome donné. Ils ne faut pas les confondre avec les singletons
se référant aux amplicons car, à la différence de ces derniers qui ont des fortes chances d’être
des artefacts (e.g. séquences chimériques produites lors de la PCR), les singletons identifiés
dans les métagénomes peuvent simplement correspondre à des organismes présents en faible
abondance. Deux nouvelles étapes de filtration ont ensuite été appliquées, avec des critères
stricts, afin d’éliminer les séquences qui ne correspondent pas à des fragments d’ADNr sur
toute leur longueur (i.e. des faux positifs prédits par Hmmer). Les clusters dont la séquence
représentative avait une couverture inférieure à 95% avec sonbest hitétaient ainsi écartés. De
manière similaire, les singletons qui n’avaient pas une couverture supérieure à 95% associée à
un pourcentage d’identité supérieur à 98% n’étaient pas non plus conservés. Enfin, du fait de la
faible taille des séquences, seules les assignations à un niveau taxonomique supérieur à l’ordre
étaient considérées comme fiables. Les séquences de chloroplastes et de Metazoa ont, elles,
été considérées indépendamment. Ces clusters nous ont donc permis d’optimiser l’affiliation
taxonomique des séquences d’ADNr 16S et 18S. En revanche, les analyses semi-quantitatives
ont été menées directement à partir du nombre de séquences qu’ils contenaient.
Contrairement aux amplicons qui ciblent au mieux l’ensemble des eucaryotes ou des
pro-caryotes séparément, l’approche consistant à rechercher des gènes d’ARNr 16S/18S dans des
métagénomes permet d’avoir accès simultanément à l’abondance relative des gènes des
orga-nismes appartenant aux trois domaines du vivant et donne ainsi un aperçu global de la structure
phylogénétique de ces systèmes. Elle permet aussi de s’affranchir des biais liés au clonage, à
l’amplification par PCR et à l’utilisation d’amorces, qui peuvent ne pas être vraiment «
uni-verselles » (voir section 1.1.5). Bien que les métagénomes reflètent fidèlement le contenu en
CHAPITRE 6. TRAITEMENT DES SÉQUENCES
gènes d’ARNr présents dans l’environnement, les analyses semi-quantitatives sont cependant
limitées par le fait que le nombre de copies de ces gènes peut varier suivant les taxons. C’est
notamment le cas chez les eucaryotes, en moyenne plus gros que les procaryotes au niveau
cellulaire et, en conséquence, génomique. Différentes études pointent ainsi que le nombre de
copies d’ADNr est en fait un meilleur « proxy » de la biomasse que du nombre de cellules
pré-sentes (Godheet al.2008,Eggeet al.2013). C’est donc en ce sens que doivent être interprétées
les données d’abondances relatives présentées ici. Une meilleure approximation du nombre de
cellules présentes peut être obtenue en utilisant des gènes fonctionnels conservés et présents en
copie unique dans les génomes. Ces derniers codent principalement pour des protéines
riboso-males et des ARNt syntéthases et peuvent être obtenus en explorant le contenu fonctionnel des
métagénomes, comme nous allons le voir dans la section suivante.
ou
Microbialite Tapis microbien
Extraction de l'ADN métagénomique &
Séquençage direct (Illumina, 2x100 ou 2x125 pb)
Production de paires de reads (43 à 131 millions par métagénome)
A - Traitement des paires de reads
Appariement desreadsd'une même paire
(FLASH)
Prédiction de la présence de fragments d'ADNr 16S et 18S
(HMMER)
Clusterisationdes séquences 100%
identiques sur toute leur longueur (CD-HIT)
Assignation phylogénétique
des clusterset des singletons
(BLAST)
Assemblage de l'ensemble des readsen contigs
(MEGAHIT)
Prédiction de la présence de gènes (PRODIGAL)
Annotation fonctionnelle avec RefSeq, COG et SEED
(DIAMOND)
Structure des communautés Analyses effectuées
Analyses effectuées (source) Analyse approfondie des longs contigs
Structure des communautés (gènes en copie unique) Profil fonctionnel (catégories COG et SEED,
gènes marqueurs de certains métabolismes) Comparaison des profils fonctionnels avec ceux d'autres métagénomes (catégories COG)
B - Traitement des readsassemblés
Test de la corrélation entre la structure des communautés et la composition chimique et minérale des microbialites (AL uniquement)
Application de filtres (voir texte)