Extraction, sélection et a ffi liation des fragments d’ADNr 16S et 18S

6.2 Séquences issues du séquençage des métagénomes

Microbialite Tapis microbien

Extraction de l'ADN métagénomique &

Séquençage direct (Illumina, 2x100 ou 2x125 pb)

Production de paires de reads (43 à 131 millions par métagénome)

A - Traitement des paires de reads

Appariement desreadsd'une même paire

Prédiction de la présence de fragments d'ADNr 16S et 18S

Clusterisationdes séquences 100%

identiques sur toute leur longueur (CD-HIT)

Assignation phylogénétique

des clusterset des singletons

Assemblage de l'ensemble des readsen contigs

Prédiction de la présence de gènes (PRODIGAL)

Annotation fonctionnelle avec RefSeq, COG et SEED

Structure des communautés Analyses effectuées

Analyses effectuées (source) Analyse approfondie des longs contigs

Structure des communautés (gènes en copie unique) Profil fonctionnel (catégories COG et SEED,

gènes marqueurs de certains métabolismes) Comparaison des profils fonctionnels avec ceux d'autres métagénomes (catégories COG)

B - Traitement des readsassemblés

Test de la corrélation entre la structure des communautés et la composition chimique et minérale des microbialites (AL uniquement)

Application de filtres (voir texte)

Extraction, sélection et a ffi liation des fragments d’ADNr 16S et 18S

6.2 Séquences issues du séquençage des métagénomes

6.2.1 Extraction, sélection et a ffi liation des fragments d’ADNr 16S et 18S

Lesreads appartenant à une même paire ont été appareillés en utilisant le logiciel FLASH

version 1.2.11 (Magoˇc et Salzberg 2011), avec les paramètres par défaut et un recouvrement

minimum de 10 nt. Les reads appareillés correspondant à des fragments de gènes d’ARNr

16S et 18S ont ensuite été extraits à l’aide du script nhmmer du logiciel Hmmer, version

3.1b1 (Eddy 2009), avec des matrices contenant les profils HMM de séquences d’ADNr 16S

et 18S produites à partir du fichier d’alignement multiple n˚108 disponible sur le site de Silva

(https://www.arb-silva.de/). Même s’il a été montré que des amplicons d’ADNr 16S

aussi courts que 100 pb étaient suffisants pour affilier correctement une séquence à un phylum

(Liu et al. 2011), nous avons choisi de garder seulement les séquences > 130 nt. En effet,

contrairement aux amplicons où la même région génomique (souvent hypervariable) est

ampli-fiée dans tous les organismes présents, les séquences d’ADNr 16S et 18S directement extraites

de métagénomes peuvent correspondre à différentes parties des gènes d’ARNr. Or, dans les

régions conservées, des séquences plus longues sont requises pour différentier les séquences

attribuables à différents taxons. Il nous a ainsi paru plus rigoureux de choisir une valeur plus

conservatrice que celle généralement utilisée avec des amplicons. Nous avons ensuite regroupé

enclustersles séquences identiques à 100% sur toute leur longueur, avec Cd-Hit (Li et Godzik

2006). Cependant, ces clusters ne peuvent être qualifiés d’OTU puisque les séquences

utili-sées pour les construire ne correspondent pas à une même région génomique/génique. Par la

suite, l’utilisation de la séquence la plus longue comme séquence représentative nous a permis

d’optimiser la précision de l’affiliation taxonomique pour l’ensemble des séquences de chaque

cluster. Les séquences représentatives desclusterset les singletons ont été ensuite blastés avec

le logiciel Blast (e-valuemaximale de 10e-5 ;Altschulet al.1990) contre une base de données

de référence contenant des séquences d’ADNr 16S et 18S : PR2 (Guillouet al.2013) et Silva

SSU (Ref NR 115 dans le cas d’Alchichica et Ref NR 123.1 dans le cas de Llamara ; Quast

et al.2013). Ici, les singletons correspondent à des séquences uniques qui n’appartiennent à

aucun cluster dans un métagénome donné. Ils ne faut pas les confondre avec les singletons

se référant aux amplicons car, à la différence de ces derniers qui ont des fortes chances d’être

des artefacts (e.g. séquences chimériques produites lors de la PCR), les singletons identifiés

dans les métagénomes peuvent simplement correspondre à des organismes présents en faible

abondance. Deux nouvelles étapes de filtration ont ensuite été appliquées, avec des critères

stricts, afin d’éliminer les séquences qui ne correspondent pas à des fragments d’ADNr sur

toute leur longueur (i.e. des faux positifs prédits par Hmmer). Les clusters dont la séquence

représentative avait une couverture inférieure à 95% avec sonbest hitétaient ainsi écartés. De

manière similaire, les singletons qui n’avaient pas une couverture supérieure à 95% associée à

un pourcentage d’identité supérieur à 98% n’étaient pas non plus conservés. Enfin, du fait de la

faible taille des séquences, seules les assignations à un niveau taxonomique supérieur à l’ordre

étaient considérées comme fiables. Les séquences de chloroplastes et de Metazoa ont, elles,

été considérées indépendamment. Ces clusters nous ont donc permis d’optimiser l’affiliation

taxonomique des séquences d’ADNr 16S et 18S. En revanche, les analyses semi-quantitatives

ont été menées directement à partir du nombre de séquences qu’ils contenaient.

Contrairement aux amplicons qui ciblent au mieux l’ensemble des eucaryotes ou des

pro-caryotes séparément, l’approche consistant à rechercher des gènes d’ARNr 16S/18S dans des

métagénomes permet d’avoir accès simultanément à l’abondance relative des gènes des

orga-nismes appartenant aux trois domaines du vivant et donne ainsi un aperçu global de la structure

phylogénétique de ces systèmes. Elle permet aussi de s’affranchir des biais liés au clonage, à

l’amplification par PCR et à l’utilisation d’amorces, qui peuvent ne pas être vraiment «

uni-verselles » (voir section 1.1.5). Bien que les métagénomes reflètent fidèlement le contenu en

CHAPITRE 6. TRAITEMENT DES SÉQUENCES

gènes d’ARNr présents dans l’environnement, les analyses semi-quantitatives sont cependant

limitées par le fait que le nombre de copies de ces gènes peut varier suivant les taxons. C’est

notamment le cas chez les eucaryotes, en moyenne plus gros que les procaryotes au niveau

cellulaire et, en conséquence, génomique. Différentes études pointent ainsi que le nombre de

copies d’ADNr est en fait un meilleur « proxy » de la biomasse que du nombre de cellules

pré-sentes (Godheet al.2008,Eggeet al.2013). C’est donc en ce sens que doivent être interprétées

les données d’abondances relatives présentées ici. Une meilleure approximation du nombre de

cellules présentes peut être obtenue en utilisant des gènes fonctionnels conservés et présents en

copie unique dans les génomes. Ces derniers codent principalement pour des protéines

riboso-males et des ARNt syntéthases et peuvent être obtenus en explorant le contenu fonctionnel des

métagénomes, comme nous allons le voir dans la section suivante.

Figure 6.2 –Vue d’ensemble du protocole expérimental appliqué à chaque métagénome d’Alchichica

(AL) et de Llamara (LLA). Voir le texte pour plus de détails.

CHAPITRE 6. TRAITEMENT DES SÉQUENCES

6.2.2 Assemblage desreadset annotation fonctionnelle des gènes

F_igure 6.2 –Vue d’ensemble du protocole expérimental appliqué à chaque métagénome d’Alchichica