En théorie, la probabilité d’assembler des longs contigs correspondant à un organisme
donné dépend de l’abondance relative de celui-ci au sein de la communauté. Ceci implique
que la distribution taxonomique de ces longs contigs doit donc refléter fidèlement la diversité
microbienne contenue dans un métagénome. C’est ce que nous avons observé à Alchichica,
où la structure phylogénétique des communautés bactériennes était similaire quel que soit le
marqueur utilisé (ADNr 16S, gènes conservés et présents en copie unique, longs contigs ; voir
la Figure 2 du chapitre9). Nous avons donc été surpris d’observer que 35 des 50 contigs les plus
longs (min : 284 864 pb, max : 496 458 pb, total : 12 916 216 pb) étaient affiliés aux Chloroflexi
(tous échantillons confondus) alors que les membres de ce phylum sont peu abondants dans les
communautés associées aux microbialites d’Alchichica. En effet, les Chloroflexi représentent
seulement entre 1 et 3% des séquences d’ADNr 16S et des gènes conservés et présents en copie
unique dans les génomes (voir la Figure 2 du chapitre 9). Le fait que l’on ait pu assembler
des longs contigs en appliquant des critères stricts pour l’assemblage et à partir d’un nombre
relativement restreint de séquences indiquerait donc que les Chloroflexi d’Alchichica sont très
peu variables d’un point de vue génomique. Disposer de longs fragments génomiques de
Chlo-roflexi était d’autant plus excitant que certains membres de ce phylum sont capables de faire la
photosynthèse anoxygénique, un métabolisme potentiellement important pour la formation et le
maintien des microbialites d’Alchichica. Nous avons donc souhaité étudier plus en profondeur
le contenu de ces contigs.
Nous nous sommes d’abord intéressés aux caractéristiques générales de ces contigs, en nous
concentrant sur les contigs ayant entre 20 et 50% de leurs gènes affiliés aux Chloroflexi. En
ef-fet, nous avons observé que la proportion de ces contigs variait entre 10 et 15% au sein des
cinq échantillons alors qu’elle ne représentait qu’un faible pourcentage lorsque l’ensemble des
longs contigs était considéré (voir la Figure S3 du chapitre9). Afin d’être surs que ces
frag-ments correspondaient bien à des Chloroflexi, nous avons calculé le pourcentage représenté par
CHAPITRE 10. RECONSTRUCTION DE GÉNOMES
le second taxon le plus abondant. A quelques exceptions près, ce dernier correspondait à une
proportion très faible (Figure 10.1), ce qui tend à montrer que ces contigs correspondent bien
à des fragments de génomes de Chloroflexi. Ceci suggère aussi que les Chloroflexi
d’Alchi-chica sont divergents par rapport à ceux disponibles dans les bases de données, ce qui n’est
pas très surprenant étant donné que les Chloroflexi dont les génomes ont été séquencés ne
pro-viennent pas d’habitats similaires. Enfin, cette hypothèse est renforcée par le fait que les valeurs
moyennes et médianes dese-valueset desbit scoresassociées auxbest hitsdes gènes présents
sur ces contigs sont supérieures à celles des contigs ayant plus de 50% de leurs gènes affiliés
aux Chloroflexi (Tableau10.1).
./figures/Chloroflexi/FigA3-1.pdf
Figure 10.1 – Pourcentage représenté par les gènes affiliés aux deuxième taxon le plus abondant (en
noir) où les gènes affiliés aux Chloroflexi (en bleu) représentent au moins 20% des gènes.
Tableau 10.1 –Valeurs moyennes et médiannes des e-values et des bit scores associées aux best hits des
gènes détectés sur les contigs affiliés aux Chloroflexi. Les contigs sont séparés en deux catégories selon
le pourcentage de leurs gènes affiliés aux Chloroflexi (plus de 50% ou entre 20 et 50%)
AL-W AL-N-1 AL-N-5 AL-N-10 AL-N-15
5.91e-9 6.19e-9 6.38e-9 6.07e-9 6.00e-9
6.01e-18 2.35e-18 9.53e-18 7.01e-19 6.65e-19 1.40e-94 1.85e-94 7.40e-95 4.20e-95 1.35e-94 1.20e-113 3.20e-102 2.00e-106 5.80e-107 2.60e-115 E-value (average) between 20 and 50%
more than 50% between 20 and 50% more than 50% E-value (median) 414.4 418.2 415.1 493.7 415.3 498.5 463.9 477.9 416 502.1 353.5 357 354 355.5 354 419.5 378 393 394 423
Bit score (average) between 20 and 50% more than 50% between 20 and 50% more than 50% Bit score (median)
Les contigs assemblés à partir des métagénomes correspondent donc à des Chloroflexi
diver-gents par rapport à ceux des bases de données. A quel point sont-ils divers ? Correspondent-ils
à des Chloroflexi photosynthétiques ? Pour répondre à ces questions, nous avons analysé plus
en détail ces contigs. Leur nombre était plutôt variable, allant de 54 (AL-N-10) à 71 (AL-W).
En revanche, la taille cumulée des contigs était comparable entre les différents métagénomes
(entre 7,2 et 7,6 Mb, la taille des génomes de Chloroflexi disponibles dans les bases de données
variant de 3 à 6 Mb). Nous avons de plus détecté dans chaque métagénome (Tableau 10.2) la
quasi-totalité des 40 familles de gènes conservés et présents en copie unique dans les génomes
(pour un total de 40 à 54 copies), ce qui indique que nous disposions potentiellement d’au
moins un génome complet de Chloroflexi par échantillon. Au moins une copie de chacun de
ces gènes était affiliée aux Chloroflexia, une classe contenant exclusivement des Chloroflexi
photosynthétiques. L’échantillon AL-W était, quant à lui, le seul à contenir en plus des gènes
affiliés à différentes classes de Chloroflexi non-photosynthétiques (Anaerolineae, Caldilineae
et Thermomicrobia ; Figure10.2A). Enfin, des gènes fonctionnels impliqués dans la
photosyn-thèse ont aussi été détectés (données non montrées).
Tableau 10.2 – Caractéristiques générales des fragments de génomes de Chloroflexi assemblés à partir
des métagénomes d’Alchichica.
AL-W AL-N-1 AL-N-5 AL-N-10 AL-N-15
No. contigs 70 71 58 54 58
Total size (bp) 7,424,466 7,632,600 7,327,328 7,200,235 7,627,764
Mean (bp) 106,064 107,501 126,333 133,338 131,513
Median (bp) 79,592 76,466 96,376 91,992 101,228
N50 (bp) 182,490 160,886 182,581 201,270 187,917
No. single-copy COG gene
families 39 40 39 39 40
Total occurrences of