1.1 Petit historique de l’étude des micro-organismes
1.1.5 Comment étudier la diversité aujourd’hui ?
Bien qu’il soit possible d’étudier au microscope des échantillons environnementaux, par
microscopie directe et/ou FISH (Fluorescence in situ hybridization; e.g.Thurnheeret al.2004,
Gérardet al. 2005,Gérardet al. 2013), cultures et microscopie restent étroitement liées. Elles
ont toutes les deux joué un rôle essentiel dans les premiers pas de la microbiologie et elles
conti-nuent d’avoir une place importante aujourd’hui. La culture est, dans l’absolu, le meilleur moyen
de caractériser une espèce microbienne. L’isolement de micro-organismes a ainsi permis
d’ob-tenir des données de référence dans de nombreux domaines dont la biochimie, la génétique et la
physiologie (Prakashet al.2013). Pour autant, notre capacité à cultiver une grande diversité de
micro-organismes est aujourd’hui restreinte du fait de notre manque de connaissance de leurs
besoins (Alain et Querellou 2009). En conséquence, la majorité des micro-organismes
culti-vés appartiennent à seulement quelques taxons et ne sont pas représentatifs de la diversité du
monde microbien (∼90% des procaryotes cultivés appartiennent à quatre groupes de bactéries :
Proteobacteria, Firmicutes, Actinobacteria et Bacteroidetes ;Rinkeet al. 2013). La
microsco-pie permet, elle, l’identification et la description d’un certain nombre de micro-organismes de
grande taille (au moins quelques dizaines de micromètres) et/ou au phénotype reconnaissable,
comme la plupart des protistes et certaines cyanobactéries. Elle se heurte, cependant, à des
limi-tations de deux natures. La première est évidente et concerne les organismes de petite taille (tout
au plus quelques microns) et de forme simple (typiquement les bactéries et les archées, ainsi
que certains protistes), quasi-impossible à différencier sous un microscope. La seconde, moins
triviale, est liée à la classification historique de nombreux protistes en morpho-espèces (i.e.
sui-vant des critères morphologiques). En effet, l’analyse de séquences d’ADNr 18S a montré dans
de nombreux cas que des organismes classés au sein d’une même morpho-espèce appartenaient
en fait à des lignées différentes et constituaient des espèces cryptiques (Šlapetaet al.2006). De
façon similaire, l’existence chez certaines espèces d’une grande variabilité morphologique en
fonction du stade de cycle de vie et/ou des conditions environnementales a parfois conduit à
classer un même organisme dans différentes espèces (Santoferrara et Alder 2009).
CHAPITRE 1. LE MONDE MICROBIEN
Les études moléculaires de diversité
Depuis le début des années 1970, l’utilisation de marqueurs phylogénétiques a permis de
décrire la diversité microbienne d’un grand nombre d’environnements, en s’affranchissant des
limites liées à la microscopie et à la culture. Ciblant le plus souvent les gènes d’ARNr 16S et
18S, ces études ont permis d’enrichir considérablement les bases de données et de rendre ce
marqueur, de fait, encore plus informatif. Dans ces études, l’ADN est extrait d’échantillons
environnementaux et les régions génomiques correspondant aux gènes marqueurs amplifiées
par une Réaction en Chaîne par Polymérase (Polymerase Chain Reaction, PCR ; Saiki et al.
1988). Cette étape d’amplification se fait par l’intermédiaire d’amorces, de courtes séquences
nucléotidiques spécifiques au gène d’intérêt et ciblant un groupe d’organismes en particulier
(au niveau du domaine ou à un niveau taxonomique inférieur). Les amplicons ainsi générés
étaient traditionnellement séquencés par clonage puis séquençage Sanger (Shendure et Ji 2008).
Cependant, les techniques de séquençage haut-débit (pyroséquençage, Illumina) apparues au
cours des dix dernières années permettent désormais de s’affranchir de l’étape de clonage et de
séquencer directement les amplicons (on parle de métabarcoding ;Shendure et Ji 2008). Si les
nouvelles méthodes ont tendance à supplanter le séquençage Sanger, il est important de préciser
que ces deux approches sont en réalité complémentaires. En effet, le séquençage Sanger permet
de produire un nombre limité de séquences de bonne qualité, relativement longues (∼900 pb) et
très informatives dans le cadre d’analyses phylogénétiques. Le séquençage haut-débit permet,
lui, de produire des centaines de milliers (voire des millions) de séquences relativement courtes
(<500 pb pour le pyroséquençage 454 FLX,<300 ou 150 pb pour Illumina MySeq ou HiSeq)
et avec un taux d’erreur plus élevé. Puisque les séquences obtenues sont, en principe,
représen-tatives de la diversité génétique et de l’abondance relative des amplicons, celles-ci peuvent être
utilisées pour caractériser finement la structure de communautés microbiennes. Quelle que soit
l’approche choisie, les séquences partageant un certain pourcentage d’identité (97% chez les
procaryotes, 98% chez les eucaryotes) sont ensuite regroupées au sein d’Unités Taxonomiques
Opérationnelles (OTU), un « proxy » pour les espèces microbiennes généralement utilisé dans
les études environnementales du fait que le concept d’espèce est problématique chez les
micro-organismes (Achtman et Wagner 2008). Ce regroupement est possible du fait que les amplicons
correspondent à l’amplification d’une même région génomique. Enfin, la séquence
représenta-tive des OTU (la plus longue ou la plus représentée) est attribuée à un groupe taxonomique par
comparaison avec des séquences de référence, déjà identifiées et disponibles dans des bases de
données publiques (en utilisant BLAST et/ou des analyses phylogénétiques).
Les méthodes en « -omiques »
Nous sommes depuis quelques années entrés dans une ère technologique dans laquelle il
est possible de séquencer en masse des échantillons d’ADN et d’ARN (Shendure et Ji 2008,
Metzker 2010). La technologie Illumina est l’une des plus utilisées à l’heure actuelle et permet
de générer des dizaines de millions de lectures (ou reads) à partir de quelques centaines de
nanogrammes d’ADN. Une telle quantité de données permet d’étudier en détail le génome, le
transcriptome et le protéome d’un micro-organisme ou d’une communauté (on parle alors de
métagénome, de métatranscriptome et de métaprotéome ;Baker et Dick 2013). Ces différentes
méthodes sont collectivement appelées les « omiques ». Si chacune permet d’adresser une
question biologique particulière, nous allons nous intéresser un moment aux cas de la
métagé-nomique et de la gémétagé-nomique sur cellule unique (single-cell genomics).
La métagénomique consiste à séquencer l’ADN extrait d’un échantillon environnemental
sans étape d’amplification préalable (Tringe et Rubin 2005), ce qui permet de s’affranchir des
biais liés à la PCR (e.g. manque de spécificité des amorces pour certains taxons aux gènes
d’ARNr divergents, production de séquences chimériques ;Acinaset al.2005,Haaset al.2011,
Pinto et Raskin 2012). Une possibilité est de séquencer des librairies obtenues par clonage de
fragments d’ADN (jusqu’à 2000 kb de longueur ; Venter et al. 1996). L’utilisation de longs
fragments d’ADN (> 10 kb) est particulièrement pertinente dans le cadre de certaines études
de génomique (e.g. obtention de génomes viraux complets ; Garcia-Heredia et al. 2012) et
de biologie fonctionnelle (e.g. expression de gènes contigus ; Böhnke et Perner 2015). Le
séquençage massif (jusqu’à un million de séquences produites) de fragments plus courts (<10
kb) a lui été utilisé au début des années 2000 dans le cadre d’études pionnières s’intéressant à la
structure phylogénétique et métabolique de différentes communautés (Tysonet al.2004,Venter
et al. 2004), c’est-à-dire à l’information contenue dans leur métagénome. Dans la littérature,
ce terme peut référer à (1) l’ensemble des génomes d’une communauté microbienne et (2) au
résultat du séquençage de l’ADN extrait de celle-ci, comme synonyme et raccourci de « jeu de
données métagénomiques » (Rodriguez-R et Konstantinidis 2014a). L’utilisation indifférenciée
de ce terme pour parler du métagénome réel ou du résultat du séquençage n’est cependant pas
CHAPITRE 1. LE MONDE MICROBIEN
communautés qui rend impossible le séquençage exhaustif de leur diversité génétique. Dans
la suite de ce manuscrit l’emploi du mot « métagénome » réfère ainsi exclusivement au jeu de
données.
Les techniques de séquençage haut-débit, développées dans les années suivant ces études,
sont cependant désormais privilégiées pour étudier les communautés microbiennes. Elles
per-mettent en effet de séquencer directement l’ADN environnemental et de produire des dizaines
de millions de séquences, tout en s’affranchissant des biais associés au clonage (Temperton
et al. 2009). L’abondance relative des séquences obtenues doit ainsi, en théorie, refléter
fi-dèlement le contenu génomique de l’échantillon, même si d’autres biais persistent (e.g. lyse
cellulaire différentielle, difficulté à séquencer les régions riches en séquences répétées). Un
autre aspect intéressant est que, contrairement aux approches basées sur des amplicons qui se
limitent nécessairement à un marqueur particulier à la fois, la métagénomique capture
l’en-semble de la diversité génétique d’un échantillon. Elle permet en cela de caractériser à la fois
la diversité phylogénétique (dont des taxons qui « échapperaient » aux amorces universelles de
gènes d’ARNr 16S ;Brownet al.2015) et le potentiel métabolique (ou fonctionnel) d’une
com-munauté microbienne. Ceci est essentiel car il est souvent très difficile de déduire les capacités
fonctionnelles d’un micro-organisme en se basant seulement sur l’affiliation taxonomique de
ses gènes d’ARNr 16S ou 18S, du fait de la grande versatilité métabolique qui existe dans le
monde microbien (Madiganet al.2014). Enfin, il est important de préciser que l’on parle bien
ici de potentiel et non d’expression puisque la métagénomique se fait à partir d’échantillons
d’ADN.
Les données métagénomiques issues de séquençage haut-débit peuvent aussi être utilisées
pour reconstruire des génomes eucaryotes ou procaryotes. Ce fut par exemple le cas pour les
Lokiarchaeota (Spanget al.2015), dont nous rediscuterons par la suite (voir section1.2.2).
L’ap-proche parsingle-cellpermet aussi d’obtenir des génomes à partir d’échantillons
environnemen-taux. Les organismes d’intérêt sont ainsi isolés (e.g. cytométrie en flux, micro-manipulation) et
leurs génomes séquencés, sans passer par une étape de culture. Les données produites sont
d’autant plus précieuses qu’elles permettent ensuite d’améliorer l’annotation des métagénomes
(dont la qualité dépend de la représentativité des séquences de référence des bases de données)
et/ou le positionnement phylogénétique de certaines lignées (Stepanauskas 2012).
Dans le document
Caractérisation phylogénétique et fonctionnelle de microbialites et de tapis microbiens
(Page 29-33)