• Aucun résultat trouvé

Comment étudier la diversité aujourd’hui ?

1.1 Petit historique de l’étude des micro-organismes

1.1.5 Comment étudier la diversité aujourd’hui ?

Bien qu’il soit possible d’étudier au microscope des échantillons environnementaux, par

microscopie directe et/ou FISH (Fluorescence in situ hybridization; e.g.Thurnheeret al.2004,

Gérardet al. 2005,Gérardet al. 2013), cultures et microscopie restent étroitement liées. Elles

ont toutes les deux joué un rôle essentiel dans les premiers pas de la microbiologie et elles

conti-nuent d’avoir une place importante aujourd’hui. La culture est, dans l’absolu, le meilleur moyen

de caractériser une espèce microbienne. L’isolement de micro-organismes a ainsi permis

d’ob-tenir des données de référence dans de nombreux domaines dont la biochimie, la génétique et la

physiologie (Prakashet al.2013). Pour autant, notre capacité à cultiver une grande diversité de

micro-organismes est aujourd’hui restreinte du fait de notre manque de connaissance de leurs

besoins (Alain et Querellou 2009). En conséquence, la majorité des micro-organismes

culti-vés appartiennent à seulement quelques taxons et ne sont pas représentatifs de la diversité du

monde microbien (∼90% des procaryotes cultivés appartiennent à quatre groupes de bactéries :

Proteobacteria, Firmicutes, Actinobacteria et Bacteroidetes ;Rinkeet al. 2013). La

microsco-pie permet, elle, l’identification et la description d’un certain nombre de micro-organismes de

grande taille (au moins quelques dizaines de micromètres) et/ou au phénotype reconnaissable,

comme la plupart des protistes et certaines cyanobactéries. Elle se heurte, cependant, à des

limi-tations de deux natures. La première est évidente et concerne les organismes de petite taille (tout

au plus quelques microns) et de forme simple (typiquement les bactéries et les archées, ainsi

que certains protistes), quasi-impossible à différencier sous un microscope. La seconde, moins

triviale, est liée à la classification historique de nombreux protistes en morpho-espèces (i.e.

sui-vant des critères morphologiques). En effet, l’analyse de séquences d’ADNr 18S a montré dans

de nombreux cas que des organismes classés au sein d’une même morpho-espèce appartenaient

en fait à des lignées différentes et constituaient des espèces cryptiques (Šlapetaet al.2006). De

façon similaire, l’existence chez certaines espèces d’une grande variabilité morphologique en

fonction du stade de cycle de vie et/ou des conditions environnementales a parfois conduit à

classer un même organisme dans différentes espèces (Santoferrara et Alder 2009).

CHAPITRE 1. LE MONDE MICROBIEN

Les études moléculaires de diversité

Depuis le début des années 1970, l’utilisation de marqueurs phylogénétiques a permis de

décrire la diversité microbienne d’un grand nombre d’environnements, en s’affranchissant des

limites liées à la microscopie et à la culture. Ciblant le plus souvent les gènes d’ARNr 16S et

18S, ces études ont permis d’enrichir considérablement les bases de données et de rendre ce

marqueur, de fait, encore plus informatif. Dans ces études, l’ADN est extrait d’échantillons

environnementaux et les régions génomiques correspondant aux gènes marqueurs amplifiées

par une Réaction en Chaîne par Polymérase (Polymerase Chain Reaction, PCR ; Saiki et al.

1988). Cette étape d’amplification se fait par l’intermédiaire d’amorces, de courtes séquences

nucléotidiques spécifiques au gène d’intérêt et ciblant un groupe d’organismes en particulier

(au niveau du domaine ou à un niveau taxonomique inférieur). Les amplicons ainsi générés

étaient traditionnellement séquencés par clonage puis séquençage Sanger (Shendure et Ji 2008).

Cependant, les techniques de séquençage haut-débit (pyroséquençage, Illumina) apparues au

cours des dix dernières années permettent désormais de s’affranchir de l’étape de clonage et de

séquencer directement les amplicons (on parle de métabarcoding ;Shendure et Ji 2008). Si les

nouvelles méthodes ont tendance à supplanter le séquençage Sanger, il est important de préciser

que ces deux approches sont en réalité complémentaires. En effet, le séquençage Sanger permet

de produire un nombre limité de séquences de bonne qualité, relativement longues (∼900 pb) et

très informatives dans le cadre d’analyses phylogénétiques. Le séquençage haut-débit permet,

lui, de produire des centaines de milliers (voire des millions) de séquences relativement courtes

(<500 pb pour le pyroséquençage 454 FLX,<300 ou 150 pb pour Illumina MySeq ou HiSeq)

et avec un taux d’erreur plus élevé. Puisque les séquences obtenues sont, en principe,

représen-tatives de la diversité génétique et de l’abondance relative des amplicons, celles-ci peuvent être

utilisées pour caractériser finement la structure de communautés microbiennes. Quelle que soit

l’approche choisie, les séquences partageant un certain pourcentage d’identité (97% chez les

procaryotes, 98% chez les eucaryotes) sont ensuite regroupées au sein d’Unités Taxonomiques

Opérationnelles (OTU), un « proxy » pour les espèces microbiennes généralement utilisé dans

les études environnementales du fait que le concept d’espèce est problématique chez les

micro-organismes (Achtman et Wagner 2008). Ce regroupement est possible du fait que les amplicons

correspondent à l’amplification d’une même région génomique. Enfin, la séquence

représenta-tive des OTU (la plus longue ou la plus représentée) est attribuée à un groupe taxonomique par

comparaison avec des séquences de référence, déjà identifiées et disponibles dans des bases de

données publiques (en utilisant BLAST et/ou des analyses phylogénétiques).

Les méthodes en « -omiques »

Nous sommes depuis quelques années entrés dans une ère technologique dans laquelle il

est possible de séquencer en masse des échantillons d’ADN et d’ARN (Shendure et Ji 2008,

Metzker 2010). La technologie Illumina est l’une des plus utilisées à l’heure actuelle et permet

de générer des dizaines de millions de lectures (ou reads) à partir de quelques centaines de

nanogrammes d’ADN. Une telle quantité de données permet d’étudier en détail le génome, le

transcriptome et le protéome d’un micro-organisme ou d’une communauté (on parle alors de

métagénome, de métatranscriptome et de métaprotéome ;Baker et Dick 2013). Ces différentes

méthodes sont collectivement appelées les « omiques ». Si chacune permet d’adresser une

question biologique particulière, nous allons nous intéresser un moment aux cas de la

métagé-nomique et de la gémétagé-nomique sur cellule unique (single-cell genomics).

La métagénomique consiste à séquencer l’ADN extrait d’un échantillon environnemental

sans étape d’amplification préalable (Tringe et Rubin 2005), ce qui permet de s’affranchir des

biais liés à la PCR (e.g. manque de spécificité des amorces pour certains taxons aux gènes

d’ARNr divergents, production de séquences chimériques ;Acinaset al.2005,Haaset al.2011,

Pinto et Raskin 2012). Une possibilité est de séquencer des librairies obtenues par clonage de

fragments d’ADN (jusqu’à 2000 kb de longueur ; Venter et al. 1996). L’utilisation de longs

fragments d’ADN (> 10 kb) est particulièrement pertinente dans le cadre de certaines études

de génomique (e.g. obtention de génomes viraux complets ; Garcia-Heredia et al. 2012) et

de biologie fonctionnelle (e.g. expression de gènes contigus ; Böhnke et Perner 2015). Le

séquençage massif (jusqu’à un million de séquences produites) de fragments plus courts (<10

kb) a lui été utilisé au début des années 2000 dans le cadre d’études pionnières s’intéressant à la

structure phylogénétique et métabolique de différentes communautés (Tysonet al.2004,Venter

et al. 2004), c’est-à-dire à l’information contenue dans leur métagénome. Dans la littérature,

ce terme peut référer à (1) l’ensemble des génomes d’une communauté microbienne et (2) au

résultat du séquençage de l’ADN extrait de celle-ci, comme synonyme et raccourci de « jeu de

données métagénomiques » (Rodriguez-R et Konstantinidis 2014a). L’utilisation indifférenciée

de ce terme pour parler du métagénome réel ou du résultat du séquençage n’est cependant pas

CHAPITRE 1. LE MONDE MICROBIEN

communautés qui rend impossible le séquençage exhaustif de leur diversité génétique. Dans

la suite de ce manuscrit l’emploi du mot « métagénome » réfère ainsi exclusivement au jeu de

données.

Les techniques de séquençage haut-débit, développées dans les années suivant ces études,

sont cependant désormais privilégiées pour étudier les communautés microbiennes. Elles

per-mettent en effet de séquencer directement l’ADN environnemental et de produire des dizaines

de millions de séquences, tout en s’affranchissant des biais associés au clonage (Temperton

et al. 2009). L’abondance relative des séquences obtenues doit ainsi, en théorie, refléter

fi-dèlement le contenu génomique de l’échantillon, même si d’autres biais persistent (e.g. lyse

cellulaire différentielle, difficulté à séquencer les régions riches en séquences répétées). Un

autre aspect intéressant est que, contrairement aux approches basées sur des amplicons qui se

limitent nécessairement à un marqueur particulier à la fois, la métagénomique capture

l’en-semble de la diversité génétique d’un échantillon. Elle permet en cela de caractériser à la fois

la diversité phylogénétique (dont des taxons qui « échapperaient » aux amorces universelles de

gènes d’ARNr 16S ;Brownet al.2015) et le potentiel métabolique (ou fonctionnel) d’une

com-munauté microbienne. Ceci est essentiel car il est souvent très difficile de déduire les capacités

fonctionnelles d’un micro-organisme en se basant seulement sur l’affiliation taxonomique de

ses gènes d’ARNr 16S ou 18S, du fait de la grande versatilité métabolique qui existe dans le

monde microbien (Madiganet al.2014). Enfin, il est important de préciser que l’on parle bien

ici de potentiel et non d’expression puisque la métagénomique se fait à partir d’échantillons

d’ADN.

Les données métagénomiques issues de séquençage haut-débit peuvent aussi être utilisées

pour reconstruire des génomes eucaryotes ou procaryotes. Ce fut par exemple le cas pour les

Lokiarchaeota (Spanget al.2015), dont nous rediscuterons par la suite (voir section1.2.2).

L’ap-proche parsingle-cellpermet aussi d’obtenir des génomes à partir d’échantillons

environnemen-taux. Les organismes d’intérêt sont ainsi isolés (e.g. cytométrie en flux, micro-manipulation) et

leurs génomes séquencés, sans passer par une étape de culture. Les données produites sont

d’autant plus précieuses qu’elles permettent ensuite d’améliorer l’annotation des métagénomes

(dont la qualité dépend de la représentativité des séquences de référence des bases de données)

et/ou le positionnement phylogénétique de certaines lignées (Stepanauskas 2012).