• Aucun résultat trouvé

HTseq, outil le plus courant, utilise une approche conservatrice où seuls les

Dans le document en fr (Page 179-182)

Analyses bioinformatiques des données de séquençage de l’ADN

Section 3.4.2). HTseq, outil le plus courant, utilise une approche conservatrice où seuls les

reads recrutés par une région unique ou un seul gène sont comptabilisés. featureCounts utilise

la même approche, mais un des deux reads s’aligne sur deux régions alors que les paires de

reads ne sont alignées que sur un seul gène, ils sont malgré tout comptabilisés pour le gène.

featureCounts prend donc en compte plus de reads que HTseq et est en outre beaucoup plus rapide Pour les données de cette thèse, nous avons ainsi privilégié featureCounts.

Tout comme pour les données de séquençage du gène codant pour l’ARNr 16S (Section

4.2.3), les différences de taille de métagénomes et le manque de réplicats peuvent fortement

influencer la détection des gènes et la variation de leur abondance (Jonsson et al. 2016 ; Pereira et al. 2018). Afin de comparer l’abondance des gènes entre échantillons et de mettre en évidence les traits métaboliques propres à un échantillon, il convient donc de normaliser les données. Plusieurs études comparatives ont démontré que DESeq2 (Love et al. 2014) et edgeR (Robinson et al. 2010) sont plus performants pour l’analyse comparative de l’abondance des gènes (Jonsson et al. 2016 ; Pereira et al. 2018). Ce dernier outil a été utilisé pour normaliser les données de métagénomiques relatives à Old City pour cette thèse.

4.4. Intégration des données et intercomparaison

4.4.1. Pangénomique

Le pangénome décrit l’ensemble des gènes présents pour des génomes phylogénétiquement proches, traditionnellement au sein d’une même souche (Cordero et Datta, 2016). Il est constitué d’un génome dit de cœur (ou core genome) qui représente tous les gènes partagés par ces génomes proches, de gènes accessoires, parfois appelés écogénomes, qui sont présents uniquement dans certains génomes pour des écosystèmes particuliers, et enfin de singletons de gènes propres à un génome. La définition de ces

différents groupes de gènes entre génomes proches est généralement basée sur leurs homologies de séquences. Etudier le pangénome de différents MAGs permet d’identifier le contenu génétique propre à certaines populations microbiennes, son hétérogénéité (Figure 4.3) et les adaptations écologiques associées (Allen et Banefield, 2005; Delmont et Eren 2016; Anderson et al. 2017). Différentes études menées sur des sites hydrothermaux tels que Lost City (Brazelton et Baross 2010) ou Von Damm et Piccard (Anderson et al. 2017) ont ainsi montré la présence de réarrangements génomiques, de transferts horizontaux de gènes, de pertes de gènes et de groupes de génomes distincts résultants d’adaptation à des gradients physicochimiques et conditions géochimiques locales.

Figure 4.3: Hétérogénéités de différents génomes proches. Différenciation des contigs (a) due à des séquences adjacentes non homologues (en gris) ou au contenu génétique (en rouge) ; (b) Profils de variants uniques nucléotidiques en fonction des environnements ; (c) Réarrangements, insertions et variations génétiques dans une population de génomes proches (Allen et Banefield 2005).

Afin de mieux comprendre les différences de communautés microbiennes et de métabolismes potentiels, nous avons ainsi étudié les pangénomes et le contenu génétique de différents MAGs associés à des groupes métaboliques représentatifs (à savoir méthanogènes/méthanotrophes anaérobies et acétogènes) dans quatre sites serpentinisés : Old City, Lost City, la baie de Prony et l’ophiolite de The Cedars (voir Chapitre 1). Cette étude a été menée afin de mettre en évidence des patterns écologiques et des variations de populations génomiques adaptatives en lien avec les conditions environnementales particulières imposées par la serpentinisation (voir Chapitre 6).

4.4.2. Hétérogénéité et évolution des population de génomes

L’étude des variations génomiques offre l’opportunité de comprendre les pressions de sélection environnementales qui contrôlent l’évolution et la diversification des populations de génomes microbiens (Anderson et al. 2017 ; Starnawski et al. 2017 ; Delmont et al. 2019). En recrutant les reads, des hétérogénéités fines de nucléotides (single nucleotide variants, SNVs, ou single nucleotide polymorphisms, SNPs) peuvent être mises en évidence au sein de mais aussi entre différentes populations génomiques (Figure 4.4b) et leurs taxons associés. Par ailleurs, la proportion de mutations non synonymes, c’est-à-dire affectant la composition en acides aminés d’une protéine par opposition aux mutations silencieuses, peut révéler les processus évolutifs associés à différentes conditions environnementales (Anderson et al. 2017 ; Delmont et al. 2019). Ainsi, Anderson et al. (2017) ont démontré des divergences évolutives pour des populations de Sulfurovum et d’autres taxons liés à la géochimie distincte de deux sites environnementaux et au substratum associé. L’utilisation du rapport entre des variants uniques en acides aminés (single amino acids variants, SAAVs) et en nucléotides (SNVs) est indicative des hétérogénéités de phénotypes et des différentes pressions de sélection exercées sur les populations microbiennes.

Peu d’études de ce type existent à ce jour sur les sites hydrothermaux. La seule actuellement publiée met en évidence une sélection écologique dépendante du type de roche (basalte ou péridotite) constituant le substratum (Anderson et al. 2017). Une telle approche peut donc fournir des informations précieuses sur les pressions de sélection écologique exercées sur des taxons d’intérêts dans les différents sites serpentinisés. C’est pourquoi nous

avons conduit une analyse des variants de populations de génomes entre les différents sites serpentinisés cités précédemment, à savoir Old City, Lost City, la baie de Prony et l’ophiolite de The Cedars (Chapitre 6).

4.4.3. Conditions environnementales et métagénomes

Bien qu’elle ne renseigne pas sur les métabolismes effectifs dans les conditions environnementales étudiées, la métagénomique est un outil puissant pour émettre des hypothèses sur le rôle écologique des communautés microbiennes et leurs interactions avec leur environnement (Dick et Lam 2015). Pour apporter des contraintes environnementales, il est nécessaire d’intégrer les données de métagénomiques, dans la mesure du possible, aux paramètres environnementaux. Ainsi, l’intégration des données de métagénomique en complément d’analyses géochimiques traditionnelles peut conduire à des résultats fortement valorisables pour comprendre le fonctionnement des écosystèmes (Oremland et al. 2005). Un des défis qu’a dû relever cette thèse réside dans le manque de métadonnées (i.e. paramètres environnementaux) disponibles pour le site hydrothermal de Old City. En effet la diffusion probablement lente des fluides hydrothermaux au niveau de ce site n’a pas permis de caractériser les paramètres physicochimiques associés à ces fluides et nos données de métagénomique n’ont donc pas pu être intégrées à des données environnementales. De même, cette décharge diffuse des fluides hydrothermaux pouvant conduire à des conditions fortement hétérogènes au sein des cheminées étudiées, et ceci jusqu’à la petite échelle, une approche globale dite « bulk » pour la caractérisation de la minéralogie et de la composition élémentaire des cheminées ne permet pas de rendre compte des conditions environnementales locales nécessaires pour caractériser les interactions microorganismes-minéraux (voir

Dans le document en fr (Page 179-182)