• Aucun résultat trouvé

La diversite des microbiotes des isopodes

2. La composante virale du microbiote des isopodes

2.1 Introduction

Les isopodes sont les hôtes d’un écosystème complexe composé de bactéries, virus, archées et micro-eucaryotes (Bouchon et al., 2016; Kostanjšek et al., 2006). La composante virale du microbiote a longtemps été sous-estimée et peu étudiée, alors qu’il est estimé que les virus seraient dix fois plus nombreux que les procaryotes sur Terre (Wommack and Colwell, 2000). Les virus sont des agents infectieux qui exploitent la machinerie cellulaire de la cellule infectée pour se multiplier (Lwoff, 1957). Ils sont classés en sept groupes selon la classification de Baltimore (Baltimore, 1971), en fonction de leur type d’acide nucléique (ADN ou ARN, simple ou double brin), du mode d’expression dans la synthèse de l’ARN messager viral, et du procédé de réplication de l'ADN. Les virus peuvent infecter n’importe quel type d’organisme cellulaire, que ce soit des eucaryotes (i.e. virus d’eucaryotes) ou des procaryotes (i.e. bactériophages ou phages), et d’autres virus (i.e. virophages) (La Scola et al., 2008). Le virome représente l’ensemble des virus présents dans un microbiote (Cesar Ignacio-Espinoza et al., 2013), comme il peut désigner l’ensemble des acides nucléiques viraux d’un métagénome (McDaniel et al., 2008). Par la suite, nous considérerons le virome comme étant la composante virale des métagénomes, soit l’ensemble des séquences virales.

Les virus ont longtemps été étudiés pour leur pouvoir pathogène sur l’Homme et d’autres animaux. Pourtant, les virus d’eucaryotes ne sont pas la composante principale du virome d’un animal, car la majeure partie des virus contenus dans un virome sont des phages (Navarro and Muniesa, 2017). Les phages peuvent impacter significativement les écosystèmes : on estime qu’ils infectent 1024 cellules procaryotes par seconde, éliminant quotidiennement 20 à 40% des procaryotes de la planète (Flint et al., 2015). Leur répertoire génomique est constamment enrichi par des échanges de matériel génétique avec leur hôte (Faruque and Mekalanos, 2003; Hendrix et al., 2000; Mann et al., 2003) et d’autres phages (Hendrix et al., 1999). A l’inverse, ils contribuent à l’évolution de leurs hôtes au travers d’évènements de transferts horizontaux de gènes (Brussow et al., 2004;

Chapitre 3

190 Cesar Ignacio-Espinoza et al., 2013; Sullivan et al., 2006). Ces évènements sont favorisés par les phénomènes de lysogénisation, qui consistent en l’intégration du génome du phage dans le génome de la bactérie, lui permettant ainsi de se multiplier synchroniquement avec lui (Brussow et al., 2004). Le phage est alors appelé prophage, lequel est transmis à la descendance de la bactérie infectée. Le prophage peut être in fine sélectionné s’il confère un avantage adaptatif à la bactérie, et ainsi être définitivement intégré dans le génome bactérien (Lawrence and Ochman, 1997). De plus, la plupart des virus ne se limitent pas à une seule espèce hôte, certains sont capables d’infecter tout un spectre d’hôtes de genres différents facilitant ainsi les transferts horizontaux entre espèces (Ross et al., 2016). Ainsi, le virome peut jouer un rôle important au sein du microbiote en modulant la dynamique des communautés bactériennes et en contribuant aux échanges de matériel génétique entre les espèces (Clokie et al., 2011). Il apparait donc important d’identifier et d’étudier les interactions du virome avec les autres représentants du microbiote pour comprendre les trajectoires évolutives de l’ensemble du microbiote, et de l’holobionte.

L’avènement de la métagénomique plein-génome a révolutionné l’étude des virus et de leurs interactions avec les bactéries (García-López et al., 2019; Zhang et al., 2017), mais ils constituent encore une part importante de la dark matter (i.e. ensemble des séquences inconnues) des microbiotes (Gregory et al., 2019a, 2019b; Roux et al., 2015a). Il n’existe pas de gène conservé universel à tous les virus tels que les gènes des ARNs ribosomaux des eucaryotes et procaryotes (e.g. 16S et 18S), rendant de ce fait leur identification dans un métagénome compliquée. Leur identification repose essentiellement sur des comparaisons de séquence avec des bases de données de référence qui sont relativement pauvres comparées aux banques de séquences eucaryotes et procaryotes (Carroll et al., 2018). Cette méthode ne permet donc pas d’identifier, de quantifier et de classer l’ensemble des virus constituant le virome. Pour pallier ces problèmes, des méthodes indépendantes de la taxonomie ont été récemment développées pour identifier les séquences virales d’un métagénome. Une première méthode consiste à détecter des domaines conservés connus chez les virus (Chen et al., 2012; Skewes-Cox et al., 2014). Elle permet de faire une prédiction rapide des séquences virales, mais le nombre de faux-positifs peut être important dans la mesure où il existe des domaines conservés communs aux organismes cellulaires et aux virus. Il existe tout de même des domaines spécifiques à

191 certains virus, tel que le domaine RdRp (« RNA-dependent RNA polymerase ») qui permet l’identification des virus à ARN (Shi et al., 2016). D’autres méthodes ont été développées spécifiquement pour détecter les phages : certaines d’entre elles permettent de discriminer les séquences de phages de leurs hôtes grâce à des analyses de cooccurrence et de coabondance de séquences, ainsi que par l’analyse de leur composition (Fang et al., 2019; Zhang et al., 2019). Il existe également des méthodes probabilistes permettant d’identifier les séquences appartenant aux phages (Roux et al., 2015b), de même que des méthodes d’apprentissage dites de machine learning reposant sur la fréquence des k-mers des séquences (Ren et al., 2017). Enfin, l’introduction récente de méthodes basées sur les réseaux utilisant des profils de partage de gènes permet l’identification et la classification de séquences virales non référencées dans les bases de données (Bin Jang et al., 2019).

L’utilisation combinée de ces méthodes aiderait à identifier et à caractériser le virome des isopodes. Ce virome est méconnu, seules quelques familles de virus ont été jusqu’à présent identifiées : la famille des Cruciviridae, des Picornaviridae, des Iridoviridae et des Reoviridae (Bistolas et al., 2017; Johnson, 1983; Juchault et al., 1991; Loiseau et al., 2017) (leur biologie a été décrite dans l’Introduction générale de cette thèse). Il est probable que ces familles ne représentent qu’une infime partie du virome des isopodes et que la majeure partie de leur virome reste à découvrir. Dans le but d’avoir une vue plus exhaustive, nous avons prédit les séquences virales des 51 métagénomes précédemment construits à partir de cinq espèces (cf. Chapitre 2 : 2. Les isopodes, des modèles prometteurs pour étudier la dégradation

de la lignocellulose) en combinant plusieurs méthodes. Le virome obtenu nous a permis de

mettre en évidence la richesse des virus présents chez les isopodes, et d’inférer ses potentielles interactions avec l’ensemble de l’holobionte.

Chapitre 3

192

2.2 Matériels et Méthodes

Stratégie d’identification des virus au sein des métagénomes

Dans cette étude, nous avons réutilisé les 51 métagénomes des cinq espèces d’isopodes construits précédemment (cf. Chapitre 2 : 2. Les isopodes, des modèles prometteurs

pour étudier la dégradation de la lignocellulose). Les contigs viraux de ces métagénomes ont été

identifiés grâce à trois méthodes complémentaires (Figure 29) : une première consistant à comparer les contigs et les gènes prédits contre des bases de données de virus connus, une seconde se basant sur la détection de domaines conservés propres aux gènes de virus, et enfin une troisième utilisant des modèles probabilistes et de machine learning reposant sur la signature de séquences nucléiques.

193 1) Identification des séquences virales grâce à des méthodes d’alignement

Le programme DIAMOND (Buchfink et al., 2015) a été utilisé avec un seuil d’E-value de 0,00001 pour rechercher des protéines virales dans les métagénomes en comparant les contigs à deux bases de données de protéines virales. La première base de données a été construite à partir des séquences protéiques de virus de la base de données Non-Redondante de NCBI (1er février 2019). Le logiciel TaxonKit (version 0.3.0 ; (Shen and Xiong, 2019)) a été utilisé pour extraire les séquences virales de cette base de données. La seconde base de données utilisée est la RefSeq Viral (1er février 2019), une base de données de séquences protéiques et nucléiques de référence regroupant des séquences de virus annotées et non-redondantes. Après avoir comparé les contigs aux protéines de cette base de données, la RefSeq Viral a également été utilisée avec le logiciel megaBLAST (Altschul et al., 1990) afin de comparer les contigs aux séquences nucléiques de la base de données.

2) Identification des séquences virales grâce à l’identification de domaines conservés Une autre façon de prédire des séquences virales est l’identification de domaines conservés à partir de la base de données vFAM (Skewes-Cox et al., 2014). vFAM est un regroupement de domaines conservés viraux (ou plus exactement : des profils de modèles de Markov cachés) construit à partir de la Refseq Viral. Les ORFs ont été comparées à cette base de données grâce au logiciel HMMER (version 3.2.1 ; (Mistry et al., 2013b)) afin de prédire les séquences protéiques virales des métagénomes. Enfin, les contigs associés aux ORFs virales prédites ont été extraits.

3) Identification de séquences virales grâce aux signatures de séquences (modèles probabilistes et machine learning)

VirFinder (Ren et al., 2017) et VirSorter (Roux et al., 2015b) sont deux logiciels utilisés pour prédire les séquences appartenant à des phages. VirFinder est un logiciel de

machine learning qui est capable de différencier les contigs de phages et de leurs hôtes grâce

aux fréquences de k-mers. Afin d’éviter les faux-positifs, le logiciel intègre des mesures statistiques évaluant la robustesse des résultats. De ce fait, seuls les contigs prédits ayant

Chapitre 3

194 une valeur de p (i.e. probabilité d’être un contig viral) et de q (i.e. probabilité que le contig ne soit pas un faux-positif) supérieure à 0,05 ont été conservés pour la suite des analyses. VirSorter quant à lui utilise des modèles probabilistes pour détecter des signatures virales dans les séquences. De même que pour le logiciel VirFinder, VirSorter classe les séquences prédites en trois catégories, la première comprenant les séquences avec la plus forte probabilité d’appartenir à des phages et la dernière les séquences ayant la plus faible probabilité. En conséquence, seules les séquences classées dans les catégories 1 et 2 ont été conservées pour la suite des analyses.

Tri des faux-positifs

Les séquences prédites par les trois méthodes ont ensuite été fusionnées en un seul cluster, puis la redondance des contigs a été enlevée. Les contigs dont la longueur était inférieure à 1 kb ont été filtrés de façon à obtenir un virome non-redondant de bonne qualité. Ensuite, le virome a été soumis à trois étapes de filtrage pour enlever les faux-positifs :

En premier lieu, les contigs ont été alignés i) contre la base de données nucléique de NCBI (1er février 2019) grâce au logiciel megaBLAST (Altschul et al., 1990), et ii) contre la base protéique Non-Redondante de NCBI (1er février 2019) grâce au logiciel Diamond (Buchfink et al., 2015). Après l’alignement des contigs contre ces bases de données, iii) les ORFs prédites ont également été comparées à la base protéique Non-Redondante de NCBI (1er février 2019) grâce au logiciel Diamond (Buchfink et al., 2015). Dans les trois cas, les comparaisons de séquences ont été faites avec un seuil d’E-value de 0,00001 et cinq résultats demandés en sortie. Les fichiers de sortie de Diamond et megaBLAST ont ensuite été importés dans MEGAN (Huson et al., 2016b), un logiciel qui permet d’assigner les séquences à un taxon. Pour chaque séquence, MEGAN assigne la séquence à un taxon en prenant en compte l’ancêtre commun le plus proche à partir des alignements obtenus. Toute séquence qui a été assignée à un organisme cellulaire a été retirée du virome. Concernant les résultats de l’alignement des contigs contre la base protéique Non-Redondante de NCBI, seuls les contigs ayant plus de 40% d’identité avec un organisme cellulaire ont été retirés du virome afin de limiter les faux-positifs.

195 Assignation taxonomique des contigs viraux

Pour identifier les virus connus au sein du virome, la suite de logiciels de CAT-BAT (von Meijenfeldt et al., 2019) a été utilisée. CAT-CAT-BAT compare les ORFs présents sur les contigs viraux à la base de données protéiques Non-Redondante de NCBI, puis fait une assignation globale des contigs en fonction des résultats obtenus sur leurs différents ORFs. Tout comme MEGAN, il fait une synthèse des résultats de l’alignement, mais contrairement à lui, il assigne le contig à l’ancêtre commun le plus proche de l’ensemble des ORFs du contig.

Dans le but de rendre compte de la couverture de séquençage des séquences virales identifiées dans le virome, les contigs ont été comparés à la base de données protéique de UniProt (https://www.uniprot.org/) avec Diamond (Buchfink et al., 2015) avec un seuil d’E-value de 1e-25. Les lectures de l’ensemble des métagénomes ont été alignées contre les contigs du virome avec BOWTIE2 (Langmead and Salzberg, 2012) et l’option --very-sensitive qui permet au logiciel d’être plus sensible et plus précis dans les alignements. Les résultats de Diamond et BOWTIE2 ont ensuite été importés dans le logiciel BlobTools (Laetsch and Blaxter, 2017) pour regrouper les contigs viraux identifiés en fonction de leur couverture et de leur proportion de GC. Ce logiciel a permis de faire une première approche de binning sur les contigs viraux.

Les réseaux de partage de gènes basés sur les protéines communes aux contigs viraux et génomes viraux de référence (issus de la base de donnée Refseq Viral) ont été calculés avec vContact2 (Bin Jang et al., 2019) et visualisés avec Cytoscape (Shannon, 2003). vContact2 regroupe les gènes sur la base de calculs de distance et de scores de confiance, puis il créé des clusters et des sous-clusters de contigs. Les contigs regroupés dans un même sous-cluster sont susceptibles d’appartenir à la même espèce, alors que ceux regroupés au sein d’un même cluster appartiennent probablement au même genre viral. À ce jour, seuls les contigs prédits comme appartenant à des phages ont été utilisés pour construire les réseaux. L’incorporation de l’ensemble du virome nécessite des ressources informatiques trop importantes que nous n’avons pas pu mobiliser pour l’instant.

Chapitre 3

196 Quantification des virus

La quantité de virus dans chaque échantillon a été estimée à partir de l’alignement des lectures des métagénomes contre les contigs du virome fait avec BOWTIE2. Le nombre de lectures alignées contre le virome a été normalisé en utilisant la méthode CPM (« Count Per Million »), soit le nombre de lectures par million. Le nombre de lectures alignées de chaque métagénome a donc été multiplié par le nombre total de lectures du métagénome, puis divisé par 1 million pour obtenir la quantification en CPM. La même méthode a été utilisée pour quantifier les phages, en alignant cette fois-ci les lectures contre l’ensemble des contigs de phages prédits dans le virome par VirFinder et VirSorter.

197

2.3 Résultats

Prédiction des séquences virales

Le virome final obtenu à partir des métagénomes comprend 373 208 contigs dont la longueur est supérieure à 1 kb. La méthode ayant prédit le plus de contigs viraux est celle se basant sur la recherche de domaines conservés viraux (Figure 30). Cette méthode a permis la détection de 325 989 contigs (soit 87% du virome total) dont 313 653 n’ont pas été détectés par les autres méthodes. Les méthodes par alignement contre des bases de données de références ont identifié 2 673 contigs viraux (soit 0,7% du virome total). De nombreux contigs viraux appartiennent donc à des virus inconnus ou, en tout cas, non catalogués dans les bases de données (Figure 30). Enfin les méthodes probabilistes et de machine learning ont identifié 57 096 contigs appartenant probablement à des phages. Ces derniers représentent 15,3% des séquences du virome total.

Figure 30. Résultats de la recherche de contigs viraux dans les différents métagénomes par les trois méthodes : i) des méthodes d’alignement contre des bases de données de référence, ii) des méthodes de recherche de domaines conservés, et iii) des méthodes se basant sur des modèles probabilistes et de machine learning.

Chapitre 3

198 Assignation taxonomique des contigs viraux

La première méthode de classification des contigs viraux s’est faite avec CAT-BAT. Cette méthode a permis la classification de 2 731 contigs, dont seuls 433 contigs ont pu être classés au niveau de la famille ce qui représente moins de 1% du virome (Figure 31, Tableau 7). Ces contigs sont distribués dans 23 familles de virus, dont les Siphoviridae sont les plus représentés (175 contigs), suivi des Myovriridae (59 contigs), des Podoviridae (51 contigs), et des Iridoviridae (44 contigs) (Tableau 7). Parmi ces 23 familles, cinq familles sont des familles de virus à ARN et 18 sont des familles de virus à ADN. Il y a une plus grande diversité de familles de virus d’eucaryotes que de familles de phages (respectivement 15 et 8 familles). Inversement, il y a un nombre plus important de contigs de phages que de contigs de virus d’eucaryotes (respectivement 290 et 143 contigs) (Tableau 7). Deux familles de virus géants ont été identifiées : les Mimiviridae et les

Pithoviridae.

199

Tableau 7. Distribution des contigs dans les familles virales identifiées.

Famille #ctg Classification* Notes

Siphoviridae 175 Groupe I - Phage Virus à ADN

Myoviridae 59 Groupe I - Phage Virus à ADN

Podoviridae 51 Groupe I - Phage Virus à ADN

Iridoviridae 44 Groupe I - Virus d’eucaryote Virus à ADN causant une « blue disease » chez les cloportes

Nimaviridae 16 Groupe I - Virus d’eucaryote Virus à ADN responsables du syndrome des taches blanches chez les crustacés Poxviridae 16 Groupe I - Virus d’eucaryote Virus à ADN

Rhabdoviridae 13 Groupe V - Virus d’eucaryote Virus à ARN

Mimiviridae 13 Groupe I - Virus d’eucaryote Virus géants à ADN qui infectent les amibes et protistes Circoviridae 8 Groupe II - Virus d’eucaryote Virus à ADN dont les oiseaux et les chiens sont les hôtes naturels Caulimoviridae 7 Groupe VII - Virus d’eucaryote Virus à ADN qui infectent les plantes

Peribunyaviridae 7 Groupe V - Virus d’eucaryote Virus à ARN

Phycodnaviridae 6 Groupe I - Virus d’eucaryote Virus à ADN qui infectent les animaux marins et les algues d'eau douce Totiviridae 4 Groupe III - Virus d’eucaryote Virus à ARN

Nyamiviridae 3 Groupe V - Virus d’eucaryote Virus à ARN dont les oiseaux et les ecdysozoaires sont les hôtes naturels Parvoviridae 2 Groupe II - Virus d’eucaryote Virus à ADN qui infectent les vertébrés et les arthropodes

Baculoviridae 2 Groupe I - Virus d’eucaryote Virus à ADN qui infectent les arthropodes Retroviridae 1 Groupe VI - Virus d’eucaryote Virus à ARN qui infectent les vertébrés Pithoviridae 1 Groupe I - Virus d’eucaryote Virus géants à ADN qui infectent les amibes

Microviridae 1 Groupe II - Phage Virus à ADN

Inoviridae 1 Groupe II - Phage Virus à ADN

Tectiviridae 1 Groupe I - Phage Virus à ADN

Ackermannviridae 1 Groupe I - Phage Virus à ADN

Autolykiviridae 1 Groupe I - Phage Virus à ADN

*Classification faite selon la classification de Baltimore (1971)

La seconde méthode de classification des contigs viraux s’est faite avec le logiciel BlobTools. Le logiciel a identifié 675 contigs viraux dont aucun n’a pu être assigné à un niveau taxonomique inférieur. Ces contigs avaient déjà été classés en tant que virus par CAT-BAT. BlobTools a ensuite distribué les contigs en plusieurs groupements ayant une couverture et un taux de GC égal (Figure 32) ; ces groupes sont l’équivalent de bins. BlobTools montre qu’il est possible de créer des bins de contigs viraux en les classant en fonction de leur couverture et de leur structure nucléique. Cette analyse est une première approche aux méthodes de binning (détaillées dans la partie précédente de ce chapitre) appliquée aux virus qu’il faudra développer par la suite pour identifier de nouveaux génomes viraux. Il faudra notamment faire cette analyse sur l’ensemble du virome, car BlobTools n’a pris en compte que les contigs classés en tant que virus pour créer les bins.