• Aucun résultat trouvé

Comparaison des génomes de S ambofaciens et S coelicolor : recherche d’ilots génomiques

Exploration du métabolisme secondaire de S.

2. Matériels et méthodes

3.4. Comparaison des génomes de S ambofaciens et S coelicolor : recherche d’ilots génomiques

La recherche de groupes de gènes du métabolisme secondaire dans des génomes par des approches basées uniquement sur la recherche de similarité de séquence ne permet pas actuellement d'explorer l'intégralité du métabolisme secondaire. Nous avons donc voulu déterminer si une approche basée sur la recherche d'ilots génomiques par comparaison de génomes de souches proches pourrait faciliter la recherche de nouveaux gènes et groupes de gènes du métabolisme secondaire. Ceci nécessitait le développement d'un outil bioinformatique permettant l'identification de tels ilots, notamment pour l'analyse de génomes partiellement séquencés. Cet outil, BreakViewer, a été développé par Mathieu Barba et Olivier Lespinet dans le cadre d’un projet commun.

3.4.1. Organisation du chromosome et synténie chez les Streptomyces

Nous avons cherché à étudier les ilots génomiques présents chez S. ambofaciens. Pour cela, il est nécessaire d’effectuer une comparaison du génome avec celui d’une espèce suffisamment proche de S. ambofaciens pour posséder un fort taux de synténie sur la majeure partie du chromosome, mais suffisamment distante pour posséder des zones de rupture de synténie avec cette espèce. Afin de déterminer un bon modèle de comparaison pour cette étude, le degré de synténie entre S. ambofaciens et différentes espèces (de distance phylogénétique croissante) a été analysé. Ces espèces sont S. ambofaciens DSM40697, S. coelicolor, S. collinus et S. griseus. Le nombre de ruptures de synténie observé pour ces comparaisons est également reporté (Figure 8 et Tableau 7). L’étude a été réalisée en paramétrant une taille minimale des zones de rupture de synténie à 15 ORFs dans l’un ou l’autre des deux génomes afin d’observer un nombre raisonnable d’ilots génomiques au sein de chaque génome. Il est donc à noter que tous les clusters constitués de moins de 15 gènes (bactériocines, butyrolactones, terpènes…) ne pourront pas être détectés avec ce paramétrage. Les résultats observés suggèrent S. coelicolor comme étant un bon modèle de comparaison. En effet, cette espèce possède une synténie sur 86% du génome de S. ambofaciens tout en possédant 26 zones de rupture de synténie avec cette espèce.

98

Figure 7 : Représentation des parties synténiques du chromosome de S. ambofaciens ATCC23877 après comparaison avec les chromosomes d’espèces de plus en plus distantes. Les lignes rouges représentent les zones synténiques entre les espèces comparées (échelle en Mb).

Tableau 7 : Comparaison de la synténie entre S. ambofaciens ATCC23877 et des organismes de plus en plus distants.

3.4.2. Identification d'ilots génomiques chez S. ambofaciens ATCC23877 par comparaison avec le génome de S. coelicolor.

Les génomes de S. ambofaciens ATCC23877 et S. coelicolor A3(2) ont été alignés avec l’outil Break Viewer (Figure 9). Nous appellerons « ilot génomique » toute région présente à un locus précis chez une espèce et non chez l’autre. Les ruptures de synténie indiquent donc la présence de un ou deux ilots génomiques.

99

Figure 8 : Exemple de résultats obtenus à l’aide de l’outil Break Viewer : A) Dot-plot des génomes de S.

ambofaciens et S. coelicolor, les points bleus représentent les gènes orthologues. B) Zoom du dot-plot :

visualisation de ruptures de synténie (en rouge). C) visualisation des gènes situés dans la rupture de synténie (bleu : S. ambofaciens ; rouge : S. coelicolor). Les gènes en teinte clairs possèdent des orthologues non synténiques, les gènes en teinte foncés n’en possèdent pas.

L'analyse a permis l’identification de 31 ruptures de synténie. Parmi ces 31 ruptures détectées par bioinfomatique, seules 26 sont significatives biologiquement. Les 5 autres sont des artefacts, détectés dans les régions non synténiques des génomes de S. ambofaciens et de S. coelicolor. En effet, la synténie entre les deux génomes n’est observée que sur le cœur et une partie des bras, les extrémités de ces derniers étant trop divergentes. Les 26 ruptures de synténie permettent d'identifier 11 ilots dans le génome de S. ambofaciens (22 dans le génome de S. coelicolor). Les tailles de ces ilots varient de 15 gènes (lié au paramétrage) à 151 gènes (Tableau 4). Dans le Tableau 7, nous avons choisi de classer les ilots en fonction de la présence ou de l'absence d'un ARNt à l'une des extrémités de la région de rupture de synténie (points chaud d’intégration (Reiter et al., 1989 ; Hudson et al., 2014)) et du nombre d’ORFs présentes dans l’ilot (les critères de classement sont modifiables dans BreakViewer). Le Tableau 7 fait également apparaitre une colonne « diversité ». Le nombre indiqué pour chaque rupture dans cette colonne (entre 2 et 12) signifie que sur les 12 espèces incorporées à l’étude (S. ambofaciens ATCC23877, S. coelicolor A(3)2, S. griseus NBRC 13350, S. collinus Tu365, S. venezuelae ATCC10712, S. lividans TK24 et 1326, S. ambofaciens DSM40697, Streptomyces sp. M1013, S. toyocaensis NRRL15009, S. davawensis JCM4913 et S. mutabilis

100

N° RS CDS SAM CDS SCO Diversité tRNA Contenu SAM Contenu SCO

1 55 1 8 Oui Non déterminé Moins de 15 ORFs

2 65 21 10 Oui pSAM2-xSAM1 Non déterminé

3 25 45 11 Oui Non déterminé Non déterminé

4 11 106 10 Oui Moins de 15 ORFs Non déterminé

5 2 28 10 Oui Moins de 15 ORFs Non déterminé

6 0 147 9 Oui Moins de 15 ORFs PKS type I + lantipeptide

7 101 0 2 Non Phage ? Moins de 15 ORFs

8 88 29 10 Non Spiramycine + CDA-like Non déterminé

13 31 30 11 Non Congocidine Non déterminé

14 28 17 11 Non Non déterminé Non déterminé

15 20 7 10 Non Non déterminé Moins de 15 ORFs

16 20 11 10 Non Non déterminé Moins de 15 ORFs

17 20 34 10 Non Non déterminé Actinorhodine

18 9 33 11 Non Moins de 15 ORFs Non déterminé

19 20 151 8 Non Non déterminé Non déterminé

20 8 21 10 Non Moins de 15 ORFs Non déterminé

21 4 44 3 Non Moins de 15 ORFs Non déterminé

22 6 24 8 Non Moins de 15 ORFs Non déterminé

23 3 20 9 Non Moins de 15 ORFs NRPS

24 2 19 10 Non Moins de 15 ORFs Non déterminé

26 1 23 2 Non Moins de 15 ORFs Prodigiosines

27 2 20 6 Non Moins de 15 ORFs Non déterminé

28 1 17 7 Non Moins de 15 ORFs Non déterminé

29 1 60 9 Non Moins de 15 ORFs Non déterminé

30 0 16 7 Non Moins de 15 ORFs Non déterminé

31 0 16 2 Non Moins de 15 ORFs Non déterminé

Tableau 8 : Classement des ruptures de synténie identifiées par comparaison des génomes de S. ambofaciens et S. coelicolor. Les cases en gris correspondent aux ilots contenant moins de 15 ORFs, non pris en compte dans cette étude.

101

TRM45540), « n » possèdent un contenu génique différent des autres à ce locus. Cela permet également d’évaluer si le locus étudié constitue un « point chaud » d’intégration. On appellera par exemple RS1-SAM/SCO l’ilot génomique N°1 dans le classement, présent chez S. ambofaciens sur une comparaison avec le génome de S. coelicolor. L'analyse par antiSMASH 2.0. du génome de S. ambofaciens a mis en évidence 26 groupes de gènes du métabolisme secondaire. Parmi ces 26 clusters, seuls 10 pourraient être retrouvés dans les 11 ilots génomiques identifiés par BreakViewer dans notre analyse, les 16 restants contenant moins de 15 gènes (notre paramétrage apparait donc comme très restrictif). Parmi ces 10 clusters, seuls 3 sont retrouvés dans des ilots génomiques identifiés par BreakViewer (clusters congocidine, spiramycine et cll). Indépendamment du paramétrage, cela peut s’expliquer en partie du fait de l’existence d’un « cœur métabolome secondaire » : c’est-à-dire des clusters retrouvés chez de nombreuses espèces de Streptomyces, dont S. ambofaciens et S. coelicolor, et localisés au même endroit sur le chromosome (absence de rupture de synténie). C'est, par exemple, le cas des clusters géosmine et desferrioxamine. D’autre part, 5 des 10 clusters possédant plus de 15 gènes sont retrouvés dans les extrémités des bras de S. ambofaciens, là où le degré de synténie avec S. coelicolor est trop faible pour avoir une signification. En comparant deux espèces plus distantes (mais conservant un fort degré de synténie), il est probable qu’un nombre plus élevé de clusters soit détecté par les deux méthodes.

Break Viewer identifie également neuf ilots génomiques qui ne contiennent pas de gènes du métabolisme secondaire détectés par antiSMASH. Potentiellement, chacun de ces ilots pourrait contenir des groupes de gènes du métabolisme secondaire. Néanmoins, certains de ces ilots génomiques peuvent contenir d’autres objets acquis par transfert horizontal, comme les phages et les plasmides intégrés. C'est ainsi que dans l'analyse effectuée, on retrouve le plasmide intégré pSAM2 (couplé à l’élément xSAM1, prophage putatif, RS2/SAM/SCO) ainsi qu’un ilot de 101 ORFs contenant plusieurs gènes de phage (RS7/SAM/SCO). Parmi les ilots génomiques identifiés, on retrouve également des gènes pouvant potentiellement faire partie de clusters de biosynthèse, sans correspondre à une famille de gènes typiquement identifiée par antiSMASH 2.0. (NRPS, PKS…). Ces ilots (par exemple RS3-SAM/SCO, RS15-SAM/SCO) contiennent des gènes codant des enzymes appartenant à des familles souvent retrouvées dans les voies de biosynthèse de métabolites secondaires (oxydases ou réductases par exemple), des gènes codant des protéines impliquées dans le transport, la régulation et/ou le résistance. Ils constituent de bons candidats pour tester l'hypothèse au cœur de ce travail, à savoir que l'étude d'ilots génomiques peut permettre la

102

découverte de nouveaux gènes et groupes de gènes du métabolisme secondaire, et devront être les premiers à faire l'objet d'études spécifiques (inactivation de gènes, expression hétérologue…). Enfin, il est à noter que certains ilots génomiques sont composés essentiellement (voir entièrement) de gènes dont les fonctions sont inconnues (RS1- SAM/SCO, RS16-SAM/SCO). Ces ilots sont donc, dans une certaine mesure, également susceptibles de contenir des clusters du métabolisme secondaire, dont les enzymes de biosynthèse appartiendraient à des familles encore totalement inconnues.

3.4.3. Avantages et inconvénients des deux stratégies de recherche

Les outils de recherche de gènes du métabolisme secondaire tels antiSMASH 2.0. sont basés sur la recherche de similitude de séquence. Au contraire, notre approche par Break Viewer est basée sur la recherche de différences entre les génomes. Ces deux stratégies de recherche sont donc parfaitement complémentaires (Tableau 8). antiSMASH 2.0. permet de retrouver efficacement la majorité des clusters contenant des gènes d’enzymes bien caractérisées du métabolisme secondaire, et les clusters identifiés ont une probabilité forte d’être réellement liés à la biosynthèse de métabolites. Au contraire, Break Viewer n’identifie que peu de ces clusters bien caractérisés, en effet, tout cluster commun aux deux génomes choisis pour l’analyse ne sera pas détecté. Ce point peut être vu comme un avantage, dans le sens où cela évite la redécouverte de clusters dont les produits sont déjà connus. Bien que la probabilité de retrouver des clusters dans les ilots génomiques soit difficile à évaluer actuellement, cette approche a l’avantage de pouvoir détecter des clusters originaux, dont les fonctions des gènes n’ont jamais été liées au métabolisme secondaire. On notera également que l’insertion de clusters dans les génomes, recherchée par Break Viewer, permet d’identifier de façon plus précise les limites d’un cluster putatif. Au contraire, antiSMASH 2.0. détectant des gènes en particulier, cet outil ne permet pas de délimiter de façon précise les clusters, et se contente d’encadrer ces derniers de nombreux gènes, la plupart non impliqués dans la synthèse de métabolites. Par exemple, dans le cas du cluster congocidine, l’ilot génomique détecté par BreakViewer commence directement avec un gène du cluster cgc à l’extrémité gauche, tandis qu'à l’extrémité droite, seuls 7 gènes ne sont pas impliqués dans la voie de biosynthèse de cet antibiotique (Figure 9) (Juguet et al., 2009). Enfin, ces outils se distinguent de par la façon de les utiliser. antiSMASH 2.0. est un outil très simple d’utilisation qui permet la détection de clusters dans un génome assemblé ou en contigs. En revanche, très peu de

103

paramétrages sont possibles, il n’est donc pas possible, pour l’utilisateur, de rechercher quelque chose en particulier (clusters conservés/spécifiques, clusters contenants des gènes appartenant à une famille d’enzyme particulière…). Break Viewer, au contraire, nécessite une réflexion pré-utilisation. L’utilisateur doit décider des deux génomes à comparer et de la distance évolutive qui sépare ces derniers. Il est également nécessaire de fixer un nombre minimum d’ORFs présents dans les ilots. Ces modulations permettent, par exemple, de rechercher des clusters très spécifiques d’un groupe taxonomique.

Figure 9 : A) Groupe de gènes contenant le cluster congocidine tel que détecté par Break Viewer. B) Groupe de gènes contenant le cluster congocidine tel que détecté par antiSMASH.

Tableau 9 : Comparaison des principales caractéristiques des outils de détection de gènes du métabolisme secondaire par antiSMASH 2.0. et Break Viewer.

104

4. Conclusion

L’analyse du génome de S. ambofaciens a révélé la présence de 26 groupes de gènes potentiellement impliqués dans la biosynthèse de métabolites secondaires. Parmi ces 26 clusters, 16 produisent des métabolites caractérisés chez S. ambofaciens ou d’autres espèces. Les 10 groupes de gènes restant pourraient donc être impliqués dans la biosynthèse de métabolites inconnus, ou pour lesquels le cluster de biosynthèse n’est pas caractérisé. Les mutants d’inactivation construits pour 6 de ces clusters n’ayant pas révélé de perte d’activité antibiotique en culture OSMAC, il est très probable que les clusters de gènes responsables de la synthèse de ces antibiotiques ne soient pas détectables avec des outils de recherche actuels. Il serait toutefois nécessaire de construire des mutants d’inactivation pour des gènes des clusters putatifs N°16 et 22. De même, nous ne possédons pas de mutant pour les clusters butyrolactones. Ces métabolites sont cela dit, liés à des mécanismes de régulation dans la majorité des cas étudiés.

Nous avons montré, avec l’outil Break Viewer, qu’il était possible d’identifier des clusters du métabolisme secondaire en recherchant des ilots génomiques au sein de génomes phylogénétiquement proches. Cette approche ne nécessitant aucune connaissance sur la nature des clusters recherchés peut donc permettre l’identification de clusters de gènes atypiques du métabolisme secondaire. De plus, cette méthode se démarque également de par sa capacité à prédire de façon précise les limites d’un cluster putatif (si un seul cluster est présent dans l’ilot génomique), comme illustré avec l’exemple du cluster cgc chez S. ambofaciens. Enfin, la comparaison entre génomes ne permettant pas la détection de clusters présents chez les deux espèces (« cœur métabolome secondaire »), cette approche est optimisée pour l’identification de clusters présents chez une minorité d’espèces (clusters « rares »), et donc potentiellement nouveaux.

105

Chapitre II :

Etude de l’ilot génomique RS3-SAM/SCO : lien avec la