• Aucun résultat trouvé

A NALYSE   DU   CONTEXTE   GÉNOMIQUE   DES   SYSTÈMES   TA

II. INTRODUCTION   :   LES   SYSTÈMES   TOXINE ‐ ANTITOXINE

IV.4   A NALYSE   DU   CONTEXTE   GÉNOMIQUE   DES   SYSTÈMES   TA

Selon le scénario évolutif précédemment proposé, la présence de systèmes TA au sein de chromosomes pourrait s’expliquer par une intégration de systèmes plasmidiques. La question qui se pose donc est de savoir comment se fait cette intégration. Par exemple, il est connu que des éléments génétiques mobiles, comme les transposons, peuvent s’insérer préférentiellement à certains sites, appelés « hotspots » d’intégration. Existe-t-il de telles

zones pour les systèmes TA ? Découvrir d’éventuels « hotspots », telle la région folA–apaH

précédemment décrite, permettrait d’en savoir plus sur l’évolution des systèmes TA. Mais il est également possible d’imaginer que si les sites d’insertion ne sont pas toujours les mêmes, ils partagent néanmoins certaines propriétés. Ce genre d’information pourrait conduire à la détection de nouveaux systèmes, en analysant les régions partageant ces propriétés dans différents chromosomes, ou même à la prédiction d’insertion de systèmes.

Afin de tenter d’apporter des réponses à ces questions, nous nous sommes proposé d’étudier le contexte génomiques de systèmes TA chromosomiques. L’idée est la suivante. Si nous disposions, pour un ensemble d’espèces données, de la totalité de leurs gènes rassemblés en familles (à savoir en groupements de gènes homologues, orthologies et paralogies incluses) ainsi que d’informations sur ces gènes, notamment leur position au sein du génome, nous serions capables de « ré-annoter » ces génomes à notre manière, à savoir de faire une carte de chacun, donnant une succession de familles de gènes pour chaque chromosome, et la distance les séparant. À partir de telles informations nous serions en mesure, grâce à des bases de données en construction au laboratoire, de déterminer quelles familles correspondent à des toxines, des antitoxines, ou même à des éléments génétiques mobiles grâce à la base de donnée Aclame [139]. En croisant ces données, il serait assez simple d’identifier quelles familles de toxines sont associées à quelles familles d’antitoxines. Puis, grâce aux données de position dans le génome, nous serions en mesure d’identifier, de chaque côté, les familles de

gènes présentes. Sont-elles issues d’éléments génétiques mobiles ? L’environnement

génétique des systèmes TA présente-t-il toujours certaines particularités, comme la fonction des familles de gènes adjacentes, ou leur caractère mobile ? Tout ce travail donnerait finalement une vision d’ensemble de la localisation des systèmes TA chromosomiques.

Ceci est réalisé par une approche bioinformatique, actuellement en cours. Une première étape nécessaire est donc d’identifier des familles de gènes homologues, afin de

54   

 

Figure 31. Schémas de scénarios possibles de répartition des familles de gènes au sein des espèces

bactériennes étudiées.

E: Escherichia; Sh: Shigella; Sa: Salmonella; Y: Yersinia; B: Buchnera. Les lignées en bleu présentent la famille d'intérêt; les lignées en orange en sont dépourvues. Les acquisitions de gène sont représentées par un point, les pertes par une croix.

pouvoir affirmer que le gène X au sein d’un génome correspond au gène Y au sein d’un autre. Bien entendu, plus on considère de génomes différents, plus cette tâche sera difficile.

Il faudra ensuite identifier, au sein de ces familles de gènes, ceux qui correspondent à des toxines et ceux qui correspondent à des antitoxines. Nous pourrons ainsi identifier lesquels sont associés en opéron. Finalement, une fois ces opérons définis, nous pourrons rechercher, de chaque côté, quelles familles de gènes sont retrouvées.

Par ailleurs, afin de comprendre de quelle manière les systèmes TA se sont répartis au sein des chromosomes, il sera possible de comparer la distribution de ces systèmes à la phylogénie connue des espèces considérées. Cela permettra de formuler des hypothèses d’apparition au sein d’un organisme ancestral, ou d’insertions multiples à différents moments de l’évolution, ou encore de délétions dans certaines branches et pas dans d’autres. En effet, si un système TA est présent au sein de la majorité des espèces considérées, et dans un contexte toujours similaire, il est aisé de conclure que cette insertion s’est faite au niveau de l’ancêtre commun de ces espèces, et que celles qui en sont dépourvues l’ont certainement perdu au cours de l’évolution. À l’inverse, des systèmes présents uniquement au sein de quelques espèces et dans des contextes variés sont plus certainement issus de multiples insertions (figure 31) ; dans ce cas, ces sites constituent peut-être des « hotspots » d’insertion, qu’il conviendrait d’étudier. Il serait par ailleurs intéressant d’utiliser un type de données particulier afin de réaliser des analyses phylogénétiques de ces régions génomiques, à savoir les données morphologiques. Ces données étaient utilisées avant la phylogénie moléculaire, et se fondaient sur les comparaisons morphologiques. Les séquences morphologiques sont composées d’une succession de 0 et de 1, le 0 marquant l’absence d’un caractère pour un organisme donné, et le 1 sa présence. Dans notre cas, un caractère serait la présence de la famille X par exemple. Et ainsi, pour chaque espèce, des séquences de ce type seraient disponibles, et permettraient des analyses phylogénétiques, dont le but serait de les comparer à la phylogénie des espèces. La dynamique d’insertion des systèmes TA serait ainsi confrontée à celle des spéciations.

Afin de réduire la complexité de la première étape, à savoir l’identification des familles de gènes, nous nous sommes retreints à l’étude de 47 espèces/souches, entièrement séquencées, d’Entérobactéries (Table 7). La méthode que nous avons utilisée pour créer ces familles est celle décrite par Lerat, Daubin et Moran [140]. En résumé, une base de données contenant toutes les protéines de nos génomes a été créée. Ensuite, chaque protéine de chaque 55   

 

Genre Espèce Souche

Buchnera aphidicola

Buchnera aphidicola str. APS (Acyrthosiphon pisum) Buchnera aphidicola str. Bp (Baizongia pistaciae) Buchnera aphidicola str. Sg (Schizaphis graminum)

Escherichia coli

Escherichia coli 536 Escherichia coli APEC O1 Escherichia coli ATCC 8739 Escherichia coli CFT073 Escherichia coli E24377A Escherichia coli HS

Escherichia coli O157:H7 EDL933 Escherichia coli O157:H7 str. Sakai Escherichia coli SMS-3-5

Escherichia coli str. K12 substr. DH10B Escherichia coli str. K12 substr. W3110 Escherichia coli UTI89

Salmonella enterica

Salmonella enterica subsp. arizonae serovar 62:z4,z23:-- Salmonella enterica subsp. enterica serovar Agona str. SL483 Salmonella enterica subsp. enterica serovar Choleraesuis str. SC-B67 Salmonella enterica subsp. enterica serovar Dublin str. CT_02021853 Salmonella enterica subsp. enterica serovar Gallinarum str. 287/91 Salmonella enterica subsp. enterica serovar Heidelberg str. SL476 Salmonella enterica subsp. enterica serovar Newport str. SL254

Salmonella enterica subsp. enterica serovar Paratyphi A str. AKU_12601 Salmonella enterica subsp. enterica serovar Paratyphi A str. ATCC 9150 Salmonella enterica subsp. enterica serovar Schwarzengrund str. CVM19633 Salmonella enterica subsp. enterica serovar Typhi str. CT18

Salmonella enterica subsp. enterica serovar Typhi str. Ty2 typhimurium Salmonella typhimurium LT2

Shigella

boydii Shigella boydii CDC 3083-94 Shigella boydii Sb227 dysenteriae Shigella dysenteriae Sd197

flexneri

Shigella flexneri 2a str. 2457T Shigella flexneri 2a str. 301 Shigella flexneri 5 str. 8401 sonnei Shigella sonnei Ss046

Yersinia

enterocolitica Yersinia enterocolitica subsp. enterocolitica 8081

pestis

Yersinia pestis Angola Yersinia pestis Antiqua

Yersinia pestis biovar Microtus str. 91001 Yersinia pestis CO92

Yersinia pestis KIM Yersinia pestis Nepal516 Yersinia pestis Pestoides F pseudotuberculosis

Yersinia pseudotuberculosis IP 31758 Yersinia pseudotuberculosis IP 32953 Yersinia pseudotuberculosis PB1/+ Yersinia pseudotuberculosis YPIII

génome a été blastée par BLASTP [133-135] contre cette base de données. Le score maximal (bit-score) correspond au blast d’une protéine contre elle-même, et est considéré comme valant 1. Le score de chacun des autres hits de ce blast est comparé à ce score maximal. Si un hit obtient un score équivalent à 30% du maximum, ce hit est considéré comme homologue à la protéine de départ. Nous avons utilisé la même valeur de 30% qui est utilisée dans l’article de Lerat car les organismes que nous étudions sont, tout comme ceux ayant servi à l’étude en question, des gammaprotéobactéries très proches les unes des autres. Ainsi, nous avons identifié 9956 différentes familles de gènes.

Pour chaque famille créée, nous stockons certaines informations, et notamment la position de chaque gène dans son chromosome respectif ainsi que sa fonction. Nous allons ensuite confronter ces familles à nos bases de données de systèmes TA afin d’identifier lesquelles de nos familles correspondent à ces systèmes. Avec l’information de la position des gènes, nous pourrons rechercher quelles familles de gènes sont présentes aux alentours d’une famille donnée, et donc de comparer les environnements génomiques des systèmes TA et d’évaluer un degré de conservation de ces environnements. Grâce à la base de données Aclame, nous pourrons également vérifier l’origine épisomique des systèmes TA.

Finalement, ce genre d’étude, même à petite échelle (« seulement » 47 génomes) permettra de formuler des hypothèses (ou d’en valider) plus précises sur l’origine et l’évolution des systèmes TA chromosomiques. En effet, si certaines régions sont identifiées comme propices à l’intégration de systèmes TA, des études de ces régions pourront confirmer qu’elles sont soit juste des hotspots d’intégration, ou bien que le fait d’avoir un système TA dans ces régions constitue un avantage sélectif. De même, en comparant la phylogénie des espèces considérées, et l’évolution des contextes génomiques pour un système TA donné, la dynamique d’insertion de ces systèmes sera mieux comprise. Sont-ils apparus une seule fois au cours de l’évolution et maintenus pendant les différentes spéciations, ou alors se sont-ils intégrés à de multiples reprises ?

56