• Aucun résultat trouvé

D ÉCOUVERTE   AUTOMATIQUE   ET   ANALYSE   PHYLOGÉNÉTIQUE   DE   NOUVEAUX   SYSTÈMES   TA

II. INTRODUCTION   :   LES   SYSTÈMES   TOXINE ‐ ANTITOXINE

IV.1   D ÉCOUVERTE   AUTOMATIQUE   ET   ANALYSE   PHYLOGÉNÉTIQUE   DE   NOUVEAUX   SYSTÈMES   TA

NOUVEAUX SYSTÈMES

TA

Si la fonction des systèmes TA a été longuement débattue, très peu de choses sont connues concernant leur évolution. Plusieurs études ont déjà permis de faire quelques

constats. Tout d’abord, les gènes parE et relE présentent une certaine similarité de séquence.

Malgré cela, les protéines codées ont des cibles cellulaires différentes [108]. Il a donc été formulé l’hypothèse que ces deux gènes sont homologues. Par ailleurs, CcdB affecte le même processus que ParE, la réplication, malgré une structure tertiaire (prédite comme étant proche de celle de RelE) très différente.

Ensuite, les toxines MazF et CcdB présentent des structures similaires, malgré des cibles différentes, et des séquences différentes [104, 105]. Ceci pourrait également indiquer une origine commune de ces deux gènes, où la pression évolutive se serait portée sur la structure des protéines et non sur leur séquence [106].

Enfin, le gène vapC présente un domaine PIN (PilT-N terminal) qui est généralement

impliqué dans la dégradation de l’ARN [108]. Ce domaine se retrouve dans de nombreuses protéines, procaryotes mais aussi eucaryotes (ce qui pourrait suggérer une éventuelle présence d’homologues des systèmes TA chez les eucaryotes).

Dans cet article, les auteurs formulent une hypothèse concernant l’origine et l’évolution des systèmes TA selon laquelle les différentes « super-familles » seraient apparues indépendamment, à partir d’un pool restreint de gènes, remettant en cause l’hypothèse d’une origine unique. Néanmoins, rien n’empêche de penser qu’une évolution rapide ait mené à ce que l’on observe aujourd’hui quant à la diversité des systèmes TA. Cette rapidité peut facilement s’expliquer par exemple par une compétition entre systèmes plasmidiques et chromosomiques, telle que décrite dans le modèle d’anti-addiction, et/ou par l’adaptation de la toxine à l’évolution de sa cible.

Afin d’apporter des éléments de réponse, nous avons effectué différentes analyses, notamment phylogénétiques, dont les résultats ont été publiés ([130], l’intégralité du texte est présente plus loin). Dans un premier temps, nous avons décidé de réaliser une analyse

37   

phylogénétique à grande échelle afin d’avoir un cliché le plus complet possible de l’évolution des systèmes TA. Pour cela, nous avons dû travailler à partir d’un maximum de séquences. Malheureusement, au moment où ces travaux ont commencé, les systèmes TA étaient très mal annotés dans les bases de données publiques. Ces annotations ne donnant donc pas une information fiable, nous avons mis au point notre propre système de détection de systèmes TA, que j’ai implémenté dans un programme. Nous nous sommes fondés sur plusieurs critères : la similarité de séquence avec des toxines validées expérimentalement, la longueur des séquences de toxines putatives ainsi obtenues, la présence d’une ORF (Open Reading Frame, cadre de lecture ouvert) en amont des toxines putatives, la distance intergénique entre les deux, et la taille de cette ORF. Ces critères ont volontairement été définis en accord avec ce qui était connu des systèmes TA au moment de l’étude, afin d’être suffisamment rigoureux et d’éviter le moindre faux positif. En effet, le but de cette recherche était d’obtenir des jeux de données cohérents (notamment en termes de distance évolutive et d’homologie entre les séquences) afin de pouvoir réaliser des analyses phylogénétiques. Ce programme, écrit en

Java et baptisé TAQ, a été lancé cinq fois, à partir de cinq toxines caractérisées appartenant à

cinq familles différentes. Il en a résulté plus de 1500 systèmes TA putatifs.

Partant du constat que nous retrouvons plus de similarité chez les séquences de toxines, et que celles-ci sont de manière générale mieux décrites, j’ai réalisé des analyses phylogénétiques à partir des séquences des toxines. Néanmoins, la petite taille, le nombre élevé, et la diversité de celles-ci m’ont poussé à employer des méthodes complexes d’inférence, basées sur le critère de maximum de vraisemblance. J’ai tout d’abord utilisé l’approche de super-arbres, décrite en Introduction. Puis, de manière indépendante, j’ai utilisé une méthode originale fondée sur l’utilisation de séquences ancestrales. Dans un premier temps j’ai reconstruit, avec des méthodes traditionnelles, les phylogénies de sous-groupes des

séquences de toxines ; ces sous-groupes ont été crées selon différents critères,

particulièrement selon les distances génétiques entre les séquences. Pour chacun de ces sous-groupes, la séquence ancestrale la plus probable à été inférée ; ces séquences ancestrales ont été alignées, et leur phylogénie construite ; l’arbre final a été obtenu par assemblage de la phylogénie des séquences ancestrales, avec celles des sous-groupes. Ces deux techniques combinées m’ont permis de dresser des relations phylogénétiques entre les séquences obtenues par notre recherche bioinformatique.

l’approche bioinformatique, nous ont appris plusieurs choses. Premièrement, nous avons pu confirmer l’homologie entre RelE et ParE, qui se retrouvent au sein de la même phylogénie. Par ailleurs, pour ce qui est des phylogénies de MazF et Doc, toutes les séquences non annotées dans les bases de données se retrouvent positionnées dans des clades voisins, proches de la racine de l’arbre, suggérant que ces gènes sont plus éloignés des gènes « canoniques » généralement étudiés ; ceci tend à prouver l’efficacité de notre recherche de nouveaux systèmes, conçue pour retrouver, de proche en proche, des séquences distantes de celle initiant la procédure. J’ai donc cherché à pousser notre programme dans ses limites, en relâchant sensiblement les contraintes sur les critères de détection, afin d’essayer de trouver

un lien, même faible, entre les toxines de différentes familles. Partant de parE, 4 toxines de

type ζ, ainsi qu’une séquence contenant un domaine PIN (tout comme les toxines VapC) ont

été découvertes. Finalement, j’ai également entré 303 de nos toxines dans le programme RASTA-Bacteria [131] afin de déterminer le domaine protéique de toxine le plus proche. Ce programme, accessible en ligne, permet, au sein d’une séquence nucléotidique, de prédire la présence de toxines ou d’antitoxines grâce à différents critères dont la présence de domaines protéiques obtenus à partir de données expérimentales. De manière surprenante, 7 de nos toxines sensées appartenir à la famille RelE/ParE ont donné comme résultat des domaines

Doc, PemK, CcdB, VapC et PIN, bien qu’avec de faibles scores. Ces données pourraient

constituer le premier lien objectif entre des familles de toxines supposées distinctes.

Finalement, afin de permettre à chacun de consulter librement et aisément les résultats

des analyses phylogénétiques, j’ai développé une application web, baptisée TIQ. Grâce à elle,

il est facile de parcourir les différents arbres décrits (notamment via une fonction de zoom), de consulter différentes informations quant à chacune des séquences présentes, ainsi que de faire des recherches parmi elles en utilisant des opérateurs logiques.

Conclusion

Au cours de cette étude, j’ai donc mis au point un programme qui a permis la découverte de plus de 1500 systèmes TA. J’ai réalisé 5 analyses phylogénétiques complexes grâce à des moyens originaux, et rendu ces résultats disponibles via une application web.

S’il apparaît que nous n’avons pas été en mesure de relier, d’un point de vue évolutif, les différentes familles de toxines de manière concrète, ceci peut toujours s’expliquer par la rapidité de leur évolution d’une part, et par le fait que la pression de sélection semble parfois s’appliquer plus à la structure qu’à la séquence (MazF et CcdB). Ne travaillant qu’à partir de 39   

séquences, aucune relation de parenté ne pourrait ainsi être révélée. Néanmoins certaines de nos données, malgré de faibles valeurs de confiance, vont dans le sens de notre hypothèse.

Toutefois il resterait possible de « remonter le temps ». Pour ce faire, grâce aux phylogénies obtenues, la reconstruction de séquences ancestrales pourrait peut-être révéler une certaine similarité entre les ancêtres de familles de toxines actuelles. Dans cette optique, nous avons commencé à analyser les séquences ancestrales des toxines RelE et ParE.

BioMedCentral

Page 1 of 17

(page number not for citation purposes)

BMC Microbiology

Open Access

Research article

Automated discovery and phylogenetic analysis of new

toxin-antitoxin systems

Julien Guglielmini, Cédric Szpirer and Michel C Milinkovitch*

Address: Laboratory of Evolutionary Genetics, Institute for Molecular Biology & Medicine, Université Libre de Bruxelles (ULB), 12 rue Jeener & Brachet, 6041 Gosselies, Belgium

Email: Julien Guglielmini - jgugliel@ulb.ac.be; Cédric Szpirer - cyszpirer@delphigenetics.com; Michel C Milinkovitch* - mcmilink@ulb.ac.be * Corresponding author

Abstract

Background: Although often viewed as elements "at the service of" bacteria, plasmids exhibit replication and maintenance mechanisms that make them purely "selfish DNA" candidates. Toxin-antitoxin (TA) systems are a spectacular example of such mechanisms: a gene coding for a cytotoxic stable protein is preceded by a gene coding for an unstable antitoxin. The toxin being more stable than the antitoxin, absence of the operon causes a reduction of the amount of the latter relative to the amount of the former. Thus, a cell exhibiting a TA system on a plasmid is 'condemned' either not to loose it or to die.

Results: Different TA systems have been described and classified in several families, according to similarity and functional parameters. However, given the small size and large divergence among TA system sequences, it is likely that many TA systems are not annotated as such in the rapidly accumulating NCBI database. To detect these putative TA systems, we developed an algorithm that searches public databases on the basis of predefined similarity and TA-specific structural constraints. This approach, using a single starting query sequence for each of the ParE, Doc, and VapC families, and two starting sequences for the MazF/CcdB family, identified over 1,500 putative TA systems. These groups of sequences were analyzed phylogenetically for a better classification and understanding of TA systems evolution.

Conclusion: The phylogenetic distributions of the newly uncovered TA systems are very different within the investigated families. The resulting phylogenetic trees are available for browsing and searching through a java program available at http://ueg.ulb.ac.be/tiq/.

Background

Plasmids are autonomously-replicating extra-chromo-somal circular DNA molecules usually nonessential for cell survival under non-selective conditions and widely distributed in prokaryotic cells. Because plasmids some-times bear genes that provide bacteria with functions (such as virulence, resistance to drugs, the ability to exploit a specific source of carbon) that can be adaptive in

variable environments, they are often viewed as elements "at the service of" a (intra- or inter-specific) pool of bacte-ria, thus allowing the long-term survival of these lines or species. However, their ability to autonomously replicate makes plasmids possible purely "selfish DNA" candi-dates. Indeed, some plasmids exhibit features that seem to be strictly restricted to mechanisms related to their main-tenance in cell lines (through replication and partitioning

Published: 25 June 2008

BMC Microbiology 2008, 8:104 doi:10.1186/1471-2180-8-104

Received: 7 September 2007 Accepted: 25 June 2008 This article is available from: http://www.biomedcentral.com/1471-2180/8/104

© 2008 Guglielmini et al; licensee BioMed Central Ltd.

This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/2.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

BMC Microbiology 2008, 8:104 http://www.biomedcentral.com/1471-2180/8/104

mechanisms) or dispersal across cell lines or species (through conjugation mechanisms).

Poison-antidote, or Toxin-antitoxin (TA) systems, were first discovered on plasmids [1] and associated to plas-mid-maintenance mechanisms. Later, several TA systems were identified on chromosomes [2-5] and interpreted as bacterial programmed cell death or stress response loci [2,6,7]. Thought to occur in many Prokaryotic species [8], most TA systems are organized as follows: a gene coding for a cytotoxic and stable protein is preceded by a DNA sequence coding for an unstable antitoxin (or "antidote") protein or antisense RNA that can neutralize the toxic pro-tein or its corresponding mRNA, respectively. The insta-bility of the antitoxin protein is due to specific degradation by a protease [9,10]. Most systems investi-gated to date (i) involve a proteic (rather than RNA) anti-toxin that efficiently sequesters the anti-toxin, and (ii) exhibit a tandem organization with a single promoter and a small distance (about 20–30 bases), or even an overlap (about 20–30 bases), between the antitoxin and toxin genes (Fig. 1a). The transcription of the system is auto-regulated by the binding of the antitoxin (and/or the [antitoxin+toxin]

complex) to the promoter region of the operon [11,12]. We hypothesize here that, despite the instability of the antitoxin, cells containing such an operon survive proba-bly because the frequency of translation termination is increased after the stop-codon of the antitoxin (for exam-ple due to the overlap and/or frame-shift between the two genes) making the antitoxin protein more abundant than the toxin protein. Once a bacteria has received one or more copies of the system (through cell division or hori-zontal transfer), that cell is 'condemned' either not to loose the operon or to die (Fig. 1b) because absence of the operon would cause a reduction in the amount of anti-toxin relative to the amount of anti-toxin through degradation of the former (that cannot be replenished) prompting, in turn, the poison to exert its toxicity on an essential intrac-ellular host target, such as the gyrase or RNA translation mechanisms [6,13,14], eventually causing cell death or cell-cycle arrest. Note that TA systems have been domesti-cated as biotechnological tools [15] for facilitating DNA engineering and protein production without the use of antibiotics [16].

(a) Organization of a canonical TA system (after [49])

Figure 1

(a) Organization of a canonical TA system (after [49]). (b) In the presence of the operon (mother cell and right daughter cell), the antitoxin (blue) is produced together with the poison (red) and the former neutralizes the latter; the transcription of the system is auto-regulated by the binding of the antitoxin (and/or the [antitoxin+toxin] complex) to the promoter region (yel-low) of the operon. In the absence of the TA operon, the unstable antitoxin is degraded by a protease (green) and the poison

BMC Microbiology 2008, 8:104 http://www.biomedcentral.com/1471-2180/8/104

Page 3 of 17

(page number not for citation purposes)

Different TA systems have been described and classified in several families, according to the target of the toxin and/ or the nature of the protease that degrades the antitoxin [17]. Recently, about 150 toxin genes have been separated into 4 groups on the basis of sequence or structure simi-larities and gene neighborhood criteria [18]: the

"fami-lies" relE/parE, mazF/kid/ccdB, and Doc, as well as the

family of proteins sharing a "PIN-domain". On the basis of phylogenetic analyses, these families have been sug-gested to be non-homologous [18], i.e., the TA systems would have appeared at least four times independently during evolution.

As known TA systems, identified on different plasmids, phages, and prokaryotic (including archaeal) genomes are all very small and potentially very divergent (TA systems originated from one or a few very old radiations), we hypothesize that many TA systems might not be anno-tated as such in the NCBI database. However, given that

(i) TA-bearing plasmids with broad host range can be

found in multiple bacterial species, and (ii) most systems exhibit the structural organization outlined above, we pre-dicted that many more descendent systems than previ-ously described should be detected across a wide range of prokaryotic genomes and plasmids. To detect these puta-tive TA systems, we developed an algorithm, implemented into a computer program, TAQ V1.0 (for "TA Query"), that searches public databases on the basis of predefined sim-ilarity and TA-specific structural constraints. Our algo-rithm is complementary to that implemented in RASTA-Bacteria [19]. The latter first identifies sequences exhibit-ing conserved putative TA domains and then uses struc-tural constrains to further restrict and score the resulting set of putative TA systems. Our approach, using a single starting query sequence for each of the ParE, Doc, and PIN families and two starting sequences for the MazF/CcdB family identified over 1,500 putative TA systems, of which many were unknown. These five groups of sequences are analyzed phylogenetically for a better classification and understanding of TA systems evolution.

Results and Discussion

In order to produce a single set of homologous sequences per family, we performed one TAQ V1.0 search for each family of TA systems starting with a single poison (the ParE toxin from the E. Coli RK2 plasmid for the relE/parE family [20]; the MazF toxin from the delivery vector

pIEF16S for the mazF/kid/ccdB family, [21]; the VapC toxin

from Leptospira interrogans [serovar Lai str. 56601] for the PIN-domain family [18,22], and the Doc toxin from the Enterobacteria phage P1 for the Doc family, [23]). Since we did not find any CcdB sequence during the search using the MazF toxin as query (despite that CcdB and MazF are thought to belong to the same family), we also run one search using CcdB from the F plasmid as the start-ing sequence. In each case, the program TAQ V1.0 con-verged after 1 or 2 days of computation on a standard Intel Pentium 4 computer (2.0 GHz) and generated the results summarized in Table 1.

Although induced expression of the bacterial RelE toxin in yeast and in human cell lines indicated the broad poten-tial activity of TA systems [24,25], none of the sequences that met all the sequence similarity and structural criteria defined in our algorithm are found in eukaryotic genomes. On the other hand, other categories include eukaryotic sequences: e.g., Tetrahymena thermophyla

(Alve-olata), Debaryomyces hansenii (Fungi), and Dictyostelium

discoideum (Mycetozoa) in the ParE "Bad poisons" category, and Cryptosporidium hominis (Alveolata) in the ParE "with-out antidote poisons" category; Aspergillus fumigatus

(Asco-mycota), Coccidioides immitis (Ascomycota) Macaca

mulatta (Mammalia), Drosophila melanogaster (Insecta), Mus musculus (Mammalia), Homo sapiens

(Mamma-lia),Gallus gallus (Aves), Rattus norvegicus (Mammalia),

Pan troglodytes (Mammalia), Canis lupus (Mammalia), Bos taurus (Mammalia) in the Doc "Bad poisons" category. Some of these sequences contain a domain (Fic domain in the Drosophila and Mus sequences; HYPE domain in other mammals and the chicken) that has been suggested to be homologous to the Doc domain [18].

Table 1: Taxonomic distribution of the in-silico inferred toxins identified for the 5 TAQ runs.

Query sequences In silico inferred toxins Total in silico inferred toxins Bad Poisons Without antinodes poisons Bacteria Archaea Viruses Artificial & Plasmids

ParE 665 38 0 7 710 102 387

MazF 205 14 1 7 216 88 196

Doc 83 1 2 0 86 59 43

CcdB 20 0 0 2 22 67 85

VapC 717 143 0 0 860 121 87

Values represent the number of sequences in each category. The " in silico inferred toxins" are sequences that meet all the constraints implemented in TAQ whereas the "bad poisons" do not match the length constraints and the "without antidote poisons" meet the size constraints but do not exhibit an ORF of constrained size and position (see text for details). "Artificial" sequences are engineered sequences such as cloning vectors.

BMC Microbiology 2008, 8:104 http://www.biomedcentral.com/1471-2180/8/104

Figure 2a shows the assignment of the ParE "in-silico inferred toxins" to functional categories. Note that this clas-sification is simply based on the annotation of the corre-sponding sequences as provided by the NCBI database. The bulk of the sequences uncovered by our algorithm are annotated by the NCBI as "ParE", "RelE", "unknown", and "toxins". Note that annotation of the NCBI database is improving fast: the "unknown" category moved from the most frequent to the third most frequent category in 7 months (Fig. 2a&2b). Similarly, the erroneous annotation of 2 sequences as "Doc" and "KidB" disappeared in the most recent run. We suggest that, without accurate and extensive functional data (for example on the exact mech-anism by which each poison exerts its action), a phyloge-netic approach might generate the most appropriate and objective classification (e.g., because it is likely to be rea-sonably stable to the addition of new sequences). Note that one preliminary run of our program TAQ V1.0 with

low BLAST stringency (E-value of 1 instead of 0.1)

col-lected about 30 sequences annotated as belonging to the "merR" gene family, whose members are involved in metallic-ion metabolism [26]. Visual inspection of the run log files indicates that the low stringency of the