• Aucun résultat trouvé

Conception   in   silico   de   toxines   ancestrales

II. INTRODUCTION   :   LES   SYSTÈMES   TOXINE ‐ ANTITOXINE

IV.2   C ONCEPTION   IN   SILICO   ET   ANALYSE   FONCTIONNELLE   IN   VIVO   DE   TOXINES   ANCESTRALES

IV.2.2   Conception   in   silico   de   toxines   ancestrales

Les résultats précédemment obtenus permettent de redessiner la phylogénie avec d’un côté des toxines affectant la réplication, et de l’autre côté la traduction. De ce fait, trois séquences ancestrales présentant un intérêt particulier se distinguent : l’ancêtre des toxines de type ParE, celui des toxines de type RelE, et l’ancêtre commun de toutes ces séquences.

Le sous-arbre « RelE » présente une organisation clairement définie, avec plusieurs clades à l’intérieur contenant chacun une majorité de séquences ayant un domaine précis : un

clade « Txe », un clade « RelE » (COG2026) et un autre correspondant au domaine COG3041.

 

Figure 28. Reconstruction de séquences ancestrales.

Ce schéma présente un sous-arbre comprenant 3 séquences, à un site particulier où les états sont A, C et A. Aux nœuds externes de l'arbre, les probabilités sont de 0 ou de 1, étant donné que les états sont connus. Selon le modèle d'évolution utilisé, les probabilités aux nœuds internes seront par exemple les valeurs indiquées. A la racine de ce sous-arbre, la séquence ancestrale présentera, avec une probabilité de 0,79, un A à ce site particulier.

La reconstruction de séquences ancestrales est une méthode issue de l’inférence phylogénétique. En effet, certaines méthodes de phylogénie, comme la parcimonie ou le maximum de vraisemblance, nécessitent, durant le processus d’inférence phylogénétique, de déterminer ce à quoi peuvent correspondre les séquences présentes aux nœuds de l’arbre, c’est-à-dire les séquences ancestrales. Considérons la méthode que nous avons employée, le maximum de vraisemblance. La vraisemblance d’un arbre correspond à la probabilité qu’il soit issu du jeu de séquences utilisé. Pour en faire le calcul, il est nécessaire d’évaluer, à

chaque nœud de l’arbre, la probabilité de passer d’un état i à un état j, ces probabilités

dépendant bien entendu du modèle d’évolution choisi. On obtient alors, comme illustré sur la figure 28, pour chaque état possible et pour chaque site, un ensemble de probabilités de chacun de ces états. Ce sont ces probabilités qui définissent la séquence ancestrale. Partant de là, il est possible, soit durant une inférence phylogénétique, soit à partir d’un arbre donné et du jeu de séquences correspondant, d’obtenir, pour chaque nœud interne de l’arbre, une séquence ancestrale, qui elle-même est composée, à chaque site, des probabilités d’observer les différents états.

Afin de mieux comprendre l’origine évolutive des systèmes TA, nous avons voulu

tester in vivo des séquences ancestrales de toxines. Pour cela, la séquence ancestrale « relE » a

été reconstruite en plusieurs étapes. Dans un premier temps, nous avons simplement extrait de la phylogénie RelE/ParE le sous-arbre correspondant à RelE. Nous avons utilisé cette phylogénie telle quelle, avec l’ensemble des séquences concernées que nous avons alignées. Malheureusement, les résultats obtenus n’étaient pas assez fiables, en termes de probabilités : de nombreux sites de la séquence ancestrale avaient des probabilités proches pour les différents états possibles, ce qui traduit en l’occurrence un problème dans le processus bioinformatique. Ce problème venait certainement de l’alignement des séquences entre elles ; en effet, si les séquences RelE sont assez conservées, il reste tout de même des distances très grandes entre certains de leurs représentants. De ce fait, et puisque ce sous-arbre est lui-même divisé en quelques clades bien distincts, nous nous sommes penchés sur chacun d’entre eux séparément, reconstruisant chacun des ancêtres correspondant. Pour s’assurer de meilleurs résultats, chaque phylogénie nécessaire a été reconstruite. Puis au sein de la phylogénie RelE, les clades ont été remplacés par la séquence ancestrale correspondante. Toutes ces séquences ont été alignées, et la phylogénie RelE a finalement été reconstruite, et la séquence ancestrale finale inférée.

Ancestral RelE M--YKVVFNKKAVKDLKKLDKNIQKQFKEAIE-ELTENPHVAVKKLKGDLDGCYRLRLK- YP_394475 M-SYKLLIDDKVIKDLKQIDKLWQKKIIEVIKTKLVENPHLG-KPLVGNLSPYY--RLRV ZP_05972865 M-IYSIEFDERALKEWKKLDSSIRDQFKNKLK-KPQKNPHVESGRLHGELSSCYKIKLRS ZP_05974604 M--YSVKFRKDAEKEWKKLDKTIQAQFAKQLI-KRCENPHIASAKLKN-MPNCYNLKLRA YP_001165593 M-TYTVKFRDDALKEWMKLDKSIQQQFAKKLK-NCSENPHIPSAKLRG-IKDCYKIKLRA YP_002418658 M-TYTVKFRDDALKEWLKLDKSIQQQFAKKLK-KCSENPHIPSAKLRG-LKDCYKIKLRA YP_003019735 M-SYSVKFREDALKEWLKLDKTIQQQFAKKLK-KCCENPHIPSAKLRG-MKDCYKIKLRA ZP_06356359 M-SYTVKFREDALKEWQKLDKAIQQQFAKKLK-KCCENPHVPPAKLRG-IKDCYKIRLRT YP_155550 M-SYKLTFKRSAYKEWKKLNKDVQAQFKARLK-QRLESPHVPASRLKG-MDNCYKVKLRK ZP_06051930 M-TYKLSFKKSALKEWKKLGSTLQQQFKKKLI-ERLENPHVPASKLSG-VDNMYKIKLRQ ZP_04419447 MMIYKLSFKKSALKEWQKLGATLQQQFKKKLA-ERLENPHVPASKLSG-ADNVYKIKLRQ ZP_05880641 MTTYNLKFERKAQKLFSKLGEPVKSQFKEKLR-KVLENPHIEANRLYGALSGCYKIKLKQ * * : : . * ::. : :: : : ..*:: * . * :*: Ancestral RelE GDYRMIYEVDDDEIIVIVVAVGKRE--EVY---K

YP_394475 FDYRVIYEINDDEVVVIVIKIGHRK--DIY---K ZP_05972865 SGYRLVYQVIHSEIVIFVIAIGKREASTAYTAANTRLVK ZP_05974604 SGFRLIYQVIDDVLIIAVVAVGKRERSQVYSLASERL-K YP_001165593 SGFRLVYQVIDDQLIIAVVAVGKRERSDVYNLASERM-R YP_002418658 SGFRLVYQVIDDMLIIAVVAVGKREHSNVYNLASERM-R YP_003019735 SGFRLVYEVIDDVLIIAVVAVGKRERSGVYHLASERM-R ZP_06356359 SGFRLAYQVIDDTLVIAVVAVGKRERSEVYNLASERL-R YP_155550 LGYRLVYQVRDSELVVTVVALGKRDKNRVYISAQKRL-D ZP_06051930 SGYRLVYKVEDDVIVVTVLAVGKRERSDVYHKAMKRQDD ZP_04419447 SGYRLVYNVEDDVVIVTVLAVGKRERSDVYRKAMTRLDD ZP_05880641 SGYRLVYKVEDGELLVLVLAIGKRERKEAYLMAERVLDK .:*: *:: . ::: *: :*:*. *

Figure 29. Alignement multiple de la séquence ancestrale RelE avec d’autres toxines de type

RelE, obtenu grâce au programme MAFFT [55-57]. Les protéines utilisées dans cet alignement

ont été obtenues par BLASTP de la séquence ancestrale.

Figure 30. Protocole expérimental de la synthèse d’un gène.

La séquence initiale est divisée en une série d’oligomères d’une trentaine de paire de bases (petites flèches noires), dans les deux sens, les oligomères du brin direct chevauchant ceux du brin indirect sur une quinzaine de paire de bases. Les oligomères correspondant aux extrémités 5’ doivent être conçus pour pouvoir être utilisés comme des amorces pour une réaction de PCR visant à amplifier la séquence complète (flèches bleues). Un mélange des oligomères, excepté les deux amorces, est réalisé. Ils sont alors phosphorylés à leur extrémité 5’ afin de les orienter en vue d’une ligation. Les amorces sont ajoutées au mélange, et la réaction de ligation est réalisée, résultant, grâce à l’orientation des oligomères et à leur hybridation, en une séquence double brin complète. Cette séquence est alors amplifiée par PCR grâce aux amorces prévues.

Cette séquence a été analysée afin de déterminer sa similarité avec d’autres toxines

connues (figure 29). Un BLASTP [133-135] a montré qu’elle est proche de toxines RelE

présentes dans les bases de données (meilleur score : GI 122087841, 43% d’identité, 78% de

positifs, e-value de 9.10-15). De plus, une prédiction de structure secondaire réalisée grâce à la

version en ligne du programme Phyre [136] a également révélé une forte similarité avec des structures connues de RelE (meilleur score : structure « RelE-like », précision estimée 95%, e-value de 6,8.10-06).

Les 21 acides aminés du code génétique se divisent en plusieurs catégories, par leurs propriétés physico-chimiques notamment (voir Introduction). De ce fait, un acide aminé peut être muté en un autre aux propriétés proches sans nécessairement perturber la fonction de la protéine obtenue. C’est pourquoi la séquence ancestrale a été analysée afin de déterminer les sites pour lesquels plusieurs possibilités présentent des probabilités proches, et qui donnent des acides aminés différents, et de propriétés physico-chimiques éloignées. De plus, des prédictions réalisées grâce à Phyre ont permis de vérifier si ces modifications entrainent une modification de la structure ; de telles modifications semblant peu probables, nous avons décidé de ne pas considérer les modifications qui en provoquent. De cette manière, six sites ont été mis en évidence, pour lesquels deux possibilités sont à chaque fois envisageables. Afin de tenir compte de ces différentes options, nous synthétisons en ce moment au laboratoire des séquences présentant des combinaisons aléatoires de ces possibilités. De plus, l’usage des

codons a été optimisé pour une expression dans notre souche de laboratoire d’E. coli.

Afin de synthétiser au laboratoire ces séquences ancestrales, nous utilisons la méthode décrite par Belinda Chang [137] (Figure 30). Afin de tenir compte de toutes les possibilités que nous souhaitons considérer pour notre séquence ancestrale, nous avons réalisé cette réaction à partir d’un mélange contenant toutes les versions possibles des oligomères, afin que l’assemblage lors de la ligation se fasse aléatoirement (Table 6).

Chacune de ces séquences est testée, dans un premier temps, afin de savoir si elles sont toxiques ou non. Ces tests sont en cours au laboratoire. Pour le moment, les résultats sont négatifs. En effet, des tests de toxicité tels que ceux précédemment décrits sont effectués : chacune des combinaisons aléatoires correspondant à une séquence ancestrale possible est clonée au sein du plasmide pBAD33. Nous recherchons alors des séquences qui inhibent la croissance sur boîte en condition d’activation du promoteur. Pour le moment, aucune des

 

Séquence ancestrale

ATGTATAAAGTGGTGTTTAACAAAAAAGCCGTGAAAGATCTGAAA

AAACTGGATAAAAACATTCAGAAACAGTTTAAAGAAGCGATTGAA

GAACTGACCGAAAACCCGCATGTGGCGGTGAAAAAACTGAAAGG

CGATCTGGATGGCTGCTATCGCCTGCGCCTGAAAGGCGATTATCG

CATGATTTATGAAGTGGATGATGATGAAATTATTGTGATTGTGGT

GGCGGTGGGCAAACGCGAAGAAGTGTATAAATAA

Primer forward f0 CCCCTCTAGAAGGAGGGAGTAATGTATAAAGTGGTGTTTAACAAA

Oligomères forward f1 AAAGCCGTGAAAGATCTGAAAA f2 AACTGGATAAAAACATTCAGAAACAGTTTA f3 AAGAAGCGATTGAAGAACTGACCGAAAACC f4 CGCATGTGGCGGTGAAAAAACTGAAAGGCG f5 ATCTGGATGGCTGCTATCGCCTGCGCCTGA f6 AAGGCGATTATCGCATGATTTATGAAGTGG f7 ATGATGATGAAATTATTGTGATTG f8 TGGTGGCGGTGGGCAAACGCGAAGAAGTGTATAAATAA

Primer reverse r0 CCCCCTGCAGTTATTTATACACTTCTTCGCGTT

Oligomères reverse r1 TGCCCACCGCCACCACAATCACAA r2 TAATTTCATCATCATCCACTTCATAAATCAT r3 GCGATAATCGCCTTTCAGGCGCAGGCGAT r4 AGCAGCCATCCAGATCGCCTTTCAGTTTTT r5 TCACCGCCACATGCGGGTTTTCGGTCAGTT r6 CTTCAATCGCTTCTTTAAACTGTTTCTGAA r7 TGTTTTTATCCAGTTTTTTCAGATCT r8 TTCACGGCTTTTTTGTTAAACACCACTTTATACAT Oligomères alternatifs f2m AACTGGATAAAAACATTCAGAAACAGCTGA r6m CTTCAATCGCTTCTTTCAGCTGTTTCTGAA f3m AAGAAGCGATTGAAGAACTGCTGGAAAACC f4m1 CGCGCGTGGCGGTGAAAAAACTGAAAGGCG f4m2 CGCATGTGGATGTGAAAAAACTGAAAGGCG f4m12 CGCGCGTGGATGTGAAAAAACTGAAAGGCG f5m ATCTGGATGGCCTGTATCGCCTGCGCCTGA f6m AAGGCGATTATCGCCTGATTTATGAAGTGG r2m TAATTTCATCATCATCCACTTCATAAATCAG r4m ACAGGCCATCCAGATCGCCTTTCAGTTTTT r5m1 TCACATCCACATGCGGGTTTTCGGTCAGTT r5m2 TCACCGCCACGCGCGGGTTTTCGGTCAGTT r5m3 TCACCGCCACATGCGGGTTTTCCAGCAGTT r5m12 TCACATCCACGCGCGGGTTTTCGGTCAGTT r5m23 TCACCGCCACGCGCGGGTTTTCCAGCAGTT r5m13 TCACATCCACATGCGGGTTTTCCAGCAGTT r5m123 TCACATCCACGCGCGGGTTTTCCAGCAGTT

Table 6. Séquence ancestrale et oligomères utilisés pour la synthèse.

Les triplets indiqués en orange correspondent à ceux pour lesquels il existe une possibilité alternative que décrivent les oligomères alternatifs.

vérifier, dans un premier temps, si les séquences correspondent bien à ce que nous attendons et, dans un deuxième temps, si nous avons testé un échantillon bien diversifié de combinaisons aléatoires. Pour le moment, 1300 cultures de bactéries, contenant un vecteur au sein duquel une version du gène ancestral a été clonée, ont été striées sur boîte, afin de tester la toxicité de ces gènes. Au sein de ces 1300 tests, il y a des bactéries contenant un vecteur n’ayant intégré aucun insert (environ 50% d’après les contrôles effectués), car tester par PCR la présence de l’insert dans chaque colonie prendrait trop de temps. Les premiers résultats indiquent que sur 22 séquençages, 11 correspondent à des combinaisons prévues, les autres ayant subi une mutation ; parmi les séquences attendues, 11 représentent des combinaisons uniques, ce qui semble indiquer que l’association des différentes versions des oligomères se fait bien aléatoirement. Par ailleurs, le gène ancestral le plus probable a également été synthétisé. 85 candidats ont été striés, aucun ne s’est révélé toxique. Un seul a été séquencé, il présente une mutation. De manière intéressante, toutes les séquences contenant l’oligomère f5 contiennent une mutation, ce qui pourrait indiquer une toxicité lorsque cet oligomère est présent au sein de la séquence, qui serait donc contre sélectionnée lors du processus de clonage ; néanmoins cette supposition doit être vérifiée par d’autres séquençages, qui sont en cours.

L’analyse de la phylogénie RelE/ParE a révélé une dichotomie : d’un côté des toxines affectant la traduction, de l’autre la réplication. De plus, ces deux parties de la phylogénie ont une organisation différente. Les séquences « type RelE » forment quatre clades principaux, séparant des séquences présentant différents domaines de toxines, contrairement à ce que l’on observe de l’autre côté (ParE), où l’on peut distinguer beaucoup plus de clades plus petits ; de plus, en termes de domaines protéiques, rien ne distingue réellement chacun de ces clades. Ceci est finalement assez intéressant. D’une part, cela nous apprend que, vraisemblablement,

il n’y a pas eu d’apparition de relE ou parE plusieurs fois au cours de l’évolution. Une seule

séparation a vraisemblablement conduit à l’état actuel. Deuxièmement, les deux évolutions différentes de ces deux gènes pourraient résulter d’un succès évolutif plus grand des toxines affectant la traduction. En effet, la structuration du clade RelE et l’existence de différents types de protéines présentant la même activité suggèrent une évolution, voire de la sélection

s’interpréter comme un succès évolutif, puisqu’un gène a finalement donné naissance à une famille. À l’inverse, toujours en termes de domaines protéiques, le clade ParE est moins diversifié. Les protéines sont probablement contraintes par sélection négative, qui n’autorise pas de changement, et qui traduit également un succès évolutif plus modéré. Les travaux réalisés en ce moment sur la caractérisation de nouveaux systèmes TA au laboratoire vont dans ce sens. En effet, toutes les nouvelles toxines testées se sont révélées affecter la traduction. Ceci pourrait s’expliquer par le fait qu’affecter la réplication est beaucoup plus létal : des cassures double brin dans l’ADN sont beaucoup plus préjudiciables qu’une inhibition de la traduction. Dans ce deuxième cas, la croissance est d’abord ralentie par manque de protéines, et la mort cellulaire ne survient (si elle survient) qu’après une période plus longue. Ainsi il semble raisonnable de penser qu’un système extrêmement létal évolue moins vite qu’un autre moins dangereux.

L’étude de séquences ancestrales se prête parfaitement à l’analyse de l’évolution des toxines des systèmes TA. En effet, il peut paraître étonnant que des systèmes si particuliers, présentant tous la même organisation générale, mais toujours de fonction indéterminée, et qui soient si peu variés en terme de structure/activité toxique soient issus d’un certain nombre de gènes différents. Il semblerait plus simple d’imaginer une origine commune à ces gènes, même si cela ne se retrouve pas au niveau des séquences. Et donc, remonter le temps pour analyser les séquences ancestrales est peut-être le seul moyen de retrouver un quelconque lien évolutif.

Si les tests sur relE s’avèrent concluants, il sera intéressant de faire la même chose à

partir des séquences « ParE », et de l’ancêtre global de cette phylogénie. De plus, travailler à partir des autres phylogénies pourra également donner des informations intéressantes.

Songeons par exemple aux gènes mazF et ccdB. Leurs séquences sont complètement

différentes. Néanmoins, les toxines MazF et CcdB présentent des structures tertiaires similaires, malgré des activités toxiques différentes. Cela témoignerait d’une origine commune, avec une évolution contraignant la structure, mais pas la séquence. Une telle contrainte structurelle pourrait s’expliquer par l’interaction toxine-antitoxine. En effet, si une bactérie possède une toxine fonctionnelle, sa survie dépend de la présence d’une antitoxine associée, fonctionnelle également. Ceci se traduit donc par la possibilité de formation du complexe toxine-antitoxine. Ainsi il apparaît que la séquence, de l’antitoxine notamment, puisse varier à condition que la structure de la protéine permette toujours la formation du complexe. La pression de sélection devant s’exercer principalement au niveau de la structure 48   

de la protéine et moins au niveau de la séquence du gène, qui sait ce que l’étude des séquences ancestrales de ces familles pourrait révéler ?

Mais cette méthode possède également des limites, qui justement dans ce dernier cas pourraient poser problème. La reconstruction se fait sur base de séquence ; or si l’évolution n’a pas contraint les séquences elles-mêmes, il est envisageable que les séquences actuelles

n’aient plus rien de commun avec l’ancêtre. Ainsi par exemple, l’ancêtre du gène mazF

correspondrait à un moment plus récent que celui recherché, et les conclusions tirées de l’étude de cette séquence pourraient être inexactes.

Il apparait que l’étude de l’évolution des grandes familles de systèmes TA soit un problème complexe, en raison notamment de la diversité des séquences. Mais les analyses phylogénétiques que j’ai dû effectuer m’ont appris qu’à une plus petite échelle de temps d’évolution, on observe des séquences bien conservées. De ce fait, des analyses poussées peuvent être faites pour tenter de mieux comprendre l’évolution des systèmes TA. En effet, comprendre quelles forces dirigent l’évolution d’un gène peut permettre de renseigner sur sa fonction, et dans le cas des systèmes TA chromosomiques, nous avons vu que cette dernière question est loin d’avoir une réponse. Nous avons réalisé au laboratoire une étude portant sur

un système particulier, ccdO157. Les résultats de ces travaux sont présentés dans la partie