• Aucun résultat trouvé

Conception in silico de toxines ancestrales

Dans le document Disponible à / Available at permalink : (Page 91-100)

IV. l D écouverte automatique et analyse phylogénétique de nouveaux systèmes TA

IV.2 C onception in silico et analyse fonctionnelle in vivo de toxines ancestrales

IV.2.2 Conception in silico de toxines ancestrales

Les résultats précédemment obtenus permettent de redessiner la phylogénie avec d’un côté des toxines affectant la réplication, et de l’autre côté la traduction. De ce fait, trois séquences ancestrales présentant un intérêt particulier se distinguent : l’ancêtre des toxines de type ParE, celui des toxines de type RelE, et l’ancêtre commun de toutes ces séquences.

Le sous-arbre « RelE » présente une organisation clairement définie, avec plusieurs clades à l’intérieur contenant chacun une majorité de séquences ayant un domaine précis : un clade « Txe », un clade « RelE » (COG2026) et un autre correspondant au domaine COG3041. Ce sous-arbre présentant donc une structure claire, nous avons commencé par celui-ci (voir figure 25).

A C

1 O 0 0 0 1 O O

A c G T A C G T

Figure 28. Reconstruction de séquences ancestrales.

Ce schéma présente un sous-arbre comprenant 3 séquences, à un site particulier où les états sont A, C et A. Aux nœuds externes de l'arbre, les probabilités sont de 0 ou de 1, étant donné que les états sont connus. Selon le modèle d'évolution utilisé, les probabilités aux nœuds internes seront par exemple les valeurs indiquées. A la racine de ce sous-arbre, la séquence ancestrale présentera, avec une probabilité de 0,79, un A à ce site particulier.

La reconstruction de séquences ancestrales est une méthode issue de l’inférence phylogénétique. En effet, certaines méthodes de phylogénie, comme la parcimonie ou le maximum de vraisemblance, nécessitent, durant le processus d’inférence phylogénétique, de déterminer ce à quoi peuvent correspondre les séquences présentes aux nœuds de l’arbre, c’est-à-dire les séquences ancestrales. Considérons la méthode que nous avons employée, le maximum de vraisemblance. La vraisemblance d’un arbre correspond à la probabilité qu’il soit issu du jeu de séquences utilisé. Pour en faire le calcul, il est nécessaire d’évaluer, à

chaque nœud de l’arbre, la probabilité de passer d’un état i à un état j, ces probabilités

dépendant bien entendu du modèle d’évolution choisi. On obtient alors, comme illustré sur la figure 28, pour chaque état possible et pour chaque site, un ensemble de probabilités de chacun de ces états. Ce sont ces probabilités qui définissent la séquence ancestrale. Partant de là, il est possible, soit durant une inférence phylogénétique, soit à partir d’un arbre donné et du jeu de séquences correspondant, d’obtenir, pour chaque nœud interne de l’arbre, une séquence ancestrale, qui elle-même est composée, à chaque site, des probabilités d’observer les différents états.

Afin de mieux comprendre l’origine évolutive des systèmes TA, nous avons voulu

tester in vivo des séquences ancestrales de toxines. Pour cela, la séquence ancestrale « relE » a

été reconstruite en plusieurs étapes. Dans un premier temps, nous avons simplement extrait de la phylogénie RelE/ParE le sous-arbre correspondant à RelE. Nous avons utilisé cette phylogénie telle quelle, avec l’ensemble des séquences concernées que nous avons alignées. Malheureusement, les résultats obtenus n’étaient pas assez fiables, en termes de probabilités : de nombreux sites de la séquence ancestrale avaient des probabilités proches pour les différents états possibles, ce qui traduit en l’occurrence un problème dans le processus bioinformatique. Ce problème venait certainement de l’alignement des séquences entre elles ; en effet, si les séquences RelE sont assez eonservées, il reste tout de même des distances très grandes entre certains de leurs représentants. De ce fait, et puisque ce sous-arbre est lui-même divisé en quelques clades bien distincts, nous nous sommes penchés sur chacun d’entre eux séparément, reconstruisant chacun des ancêtres correspondant. Pour s’assurer de meilleurs résultats, chaque phylogénie nécessaire a été reconstruite. Puis au sein de la phylogénie RelE, les clades ont été remplacés par la séquence aneestrale correspondante. Toutes ces séquences ont été alignées, et la phylogénie RelE a finalement été reconstruite, et la séquence ancestrale finale inférée.

Ancestral RelE YP_394475 ZP_05972865 ZP_05974604 YP_001165593 YP_002418658 YP_003019735 ZP_06356359 YP_155550 ZP_06051930 ZP_04419447 ZP 05880641 M—YKWFNKKAVKDLKKLDKNIQKQFKEAIE-ELTENPHVAVKKLKGDLDGCYRLRLK- M-SYKLLIDDKVIKDLKQIDKLWQKKIIEVIKTKLVENPHLG-KPLVGNLSPYY—RLRV M-IYSIEFDERALKEWKKLDSSIRDQFKNKLK-KPQKNPHVESGRLHGELSSCYKIKLRS M—YSVKFRKDAEKEWKKLDKTIQAQFAKQLI-KRCENPHIASAKLKN-MPNCYNLKLRA M-TYTVKFRDDALKEWMKLDKSIQQQFAKKLK-NCSENPHIPSAKLRG-IKDCYKIKLRA M-TYTVKFRDDALKEWLKLDKSIQQQFAKKLK-KCSENPHIPSAKLRG-LKDCYKIKLRA M-SYSVKFREDALKEWLKLDKTIQQQFAKKLK-KCCENPHIPSAKLRG-MKDCYKIKLRA M-SYTVKFREDALKEWQKLDKAIQQQFAKKLK-KCCENPHVPPAKLRG-IKDCYKIRLRT M-SYKLTFKRSAYKEWKKLNKDVQAQFKARLK-QRLESPHVPASRLKG-MDNCYKVKLRK M-TYKLSFKKSALKEWKKLGSTLQQQFKKKLI-ERLENPHVPASKLSG-VDNMYKIKLRQ MMIYKLSFKKSALKEWQKLGATLQQQFKKKLA-ERLENPHVPASKLSG-ADNVYKIKLRQ MTTYNLKFERKAQKLFSKLGEPVKSQFKEKLR-KVLENPHIEANRLYGALSGCYKIKLKQ ★ *«. îî, !«* ! l •»*!! *. * »*• Ancestral RelE YP_394475 ZP_05972865 ZP_05974604 YP_001165593 YP_002418658 YP_003019735 ZP_06356359 YP_155550 ZP_06051930 ZP_04419447 ZP 05880641 GDYRMIYEVDDDEIIVIWAVGKRE—EVY--- K FDYRVIYEINDDEVWIVIKIGHRK—DIY--- K SGYRLVYQVIHSEIVIFVIAIGKREASTAYTAANTRLVK SGFRLIYQVIDDVLIIAWAVGKRERSQVYSLASERL-K SGFRLVYQVIDDQLIIAWAVGKRERSDVYNLASERM-R SGFRLVYQVIDDMLIIAWAVGKREHSNVYNLASERM-R SGFRLVYEVIDDVLIIAWAVGKRERSGVYHLASERM-R SGFRLAYQVIDDTLVIAWAVGKRERSEVYNLASERL-R LGYRLVYQVRDSELWTWALGKRDKNRVYISAQKRL-D SGYRLVYKVEDDVIWTVLAVGKRERSDVYHtCAMKRQDD SGYRLVYNVEDDWIVTVLAVGKRERSDVYRKAMTRLDD SGYRLVYKVEDGELLVLVLAIGKRERKEAYLMAERVLDK » "k • "k • • k

Figure 29. Alignement multiple de la séquence ancestrale RelE avec d’autres toxines de type

RelE, obtenu grâce au programme mafft [55-57]. Les protéines utilisées dans cet alignement

ont été obtenues par BLASTP de la séquence ancestrale.

Mélange d’oligos recouvrant tout le gène exceptées les deux amorces 5

+2 +3 +4 +5 +6 +7 ♦-M—m4 ■< I ■<— -7 -6 -5 -4i i -3 -2 '-I-' *-1-* 30-35 15-18 bases bases I Phosphorylation, ^ puis addition des

amorces

■üX-i. 1.r ..M,

•g g s ir

Clonage

Amplihcation par PCR en utilisant les deux amorces

Ligation

Figure 30. Protocole expérimental de la synthèse d’un gène.

La séquence initiale est divisée en une série d’oligomères d’une trentaine de paire de bases (petites flèches noires), dans les deux sens, les oligomères du brin direct chevauchant ceux du brin indirect sur une quinzaine de paire de bases. Les oligomères correspondant aux extrémités 5’ doivent être conçus pour pouvoir être utilisés comme des amorces pour une réaction de PCR visant à amplifier la séquence complète (flèches bleues). Un mélange des oligomères, excepté les deux amorces, est réalisé. Ils sont alors phosphorylés à leur extrémité 5’ afin de les orienter en vue d’une ligation. Les amorces sont ajoutées au mélange, et la réaction de ligation est réalisée, résultant, grâce à l’orientation des oligomères et à leur hybridation, en une séquence double brin complète. Cette séquence est alors amplifiée par PCR grâce aux amorces prévues.

Cette séquence a été analysée afin de déterminer sa similarité avec d’autres toxines

connues (figure 29). Un blastp [133-135] a montré qu’elle est proche de toxines RelE

présentes dans les bases de données (meilleur score : GI 122087841, 43% d’identité, 78% de positifs, e-value de 9.10'*^). De plus, une prédiction de structure secondaire réalisée grâce à la version en ligne du programme Phyre [136] a également révélé une forte similarité avec des structures connues de RelE (meilleur score : structure « RelE-like », précision estimée 95%, e-value de 6,8.10'°®).

Les 21 acides aminés du code génétique se divisent en plusieurs catégories, par leurs propriétés physico-chimiques notamment (voir Introduction). De ce fait, un acide aminé peut être muté en un autre aux propriétés proches sans nécessairement perturber la fonction de la protéine obtenue. C’est pourquoi la séquence ancestrale a été analysée afin de déterminer les sites pour lesquels plusieurs possibilités présentent des probabilités proches, et qui dorment des acides aminés différents, et de propriétés physico-chimiques éloignées. De plus, des prédictions réalisées grâce à Phyre ont permis de vérifier si ces modifications entrainent une modification de la structure ; de telles modifications semblant peu probables, nous avons décidé de ne pas considérer les modifications qui en provoquent. De cette manière, six sites ont été mis en évidence, pour lesquels deux possibilités sont à chaque fois envisageables. Afin de tenir compte de ces différentes options, nous synthétisons en ce moment au laboratoire des séquences présentant des combinaisons aléatoires de ces possibilités. De plus, l’usage des

codons a été optimisé pour une expression dans notre souche de laboratoire d’E. coli.

Afin de synthétiser au laboratoire ces séquences ancestrales, nous utilisons la méthode décrite par Belinda Chang [137] (Figure 30). Afin de tenir compte de toutes les possibilités que nous souhaitons considérer pour notre séquence ancestrale, nous avons réalisé cette réaction à partir d’un mélange contenant toutes les versions possibles des oligomères, afin que

l’assemblage lors de la ligation se fasse aléatoirement (Table 6).

Chacune de ces séquences est testée, dans un premier temps, afin de savoir si elles sont toxiques ou non. Ces tests sont en cours au laboratoire. Pour le moment, les résultats sont négatifs. En effet, des tests de toxicité tels que ceux précédemment décrits sont effectués : chacune des combinaisons aléatoires correspondant à une séquence ancestrale possible est clonée au sein du plasmide pBAD33. Nous recherchons alors des séquences qui inhibent la croissance sur boîte en condition d’activation du promoteur. Pour le moment, aucune des séquences testées n’a d’effet significatif Celles-ci sont en cours de séquençage afin de

Séquence ancestrale

ATGTATAAAGTGGTGTTTAACAAAAAAGCCGTGAAAGATCTGAAA AAACTGGATAAAAACATTCAGAAACAG'nTAAAGAAGCGATTGAA GAACTGACC GAAAACCCGi. ATGTGGCCÎGTGAAAAAACTGAAAGG CGATCTGGATGGC1GCTATCGCCTGCGCCTGAAAGGCGATTATCG CAKtATTTATGAAGTGGATGATGATGAAATTATTGTGATTGTGGT GGCGGTGGGCAAACGCGAAGAAGTGTATAAATAA

Primer fonvard fo CCCCTCTAGAAGGAGGGAGTAATGTATAAAGTGGTGTTTAACAAA

fl AAAGCCGTGAAAGATCTGAAAA

fa AACTGGATAAAAACATTCAGAAACAGTTTA

fs AAGAAGCGATTGAAGAACTGACCGAAAACC

Oligomères forward f4 CGCATGTGGCGGTGAAAAAACTGAAAGGCG

fs ATCTGGATGGCTGCTATCGCCTGCGCCTGA

f6 AAGGCGATTATCGCATGATTTATGAAGTGG

f7 ATGATGATGAAATTATTGTGATTG

fS TGGTGGCGGTGGGCAAACGCGAAGAAGTGTATAAATAA

Primer reverse ro CCCCCTGCAGTTAnTATACACTTCTTCGCGTT

ri TGCCCACCGCCACCACAATCACAA rz TAATTTCATCATCATCCACrrCATAAATCAT 1-3 GCGATAATCGCCTTTCAGGCGCAGGCGAT r4 AGCAGCCATCCAGATCGCCirrCAGTTTTT Oligomères reverse rS TCACCGCCACATGCGGGTTTTCGGTCAGTT r6 CirCAATCGCTTCrrTTAAACTGTTTCTGAA r? TGTTTTTATCCAGTTmTCAGATCT r8 TTCACGGCmTTTGTTAAACACCACITTATACAT fam AACTGGATAAAAACATTCAGAAACAGCTGA r6m CirCAATCGCTrCnTCAGCTGTTTCTGAA fsm AAGAAGCGATTGAAGAACTGCTGGAAAACC f4mi CGCGCGTGGCGGTGAAAAAACTGAAAGGCG f4ma CGCATGTGGATGTGAAAAAACTGAAAGGCG f4mia CGCGCGTGGATGTGAAAAAACTGAAAGGCG fsm ATCTGGATGGCCTGTATCGCCTGCGCCTGA f6m AAGGCGATTATCGCCTGAnTATGAAGTGG

Oligomères alternatifs ram TAATTTCATCATCATCCACITCATAAATCAG

r4m ACAGGCCATCCAGATCGCCTTTCAGTTTTT rsmi TCACATCCACATGCGGGTTTTCGGTCAGTT rsma TCACCGCCACGCGCGGGTTTTCGGTCAGTT rsms TCACCGCCACATGCGGGTTTTCCAGCAGTT rsmia TCACATCCACGCGCGGGTnTCGGTCAGTT rsmas TCACCGCCACGCGCGGGTTTrCCAGCAGTT rsmi3 TCACATCCACATGCGGGTTTTCCAGCAGTT rsmias TCACATCCACGCGCGGGTnTCCAGCAGTr

Table 6. Séquence ancestrale et oligomères utilisés pour la synthèse.

Les triplets indiqués en orange correspondent à ceux pour lesquels il existe une possibilité alternative que décrivent les oligomères alternatifs.

vérifier, dans un premier temps, si les séquences correspondent bien à ce que nous attendons et, dans un deuxième temps, si nous avons testé un échantillon bien diversifié de combinaisons aléatoires. Pour le moment, 1300 cultures de bactéries, contenant un vecteur au sein duquel une version du gène ancestral a été clonée, ont été striées sur boîte, afin de tester la toxicité de ces gènes. Au sein de ces 1300 tests, il y a des bactéries contenant un vecteur n’ayant intégré aucun insert (environ 50% d’après les contrôles effectués), car tester par PCR la présence de l’insert dans chaque colonie prendrait trop de temps. Les premiers résultats

indiquent que sur 22 séquençages, 11 correspondent à des combinaisons prévues, les autres

ayant subi ime mutation ; parmi les séquences attendues, 11 représentent des combinaisons

uniques, ce qui semble indiquer que l’association des différentes versions des oligomères se fait bien aléatoirement. Par ailleurs, le gène ancestral le plus probable a également été synthétisé. 85 candidats ont été striés, aucun ne s’est révélé toxique. Un seul a été séquencé, il présente une mutation. De manière intéressante, toutes les séquences contenant l’oligomère f5 contiennent une mutation, ce qui pourrait indiquer une toxicité lorsque cet oligomère est présent au sein de la séquence, qui serait donc contre sélectioimée lors du processus de clonage ; néanmoins cette supposition doit être vérifiée par d’autres séquençages, qui sont en cours.

L’analyse de la phylogénie RelE/ParE a révélé une dichotomie : d’un côté des toxines affectant la traduction, de l’autre la réplication. De plus, ces deux parties de la phylogénie ont une organisation différente. Les séquences « type RelE » forment quatre clades principaux, séparant des séquences présentant différents domaines de toxines, contrairement à ce que l’on observe de l’autre côté (ParE), où l’on peut distinguer beaucoup plus de clades plus petits ; de plus, en termes de domaines protéiques, rien ne distingue réellement chacun de ces clades. Ceci est finalement assez intéressant. D’une part, cela nous apprend que, vraisemblablement,

il n’y a pas eu d’apparition de relE ouparE plusieurs fois au cours de l’évolution. Une seule

séparation a vraisemblablement conduit à l’état actuel. Deuxièmement, les deux évolutions différentes de ees deux gènes pourraient résulter d’un succès évolutif plus grand des toxines affectant la traduction. En effet, la structuration du clade RelE et l’existence de différents types de protéines présentant la même activité suggèrent une évolution, voire de la sélection positive, qui autorise certains changements de la séquence protéique. Cette diversité peut

s’interpréter comme un succès évolutif, puisqu’un gène a finalement donné naissance à une famille. À l’inverse, toujours en termes de domaines protéiques, le clade ParE est moins diversifié. Les protéines sont probablement contraintes par sélection négative, qui n’autorise pas de changement, et qui traduit également un succès évolutif plus modéré. Les travaux réalisés en ce moment sur la caractérisation de nouveaux systèmes TA au laboratoire vont dans ce sens. En effet, toutes les nouvelles toxines testées se sont révélées affecter la traduction. Ceci pourrait s’expliquer par le fait qu’affecter la réplication est beaucoup plus létal : des cassures double brin dans l’ADN sont beaucoup plus préjudiciables qu’une inhibition de la traduction. Dans ce deuxième cas, la croissance est d’abord ralentie par manque de protéines, et la mort cellulaire ne survient (si elle survient) qu’après ime période plus longue. Ainsi il semble raisonnable de penser qu’un système extrêmement létal évolue moins vite qu’im autre moins dangereux.

L’étude de séquences ancestrales se prête parfaitement à l’analyse de l’évolution des toxines des systèmes TA. En effet, il peut paraître étonnant que des systèmes si particuliers, présentant tous la même organisation générale, mais toujours de fonction indéterminée, et qui soient si peu variés en terme de structure/activité toxique soient issus d’un certain nombre de gènes différents. Il semblerait plus simple d’imaginer une origine commune à ces gènes, même si cela ne se retrouve pas au niveau des séquences. Et donc, remonter le temps pour analyser les séquences ancestrales est peut-être le seul moyen de retrouver un quelconque lien évolutif

Si les tests sur relE s’avèrent concluants, il sera intéressant de faire la même chose à

partir des séquences « ParE », et de l’ancêtre global de cette phylogénie. De plus, travailler à partir des autres phylogénies pourra également donner des informations intéressantes.

Songeons par exemple aux gènes mazF et ccdB. Leurs séquences sont complètement

différentes. Néanmoins, les toxines MazF et CcdB présentent des structures tertiaires similaires, malgré des activités toxiques différentes. Cela témoignerait d’une origine commune, avec une évolution contraignant la structure, mais pas la séquence. Une telle contrainte structurelle pourrait s’expliquer par l’interaction toxine-antitoxine. En effet, si une bactérie possède une toxine fonctionnelle, sa survie dépend de la présence d’vme emtitoxine associée, fonctionnelle également. Ceci se traduit donc par la possibilité de formation du complexe toxine-antitoxine. Ainsi il apparaît que la séquence, de l’antitoxine notamment, puisse varier à condition que la structure de la protéine permette toujours la formation du

de la protéine et moins au niveau de la séquence du gène, qui sait ce que l’étude des séquences ancestrales de ces familles pourrait révéler ?

Mais cette méthode possède également des limites, qui justement dans ce dernier cas pourraient poser problème. La reconstruction se fait sur base de séquence ; or si l’évolution n’a pas contraint les séquences elles-mêmes, il est envisageable que les séquences actuelles

n’aient plus rien de commun avec l’ancêtre. Ainsi par exemple, l’ancêtre du gène mazF

correspondrait à un moment plus récent que celui recherché, et les conclusions tirées de l’étude de cette séquence pourraient être inexactes.

Il apparait que l’étude de l’évolution des grandes familles de systèmes TA soit un problème complexe, en raison notamment de la diversité des séquences. Mais les analyses phylogénétiques que j’ai dû effectuer m’ont appris qu’à une plus petite échelle de temps d’évolution, on observe des séquences bien conservées. De ce fait, des analyses poussées peuvent être faites pour tenter de mieux comprendre l’évolution des systèmes TA. En effet, comprendre quelles forces dirigent l’évolution d’un gène peut permettre de renseigner sur sa fonction, et dans le cas des systèmes TA chromosomiques, nous avons vu que cette dernière question est loin d’avoir ime réponse. Nous avons réalisé au laboratoire une étude portant sur

un système particulier, ccdois?- Les résultats de ces travaux sont présentés dans la partie

suivante.

Dans le document Disponible à / Available at permalink : (Page 91-100)

Documents relatifs