• Aucun résultat trouvé

Séquençage et annotation in silico du gène PF3D7_1106800

D’après la base de données PlasmoDB (Aurrecoechea et al. 2009), PF3D7_1106800 est un gène de 5356 pb qui donne, après épissage des 7 introns, un transcrit de 4506 pb encodant une protéine de 1501 acides aminés. Afin de vérifier la séquence disponible sur la base de données, ainsi que l’expression du transcrit, nous avons entrepris de séquencer ce dernier en effectuant des RT-PCR chevauchantes sur l’ARN total de

Pf3D7. Six régions du transcrit de 500 à 1300 pb ont ainsi été amplifiées et séquencées (cf. Figure 20,

Annexe I, Matériel & Méthodes). Une séquence consensus a été élaborée à partir des données obtenues (6 à 12 clones par région ont été séquencés) et traduite. La séquence protéique ainsi déduite a été comparée à celle disponible sur PlasmoDB (Annexe II). Quelques mutations ponctuelles ou gaps, sans conséquence ni pour la continuité du cadre de lecture ni pour l’annotation de la séquence, ont ainsi été relevés entre les deux séquences (Figure 20). Cependant, le gap de la région 4 a également été retrouvé au niveau de l’ADNg, suggérant qu’il s’agit probablement d’une particularité de la souche Pf3D7 que nous cultivons au laboratoire. De même, le gap minimum (i.e. 24 nucléotides) situé au niveau de la région 2.2 est présent au niveau génomique. Les gaps plus importants relevés au niveau de l’ADNc ne sont probablement pas dus à de l’épissage alternatif ; cette région est particulièrement riche en cytosines, alors que les introns comportent plus de 90% d’A/T chez P. falciparum (Gardner et al. 2002). De plus, les motifs accepteur/donneur AG/GT ne sont pas présents ici (Long, de Souza, and Gilbert 1995). La raison de la présence des gaps reste donc confuse. Cependant, il est à noter que la région 2.2 du transcrit code pour des répétitions peptidiques (‘PSSS’), donnant des régions protéiques déstructurées/peu stables.

Figure 20 : Séquençage du transcrit PF3D7_1106800 par RT-PCR chevauchantes – Schéma des régions amplifiées directement (fragments 1 et 4) ou via des PCR imbriquées (nested PCR - fragments 2 et 3) (en haut) et résultats de séquençage (tableau du bas).

2. Annotation in silico

La prise en compte des données de séquençage nous a amenés à annoter une séquence protéique de 1483 acides aminés (poids moléculaire théorique de la protéine encodée estimé à environ 170 kDa).

L’annotation de la séquence protéique a été effectuée in silico (plusieurs outils différents ont été utilisés pour assurer une certaine fiabilité des résultats - cf. Matériel & Méthodes) aux niveaux :

 Primaire : de manière à prédire les motifs, domaines et régions principaux de la protéine sur la base de consensus, ainsi que les sites de modification post-traductionnelle putatifs ;

 Tertiaire : de manière à affiner les délimitations des domaines et émettre des hypothèses fonctionnelles à partir de leur repliement.

Elle a permis de prédire, de N-ter en C-ter, deux motifs MORN (Membrane Occupation Recognition Nexus), un domaine SAM (Sterile Alpha Motif), un lobe N-ter de domaine kinase (appelé BTK-like car présentant une similarité importante avec la BTK, Bruton’s Tyrosine Kinase) et un domaine kinase. Deux motifs RVxF ont également été prédits : RVxF1 près du domaine SAM et RVxF2 au sein du domaine kinase. Enfin, des régions probablement déstructurées, car composées de répétitions riches en Asparagine, Lysine ou Sérine, relient les différents domaines et motifs (Figure 21,

Annexe III).

3. Analyse phylogénétique

Post annotation, les homologues de PF3D7_1106800 ont été identifiés par analyse réciproque PSI-BLAST dans des ensembles eucaryotes de plus en plus larges (Apicomplexes, Alvéolates, Eucaryotes, cf. Matériel et Méthodes). Une analyse phylogénétique a ensuite été effectuée sur l’intégralité des séquences des protéines ainsi retenues (Figure 22b). Le résultat de cette analyse est en accord avec la classification du règne des eucaryotes revue par Adl et al. (Adl et al. 2012), notamment parce que les protéines du Straménopile Thraustotheca clavata forment un groupe monophylétique proche des protéines RAF1 de métazoaires utilisées ici comme groupe externe, et des protéines d’Alvéolates qui se regroupent en un clade. Au sein de ce dernier se trouvent les protéines d’eucoccidies (Toxoplasma gondii, Neospora,

Hammondia, Eimeria, Besnoitia), d’une part, et d’hémosporidés (diverses espèces de Plasmodium) d’autre

part. Les données phylogénétiques ont ensuite été reliées aux structures moléculaires des différentes protéines incluses dans l’analyse (voir Figure 22a). Nous observons qu’au moins un domaine kinase est

Figure 21 : Résumé graphique de l'annotation in silico de PF3D7_1106800

Figure 22 :

Analyse phylogénétique de PF3D7_1106800 et de ses homologues apicomplexes

a) Schéma de la structure

moléculaire des protéines incluses dans l’analyse phylogénétique. Les symboles à gauche de chaque structure correspondent à ceux indiqués sur l’arbre de la figure b. b) Analyse phylogénétique de PF3D7_1106800 et de ses homologues - Alvéolates: PF3D7 = Plasmodium falciparum 3D7, PFIT = P. falciparum IT, PPRFG01 = P. praefalciparum G01, PRCDC = P. reichenowi CDC, PRG01 = P. reichenowi G01, PBILCG01 = P. billcollinsi G01, PBLACG01 = P. blacklocki G01, PADL01 = P. adleri G01, PGAB01 = P. gaboni G01, PGSY75 = P. gaboni SY75, PYYM = P. yoelii yoelii YM, PY = P. yoelii 17XNL, PBANKA = P. berghei ANKA, PCHAS = P. chabaudi, YYE = P. vinckei vinckei VINCKEI, YYG = P. vinckei petteri CR, PGAL8A = P. gallinaceum 8A, PRELSG = P. relictum SGS1-like, PocGH01 = P. ovale curtisi GH01, PmUG01 = P. malariae UG01, PKNOH = P. knowlesi Malayan PK1, PKNH = P. knowlesi H, C922 = P. inui San Antonio 1, PcyM = P. cynomolgi M, PVP01 = P. vivax 01, PVX = P. vivax Sal 01, GNI = Gregarina niphandrodes, ETH = Eimeria tenella, ENH = Eimeria necatrix, EMWEY = Eimeria maxima, BESB = Besnoitia besnoiti, BN1204 = Neospora caninum, HHA = Hammondia hammondi, TGDOM2 = Toxoplasma gondii DOM2, TGGT1 = T. gondii GT1, BN1205 = T. gondii VEG; Straménopile: THRCLA = Thraustotheca clavata. 8 séquences protéiques de RAF1 Opisthokontes: Mammifères (Rn = Rattus norvegicus, Mm = Mus musculus, Pa = Pongo abelii, Hs = Homo sapiens, Bt = Bos taurus), Ave (Gg = Gallus gallus), Amphibien (Xl = Xenopus laevis), Secernentea (Ce = Caenorhabditis elegans) ont été utilisées comme groupe externe.

présent en C-ter de chaque protéine. La présence de domaines MORN en N-ter est en revanche une particularité des Alvéolates. Certaines protéines d’eucoccidies comportent un domaine SAM, voire un deuxième domaine kinase. Les protéines de Plasmodium présentent la composition moléculaire la plus complexe, car elles comportent tous les domaines et motifs cités ci-dessus pour PF3D7_1106800. RVxF1 est en revanche une exclusivité de certaines espèces de Plasmodium phylogénétiquement proches (falciparum,

praefalciparum, reichenowi, billcollinsi et blacklocki) et capables d’infecter des humains ou des singes (Ngoubangoye et al. 2016). Ces différentes informations indiquent que la pseudokinase encodée par PF3D7_1106800 est spécifique à certains apicomplexes.