• Aucun résultat trouvé

Chapitre V DomHCA : un outil pour prédire les régions structurées

7 Evaluation de la prédiction DomHCA

7.3 Application aux séquences de Plasmodium falciparum

La particularité remarquable des génomes de Plasmodium falciparum et Dictyostelium

discoideum réside en leur richesse en nucléotides A+T [GARDNER, M. J. et al., 2002;

EICHINGER, L. et al., 2005]. Il en résulte une abondance d’un certain nombre d’acides aminés (asparagine, lysine, isoleucine, tyrosine) (voir Figure 73 pour le cas de Plasmodium

falciparum). Au début de cette étude, seul le génome de Plasmodium falciparum était

disponible, nous l’avons donc choisi comme organisme d’étude.

Figure 73 : Comparaison de la distribution des acides aminés dans les protéomes (protéines prédites) de

Plasmodium falciparum, Homo sapiens, Caenorhabditis elegans et Saccharomyces cerevisiae (5334, 32035,

21629 et 6699 séquences, respe ctivement) [CALLEBAUT, I. et al., 2005].

Les acides aminés sont classés par ordre de fréquence décroissante chez Plasmodium falciparum.

Random

DomHCA

ADDA Armadillo & Biozon

Domssea DPS Dompro Dopro Globplot Interproscan Mateo Robetta-ginzu Ssep-Domain 0 0,2 0,4 0,6 0,8 1 0 0,2 0,4 0,6 0,8 1 Sensibilité Spécificité Armadillo Biozon DPS Random DomHCA ADDA Domssea Dompro Dopro Globplot Interproscan Mateo Ssep-Domain Robetta-ginzu 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100

% cibles monodomaine correctement prédites

Score de recouvrement (%) 0 5 10 15 N K I L E D S Y F T V G Q R H M A P C W Acides aminés Férquence (%) Plasmodium falciparum Homo sapiens Caenorhabditis elegans Saccharomyces cerevisiae

La richesse en nucléotides A+T entraîne des biais dans les séquences qui rendent difficile l’utilisation des procédures automatiques de comparaison entre séquences. Ainsi, plus de 60% des protéines restent orphelines d’informations structurales et/ou fonctionnelles déduites de la comparaison des séquences. Il est probable qu’un nombre important de ces protéines orphelines correspond en réalité à des orthologues “cachés”. Une inspection des tracés HCA de quelques séquences représentatives de Plasmodium falciparum montre cependant que les caractéristiques hydrophobes des domaines globulaires sont maintenues (pourcentage global d’acides aminés hydrophobes conservé, Figure 73) et que nombre des acides aminés surreprésentés sont localisés dans des régions de faible complexité, en dehors des domaines globulaires. De telles observations ont été également réalisées par d’autres groupes [ARAVIND, L. et al., 2003]. Ce sont ces régions de faible complexité qui affectent particulièrement l’efficacité des méthodes automatiques de comparaison des séquences. L’utilisation de DomHCA permet de s’abstraire de ces régions de faible complexité puisqu’elles ne sont généralement pas incluses dans les régions structurées prédites par le programme. Il permet de plus de traiter rapidement l’ensemble des séquences d’un génome.

Ainsi, l’ensemble du génome de Plasmodium falciparum a été soumis à ce découpage en régions structurées. 18 808 segments structurés et 866 segments « pseudo-structurés » ont été recensés. Nous présentons cette étude au chapitre VII.

8

Discussion et Conclusion

Du fait de l'organisation modulaire des protéines, il est intéressant de prédire les limites de domaines biologiquement actifs. Ce concept peut être particulièrement intéressant dans le cadre de la détermination de la structure 3D de protéines par RMN ou par cristallographie, afin de diminuer la taille de la molécule étudiée (RMN) et d’augmenter les chances d’obtention de cristaux (cristallographie).

Sans identifier précisément les domaines d’une séquence protéique, il peut être important dans un premier temps de prédire les limites des régions structurées et non- structurées. Nous avons ainsi développé un outil automatique, DomHCA, basé sur la distribution des acides aminés hydrophobes forts (V, I, L, F, M, Y et W) et des amas hydrophobes HCA de la séquence, qui prédit les régions structurées dans une protéine. La méthode HCA permet en effet d’identifier les limites de nombreux domaines, mais nécessite souvent les compétences d’un expert. DomHCA prédit de façon automatique les régions potentiellement structurées, domaines globulaires et/ou passages membranaires. Ces dernières

régions peuvent en effet être distinguées, une forte fréquence moyenne ou locale en acides aminés hydrophobes est généralement observée, respectivement, dans les passages membranaires multiples et les passages membranaires uniques. D’autres hypothèses peuvent être ajoutées aux prédictions DomHCA, comme la présence de brins β caractéristiques des porines, qui présentent des segments locaux riches en acide aminé glycine, celle de peptides de fusion qui présentent des caractéristiques de séquence particulières [DEL ANGEL, V. D. et al., 2002] ou de régions de répétitions (cf. chapitre VI). Ces hypothèses peuvent être affinées par des outils plus spécialisés (par exemple pour les hélices transmembranaires (PHDhtm [ROST, B. et al., 1996], TMHMM [MOLLER, S. et al., 2001], HMMTOP [TUSNADY, G. E. et al., 2001]; pour les protéines membranaires en tonneaux bêta [JACOBONI, I. et al., 2001; GROMIHA, M. M. et al., 2004; NATT, N. K. et al., 2004] et pour les peptides signaux [NIELSEN, H. et al., 1999]).

Le calcul du pourcentage moyen d’acides aminés hydrophobes a permis de mettre en évidence que les domaines globulaires ont des valeurs voisines de 33% alors que des plus faibles valeurs peuvent être éventuellement associées à des régions intrinsèquement désordonnées (voir par exemple le domaine pKID de la protéine CREB page 94). Il semble possible de détecter ces régions désordonnées des régions structurées en identifiant localement de plus faibles fréquences en acides aminés hydrophobes (en utilisant une fenêtre glissante de taille similaire à la taille des régions intrinsèquement désordonnées, environ 50 acides aminés [UVERSKY, V. N. et al., 2000]).

DomHCA est efficace dans le cas de protéines « monodomaines » pour lesquelles nous avons montré un bon recouvrement entre les limites des domaines prédites par DomHCA et les limites des chaînes observées dans la Protéine Data Bank. DomHCA prédit les linkers dans les protéines multidomaines dans certains cas. En effet, de nombreux linkers contiennent soit des structures secondaires, qui ne peuvent pas être distinguées de celles des domaines globulaires classiques, soit correspondent à de petites séquences non distinguables des boucles « non-linkers » des protéines. Néanmoins, ces chaînes multidomaines ne doivent souvent pas être découpées pour préserver leur intégrité fonctionnelle, spécialement quand elles forment une structure compacte comme celle de la glucuronidase (Figure 42, page 89). Dans ce contexte, il ne serait pas judicieux de suggérer un découpage possible de cette chaîne polypeptidique pour une caractérisation fonctionnelle et structurale. En combinant plusieurs méthodes de prédictions de limites de domaines, il serait possible d’améliorer la fiabilité des prédictions de domaines [SAINI, H. K. et al., 2005].

Finalement, DomHCA est un outil particulièrement intéressant pour extraire les domaines structurés des séquences orphelines, dont beaucoup sont présentes dans des génomes ayant des biais de composition en acides aminés, comme par exemple Plasmodium

falciparum ou Dictyostelium discoideum. La sélection des régions structurées prédites par

DomHCA, comme séquences sondes pour des recherches de similarité ou de domaines, peut alors permettre d’identifier dans le bruit de fond des séquences alors que la requête n’aurait pas été concluante si elle avait été faite sur la séquence entière. Un exemple d’identification de domaine dans la protéine MAL8P1.111 de Plasmodium falciparum est présenté en Figure 74.

Figure 74 : Exemple de découpage permettant une meilleure recherche automatique de domaines. La protéine MAL8P1.111 de Plasmodium falciparum compte 1259 acides aminés. Après traitement avec DomHCA (Tableau 10), la protéine MAL8P1.111 est découpée en cinq segments structurés (1-90, 119-245, 296-450, 501-812, 840-1259). La recherche de domaines sur la protéine entière dans la banque SMART détecte le seul domaine alors qu’après le découpage, trois domaines sont identifiés (JmjN, JmjC et Zf- C5HC2) avec des scores significatifs.

Le traitement de la séquence MAL8P1.111 par DomHCA permet d’isoler cinq régions structurées potentielles. Soumises séparément à des recherches automatiques de domaines dans les banques de domaines comme SMART ou PFAM [LETUNIC, I. et al.,

2002], elles permettent d’identifier des domaines non détectés lors de la recherche sur la protéine complète, comme par exemple ici le domaine JmjN (Tableau 10).

Tableau 10 : Domaines identifiés dans MAL8P1.111 à partir d’une recherche de type HMMER dans les banques de domaines SMART et PFAM.

Fragment testé SMART + PFAM Score

1-90 / / 119-245 / / 296-450 JmjN (302-343) 8,17.10-3 501-812 JmjC (660-791) 9,24.10-7 840-1259 JmjC (840-974) Zf-C5HC2 (1082-1133) 5,17.10-2 1,20.10-2 Protéine entière JmjC (660-974) 1,40.10-33

Enfin, la rapidité de DomHCA est aussi un avantage pour le traitement à grande échelle des génomes et pour une analyse globale de l’architecture en domaines des séquences. DomHCA sera prochainement accessible sur le serveur du laboratoire.