• Aucun résultat trouvé

Il peut être laborieux de déterminer la fonction d’une nouvelle protéine en laboratoire à l’aide de techniques biochimiques. Cependant, on peut prédire des caractéristiques structurales et fonctionnelles à partir de séquences protéiques en employant des méthodes de prédiction automatisées [111]. Une suite de programmes bioinformatiques peut être employée pour prédire des peptides signaux, des hélices transmembranaires, des domaines fonctionnels, et pour trouver des protéines connues avec des séquences ou des structures similaires pour nous informer sur la fonction potentielle de gènes nouvellement découverts comme ceux retrouvés dans les génomes mitochondriaux chez les moules d’eau douce.

Prédiction des hélices transmembranaires : Phobius est un programme qui prédit les

peptides signaux et les hélices transmembranaires. Les programmes qui prédisent les hélices transmembranaires seulement peuvent parfois être induits en erreur par la présence de peptides signaux contenant des hélices alpha dans les séquences protéiques [56]. Pour résoudre ce problème, Phobius emploie un modèle de Markov caché (HMM, Hidden Markov Model) pour prédire ces deux structures en même temps, ce qui sépare les hélices alpha des peptides signaux des hélices transmembranaires, et facilite l’identification de l’orientation des hélices transmembranaires dans la membrane. Il est fiable pour des protéines qui contiennent les deux structures, mais conservateur si la protéine contient un peptide signal seulement. Phobius est parmi les meilleurs programmes permettant la détection des hélices transmembranaires, et, en combinaison avec le programme TMHMM (« Transmembrane Hidden Markov Model »), un outil intégré à InterProScan, on peut s’attendre à un taux d’erreur très faible [56].

Les hélices transmembranaires présentent une grande diversité structurale, et donc les méthodes de prédiction sont nombreuses et diverses. InterProScan compare la séquence protéique à l’étude à toutes les protéines connues et annotées dans toutes les bases de données qui sont membres de InterPro. Il intègre quatorze outils différents pour reconnaitre des signatures protéiques telles que les peptides signaux et hélices transmembranaires et donne un résultat visuel illustrant les prédictions de chaque outil (les 14 outils sont BlastProDom, HMMTigr, SignalPHMM, FPrintScan, ProfileScan, TMHMM, HMMPIR, HAMAP, HMMPanther, HMMPfam, PatternScan, Gene3D, HMMSmart et SuperFamily) [57]. TMPred

utilise une matrice de poids optimale pour comparer la séquence aux protéines dans la base de données TMbase. Il émet un score pour chaque résidu – un score de 500 ou plus est considéré significatif, et sera utilisé pour identifier une hélice transmembranaire et prédire son orientation dans la membrane [58]. Finalement, TOPCONS intègre cinq outils pour prédire des hélices transmembranaires : par exemple un qui aligne les séquences avec des modèles de protéines membranaires et un qui distingue les régions qui entrent dans, mais ne traversent pas la membrane. Puisque ces régions peuvent être mal identifiées comme transmembranaires, cette distinction est essentielle pour bien identifier l’orientation de la protéine dans la membrane. Les autres composants de TOPCONS [59, 112, 113] sont conçus pour imiter un translocon – c'est-à-dire qu’ils considèrent les caractéristiques physiques des résidus pour prédire comment ils interagissent avec la membrane, le milieu cellulaire, et d’autres résidus.

Prédiction de peptides signaux : PrediSi est parmi les programmes les plus avancés

pour prédire des peptides signaux. Il emploie un réseau de neurones pour calculer trois scores : le S-score, qui indique la probabilité qu’un résidu fasse partie d’un peptide signal, le C-score, qui indique la probabilité qu’un résidu soit le premier acide aminé de la protéine mature, et le

Y-score, qui combine les deux. Un Y-score élevé indique la présence d’un peptide signal. Si le S-score moyen de tous les résidus avant la position du Y-score maximal est >0.5, il prédit un

peptide signal. Si les trois scores sont faibles, il est probable que la protéine n’est pas sécrétée [61]. Cette méthode est rapide et optimale pour des séquences de 60-100 acides aminés. Le programme SignalP emploie un autre réseau de neurones pour prédire des peptides signaux. Il est sensible et très précis, mais donne beaucoup de résultats faussement positifs. Il est généralement utilisé pour confirmer les résultats d’autres programmes [57]. Phobius et InterProScan (décrits ci-dessus) identifient également des peptides signaux putatifs.

Prédiction des domaines fonctionnels et de la fonction : Il existe différents

programmes bioinformatiques pour prédire la fonction d’une protéine à partir de sa séquence en acides aminés. Par exemple, BLAST compare les séquences protéiques aux séquences de protéines connues dans les bases de données GenBank. La séquence en acides aminés est comparée, position par position, aux protéines connues pour trouver des homologues. La structure et la fonction de ces homologues peuvent nous informer sur la structure et la fonction de la protéine nouvellement découverte [66].

Le programme @tome-2 intègre 23 différents outils pour chercher des séquences homologues, prédire la structure de la protéine, et reconnaitre des repliements putatifs [68]. Le programme I-TASSER prédit des modèles tridimensionnels pour la séquence d’intérêt et les compare aux protéines dont la structure et la fonction sont connues [69]. Le programme HHpred analyse la séquence et l’aligne avec des protéines connues, et prédit les structures secondaires et tertiaires [64]. TPRpred est un programme similaire qui cherche exclusivement des répétitions de type tetratricopeptide, pentatricopeptide et SEL 1-like [65]. Motif Scan cherche des motifs (comme β-α-β) dans la base de données PROSITE et retourne plusieurs catégories de signifiance [114]. Finalement, le programme PredictProtein est un outil à usages multiples qui donne des résultats BLAST (alignements), cherche des motifs dans la base de données PROSITE, identifie des signaux de localisation nucléaire, des régions de faible complexité ou sans structure régulière, et prédit la structure secondaire, l’accessibilité aux solvants, les régions globulaires, les hélices transmembranaires, les domaines superhélices, les ponts disulfures, la localisation subcellulaire et les annotations/domaines fonctionnels [60]

Documents relatifs