• Aucun résultat trouvé

Potentiels de distance..................................................................................................................... ^^[249 251]

Dans le document Disponible à / Available at permalink : (Page 78-83)

23 Méthodes d’identification des différents facteurs

3.2 Potentiels statistiques

3.2.1 Potentiels de distance..................................................................................................................... ^^[249 251]

Dans cette thèse de doctorat nous avons dérivé essentiellement des potentiels de distance. Il s’agit de potentiels de force moyenne dont l’élément de séquence si est une paire de résidus et l’élément de structure cj est la distance spatiale séparant ces deux acides aminés. Ces potentiels de distance utilisent une représentation simplifiée où chaque résidu est représenté par un atome virtuel. En bioinformatique structurale il n’est pas rare d’utiliser une représentation simplifiée des protéines. Dans notre cas une protéine est représentée plutôt comme un nuage de points ordonnés selon sa séquence (chaque point représente un acide aminé, fig. 3.3).

Chapitre 3 - Méthodes et outils

Figure 3.3 — Représentation simplifiée des protéines. Chaque résidu est numéroté en fonction de sa position dans la séquence et représenté par son centre géométrique (petite sphère sombre) tenant compte de sa taille en fonction de la longueur et de la géométrie de la chaîne latérale. Figure réalisée avec le logiciel PyMol

Il y a plusieurs manières de fixer cet atome virtuel pour un résidu donné (par exemple en prenant le premier ou le deuxième atome de sa chaîne latérale). Cependant un résidu a des caractéristiques de composition atomique et de taille qui lui sont propres. Dès lors, en plaçant le descripteur sur le premier ou deuxième atome de sa chaîne latérale, la spécificité de sa taille n’est pas correctement prise en compte. Afin de tenir compte des spécificités de chaque résidu, nous avons porté notre choix sur un atome virtuel localisé sur le centre géométrique des atomes lourds de la chaîne latérale d’un résidu.

Au cours de nos travaux sur la thermostabilité, nous avons développé un nouvel atome virtuel afin de mieux décrire les groupes fonctionnels chimiques présents dans les chaînes latérales de certains acides aminés (e.g. le groupe carboxylique des acides aspartiques et glutamiques). En effet, ce nouvel atome virtuel Cy est placé plus près des groupements fonctionnels des chaînes latérales (fïg. 3.4). Dans le cas des acides aminés aromatiques (F, H, W et Y), les coordonnées spatiales de l’atome virtuel Cy sont définies comme la moyenne des coordonnées spatiales de tous les atomes des cycles aromatiques. Les Cy des acides aminés portant une charge négative (D et E) sont positionnés sur le centre géométrique de la « fourchette » formée peu' les 3 atomes de leur groupe carboxylique COO'. Le centre géométrique du groupe amine défini par les atomes CO-NH2 détermine la position de l’atome virtuel des acides aminés N et Q. L’arginine, ceu'actérisée par son groupement guanidinium, est représentée par un atome virtuel Cy placé au centre géométrique des atomes CNH2-NH2"^ de sa chaîne latérale (les deux atomes N considérés sont N^;i et N;^). En ce qui concerne les acides aminés C, K, S, et T, l’emplacement du Cy correspond à l’atome S, N, O et O de leur chaîne latérale respectivement. L’emplacement de cet atome virtuel pour les autres acides aminés correspond au centre géométrique de leur chaîne latérale Cji. C’est à partir de ces distances inter-résidus C^-C^ ou Cy-Cy que sont dérivés nos potentiels de distance.

Figure 3.4 - Schéma illustrant la différence de positionnement des atomes virtuels et

Cv dans le cas de l’argninine.Figure réalisée avec le logiciel PyMol

Les potentiels de distance, notés AWds{s,s’,d), dérivés à partir d’une base de données de structures de protéines, permettent d’évaluer la contribution à l’énergie libre associée à une paire de résidus (s,s') en fonction de la distance spatiale d qui les sépare dans un environnement protéique moyen. Autrement dit, ils fournissent une évaluation de la contribution énergétique de l’interaction entre deux résidus à l’énergie libre de repliement d’une protéine en fonction de la distance qui les sépare.

AlV^,(5,5’,^/) = -À:rin P(s,s',d)

P(s,s')-P{d)

= -kT In F(s,s',d) F{s,s’)-F(d)

(3.6)

F(s,s\d) est la fréquence relative d’observation de la paire de résidus s,s’ séparée par une distance spatiale d (assimilée à la probabilité P{s,s\d)), F(s,s’) est la fréquence relative d’observation de cette paire s,s' quelle que soit la distance qui les sépare (assimilée à la probabilité P(s,s’’)), F(d) est la fréquence relative d’observation de la distance spatiale d entre n’importe quelle paire de résidus (assimilée à la probabilité P{d)).

L’énergie libre de repliement d’une protéine donnée est évaluée en sommant chacun de ces potentiels de distance décrivant les contributions de toutes les paires de résidus. Ceci revient à additionner les contributions de chaque paire de résidus présente au sein d’une protéine de séquence S et de conformation C.

àW^(S,C) = X

a

W^(5,,5’, , J) =

>.j

i*j ‘O

P(Si,s'j,d)

Pis,,s'j)-P(d) (3.7)

N est le nombre de résidus de la protéine, Si et s/ sont la nature des acides aminés en position i et j le long de la séquence, P(si,s/,d) est la probabilité d’observer la paire de résidus de nature 5,- et s/ séparés par une distance spatiale d, P(si,s/) est la probabilité d’observer la paire de résidus de nature Sj et s/ sans tenir compte de la distance qui les sépare, P(d) est la probabilité d’observer la distance spatiale d entre deux résidus sans tenir compte de leur nature.

D’autre part, il est à noter que le potentiel de distance d’une paire de résidus défini par l’équation 3.6 regroupe différentes contributions : celles liées aux préférences individuelles de chaque acide aminé (s,s') formant la paire de résidus et celle liée à la paire proprement dite sans tenir compte de leurs préférences individuelles. Ce potentiel de distance fait donc

Chapitre 3 — Méthodes et outils

intervenir les contributions à un corps de chacun des résidus et la contribution à deux corps de la paire.

A (s,s',d) = (5, ^/) + A is',d) + AW^2(s, s\d) (3.8)

La contribution à un corps reflétant la préférence individuelle de l’acide aminé de nature s

est décrite par un potentiel AWdsi(s,d) s’écrivant de la manière suivante (en négligeant la nature de l’acide aminé s') :

AWj^^(s,d) = -kT\n P(s,x,d)

P{s,x)Pid) (3.9)

P{s^,d) est la probabilité d’observer l’acide aminé de nature s séparé par une distance d

d’un autre acide aminé x quelle que soit sa nature et P{s^) est la probabilité d’observer l’acide aminé de nature s et un autre acide aminé x quelque soient sa nature et la distance les séparant. De la même manière nous obtenons la contribution individuelle de l’autre résidu s’ formant la paire considérée AWrfji(5’,<i).

La contribution à deux corps de la paire de résidus (5,^’) est décrite par un potentiel

AWds2i.s,s\d) évaluant la propension des deux acides aminés (s,^’) à être séparés par une distance spatiale d en excluant les contributions liées à leurs préférences individuelles.

AW^^{s,s',d) = -kT\nP(s, s',d)- P(s,x)P(x,s')-P{d) P{s,x,d)-P{x,s',d)-P{s,s')

(3.10)

Le seul critère géométrique utilisé dans la définition de ces potentiels de distance est la distance spatiale d séparant deux résidus. Ces potentiels permettent donc la description et l’étude d’interactions protéiques ayant comme unique contrainte géométrique cette distance inter-résidus. Les ponts salins ainsi que les interactions effectives entre deux résidus hydrophobes font partie de cette catégorie d’interactions et peuvent être relativement bien décrits par ces potentiels de distance. Une meilleure description pourrait probablement être atteinte, au prix d’un temps de calcul plus important, en n’utilisant pas de représentation simplifiée mais une représentation atomique des protéines. Cependant, cette description atomique demande également la disponibilité d’une plus grande quantité de données. Par ailleurs, d’autres interactions nécessitent une description géométrique plus fine imposant d’autres contraintes géométriques qu’un simple critère de distance entre la paire de résidus interagissant (ex : interactions aromatiques, interactions cation-7i).

3.2.2 Adaptation de potentiels de distance à Fétude de la

thermostabilité des protéines

La méthodologie visant à évaluer les contributions énergétiques de diverses interactions entre paires de résidus en fonction de la température est divisée en plusieurs étapes : la première consiste à développer une base de données de protéines monomériques de structure et de température de fusion déterminées expérimentalement (section 3.1.1). La seconde étape est de diviser cette base de données en groupes de protéines aux résistances thermiques moyennes {T^) différentes (section 3.1.2). C’est à partir de ces groupes que des potentiels statistiques sont dérivés et que ces contributions sont évaluées.

Le potentiel de distance défini à l’équation 3.6 est un potentiel de force moyenne pouvant être directement dérivé à partir d’un groupe donné sans se soucier des groupes restants. En effet, la probabilité de rencontrer une paire de résidus (s,5’) à une distance d dans un groupe de résistance thermique moyenne est normalisée par la probabilité d’observer ces éléments de séquence et de structure de manière indépendante au sein du même groupe. De cette manière les fonctions d’énergie obtenues ne dépendent pas de la composition en acides aminés ni de la distribution des distances inter-résidus des autres groupes. En effet, il associe aux probabilités P{s,s\d), P{s,s') et P{d) la résistance moyenne du groupe dont fait partie la protéine et à partir duquel il est dérivé. Il pourrait être écrit de façon explicite pour le groupe de résistance thermique moyenne de la manière suivante :

^WAs,s',d\TJ^-kT\n P{s,s\d\TJ (3.11)

P(5,5',i/|r^) est la probabilité qu’une paire de résidus (5,5’) d’une protéine issue du groupe de résistance thermique moyenne soient séparés par une distance spatiale d au sein de ce même groupe, P(i,s'|r^) est la probabilité d’observer la paire d’acides aminés {s,s') quelle que soit la distance qui les sépare au sein du groupe de résistance thermique moyenne

P(d^T^) est la probabilité d’observer une distance d au sein du groupe de protéines de résistance thermique moyenne entre deux résidus de nature quelconque.

Cependant, il s’avère que plusieurs auteurs ont mis en évidence des spécificités au niveau de la compacité et de la composition des protéines thermorésistantes

103,122,131,133-135] compte de ces variations de composition et de compacité des protéines en fonction de leur résistance thermique, nous avons adapté nos potentiels de distance.

Pour y parvenir nous effectuons cette normalisation non plus par les probabilités d’observer ces éléments de séquence et de structure de manière indépendante au sein du même groupe mais au sein de l’entièreté de la base de données structurale utilisée. Ce nouveau potentiel de distance est donc en partie dérivé à partir de la base de données de stmctures entière et non plus uniquement à partir de chacun des groupes. Il considère de manière implicite la résistance thermique d’une protéine (Tm) de la même manière qu’un élément de structure telle la distance inter-résidus d. A chaque paire de résidus (5,5’) d’une protéine donnée est associée la distance d les séparant ainsi que la résistance thermique moyenne (T^) du groupe dont est issue cette protéine

AW^(s,s',d,TJ = -kT\n P(s,s',d,TJ_

P(s,s')-P(d)-P{TJ (3.12)

P(s,s') est la probabilité de rencontrer la paire d’acides aminés (5,5’) quelle que soit la distance qui les sépare et le groupe de résistance moyenne d’où provient la protéine dont ils sont issus, P{d) est la probabilité d’observer une distance d entre n’importe quelle paire de

Chapitre 3 — Méthodes et outils

résidus issus de n’importe quel groupe de protéines. Ces deux probabilités sont donc évaluées sur l’entièreté de la base de données structurale. P{T^) est la probabilité qu’une paire de résidus appartienne à une protéine du groupe de résistance moyenne quelles que soient la nature des deux résidus et la distance qui les sépare. La multiplication de ces trois probabilités au dénominateur implique que le potentiel AlVyr est dérivé par rapport à un état de référence défini comme étant un état dans lequel ces trois probabilités sont indépendantes. En utilisant ce potentiel de force moyenne, il est nécessaire de s’assurer que parmi les différents groupes de protéines, les distributions des distances spatiales d ne varient pas trop afin d’éviter de mélanger les effets liés à la taille des protéines avec ceux liés à la compacité provenant de l’adaptation thermique des protéines. En effet, l’influence de la taille des protéines sur les profils énergétiques dérivés de potentiels statistiques a été démontrée au sein de notre groupe de recherche^* Ces potentiels statistiques tiennent dès lors compte des variations de composition et de compacité mises en évidence entre des protéines de résistance thermique différentes.

Nous avons également développé un autre type de potentiel de force moyenne qui est normalisé de manière à ce que les effets de taille et de compacité soient exclus (eq. 3.13). En effet, il semblerait que l’adaptation thermique de protéines issues d’organismes appartenant au règne des archaea soit différente de celle de protéines provenant d’autres organismes Celle-ci serait une adaptation structurale plutôt qu’une adaptation de séquence et leurs protéines seraient plus petites et plus compactes. Cependant, nous avons pu constater que notre base de données de protéines ne comporte que quelques exemplaires issus d’archaea (seulement huit). Dès lors, nous avons développé ce nouveau potentiel statistique permettant d’éviter de mélanger les effets de taille (liés ou non à une adaptation thermique des protéines) et mettant en avant l’adaptation de la composition en acides aminés des protéines thermostables

{s,s',dJJ = -kT\n (3.13)

""" P{s,s')-P{dJJ

3.2.3 Résolution des profils énergétiques et limites d’occurrences non

Dans le document Disponible à / Available at permalink : (Page 78-83)