Chapitre 3
Influence de la taille des prot´ eines inclues dans la base de donn´ ees
3.1 Introduction
Nous avons relev´e pr´ec´edemment le fait que certaines caract´eristiques des prot´eines inclues dans la base de donn´ees peuvent avoir un impact sur les potentiels qui en sont d´eriv´es. L’influence de la taille des prot´eines est un sujet particuli`erement controvers´e. D’une part, des simulations, sur un r´eseau bi-dimensionnel, de pseudo- prot´eines compos´ees de deux types de r´esidus diff´erents ont indiqu´e que les potentiels de distance d´eriv´es d’ensembles comprenant de longues chaˆınes sont diff´erents de ceux d´eriv´es `a partir de chaˆınes plus courtes [1]. Ces diff´erences s’expriment notamment par des variations au niveau des amplitudes et des positions des extr´ema caract´eristiques des courbes de potentiel. Dans le mˆeme ordre d’id´ees, certains auteurs ont indroduit un facteur d’´echelle, invers´ement proportionnel au nombre de r´esidus, dans des potentiels de contact bas´es sur un alphabet r´eduit d’acides amin´es, afin de prendre en compte la variation du nombre de contacts ´etablis dans des prot´eines de tailles diff´erentes [2].
Cependant, il est ´egalement apparu que des potentiels de contact d´eriv´es de bases de donn´ees compos´ees de vraies prot´eines de tailles diff´erentes n’exhibaient aucune d´ependance significative en la longueur des prot´eines [3]. Il a ´egalement ´et´e affirm´e que l’impact de la taille des prot´eines sur les potentiels est n´egligeable pour des distances inter-r´esiduelles inf´erieures `a approximativement 10 ˚ A [4], ainsi que pour certains potentiels de distance dans lesquels l’effet implicite du solvant est ´elimin´e [5]. D’autres
´etudes ont abouti sur des conclusions moins tranch´ees. En particulier, il a ´et´e montr´e que des potentiels de distance d´eriv´es de bases de donn´ees compos´ees respectivement de petites et de grandes prot´eines sont fortement corr´el´es, mais que la pente de la droite de r´egression est diff´erente de l’unit´e [6].
A la lumi`ere de ces apparentes contradictions, nous avons ´etudi´e en d´etail l’influence de la taille des prot´eines inclues dans la base de donn´ees sur les potentiels de distance [7].
Nous avons choisi de nous limiter aux potentiels de ce type pour deux raisons. D’une part, ces potentiels sont les plus fr´equemment ´etudi´es et utilis´es dans le cadre de l’´etude des prot´eines. D’autre part, ce sont les plus proches parents des potentiels de force moyenne d´ecrits en Section 2.1, qui ont ´et´e abondamment ´etudi´es dans des syst`emes non- prot´eiques simples. En particulier, il a ´et´e montr´e que dans des syst`emes finis comprenant
70
N particules, les fonctions de distribution de paires pr´esentent une composante r´esiduelle
`a grande distance, qui est propotionnelle `a 1/N et est sp´ecialement marqu´ee dans le cas de syst`emes compressibles ou de syst`emes avec limites [8–10]. D’autres types d’effets peuvent cependant se manifester lorsque des potentiels de force moyenne sont d´eriv´es `a partir de structures prot´eiques. Certaines propri´et´es des prot´eines, telles que leur stabilit´e ou leur contenu en structures secondaires, peuvent en effet d´ependre de leur taille. Il semble que la r´epartition des acides amin´es entre le coeur et la surface des prot´eines joue un rˆole majeur `a ce niveau [1,11]. Par exemple, deux acides amin´es hydrophobes s´epar´es par une distance de 20 ˚ A dans une petite prot´eine sont tr`es probablement localis´es en surface de cette prot´eine, ce qui correspond `a une situation plutˆot d´efavorable, alors qu’ils peuvent ˆetre enfouis au sein d’une grande prot´eine. Des potentiels d´eriv´es de petites ou de grandes prot´eines accuseront donc forc´ement certaines diff´erences.
Potentiel ´ etudi´ e
Nous analysons ici en d´etail la d´ependance, en la taille des prot´eines de la base de donn´ees, du potentiel de distance ∆W
(2)(r
12, s
1, s
2) d´efini par l’´equation 2.19. Les distances inter-r´esiduelles r
12sont, par d´efinition, celles qui s´eparent les centroides moyens (C
µ) des chaˆınes lat´erales des r´esidus consid´er´es, s
1et s
2(voir Annexe A). Les distances r
12sont divis´ees en intervalles de 0.2 ˚ A de largeur. Afin de lisser les potentiels, les fr´equences relatives calcul´ees dans chaque intervalle de distance sont combin´ees avec celles des 10 intervalles voisins, de chaque cˆot´e, multipli´ees par un facteur invers´ement proportionnel `a leur s´eparation par rapport `a l’intervalle central [12]. Par ailleurs, dans le but de minimiser l’effet des contraintes impos´ees par la connectivit´e de la chaˆıne prot´eique, les paires de r´esidus s´epar´es de moins de 15 positions le long de la s´equence ne sont pas prises en compte dans le calcul des fr´equences relatives F (r
12| s
1, s
2) et F (r
12).
Les composantes `a courte et longue port´ee du potentiel sont d´efinies comme correspondant aux valeurs de r
12comprises entre 3 et 8 ˚ A, et sup´erieures `a 15 ˚ A, respectivement. Le choix de ces valeurs limites est bas´e d’une part sur le fait que le pouvoir pr´edictif de potentiels de distance n’augmente que l´eg`erement lorsque la distance maximale prise en compte exc`ede 8 `a 10 ˚ A [4, 13], et d’autre part sur l’observation, pour de tels potentiels, d’une distance maximale de corr´elation de l’ordre de 15 ˚ A [3].
Bases de donn´ ees
La base de donn´ees utilis´ee pour la d´erivation des potentiels est compos´ee de 735
prot´eines de bonne r´esolution ( ≤ 2 ˚ A) partageant moins de 20% d’identit´e de s´equence
( DB
735, voir Annexe B). Afin d’analyser l’influence de la taille des prot´eines sur les
potentiels de distance, nous avons divis´e cette base de donn´ees en six sous-groupes
comprenant des prot´eines de tailles croissantes. Les caract´erisques de ces sous-ensembles,
qui sont not´es DB
i(avec i = 1, . . . , 6), ainsi que de la base de donn´ees compl`ete ( DB
735,
not´ee ici DB
0) sont reprises en Table 3.1. Le nombre de sous-ensembles a ´et´e choisi de
mani`ere `a maximiser l’intervalle de tailles de prot´eines consid´er´e, tout en conservant
un nombre suffisant de prot´eines dans chaque sous-ensemble afin d’´eviter d’introduire
trop de bruit dans les potentiels. Par construction, les six sous-groupes contiennent
approximativement le mˆeme nombre total de r´esidus. Notons qu’une autre possibilit´e est
de diviser la base de donn´ees en sous-groupes contenant le mˆeme nombre total de paires
de r´esidus. Cette derni`ere approche pr´esente cependant deux d´efauts : le sous-groupe comprenant les petites prot´eines couvre un intervalle de tailles de prot´eines beaucoup plus ´etendu, et celui comprenant les grandes prot´eines n’en contient que quelques unes.
En cons´equence, bien que les mˆemes tendances g´en´erales soient observ´ees, les r´esultats sont moins probants ´etant donn´e le haut niveau de bruit dans les potentiels d´eriv´es de l’ensemble de grandes prot´eines et le manque de diff´erenciation entre petites et moyennes prot´eines.
Ensemble DB0 DB1 DB2 DB3 DB4 DB5 DB6
Nombre de prot´eines 735 243 137 116 86 80 73
Nef f (courte distance) 603 146 257 344 476 700 1475 Nef f (longue distance) 1890 160 259 348 481 709 2448
Table 3.1 – Caract´eristiques des ensembles de structures de prot´eines.
DB0d´esigne la base de donn´ees compl`ete DB735 (voir Annexe B), et DBi (avec i = 1, . . . ,6) les diff´erents sous-groupes.Nef f, qui est le nombre moyen (ou effectif) de r´esidus dans les prot´eines de chaque ensemble, est calcul´e
`a l’aide de l’´equation (3.1).
Les sous-groupes DB
icontiennent des prot´eines de tailles similaires mais pas identiques. Il est donc n´ecessaire de d´efinir pour chaque ensemble un nombre effectif, moyen, de r´esidus par prot´eine, not´e N
ef f. Le choix d’une d´efinition pertinente de N
ef fest d´elicat : en th´eorie sa valeur d´epend `a la fois de la distance r
12et de la paire de r´esidus (s
1, s
2). En premi`ere approximation, nous pouvons cependant consid´erer une valeur moyenne sur toutes les paires (s
1, s
2) ´etant donn´e que les fr´equences relatives F (s
1, s
2) sont relativement bien conserv´ees entre prot´eines de diff´erentes tailles. Le nombre effectif de r´esidus N
DBef f, qui repr´esente la taille moyenne des prot´eines inclues dans l’ensemble DB est exprim´e par une combinaison lin´eaire du nombre de r´esidus (N
k) de chacune des prot´eines k de DB :
N
DBef f= X
k∈DB
N
km
k/ X
k∈DB
m
k. (3.1)
o` u le facteur de pond´eration m
kcorrespond au nombre de paires de r´esidus, dans la prot´eine k, qui sont prises en compte lors de la d´erivation des potentiels. Ce facteur d´epend de r
12et conf`ere aux grandes prot´eines une influence d’autant plus marqu´ee que r
12est grand. Nous consid´erons ici deux intervalles de distance diff´erents qui correspondent respectivement aux interactions `a courte distance (r
12compris entre 3 et 8 ˚ A) et aux interactions `a longue distance (r
12> 15 ˚ A). Les valeurs de N
ef fcalcul´ees pour les diff´erents ensembles de structures prot´eiques sont donn´ees en Table 3.1.
3.2 D´ ependance g´ en´ erale en la taille des prot´ eines
Nous nous concentrons dans un premier temps sur les caract´eristiques `a courte
distance (r
12compris entre 3 et 8 ˚ A) des potentiels d´eriv´es des diff´erents sous-groupes
DB
iet de ceux d´eriv´es de la base de donn´ees compl`ete DB
0. Un premi`ere constatation
digne d’int´erˆet concerne l’excellente corr´elation qui est observ´ee lorsque ces diff´erents
potentiels sont compar´es l’un `a l’autre. En particulier, si les valeurs de potentiel extraites
d’un sous-groupe DB
isont port´ees en fonction des valeurs correspondantes d´eriv´ees de
DB
0, pour chaque paire de r´esidus (s
1, s
2) et chaque intervalle de distance [r
12, r
12+∆r
12], un coefficient de corr´elation lin´eaire compris entre 0.92 et 0.96 est obtenu. Cependant, la pente de la droite de r´egression accuse une nette d´ependance en la taille des prot´eines : elle passe graduellement d’une valeur sup´erieure `a 1.15 jusqu’`a approximativement 0.9 lorsque les tailles des prot´eines croissent de 150 `a environ 1500 r´esidus (Figure 3.1).
Remarquons qu’`a ce niveau les potentiels d´eriv´es de la base de donn´ees compl`ete DB
0, qui comprend des prot´eines de tailles tr`es diff´erentes, se comportent essentiellement comme s’ils ´etaient d´eriv´es de prot´eines compos´ees de N
DBef f0r´esidus, ce qui confirme notre d´efinition de N
ef f(Equation 3.1).
Figure 3.1 – Influence g´en´erale de la taille des prot´eines.
S, la pente de la droite de r´egression obtenue en portant les valeurs de potentiel `a courte distance d´eriv´ees des sous-groupesDBi en fonction des valeurs correspondantes extraites de DB0, est donn´ee en fonction du nombre moyen de r´esidus dans les prot´eines de chaque sous-groupe (Nef f). Le symbole((x ))rep`ere les coordonn´ees (603,1) qui correspondent `a la comparaison des ´energies d´eriv´ees deDB0 avec elles-mˆemes.Cette variation de la pente de la droite de r´egression indique que les valeurs absolues des ´energies d’interaction d´eriv´ees de grandes prot´eines sont, en moyenne, plus petites que celles d´eriv´ees de petites prot´eines. Une telle constatation signale que la distribution des contacts entre les diff´erents types d’acides amin´es est plus proche d’une distribution al´eatoire au sein de grandes prot´eines. Le fait que les interactions entre r´esidus apparaissent comme moins sp´ecifiques dans de grandes prot´eines sugg`ere que ces prot´eines sont capables de tol´erer des niveaux de frustration plus ´elev´es. Cette tendance g´en´erale, qui a d´ej`a ´et´e relev´ee dans une ´etude ant´erieure [6], est li´ee notamment `a la r´epartition inhomog`ene des r´esidus hydrophobes et hydrophiles entre le coeur et la surface des prot´eines et au fait que le volume du coeur hydrophobe est proportionnellement plus important au sein d’une grande prot´eine. Une interpr´etation plus d´etaill´ee de cet effet est donn´ee dans la section suivante.
Ce r´esultat sugg`ere que n´egliger l’influence de la taille des prot´eines de la base
de donn´ees peut se r´ev´eler ˆetre une relativement bonne approximation lorsque l’on se
concentre sur l’´etude d’une prot´eine unique, ou de prot´eines de tailles similaires, mais
pas lorsque l’on consid`ere des prot´eines de tailles diff´erentes.
3.3 D´ ependance dans le cas de paires de r´ esidus sp´ ecifiques
Malgr´e l’excellente corr´elation qui est observ´ee entre les potentiels d´eriv´es de bases de donn´ees compos´ees de prot´eines de diff´erentes tailles, des comportements vari´es se r´ev`elent lorsque les potentiels qui correspondent `a diff´erentes paires d’acides amin´es sont analys´es ind´ependamment. Quelques exemples sont illustr´es et discut´es dans cette section.
Consid´erons tout d’abord l’´energie libre d´eriv´ee pour la paire Valine-Valine en fonction de la distance s´eparant ces deux r´esidus (Figure 3.2). Ce profil ´energ´etique est caract´eristique de la plupart des paires d’acides amin´es hydrophobes : il pr´esente un minimum profond `a courte distance ainsi qu’un deuxi`eme minimum, aux alentours de 10 ˚ A, qui r´esulte de l’empilement serr´e des r´esidus au coeur des prot´eines. Ce second minimum est une caract´eristique typique des potentiels de force moyenne d´eriv´es en milieu dense, et est observ´e de mani`ere similaire dans des syst`emes nettement moins complexes que les prot´eines (liquide homog`ene,. . .). Dans le cas qui nous int´eresse, il indique simplement que la configuration dans laquelle deux r´esidus hydrophobes sont s´epar´es par un troisi`eme r´esidu, probablement hydrophobe ´egalement, est favorable.
Figure 3.2 – Influence de la taille des prot´eines sur le potentiel Valine-Valine.
Le potentiel de force moyenne ∆W(2) pour la paire d’acides amin´es Val-Val est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`ete DB0 est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.On ne peut ´eviter de remarquer que ces minima sont nettement plus prononc´es lorsque
le potentiel est extrait du sous-groupe contenant exclusivement des petites prot´eines. Ce
ph´enom`ene trouve son origine, du moins en partie, dans l’eau environnant les prot´eines,
dont la pr´esence induit une r´epartition inhomog`ene des acides amin´es hydrophobes
et hydrophiles entre le coeur et la surface des prot´eines. Le rapport surface/volume
est naturellement plus petit dans une grande que dans un petite prot´eine, mais cette diff´erence n’est pas (ou pas parfaitement) compens´ee par une variation de la composition en diff´erents types d’acides amin´es. En cons´equence, les coeurs hydrophobes des prot´eines deviennent de moins en moins hydrophobes lorsque des prot´eines de tailles croissantes sont consid´er´ees. A titre d’exemple, les valines repr´esentent 6.8% du nombre total de r´esidus, et 10.9% du nombre total de r´esidus enfouis dans DB
1, tandis que ces valeurs sont respectivement 7.4% et 9.5% dans DB
6. Etant donn´e que la majorit´e des interactions
`a courte distance sont ´etablies entre r´esidus enfouis, cette diminution de la concentration en r´esidus hydrophobes dans le coeur g´en`ere des potentiels moins favorables `a courte distance dans le cas de paires de r´esidus hydrophobes.
Un autre aspect remarquable de ces courbes est la variation soudaine de l’´energie libre calcul´ee lorsque r
12approche le diam`etre moyen des prot´eines inclues dans la base de donn´ees (ce diam`etre vaut approximativement 20 ˚ A dans DB
1, et il est plus grand que 40 ˚ A dans DB
6et DB
0). Deux r´esidus s´epar´es par un telle distance sont en effet probablement situ´es en surface de la prot´eine, ce qui est tr`es d´efavorable dans le cas d’acides amin´es hydrophobes.
Figure 3.3 – Influence de la taille des prot´eines sur le potentiel Aspartate-Arginine.
Le potentiel de force moyenne ∆W(2) pour la paire d’acides amin´es Asp-Arg est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`eteDB0est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.Les paires de r´esidus portant des charges oppos´ees sont repr´esent´ees ici par la
paire Asp-Arg, dont le profil ´energ´etique est port´e en Figure 3.3. Dans ce cas l’´energie
calcul´ee est n´egative `a courte distance, refl´etant l’interaction ´electrostatique favorable
de formation d’un pont salin. Le coˆ ut ´energ´etique n´ecessaire `a l’enfouissement d’un
r´esidu charg´e devient cependant dominant lorsque r
12augmente, et le potentiel passe
en positif apr`es 10 ˚ A. Le potentiel extrait du sous-groupe contenant les petites prot´eines
revient en territoire favorable apr`es 20 ˚ A, ´etant donn´e que les r´esidus sont alors tr`es
probablement accessibles au solvant. L’effet de la taille des prot´eines inclues dans la base de donn´ees est oppos´e `a celui observ´e pour les paires de r´esidus hydrophobes : le minimum d’´energie `a courte distance est plus profond tandis que le maximum d’´energie `a moyenne distance est moins prononc´e dans le cas de grandes prot´eines. Cette diff´erence s’explique essentiellement sur la base de la proportion plus importante de r´esidus hydrophiles enfouis dans les grandes prot´eines.
Une autre mani`ere de comprendre l’influence de la taille des prot´eines sur les potentiels qui en sont d´eriv´es est de consid´erer que les grandes prot´eines sont capables de tol´erer des niveaux de frustration plus ´elev´es. Cette frustration r´esulte notamment de la n´ecessit´e d’accomoder des fractions similaires de r´esidus hydrophobes et hydrophiles dans une prot´eine caract´eris´ee par un coeur hydrophobe plus vaste. Il en r´esulte que, dans des grandes prot´eines, les potentiels de force moyenne d´ecrivant les interactions entre r´esidus hydrophobes sont calcul´es comme ´etant moins favorables, alors que ceux g´en´er´es pour des paires de r´esidus hydrophiles sont plus favorables. La d´ependance g´en´erale qui est d´ecrite dans la section pr´ec´edente est une cons´equence du fait que, outre certaines interactions sp´ecifiques qui peuvent ˆetre favorables ou non, une contribution non-n´egligeable aux potentiels de paires provient implicitement de la pr´esence de l’eau et est favorable entre r´esidus hydrophobes et d´efavorable entre r´esidus hydrophiles. Augmenter la taille des prot´eines de la base de donn´ees r´esulte donc en moyenne en une diminution, en valeur absolue, des ´energies libres qui en sont extraites.
Figure 3.4 – Influence de la taille des prot´eines sur le potentiel Arginine-Tyrosine.
Le potentiel de force moyenne ∆W(2) pour la paire d’acides amin´es Arg-Tyr est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`eteDB0est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.Les Figures 3.4 et 3.5 donnent deux autres exemples de potentiels d’interactions de paires et de l’influence de la taille des prot´eines de la base de donn´ees. Le profil
´energ´etique correspondant `a la paire Arg-Tyr (Figure 3.4) pr´esente un minimum `a tr`es
courte distance qui refl`ete la nature favorable des interactions cation-π, ´etablies entre un cycle aromatique (appartenant dans ce cas au r´esidu Tyr) et une charge positive (port´ee ici par Arg) [14]. L’´energie libre s’annule presque parfaitement pour toutes les distances sup´erieures `a 5-6 ˚ A. Plus pr´ecis´ement, elle pr´esente un maximum positif aux alentours de 5-6 ˚ A lorsqu’elle est extraite de petites prot´eines et reste l´eg`erement n´egative dans le cas de grandes prot´eines. Ces comportements diff´erents sont probablement dus aux pr´ef´erences individuelles contradictoires des tyrosines, qui sont hydrophobes, et des arginines, qui sont hydrophiles.
Un minimum tr`es profond `a courte distance est mis en ´evidence dans le profil
´energ´etique correspondant `a la paire Phe-Tyr. Ce minimum r´esulte de l’interaction favorable qui peut s’´etablir entre deux chaˆınes lat´erales aromatiques. Rappelons que les degr´es de libert´e des chaˆınes lat´erales sont n´eglig´es lors de la d´erivation des potentiels, ce qui implique qu’aucune distinction n’est faite entre les diff´erentes g´eom´etries d’interaction. Dans ce cas particulier, l’´energie calcul´ee est en r´ealit´e une moyenne sur diff´erentes conformations dans lesquelles les cycles aromatiques peuvent ˆetre parall`eles (π − π stacking ) ou orthogonaux (T-shaped conformation ). Lorsque la distance entre les deux r´esidus d´epasse 5-6 ˚ A, l’´energie libre croˆıt graduellement mais reste n´egative. La nature hydrophobe des r´esidus aromatiques implique en effet une contribution favorable r´esultant de leur enfouissement dans le coeur de la prot´eine. La d´ependance de ce potentiel en la taille des prot´eines est en cons´equence assez comparable avec celle observ´ee pour la paire Val-Val (Figure 3.2).
Figure 3.5 – Influence de la taille des prot´eines sur le potentiel Phenylalanine-Tyrosine.
Le potentiel de force moyenne ∆W(2)pour la paire d’acides amin´es Phe-Tyr est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`eteDB0est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.
Ces exemples illustrent de mani`ere ´eloquente les diff´erences fondamentales qui
existent entre les potentiels de force moyenne et les (( vraies )) ´energies qui d´eterminent
le reploiement et la stabilit´e des prot´eines. En effet, on peut difficilement s’attendre, par exemple, `a ce qu’un (( vrai )) potentiel d’interaction entre deux r´esidus portant des charges oppos´ees soit d´efavorable entre 10 et 20 ˚ A. Par ailleurs, l’´energie favorable calcul´ee dans le cas de paires de r´esidus hydrophobes refl`ete implicitement le fait que ces r´esidus tendent `a se regrouper dans le coeur des prot´eines pour ´eviter tout contact avec l’eau.
Ces couplages entre diff´erents effets et interactions constituent un obstacle important `a la compr´ehension de la signification physique de ces potentiels et ont parfois ´et´e invoqu´es dans le but de d´emontrer qu’ils ne sont pas valables [1]. Il est cependant essentiel de r´ealiser que les potentiels de force moyenne n’ont pas la pr´etention de reproduire les (( vrais )) potentiels d’interaction U mais correspondent `a des moyennes statistiques de ces potentiels, ce qui apparaˆıt clairement dans les ´equations 2.2 `a 2.4. Les potentiels de force moyenne permettent de d´efinir un nombre limit´e de fonctions ´energ´etiques qui incarnent l’ensemble complexe d’interactions qui d´efinissent les propri´et´es des prot´eines, et incluent ´egalement certaines contributions entropiques [15–18].
3.4 D´ ependance ` a longue distance
Revenons quelques instants aux syst`emes simples consid´er´es en Section 2.1. Suppo- sons qu’une interaction favorable s’´etablisse lorsque deux particules sont s´epar´ees par une distance r
12< r
lim. Il en r´esulte que, `a l’´equilibre, la probabilit´e d’observer deux particules s´epar´ees par une distance inf´erieure `a r
limest sup´erieure `a celle attendue dans une distribution ind´ependante. Ceci peut s’exprimer par :
Z
V
Z
r12<rlim
P
(2)(~r
1, ~r
2) d~r
1d~r
2>
Z
V
Z
r12<rlim
P
(1)(~r
1)P
(1)(~r
2) d~r
1d~r
2, (3.2) o` u l’int´egration est effectu´ee sur toutes les paires de positions ~r
1et ~r
2s´epar´ees par une distance r
12< r
lim. Les conditions de normalisation
Z
V
P
(1)(~r
i) d~r
i= 1 et
Z
V
Z
V
P
(2)(~r
i, ~r
j) d~r
id~r
j= 1 (3.3) impliquent alors que, si le nombre de particules N est fini,
Z
V
Z
r12>rlim
P
(2)(~r
1, ~r
2) d~r
1d~r
2<
Z
V
Z
r12>rlim
P
(1)(~r
1)P
(1)(~r
2) d~r
1d~r
2, (3.4)
et le potentiel de force moyenne w
(2)(~r
1, ~r
2) sera donc, en moyenne, d´efavorable `a longue
distance (voir ´equation 2.3). Cet effet est d’autant plus prononc´e que N est petit : si
N → ∞ , `a N/V constant, l’exc`es (par rapport `a une distribution ind´ependante) de
paires s´epar´ees par une courte distance devient n´egligeable par rapport au nombre total
de paires. C’est `a dire :
N→∞
lim
(N/V cst)Z
V
Z
r12>rlim
P
(1)(~r
1)P
(1)(~r
2)d~r
1d~r
2= Z
V
Z
V
P
(1)(~r
1)P
(1)(~r
2)d~r
1d~r
2= 1
N→∞
lim
(N/V cst)Z
V
Z
r12>rlim
P
(2)(~r
1, ~r
2)d~r
1d~r
2= Z
V
Z
V
P
(2)(~r
1, ~r
2)d~r
1d~r
2= 1 . (3.5) Dans le cas contraire, si un potentiel r´epulsif `a courte distance r´egit les interactions entre particules et que le nombre de particules N est fini, on observe un exc`es de paires s´epar´ees par une distance r
12> r
lim.
Il a ´et´e d´emontr´e que le comportement de P
(2), lorsque la distance r
12s´eparant deux particules tend vers l’infini dans un syst`eme de volume V contenant N particules identiques, est d´ecrit par l’´equation suivante [8–10] :
r12
lim
→∞P
(2)(~r
1, ~r
2)
P
(1)(~r
1)P
(1)(~r
2) = 1 + 1 − α
~r1α
~r2κ/κ
0N − 1 avec α
~ri= − V ∂ log P
(1)(~r
i)
∂V
¯
¯
¯
¯
N,Tet κ = − 1 V
∂V
∂p
¯
¯
¯
¯
N,T, (3.6)
o` u κ est la compressibilit´e isothermique du syst`eme, κ
0celle d’un gaz parfait, p la pression et T la temp´erature. Pour un fluide uniforme sans effets de bord, P
(1)(~r
i) = 1/V et α
~ri= 1. Dans ce cas, l’´equation 3.6 indique que la probabilit´e de trouver la particule 1 en ~r
1et la particule 2 en ~r
2, si la distance s´eparant ~r
1de ~r
2est suffisamment grande, vaut 1/V
2dans un gaz parfait. Par contre, si la compressibilit´e du syst`eme est plus grande (plus petite) que celle d’un gaz parfait, cette probabilit´e est inf´erieure (sup´erieure) `a 1/V
2. Cet effet est plus marqu´e dans des syst`emes contenant un nombre restreint de particules (N ). Si l’influence des bords du syst`eme ne peut ˆetre n´eglig´ee, il faut tenir compte de corrections suppl´ementaires, qui sont encod´ees dans α
~ri[9, 10].
L’´equation 3.6 peut ˆetre g´en´eralis´ee aux syst`emes contenant plusieurs types de particules :
r12
lim
→∞P
(2)(~r
1, ~r
2| s
1, s
2)
P
(1)(~r
1| s
1)P
(1)(~r
2| s
2) = 1 + 1 − α
s~r11α
s~r22κ
s1s2/κ
0N − 1 avec α
~srii
= − V ∂ log P
(1)(~r
i| s
i)
∂V
¯
¯
¯
¯
N,Tet κ
s1s2= − 1 V
∂V
∂p
s1s2¯
¯
¯
¯
N,T, (3.7) o` u p
s1s2est la pression due aux paires de particules (s
1, s
2) et κ
s1s2la compressibilit´e correspondante.
Dans le cas des prot´eines, en utilisant les ´equations 2.3, 2.8, 2.16, et 2.18, les relations 3.6 et 3.7 peuvent ˆetre approxim´ees en termes de fr´equences d’observation des paires d’acides amin´es, F (r
12) et F (r
12| s
1, s
2). On a :
r12
lim
→rmaxF (r
12) V
ν(r
12) ' 1 + 1 − α
1α
2κ/κ
0N − 1 (3.8)
et lim
r12→rmax
F (r
12| s
1, s
2) V
ν(r
12) ' 1 + 1 − α
s11α
s22κ
s1s2/κ
0N − 1 (3.9)
o` u r
maxindique une distance suffisamment grande qui ne d´epasse pas le diam`etre de la prot´eine, α
1α
2et α
s11α
s22correspondent aux valeurs de α
~r1α
~r2et α
~sr11α
s~r22moyenn´ees sur toutes les paires de positions ~r
1et ~r
2, ν(r
12) est d´efini par l’´equation 2.14, et V est pos´e
´egal `a N fois le volume moyen par r´esidu, qui vaut 190 ˚ A
3(cette valeur a ´et´e estim´ee
`a l’aide du programme SurVol [19]). Notons que, ´etant donn´e que les mol´ecules d’eau ne sont pas inclues explicitement dans le syst`eme, la fronti`ere qui d´elimite celui-ci est confondue avec la surface de la prot´eine.
La distance maximale de corr´elation des potentiels de force moyenne est g´en´eralement plus grande que celle des (( vrais )) potentiels qui r´egissent les interactions entre particules.
Par exemple, la valeur limite de 7 ˚ A qui est couramment utilis´ee pour les potentiels de type Lennard-Jones n’est pas suffisante pour inclure le minimum correspondant au second voisin que nous avons observ´e, par exemple, en Figure 3.2. L’agencement particulier des diff´erents ´el´ements de structure secondaire au sein des prot´eines peut ´egalement ˆetre tenu pour responsable de corr´elations entre les positions de r´esidus s´epar´es par des distances plus importantes. La distance maximale de corr´elation observ´ee pour des potentiels de force moyenne dans des prot´eines est de l’ordre de 15 ˚ A [3]. Nous consid´erons donc ici que la condition r
12→ r
maxest v´erifi´ee lorsque r
12est plus grand que 15 ˚ A (sans d´epasser le diam`etre de la prot´eine).
Comportement ` a longue distance du potentiel non-sp´ ecifique w
(2)(r
12)
Afin de v´erifier l’ad´equation entre le comportement du potentiel non-sp´ecifique w
(2)(r
12) (Equation 2.16) et le comportement th´eorique attendu dans le cas de syst`emes simples et adapt´e aux prot´eines (Equation 3.8), nous avons calcul´e F (r
12)V /ν(r
12) en fonction de 1/(N
ef f− 1) dans chaque sous-groupe DB
i, pour diff´erentes valeurs de r
12. Afin de limiter les erreurs r´esultant de l’utilisation de ν(r
12), les prot´eines dont le rayon de gyration s’´ecarte de plus de 10% de celui correspondant `a un sph`ere parfaite de mˆeme volume ont ´et´e exclues. Nous avons ´egalement ´et´e contraints d’exclure certaines prot´eines, de diam`etre trop petit, dans le cas de grandes valeurs de r
12.
La Table 3.2 indique que le potentiel non-sp´ecifique w
(2)(r
12), d´eriv´e de structures prot´eiques, suit une d´ependance selon N qui est en bon accord avec la relation th´eorique
´enonc´ee ci-dessus (Equation 3.8). On observe en effet une d´ependance lin´eaire de F (r
12)V /ν(r
12) selon 1/(N
ef f− 1), avec des coefficients de corr´elation particuli`erement
´elev´es (en valeur absolue) lorsque r
12est compris entre 20 et 30 ˚ A. De plus, les droites de r´egression sont caract´eris´ees par des ordonn´ees `a l’origine fort proches de l’unit´e.
r12 coefficient de ordonn´ee `a pente α1α2κ/κ0
corr´elation lin´eaire l’origine
15 -0.67 1.07 -5.2 6.2
20 -0.90 1.01 -10.0 11.0
25 -0.96 0.97 -14.2 15.2
30 -0.94 0.95 -19.8 20.8
Table 3.2 – Influence de la taille des prot´eines sur la composante longue distance du potentiel non-sp´ecifique.
Le coefficient de corr´elation lin´eaire entreF(r12)V /ν(r12) et 1/(Nef f−1), ainsi que l’ordonn´ee `a l’origine et la pente de la droite de r´egression obtenue en portantF(r12)V /ν(r12) en fonction de 1/(Nef f −1), sont donn´es pour diff´erentes valeurs der12 (avec ∆r12= 1 ˚A).α1α2κ/κ0est calcul´e `a l’aide de l’´equation 3.8.
Pour chaque valeur de r
12, la pente de la droite de r´egression permet d’obtenir une valeur pour le terme α
1α
2κ/κ
0, qui inclut l’effet de la compressibilit´e du syst`eme et de la pr´esence du bord (Equation 3.8). Il est relativement difficile d’attribuer une signification pr´ecise `a ce terme dans le cas de prot´eines. Dans le coeur des prot´eines, on peut raisonnablement supposer une distribution uniforme des r´esidus, et donc l’absence d’effet `a longue distance. Pour les paires de r´esidus localis´es dans le coeur, α
~r1α
~r2κ/κ
0doit donc ˆetre proche de l’unit´e. Par contre, `a proximit´e de la surface, le volume non nul des r´esidus induit certaines particularit´es dans la distribution des distances entre r´esidus : α
~r1α
~r2κ/κ
0pourra donc ˆetre diff´erent de 1 dans cette r´egion. La d´ependance de α
1α
2κ/κ
0en r
12provient du fait que α
1α
2correspond `a une moyenne de α
~r1α
~r2sur toutes les paires de positions ~r
1et ~r
2(Equation 3.8). L’effet de bord est donc plus marqu´e pour de grandes valeurs de r
12, ´etant donn´e que la proportion de paires de r´esidus dont l’un au moins est proche de la surface de la prot´eine augmente avec r
12. Par ailleurs, les prot´eines ne sont pas des sph`eres parfaites, ce qui implique une certaine impr´ecision lors de l’´evaluation de ν(r
12). Pour des grandes distances qui ne d´epassent pas le diam`etre de la prot´eine, cette impr´ecision se traduit vraisemblablement par une surestimation de ν(r
12) et donc ´egalement de α
1α
2κ/κ
0. Cet effet, dont l’amplitude d´epend de r
12, joue sans doute ´egalement un rˆole au niveau de la d´ependance observ´ee de α
1α
2κ/κ
0en r
12. Comportement ` a longue distance du potentiel sp´ ecifique ∆W
(2)(r
12, s
1, s
2)
Le probl`eme de l’impr´ecision sur ν(r
12) disparaˆıt lors de l’´etude du potentiel sp´ecifique
∆W
(2)(r
12, s
1, s
2). En effet, sur la base des ´equations 2.19, 3.8 et 3.9, on trouve :
r12
lim
→∞F (r
12| s
1, s
2)
F (r
12) = 1 − ∆(α
1α
2κ/κ
0)
s1s2N − α
1α
2κ/κ
0avec ∆(α
1α
2κ/κ
0)
s1s2= α
s11α
s22κ
s1s2/κ
0− α
1α
2κ/κ
0. (3.10) Afin de maintenir un rapport signal/bruit satisfaisant, nous calculons ici les fr´equences relatives F (r
12| s
1, s
2) et F (r
12) en moyenne sur tous les intervalles qui correspondent `a des distances plus grandes que 15 ˚ A.
En Figure 3.6, F (r
12| s
1, s
2)/F (r
12) est port´e en fonction de 1/(N
ef f− α
1α
2κ/κ
0) pour quelques paires d’acides amin´es (s
1, s
2). Qualitativement, l’accord avec la relation th´eorique est assez remarquable. Dans tous les cas, la d´ependance en 1/(N
ef f− α
1α
2κ/κ
0) est lin´eaire, avec un tr`es bon coefficient de corr´elation et une ordonn´ee `a l’origine proche de l’unit´e (Table 3.3). La seule exception concerne la paire Arg-Val, pour laquelle le faible coefficient de corr´elation observ´e r´esulte de la pente, quasiment nulle, de la droite de r´egression.
Les pentes des droites de r´egression permettent d’´evaluer ∆(α
1α
2κ/κ
0)
s1s2pour chaque paire d’acides amin´es (Equation 3.10). Notons que, contrairement `a α
~ri, α
s~rii
diff`ere g´en´eralement de 1 en surface mais ´egalement dans le coeur des prot´eines, en cons´equence de la distribution non-uniforme des diff´erents types d’acides amin´es. En outre, κ
s1s2/κ
0devrait ˆetre plus grand que κ/κ
0dans le cas de paires d’acides amin´es qui pr´ef`erent se
regrouper dans le coeur des prot´eines, et plus petit que κ/κ
0dans le cas de paires d’acides
amin´es hydrophiles. On trouve en effet des valeurs de ∆(α
1α
2κ/κ
0)
s1s2positives dans le
cas de paires de r´esidus hydrophobes (par ex. : ∆(α
1α
2κ/κ
0)
V al−V al= 26.4) et n´egatives
Figure 3.6 – Influence de la taille des prot´eines sur la composante longue distance des potentiels de paires.
Le rapport F(r12|s1, s2)/F(r12), extrait des diff´erents sous-groupesDBi pour r12>15˚A, est port´e en fonction de 1/(Nef f−α1α2κ/κ0). Sur la base du comportement `a longue distance observ´e dans le cas du potentiel non-sp´ecifique (Equation 3.8, Table 3.2), on pose α1α2κ/κ0 = 15.L’impr´ecision sur cette valeur n’a pas r´eellement de cons´equence ´etant donn´e queα1α2κ/κ0 est petit par rapport `aNef f. Les droites de r´egression, dont les caract´eristiques apparaissent en Table 3.3, sont
´egalement repr´esent´ees.
dans le cas de paires de r´esidus charg´es (par ex. : ∆(α
1α
2κ/κ
0)
Asp−Arg= − 12.2). Il est n´eanmoins int´eressant de remarquer que les paires de r´esidus portant des charges de signes oppos´es n’apparaissent que l´eg`erement plus compressibles que celles portant des charges de mˆeme signe. L’exc`es, `a longue distance, de paires de r´esidus charg´es semble donc r´esulter essentiellement de la r´epartition inhomog`ene des r´esidus hydrophobes et hydrophiles entre le coeur et la surface et, dans une moindre mesure, de l’existence d’interactions sp´ecifiques `a courte distance.
s1-s2 coefficient de ordonn´ee `a pente ∆(α1α2κ/κ0)s1s2 corr´elation lin´eaire l’origine
Val - Val -0.997 1.009 -26.4 26.4
Tyr - Tyr -0.956 0.987 -8.6 8.6
Arg - Val 0.517 1.002 0.7 -0.7
Asp - Arg 0.997 0.999 12.2 -12.2
Asp - Asp 0.987 1.005 15.5 -15.5
Arg - Arg 0.986 0.993 14.7 -14.7
Table 3.3 – Influence de la taille des prot´eines sur la composante longue distance des potentiels de paires.
Le coefficient de corr´elation lin´eaire entre F(r12|s1, s2)/F(r12) (pour r12 >15˚A) et 1/(Nef f−α1α2κ/κ0), ainsi que l’ordonn´ee `a l’origine et la pente de la droite de r´egression obtenue en portantF(r12|s1, s2)/F(r12) en fonction de 1/(Nef f−α1α2κ/κ0), sont donn´es pour diff´erentes paires (s1, s2). ∆(α1α2κ/κ0)s1s2 est obtenu `a l’aide de l’´equation 3.10.
3.5 Prise en compte de la taille des prot´ eines
Les potentiels ∆W
(2)(r
12, s
1, s
2) associent, `a chaque paire de r´esidus (s
1, s
2) s´epar´es par une distance r
12, une ´energie libre d´ecrivant l’interaction entre ces r´esidus en tenant compte d’un environnement prot´eique moyen. Les r´esultats pr´esent´es dans les sections pr´ec´edentes indiquent que l’influence de la taille des prot´eines inclues dans la base de donn´ees est sp´ecifique `a chaque paire d’acides amin´es et peut ˆetre relativement importante. Cet (( environnement prot´eique moyen )) , ressenti par les acides amin´es et inclus implicitement dans les potentiels, n’est en effet pas identique dans de grandes ou de petites prot´eines. Ces diff´erences d’environnement moyen ont un impact sur les potentiels, qui d´epend de la nature des r´esidus consid´er´es. Il semble d`es lors utile d’analyser l’effet de la d´ependance en la taille des prot´eines sur le pouvoir pr´edictif des potentiels. Nous
´evaluons ici deux mani`eres de prendre en compte cette d´ependance lors de la d´erivation des potentiels.
3.5.1 Utilisation de plusieurs bases de donn´ ees
Une m´ethode simple permettant de tenir compte de la d´ependance des potentiels en la taille des prot´eines n´ecessite la d´efinition de plusieurs bases de donn´ees DB
i, chacune correspondant `a un intervalle restreint de tailles de prot´eines. L’´etude d’une prot´eine de taille donn´ee se fera alors `a l’aide des potentiels de force moyenne ∆W
DB(2)i(r
12, s
1, s
2), d´eriv´es de la base de donn´ees DB
iqui contient uniquement des prot´eines de taille similaires `a celle de la prot´eine cible.
Cette approche, qui semble tr`es naturelle, pr´esente cependant un d´efaut majeur : plus l’intervalle de tailles de prot´eines caract´erisant DB
iest limit´e, plus le nombre de prot´eines inclues dans DB
isera restreint, ce qui nuit forc´ement `a la validit´e statistique de la proc´edure de d´erivation et g´en`ere un bruit important dans les potentiels. Ceci est visible dans les quelques exemples donn´es pr´ec´edemment (Figures 3.2-3.5) mais est nettement plus probl´ematique dans le cas de paires de r´esidus peu fr´equents.
Evaluation des performances
Afin de comparer les performances des potentiels d´eriv´es des diff´erentes bases de donn´ees DB
i, nous avons ´evalu´e leur aptitude `a isoler une association correcte (s´equence - structure native) parmi un ensemble de leurres. Ces leurres sont obtenus en redistribuant al´eatoirement les positions des r´esidus le long de la s´equence, la structure ´etant maintenue fixe.
Notons que plusieurs raisons nous ont pouss´e `a pr´ef´erer ici les ensembles de leurres obtenus par une modification de s´equence plutˆot que par une modification de structure.
Tout d’abord, l’utilisation de leurres d´efinis sur la base d’alt´erations structurales ne permet pas d’effectuer des tests comparatifs sur des prot´eines de diff´erentes tailles.
En effet, la plupart des ensembles de structures alternatives disponibles, obtenus via
diverses approches de simulation ou de mod´elisation, sont construits uniquement sur
la base de petites prot´eines (voir par exemple [20–23]). Les proc´edures d’enfilement
(ou threading [12, 24–28]), qui comparent une s´equence avec des parties restreintes
de structures prot´eiques connues de taille plus importante, souffrent d’un probl`eme
similaire : les longues s´equences ne peuvent ˆetre compar´ees qu’avec un nombre tr`es
limit´e de conformations. Par ailleurs, la modification de la structure d’une prot´eine affecte g´en´eralement sa compacit´e, et la capacit´e des potentiels `a simplement ´enum´erer le nombre de contacts peut dans certains cas avoir un impact plus important que l’´evaluation pr´ecise de la sp´ecificit´e de ces contacts. La modification de s´equence apparaˆıt au contraire comme un moyen efficace de produire diff´erents ensembles d’interactions entre acides amin´es, tout en conservant la distribution globale des distances s´eparant les r´esidus.
Cette m´ethode pr´esente ´egalement l’avantage d’ˆetre applicable de mani`ere identique `a des prot´eines de tailles diff´erentes, et une ´etude r´ecente sugg`ere qu’elle est l´eg`erement plus efficace que la modification de structure pour la comparaison des performances de potentiels de distance [13].
En pratique, nous avons consid´er´e une `a une les 735 prot´eines de DB
0. Pour chacune, un ensemble de 1000 leurres a ´et´e construit `a l’aide de modifications al´eatoires des positions des r´esidus dans la s´equence. L’´energie totale de la prot´eine, ainsi que celles des leurres qui lui sont associ´es, ont ´et´e ´evalu´ees `a l’aide des potentiels d´eriv´es des diff´erentes bases de donn´ees DB
i(i = 0, . . . , 6). Notons que, dans chaque cas, la prot´eine utilis´ee comme test est exclue des bases de donn´ees lors de la d´erivation des potentiels afin d’´eviter l’introduction d’un biais dans les diff´erentes fonctions ´energ´etiques. Les performances des potentiels sont ´evalu´ees `a l’aide du Z-score :
Z = (E
m− µ
r)/σ
r, (3.11)
o` u E
mest l’´energie calcul´ee pour l’association correcte s´equence-structure, tandis que µ
ret σ
rsont respectivement la moyenne et l’´ecart-type de la distribution des ´energies calcul´ees pour les leurres. Un Z-score n´egatif, de grande valeur absolue, indique que la fonction ´energ´etique permet de distinguer efficacement l’association s´equence-structure correcte parmi les diff´erents leurres.
La comparaison des performances des potentiels d´eriv´es de la base de donn´ees compl`ete DB
0et des diff´erents sous-groupes DB
ifait l’objet de la Figure 3.7. En accord avec plusieurs ´etudes ant´erieures [4, 13], on observe que les potentiels d´eriv´es d’une base de donn´ees caract´eris´ee par un intervalle restreint de tailles de prot´eines sont plus performants lorsqu’ils sont appliqu´es `a des prot´eines de tailles similaires. En particulier, les potentiels d´eriv´es de petites prot´eines (∆W
DB(2)1) poss`edent un meilleur pouvoir discriminatoire que ceux d´eriv´es de grandes prot´eines (∆W
DB(2)6) lorsque les tests sont r´ealis´es sur de petites prot´eines. En revanche, une tendance oppos´ee est constat´ee lorsque les tests concernent de grandes prot´eines.
Cependant, les potentiels d´eriv´es de sous-groupes de la base de donn´ees pr´esentent de moins bonnes performances que ceux d´eriv´es de la base de donn´ees compl`ete, et ce dans la totalit´e de l’intervalle de tailles de prot´eines consid´er´e. La seule exception concerne les potentiels d´eriv´es de DB
1qui sont l´eg`erement meilleurs que ceux d´eriv´es de DB
0dans un intervalle restreint de tailles de prot´eines. La perte de validit´e statistique qui est li´ee `a la diminution du nombre total de prot´eines consid´er´es est vraisemblablement `a l’origine de cette sous-performance des potentiels d´eriv´es des sous-groupes DB
i(i = 1, . . . , 6).
3.5.2 D´ efinition de fonctions correctives
L’utilisation d’une base de donn´ee restreinte compos´ee uniquement de prot´eines de
tailles similaires `a celle de la prot´eine ´etudi´ee s’´etant r´ev´el´ee peu fructueuse, nous avons
Figure 3.7 – Performances relatives des potentiels d´eriv´es de sous-groupes de la base de donn´ees.
Les performances des potentiels d´eriv´es de petites (∆WDB(2)1(r12, s1, s2),5) et de grandes (∆WDB(2)6(r12, s1, s2),4) prot´eines sont compar´ees avec celles des potentiels d´eriv´es de la base de donn´ees compl`ete (∆WDB(2)0(r12, s1, s2)), en fonction du nombre de r´esidus des prot´eines qui servent de test.L’aptitude du potentiel ∆W `a isoler une association s´equence-structure correcte parmi un ensemble de leurres est ´evalu´ee `a l’aide du Z-scoreZ(∆W) (Equation 3.11). Une valeur positive de la diff´erence Z(∆WDB0)−Z(∆WDBi) indique que ∆WDBi poss`ede un meilleur pouvoir discriminatoire que ∆WDB0. Chaque valeur port´ee en graphique correspond `a une moyenne sur 35 prot´eines de tailles similaires.
< N >est le nombre moyen de r´esidus de ces prot´eines.
propos´e une approche alternative permettant la mise au point de potentiels tenant compte de la taille des prot´eines. Cette approche est bas´ee sur le fait que, `a courte distance, les allures g´en´erales des profils ´energ´etiques de paires sont essentiellement conserv´ees lorsque des prot´eines de tailles diff´erentes sont consid´er´ees. Ceci incite la mise au point de fonctions correctives permettant d’exprimer l’´energie libre correspondant `a une taille de prot´eine donn´ee en fonction de celle d´eriv´ee de la base de donn´ees compl`ete, qui est constitu´ee de prot´eines de tailles diverses. Il est possible, `a l’aide d’une telle proc´edure, de prendre en compte les tailles des prot´eines, tout en conservant les avantages d’une base de donn´ees incluant un nombre important de prot´eines.
Nous avons pr´ec´edemment relev´e l’existence d’une forte corr´elation entre les potentiels
d´eriv´es de la base de donn´ees compl`ete et ceux d´eriv´es des diff´erents sous-groupes, qui
correspondent `a des intervalles de taille limit´es (voir Section 3.2). Cette corr´elation
est obtenue en consid´erant globalement les valeurs de potentiels qui correspondent
aux diff´erentes distances r
12et aux diff´erentes paires de r´esidus (s
1, s
2). En outre,
de relativement bonnes corr´elations peuvent ´egalement ˆetre obtenues si l’on consid`ere
s´epar´ement les potentiels associ´es aux diverses paires de r´esidus (s
1, s
2). La Figure 3.8
met ces corr´elations en ´evidence dans le cas de la paire Val-Val ainsi que de la paire
Asp-Arg.
Figure 3.8 – Comparaison des potentiels d´eriv´es de sous-groupes de la base de donn´ees et de ceux d´eriv´es de la base de donn´ees compl`ete.
Les valeurs des potentiels ∆WDB(2)i(r12, s1, s2) d´eriv´es des sous-groupesDB1(5) etDB6(4), avec 3 ˚A≤r12≤8 ˚A, sont port´ees en fonction des valeurs correspondantes d´eriv´ees deDB0. Les droites de r´egression sont ´egalement repr´esent´ees. (a) Les ´energies qui correspondent `a la paire Val-Val sont consid´er´ees. Les coefficients de corr´elation lin´eaire (entre∆WDB(2)i(r12,Val,Val) et ∆WDB(2)0(r12,Val,Val)) sont sup´erieurs `a 0.99. (b) Les ´energies qui correspondent
`a la paire Asp-Arg sont consid´er´ees. Les coefficients de corr´elation lin´eaire sont compris entre 0.80 et 0.98.