• Aucun résultat trouvé

Influence de la taille des prot´ eines inclues dans la base de donn´ ees

N/A
N/A
Protected

Academic year: 2021

Partager "Influence de la taille des prot´ eines inclues dans la base de donn´ ees"

Copied!
24
0
0

Texte intégral

(1)

Chapitre 3

Influence de la taille des prot´ eines inclues dans la base de donn´ ees

3.1 Introduction

Nous avons relev´e pr´ec´edemment le fait que certaines caract´eristiques des prot´eines inclues dans la base de donn´ees peuvent avoir un impact sur les potentiels qui en sont d´eriv´es. L’influence de la taille des prot´eines est un sujet particuli`erement controvers´e. D’une part, des simulations, sur un r´eseau bi-dimensionnel, de pseudo- prot´eines compos´ees de deux types de r´esidus diff´erents ont indiqu´e que les potentiels de distance d´eriv´es d’ensembles comprenant de longues chaˆınes sont diff´erents de ceux d´eriv´es `a partir de chaˆınes plus courtes [1]. Ces diff´erences s’expriment notamment par des variations au niveau des amplitudes et des positions des extr´ema caract´eristiques des courbes de potentiel. Dans le mˆeme ordre d’id´ees, certains auteurs ont indroduit un facteur d’´echelle, invers´ement proportionnel au nombre de r´esidus, dans des potentiels de contact bas´es sur un alphabet r´eduit d’acides amin´es, afin de prendre en compte la variation du nombre de contacts ´etablis dans des prot´eines de tailles diff´erentes [2].

Cependant, il est ´egalement apparu que des potentiels de contact d´eriv´es de bases de donn´ees compos´ees de vraies prot´eines de tailles diff´erentes n’exhibaient aucune d´ependance significative en la longueur des prot´eines [3]. Il a ´egalement ´et´e affirm´e que l’impact de la taille des prot´eines sur les potentiels est n´egligeable pour des distances inter-r´esiduelles inf´erieures `a approximativement 10 ˚ A [4], ainsi que pour certains potentiels de distance dans lesquels l’effet implicite du solvant est ´elimin´e [5]. D’autres

´etudes ont abouti sur des conclusions moins tranch´ees. En particulier, il a ´et´e montr´e que des potentiels de distance d´eriv´es de bases de donn´ees compos´ees respectivement de petites et de grandes prot´eines sont fortement corr´el´es, mais que la pente de la droite de r´egression est diff´erente de l’unit´e [6].

A la lumi`ere de ces apparentes contradictions, nous avons ´etudi´e en d´etail l’influence de la taille des prot´eines inclues dans la base de donn´ees sur les potentiels de distance [7].

Nous avons choisi de nous limiter aux potentiels de ce type pour deux raisons. D’une part, ces potentiels sont les plus fr´equemment ´etudi´es et utilis´es dans le cadre de l’´etude des prot´eines. D’autre part, ce sont les plus proches parents des potentiels de force moyenne d´ecrits en Section 2.1, qui ont ´et´e abondamment ´etudi´es dans des syst`emes non- prot´eiques simples. En particulier, il a ´et´e montr´e que dans des syst`emes finis comprenant

70

(2)

N particules, les fonctions de distribution de paires pr´esentent une composante r´esiduelle

`a grande distance, qui est propotionnelle `a 1/N et est sp´ecialement marqu´ee dans le cas de syst`emes compressibles ou de syst`emes avec limites [8–10]. D’autres types d’effets peuvent cependant se manifester lorsque des potentiels de force moyenne sont d´eriv´es `a partir de structures prot´eiques. Certaines propri´et´es des prot´eines, telles que leur stabilit´e ou leur contenu en structures secondaires, peuvent en effet d´ependre de leur taille. Il semble que la r´epartition des acides amin´es entre le coeur et la surface des prot´eines joue un rˆole majeur `a ce niveau [1,11]. Par exemple, deux acides amin´es hydrophobes s´epar´es par une distance de 20 ˚ A dans une petite prot´eine sont tr`es probablement localis´es en surface de cette prot´eine, ce qui correspond `a une situation plutˆot d´efavorable, alors qu’ils peuvent ˆetre enfouis au sein d’une grande prot´eine. Des potentiels d´eriv´es de petites ou de grandes prot´eines accuseront donc forc´ement certaines diff´erences.

Potentiel ´ etudi´ e

Nous analysons ici en d´etail la d´ependance, en la taille des prot´eines de la base de donn´ees, du potentiel de distance ∆W

(2)

(r

12

, s

1

, s

2

) d´efini par l’´equation 2.19. Les distances inter-r´esiduelles r

12

sont, par d´efinition, celles qui s´eparent les centroides moyens (C

µ

) des chaˆınes lat´erales des r´esidus consid´er´es, s

1

et s

2

(voir Annexe A). Les distances r

12

sont divis´ees en intervalles de 0.2 ˚ A de largeur. Afin de lisser les potentiels, les fr´equences relatives calcul´ees dans chaque intervalle de distance sont combin´ees avec celles des 10 intervalles voisins, de chaque cˆot´e, multipli´ees par un facteur invers´ement proportionnel `a leur s´eparation par rapport `a l’intervalle central [12]. Par ailleurs, dans le but de minimiser l’effet des contraintes impos´ees par la connectivit´e de la chaˆıne prot´eique, les paires de r´esidus s´epar´es de moins de 15 positions le long de la s´equence ne sont pas prises en compte dans le calcul des fr´equences relatives F (r

12

| s

1

, s

2

) et F (r

12

).

Les composantes `a courte et longue port´ee du potentiel sont d´efinies comme correspondant aux valeurs de r

12

comprises entre 3 et 8 ˚ A, et sup´erieures `a 15 ˚ A, respectivement. Le choix de ces valeurs limites est bas´e d’une part sur le fait que le pouvoir pr´edictif de potentiels de distance n’augmente que l´eg`erement lorsque la distance maximale prise en compte exc`ede 8 `a 10 ˚ A [4, 13], et d’autre part sur l’observation, pour de tels potentiels, d’une distance maximale de corr´elation de l’ordre de 15 ˚ A [3].

Bases de donn´ ees

La base de donn´ees utilis´ee pour la d´erivation des potentiels est compos´ee de 735

prot´eines de bonne r´esolution ( ≤ 2 ˚ A) partageant moins de 20% d’identit´e de s´equence

( DB

735

, voir Annexe B). Afin d’analyser l’influence de la taille des prot´eines sur les

potentiels de distance, nous avons divis´e cette base de donn´ees en six sous-groupes

comprenant des prot´eines de tailles croissantes. Les caract´erisques de ces sous-ensembles,

qui sont not´es DB

i

(avec i = 1, . . . , 6), ainsi que de la base de donn´ees compl`ete ( DB

735

,

not´ee ici DB

0

) sont reprises en Table 3.1. Le nombre de sous-ensembles a ´et´e choisi de

mani`ere `a maximiser l’intervalle de tailles de prot´eines consid´er´e, tout en conservant

un nombre suffisant de prot´eines dans chaque sous-ensemble afin d’´eviter d’introduire

trop de bruit dans les potentiels. Par construction, les six sous-groupes contiennent

approximativement le mˆeme nombre total de r´esidus. Notons qu’une autre possibilit´e est

de diviser la base de donn´ees en sous-groupes contenant le mˆeme nombre total de paires

(3)

de r´esidus. Cette derni`ere approche pr´esente cependant deux d´efauts : le sous-groupe comprenant les petites prot´eines couvre un intervalle de tailles de prot´eines beaucoup plus ´etendu, et celui comprenant les grandes prot´eines n’en contient que quelques unes.

En cons´equence, bien que les mˆemes tendances g´en´erales soient observ´ees, les r´esultats sont moins probants ´etant donn´e le haut niveau de bruit dans les potentiels d´eriv´es de l’ensemble de grandes prot´eines et le manque de diff´erenciation entre petites et moyennes prot´eines.

Ensemble DB0 DB1 DB2 DB3 DB4 DB5 DB6

Nombre de prot´eines 735 243 137 116 86 80 73

Nef f (courte distance) 603 146 257 344 476 700 1475 Nef f (longue distance) 1890 160 259 348 481 709 2448

Table 3.1 – Caract´eristiques des ensembles de structures de prot´eines.

DB0d´esigne la base de donn´ees compl`ete DB735 (voir Annexe B), et DBi (avec i = 1, . . . ,6) les diff´erents sous-groupes.

Nef f, qui est le nombre moyen (ou effectif) de r´esidus dans les prot´eines de chaque ensemble, est calcul´e

`a l’aide de l’´equation (3.1).

Les sous-groupes DB

i

contiennent des prot´eines de tailles similaires mais pas identiques. Il est donc n´ecessaire de d´efinir pour chaque ensemble un nombre effectif, moyen, de r´esidus par prot´eine, not´e N

ef f

. Le choix d’une d´efinition pertinente de N

ef f

est d´elicat : en th´eorie sa valeur d´epend `a la fois de la distance r

12

et de la paire de r´esidus (s

1

, s

2

). En premi`ere approximation, nous pouvons cependant consid´erer une valeur moyenne sur toutes les paires (s

1

, s

2

) ´etant donn´e que les fr´equences relatives F (s

1

, s

2

) sont relativement bien conserv´ees entre prot´eines de diff´erentes tailles. Le nombre effectif de r´esidus N

DBef f

, qui repr´esente la taille moyenne des prot´eines inclues dans l’ensemble DB est exprim´e par une combinaison lin´eaire du nombre de r´esidus (N

k

) de chacune des prot´eines k de DB :

N

DBef f

= X

k∈DB

N

k

m

k

/ X

k∈DB

m

k

. (3.1)

o` u le facteur de pond´eration m

k

correspond au nombre de paires de r´esidus, dans la prot´eine k, qui sont prises en compte lors de la d´erivation des potentiels. Ce facteur d´epend de r

12

et conf`ere aux grandes prot´eines une influence d’autant plus marqu´ee que r

12

est grand. Nous consid´erons ici deux intervalles de distance diff´erents qui correspondent respectivement aux interactions `a courte distance (r

12

compris entre 3 et 8 ˚ A) et aux interactions `a longue distance (r

12

> 15 ˚ A). Les valeurs de N

ef f

calcul´ees pour les diff´erents ensembles de structures prot´eiques sont donn´ees en Table 3.1.

3.2 D´ ependance g´ en´ erale en la taille des prot´ eines

Nous nous concentrons dans un premier temps sur les caract´eristiques `a courte

distance (r

12

compris entre 3 et 8 ˚ A) des potentiels d´eriv´es des diff´erents sous-groupes

DB

i

et de ceux d´eriv´es de la base de donn´ees compl`ete DB

0

. Un premi`ere constatation

digne d’int´erˆet concerne l’excellente corr´elation qui est observ´ee lorsque ces diff´erents

potentiels sont compar´es l’un `a l’autre. En particulier, si les valeurs de potentiel extraites

d’un sous-groupe DB

i

sont port´ees en fonction des valeurs correspondantes d´eriv´ees de

(4)

DB

0

, pour chaque paire de r´esidus (s

1

, s

2

) et chaque intervalle de distance [r

12

, r

12

+∆r

12

], un coefficient de corr´elation lin´eaire compris entre 0.92 et 0.96 est obtenu. Cependant, la pente de la droite de r´egression accuse une nette d´ependance en la taille des prot´eines : elle passe graduellement d’une valeur sup´erieure `a 1.15 jusqu’`a approximativement 0.9 lorsque les tailles des prot´eines croissent de 150 `a environ 1500 r´esidus (Figure 3.1).

Remarquons qu’`a ce niveau les potentiels d´eriv´es de la base de donn´ees compl`ete DB

0

, qui comprend des prot´eines de tailles tr`es diff´erentes, se comportent essentiellement comme s’ils ´etaient d´eriv´es de prot´eines compos´ees de N

DBef f0

r´esidus, ce qui confirme notre d´efinition de N

ef f

(Equation 3.1).

Figure 3.1 – Influence g´en´erale de la taille des prot´eines.

S, la pente de la droite de r´egression obtenue en portant les valeurs de potentiel `a courte distance d´eriv´ees des sous-groupesDBi en fonction des valeurs correspondantes extraites de DB0, est donn´ee en fonction du nombre moyen de r´esidus dans les prot´eines de chaque sous-groupe (Nef f). Le symbole((x ))rep`ere les coordonn´ees (603,1) qui correspondent `a la comparaison des ´energies d´eriv´ees deDB0 avec elles-mˆemes.

Cette variation de la pente de la droite de r´egression indique que les valeurs absolues des ´energies d’interaction d´eriv´ees de grandes prot´eines sont, en moyenne, plus petites que celles d´eriv´ees de petites prot´eines. Une telle constatation signale que la distribution des contacts entre les diff´erents types d’acides amin´es est plus proche d’une distribution al´eatoire au sein de grandes prot´eines. Le fait que les interactions entre r´esidus apparaissent comme moins sp´ecifiques dans de grandes prot´eines sugg`ere que ces prot´eines sont capables de tol´erer des niveaux de frustration plus ´elev´es. Cette tendance g´en´erale, qui a d´ej`a ´et´e relev´ee dans une ´etude ant´erieure [6], est li´ee notamment `a la r´epartition inhomog`ene des r´esidus hydrophobes et hydrophiles entre le coeur et la surface des prot´eines et au fait que le volume du coeur hydrophobe est proportionnellement plus important au sein d’une grande prot´eine. Une interpr´etation plus d´etaill´ee de cet effet est donn´ee dans la section suivante.

Ce r´esultat sugg`ere que n´egliger l’influence de la taille des prot´eines de la base

de donn´ees peut se r´ev´eler ˆetre une relativement bonne approximation lorsque l’on se

concentre sur l’´etude d’une prot´eine unique, ou de prot´eines de tailles similaires, mais

pas lorsque l’on consid`ere des prot´eines de tailles diff´erentes.

(5)

3.3 D´ ependance dans le cas de paires de r´ esidus sp´ ecifiques

Malgr´e l’excellente corr´elation qui est observ´ee entre les potentiels d´eriv´es de bases de donn´ees compos´ees de prot´eines de diff´erentes tailles, des comportements vari´es se r´ev`elent lorsque les potentiels qui correspondent `a diff´erentes paires d’acides amin´es sont analys´es ind´ependamment. Quelques exemples sont illustr´es et discut´es dans cette section.

Consid´erons tout d’abord l’´energie libre d´eriv´ee pour la paire Valine-Valine en fonction de la distance s´eparant ces deux r´esidus (Figure 3.2). Ce profil ´energ´etique est caract´eristique de la plupart des paires d’acides amin´es hydrophobes : il pr´esente un minimum profond `a courte distance ainsi qu’un deuxi`eme minimum, aux alentours de 10 ˚ A, qui r´esulte de l’empilement serr´e des r´esidus au coeur des prot´eines. Ce second minimum est une caract´eristique typique des potentiels de force moyenne d´eriv´es en milieu dense, et est observ´e de mani`ere similaire dans des syst`emes nettement moins complexes que les prot´eines (liquide homog`ene,. . .). Dans le cas qui nous int´eresse, il indique simplement que la configuration dans laquelle deux r´esidus hydrophobes sont s´epar´es par un troisi`eme r´esidu, probablement hydrophobe ´egalement, est favorable.

Figure 3.2 – Influence de la taille des prot´eines sur le potentiel Valine-Valine.

Le potentiel de force moyenne ∆W(2) pour la paire d’acides amin´es Val-Val est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`ete DB0 est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.

On ne peut ´eviter de remarquer que ces minima sont nettement plus prononc´es lorsque

le potentiel est extrait du sous-groupe contenant exclusivement des petites prot´eines. Ce

ph´enom`ene trouve son origine, du moins en partie, dans l’eau environnant les prot´eines,

dont la pr´esence induit une r´epartition inhomog`ene des acides amin´es hydrophobes

et hydrophiles entre le coeur et la surface des prot´eines. Le rapport surface/volume

(6)

est naturellement plus petit dans une grande que dans un petite prot´eine, mais cette diff´erence n’est pas (ou pas parfaitement) compens´ee par une variation de la composition en diff´erents types d’acides amin´es. En cons´equence, les coeurs hydrophobes des prot´eines deviennent de moins en moins hydrophobes lorsque des prot´eines de tailles croissantes sont consid´er´ees. A titre d’exemple, les valines repr´esentent 6.8% du nombre total de r´esidus, et 10.9% du nombre total de r´esidus enfouis dans DB

1

, tandis que ces valeurs sont respectivement 7.4% et 9.5% dans DB

6

. Etant donn´e que la majorit´e des interactions

`a courte distance sont ´etablies entre r´esidus enfouis, cette diminution de la concentration en r´esidus hydrophobes dans le coeur g´en`ere des potentiels moins favorables `a courte distance dans le cas de paires de r´esidus hydrophobes.

Un autre aspect remarquable de ces courbes est la variation soudaine de l’´energie libre calcul´ee lorsque r

12

approche le diam`etre moyen des prot´eines inclues dans la base de donn´ees (ce diam`etre vaut approximativement 20 ˚ A dans DB

1

, et il est plus grand que 40 ˚ A dans DB

6

et DB

0

). Deux r´esidus s´epar´es par un telle distance sont en effet probablement situ´es en surface de la prot´eine, ce qui est tr`es d´efavorable dans le cas d’acides amin´es hydrophobes.

Figure 3.3 – Influence de la taille des prot´eines sur le potentiel Aspartate-Arginine.

Le potentiel de force moyenne ∆W(2) pour la paire d’acides amin´es Asp-Arg est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`eteDB0est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.

Les paires de r´esidus portant des charges oppos´ees sont repr´esent´ees ici par la

paire Asp-Arg, dont le profil ´energ´etique est port´e en Figure 3.3. Dans ce cas l’´energie

calcul´ee est n´egative `a courte distance, refl´etant l’interaction ´electrostatique favorable

de formation d’un pont salin. Le coˆ ut ´energ´etique n´ecessaire `a l’enfouissement d’un

r´esidu charg´e devient cependant dominant lorsque r

12

augmente, et le potentiel passe

en positif apr`es 10 ˚ A. Le potentiel extrait du sous-groupe contenant les petites prot´eines

revient en territoire favorable apr`es 20 ˚ A, ´etant donn´e que les r´esidus sont alors tr`es

(7)

probablement accessibles au solvant. L’effet de la taille des prot´eines inclues dans la base de donn´ees est oppos´e `a celui observ´e pour les paires de r´esidus hydrophobes : le minimum d’´energie `a courte distance est plus profond tandis que le maximum d’´energie `a moyenne distance est moins prononc´e dans le cas de grandes prot´eines. Cette diff´erence s’explique essentiellement sur la base de la proportion plus importante de r´esidus hydrophiles enfouis dans les grandes prot´eines.

Une autre mani`ere de comprendre l’influence de la taille des prot´eines sur les potentiels qui en sont d´eriv´es est de consid´erer que les grandes prot´eines sont capables de tol´erer des niveaux de frustration plus ´elev´es. Cette frustration r´esulte notamment de la n´ecessit´e d’accomoder des fractions similaires de r´esidus hydrophobes et hydrophiles dans une prot´eine caract´eris´ee par un coeur hydrophobe plus vaste. Il en r´esulte que, dans des grandes prot´eines, les potentiels de force moyenne d´ecrivant les interactions entre r´esidus hydrophobes sont calcul´es comme ´etant moins favorables, alors que ceux g´en´er´es pour des paires de r´esidus hydrophiles sont plus favorables. La d´ependance g´en´erale qui est d´ecrite dans la section pr´ec´edente est une cons´equence du fait que, outre certaines interactions sp´ecifiques qui peuvent ˆetre favorables ou non, une contribution non-n´egligeable aux potentiels de paires provient implicitement de la pr´esence de l’eau et est favorable entre r´esidus hydrophobes et d´efavorable entre r´esidus hydrophiles. Augmenter la taille des prot´eines de la base de donn´ees r´esulte donc en moyenne en une diminution, en valeur absolue, des ´energies libres qui en sont extraites.

Figure 3.4 – Influence de la taille des prot´eines sur le potentiel Arginine-Tyrosine.

Le potentiel de force moyenne ∆W(2) pour la paire d’acides amin´es Arg-Tyr est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`eteDB0est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.

Les Figures 3.4 et 3.5 donnent deux autres exemples de potentiels d’interactions de paires et de l’influence de la taille des prot´eines de la base de donn´ees. Le profil

´energ´etique correspondant `a la paire Arg-Tyr (Figure 3.4) pr´esente un minimum `a tr`es

(8)

courte distance qui refl`ete la nature favorable des interactions cation-π, ´etablies entre un cycle aromatique (appartenant dans ce cas au r´esidu Tyr) et une charge positive (port´ee ici par Arg) [14]. L’´energie libre s’annule presque parfaitement pour toutes les distances sup´erieures `a 5-6 ˚ A. Plus pr´ecis´ement, elle pr´esente un maximum positif aux alentours de 5-6 ˚ A lorsqu’elle est extraite de petites prot´eines et reste l´eg`erement n´egative dans le cas de grandes prot´eines. Ces comportements diff´erents sont probablement dus aux pr´ef´erences individuelles contradictoires des tyrosines, qui sont hydrophobes, et des arginines, qui sont hydrophiles.

Un minimum tr`es profond `a courte distance est mis en ´evidence dans le profil

´energ´etique correspondant `a la paire Phe-Tyr. Ce minimum r´esulte de l’interaction favorable qui peut s’´etablir entre deux chaˆınes lat´erales aromatiques. Rappelons que les degr´es de libert´e des chaˆınes lat´erales sont n´eglig´es lors de la d´erivation des potentiels, ce qui implique qu’aucune distinction n’est faite entre les diff´erentes g´eom´etries d’interaction. Dans ce cas particulier, l’´energie calcul´ee est en r´ealit´e une moyenne sur diff´erentes conformations dans lesquelles les cycles aromatiques peuvent ˆetre parall`eles (π − π stacking ) ou orthogonaux (T-shaped conformation ). Lorsque la distance entre les deux r´esidus d´epasse 5-6 ˚ A, l’´energie libre croˆıt graduellement mais reste n´egative. La nature hydrophobe des r´esidus aromatiques implique en effet une contribution favorable r´esultant de leur enfouissement dans le coeur de la prot´eine. La d´ependance de ce potentiel en la taille des prot´eines est en cons´equence assez comparable avec celle observ´ee pour la paire Val-Val (Figure 3.2).

Figure 3.5 – Influence de la taille des prot´eines sur le potentiel Phenylalanine-Tyrosine.

Le potentiel de force moyenne ∆W(2)pour la paire d’acides amin´es Phe-Tyr est port´e en fonction de la distance s´eparant ces deux r´esidus (r12). Le potentiel d´eriv´e de la base de donn´ees compl`eteDB0est en trait gras, tandis que ceux d´eriv´es des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) prot´eines sont repr´esent´ees par un trait fin continu et interrompu, respectivement.

Ces exemples illustrent de mani`ere ´eloquente les diff´erences fondamentales qui

existent entre les potentiels de force moyenne et les (( vraies )) ´energies qui d´eterminent

(9)

le reploiement et la stabilit´e des prot´eines. En effet, on peut difficilement s’attendre, par exemple, `a ce qu’un (( vrai )) potentiel d’interaction entre deux r´esidus portant des charges oppos´ees soit d´efavorable entre 10 et 20 ˚ A. Par ailleurs, l’´energie favorable calcul´ee dans le cas de paires de r´esidus hydrophobes refl`ete implicitement le fait que ces r´esidus tendent `a se regrouper dans le coeur des prot´eines pour ´eviter tout contact avec l’eau.

Ces couplages entre diff´erents effets et interactions constituent un obstacle important `a la compr´ehension de la signification physique de ces potentiels et ont parfois ´et´e invoqu´es dans le but de d´emontrer qu’ils ne sont pas valables [1]. Il est cependant essentiel de r´ealiser que les potentiels de force moyenne n’ont pas la pr´etention de reproduire les (( vrais )) potentiels d’interaction U mais correspondent `a des moyennes statistiques de ces potentiels, ce qui apparaˆıt clairement dans les ´equations 2.2 `a 2.4. Les potentiels de force moyenne permettent de d´efinir un nombre limit´e de fonctions ´energ´etiques qui incarnent l’ensemble complexe d’interactions qui d´efinissent les propri´et´es des prot´eines, et incluent ´egalement certaines contributions entropiques [15–18].

3.4 D´ ependance ` a longue distance

Revenons quelques instants aux syst`emes simples consid´er´es en Section 2.1. Suppo- sons qu’une interaction favorable s’´etablisse lorsque deux particules sont s´epar´ees par une distance r

12

< r

lim

. Il en r´esulte que, `a l’´equilibre, la probabilit´e d’observer deux particules s´epar´ees par une distance inf´erieure `a r

lim

est sup´erieure `a celle attendue dans une distribution ind´ependante. Ceci peut s’exprimer par :

Z

V

Z

r12<rlim

P

(2)

(~r

1

, ~r

2

) d~r

1

d~r

2

>

Z

V

Z

r12<rlim

P

(1)

(~r

1

)P

(1)

(~r

2

) d~r

1

d~r

2

, (3.2) o` u l’int´egration est effectu´ee sur toutes les paires de positions ~r

1

et ~r

2

s´epar´ees par une distance r

12

< r

lim

. Les conditions de normalisation

Z

V

P

(1)

(~r

i

) d~r

i

= 1 et

Z

V

Z

V

P

(2)

(~r

i

, ~r

j

) d~r

i

d~r

j

= 1 (3.3) impliquent alors que, si le nombre de particules N est fini,

Z

V

Z

r12>rlim

P

(2)

(~r

1

, ~r

2

) d~r

1

d~r

2

<

Z

V

Z

r12>rlim

P

(1)

(~r

1

)P

(1)

(~r

2

) d~r

1

d~r

2

, (3.4)

et le potentiel de force moyenne w

(2)

(~r

1

, ~r

2

) sera donc, en moyenne, d´efavorable `a longue

distance (voir ´equation 2.3). Cet effet est d’autant plus prononc´e que N est petit : si

N → ∞ , `a N/V constant, l’exc`es (par rapport `a une distribution ind´ependante) de

paires s´epar´ees par une courte distance devient n´egligeable par rapport au nombre total

de paires. C’est `a dire :

(10)

N→∞

lim

(N/V cst)

Z

V

Z

r12>rlim

P

(1)

(~r

1

)P

(1)

(~r

2

)d~r

1

d~r

2

= Z

V

Z

V

P

(1)

(~r

1

)P

(1)

(~r

2

)d~r

1

d~r

2

= 1

N→∞

lim

(N/V cst)

Z

V

Z

r12>rlim

P

(2)

(~r

1

, ~r

2

)d~r

1

d~r

2

= Z

V

Z

V

P

(2)

(~r

1

, ~r

2

)d~r

1

d~r

2

= 1 . (3.5) Dans le cas contraire, si un potentiel r´epulsif `a courte distance r´egit les interactions entre particules et que le nombre de particules N est fini, on observe un exc`es de paires s´epar´ees par une distance r

12

> r

lim

.

Il a ´et´e d´emontr´e que le comportement de P

(2)

, lorsque la distance r

12

s´eparant deux particules tend vers l’infini dans un syst`eme de volume V contenant N particules identiques, est d´ecrit par l’´equation suivante [8–10] :

r12

lim

→∞

P

(2)

(~r

1

, ~r

2

)

P

(1)

(~r

1

)P

(1)

(~r

2

) = 1 + 1 − α

~r1

α

~r2

κ/κ

0

N − 1 avec α

~ri

= − V ∂ log P

(1)

(~r

i

)

∂V

¯

¯

¯

¯

N,T

et κ = − 1 V

∂V

∂p

¯

¯

¯

¯

N,T

, (3.6)

o` u κ est la compressibilit´e isothermique du syst`eme, κ

0

celle d’un gaz parfait, p la pression et T la temp´erature. Pour un fluide uniforme sans effets de bord, P

(1)

(~r

i

) = 1/V et α

~ri

= 1. Dans ce cas, l’´equation 3.6 indique que la probabilit´e de trouver la particule 1 en ~r

1

et la particule 2 en ~r

2

, si la distance s´eparant ~r

1

de ~r

2

est suffisamment grande, vaut 1/V

2

dans un gaz parfait. Par contre, si la compressibilit´e du syst`eme est plus grande (plus petite) que celle d’un gaz parfait, cette probabilit´e est inf´erieure (sup´erieure) `a 1/V

2

. Cet effet est plus marqu´e dans des syst`emes contenant un nombre restreint de particules (N ). Si l’influence des bords du syst`eme ne peut ˆetre n´eglig´ee, il faut tenir compte de corrections suppl´ementaires, qui sont encod´ees dans α

~ri

[9, 10].

L’´equation 3.6 peut ˆetre g´en´eralis´ee aux syst`emes contenant plusieurs types de particules :

r12

lim

→∞

P

(2)

(~r

1

, ~r

2

| s

1

, s

2

)

P

(1)

(~r

1

| s

1

)P

(1)

(~r

2

| s

2

) = 1 + 1 − α

s~r11

α

s~r22

κ

s1s2

0

N − 1 avec α

~sri

i

= − V ∂ log P

(1)

(~r

i

| s

i

)

∂V

¯

¯

¯

¯

N,T

et κ

s1s2

= − 1 V

∂V

∂p

s1s2

¯

¯

¯

¯

N,T

, (3.7) o` u p

s1s2

est la pression due aux paires de particules (s

1

, s

2

) et κ

s1s2

la compressibilit´e correspondante.

Dans le cas des prot´eines, en utilisant les ´equations 2.3, 2.8, 2.16, et 2.18, les relations 3.6 et 3.7 peuvent ˆetre approxim´ees en termes de fr´equences d’observation des paires d’acides amin´es, F (r

12

) et F (r

12

| s

1

, s

2

). On a :

r12

lim

→rmax

F (r

12

) V

ν(r

12

) ' 1 + 1 − α

1

α

2

κ/κ

0

N − 1 (3.8)

et lim

r12→rmax

F (r

12

| s

1

, s

2

) V

ν(r

12

) ' 1 + 1 − α

s11

α

s22

κ

s1s2

0

N − 1 (3.9)

(11)

o` u r

max

indique une distance suffisamment grande qui ne d´epasse pas le diam`etre de la prot´eine, α

1

α

2

et α

s11

α

s22

correspondent aux valeurs de α

~r1

α

~r2

et α

~sr11

α

s~r22

moyenn´ees sur toutes les paires de positions ~r

1

et ~r

2

, ν(r

12

) est d´efini par l’´equation 2.14, et V est pos´e

´egal `a N fois le volume moyen par r´esidu, qui vaut 190 ˚ A

3

(cette valeur a ´et´e estim´ee

`a l’aide du programme SurVol [19]). Notons que, ´etant donn´e que les mol´ecules d’eau ne sont pas inclues explicitement dans le syst`eme, la fronti`ere qui d´elimite celui-ci est confondue avec la surface de la prot´eine.

La distance maximale de corr´elation des potentiels de force moyenne est g´en´eralement plus grande que celle des (( vrais )) potentiels qui r´egissent les interactions entre particules.

Par exemple, la valeur limite de 7 ˚ A qui est couramment utilis´ee pour les potentiels de type Lennard-Jones n’est pas suffisante pour inclure le minimum correspondant au second voisin que nous avons observ´e, par exemple, en Figure 3.2. L’agencement particulier des diff´erents ´el´ements de structure secondaire au sein des prot´eines peut ´egalement ˆetre tenu pour responsable de corr´elations entre les positions de r´esidus s´epar´es par des distances plus importantes. La distance maximale de corr´elation observ´ee pour des potentiels de force moyenne dans des prot´eines est de l’ordre de 15 ˚ A [3]. Nous consid´erons donc ici que la condition r

12

→ r

max

est v´erifi´ee lorsque r

12

est plus grand que 15 ˚ A (sans d´epasser le diam`etre de la prot´eine).

Comportement ` a longue distance du potentiel non-sp´ ecifique w

(2)

(r

12

)

Afin de v´erifier l’ad´equation entre le comportement du potentiel non-sp´ecifique w

(2)

(r

12

) (Equation 2.16) et le comportement th´eorique attendu dans le cas de syst`emes simples et adapt´e aux prot´eines (Equation 3.8), nous avons calcul´e F (r

12

)V /ν(r

12

) en fonction de 1/(N

ef f

− 1) dans chaque sous-groupe DB

i

, pour diff´erentes valeurs de r

12

. Afin de limiter les erreurs r´esultant de l’utilisation de ν(r

12

), les prot´eines dont le rayon de gyration s’´ecarte de plus de 10% de celui correspondant `a un sph`ere parfaite de mˆeme volume ont ´et´e exclues. Nous avons ´egalement ´et´e contraints d’exclure certaines prot´eines, de diam`etre trop petit, dans le cas de grandes valeurs de r

12

.

La Table 3.2 indique que le potentiel non-sp´ecifique w

(2)

(r

12

), d´eriv´e de structures prot´eiques, suit une d´ependance selon N qui est en bon accord avec la relation th´eorique

´enonc´ee ci-dessus (Equation 3.8). On observe en effet une d´ependance lin´eaire de F (r

12

)V /ν(r

12

) selon 1/(N

ef f

− 1), avec des coefficients de corr´elation particuli`erement

´elev´es (en valeur absolue) lorsque r

12

est compris entre 20 et 30 ˚ A. De plus, les droites de r´egression sont caract´eris´ees par des ordonn´ees `a l’origine fort proches de l’unit´e.

r12 coefficient de ordonn´ee `a pente α1α2κ/κ0

corr´elation lin´eaire l’origine

15 -0.67 1.07 -5.2 6.2

20 -0.90 1.01 -10.0 11.0

25 -0.96 0.97 -14.2 15.2

30 -0.94 0.95 -19.8 20.8

Table 3.2 – Influence de la taille des prot´eines sur la composante longue distance du potentiel non-sp´ecifique.

Le coefficient de corr´elation lin´eaire entreF(r12)V /ν(r12) et 1/(Nef f−1), ainsi que l’ordonn´ee `a l’origine et la pente de la droite de r´egression obtenue en portantF(r12)V /ν(r12) en fonction de 1/(Nef f −1), sont donn´es pour diff´erentes valeurs der12 (avec ∆r12= 1 ˚A).α1α2κ/κ0

est calcul´e `a l’aide de l’´equation 3.8.

(12)

Pour chaque valeur de r

12

, la pente de la droite de r´egression permet d’obtenir une valeur pour le terme α

1

α

2

κ/κ

0

, qui inclut l’effet de la compressibilit´e du syst`eme et de la pr´esence du bord (Equation 3.8). Il est relativement difficile d’attribuer une signification pr´ecise `a ce terme dans le cas de prot´eines. Dans le coeur des prot´eines, on peut raisonnablement supposer une distribution uniforme des r´esidus, et donc l’absence d’effet `a longue distance. Pour les paires de r´esidus localis´es dans le coeur, α

~r1

α

~r2

κ/κ

0

doit donc ˆetre proche de l’unit´e. Par contre, `a proximit´e de la surface, le volume non nul des r´esidus induit certaines particularit´es dans la distribution des distances entre r´esidus : α

~r1

α

~r2

κ/κ

0

pourra donc ˆetre diff´erent de 1 dans cette r´egion. La d´ependance de α

1

α

2

κ/κ

0

en r

12

provient du fait que α

1

α

2

correspond `a une moyenne de α

~r1

α

~r2

sur toutes les paires de positions ~r

1

et ~r

2

(Equation 3.8). L’effet de bord est donc plus marqu´e pour de grandes valeurs de r

12

, ´etant donn´e que la proportion de paires de r´esidus dont l’un au moins est proche de la surface de la prot´eine augmente avec r

12

. Par ailleurs, les prot´eines ne sont pas des sph`eres parfaites, ce qui implique une certaine impr´ecision lors de l’´evaluation de ν(r

12

). Pour des grandes distances qui ne d´epassent pas le diam`etre de la prot´eine, cette impr´ecision se traduit vraisemblablement par une surestimation de ν(r

12

) et donc ´egalement de α

1

α

2

κ/κ

0

. Cet effet, dont l’amplitude d´epend de r

12

, joue sans doute ´egalement un rˆole au niveau de la d´ependance observ´ee de α

1

α

2

κ/κ

0

en r

12

. Comportement ` a longue distance du potentiel sp´ ecifique ∆W

(2)

(r

12

, s

1

, s

2

)

Le probl`eme de l’impr´ecision sur ν(r

12

) disparaˆıt lors de l’´etude du potentiel sp´ecifique

∆W

(2)

(r

12

, s

1

, s

2

). En effet, sur la base des ´equations 2.19, 3.8 et 3.9, on trouve :

r12

lim

→∞

F (r

12

| s

1

, s

2

)

F (r

12

) = 1 − ∆(α

1

α

2

κ/κ

0

)

s1s2

N − α

1

α

2

κ/κ

0

avec ∆(α

1

α

2

κ/κ

0

)

s1s2

= α

s11

α

s22

κ

s1s2

0

− α

1

α

2

κ/κ

0

. (3.10) Afin de maintenir un rapport signal/bruit satisfaisant, nous calculons ici les fr´equences relatives F (r

12

| s

1

, s

2

) et F (r

12

) en moyenne sur tous les intervalles qui correspondent `a des distances plus grandes que 15 ˚ A.

En Figure 3.6, F (r

12

| s

1

, s

2

)/F (r

12

) est port´e en fonction de 1/(N

ef f

− α

1

α

2

κ/κ

0

) pour quelques paires d’acides amin´es (s

1

, s

2

). Qualitativement, l’accord avec la relation th´eorique est assez remarquable. Dans tous les cas, la d´ependance en 1/(N

ef f

− α

1

α

2

κ/κ

0

) est lin´eaire, avec un tr`es bon coefficient de corr´elation et une ordonn´ee `a l’origine proche de l’unit´e (Table 3.3). La seule exception concerne la paire Arg-Val, pour laquelle le faible coefficient de corr´elation observ´e r´esulte de la pente, quasiment nulle, de la droite de r´egression.

Les pentes des droites de r´egression permettent d’´evaluer ∆(α

1

α

2

κ/κ

0

)

s1s2

pour chaque paire d’acides amin´es (Equation 3.10). Notons que, contrairement `a α

~ri

, α

s~ri

i

diff`ere g´en´eralement de 1 en surface mais ´egalement dans le coeur des prot´eines, en cons´equence de la distribution non-uniforme des diff´erents types d’acides amin´es. En outre, κ

s1s2

0

devrait ˆetre plus grand que κ/κ

0

dans le cas de paires d’acides amin´es qui pr´ef`erent se

regrouper dans le coeur des prot´eines, et plus petit que κ/κ

0

dans le cas de paires d’acides

amin´es hydrophiles. On trouve en effet des valeurs de ∆(α

1

α

2

κ/κ

0

)

s1s2

positives dans le

cas de paires de r´esidus hydrophobes (par ex. : ∆(α

1

α

2

κ/κ

0

)

V al−V al

= 26.4) et n´egatives

(13)

Figure 3.6 – Influence de la taille des prot´eines sur la composante longue distance des potentiels de paires.

Le rapport F(r12|s1, s2)/F(r12), extrait des diff´erents sous-groupesDBi pour r12>15˚A, est port´e en fonction de 1/(Nef f−α1α2κ/κ0). Sur la base du comportement `a longue distance observ´e dans le cas du potentiel non-sp´ecifique (Equation 3.8, Table 3.2), on pose α1α2κ/κ0 = 15.

L’impr´ecision sur cette valeur n’a pas r´eellement de cons´equence ´etant donn´e queα1α2κ/κ0 est petit par rapport `aNef f. Les droites de r´egression, dont les caract´eristiques apparaissent en Table 3.3, sont

´egalement repr´esent´ees.

dans le cas de paires de r´esidus charg´es (par ex. : ∆(α

1

α

2

κ/κ

0

)

Asp−Arg

= − 12.2). Il est n´eanmoins int´eressant de remarquer que les paires de r´esidus portant des charges de signes oppos´es n’apparaissent que l´eg`erement plus compressibles que celles portant des charges de mˆeme signe. L’exc`es, `a longue distance, de paires de r´esidus charg´es semble donc r´esulter essentiellement de la r´epartition inhomog`ene des r´esidus hydrophobes et hydrophiles entre le coeur et la surface et, dans une moindre mesure, de l’existence d’interactions sp´ecifiques `a courte distance.

s1-s2 coefficient de ordonn´ee `a pente ∆(α1α2κ/κ0)s1s2 corr´elation lin´eaire l’origine

Val - Val -0.997 1.009 -26.4 26.4

Tyr - Tyr -0.956 0.987 -8.6 8.6

Arg - Val 0.517 1.002 0.7 -0.7

Asp - Arg 0.997 0.999 12.2 -12.2

Asp - Asp 0.987 1.005 15.5 -15.5

Arg - Arg 0.986 0.993 14.7 -14.7

Table 3.3 – Influence de la taille des prot´eines sur la composante longue distance des potentiels de paires.

Le coefficient de corr´elation lin´eaire entre F(r12|s1, s2)/F(r12) (pour r12 >15

˚A) et 1/(Nef f−α1α2κ/κ0), ainsi que l’ordonn´ee `a l’origine et la pente de la droite de r´egression obtenue en portantF(r12|s1, s2)/F(r12) en fonction de 1/(Nef f−α1α2κ/κ0), sont donn´es pour diff´erentes paires (s1, s2). ∆(α1α2κ/κ0)s1s2 est obtenu `a l’aide de l’´equation 3.10.

(14)

3.5 Prise en compte de la taille des prot´ eines

Les potentiels ∆W

(2)

(r

12

, s

1

, s

2

) associent, `a chaque paire de r´esidus (s

1

, s

2

) s´epar´es par une distance r

12

, une ´energie libre d´ecrivant l’interaction entre ces r´esidus en tenant compte d’un environnement prot´eique moyen. Les r´esultats pr´esent´es dans les sections pr´ec´edentes indiquent que l’influence de la taille des prot´eines inclues dans la base de donn´ees est sp´ecifique `a chaque paire d’acides amin´es et peut ˆetre relativement importante. Cet (( environnement prot´eique moyen )) , ressenti par les acides amin´es et inclus implicitement dans les potentiels, n’est en effet pas identique dans de grandes ou de petites prot´eines. Ces diff´erences d’environnement moyen ont un impact sur les potentiels, qui d´epend de la nature des r´esidus consid´er´es. Il semble d`es lors utile d’analyser l’effet de la d´ependance en la taille des prot´eines sur le pouvoir pr´edictif des potentiels. Nous

´evaluons ici deux mani`eres de prendre en compte cette d´ependance lors de la d´erivation des potentiels.

3.5.1 Utilisation de plusieurs bases de donn´ ees

Une m´ethode simple permettant de tenir compte de la d´ependance des potentiels en la taille des prot´eines n´ecessite la d´efinition de plusieurs bases de donn´ees DB

i

, chacune correspondant `a un intervalle restreint de tailles de prot´eines. L’´etude d’une prot´eine de taille donn´ee se fera alors `a l’aide des potentiels de force moyenne ∆W

DB(2)i

(r

12

, s

1

, s

2

), d´eriv´es de la base de donn´ees DB

i

qui contient uniquement des prot´eines de taille similaires `a celle de la prot´eine cible.

Cette approche, qui semble tr`es naturelle, pr´esente cependant un d´efaut majeur : plus l’intervalle de tailles de prot´eines caract´erisant DB

i

est limit´e, plus le nombre de prot´eines inclues dans DB

i

sera restreint, ce qui nuit forc´ement `a la validit´e statistique de la proc´edure de d´erivation et g´en`ere un bruit important dans les potentiels. Ceci est visible dans les quelques exemples donn´es pr´ec´edemment (Figures 3.2-3.5) mais est nettement plus probl´ematique dans le cas de paires de r´esidus peu fr´equents.

Evaluation des performances

Afin de comparer les performances des potentiels d´eriv´es des diff´erentes bases de donn´ees DB

i

, nous avons ´evalu´e leur aptitude `a isoler une association correcte (s´equence - structure native) parmi un ensemble de leurres. Ces leurres sont obtenus en redistribuant al´eatoirement les positions des r´esidus le long de la s´equence, la structure ´etant maintenue fixe.

Notons que plusieurs raisons nous ont pouss´e `a pr´ef´erer ici les ensembles de leurres obtenus par une modification de s´equence plutˆot que par une modification de structure.

Tout d’abord, l’utilisation de leurres d´efinis sur la base d’alt´erations structurales ne permet pas d’effectuer des tests comparatifs sur des prot´eines de diff´erentes tailles.

En effet, la plupart des ensembles de structures alternatives disponibles, obtenus via

diverses approches de simulation ou de mod´elisation, sont construits uniquement sur

la base de petites prot´eines (voir par exemple [20–23]). Les proc´edures d’enfilement

(ou threading [12, 24–28]), qui comparent une s´equence avec des parties restreintes

de structures prot´eiques connues de taille plus importante, souffrent d’un probl`eme

similaire : les longues s´equences ne peuvent ˆetre compar´ees qu’avec un nombre tr`es

(15)

limit´e de conformations. Par ailleurs, la modification de la structure d’une prot´eine affecte g´en´eralement sa compacit´e, et la capacit´e des potentiels `a simplement ´enum´erer le nombre de contacts peut dans certains cas avoir un impact plus important que l’´evaluation pr´ecise de la sp´ecificit´e de ces contacts. La modification de s´equence apparaˆıt au contraire comme un moyen efficace de produire diff´erents ensembles d’interactions entre acides amin´es, tout en conservant la distribution globale des distances s´eparant les r´esidus.

Cette m´ethode pr´esente ´egalement l’avantage d’ˆetre applicable de mani`ere identique `a des prot´eines de tailles diff´erentes, et une ´etude r´ecente sugg`ere qu’elle est l´eg`erement plus efficace que la modification de structure pour la comparaison des performances de potentiels de distance [13].

En pratique, nous avons consid´er´e une `a une les 735 prot´eines de DB

0

. Pour chacune, un ensemble de 1000 leurres a ´et´e construit `a l’aide de modifications al´eatoires des positions des r´esidus dans la s´equence. L’´energie totale de la prot´eine, ainsi que celles des leurres qui lui sont associ´es, ont ´et´e ´evalu´ees `a l’aide des potentiels d´eriv´es des diff´erentes bases de donn´ees DB

i

(i = 0, . . . , 6). Notons que, dans chaque cas, la prot´eine utilis´ee comme test est exclue des bases de donn´ees lors de la d´erivation des potentiels afin d’´eviter l’introduction d’un biais dans les diff´erentes fonctions ´energ´etiques. Les performances des potentiels sont ´evalu´ees `a l’aide du Z-score :

Z = (E

m

− µ

r

)/σ

r

, (3.11)

o` u E

m

est l’´energie calcul´ee pour l’association correcte s´equence-structure, tandis que µ

r

et σ

r

sont respectivement la moyenne et l’´ecart-type de la distribution des ´energies calcul´ees pour les leurres. Un Z-score n´egatif, de grande valeur absolue, indique que la fonction ´energ´etique permet de distinguer efficacement l’association s´equence-structure correcte parmi les diff´erents leurres.

La comparaison des performances des potentiels d´eriv´es de la base de donn´ees compl`ete DB

0

et des diff´erents sous-groupes DB

i

fait l’objet de la Figure 3.7. En accord avec plusieurs ´etudes ant´erieures [4, 13], on observe que les potentiels d´eriv´es d’une base de donn´ees caract´eris´ee par un intervalle restreint de tailles de prot´eines sont plus performants lorsqu’ils sont appliqu´es `a des prot´eines de tailles similaires. En particulier, les potentiels d´eriv´es de petites prot´eines (∆W

DB(2)1

) poss`edent un meilleur pouvoir discriminatoire que ceux d´eriv´es de grandes prot´eines (∆W

DB(2)6

) lorsque les tests sont r´ealis´es sur de petites prot´eines. En revanche, une tendance oppos´ee est constat´ee lorsque les tests concernent de grandes prot´eines.

Cependant, les potentiels d´eriv´es de sous-groupes de la base de donn´ees pr´esentent de moins bonnes performances que ceux d´eriv´es de la base de donn´ees compl`ete, et ce dans la totalit´e de l’intervalle de tailles de prot´eines consid´er´e. La seule exception concerne les potentiels d´eriv´es de DB

1

qui sont l´eg`erement meilleurs que ceux d´eriv´es de DB

0

dans un intervalle restreint de tailles de prot´eines. La perte de validit´e statistique qui est li´ee `a la diminution du nombre total de prot´eines consid´er´es est vraisemblablement `a l’origine de cette sous-performance des potentiels d´eriv´es des sous-groupes DB

i

(i = 1, . . . , 6).

3.5.2 D´ efinition de fonctions correctives

L’utilisation d’une base de donn´ee restreinte compos´ee uniquement de prot´eines de

tailles similaires `a celle de la prot´eine ´etudi´ee s’´etant r´ev´el´ee peu fructueuse, nous avons

(16)

Figure 3.7 – Performances relatives des potentiels d´eriv´es de sous-groupes de la base de donn´ees.

Les performances des potentiels d´eriv´es de petites (∆WDB(2)1(r12, s1, s2),5) et de grandes (∆WDB(2)6(r12, s1, s2),4) prot´eines sont compar´ees avec celles des potentiels d´eriv´es de la base de donn´ees compl`ete (∆WDB(2)0(r12, s1, s2)), en fonction du nombre de r´esidus des prot´eines qui servent de test.

L’aptitude du potentiel ∆W `a isoler une association s´equence-structure correcte parmi un ensemble de leurres est ´evalu´ee `a l’aide du Z-scoreZ(∆W) (Equation 3.11). Une valeur positive de la diff´erence Z(∆WDB0)−Z(∆WDBi) indique que ∆WDBi poss`ede un meilleur pouvoir discriminatoire que ∆WDB0. Chaque valeur port´ee en graphique correspond `a une moyenne sur 35 prot´eines de tailles similaires.

< N >est le nombre moyen de r´esidus de ces prot´eines.

propos´e une approche alternative permettant la mise au point de potentiels tenant compte de la taille des prot´eines. Cette approche est bas´ee sur le fait que, `a courte distance, les allures g´en´erales des profils ´energ´etiques de paires sont essentiellement conserv´ees lorsque des prot´eines de tailles diff´erentes sont consid´er´ees. Ceci incite la mise au point de fonctions correctives permettant d’exprimer l’´energie libre correspondant `a une taille de prot´eine donn´ee en fonction de celle d´eriv´ee de la base de donn´ees compl`ete, qui est constitu´ee de prot´eines de tailles diverses. Il est possible, `a l’aide d’une telle proc´edure, de prendre en compte les tailles des prot´eines, tout en conservant les avantages d’une base de donn´ees incluant un nombre important de prot´eines.

Nous avons pr´ec´edemment relev´e l’existence d’une forte corr´elation entre les potentiels

d´eriv´es de la base de donn´ees compl`ete et ceux d´eriv´es des diff´erents sous-groupes, qui

correspondent `a des intervalles de taille limit´es (voir Section 3.2). Cette corr´elation

est obtenue en consid´erant globalement les valeurs de potentiels qui correspondent

aux diff´erentes distances r

12

et aux diff´erentes paires de r´esidus (s

1

, s

2

). En outre,

de relativement bonnes corr´elations peuvent ´egalement ˆetre obtenues si l’on consid`ere

s´epar´ement les potentiels associ´es aux diverses paires de r´esidus (s

1

, s

2

). La Figure 3.8

met ces corr´elations en ´evidence dans le cas de la paire Val-Val ainsi que de la paire

Asp-Arg.

(17)

Figure 3.8 – Comparaison des potentiels d´eriv´es de sous-groupes de la base de donn´ees et de ceux d´eriv´es de la base de donn´ees compl`ete.

Les valeurs des potentiels ∆WDB(2)i(r12, s1, s2) d´eriv´es des sous-groupesDB1(5) etDB6(4), avec 3 ˚A≤r12≤8 ˚A, sont port´ees en fonction des valeurs correspondantes d´eriv´ees deDB0. Les droites de r´egression sont ´egalement repr´esent´ees. (a) Les ´energies qui correspondent `a la paire Val-Val sont consid´er´ees. Les coefficients de corr´elation lin´eaire (entre

∆WDB(2)i(r12,Val,Val) et ∆WDB(2)0(r12,Val,Val)) sont sup´erieurs `a 0.99. (b) Les ´energies qui correspondent

`a la paire Asp-Arg sont consid´er´ees. Les coefficients de corr´elation lin´eaire sont compris entre 0.80 et 0.98.

L’´energie libre d´ependant du nombre de r´esidus N , estim´ee par ∆W

DB(2)i

(r

12

, s

1

, s

2

) lorsque N = N

DBef fi

, peut en cons´equence ˆetre approxim´ee par ∆W

N(2)

(N, r

12

, s

1

, s

2

), qui est d´efini de la mani`ere suivante :

∆W

N(2)

(N, r

12

, s

1

, s

2

) = A(N, s

1

, s

2

) + B(N, s

1

, s

2

)∆W

DB(2)0

(r

12

, s

1

, s

2

) , (3.12) o` u r

12

est limit´e au valeurs comprises entre 3 et 8 ˚ A ´etant donn´e que les allures des profils

´energ´etiques sont plus variables pour r

12

> 8 ˚ A et que l’inclusion de contributions `a

Références

Documents relatifs

[r]

Apr` es avoir rappel´ e les bases de l’analyse du RADAR ` a antenne synth´ etique (SAR), et les particula- rit´ es des plateformes spatioport´ ees, nous allons consid´ erer trois

Puisque le temps d’ex´ ecution d’un algorithme sur une entr´ ee de taille constante est une constante, les r´ ecurrences sous-jacentes au calcul du temps d’ex´ ecution

Dans ce probl` eme on se propose de repr´ esenter des ensembles finis d’entiers strictement positif par les listes chaˆın´ ees d´ efinies en langage C comme suit :.. typedef

Construire sur un seul graphique les nuages de points de l’indice de Qu´ etelet en fonction de la taille, en fonction du poids, pour chaque sexe8. Repr´ esenter, sur un seul

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Interrogeons nous maintenant sur la fa¸con dont sont construits ces tests multidimensionnels, autrement dit sur la fa¸con dont sont obtenues les matrices E pour les erreurs du

Perdre ses photos de vacances : ¸ca n’a pas de