Influence de la taille des prot´ eines inclues dans la base de donn´ ees

(1)

Chapitre 3

Influence de la taille des prot´ eines inclues dans la base de donn´ ees

3.1 Introduction

Nous avons relevé précédemment le fait que certaines caractéristiques des protéines inclues dans la base de données peuvent avoir un impact sur les potentiels qui en sont dérivés. L’influence de la taille des protéines est un sujet particulièrement controversé. D’une part, des simulations, sur un réseau bi-dimensionnel, de pseudo- protéines composées de deux types de résidus différents ont indiqué que les potentiels de distance dérivés d’ensembles comprenant de longues chaˆınes sont différents de ceux dérivés à partir de chaˆınes plus courtes [1]. Ces différences s’expriment notamment par des variations au niveau des amplitudes et des positions des extréma caractéristiques des courbes de potentiel. Dans le même ordre d’idées, certains auteurs ont indroduit un facteur d’échelle, inversément proportionnel au nombre de résidus, dans des potentiels de contact basés sur un alphabet réduit d’acides aminés, afin de prendre en compte la variation du nombre de contacts établis dans des protéines de tailles différentes [2].

Cependant, il est également apparu que des potentiels de contact dérivés de bases de données composées de vraies protéines de tailles différentes n’exhibaient aucune dépendance significative en la longueur des protéines [3]. Il a également été affirmé que l’impact de la taille des protéines sur les potentiels est négligeable pour des distances inter-résiduelles inférieures à approximativement 10 ˚ A [4], ainsi que pour certains potentiels de distance dans lesquels l’effet implicite du solvant est éliminé [5]. D’autres

études ont abouti sur des conclusions moins tranchées. En particulier, il a été montré que des potentiels de distance dérivés de bases de données composées respectivement de petites et de grandes protéines sont fortement corrélés, mais que la pente de la droite de régression est différente de l’unité [6].

A la lumière de ces apparentes contradictions, nous avons étudié en détail l’influence de la taille des protéines inclues dans la base de données sur les potentiels de distance [7].

Nous avons choisi de nous limiter aux potentiels de ce type pour deux raisons. D’une part, ces potentiels sont les plus fréquemment étudiés et utilisés dans le cadre de l’étude des protéines. D’autre part, ce sont les plus proches parents des potentiels de force moyenne décrits en Section 2.1, qui ont été abondamment étudiés dans des systèmes non- protéiques simples. En particulier, il a été montré que dans des systèmes finis comprenant

70

(2)

N particules, les fonctions de distribution de paires pr´esentent une composante r´esiduelle

à grande distance, qui est propotionnelle à 1/N et est spécialement marquée dans le cas de systèmes compressibles ou de systèmes avec limites [8–10]. D’autres types d’effets peuvent cependant se manifester lorsque des potentiels de force moyenne sont dérivés à partir de structures protéiques. Certaines propriétés des protéines, telles que leur stabilité ou leur contenu en structures secondaires, peuvent en effet dépendre de leur taille. Il semble que la répartition des acides aminés entre le coeur et la surface des protéines joue un rôle majeur à ce niveau [1,11]. Par exemple, deux acides aminés hydrophobes séparés par une distance de 20 ˚ A dans une petite protéine sont très probablement localisés en surface de cette protéine, ce qui correspond à une situation plutôt défavorable, alors qu’ils peuvent être enfouis au sein d’une grande protéine. Des potentiels dérivés de petites ou de grandes protéines accuseront donc forcément certaines différences.

Potentiel ´ etudi´ e

Nous analysons ici en détail la dépendance, en la taille des protéines de la base de données, du potentiel de distance ∆W

⁽²⁾

(r

12

, s

1

, s

2

) défini par l’équation 2.19. Les distances inter-résiduelles r

12

sont, par d´efinition, celles qui s´eparent les centroides moyens (C

^µ

) des chaˆınes latérales des résidus considérés, s

1

et s

2

(voir Annexe A). Les distances r

12

sont divisées en intervalles de 0.2 ˚ A de largeur. Afin de lisser les potentiels, les fréquences relatives calculées dans chaque intervalle de distance sont combinées avec celles des 10 intervalles voisins, de chaque côté, multipliées par un facteur inversément proportionnel à leur séparation par rapport à l’intervalle central [12]. Par ailleurs, dans le but de minimiser l’effet des contraintes imposées par la connectivité de la chaˆıne protéique, les paires de résidus séparés de moins de 15 positions le long de la séquence ne sont pas prises en compte dans le calcul des fréquences relatives F (r

12

| s

1

, s

2

) et F (r

12

).

Les composantes à courte et longue portée du potentiel sont définies comme correspondant aux valeurs de r

12

comprises entre 3 et 8 ˚ A, et supérieures à 15 ˚ A, respectivement. Le choix de ces valeurs limites est basé d’une part sur le fait que le pouvoir prédictif de potentiels de distance n’augmente que légèrement lorsque la distance maximale prise en compte excède 8 à 10 ˚ A [4, 13], et d’autre part sur l’observation, pour de tels potentiels, d’une distance maximale de corrélation de l’ordre de 15 ˚ A [3].

Bases de donn´ ees

La base de données utilisée pour la dérivation des potentiels est composée de 735

protéines de bonne résolution ( ≤ 2 ˚ A) partageant moins de 20% d’identité de séquence

( DB

⁷³⁵

, voir Annexe B). Afin d’analyser l’influence de la taille des prot´eines sur les

potentiels de distance, nous avons divis´e cette base de donn´ees en six sous-groupes

comprenant des prot´eines de tailles croissantes. Les caract´erisques de ces sous-ensembles,

qui sont not´es DB

ⁱ

(avec i = 1, . . . , 6), ainsi que de la base de donn´ees compl`ete ( DB

⁷³⁵

,

not´ee ici DB

⁰

) sont reprises en Table 3.1. Le nombre de sous-ensembles a ´et´e choisi de

manière à maximiser l’intervalle de tailles de protéines considéré, tout en conservant

un nombre suffisant de prot´eines dans chaque sous-ensemble afin d’´eviter d’introduire

trop de bruit dans les potentiels. Par construction, les six sous-groupes contiennent

approximativement le même nombre total de résidus. Notons qu’une autre possibilité est

de diviser la base de donn´ees en sous-groupes contenant le mˆeme nombre total de paires

(3)

de résidus. Cette dernière approche présente cependant deux défauts : le sous-groupe comprenant les petites protéines couvre un intervalle de tailles de protéines beaucoup plus étendu, et celui comprenant les grandes protéines n’en contient que quelques unes.

En conséquence, bien que les mêmes tendances générales soient observées, les résultats sont moins probants étant donné le haut niveau de bruit dans les potentiels dérivés de l’ensemble de grandes protéines et le manque de différenciation entre petites et moyennes protéines.

Ensemble DB0 DB1 DB2 DB3 DB4 DB5 DB6

Nombre de prot´eines 735 243 137 116 86 80 73

N^{ef f} (courte distance) 603 146 257 344 476 700 1475 N^{ef f} (longue distance) 1890 160 259 348 481 709 2448

Table 3.1 – Caract´eristiques des ensembles de structures de prot´eines.

DB0désigne la base de données complète DB⁷³⁵ (voir Annexe B), et DBi (avec i = 1, . . . ,6) les différents sous-groupes.

N^{ef f}, qui est le nombre moyen (ou effectif) de résidus dans les protéines de chaque ensemble, est calculé

`a l’aide de l’´equation (3.1).

Les sous-groupes DB

ⁱ

contiennent des protéines de tailles similaires mais pas identiques. Il est donc nécessaire de définir pour chaque ensemble un nombre effectif, moyen, de résidus par protéine, noté N

^{ef f}

. Le choix d’une d´efinition pertinente de N

^{ef f}

est délicat : en théorie sa valeur dépend à la fois de la distance r

12

et de la paire de r´esidus (s

1

, s

2

). En premi`ere approximation, nous pouvons cependant consid´erer une valeur moyenne sur toutes les paires (s

1

, s

2

) étant donné que les fréquences relatives F (s

1

, s

2

) sont relativement bien conservées entre protéines de différentes tailles. Le nombre effectif de résidus N

_DB^{ef f}

, qui représente la taille moyenne des protéines inclues dans l’ensemble DB est exprimé par une combinaison linéaire du nombre de résidus (N

k

) de chacune des prot´eines k de DB :

N

_DB^{ef f}

= X

k∈DB

N

k

m

k

/ X

k∈DB

m

k

. (3.1)

o` u le facteur de pond´eration m

k

correspond au nombre de paires de résidus, dans la protéine k, qui sont prises en compte lors de la dérivation des potentiels. Ce facteur dépend de r

₁₂

et confère aux grandes protéines une influence d’autant plus marquée que r

12

est grand. Nous considérons ici deux intervalles de distance différents qui correspondent respectivement aux interactions à courte distance (r

12

compris entre 3 et 8 ˚ A) et aux interactions `a longue distance (r

₁₂

> 15 ˚ A). Les valeurs de N

^{ef f}

calculées pour les différents ensembles de structures protéiques sont données en Table 3.1.

3.2 D´ ependance g´ en´ erale en la taille des prot´ eines

Nous nous concentrons dans un premier temps sur les caract´eristiques `a courte

distance (r

12

compris entre 3 et 8 ˚ A) des potentiels dérivés des différents sous-groupes

DB

ⁱ

et de ceux dérivés de la base de données complète DB

⁰

. Un premi`ere constatation

digne d’intérêt concerne l’excellente corrélation qui est observée lorsque ces différents

potentiels sont compar´es l’un `a l’autre. En particulier, si les valeurs de potentiel extraites

d’un sous-groupe DB

ⁱ

sont portées en fonction des valeurs correspondantes dérivées de

(4)

DB

⁰

, pour chaque paire de r´esidus (s

1

, s

2

) et chaque intervalle de distance [r

12

, r

12

+∆r

12

], un coefficient de corrélation linéaire compris entre 0.92 et 0.96 est obtenu. Cependant, la pente de la droite de régression accuse une nette dépendance en la taille des protéines : elle passe graduellement d’une valeur supérieure à 1.15 jusqu’à approximativement 0.9 lorsque les tailles des protéines croissent de 150 à environ 1500 résidus (Figure 3.1).

Remarquons qu’à ce niveau les potentiels dérivés de la base de données complète DB

⁰

, qui comprend des protéines de tailles très différentes, se comportent essentiellement comme s’ils étaient dérivés de protéines composées de N

_DB^{ef f}₀

r´esidus, ce qui confirme notre d´efinition de N

^{ef f}

(Equation 3.1).

Figure 3.1 – Influence générale de la taille des protéines.

_S, la pente de la droite de régression obtenue en portant les valeurs de potentiel à courte distance dérivées des sous-groupesDBi en fonction des valeurs correspondantes extraites de DB0, est donnée en fonction du nombre moyen de résidus dans les protéines de chaque sous-groupe (N^{ef f}). Le symbole((x ))repère les coordonnées (603,1) qui correspondent à la comparaison des énergies dérivées deDB0 avec elles-mêmes.

Cette variation de la pente de la droite de régression indique que les valeurs absolues des énergies d’interaction dérivées de grandes protéines sont, en moyenne, plus petites que celles dérivées de petites protéines. Une telle constatation signale que la distribution des contacts entre les différents types d’acides aminés est plus proche d’une distribution aléatoire au sein de grandes protéines. Le fait que les interactions entre résidus apparaissent comme moins spécifiques dans de grandes protéines suggère que ces protéines sont capables de tolérer des niveaux de frustration plus élevés. Cette tendance générale, qui a déjà été relevée dans une étude antérieure [6], est liée notamment à la répartition inhomogène des résidus hydrophobes et hydrophiles entre le coeur et la surface des protéines et au fait que le volume du coeur hydrophobe est proportionnellement plus important au sein d’une grande protéine. Une interprétation plus détaillée de cet effet est donnée dans la section suivante.

Ce résultat suggère que négliger l’influence de la taille des protéines de la base

de données peut se révéler être une relativement bonne approximation lorsque l’on se

concentre sur l’étude d’une protéine unique, ou de protéines de tailles similaires, mais

pas lorsque l’on considère des protéines de tailles différentes.

(5)

3.3 D´ ependance dans le cas de paires de r´ esidus sp´ ecifiques

Malgré l’excellente corrélation qui est observée entre les potentiels dérivés de bases de données composées de protéines de différentes tailles, des comportements variés se révèlent lorsque les potentiels qui correspondent à différentes paires d’acides aminés sont analysés indépendamment. Quelques exemples sont illustrés et discutés dans cette section.

Considérons tout d’abord l’énergie libre dérivée pour la paire Valine-Valine en fonction de la distance séparant ces deux résidus (Figure 3.2). Ce profil énergétique est caractéristique de la plupart des paires d’acides aminés hydrophobes : il présente un minimum profond à courte distance ainsi qu’un deuxième minimum, aux alentours de 10 ˚ A, qui résulte de l’empilement serré des résidus au coeur des protéines. Ce second minimum est une caractéristique typique des potentiels de force moyenne dérivés en milieu dense, et est observé de manière similaire dans des systèmes nettement moins complexes que les protéines (liquide homogène,. . .). Dans le cas qui nous intéresse, il indique simplement que la configuration dans laquelle deux résidus hydrophobes sont séparés par un troisième résidu, probablement hydrophobe également, est favorable.

Figure 3.2 – Influence de la taille des prot´eines sur le potentiel Valine-Valine.

Le potentiel de force moyenne ∆W⁽²⁾ pour la paire d’acides aminés Val-Val est porté en fonction de la distance séparant ces deux résidus (r12). Le potentiel dérivé de la base de données complète DB0 est en trait gras, tandis que ceux dérivés des sous-groupes contenant les plus grandes (DB⁶) et les plus petites (DB¹) protéines sont représentées par un trait fin continu et interrompu, respectivement.

On ne peut ´eviter de remarquer que ces minima sont nettement plus prononc´es lorsque

le potentiel est extrait du sous-groupe contenant exclusivement des petites prot´eines. Ce

phénomène trouve son origine, du moins en partie, dans l’eau environnant les protéines,

dont la présence induit une répartition inhomogène des acides aminés hydrophobes

et hydrophiles entre le coeur et la surface des prot´eines. Le rapport surface/volume

(6)

est naturellement plus petit dans une grande que dans un petite protéine, mais cette différence n’est pas (ou pas parfaitement) compensée par une variation de la composition en différents types d’acides aminés. En conséquence, les coeurs hydrophobes des protéines deviennent de moins en moins hydrophobes lorsque des protéines de tailles croissantes sont considérées. A titre d’exemple, les valines représentent 6.8% du nombre total de résidus, et 10.9% du nombre total de résidus enfouis dans DB

¹

, tandis que ces valeurs sont respectivement 7.4% et 9.5% dans DB

⁶

. Etant donn´e que la majorit´e des interactions

à courte distance sont établies entre résidus enfouis, cette diminution de la concentration en résidus hydrophobes dans le coeur génère des potentiels moins favorables à courte distance dans le cas de paires de résidus hydrophobes.

Un autre aspect remarquable de ces courbes est la variation soudaine de l’´energie libre calcul´ee lorsque r

12

approche le diamètre moyen des protéines inclues dans la base de données (ce diamètre vaut approximativement 20 ˚ A dans DB

¹

, et il est plus grand que 40 ˚ A dans DB

⁶

et DB

⁰

). Deux résidus séparés par un telle distance sont en effet probablement situés en surface de la protéine, ce qui est très défavorable dans le cas d’acides aminés hydrophobes.

Figure 3.3 – Influence de la taille des prot´eines sur le potentiel Aspartate-Arginine.

Le potentiel de force moyenne ∆W⁽²⁾ pour la paire d’acides aminés Asp-Arg est porté en fonction de la distance séparant ces deux résidus (r12). Le potentiel dérivé de la base de données complèteDB0est en trait gras, tandis que ceux dérivés des sous-groupes contenant les plus grandes (DB⁶) et les plus petites (DB¹) protéines sont représentées par un trait fin continu et interrompu, respectivement.

Les paires de résidus portant des charges opposées sont représentées ici par la

paire Asp-Arg, dont le profil énergétique est porté en Figure 3.3. Dans ce cas l’énergie

calculée est négative à courte distance, reflétant l’interaction électrostatique favorable

de formation d’un pont salin. Le coˆ ut énergétique nécessaire à l’enfouissement d’un

r´esidu charg´e devient cependant dominant lorsque r

12

augmente, et le potentiel passe

en positif apr`es 10 ˚ A. Le potentiel extrait du sous-groupe contenant les petites prot´eines

revient en territoire favorable après 20 ˚ A, étant donné que les résidus sont alors très

(7)

probablement accessibles au solvant. L’effet de la taille des protéines inclues dans la base de données est opposé à celui observé pour les paires de résidus hydrophobes : le minimum d’énergie à courte distance est plus profond tandis que le maximum d’énergie à moyenne distance est moins prononcé dans le cas de grandes protéines. Cette différence s’explique essentiellement sur la base de la proportion plus importante de résidus hydrophiles enfouis dans les grandes protéines.

Une autre manière de comprendre l’influence de la taille des protéines sur les potentiels qui en sont dérivés est de considérer que les grandes protéines sont capables de tolérer des niveaux de frustration plus élevés. Cette frustration résulte notamment de la nécessité d’accomoder des fractions similaires de résidus hydrophobes et hydrophiles dans une protéine caractérisée par un coeur hydrophobe plus vaste. Il en résulte que, dans des grandes protéines, les potentiels de force moyenne décrivant les interactions entre résidus hydrophobes sont calculés comme étant moins favorables, alors que ceux générés pour des paires de résidus hydrophiles sont plus favorables. La dépendance générale qui est décrite dans la section précédente est une conséquence du fait que, outre certaines interactions spécifiques qui peuvent être favorables ou non, une contribution non-négligeable aux potentiels de paires provient implicitement de la présence de l’eau et est favorable entre résidus hydrophobes et défavorable entre résidus hydrophiles. Augmenter la taille des protéines de la base de données résulte donc en moyenne en une diminution, en valeur absolue, des énergies libres qui en sont extraites.

Figure 3.4 – Influence de la taille des prot´eines sur le potentiel Arginine-Tyrosine.

Le potentiel de force moyenne ∆W⁽²⁾ pour la paire d’acides aminés Arg-Tyr est porté en fonction de la distance séparant ces deux résidus (r12). Le potentiel dérivé de la base de données complèteDB0est en trait gras, tandis que ceux dérivés des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) protéines sont représentées par un trait fin continu et interrompu, respectivement.

Les Figures 3.4 et 3.5 donnent deux autres exemples de potentiels d’interactions de paires et de l’influence de la taille des prot´eines de la base de donn´ees. Le profil

énergétique correspondant à la paire Arg-Tyr (Figure 3.4) présente un minimum à très

(8)

courte distance qui reflète la nature favorable des interactions cation-π, établies entre un cycle aromatique (appartenant dans ce cas au résidu Tyr) et une charge positive (portée ici par Arg) [14]. L’énergie libre s’annule presque parfaitement pour toutes les distances supérieures à 5-6 ˚ A. Plus précisément, elle présente un maximum positif aux alentours de 5-6 ˚ A lorsqu’elle est extraite de petites protéines et reste légèrement négative dans le cas de grandes protéines. Ces comportements différents sont probablement dus aux préférences individuelles contradictoires des tyrosines, qui sont hydrophobes, et des arginines, qui sont hydrophiles.

Un minimum très profond à courte distance est mis en évidence dans le profil

énergétique correspondant à la paire Phe-Tyr. Ce minimum résulte de l’interaction favorable qui peut s’établir entre deux chaˆınes latérales aromatiques. Rappelons que les degrés de liberté des chaˆınes latérales sont négligés lors de la dérivation des potentiels, ce qui implique qu’aucune distinction n’est faite entre les différentes géométries d’interaction. Dans ce cas particulier, l’énergie calculée est en réalité une moyenne sur différentes conformations dans lesquelles les cycles aromatiques peuvent être parallèles (π − π stacking ) ou orthogonaux (T-shaped conformation ). Lorsque la distance entre les deux résidus dépasse 5-6 ˚ A, l’énergie libre croˆıt graduellement mais reste négative. La nature hydrophobe des résidus aromatiques implique en effet une contribution favorable résultant de leur enfouissement dans le coeur de la protéine. La dépendance de ce potentiel en la taille des protéines est en conséquence assez comparable avec celle observée pour la paire Val-Val (Figure 3.2).

Figure 3.5 – Influence de la taille des prot´eines sur le potentiel Phenylalanine-Tyrosine.

Le potentiel de force moyenne ∆W⁽²⁾pour la paire d’acides aminés Phe-Tyr est porté en fonction de la distance séparant ces deux résidus (r12). Le potentiel dérivé de la base de données complèteDB0est en trait gras, tandis que ceux dérivés des sous-groupes contenant les plus grandes (DB6) et les plus petites (DB1) protéines sont représentées par un trait fin continu et interrompu, respectivement.

Ces exemples illustrent de manière éloquente les différences fondamentales qui

existent entre les potentiels de force moyenne et les (( vraies )) ´energies qui d´eterminent

(9)

le reploiement et la stabilité des protéines. En effet, on peut difficilement s’attendre, par exemple, à ce qu’un (( vrai )) potentiel d’interaction entre deux résidus portant des charges opposées soit défavorable entre 10 et 20 ˚ A. Par ailleurs, l’énergie favorable calculée dans le cas de paires de résidus hydrophobes reflète implicitement le fait que ces résidus tendent à se regrouper dans le coeur des protéines pour éviter tout contact avec l’eau.

Ces couplages entre différents effets et interactions constituent un obstacle important à la compréhension de la signification physique de ces potentiels et ont parfois été invoqués dans le but de démontrer qu’ils ne sont pas valables [1]. Il est cependant essentiel de réaliser que les potentiels de force moyenne n’ont pas la prétention de reproduire les (( vrais )) potentiels d’interaction U mais correspondent à des moyennes statistiques de ces potentiels, ce qui apparaˆıt clairement dans les équations 2.2 à 2.4. Les potentiels de force moyenne permettent de définir un nombre limité de fonctions énergétiques qui incarnent l’ensemble complexe d’interactions qui définissent les propriétés des protéines, et incluent également certaines contributions entropiques [15–18].

3.4 D´ ependance ` a longue distance

Revenons quelques instants aux systèmes simples considérés en Section 2.1. Suppo- sons qu’une interaction favorable s’établisse lorsque deux particules sont séparées par une distance r

12

< r

lim

. Il en résulte que, à l’équilibre, la probabilité d’observer deux particules séparées par une distance inférieure à r

lim

est supérieure à celle attendue dans une distribution indépendante. Ceci peut s’exprimer par :

Z

V

Z

r12<rlim

P

⁽²⁾

(~r

1

, ~r

2

) d~r

1

d~r

2

>

Z

V

Z

r12<rlim

P

⁽¹⁾

(~r

1

)P

⁽¹⁾

(~r

2

) d~r

1

d~r

2

, (3.2) o` u l’int´egration est effectu´ee sur toutes les paires de positions ~r

1

et ~r

2

s´epar´ees par une distance r

12

< r

lim

. Les conditions de normalisation

Z

V

P

⁽¹⁾

(~r

i

) d~r

i

= 1 et

Z

V

Z

V

P

⁽²⁾

(~r

i

, ~r

j

) d~r

i

d~r

j

= 1 (3.3) impliquent alors que, si le nombre de particules N est fini,

Z

V

Z

r12>rlim

P

⁽²⁾

(~r

₁

, ~r

₂

) d~r

₁

d~r

₂

<

Z

V

Z

r12>rlim

P

⁽¹⁾

(~r

₁

)P

⁽¹⁾

(~r

₂

) d~r

₁

d~r

₂

, (3.4)

et le potentiel de force moyenne w

⁽²⁾

(~r

₁

, ~r

₂

) sera donc, en moyenne, d´efavorable `a longue

distance (voir ´equation 2.3). Cet effet est d’autant plus prononc´e que N est petit : si

N → ∞ , à N/V constant, l’excès (par rapport à une distribution indépendante) de

paires séparées par une courte distance devient négligeable par rapport au nombre total

de paires. C’est `a dire :

(10)

N→∞

lim

(N/V cst)

Z

V

Z

r12>rlim

P

⁽¹⁾

(~r

1

)P

⁽¹⁾

(~r

2

)d~r

1

d~r

2

= Z

V

Z

V

P

⁽¹⁾

(~r

1

)P

⁽¹⁾

(~r

2

)d~r

1

d~r

2

= 1

N→∞

lim

(N/V cst)

Z

V

Z

r12>rlim

P

⁽²⁾

(~r

1

, ~r

2

)d~r

1

d~r

2

= Z

V

Z

V

P

⁽²⁾

(~r

1

, ~r

2

)d~r

1

d~r

2

= 1 . (3.5) Dans le cas contraire, si un potentiel répulsif à courte distance régit les interactions entre particules et que le nombre de particules N est fini, on observe un excès de paires séparées par une distance r

12

> r

lim

.

Il a été démontré que le comportement de P

⁽²⁾

, lorsque la distance r

₁₂

séparant deux particules tend vers l’infini dans un système de volume V contenant N particules identiques, est décrit par l’équation suivante [8–10] :

r12

lim

→∞

P

⁽²⁾

(~r

1

, ~r

2

)

P

⁽¹⁾

(~r

₁

)P

⁽¹⁾

(~r

₂

) = 1 + 1 − α

~r1

α

~r2

κ/κ

0

N − 1 avec α

_~_r_i

= − V ∂ log P

⁽¹⁾

(~r

_i

)

∂V

¯

N,T

et κ = − 1 V

∂V

∂p

¯

N,T

, (3.6)

o` u κ est la compressibilit´e isothermique du syst`eme, κ

0

celle d’un gaz parfait, p la pression et T la temp´erature. Pour un fluide uniforme sans effets de bord, P

⁽¹⁾

(~r

i

) = 1/V et α

_~_r_i

= 1. Dans ce cas, l’´equation 3.6 indique que la probabilit´e de trouver la particule 1 en ~r

1

et la particule 2 en ~r

2

, si la distance s´eparant ~r

1

de ~r

2

est suffisamment grande, vaut 1/V

²

dans un gaz parfait. Par contre, si la compressibilité du système est plus grande (plus petite) que celle d’un gaz parfait, cette probabilité est inférieure (supérieure) à 1/V

²

. Cet effet est plus marqué dans des systèmes contenant un nombre restreint de particules (N ). Si l’influence des bords du système ne peut être négligée, il faut tenir compte de corrections supplémentaires, qui sont encodées dans α

_~_r_i

[9, 10].

L’équation 3.6 peut être généralisée aux systèmes contenant plusieurs types de particules :

r12

lim

→∞

P

⁽²⁾

(~r

1

, ~r

2

| s

1

, s

2

)

P

⁽¹⁾

(~r

₁

| s

₁

)P

⁽¹⁾

(~r

₂

| s

₂

) = 1 + 1 − α

^s_~_r¹₁

α

^s_~_r²₂

κ

^s¹^s²

/κ

0

N − 1 avec α

_~^s_rⁱ

i

= − V ∂ log P

⁽¹⁾

(~r

_i

| s

_i

)

∂V

¯

N,T

et κ

^s¹^s²

= − 1 V

∂V

∂p

^s¹^s²

¯

N,T

, (3.7) o` u p

^s¹^s²

est la pression due aux paires de particules (s

1

, s

2

) et κ

^s¹^s²

la compressibilit´e correspondante.

Dans le cas des protéines, en utilisant les équations 2.3, 2.8, 2.16, et 2.18, les relations 3.6 et 3.7 peuvent être approximées en termes de fréquences d’observation des paires d’acides aminés, F (r

12

) et F (r

12

| s

1

, s

2

). On a :

r12

lim

→rmax

F (r

₁₂

) V

ν(r

12

) ' 1 + 1 − α

₁

α

₂

κ/κ

₀

N − 1 (3.8)

et lim

r12→rmax

F (r

₁₂

| s

₁

, s

₂

) V

ν(r

12

) ' 1 + 1 − α

^s₁¹

α

^s₂²

κ

^s¹^s²

/κ

₀

N − 1 (3.9)

(11)

o` u r

max

indique une distance suffisamment grande qui ne dépasse pas le diamètre de la protéine, α

1

α

2

et α

^s₁¹

α

^s₂²

correspondent aux valeurs de α

~r1

α

~r2

et α

_~^s_r¹₁

α

^s_~_r²₂

moyenn´ees sur toutes les paires de positions ~r

1

et ~r

2

, ν(r

12

) est défini par l’équation 2.14, et V est posé

égal à N fois le volume moyen par résidu, qui vaut 190 ˚ A

³

(cette valeur a été estimée

à l’aide du programme SurVol [19]). Notons que, étant donné que les molécules d’eau ne sont pas inclues explicitement dans le système, la frontière qui délimite celui-ci est confondue avec la surface de la protéine.

La distance maximale de corrélation des potentiels de force moyenne est généralement plus grande que celle des (( vrais )) potentiels qui régissent les interactions entre particules.

Par exemple, la valeur limite de 7 ˚ A qui est couramment utilisée pour les potentiels de type Lennard-Jones n’est pas suffisante pour inclure le minimum correspondant au second voisin que nous avons observé, par exemple, en Figure 3.2. L’agencement particulier des différents éléments de structure secondaire au sein des protéines peut également être tenu pour responsable de corrélations entre les positions de résidus séparés par des distances plus importantes. La distance maximale de corrélation observée pour des potentiels de force moyenne dans des protéines est de l’ordre de 15 ˚ A [3]. Nous considérons donc ici que la condition r

12

→ r

max

est v´erifi´ee lorsque r

12

est plus grand que 15 ˚ A (sans dépasser le diamètre de la protéine).

Comportement ` a longue distance du potentiel non-sp´ ecifique w

⁽²⁾

(r

12

)

Afin de vérifier l’adéquation entre le comportement du potentiel non-spécifique w

⁽²⁾

(r

12

) (Equation 2.16) et le comportement théorique attendu dans le cas de systèmes simples et adapté aux protéines (Equation 3.8), nous avons calculé F (r

12

)V /ν(r

12

) en fonction de 1/(N

^{ef f}

− 1) dans chaque sous-groupe DB

ⁱ

, pour diff´erentes valeurs de r

12

. Afin de limiter les erreurs r´esultant de l’utilisation de ν(r

12

), les protéines dont le rayon de gyration s’écarte de plus de 10% de celui correspondant à un sphère parfaite de même volume ont été exclues. Nous avons également été contraints d’exclure certaines protéines, de diamètre trop petit, dans le cas de grandes valeurs de r

12

.

La Table 3.2 indique que le potentiel non-sp´ecifique w

⁽²⁾

(r

12

), dérivé de structures protéiques, suit une dépendance selon N qui est en bon accord avec la relation théorique

énoncée ci-dessus (Equation 3.8). On observe en effet une dépendance linéaire de F (r

12

)V /ν(r

12

) selon 1/(N

^{ef f}

− 1), avec des coefficients de corr´elation particuli`erement

´elev´es (en valeur absolue) lorsque r

12

est compris entre 20 et 30 ˚ A. De plus, les droites de régression sont caractérisées par des ordonnées à l’origine fort proches de l’unité.

r12 coefficient de ordonn´ee `a pente α1α2κ/κ0

corr´elation lin´eaire l’origine

15 -0.67 1.07 -5.2 6.2

20 -0.90 1.01 -10.0 11.0

25 -0.96 0.97 -14.2 15.2

30 -0.94 0.95 -19.8 20.8

Table 3.2 – Influence de la taille des prot´eines sur la composante longue distance du potentiel non-sp´ecifique.

Le coefficient de corrélation linéaire entreF(r12)V /ν(r12) et 1/(N^{ef f}−1), ainsi que l’ordonnée à l’origine et la pente de la droite de régression obtenue en portantF(r12)V /ν(r12) en fonction de 1/(N^{ef f} −1), sont donnés pour différentes valeurs der12 (avec ∆r12= 1 ˚A).α1α2κ/κ0

est calculé à l’aide de l’équation 3.8.

(12)

Pour chaque valeur de r

12

, la pente de la droite de r´egression permet d’obtenir une valeur pour le terme α

1

α

2

κ/κ

0

, qui inclut l’effet de la compressibilité du système et de la présence du bord (Equation 3.8). Il est relativement difficile d’attribuer une signification précise à ce terme dans le cas de protéines. Dans le coeur des protéines, on peut raisonnablement supposer une distribution uniforme des résidus, et donc l’absence d’effet à longue distance. Pour les paires de résidus localisés dans le coeur, α

~r1

α

~r2

κ/κ

0

doit donc être proche de l’unité. Par contre, à proximité de la surface, le volume non nul des résidus induit certaines particularités dans la distribution des distances entre résidus : α

~r1

α

~r2

κ/κ

0

pourra donc être différent de 1 dans cette région. La dépendance de α

1

α

2

κ/κ

0

en r

12

provient du fait que α

1

α

2

correspond `a une moyenne de α

~r1

α

~r2

sur toutes les paires de positions ~r

1

et ~r

2

(Equation 3.8). L’effet de bord est donc plus marqu´e pour de grandes valeurs de r

12

, étant donné que la proportion de paires de résidus dont l’un au moins est proche de la surface de la protéine augmente avec r

12

. Par ailleurs, les protéines ne sont pas des sphères parfaites, ce qui implique une certaine imprécision lors de l’évaluation de ν(r

12

). Pour des grandes distances qui ne dépassent pas le diamètre de la protéine, cette imprécision se traduit vraisemblablement par une surestimation de ν(r

12

) et donc ´egalement de α

1

α

2

κ/κ

0

. Cet effet, dont l’amplitude d´epend de r

12

, joue sans doute également un rôle au niveau de la dépendance observée de α

1

α

2

κ/κ

0

en r

12

. Comportement ` a longue distance du potentiel sp´ ecifique ∆W

⁽²⁾

(r

12

, s

1

, s

2

)

Le probl`eme de l’impr´ecision sur ν(r

12

) disparaˆıt lors de l’´etude du potentiel sp´ecifique

∆W

⁽²⁾

(r

12

, s

1

, s

2

). En effet, sur la base des ´equations 2.19, 3.8 et 3.9, on trouve :

r12

lim

→∞

F (r

12

| s

1

, s

2

)

F (r

12

) = 1 − ∆(α

1

α

2

κ/κ

0

)

^s¹^s²

N − α

1

α

2

κ/κ

0

avec ∆(α

₁

α

₂

κ/κ

₀

)

^s¹^s²

= α

^s₁¹

α

^s₂²

κ

^s¹^s²

/κ

₀

− α

₁

α

₂

κ/κ

₀

. (3.10) Afin de maintenir un rapport signal/bruit satisfaisant, nous calculons ici les fr´equences relatives F (r

12

| s

1

, s

2

) et F (r

12

) en moyenne sur tous les intervalles qui correspondent `a des distances plus grandes que 15 ˚ A.

En Figure 3.6, F (r

12

| s

1

, s

2

)/F (r

12

) est port´e en fonction de 1/(N

^{ef f}

− α

1

α

2

κ/κ

0

) pour quelques paires d’acides amin´es (s

1

, s

2

). Qualitativement, l’accord avec la relation th´eorique est assez remarquable. Dans tous les cas, la d´ependance en 1/(N

^{ef f}

− α

₁

α

₂

κ/κ

₀

) est linéaire, avec un très bon coefficient de corrélation et une ordonnée à l’origine proche de l’unité (Table 3.3). La seule exception concerne la paire Arg-Val, pour laquelle le faible coefficient de corrélation observé résulte de la pente, quasiment nulle, de la droite de régression.

Les pentes des droites de r´egression permettent d’´evaluer ∆(α

1

α

2

κ/κ

0

)

^s¹^s²

pour chaque paire d’acides amin´es (Equation 3.10). Notons que, contrairement `a α

_~_r_i

, α

^s_~_rⁱ

i

diffère généralement de 1 en surface mais également dans le coeur des protéines, en conséquence de la distribution non-uniforme des différents types d’acides aminés. En outre, κ

^s¹^s²

/κ

0

devrait ˆetre plus grand que κ/κ

₀

dans le cas de paires d’acides aminés qui préfèrent se

regrouper dans le coeur des prot´eines, et plus petit que κ/κ

0

dans le cas de paires d’acides

amin´es hydrophiles. On trouve en effet des valeurs de ∆(α

1

α

2

κ/κ

0

)

^s¹^s²

positives dans le

cas de paires de r´esidus hydrophobes (par ex. : ∆(α

₁

α

₂

κ/κ

₀

)

^{V al−V al}

= 26.4) et n´egatives

(13)

Figure 3.6 – Influence de la taille des prot´eines sur la composante longue distance des potentiels de paires.

Le rapport F(r12|s1, s2)/F(r12), extrait des différents sous-groupesDBi pour r12>15˚A, est porté en fonction de 1/(N^{ef f}−α1α2κ/κ0). Sur la base du comportement à longue distance observé dans le cas du potentiel non-spécifique (Equation 3.8, Table 3.2), on pose α1α2κ/κ0 = 15.

L’imprécision sur cette valeur n’a pas réellement de conséquence étant donné queα1α2κ/κ0 est petit par rapport àN^{ef f}. Les droites de régression, dont les caractéristiques apparaissent en Table 3.3, sont

également représentées.

dans le cas de paires de r´esidus charg´es (par ex. : ∆(α

1

α

2

κ/κ

0

)

^Asp−Arg

= − 12.2). Il est néanmoins intéressant de remarquer que les paires de résidus portant des charges de signes opposés n’apparaissent que légèrement plus compressibles que celles portant des charges de même signe. L’excès, à longue distance, de paires de résidus chargés semble donc résulter essentiellement de la répartition inhomogène des résidus hydrophobes et hydrophiles entre le coeur et la surface et, dans une moindre mesure, de l’existence d’interactions spécifiques à courte distance.

s1-s2 coefficient de ordonnée à pente ∆(α1α2κ/κ0)^s¹^s² corrélation linéaire l’origine

Val - Val -0.997 1.009 -26.4 26.4

Tyr - Tyr -0.956 0.987 -8.6 8.6

Arg - Val 0.517 1.002 0.7 -0.7

Asp - Arg 0.997 0.999 12.2 -12.2

Asp - Asp 0.987 1.005 15.5 -15.5

Arg - Arg 0.986 0.993 14.7 -14.7

Table 3.3 – Influence de la taille des prot´eines sur la composante longue distance des potentiels de paires.

Le coefficient de corr´elation lin´eaire entre F(r12|s1, s2)/F(r12) (pour r12 >15

˚A) et 1/(N^{ef f}−α1α2κ/κ0), ainsi que l’ordonnée à l’origine et la pente de la droite de régression obtenue en portantF(r12|s1, s2)/F(r12) en fonction de 1/(N^{ef f}−α1α2κ/κ0), sont donnés pour différentes paires (s1, s2). ∆(α1α2κ/κ0)^s¹^s² est obtenu à l’aide de l’équation 3.10.

(14)

3.5 Prise en compte de la taille des prot´ eines

Les potentiels ∆W

⁽²⁾

(r

12

, s

1

, s

2

) associent, `a chaque paire de r´esidus (s

1

, s

2

) s´epar´es par une distance r

12

, une énergie libre décrivant l’interaction entre ces résidus en tenant compte d’un environnement protéique moyen. Les résultats présentés dans les sections précédentes indiquent que l’influence de la taille des protéines inclues dans la base de données est spécifique à chaque paire d’acides aminés et peut être relativement importante. Cet (( environnement protéique moyen )) , ressenti par les acides aminés et inclus implicitement dans les potentiels, n’est en effet pas identique dans de grandes ou de petites protéines. Ces différences d’environnement moyen ont un impact sur les potentiels, qui dépend de la nature des résidus considérés. Il semble dès lors utile d’analyser l’effet de la dépendance en la taille des protéines sur le pouvoir prédictif des potentiels. Nous

évaluons ici deux manières de prendre en compte cette dépendance lors de la dérivation des potentiels.

3.5.1 Utilisation de plusieurs bases de donn´ ees

Une méthode simple permettant de tenir compte de la dépendance des potentiels en la taille des protéines nécessite la définition de plusieurs bases de données DB

ⁱ

, chacune correspondant à un intervalle restreint de tailles de protéines. L’étude d’une protéine de taille donnée se fera alors à l’aide des potentiels de force moyenne ∆W

_DB⁽²⁾_i

(r

12

, s

1

, s

2

), dérivés de la base de données DB

ⁱ

qui contient uniquement des protéines de taille similaires à celle de la protéine cible.

Cette approche, qui semble très naturelle, présente cependant un défaut majeur : plus l’intervalle de tailles de protéines caractérisant DB

ⁱ

est limit´e, plus le nombre de prot´eines inclues dans DB

ⁱ

sera restreint, ce qui nuit forcément à la validité statistique de la procédure de dérivation et génère un bruit important dans les potentiels. Ceci est visible dans les quelques exemples donnés précédemment (Figures 3.2-3.5) mais est nettement plus problématique dans le cas de paires de résidus peu fréquents.

Evaluation des performances

Afin de comparer les performances des potentiels dérivés des différentes bases de données DB

ⁱ

, nous avons évalué leur aptitude à isoler une association correcte (séquence - structure native) parmi un ensemble de leurres. Ces leurres sont obtenus en redistribuant aléatoirement les positions des résidus le long de la séquence, la structure étant maintenue fixe.

Notons que plusieurs raisons nous ont poussé à préférer ici les ensembles de leurres obtenus par une modification de séquence plutôt que par une modification de structure.

Tout d’abord, l’utilisation de leurres définis sur la base d’altérations structurales ne permet pas d’effectuer des tests comparatifs sur des protéines de différentes tailles.

En effet, la plupart des ensembles de structures alternatives disponibles, obtenus via

diverses approches de simulation ou de mod´elisation, sont construits uniquement sur

la base de petites prot´eines (voir par exemple [20–23]). Les proc´edures d’enfilement

(ou threading [12, 24–28]), qui comparent une s´equence avec des parties restreintes

de structures prot´eiques connues de taille plus importante, souffrent d’un probl`eme

similaire : les longues séquences ne peuvent être comparées qu’avec un nombre très

(15)

limité de conformations. Par ailleurs, la modification de la structure d’une protéine affecte généralement sa compacité, et la capacité des potentiels à simplement énumérer le nombre de contacts peut dans certains cas avoir un impact plus important que l’évaluation précise de la spécificité de ces contacts. La modification de séquence apparaˆıt au contraire comme un moyen efficace de produire différents ensembles d’interactions entre acides aminés, tout en conservant la distribution globale des distances séparant les résidus.

Cette méthode présente également l’avantage d’être applicable de manière identique à des protéines de tailles différentes, et une étude récente suggère qu’elle est légèrement plus efficace que la modification de structure pour la comparaison des performances de potentiels de distance [13].

En pratique, nous avons considéré une à une les 735 protéines de DB

⁰

. Pour chacune, un ensemble de 1000 leurres a été construit à l’aide de modifications aléatoires des positions des résidus dans la séquence. L’énergie totale de la protéine, ainsi que celles des leurres qui lui sont associés, ont été évaluées à l’aide des potentiels dérivés des différentes bases de données DB

ⁱ

(i = 0, . . . , 6). Notons que, dans chaque cas, la protéine utilisée comme test est exclue des bases de données lors de la dérivation des potentiels afin d’éviter l’introduction d’un biais dans les différentes fonctions énergétiques. Les performances des potentiels sont évaluées à l’aide du Z-score :

Z = (E

m

− µ

r

)/σ

r

, (3.11)

o` u E

m

est l’énergie calculée pour l’association correcte séquence-structure, tandis que µ

r

et σ

r

sont respectivement la moyenne et l’écart-type de la distribution des énergies calculées pour les leurres. Un Z-score négatif, de grande valeur absolue, indique que la fonction énergétique permet de distinguer efficacement l’association séquence-structure correcte parmi les différents leurres.

La comparaison des performances des potentiels dérivés de la base de données complète DB

⁰

et des diff´erents sous-groupes DB

ⁱ

fait l’objet de la Figure 3.7. En accord avec plusieurs études antérieures [4, 13], on observe que les potentiels dérivés d’une base de données caractérisée par un intervalle restreint de tailles de protéines sont plus performants lorsqu’ils sont appliqués à des protéines de tailles similaires. En particulier, les potentiels dérivés de petites protéines (∆W

_DB⁽²⁾₁

) possèdent un meilleur pouvoir discriminatoire que ceux dérivés de grandes protéines (∆W

_DB⁽²⁾₆

) lorsque les tests sont réalisés sur de petites protéines. En revanche, une tendance opposée est constatée lorsque les tests concernent de grandes protéines.

Cependant, les potentiels dérivés de sous-groupes de la base de données présentent de moins bonnes performances que ceux dérivés de la base de données complète, et ce dans la totalité de l’intervalle de tailles de protéines considéré. La seule exception concerne les potentiels dérivés de DB

1

qui sont légèrement meilleurs que ceux dérivés de DB

0

dans un intervalle restreint de tailles de protéines. La perte de validité statistique qui est liée à la diminution du nombre total de protéines considérés est vraisemblablement à l’origine de cette sous-performance des potentiels dérivés des sous-groupes DB

i

(i = 1, . . . , 6).

3.5.2 D´ efinition de fonctions correctives

L’utilisation d’une base de donnée restreinte composée uniquement de protéines de

tailles similaires à celle de la protéine étudiée s’étant révélée peu fructueuse, nous avons

(16)

Figure 3.7 – Performances relatives des potentiels dérivés de sous-groupes de la base de données.

Les performances des potentiels dérivés de petites (∆W_DB⁽²⁾₁(r12, s1, s2),5) et de grandes (∆W_DB⁽²⁾₆(r12, s1, s2),4) protéines sont comparées avec celles des potentiels dérivés de la base de données complète (∆W_DB⁽²⁾₀(r12, s1, s2)), en fonction du nombre de résidus des protéines qui servent de test.

L’aptitude du potentiel ∆W à isoler une association séquence-structure correcte parmi un ensemble de leurres est évaluée à l’aide du Z-scoreZ(∆W) (Equation 3.11). Une valeur positive de la différence Z(∆WDB0)−Z(∆WDBi) indique que ∆WDBi possède un meilleur pouvoir discriminatoire que ∆WDB0. Chaque valeur portée en graphique correspond à une moyenne sur 35 protéines de tailles similaires.

< N >est le nombre moyen de r´esidus de ces prot´eines.

proposé une approche alternative permettant la mise au point de potentiels tenant compte de la taille des protéines. Cette approche est basée sur le fait que, à courte distance, les allures générales des profils énergétiques de paires sont essentiellement conservées lorsque des protéines de tailles différentes sont considérées. Ceci incite la mise au point de fonctions correctives permettant d’exprimer l’énergie libre correspondant à une taille de protéine donnée en fonction de celle dérivée de la base de données complète, qui est constituée de protéines de tailles diverses. Il est possible, à l’aide d’une telle procédure, de prendre en compte les tailles des protéines, tout en conservant les avantages d’une base de données incluant un nombre important de protéines.

Nous avons précédemment relevé l’existence d’une forte corrélation entre les potentiels

dérivés de la base de données complète et ceux dérivés des différents sous-groupes, qui

correspondent à des intervalles de taille limités (voir Section 3.2). Cette corrélation

est obtenue en consid´erant globalement les valeurs de potentiels qui correspondent

aux diff´erentes distances r

₁₂

et aux diff´erentes paires de r´esidus (s

₁

, s

₂

). En outre,

de relativement bonnes corrélations peuvent également être obtenues si l’on considère

séparément les potentiels associés aux diverses paires de résidus (s

1

, s

2

). La Figure 3.8

met ces corr´elations en ´evidence dans le cas de la paire Val-Val ainsi que de la paire

Asp-Arg.

(17)

Figure 3.8 – Comparaison des potentiels dérivés de sous-groupes de la base de données et de ceux dérivés de la base de données complète.

Les valeurs des potentiels ∆W_DB⁽²⁾_i(r12, s1, s2) dérivés des sous-groupesDB1(5) etDB6(4), avec 3 ˚A≤r12≤8 ˚A, sont portées en fonction des valeurs correspondantes dérivées deDB0. Les droites de régression sont également représentées. (a) Les énergies qui correspondent à la paire Val-Val sont considérées. Les coefficients de corrélation linéaire (entre

∆W_DB⁽²⁾_i(r12,Val,Val) et ∆W_DB⁽²⁾₀(r12,Val,Val)) sont supérieurs à 0.99. (b) Les énergies qui correspondent

à la paire Asp-Arg sont considérées. Les coefficients de corrélation linéaire sont compris entre 0.80 et 0.98.

L’énergie libre dépendant du nombre de résidus N , estimée par ∆W

_DB⁽²⁾_i

(r

12

, s

1

, s

2

) lorsque N = N

_DB^{ef f}_i

, peut en conséquence être approximée par ∆W

_N⁽²⁾

(N, r

12

, s

1

, s

2

), qui est d´efini de la mani`ere suivante :

∆W

_N⁽²⁾

(N, r

12

, s

1

, s

2

) = A(N, s

1

, s

2

) + B(N, s

1

, s

2

)∆W

_DB⁽²⁾₀

(r

12

, s

1

, s

2

) , (3.12) o` u r

12

est limité au valeurs comprises entre 3 et 8 ˚ A étant donné que les allures des profils

´energ´etiques sont plus variables pour r

12