• Aucun résultat trouvé

2.2 D´ efinition dans le cadre des prot´ eines

N/A
N/A
Protected

Academic year: 2021

Partager "2.2 D´ efinition dans le cadre des prot´ eines"

Copied!
27
0
0

Texte intégral

(1)

Chapitre 2

Introduction th´ eorique

2.1 D´ efinition g´ en´ erale dans un syst` eme simple

Consid´erons un syst`eme classique constitu´e deN particules identiques contenues dans un volumeV `a l’´equilibre `a temp´eratureT. Si l’on observe la configuration de ce syst`eme, la probabilit´e de trouver la particule 1 en~r1, la particule 2 en~r2, . . ., et la particule N en~rN vaut, selon la loi de Boltzmann :

P(N)(~r1, . . . , ~rN) = exp [−U/kT]

Z ,

avec Z = Z

V

. . . Z

V

exp[−U/kT]d~r1. . . d~rN , (2.1) o`u k est la constante de Boltzmann, et U = U(~r1, ~r2, . . . , ~rN) est l’´energie interne du syst`eme dans la configuration~r1, ~r2, . . . , ~rN. La probabilit´e P(n)(~r1, . . . , ~rn) d’observer la particule 1 en ~r1, 2 en ~r2, . . . , et n en ~rn, quelle que soit la configuration des N −n autres particules, est la somme de toutes les probabilit´es, d´efinies par l’´equation 2.1, qui sont compatibles avec la configuration sp´ecifi´ee pour les particules 1 `an. C’est `a dire :

P(n)(~r1, . . . , ~rn) = R

V . . .R

V exp[−U/kT]d~rn+1. . . d~rN

Z . (2.2)

Le potentiel de force moyenne w(n)(~r1, . . . , ~rn) associ´e aux n particules localis´ees respectivement en~r1, . . . , ~rn est d´efini par [1] :

exp

·

−w(n)(~r1, . . . , ~rn) kT

¸

= P(n)(~r1, . . . , ~rn)

P(1)(~r1). . . P(1)(~rn). (2.3) Si l’on d´erive cette expression par rapport aux coordonn´ees de la particule situ´ee en ~ri

(avec i= 1, . . . , n), en utilisant l’´equation 2.2, on obtient :

~riw(n) =h∇~riU(n)i − h∇~riU(1)i, (2.4)

avec h∇~riU(n)i= R

V . . .R

V exp[−U/kT]∇~riU d~rn+1. . . d~rN

R

V . . .R

V exp[−U/kT]d~rn+1. . . d~rN

. (2.5)

43

(2)

La forceF~i agissant sur une particulei en position~ri, lorsque la configuration desN particules du syst`eme est d´ecrite par~r1, . . . , ~rN, vaut :

F~i =−∇~riU(~r1, . . . , ~rN), (2.6) En cons´equence, −h∇~riU(n)iest ´egal `a hF~i(n)i, la force agissant sur la particule ilorsque les particules 1 `an sont localis´ees respectivement en~r1, . . . , ~rn, moyenn´ee sur toutes les configurations possibles des N −n autres particules. w(n)(~r1, . . . , ~rn) est donc bien un potentiel de force moyenne, l’oppos´e de son gradient ´etant ´egal `a la diff´erence des forces moyennes hF~i(n)i et hF~i(1)i qui agissent sur la particule i (i= 1, . . . , n) :

−∇~riw(n) =−¡

h∇~riU(n)i − h∇~riU(1)

=hF~i(n)i − hF~i(1)i. (2.7) Ce potentiel est d´efini sur la base d’une moyenne statistique, sur les positions des N−n autres particules (Equations 2.2 et 2.3), et il a donc la nature d’une ´energie libre.

Notons que dans le cas d’un fluide isotrope, si l’on n´eglige les ´eventuels effets de bord, hF~i(1)i, la force qui s’exerce sur la particule i moyenn´ee sur toutes les configurations des N − 1 autres particules est nulle, par sym´etrie. En outre, P(n)(~r1, . . . , ~rn) et w(n)(~r1, . . . , ~rn) ne d´ependent pas des positions absolues~r1, . . . , ~rn des nparticules, mais uniquement de leurs positions relatives. En particulier, P(1)(~r1) vaut 1/V tandis que P(2)(~r1, ~r2) et w(2)(~r1, ~r2) ne d´ependent que de r12, la distance s´eparant ~r1 de ~r2. Ceci n’est pas vrai dans un cristal par exemple, o`u P(1)(~r1) est caract´eris´e par des maxima aig¨us aux positions qui correspondent aux nœuds du r´eseau cristallin.

Lorsque diff´erents types de particules (si) coexistent dans le mˆeme syst`eme, le d´eveloppement qui pr´ec`ede doit ˆetre g´en´eralis´e. Le potentiel de force moyenne W(2)(~r1, . . . , ~rn;s1, . . . , sn) affectant les particules de types1, . . . , snlocalis´ees en~r1, . . . , ~rn

peut dans ce cas ˆetre exprim´e de la mani`ere suivante [1] : exp

·−W(n)(~r1, . . . , ~rn;s1, . . . , sn) kT

¸

= P(n)(~r1, . . . , ~r2 |s1, . . . , sn)

P(1)(~r1 |s1). . . P(1)(~rn |sn) , (2.8) o`u P(1)(~r1 |s1) est la probabilit´e conditionnelle d’observer la particule 1 en position~r1, sachant qu’elle est de types1, etP(n)(~r1, . . . , ~rn|s1, . . . , sn) la probabilit´e conditionnelle d’observer les particules 1, . . . , n dans les positions ~r1, . . . , ~rn, sachant qu’elles sont de types1, . . . , sn, respectivement. On peut ´egalement d´efinir ∆W(2), la diff´erence entre les potentiels W(2) et w(2) :

∆W(n)(~r1, . . . , ~rn;s1, . . . , sn) = W(n)(~r1, . . . , ~rn;s1, . . . , sn)−w(n)(~r1, . . . , ~rn), (2.9) qui mesure le potentiel de force moyenne dans un syst`eme contenant plusieurs types de particules, en comparaison avec un syst`eme de r´ef´erence dans lequel n’existe qu’un seul type de particules.

Les potentiels w(n), W(n) et ∆W(n), qui d´ecrivent les interactions simultan´ees de n particules sont fr´equemment exprim´es `a l’aide de potentiels de paires. En particulier,

∆W(n), qui prend explicitement en compte n particules et inclut la contribution des N−nautres en moyenne sur toutes les configurations qui leur sont accessibles, peut ˆetre approxim´e par la somme de tous les potentiels de paires ∆W(2) :

(3)

∆W(n)(~r1, . . . , ~rn;s1, . . . , sn) =

n

X

i,j=1 ;i<j

∆W(2)(~ri, ~rj;si, sj) (2.10) Afin d’obtenir cette relation, on utilise l’approximation de superposition, qui consiste `a supposer que la probabilit´eP(n) de trouver n particules dans une configuration donn´ee

~r1, ~r2, . . . , ~rn est ´egale au produit de toutes les probabilit´es de paires possibles P(2). Notons cependant que l’´egalit´eP(2)(~r1, ~r2) = P(1)(~r1)P(1)(~r2), qui impliquew(2)(~r1, ~r2) = 0, n’est v´erifi´ee que dans le cas d’une distribution ind´ependante.

2.2 D´ efinition dans le cadre des prot´ eines

A partir de la fin des ann´ees 60, de nombreuses approches visant `a exploiter les quantit´es sans cesse croissantes d’informations structurales obtenues exp´erimentalement, et `a en extraire des relations statistiques utilisables dans le cadre de pr´edictions structurales, ont vu le jour [2–7]. Ces relations statistiques ont par la suite donn´e naissance `a des fonctions ´energ´etiques effectives permettant de d´ecrire, de mani`ere plus ou moins simplifi´ee, l’ensemble complexe des interactions qui s’´etablissent au sein des prot´eines [8–14]. Souvent qualifi´es de statistiques ou de d´eriv´es de bases de donn´ees, les potentiels issus d’approches de ce type se r´epartissent essentiellement en deux familles : ceux prenant la forme de fonctions pr´ed´efinies dont les param`etres sont optimis´es de mani`ere `a associer des ´energies fortement n´egatives aux structures natives de prot´eines, relativement `a des ensembles de conformations alternatives [15–28], et ceux d´eriv´es `a partir des fr´equences relatives d’observation de certains ´el´ements de s´equence et de structure au sein de bases de donn´ees structurales (pour des revues, voir [29–37]). Ces derniers sont tous plus ou moins apparent´es aux potentiels de force moyenne d´ecrits dans la section pr´ec´edente.

Nous nous attacherons tout d’abord `a exposer la mani`ere dont le formalisme pr´esent´e pr´ec´edemment peut ˆetre appliqu´e aux prot´eines, afin de d´eriver une ´energie libre d´ecrivant l’interaction entre deux acides amin´es dans un environnement prot´eique moyen, en fonction de la distance qui les s´epare. Nous parcourrons ensuite bri`evement le champ des diff´erents types de potentiels possibles, avant d’´evoquer plus en d´etail les diverses hypoth`eses et approximations qui sont n´ecessaires `a la d´erivation de potentiels de force moyenne dans le cadre des prot´eines.

2.2.1 Potentiel de distance entre r´ esidus

D´efinissons tout d’abord un mod`ele simplifi´e des prot´eines : chaque prot´eine est identifi´ee `a un ensemble de N r´esidus, que l’on traite de la mˆeme mani`ere que les particules ´evoqu´ees dans la section pr´ec´edente. Ni la connectivit´e de la chaˆıne prot´eique, ni les mol´ecules de solvant ne sont prises en compte explicitement. Leur influence est cependant pr´esente, implicitement, dans les moyennes statistiques qui sont calcul´ees. On consid`ere deux acides amin´es de types1 ets2, respectivement, s´epar´es par une distance r12.

Si l’on admet l’approximation selon laquelle le syst`eme est isotrope, et toutes les positions ~ri sont ´equivalentes, alors P(1)(~ri) vaut 1/V et P(2)(~ri, ~rj) ne d´epend que de

(4)

rij, la distance qui s´epare ~ri de ~rj. La probabilit´e de trouver les r´esidus 1 et 2 s´epar´es par une distance comprise entre r12 etr12+ ∆r12 ,P(2)(r12), correspond `a la somme des probabilit´esP(2)(~ri, ~rj) compatibles avec ce crit`ere. C’est-`a-dire :

P(2)(r12) = Z

V

Z

r12≤rij≤r12+∆r12

P(2)(~ri, ~rj)d~ri d~rj

' V ν(r12)P(2)(~r1, ~r2), (2.11)

o`u l’int´egration est r´ealis´ee sur toutes les paires de positions ~ri et ~rj s´epar´ees par une distance comprise entre r12 et r12+ ∆r12. ν(r12) est le volume de la coquille sph´erique centr´ee en~ri, de rayon int´erieurr12et de rayon ext´erieurr12+∆r12, moyenn´e sur toutes les positions~ri. Dans un syst`eme o`u l’effet de bord est n´egligeable, si ∆r12 est suffisamment petit, ν(r12) = 4πr212∆r12, tandis que dans un syst`eme avec limites, la coquille est incompl`ete lorsque ~ri est proche du bord, et ν(r12) est en cons´equence inf´erieur `a 4πr212∆r12. Les mol´ecules de solvant n’´etant pas explicitement prises en compte, une prot´eine est ici un syst`eme avec limites, le bord de ce syst`eme correspondant `a la surface de la prot´eine. Le volume accessible aux r´esidus situ´es `a une distance comprise entrer12

etr12+ ∆r12 d’un r´esidu donn´e vautX4πr122 ∆r12 en moyenne, o`uX d´epend de r12 mais aussi de la forme de la prot´eine et est compris entre 0 et 1. Une estimation deν(r12) peut ˆetre obtenue ais´ement si l’on suppose que les prot´eines sont des sph`eres de rayon R, ce qui est une relativement bonne approximation dans le cas de prot´eines globulaires. Soit

~r0 la position du centre de la prot´eine, et r01=|~r1−~r0| la distance s´eparant le r´esidu en position~r1 de ce centre :

L’angle limite α est d´efini par les positions~r0 et~r1, et par l’intersection entre les deux sph`eres (de centres~r0 et~r1 et de rayons R et r12, respectivement). On a :

cosα= R2−r212−r012

2r12r01 . (2.12)

Sir01≥(R−r12) etr12 ≤2R, le volume V1 accessible aux r´esidus situ´es `a l’int´erieur de la prot´eine et `a une distance comprise entre r12 et r12+ ∆r12 du r´esidu en position ~r1

vaut :

(5)

V1 = ∆r12 Z

0

Z π

α

r212sinϕ dϕ dθ= πr12∆r12

r01

(R2−(r12−r01)2). (2.13) Au contraire, si r01 ≤ (R−r12) et r12 ≤2R, le volume V2 accessible aux r´esidus situ´es

`a l’int´erieur de la sph`ere et `a une distance comprise entrer12 etr12+ ∆r12 du r´esidu en position~r1 correspond `a une calotte sph´erique compl`ete de rayonr12 et d’´epaisseur ∆r12, V2 vaut donc 4πr212∆r12. Le volume accessible aux r´esidus situ´es `a l’int´erieur de la sph`ere et `a une distance comprise entrer12 etr12+ ∆r12 du r´esidu en position~r1, moyenn´e sur toutes les positions~r1 vaut (si r12 ≤R) :

ν(r12) = 1

4 3πR3

·Z R

R−r12

Z

0

Z π

0

V1r201sinϕ dϕ dθ dr01

+

Z R−r12

0

Z

0

Z π

0

V2r012 sinϕ dϕ dθ dr01

¸

=

·

1− 3r12

4R + r122 16R3

¸

4πr212∆r12. (2.14)

Le r´esultat est identique lorsqueR≤r12≤2R. Dans ce cas, on a en effet :

ν(r12) = 1

4 3πR3

·Z R

r12−R

Z

0

Z π

0

V1r012 sinϕ dϕ dθ dr01

¸

=

·

1− 3r12

4R + r212 16R3

¸

4πr212∆r12. (2.15)

Notons que l’ensemble des conformations de chaque prot´eine `a l’´equilibre n’´etant pas connu, il est en principe impossible d’estimer P(2)(r12). On dispose cependant des structures natives d’un ensemble de prot´eines diff´erentes. Une estimation de P(2)(r12) peut ˆetre obtenue `a l’aide des fr´equences relativesF(r12) d’observation de paires d’acides amin´es s´epar´es par une distance comprise entre r12 et r12+ ∆r12 au sein de la base de donn´ees de prot´eines de structures connues. La justification de cette approximation sera discut´ee en Section 2.2.3. Sur la base des ´equations 2.3 et 2.11, on trouve que le potentiel non sp´ecifiquew(2) peut, dans le cas qui nous int´eresse, ˆetre approxim´e par :

w(2)(r12)' −kTln

·

F(r12) V ν(r12)

¸

. (2.16)

Un raisonnement similaire peut ˆetre suivi pour le potentiel sp´ecifique W(2). La probabilit´e P(2)(r12|s1, s2) d’observer les acides amin´es 1 et 2 s´epar´es par une distance comprise entrer12 etr12+ ∆r12, en sachant qu’ils sont respectivement de type s1 et s2, est li´ee `a la probabilit´eP(2)(~r1, ~r2|s1, s2) par :

P(2)(r12|s1, s2) = Z

V

Z

r12≤rij≤r12+∆r12

P(2)(~ri, ~rj|s1, s2)d~rid~rj

' V ν(r12)P(2)(~r1, ~r2|s1, s2). (2.17)

(6)

Les probabilit´es P(2)(r12|s1, s2) peuvent ˆetre estim´ees `a l’aide des fr´equences relatives F(r12|s1, s2) d’observation de paires d’acides amin´es (s1, s2) s´epar´es par une distance comprise entrer12 etr12+ ∆r12 au sein de la base de donn´ees de prot´eines de structures connues. Quant aux probabilit´es P(1)(~ri|si), elles valent 1/V, tout comme P(1)(~ri), d`es lors que l’on suppose que toutes les positions ~ri sont ´equivalentes. On trouve donc, `a l’aide des ´equations 2.8 et 2.17 :

W(2)(r12, s1, s2)' −kTln

·

F(r12|s1, s2) V ν(r12)

¸

. (2.18)

On peut ´egalement calculer la diff´erence des potentiels W(2) et w(2), c’est-`a-dire

∆W(2), qui est ind´ependant de ν(r12) et donc insensible aux impr´ecisions li´ees `a l’estimation de cette quantit´e. En effet, sur la base des relations 2.16 et 2.18, l’´equation 2.9 devient :

∆W(2)(r12, s1, s2)' −kTlnF(r12|s1, s2)

F(r12) . (2.19)

Nous reviendrons, en Section 2.2.3, sur la signification des ´energies effectives calcul´ees

`a l’aide de ces potentiels, notamment vis-`a-vis de l’´energie libre de reploiement des prot´eines.

2.2.2 Diff´ erents types de potentiels

Le potentiel pr´esent´e dans la section pr´ec´edente, qui d´ecoule des principes de base de la m´ecanique statistique, n’est qu’un cas particulier parmi le nombre sans cesse croissant de potentiels de force moyenne d´ecrits dans la litt´erature. Ceux-ci se distinguent par des diff´erences plus ou moins cons´equentes au niveau de la mani`ere dont ils sont d´eriv´es. Par ailleurs, si les distances qui s´eparent les diff´erents r´esidus dans une prot´eine constituent des informations structurales importantes, d’autres descripteurs conformationnels, tels que les angles de torsion de la chaˆıne principale ou l’accessibilit´e au solvant des r´esidus, sont cependant loin d’ˆetre d´enu´es d’int´erˆet.

De mani`ere g´en´erale, la plupart des potentiels de force moyennne d´eriv´es de bases de donn´ees de prot´eines de structures connues peuvent ˆetre ramen´es `a l’´equation suivante :

∆W(c, s)' −kT lnnobs(c, s)

natt(c, s) , (2.20)

o`usest un petit ´el´ement de s´equence, tel qu’un r´esidu ou une paire de r´esidus, etcest un descripteur conformationnel local.nobs(c, s) est le nombre d’observations conjointes des et de c dans la base de donn´ees structurale, tandis que natt(c, s) est la valeur attendue pournobs(c, s) lorsque s et c ne sont pas corr´el´es. Au-del`a du choix des descripteurs de s´equence et de structuresetc, c’est essentiellement la m´ethode d’´evaluation denatt(c, s), c’est-`a-dire le choix d’un ´etat de r´ef´erence, qui diff´erencie les divers potentiels de force moyenne. Nous discuterons ce probl`eme plus en d´etail dans la section suivante, et verrons que certains ´etats de r´ef´erence permettent de retrouver les ´equations 2.18 et 2.19.

Selon la nature des ´el´ements de s´equence et de structure consid´er´es, diff´erents types de potentiels peuvent ˆetre d´eriv´es. Parmi les plus commun´ement utilis´es, on retrouve les potentiels de distance, pour lesquels s est une paire d’acides amin´es (s1, s2) et c

(7)

est la distance qui les s´epare (r12) [8, 12, 14, 38–51], ainsi que les potentiels de torsion, pour lesquels s correspond `a un ou plusieurs acides amin´es et c `a des angles de torsion de la chaˆıne principale [11, 41, 52–55]. Relevons ´egalement l’existence de potentiels qui

´evaluent les tendances des diff´erents types de r´esidus `a ˆetre plus ou moins accessibles au solvant [40–43, 55–57], ou encore de potentiels focalis´es sur la cr´eation de ponts hydrog`ene [55, 58–60], de paires d’ions [61], ou d’interactions cation-π et π-π [62], voire sur les orientations relatives des diff´erents ´el´ements de structure secondaire constitutifs des structures prot´eiques [63]. Bien entendu, de nombreuses variations sur ces diff´erents th`emes existent, et des potentiels bas´es sur divers mod`eles structuraux plus ou moins d´etaill´es ont ´et´e mis au point dans le cadre de l’´etude de prot´eines.

Chacun de ces potentiels est focalis´e sur les corr´elations existant entre des ´el´ements de s´equence et de structure particuliers et permet donc de d´ecrire, selon ce point de vue particulier, l’ensemble des interactions qui r´egissent le comportement des prot´eines.

C’est-`a-dire que chaque potentiel exprime une relation entre s´equence et structure qui est domin´ee par certains types d’interactions mais qui tient ´egalement compte, en moyenne, de toutes les sp´ecificit´es d’un environnement prot´eique. En cons´equence, une utilisation combin´ee de diff´erents types de potentiels se r´ev`ele g´en´eralement fort avantageuse [41, 64, 65], malgr´e l’introduction in´evitable d’une certaine redondance. Nous discuterons

´egalement cet aspect plus en d´etail dans la section suivante, et il fera l’objet du Chapitre 4.

2.2.3 Hypoth` eses et approximations

Il est ais´ement concevable que les diff´erences fondamentales qui existent entre les prot´eines et les syst`emes simples ´etudi´es dans la Section 2.1 permettent quelques doutes

`a propos de la validit´e de cette approche dans le cas de prot´eines.

La d´erivation de potentiels de force moyenne `a partir de bases de donn´ees de prot´eines de structures connues n´ecessite en effet de multiples hypoth`eses et approximations, qui sont d´etaill´ees ci-dessous. Certaines d’entre elles semblent relativement raisonnables au vu de l’une ou l’autre justification th´eorique ou de divers r´esultats exp´erimentaux. Il faut cependant admettre que, de mani`ere g´en´erale, peu de r´eponses r´eellement satisfaisantes peuvent ˆetre apport´ees aux questions l´egitimes qui se posent `a propos de la validit´e de ces diff´erentes hypoth`eses et de la nature de leur impact sur les fonctions ´energ´etiques mises au point. Les nombreux succ`es qui ont ´et´e obtenus `a l’aide de potentiels de ce type dans des applications aussi diverses que la pr´ediction de structure de prot´eines (pour des revues, voir [33, 66–72]), la conception de s´equences compatibles avec une structure donn´ee [36, 56, 73–76] ou l’´evaluation des changements de stabilit´e r´esultant de mutations [49, 77, 78], confortent n´eanmoins, sinon la validit´e th´eorique, du moins la pertinence de cette approche.

Application de la loi de Boltzmann

Les ´equations 2.3, 2.8, et par extension 2.20, qui d´efinissent des potentiels de force moyenne, d´ecoulent directement de la loi de Boltzmann (Equation 2.1) et impliquent des probabilit´es d’observation de certains ´ev´enements dans un syst`eme `a l’´equilibre `a une temp´erature T. Il est impossible de calculer exactement de telles probabilit´es dans le cas de prot´eines, car l’ensemble des conformations de chaque prot´eine `a l’´equilibre n’est

(8)

pas connu. On dispose par contre d’une base de donn´ees constitu´ee des conformations de plus basse ´energie d’un ensemble de diverses prot´eines. Des fr´equences d’association entre petits ´el´ements de s´equence et de structure sont extraites de cette base de donn´ees afin d’estimer les probabilit´es correspondantes.

Il est donc n´ecessaire de faire l’hypoth`ese que les prot´eines peuvent ˆetre divis´ees en petits ´el´ements de s´equence et de structure et que les fr´equences d’observation de ces petits ´el´ements dans la base de donn´ees correspondent `a celles qui seraient observ´ees dans l’ensemble des conformations `a l’´equilibre d’une seule prot´eine. Le fait qu’un ´el´ement de s´equence n’adopte pas n´ecessairement, au sein d’une prot´eine, sa conformation de plus basse ´energie refl`ete le concept de frustration : les diverses interactions qui d´eterminent la structure d’une prot´eine ne peuvent s’exercer ind´ependamment les unes des autres et la conformation d’´energie minimale d’une prot´eine ne correspondra g´en´eralement pas `a l’assemblage des conformations de plus basses ´energies des petits ´el´ements de s´equence.

On con¸coit ainsi qu’un ´el´ement de s´equence donn´e puisse adopter des conformations diff´erentes selon l’environnement prot´eique sp´ecifique dans lequel il se trouve, et que les conformations les plus fr´equentes soient celles dont l’´energie est minimale. Malgr´e cela, il n’est pas ´evident d’admettre `a priori que la distribution des conformations adopt´ees par cet ´el´ement de s´equence puisse ˆetre assimil´ee `a une distribution de Boltzmann.

Plusieurs ´etudes semblent cependant valider cette hypoth`ese. Il a en effet ´et´e montr´e que la distribution des angles di`edres (φ, ψ) d´efinissant la conformation de la chaˆıne principale des acides amin´es (voir Annexe A) est proche d’une distribution de Boltzmann [11,79]. Il en va de mˆeme pour la distribution des angles di`edres des chaˆınes lat´erales [80], la distribution des diff´erents types de r´esidus entre la surface et le coeur des prot´eines [81–83], ainsi qu’entre les divers ´el´ements de structure secondaire et les diverses positions au sein de ces ´el´ements [84–86], la distribution des paires d’ions [61], des prolines adoptant des conformationscis outrans [87], ou encore des tailles de cavit´es au sein de prot´eines globulaires [88]. De plus, dans chaque cas, il s’est av´er´e que la temp´erature apparente associ´ee `a la distribution est relativement proche de la temp´erature ambiante. Cette (( temp´erature conformationnelle )) (Tc) [79] a cependant un sens fort diff´erent de la temp´erature du milieu dans lequel sont plong´ees les prot´eines. En effet, Tc refl`ete en quelque sorte l’ampleur des frustrations tol´er´ees par les divers ´el´ements de s´equence. Ces frustrations sont fix´ees dans les structures natives des prot´eines et ne d´ependent pas de la temp´erature du milieu (du moins dans l’intervalle de temp´erature o`u les prot´eines en question sont stables).

Une tentative d’explication th´eorique de la similitude entre la distribution des

´el´ements conformationnels observ´es dans des ensembles de structures natives de prot´eines et la distribution attendue `a l’´equilibre dans une prot´eine `a une temp´erature Tc a ´et´e propos´ee [89,90]. Cette explication est bas´ee sur la th´eorie des structures adopt´ees par des h´et´eropolym`eres al´eatoires [91–94], et utilise le mod`ele d’´energie al´eatoire (REM) [95].

Selon ce mod`ele, le syst`eme (dans notre cas, une prot´eine) peut acc´eder `a un nombre important, mais fini, d’´etats qui peuvent ˆetre compar´es `a des minima ´energ´etiques locaux (dans notre cas, diff´erentes conformations de la chaˆıne prot´eique). De plus, le REM n´eglige toute corr´elation entre les ´energies des diff´erentes structures accessibles

`a une mˆeme s´equence, et suppose que l’´energie de chacune d’entre elles ´equivaut `a la somme d’un grand nombre de termes ind´ependants, qui correspondent aux diff´erentes interactions ´etablies au sein de la structure. Sous de telles conditions, la fraction de

(9)

s´equences al´eatoires qui acqui`erent une ´energieE dans une structure donn´ee est d´ecrite par une distribution gaussienne :

p(E) = 1

σ√

2π exp

·−(E−E)22

¸

, (2.21)

o`u E est l’´energie moyenne, sur toutes les s´equences, de la structure consid´er´ee, et σ est l’´ecart-type de cette distribution. Si l’on consid`ere une s´equence particuli`ere, p(E) repr´esente donc la probabilit´e que l’´energie de la structure en question ´egale E. Par ailleurs, si M est le nombre total de structures possibles, et en supposant que E et σ sont identiques pour toutes les structures, ¯mE = M p(E) est le nombre de structures d’´energie E associ´ees `a une s´equence, en moyenne sur toutes les s´equences possibles.

Sous ces conditions, il est possible d’estimer une ´energie critique Ecr telle que, en moyenne sur les diff´erentes s´equences, une seule structure ait une ´energie inf´erieure ou

´egale `a Ecr :

Z Ecr

−∞

¯

mE dE = 1. (2.22)

On trouve [89, 90] :

Ecr 'E−σ√

2 lnM . (2.23)

Pour la plupart des s´equences al´eatoires, l’´energie de la structure de plus basse ´energie sera proche deEcr. Certaines s´equences, comparables en cela `a celles des prot´eines r´eelles, peuvent cependant avoir une structure plus stable, dont l’´energie est significativement inf´erieure `a Ecr. On peut d´efinir une temp´erature critique moyenne Tcr, sous laquelle la structure de plus basse ´energie est stabilis´ee [89, 90] :

Tcr =

µ∂SE

∂E

¯

¯

¯

¯E→Ecr

−1

avec SE =kln ¯mE Tcr ' σ/(k√

2 lnM), (2.24)

o`ukest la constante de Boltzmann etSE l’entropie li´ee au nombre (moyen) de structures d’´energie E.

L’´etape suivante consiste en l’´evaluation de la fraction de s´equences al´eatoires dont la structure de plus basse ´energie contient (φ+), ou ne contient pas (φ), une certaine interaction i. Pour ce faire, on consid`ere l’ensemble des s´equences pour lesquelles la contribution de cette interaction `a l’´energie totale est fixe et vaut ²i. La probabilit´e qu’une structure qui ne comprend pas l’interactioniait une ´energieEvautp(E) =p(E) (Equation 2.21). Dans le cas d’une structure au sein de laquelle l’interactioniest ´etablie, la probabilit´e que cette structure ait une ´energieE vaut [89, 90] :

p+(E) = 1

p2π(σ2−σi2)exp

·−((E−²i)−(E−²¯i))2 2(σ2−σi2)

¸

' p(E) exp

·

(¯²i−²i)∂lnp(E)

∂E −σi2∂lnp(E)

∂(σ2)

¸

, (2.25)

(10)

o`u ¯²iest l’´energie moyenne, sur toutes les s´equences, de l’interactioni, etσi2est la variance de la distribution des ´energies²i. L’expression, approximative, de p+(E) en fonction de p(E) est obtenue en supposant |²¯i −²i| et σi2 suffisamment petits, et en n´egligeant le σi2 du pr´efacteur. Si M+ est le nombre de structures qui comprennent l’interaction i, et M =M−M+ le nombre de structures au sein desquelles cette interaction est absente, on peut montrer `a l’aide des ´equations 2.23 `a 2.25 qu’en premi`ere approximation [89,90] :

φ+i)

φi) ' M+p+(Ecr)

Mp(Ecr) ' M+

M

exp

· −1 kTcr

µ

²i−²¯i+ σi2 2kTcr

¶¸

=Aexp

·−²i

kTcr

¸

, (2.26) o`u A ne d´epend pas de ²i. En cons´equence, le nombre de s´equences al´eatoires qui stabilisent une structure donn´ee augmente exponentiellement pour chaque interaction de basse ´energie que contient cette structure. Sous r´eserve des hypoth`eses cons´equentes dont elle d´epend, l’´equation 2.26 corrobore donc l’observation de distributions semblables `a une distribution de Boltzmann, si l’on accepte que plus le nombre de s´equences al´eatoires stabilisant des structures ayant une certaine caract´eristique est grand, plus souvent cette caract´eristique sera observ´ee dans des prot´eines. On note ´egalement que, selon ce mod`ele, la temp´erature conformationnelleTc correspond `a la temp´erature critiqueTcr, qui r´esulte de la diversit´e des structures possibles (via M) et de la dispersion des ´energies, due `a l’h´et´erog´en´eit´e des s´equences (viaσ) (Equation 2.24).

Approximation de superposition et additivit´e des ´energies

L’´energie qu’acquiert une prot´eine de s´equence S dans une conformation C, est commun´ement estim´ee via la somme de toutes les contributions dues aux associations entre petits ´el´ements de s´equences et de structure c :

∆W(C, S)'X

i,j

∆W(ci, sj)' −kT X

i,j

lnnobs(ci, sj)

natt(ci, sj) , (2.27) o`u la somme est r´ealis´ee sur tous les ´el´ements de s´equencesj qui constituentSet sur tous les ´el´ements de structure ci associ´es `a chaque sj. Dans le cas de potentiels de distance par exemple, i ne prend qu’une seule valeur pour chaque j, de sorte que ci corresponde

`a la distance qui s´epare les r´esidus de la pairesj.

Cette approximation, qui est r´eminiscente de l’approximation de superposition

´enonc´ee pr´ec´edemment (Equation 2.10), suppose l’ind´ependance des diff´erents termes

∆W(ci, sj). Si une telle hypoth`ese peut ˆetre consid´er´ee comme fort raisonnable dans un syst`eme gazeux par exemple, il est plus difficile de lui attribuer une validit´e sans failles dans le cas des prot´eines [36, 96–98]. Un exemple flagrant des limitations induites par cette approximation est fourni par le potentiel de distance correspondant `a la paire cyst´eine-cyst´eine, qui est caract´eris´e par une ´energie fortement n´egative `a courte distance, refl´etant ainsi la formation d’un pont disulfure. Lorsque trois cyst´eines se trouvent `a proximit´e les unes des autres, l’´equation 2.27 implique l’estimation d’une ´energie totale qui prend en compte la cr´eation de trois ponts disulfure, alors qu’un seul peut ˆetre form´e.

La connectivit´e de la chaˆıne prot´eique joue ´egalement un rˆole non n´egligeable `a ce niveau.

En effet, la distance spatiale s´eparant le r´esidu en position l, le long de la s´equence, du r´esidu en position k n’est pas ind´ependante de la distance spatiale s´eparant les r´esidus

(11)

en positionsl etk+ 1. De mˆeme, la conformation adopt´ee par la chaˆıne principale d’un r´esidu n’est pas ind´ependante des conformations des r´esidus voisins. Finalement, il est important de noter que les termes ∆W(ci, sj) incluent ´egalement certaines contributions entropiques, li´ees notamment `a la pr´esence implicite du solvant et `a la discr´etisation des conformations, qui ne peuvent en principe pas ˆetre somm´ees.

L’utilisation combin´ee de potentiels bas´es sur des descripteurs conformationnels diff´erents peut ˆetre avantageuse mais induit ´egalement une certaine redondance. Par exemple, la distance s´eparant deux r´esidus n’est pas ind´ependante de leur accessibilit´e au solvant : la probabilit´e que deux r´esidus soient localis´es en surface de la prot´eine est plus faible si l’on sait qu’ils sont proches l’un de l’autre. De mˆeme, les distances les plus probables entre r´esidus faisant partie d’une h´elice α sont diff´erentes de celles pr´ef´er´ees au sein d’un feuilletβ.

Afin de r´eduire l’impact de la non-ind´ependance des interactions, il est possible de prendre en compte certains couplages, `a l’aide potentiels bas´es par exemple sur la probabilit´e de trouver trois r´esidus en contact [40], ou sur la probabilit´e de trouver deux r´esidus en contact, sachant qu’ils ont une certaine accessibilit´e au solvant [41, 43], ou qu’ils sont associ´es `a certains domaines d’angles de torsion de la chaˆıne principale [99].

N´eanmoins, de telles approches se heurtent souvent aux tailles des bases de donn´ees structurales qui, lorsque la complexit´e des potentiels augmente, deviennent rapidement trop restreintes pour pouvoir en extraire des mesures statistiques fiables. Au Chapitre 4, nous nous attarderons sur la d´erivation de divers termes de couplages et sur les avantages qui en sont retir´es d’un point de vue pr´edictif.

Choix d’un ´etat de r´ef´erence

Il va sans dire que la m´ethode utilis´ee pour estimernatt(c, s) a une influence majeure sur les fonctions ´energ´etiques d´eriv´ees `a partir de l’´equation 2.20 [30, 96, 100]. Diff´erents types d’´etats de r´ef´erence ont ´et´e d´ecrits dans la litt´erature, et nous en pr´esenterons ici quelques-uns afin de souligner l’importance de cet aspect de la d´erivation de potentiels de force moyenne. Nous ferons ´egalement une comparaison de potentiels de distance bas´es sur des ´etats de r´ef´erence diff´erents, `a l’aide de quelques exemples visuels. Notons cependant qu’il est difficile, voire impossible, de comparer qualitativement la pertinence des divers ´etats de r´ef´erence. En effet, leurs significations physiques sont souvent loin d’ˆetre claires et, d’un point de vue pratique, les performances relatives de potentiels bas´es sur diff´erents ´etats de r´ef´erence peuvent d´ependre du probl`eme abord´e. Si l’on admet malgr´e tout que l’´etat de r´ef´erence choisi est une repr´esentation ad´equate de l’´etat d´eploy´e des prot´eines, alors ∆W peut ˆetre assimil´e `a une ´energie libre de reploiement.

Etat de r´ef´erence dans lequel s´equence et structure ne sont pas corr´el´es.

Une approche tr`es courante consiste `a identifier l’´etat de r´ef´erence `a un ´etat dans lequel la probabilit´e d’observer un ´el´ement de structure donn´e c est ind´ependante de la s´equence, c’est-`a-dire P(c|s) = P(c) [30, 38, 43, 48, 53, 101]. Les probabilit´es P(c|s) et P(c) peuvent ˆetre ´evalu´ees `a l’aide des fr´equences relatives d’observation dans la base de donn´eesF(c|s) et F(c) :

(12)

P(c|s)'F(c|s) = nobs(c, s) nobs(s) P(c)'F(c) = nobs(c)

nobs , (2.28)

o`u nobs(s) =P

cnobs(c, s) est le nombre total d’observations de l’´el´ement de s´equences, quel que soit l’´el´ement de structure cqui lui est associ´e. On d´efinit ´egalement nobs(c) = P

snobs(c, s) et nobs = P

cnobs(c) = P

c

P

snobs(c, s). Afin que natt(c, s) ´egale nobs(c, s) dans l’´etat de r´ef´erence, c’est-`a-dire lorsqueP(c|s) = P(c), il faut que :

natt(c, s) = nobs(s)nobs(c)

nobs . (2.29)

Remarquons que, dans ce cas, si l’on assimile l’´el´ement de s´equences`a une paire d’acides amin´es (s1, s2) et l’´el´ement de structure c `a la distance r12 qui les s´epare, on retrouve le potentiel ∆W(2)(r12, s1, s2) d´efini par la relation 2.19. Cet ´etat de r´ef´erence correspond `a un ´etat globulaire moyen, compact et non-sp´ecifique, dans lequel les acides amin´es ne sont pas diff´erenci´es. L’´energie libre associ´ee `a un couple (c, s) est donc estim´ee relativement `a la contribution moyenne des couples (c, x), o`uxrepr´esente les diff´erentes valeurs possibles des. Ceci implique par exemple qu’un potentiel de distance bas´e sur cet ´etat de r´ef´erence ne fera pas n´ecessairement ´etat d’une forte r´epulsion `a tr`es courte distance, puisque cette caract´eristique est commune `a toutes les paires (s1, s2).

Il est bien entendu possible de plaider en d´efaveur d’un tel ´etat de r´ef´erence, en argumentant que l’´etat d´eploy´e des prot´eines est vraisemblablement caract´eris´e par des conformations nettement moins compactes, et qu’il n’y a aucune raison pour que l’´energie associ´ee `a une paire (c, s) soit nulle, en moyenne sur tous les s.

Etat de r´ef´erence caract´eris´e par une surface ´etendue d’interaction avec le solvant.

Cependant, tr`es peu d’informations structurales permettant de d´ecrire l’´etat d´eploy´e des prot´eines sont disponibles. Cet ´etat correspond d’ailleurs `a un ensemble de conformations tr`es diverses, dont les populations peuvent varier selon les conditions environnementales. Certaines approches visant `a calculer natt(c, s) sur la base d’un mod`ele de l’´etat d´eploy´e caract´eris´e par une surface ´etendue d’interaction avec le solvant ont ´et´e mises au point [12, 45, 102, 103], notamment dans le cadre de la d´erivation de potentiels de contact (qui sont essentiellement ´equivalents aux potentiels de distance, mis `a part que l’´el´ement de structure c ne peut prendre que deux valeurs, selon que la distancer12soit ou non inf´erieure `a une valeur limite). La plus populaire de ces approches est sans doute celle bas´ee sur l’approximation dite quasi-chimique [12, 45]. Dans le cadre de cette approximation, l’´etablissement d’un contact entre deux r´esidus (de type s1 ets2, respectivement) est d´ecrit comme r´esultant d’une r´eaction chimique de d´esolvatation :

(s1♥0) + (s2♥0)­(s1♥s2) + (0♥0), (2.30) o`u 0 repr´esente une mol´ecule d’eau, et (x♥y) indique quexetysont en contact. L’´energie es1,s2 de cr´eation d’un contact (s1♥s2) est estim´ee `a l’aide de la relation :

(13)

es1,s2 =−kT ln

·n(s1♥s2)n(0♥0) n(s1♥0)n(s2♥0)Cs1,s2

¸

, (2.31)

o`u n(s1♥s2) est le nombre de paires (s1, s2) en contact dans la base de donn´ees, et correspond `a nobs(c, s). Le nombre de contacts ´etablis entre les r´esidus de type si et l’eau,n(si♥0), est estim´e en d´eduisant, du nombre maximal de contacts possibles pour les r´esidus de typesi, le nombre de contacts entre les r´esidus de typesi et n’importe quels autres r´esidus. Le nombre effectif de mol´ecules d’eau dans le syst`eme, et par extension le nombre de contacts entre ces mol´eculesn(0♥0), est evalu´e de mani`ere `a ce quees1,s2 soit nul dans le cas d’une distribution al´eatoire des r´esidus et des mol´ecules d’eau.Cs1,s2 est un facteur correctif qui tient compte des diff´erences de composition entre les prot´eines de la base de donn´ees. Ce facteur est n´ecessaire car, au contraire des autres ´etats de r´ef´erence pr´esent´es dans cette section, natt est estim´e ici `a l’aide du nombre total d’acides amin´es de type s1 et de type s2 dans la base de donn´ees (via n(s1♥0) et n(s2♥0)), et non du nombre total de paires d’acides amin´es (s1, s2). Ces quantit´es sont bien entendu li´ees, mais il est ´evident que ce lien d´epend de la composition exacte de chacune des prot´eines de la base de donn´ees.

De mani`ere g´en´erale, les potentiels de contact ou de distance bas´es sur un ´etat de r´ef´erence ´etendu, caract´eris´e par une importante exposition des r´esidus au solvant, sont fortement domin´es par l’effet hydrophobe. Les ´energies effectives d’interaction entre r´esidus sont presque indistinctement attractives, refl´etant ainsi la compacit´e des structures natives de prot´eines. Si de tels potentiels peuvent ˆetre utiles pour simuler les tous premiers pas du reploiement, il est apparu qu’ils sont peu performants lorsqu’il s’agit d’estimer l’ad´equation entre une s´equence donn´ee et diverses structures compactes [33].

Les interactions sp´ecifiques entre les diff´erents types de r´esidus sont en effet masqu´ees par la pr´epond´erance de l’effet hydrophobe. En cons´equence, il semble g´en´eralement pr´ef´erable de n’utiliser des potentiels de ce type qu’en combinaison avec d’autres, bas´es sur un ´etat de r´ef´erence plus compact [33].

Etat de r´ef´erence dans lequel toutes les conformations sont ´equiprobables.

Un autre m´ethode d’´evaluation de natt(c, s), qui poss`ede au moins l’avantage de la simplicit´e, consiste `a consid´erer un ´etat de r´ef´erence dans lequel toutes les valeurs accessibles au descripteur conformationnel c sont ´equiprobables [59, 63]. Supposons par exemple que c soit discr´etis´e de mani`ere `a pouvoir prendre nc valeurs diff´erentes c1, c2, . . . , cnc. On d´efinit alors l’´etat de r´ef´erence par :

natt(c, s) = nobs(s) nc

. (2.32)

Il est bien entendu n´ecessaire que les conformations ci repr´esentent des fractions identiques de l’espace conformationnel ou, `a d´efaut, que les fr´equences d’observation dans la base de donn´ees soient convenablement pond´er´ees, ce qui n’est pas forc´ement

´evident `a mettre en place. Pour un potentiel de distance par exemple, si l’on consid`ere des intervalles de distance de largeur constante ∆r12, on doit ´ecrire :

natt(r12, s1, s2) = nobs(s1, s2)ν(r12)

V , (2.33)

(14)

o`uν(r12) est le volume de la coquille sph´erique de rayon int´erieurr12et de rayon ext´erieur r12+ ∆r12, moyenn´e sur toutes les positions accessibles `a son centre. Les difficult´es li´ees `a l’´evaluation de ce volume ont ´et´e ´evoqu´ees pr´ec´edemment (Section 2.2.1). Notons qu’avec un tel ´etat de r´ef´erence, les potentiels d´efinis par les ´equations 2.20 et 2.18 sont identiques.

Les potentiels de ce type, au contraire de ceux bas´es sur l’´etat de r´ef´erence d´efini par l’´equation 2.29, incluent la contribution moyenne des diff´erents ´el´ements de s´equence s. Cette caract´eristique peut dans certains cas ˆetre un avantage, par exemple au niveau du traitement de la r´epulsion `a courte distance dans un potentiel de distance.

Cependant, dans de nombreuses applications, dont notamment la d´etermination de la structure de plus basse ´energie correspondant `a une s´equence donn´ee et la recherche de s´equences stabilisant une strucure donn´ee, la plupart des caract´eristiques communes `a tous les acides amin´es ne pr´esentent que peu d’int´erˆet pratique. De plus, l’inclusion de ces contributions dans les potentiels peut avoir comme cons´equence un ´ecrantage des contributions plus sp´ecifiques, comme c’est le cas avec l’effet hydrophobe lorsqu’un ´etat de r´ef´erence non-compact est utilis´e.

Autres ´etats de r´ef´erence dans le cas de potentiels de distance.

Relevons ´egalement l’existence d’´etats de r´ef´erence plus originaux d´efinis en vue d’obtenir des potentiels de distance pr´esentant certaines caract´eristiques particuli`eres.

Par exemple, on peut poser :

natt(r12, s1, s2) = nobs(r12, s1)nobs(r12, s2)nobs(s1, s2)nobs

nobs(r12)nobs(s1)nobs(s2) , (2.34) o`u nobs(r12, s1) =P

s2nobs(r12, s1, s2) est le nombre de paires de r´esidus, dont l’un est de types1, s´epar´es par une distance r12, et nobs(s1, s2) = P

r12nobs(r12, s1, s2) est le nombre total de paires (s1, s2). De la mˆeme mani`ere, nobs(s1) = P

r12nobs(r12, s1), nobs(r12) = P

s1nobs(r12, s1) et nobs = P

r12nobs(r12). Avec un tel ´etat de r´ef´erence, l’´energie libre associ´ee `a une paire (s1, s2) s´epar´ee par une distance r12 est nulle, en moyenne sur tous less1 ou sur tous less2. Il en r´esulte que certaines particularit´es li´ees `a l’effet hydrophobe sont exclues des potentiels, ce qui permet par exemple une description plus pr´ecise des interactions ´electrostatiques [48]. Nous reviendrons plus tard sur l’int´erˆet des potentiels de ce type (Section 4.3). Le dernier ´etat de r´ef´erence que nous ´evoquerons ici a ´et´e d´efini de mani`ere `a forcer les potentiels de distance `a tendre vers z´ero lorsquer12 tend vers une certaine valeur limite rlim [49]. Ainsi :

natt(r12, s1, s2) =nobs(rlim, s1, s2) ν(r12)

ν(rlim), (2.35)

avecrlim = 15˚A etν(r)'4πrα∆r, o`uα <2 est un param`etre ajustable d´ependant de la base de donn´ees. Cette m´ethode permet ´egalement, dans une certaine mesure, d’exclure l’influence de l’effet hydrophobe.

Exemples de la sensibilit´e des potentiels au choix d’un ´etat de r´ef´erence.

Afin d’illustrer l’influence du choix d’un ´etat de r´ef´erence, la Figure 2.1 donne les valeurs de natt(c, s), nobs(c, s), et ∆W(2)(c, s) dans le cas d’un potentiel de distance,

(15)

pour deux paires d’acides amin´es (Glu-Lys et Leu-Leu). On remarque que les valeurs de nobs(r12, s1, s2) sont quasiment nulles lorsque r12 est inf´erieur `a 3 ˚A, et qu’il en va de mˆeme pour natt(r12, s1, s2) avec les ´etats de r´ef´erence d´ecrits par les ´equations 2.29 (traits noirs) et 2.34 (traits rouges). En cons´equence, selon la nature et la taille des acides amin´es consid´er´es, l’´energie ∆W(2) pourra ˆetre favorable ou d´efavorable `a tr`es courte distance.

Figure2.1 –Influence du choix d’un ´etat de r´ef´erence sur le potentiel de distance entre r´esidus.A gauche, le nombre de paires d’acides amin´es observ´ees (nobs(r12, s1, s2), en trait noir gras) et attendues (natt(r12, s1, s2)) sont port´ees en fonction der12pour deux couples d’acides amin´es : (Glu- Lys) et (Leu-Leu). Les distancesr12 sont r´eparties en intervalles de 0.5 ˚A de largeur, `a l’exception des valeurs der12 inf´erieures `a 3 ˚A qui sont group´ees dans un intervalle unique. Les valeurs de nobs sont obtenues par comptage dans l’ensemble des prot´eines monom´eriques de laDB1403 (voir Annexe B). Les valeurs denatt sont calcul´ees pour diff´erents ´etats de r´ef´erence, `a partir des ´equations 2.29 (trait noir), 2.33 (trait vert), 2.34 (trait rouge) et 2.35 (trait bleu). A droite, le potentiel ∆W(2)(r12, s1, s2), calcul´e via l’´equation 2.20 sur la base de chacun de ces ´etats de r´ef´erence, est port´e en fonction der12.

Par ailleurs, on rel`eve ´egalement la pr´esence de pics dans les courbes denobs(r12, s1, s2), aux alentours de 7 et de 12 ˚A, qui correspondent au premier et au deuxi`eme voisin.

Ces pics sont ´egalement pr´esents, de mani`ere plus ou moins att´enu´ee, dans les courbes de natt(r12, s1, s2) li´ees `a ces deux ´etats de r´ef´erence. Dans ces deux cas, l’estimation de natt(r12, s1, s2) est en effet bas´ee sur le nombre de paires observ´ees `a un certaine distance, en moyenne sur diff´erents types d’acides amin´es. Les diff´erents acides amin´es

´etant caract´eris´es par des tailles diff´erentes, les distances qui correspondent au premier et au deuxi`eme voisin sont donc diff´erentes, ce qui explique l’att´enuation de ces pics dans natt(r12, s1, s2).

(16)

Au contraire, les deux autres ´etats de r´ef´erence, d´efinis respectivement par les

´equations 2.33 (traits verts) et 2.35 (traits bleus), sont bas´es sur l’estimation g´eom´etrique deν(r12) et supposent que les r´esidus sont ponctuels. On constate donc d’une part une valeur nettement plus importante de natt(r12, s1, s2) pour des distances r12 inf´erieures `a 5 ˚A, et d’autre part l’absence de (( pics )) aux alentours de 7 et 12 ˚A.

Outre ces deux diff´erences, les potentiels d´efinis `a partir des ´etats de r´ef´erence 2.29 (traits noirs) et 2.33 (traits verts) apparaissent fort similaires dans l’exemple de la Figure 2.1, ce qui valide les approximations faites dans le cadre de l’estimation deν(r12) (Equation 2.14), du moins lorsquer12 est compris entre 5 et 15 ˚A. Le potentiel d´efini par l’´equation 2.35 (traits bleus) leur est ´egalement similaire, si ce n’est que, par d´efinition, il est nul lorsquer12vaut 15 ˚A. Ceci implique un d´ecalage vertical de la courbe de potentiel

∆W(2), particuli`erement important pour certaines paires d’acides amin´es, telles que la paire Glu-Lys.

Le potentiel bas´e sur l’´etat de r´ef´erence 2.34 (traits rouges) est d´efini de mani`ere `a exclure les contributions communes `a toutes les paires (s1, x) et (x, s2), o`u x repr´esente n’importe quel r´esidu. Par exemple, la leucine est un acide amin´e hydrophobe qui a une nette pr´ef´erence envers l’enfouissement dans le coeur de la prot´eine. Par rapport

`a la moyenne des acides amin´es, la leucine aura donc plus fr´equement un autre r´esidu

`a proximit´e. Les effets de ce type sont inclus dans natt(r12, s1, s2), ce qui explique que le potentiel correspondant soit moins favorable que les autres pour la paire Leu-Leu entre 5 et 8 ˚A. Ce n’est pas le cas pour la paire Glu-Arg qui ´etablit une interaction

´electrostatique sp´ecifique. Notons finalement que ce potentiel tend rapidement vers z´ero lorsque r12 devient sup´erieur `a 8-10 ˚A, indiquant ainsi que les contributions reprises par les autres potentiels `a de telles distances ne sont pas sp´ecifiques `a la paire de r´esidus, mais r´esultent plutˆot des pr´ef´erences individuelles de chacun des deux r´esidus.

Discr´etisation de l’espace conformationnel

L’un des grands avantages des potentiels pr´esent´es dans ce chapitre, par rapport aux fonctions d’´energie bas´ees sur une description physique des diverses interactions, est qu’ils peuvent ais´ement ˆetre adapt´es `a n’importe quelle repr´esentation simplifi´ee des prot´eines.

Cela permet naturellement une r´eduction importante du temps de calcul, indispensable dans de nombreuses applications au vu de la complexit´e des syst`emes ´etudi´es. De telles fonctions simplifi´ees induisent ´egalement un lissage du paysage ´energ´etique, qui rend les ´etudes in silico de prot´eines moins sensibles `a de fortes variations ´energ´etiques locales. Par ailleurs, il est ´egalement possible de plaider en faveur de ces repr´esentations simplifi´ees en argumentant qu’elles refl`etent une certaine r´ealit´e du reploiement des prot´eines. En effet, les vitesses de reploiement des prot´eines ´etant incompatibles avec une exploration exhaustive de leurs espaces conformationnels, les r´esidus ne voient probablement pas avec pr´ecision le d´etail atomique des r´esidus voisins, mais ressentent plutˆot globalement certains groupes d’atomes ou acides amin´es complets, du moins dans les premi`eres ´etapes du processus de reploiement, avant qu’une structure compacte ne soit atteinte. La discr´etisation de l’espace conformationnel des prot´eines est donc une approximation n´ecessaire pour des raisons pratiques, mais qui pr´esente n´eanmoins certains avantages.

La mani`ere dont la discr´etisation est r´ealis´ee d´epend g´en´eralement du probl`eme envisag´e et de la pr´ecision escompt´ee, ainsi que des contraintes au niveau du temps de

(17)

calcul disponible et de la taille de la base de donn´ees utilis´ee pour d´eriver les potentiels.

Le choix des param`etres li´es `a cette discr´etisation, tels que le nombre d’intervalles de distance, de valeurs d’accessibilit´e au solvant ou d’angles de torsion, peut naturellement avoir un impact non n´egligeable sur le pouvoir pr´edictif des potentiels [104]. Notons qu’il est parfois possible de d´efinir une discr´etisation de l’espace conformationnel qui ait une certaine signification physique. C’est par exemple le cas lorsque les valeurs d’angles de torsion de la chaˆıne principale des r´esidus sont r´epartis en domaines qui sont s´epar´es par des barri`eres ´energ´etiques (voir Annexe A).

Remarquons ´egalement que certains aspects qui ne sont g´en´eralement pas pris explicitement en compte lors de la d´erivation de potentiels, mˆeme si leur influence apparaˆıt implicitement dans les moyennes statistiques qui sont calcul´ees, peuvent avoir une certaine importance. Il s’agit notamment des diff´erences de tailles des acides amin´es [100], de la pr´esence de mol´ecules de solvant [102,103,105] ou encore de la connectivit´e de la chaˆıne prot´eique [106,107]. Par ailleurs, diff´erentes mani`eres, plus ou moins simplifi´ees, de d´ecrire la s´equence des prot´eines ont ´et´e exploit´ees. Ainsi, certains potentiels sont bas´es sur un alphabet r´eduit d’acides amin´es [108, 109] tandis que d’autres consid`erent jusqu’`a 167 types d’atomes, diff´erenci´es selon la nature des acides amin´es auxquels ils appartiennent [101, 103]. Les descripteurs conformationnels utilis´es dans notre travail, bas´es sur une repr´esentation simplifi´ee de la structure des prot´eines, sont pr´esent´es en Annexe A.

Influence de la base de donn´ees

Afin de permettre le calcul de moyennes statistiques fiables, il est n´ecessaire que la base de donn´ees utilis´ee pour d´eriver les potentiels soit `a la fois grande et diversifi´ee.

Les bases de donn´ees cr´e´ees `a une telle fin incluent donc g´en´eralement un nombre aussi important que possible de structures prot´eiques, d´etermin´ees par cristallographie aux rayons X (RX) ou par r´esonance magn´etique nucl´eaire (RMN), qui respectent certains crit`eres. Deux types de crit`eres sont fr´equemment ´enonc´es. Le premier concerne la qualit´e des structures, afin de minimiser l’impact des impr´ecisions exp´erimentales sur les potentiels. L’ambition du deuxi`eme est d’´eviter l’introduction d’un biais vis-`a-vis de certains types de structures, en imposant une limite sup´erieure `a la similarit´e structurale et/ou `a l’identit´e de s´equence entre deux prot´eines de la base de donn´ees.

Ces crit`eres sont n´ecessaires mais induisent une limitation s´ev`ere du nombre de structures prot´eiques qui peuvent ˆetre incluses dans la base de donn´ees. Dans certains cas, par exemple pour des ´el´ements de s´equences li´es `a des acides amin´es peu fr´equents tels que la m´ethionine ou le tryptophane, il est possible que le nombre de structures constituant la base de donn´ees soit insuffisant et que l’estimation des probabilit´es d’association entre s et c s’en trouve fort affect´ee. Afin de rem´edier `a ce probl`eme, une version modifi´ee de l’´equation 2.20 est g´en´eralement utilis´ee [38] :

∆W(c, s) = −kTln

· σ

σ+natt(c, s) + nobs(c, s) σ+natt(c, s)

¸

, (2.36)

o`uσest un param`etre ajustable. Lorsquenatt(c, s) est petit par rapport `aσ, les fr´equences relatives extraites de la base de donn´ees sont consid´er´ees comme peu repr´esentatives et l’on fait tendre ∆W(c, s) vers z´ero, afin d’´eviter que ces donn´ees ne dominent les

Références

Documents relatifs

Imaginer et tester (avec phpPgAdmin ou dans l’interface en ligne de commande) des requˆ etes SQL pour r´ ecup´ erer les informations suivantes :2. a) L’ensemble des

Pour une distribution utilisant le syst` eme de paquetage dpkg (p. ex., Debian, Ubuntu, Linux Mint), vous pouvez installer l’ensemble de ces logiciels avec la commande :.. sudo

On consid`erera une superclasse (c’est-` a-dire une classe d´eriv´ee d’aucune autre classe) per- sonne avec les types de renseignements communs ` a chacune des trois classes d´

◮ Etant donn ´ee une relation R et une liste d’attributs L de R, ´ τ L (R) trie les tuples de R selon les valeurs des attributs dans L, consid ´er ´es dans l’ordre de

On consid` ere cas de la r´ egression lin´ eaire

Etudier l’existence et la valeur de d´ eriv´ ees partielles d’ordre 1

Exercice 17.— On mod´ elise un gaz par la donn´ ee d’une certaine relation entre volume, temp´ erature et pression, qu’on ´ ecrit sous la forme g´ en´ erale f (P, V, T) = 0

L’´ erosion num´ erique introduite dans le mod` ele semble ˆ etre r´ ealiste pour simuler le ph´ enom` ene pr´ epond´ erant lors d’une op´ eration de d´ ecapage. Nous