Mise au point de termes de couplage

(1)

Chapitre 4

Mise au point de termes de couplage

4.1 Introduction

L’objectif poursuivi lors de la dérivation de potentiels de force moyenne est de profiter des données expérimentales disponibles concernant les structures protéiques et d’en extraire des informations à propos de l’ensemble des interactions qui régissent le reploiement et la stabilité des protéines. Cette procédure est suivie dans l’espoir de mettre au point des fonctions énergétiques qui jouissent d’une certaine généralité, c’est-

à-dire qui peuvent se révéler profitables lors de l’étude de protéines ne faisant pas partie de la base de données utilisée pour dériver les potentiels. Comme nous l’avons mentionné précédemment (Section 2.2.3), cet espoir ne reflète pas parfaitement la réalité au vu notamment de la dépendance des potentiels en certaines caractéristiques des protéines incluses dans la base de données.

Par ailleurs, depuis que les premières approches de ce type ont vu le jour, la quantité de données structurales disponibles a considérablement augmenté, sans pour autant engendrer une amélioration drastique des performances des potentiels [1–3]. Il est en effet apparu qu’augmenter la taille de la base de données au-delà de quelques centaines de protéines ne présentait aucun avantage significatif pour les potentiels simples – basés sur un nombre limité de descripteurs de séquence et de structure – qui sont encore fort communément utilisés actuellement. En outre, si l’accroissement de la quantité de données expérimentales permet un affinement de la discrétisation de l’espace conformationnel (par exemple en réduisant la largeur des intervalles de distance dans le cas d’un potentiel de distance entre résidus), le bénéfice d’un tel affinement est assez restreint au-delà d’une certaine limite.

Au cours de ces dernières années, quelques potentiels plus complexes ont été mis au point dans le but d’exploiter de manière plus efficace les quantités importantes de données structurales. Parmi ceux-ci, relevons l’existence de potentiels de contact ou de distance qui dépendent de l’accessibilité au solvant des résidus concernés [4, 5], des conformations de leurs chaˆınes principales [6], ou encore de l’orientation relative de leurs chaˆınes latérales [7–11]. Dans un autre registre, des potentiels locaux exprimant les propensions des divers acides aminés à être associés à certaines conformations, et qui prennent en compte simultanément les conformations de deux ou trois résidus voisins, voire plus, ont également été décrits [4,12,13]. De telles approches permettent notamment de prendre en compte certains couplages et de réduire ainsi l’impact de l’interdépendance

94

(2)

des différentes interactions et/ou de se débarrasser, en partie, du problème de l’influence de certaines caractéristiques des protéines de la base de données. Par exemple, si l’on dérive un potentiel de distance séparément pour les paires de résidus appartenant à des hélices α et pour celles comprises dans des feuillets β, les énergies effectives calculées seront vraisemblablement différentes étant donné que le potentiel tient compte d’un environnement protéique moyen qui est différent dans les deux cas [3,14–16]. Par contre, l’énergie effective calculée à l’aide d’un potentiel de distance ordinaire correspondra en quelque sorte à la moyenne de ces énergies effectives spécifiques aux différents types d’éléments de structure secondaire, et sera donc dépendante de la composition de la base de données en protéines de classe α, β ou α/β.

Une difficulté fréquemment rencontrée, au cours des études de ce type décrites dans la littérature, est liée au fait que le nombre de structures protéiques résolues apparaˆıt rapidement insuffisant lorsque l’on veut accroˆıtre la complexité d’un potentiel. On se retrouve en effet devant un choix délicat : l’usage d’un potentiel plus complexe est préférable lorsque les valeurs associées aux descripteurs de séquence et de structure sont fréquemment observées (par exemple une paire Ala-Ala associée à des conformations de type hélice α) tandis que l’usage d’un potentiel basique est nécessaire dans le cas contraire (par exemple une paire Trp-Trp associée à des conformations plus rares caractéristiques de certains tournants). Nous verrons en Section 4.5 que la réaction face à ce dilemne consiste le plus souvent en une réduction drastique de la résolution de la description de l’espace conformationnel, en se limitant par exemple à trois conformations possibles par résidu, à deux domaines d’accessibilité au solvant, ou en dérivant des potentiels de contact plutôt que des potentiels de distance.

Nous présentons ici une procédure générale de dérivation de termes de couplage qui permet d’éviter ce problème, et de construire des fonctions énergétiques basées simultanément sur plusieurs descripteurs de séquence et de structure, sans pour autant altérer l’efficacité des contributions plus basiques lorsque les valeurs prises par ces descripteurs sont peu fréquemment observées dans la base de données [17].

4.1.1 Notre approche

Nous nous attacherons à l’étude de deux types de potentiels : les potentiels locaux et les potentiels de distance. Nous entendons ici par (( potentiel local )) un potentiel qui décrit les interactions entre résidus qui sont proches le long de la séquence. En particulier, nous nous focaliserons sur les corrélations qui existent entre trois descripteurs différents, associés à chaque résidu : la nature de ce résidu, le domaine d’angles de torsion décrivant la conformation de sa chaˆıne principale, et son accessibilité au solvant (voir Annexe A).

Les potentiels de distance sont li´es aux fr´equences avec lesquelles certaines paires de

résidus sont séparées par une distance spatiale donnée. Nous tenterons de mettre au

point des potentiels qui décrivent la manière dont l’accessibilité au solvant des résidus

concern´es, ainsi que les conformations de leurs chaˆınes principales, peuvent affecter ces

fr´equences. Notons que les potentiels de distance incluent ´egalement une composante

locale, si l’on considère les distances spatiales séparant des paires de résidus proches l’un

de l’autre dans la séquence. Après une évaluation indépendante des potentiels locaux

et des potentiels de distance, nous verrons dans quelle mesure leur utilisation combin´ee

peut ˆetre avantageuse d’un point de vue pr´edictif.

(3)

Les différents potentiels et termes de couplages présentés dans ce chapitre sont dérivés de la base de données de structures protéiques DB

¹⁴⁰³

(voir Annexe B). L’état de référence sur lequel nous nous basons est celui décrit par l’équation 2.29 ; il correspond à un état dans lequel la probabilité d’observer un élément de structure donné est indépendante de la séquence. Le potentiel de force moyenne ∆W (c, s) décrivant la corrélation entre un petit élément de séquence s et un petit élément de structure c peut s’écrire de la manière suivante (Equations 2.20, 2.28 et 2.29) :

∆W (c, s) = − kT ln P (c, s)

P (c)P (s) ' − kT ln F (c, s)

F (c)F (s) = − kT ln n

^obs

(c, s)

n

^att

(c, s) , (4.1) o` u P (c) et P (s) sont les probabilités d’observation de c et de s, respectivement, et P (c, s) est la probabilité d’observation conjointe de c et s. Ces probabilités sont estimées

à l’aide des fréquences relatives d’observation au sein de la base de données de structures protéiques : F (c), F (s) et F (c, s). Il sera cependant nécessaire de généraliser cet état de référence afin, notamment, de pouvoir prendre en compte simultanément plusieurs descripteurs conformationnels.

4.1.2 M´ ethode d’´ evaluation des performances

Ensembles de leurres

La structure native d’une protéine correspond généralement à la conformation de plus basse énergie accessible à la séquence de cette protéine. Cette observation semble souffrir quelques exceptions (voir Section 1.3), mais elle n’a pas pour autant été délaissée, et elle sert toujours de postulat à la grande majorité des méthodes de prédictions structurales concernant les protéines. Si l’on dispose de la structure native d’une protéine, et si l’on admet que cette structure est effectivement celle de plus basse énergie, on peut mettre en place une procédure permettant d’évaluer les performances de fonctions énergétiques.

Il suffit en effet de vérifier que les fonctions énergétiques en question attribuent à la structure native d’une protéine une énergie plus basse que celles attribuées à un ensemble de structures alternatives.

Une autre possibilité, qui présente certains avantages dont nous avons discuté dans le chapitre précédent, est de comparer l’énergie d’une protéine avec celles de leurres dont la structure est identique mais dont la séquence a été modifiée. Il est alors nécessaire de se reposer sur l’hypothèse selon laquelle la séquence sauvage de la protéine, associée à sa structure native, correspond à une énergie plus basse que celles des séquences alternatives, ce qui est nettement plus délicat que dans le cas de modifications structurales. Les séquences sauvages des protéines sont toutefois relativement bien optimisées vis-à-vis de la stabilité de leurs structures natives, même si ce n’est vraisemblablement pas le seul critère ayant joué un rôle au cours de l’évolution. Il est donc fort peu probable qu’une séquence modifiée aléatoirement procure une meilleure stabilité que la séquence sauvage, pour peu qu’elle soit suffisamment différente de celle-ci.

Afin d’évaluer les performances des fonctions énergétiques développées dans ce

chapitre, nous avons suivi ces deux approches en parall`ele. Nous nous sommes en effet

basés sur deux groupes de 25 protéines auxquelles sont associées des leurres obtenus

par modifications structurales, ainsi que sur un groupe de 50 prot´eines auxquelles sont

(4)

associées des leurres obtenus par modifications de leurs séquences. Ces groupes sont détaillés ci-dessous.

1. D

str¹

: Ce groupe est composé de 25 protéines, chacune étant accompagnée d’un ensemble de leurres obtenus par modifications structurales. Ce groupe a été construit précédemment à partir d’ensembles de leurres mis au point par différents groupes de chercheurs, et utilisé afin de comparer les performances de six types de potentiels statistiques [18]. D

str¹

inclut les protéines suivantes (désignées ici par leur code PDB, et le cas échéant par le nom de la chaˆıne) :

(a) 1ctf, 1r69, 1sn3, 2cro, 4pti et 4rxn, chacune accompagnée d’environ 650 structures alternatives du groupe 4state reduced [19]. Ces structures ont été obtenues par une énumération exhaustive des conformations de dix résidus choisis aléatoirement parmi les tournants de la protéine, sur la base de quatre conformations possibles par résidu. Les structures de plus basses énergies (selon différentes fonctions énergétiques) et celles qui sont les plus proches de la structure native ont été retenues.

(b) 1fc2-C, 1hdd-C et 2cro, chacune accompagnée de 500 structures alternatives du groupe Fisa [20]. Ces structures ont été obtenues à l’aide de la méthode de prédiction de structure Rosetta [5,20], qui suit une procédure de recuit simulé visant à combiner des fragments de protéines pour lesquels des conformations préférées ont été prédites.

(c) 1bg8-A, 1bl0 et 1jwe, chacune accompagnée d’environ 1000 structures alternatives du groupe Fisa casp3 [20]. Ces structures ont été obtenues suivant la même méthode que dans le groupe Fisa.

(d) 1ctf, 1dkt-A, 1fca, 1nlk, 1pgb et 1trl-A, chacune accompagnée de 2000 structures alternatives du groupe lattice ssfit [21]. Ces structures ont été obtenues suite à une énumération exhaustive des conformations sur un réseau tétrahédrique. Les structures de plus basses énergies (selon différentes fonctions énergétiques) ont été retenues.

(e) 1ctf, 1dtk, 1fc2-C, 1igd, 1shf-A, 2cro et 2ovo, chacune accompagnée d’environ 400 structures alternatives du groupe lmds [22]. Pour obtenir ces structures, 10.000 conformations ont été générées, pour chaque protéine, par modification aléatoire des angles de torsion de la chaˆıne principale. Chacune de ces conformations a ensuite été modifiée de manière à minimiser son énergie et

à atteindre un minimum énergétique local. Les conformations de plus basses

énergies ont été retenues.

2. D

str²

: Ce groupe est également composé de 25 protéines, chacune accompagnée d’un ensemble d’approximativement 2000 leurres obtenus par modifications structurales [8, 23]. La méthode utilisée est la même que dans les groupes Fisa et Fisa casp3, mais des simulations supplémentaires ont été réalisées de manière à produire des structures plus proches de la structure native. Les ensembles de leurres du groupe D

str²

constituent donc des tests plus compliqués pour les fonctions énergétiques.

D

str²

inclut les protéines suivantes, désignées ici par leur code PDB (toutes sont

monom´eriques) : 1a32, 1ail, 1am3, 1cc5, 1cei, 1hyp, 1flb, 1mzm, 1r69, 1utg, 1ctf,

1dol, 1orc, 1pgx, 1ptq, 1tif, 1vcc, 2fxb, 5icb, 1bq9, 1csp, 1msi, 1tuc, 1vif et 5pti.

(5)

3. D

^seq

: Ce groupe est composé de 50 protéines, chacune accompagnée d’un ensemble de 1000 leurres obtenus par modifications de la séquence. Chaque leurre est créé en modifiant aléatoirement les positions des acides aminés le long de la séquence.

La composition globale en acides aminés est donc conservée. Afin que le test ne soit pas trop aisé, une fraction de la séquence est cependant maintenue fixe. Cette fraction est définie aléatoirement pour chaque leurre et correspond, au maximum, à 75% du nombre total de résidus de la protéine. D

^seq

inclut les protéines suivantes, désignées ici par leur code PDB (toutes sont monomériques) : 1ptq, 1d0d, 2igd, 1g2b, 1orc, 1hz6, 1i27, 1hoe, 1luz, 1ugi, 1aba, 1cy5, 1lpl, 1mk0, 1h7m, 1bm8, 1l8r, 1lyq, 1o13, 1gmx, 1cew, 1hxi, 1nyc, 1by2, 1lsl, 1o7i, 1gnu, 1fc3, 1mai, 1dzo, 1lwb, 1huf, 1nwz, 3nul, 1cuo, 1jf8, 1p0z, 1mdc, 1vsr, 1gmi, 1eca, 1j9b, 1kmt, 1mzg, 1oz9, 1h6h, 1l2h, 1srv, 2hbg et 1amx.

Notons que, lors de l’évaluation de l’énergie de chacune de ces protéines et de celles des leurres correspondants, la protéine en question et toutes celles qui partagent avec elle une identité de séquence supérieure à 20 % sont exclues de la base de données utilisée pour dériver les potentiels. Ceci est nécessaire afin d’éviter un biais des potentiels envers les structures natives (ou les séquences sauvages) des protéines utilisées en tant que tests, et de garantir une certaine généralité aux résultats obtenus. Les identités de séquence ont été calculées à l’aide du programme BLAST [24,25], disponible à l’adresse : http://www.ncbi.nlm.nih.gov/blast.

Mesures

Nous avons utilisé plusieurs méthodes afin de mesurer les performances des différents potentiels, c’est-à-dire leur capacité à distinguer les associations correctes (séquence sauvage - structure native) parmi les ensembles de leurres. Ces mesures, qui sont appliquées à chacun des trois groupes de leurres définis ci-dessus, sont les suivantes :

1. S

₁

: La mesure S

₁

consiste à calculer le pourcentage de protéines (dans chaque groupe) pour lesquelles l’énergie calculée pour l’association correcte séquence- structure est inférieure à celles calculées pour tous les leurres correspondants. Ce taux de succès est certainement la mesure plus simple, mais n’est pas pour autant sans intérêt.

2. < Z > : Le Z-score est l’une des mesures les plus fréquemment utilisées pour ce type de tests. Il est défini de la manière suivante :

Z = (E

m

− µ

r

)/σ

r

, (4.2)

o` u E

m

est l’énergie calculée pour l’association correcte séquence-structure, tandis que µ

r

et σ

r

sont respectivement la moyenne et l’´ecart-type de la distribution des

énergies calculées pour les leurres. Un Z-score négatif, de grande valeur absolue,

indique que la fonction ´energ´etique permet de distinguer efficacement l’association

correcte s´equence-structure parmi les diff´erents leurres. Nous comparerons ici les

différents potentiels à l’aide du Z-score moyen < Z >, qui correspond à la moyenne

des valeurs de Z calculées pour les différentes protéines incluses dans chacun des

trois groupes.

(6)

3. S

−1

: Ce deuxième taux de succès correspond au pourcentage de protéines pour lesquelles un Z-score inférieur à − 1 est calculé, c’est-à-dire pour lesquelles l’énergie calculée pour l’association correcte séquence-structure est nettement inférieure à la moyenne, sans nécessairement être la plus basse [8,26]. Par rapport à S

1

, la mesure S

−1

se révèle fort utile lorsque le test est compliqué, par exemple si les leurres ont des structures (des séquences) très similaires à la structure native (à la séquence sauvage).

4. < Z

^x

> : Cette mesure permet d’évaluer la capacité des potentiels à sélectionner parmi un ensemble de leurres ceux qui sont les plus proches de l’association correcte séquence-structure. Le Z-score non-natif Z

^x

est donn´e par :

Z

^x

= (µ

n

− µ

r

)/σ

r

, (4.3)

o` u µ

n

est l’énergie moyenne calculée pour un sous-groupe incluant 5% des leurres [8,26]. Dans le cas de leurres basés sur une modification structurale, ce sous-groupe comprend les structures alternatives qui sont les plus similaires à la structure native.

Cette similarité est mesurée à l’aide du r.m.s.d, qui est la distance quadratique moyenne minimale entre les atomes C

α

des deux structures superposées. Dans le cas de leurres basés sur une modification de la séquence, le sous-groupe est constitué des leurres qui présentent la plus grande identité de séquence avec la protéine sauvage. Comme pour le Z-score, µ

r

et σ

r

sont respectivement la moyenne et l’écart-type de la distribution des énergies calculées pour l’ensemble des leurres.

Nous calculons ici le Z-score non-natif moyen < Z

^x

>, c’est-`a-dire la moyenne de Z

^x

sur les diff´erentes prot´eines de chacun des trois groupes.

5. S

₋₁^x

: Cette mesure est l’´equivalent du taux de succ`es S

−1

, lorsque l’on consid`ere Z

^x

au lieu de Z . Elle correspond au pourcentage de protéines pour lesquelles un Z-score non-natif inférieur à − 1 est calculé, c’est-à-dire pour lesquelles les leurres les plus proches de l’association correcte séquence-structure ont, en moyenne, une

énergie nettement inférieure à la moyenne sur l’ensemble des leurres [8, 26].

L’intérêt d’utiliser simultanément plusieurs mesures différentes réside dans le fait qu’aucune d’entre elles n’est parfaite. Ainsi, le taux de succès S

1

souffre d’être basé sur une observation binaire : la protéine considérée est, ou non, associée à une énergie plus basse que celles de tous les leurres. Si ce n’est pas le cas, que la protéine soit classée en deuxième ou en dernière position n’a aucun impact sur S

1

. De plus, cette mesure dépend directement du nombre de leurres associés à chaque protéine : plus celui- ci est grand, plus la probabilité d’avoir un taux de succès important sera faible, quelle que soit de la fonction énergétique utilisée. Au contraire, le Z-score donne l’énergie de l’association séquence-structure correcte, normalisée par rapport à la moyenne et l’écart- type de la distribution des énergies des leurres. Il n’a donc pas le caractère binaire de S

1

et en principe ne dépend pas du nombre de leurres. Néanmoins, une des limitations de cette mesure est que plus les leurres sont proches les uns des autres d’un point de vue énergétique, plus le Z-score sera élevé, en valeur absolue. En d’autres termes, cette mesure sera défavorable aux fonctions énergétiques qui attribuent des énergies proches de l’énergie minimale à certains leurres, et des énergies beaucoup plus hautes à d’autres.

De telles fonctions énergétiques ne sont cependant pas pour autant inappropriées. Les

caract´eristiques de S

−1

sont interm´ediaires `a celles de S

1

et de < Z >.

(7)

Par ailleurs, notons que les mesures S

1

, < Z > et S

−1

peuvent être influencées par la présence éventuelle de certaines caractéristiques communes aux leurres, liées par exemple à la procédure suivie pour les générer. Si de telles caractéristiques existent, les fonctions énergétiques qui leur sont défavorables apparaˆıtront performantes, quelle que soit la précision avec laquelle elles permettent d’évaluer les différentes interactions. Les mesures < Z

^x

> et S

₋₁^x

sont moins concernées par ce problème étant donné qu’elles ne tiennent pas compte de l’énergie de la structure native (ou de la séquence sauvage). Elles sont cependant dépendantes de l’hypothèse selon laquelle les leurres les plus similaires

à l’association correcte séquence-structure doivent être associés aux énergies les plus basses. La validité de cette hypothèse n’est pas évidente, et elle peut dépendre fortement de la manière dont la similarité est évaluée, notamment dans le cas des leurres obtenus par modifications structurales.

En conclusion, il est difficle d’évaluer la signification statistique de différences observées entre les performances de deux potentiels dans une application donnée. En outre, il est parfaitement envisageable que l’un de ces potentiels apparaisse (et soit réellement) plus performant que l’autre selon certaines mesures, et moins selon d’autres.

Nous disposons ici de 15 mesures diff´erentes des performances des potentiels (cinq

mesures appliqu´ees `a trois groupes de leurres), ce qui nous permettra, lorsque la plupart

de ces mesures concordent, de constater avec une certaine confiance l’am´elioration ou la

détérioration du pouvoir prédictif.

(8)

4.2 Potentiels locaux

4.2.1 Potentiels locaux bas´ es sur les domaines de torsion

Sur la base de l’´equation 4.1, il est possible de mettre au point un potentiel basique

∆W

ts

décrivant les propensions des différents types d’acides aminés à être associés à certains domaines d’angles de torsion de la chaˆıne principale :

∆W

ts

(t

i

, s

j

) = − kT ln P (t

_i

, s

_j

)

P (t

i

)P (s

j

) ' − kT ln F (t

_i

, s

_j

)

F (t

i

)F (s

j

) , (4.4) o` u l’´el´ement de structure t

_i

décrit le domaine d’angles de torsion de la chaˆıne principale du résidu en position i dans la séquence et l’élément de séquence s

j

est la nature de l’acide aminé en position j. Nous considérons ici sept domaines d’angles de torsion, qui sont définis en Annexe A. Si i = j, le potentiel reflète la corrélation existant entre la nature d’un résidu et les conformations qu’il peut adopter. Dans le cas contraire, le potentiel permet de prendre en compte l’influence de la nature d’un résidu sur les conformations adoptées par les résidus voisins. Notons que l’on suppose que l’énergie ne dépend que des positions relatives des deux résidus le long de la séquence, c’est-à-dire de i − j, et non des valeurs précises de i et de j. Selon ce potentiel, l’énergie libre d’une protéine de N résidus, de séquence S = (s

1

, . . . , s

N

) dans une conformation C = (t

1

, . . . , t

N

) vaut :

∆W

ts

(C, S) ' − kT X

i,j

ln F (t

i

, s

j

)

F (t

i

)F (s

j

) , (4.5)

o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F

^loc

, et F

loc

est un paramètre ajustable correspondant à la taille de la fenêtre dans laquelle on souhaite prendre en compte la corrélation entre t

i

et s

j

. Plusieurs potentiels de ce type ont été décrits dans la littérature [4, 12, 13, 27–29].

Néanmoins, comme nous l’avons mentionné précédemment (Section 2.2.3), le fait de sommer les contributions relatives aux différents couples (t

i

,s

j

) est une approxi- mation considérable, étant donné que ces contributions ne sont pas nécessairement indépendantes. Par exemple, si s

_k

est un acide aminé fréquemment localisé à la fin d’une hélice α, et que les résidus précédant la position k adoptent une conformation hélicoidale, les résidus en positions k + 1, k + 2, . . . choisiront probablement leurs conformations de manière à former un tournant. La probabilité d’observer un tel tournant risque cependant d’être plus faible si le résidu en position k n’est pas précédé d’une hélice α. Afin de résoudre ce problème, il est tentant de considérer un petit élément de structure défini par une paire de domaines d’angles de torsion de la chaˆıne principale (t

_i

,t

_j

), afin de traduire en énergie libre la corrélation qui existe entre les conformations des résidus en positions i et j et la nature du résidu en position k (s

k

). On obtient alors :

∆W

_tts⁰

(t

i

, t

j

, s

k

) = − kT ln P (t

_i

, t

_j

, s

_k

)

P (t

i

, t

j

)P (s

k

) . (4.6)

Ce potentiel ne peut cependant ˆetre somm´e directement sur l’ensemble des triplets de

positions i, j et k. En effet la contribution relative `a un triplet (t

i

,t

j

,s

k

) inclut les

contributions de couples (t

i

,s

k

) et (t

j

,s

k

) et n’est donc pas ind´ependante de celle relative

(9)

au triplet (t

i

,t

l

,s

k

), par exemple. L’équation 4.6 peut d’ailleurs être réécrite de la manière suivante :

∆W

_tts⁰

(t

i

, t

j

, s

k

) = − kT ln

· P (t

i

, s

k

) P (t

i

)P (s

k

)

P (t

j

, s

k

) P (t

j

)P (s

k

)

P (t

i

, t

j

, s

k

)P (t

i

)P (t

j

)P (s

k

) P (t

i

, t

j

)P (t

i

, s

k

)P (t

j

, s

k

)

¸

, (4.7) c’est-`a-dire

∆W

_tts⁰

(t

i

, t

j

, s

k

) = ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

) + ∆W

tts

(t

i

, t

j

, s

k

) avec ∆W

tts

(t

i

, t

j

, s

k

) = − kT ln P (t

i

, t

j

, s

k

)P (t

i

)P (t

j

)P (s

k

)

P (t

i

, t

j

)P (t

i

, s

k

)P (t

j

, s

k

) , (4.8) Notons que, comme précédemment, les probabilités d’observation des divers éléments de séquence et de structure, conjointement ou indépendamment, sont estimées à l’aide des fréquences relatives d’observation dans la base de données. ∆W

tts

est un terme de couplage qui est, par d´efinion, sommable au potentiel ∆W

ts

. Il permet de prendre en compte le fait que le lien entre la pr´esence d’un acide amin´e de type s

k

en position k et la conformation t

i

adoptée par le résidu en position i n’est pas indépendant du lien entre s

k

et t

j

. L’énergie libre d’une protéine dans une conformation donnée peut alors être estimée de manière plus précise qu’avec l’équation 4.5 :

∆W (C, S) ' X

i,j

∆W

ts

(t

i

, s

j

) + X

i,j,k

∆W

tts

(t

i

, t

j

, s

k

) , (4.9) o` u, dans le premier terme du membre de droite, la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F

^loc

. Dans le deuxième terme du membre de droite, la somme est réalisée sur tous les triplets de positions i, j et k qui satisfont les conditions suivantes : | i − j | ≤ F

loc

, | i − k | ≤ F

loc

, | j − k | ≤ F

loc

, et i < j. Si ce deuxième terme est parfois négligeable vis-à-vis du premier, cette constatation est loin d’être vraie de manière générale. Ainsi, comme l’illustrent les deux exemples de la Figure 4.1, les valeurs de ∆W

tts

peuvent dans certains cas ˆetre telles que ∆W

_tts⁰

(t

_i

, t

_j

, s

_k

) soit de signe oppos´e `a ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

).

De mani`ere similaire, nous pouvons d´efinir un terme de couplage ∆W

tss

(t

i

, s

j

, s

k

) afin de prendre en compte l’interd´ependance ´eventuelle de ∆W

ts

(t

i

, s

j

) et ∆W

ts

(t

i

, s

k

). En partant de l’équation 4.1, et en choisissant comme élément de structure la conformation t

i

du résidu en position i, et comme élément de séquence la nature des acides aminés en positions j et k (s

j

, s

k

), nous obtenons :

∆W

_tss⁰

(t

i

, s

j

, s

k

) = − kT ln P (t

i

, s

j

, s

k

) P (t

_i

)P (s

_j

, s

_k

)

= ∆W

ts

(t

i

, s

j

) + ∆W

ts

(t

i

, s

j

) + ∆W

tss

(t

i

, s

j

, s

k

) avec ∆W

tss

(t

_i

, s

_j

, s

_k

) = − kT ln P (t

_i

, s

_j

, s

_k

)P (t

_i

)P (s

_j

)P (s

_k

)

P (t

i

, s

j

)P (t

i

, s

k

)P (s

j

, s

k

) . (4.10)

L’´equation 4.9 devient alors :

(10)

Figure 4.1 – Exemples de l’importance du terme de couplage ∆W

tts

.

Deux cas de figure sont exposés, et les valeurs prises par les potentiels ∆Wts, ∆Wtts, et ∆W_tts⁰ , sont données pour chacun. La conformation de chaque résidu est définie par le domaine dans lequel se trouvent les angles de torsion de sa chaˆıne principale (voir Annexe A). Les symboles((X))indiquent que la nature (ou la conformation) du résidu en question n’est pas définie.

∆W (C, S) ' X

i,j

∆W

ts

(t

i

, s

j

) + X

i,j,k

∆W

tts

(t

i

, t

j

, s

k

) + X

i,j,k

∆W

tss

(t

i

, s

j

, s

k

) , (4.11) o` u les deux premiers termes du membre de droite sont identiques à ceux de l’équation 4.9. Dans le troisième, la somme est réalisée sur tous les triplets de positions i, j et k qui satisfont les conditions suivantes : | i − j | ≤ F

^loc

, | i − k | ≤ F

^loc

, | j − k | ≤ F

^loc

, et j < k.

Dans le même ordre d’idées, nous avons également défini les termes d’ordre supérieur suivants :

∆W

ttts

(t

i

, t

j

, t

k

, s

l

) = (4.12)

− kT ln

· P (t

i

, t

j

, t

k

, s

l

)P (t

i

, t

j

)P (t

i

, t

k

)P (t

j

, t

k

)P (t

i

, s

l

)P (t

j

, s

l

)P (t

k

, s

l

) P (t

i

)P (t

j

)P (t

k

)P (s

l

)P (t

i

, t

j

, t

k

)P (t

i

, t

j

, s

l

)P (t

i

, t

k

, s

l

)P (t

j

, t

k

, s

l

)

¸ ,

∆W

ttss

(t

i

, t

j

, s

k

, s

l

) = (4.13)

− kT ln

· P (t

i

, t

j

, s

k

, s

l

)P (t

i

, t

j

)P (t

i

, s

k

)P (t

i

, s

l

)P (t

j

, s

k

)P (t

j

, s

l

)P (s

k

, s

l

) P (t

i

)P (t

j

)P (s

k

)P (s

l

)P (t

i

, t

j

, s

k

)P (t

i

, t

j

, s

l

)P (t

i

, s

k

, s

l

)P (t

j

, s

k

, s

l

)

¸ ,

∆W

tsss

(t

i

, s

j

, s

k

, s

l

) = (4.14)

− kT ln

· P (t

i

, s

j

, s

k

, s

l

)P (t

i

, s

j

)P (t

i

, s

k

)P (t

i

, s

l

)P (s

j

, s

k

)P (s

j

, s

l

)P (s

k

, s

l

) P (t

_i

)P (s

_j

)P (s

_k

)P (s

_l

)P (t

_i

, s

_j

, s

_k

)P (t

_i

, s

_j

, s

_l

)P (t

_i

, s

_k

, s

_l

)P (s

_j

, s

_k

, s

_l

)

¸ . Il est évident que des fonctions énergétiques telles que ∆W

ttts

, ∆W

ttss

ou ∆W

tsss

sont susceptibles d’être fortement affectées par la taille de la base de données de

structures protéiques. En effet, ces potentiels sont dérivés des fréquences d’observations

conjointes de 4 descripteurs de s´equence et de structure diff´erents. Le nombre de

(11)

combinaisons possibles des valeurs prises par ces decripteurs étant important, le nombre d’observations de chaque combinaison est forcément très restreint en moyenne, même si la base de données comprend un grand nombre de protéines. Néanmoins, pour diverses combinaisons fréquentes d’acides aminés et de domaines d’angles de torsion, le nombre d’observations est suffisant et il est possible d’obtenir des termes de couplages présentant un certain intérêt pratique. Pour les autres, l’utilisation de ces termes est naturellement plus délicate, et risque de nuire aux performances générales. Afin d’éviter l’introduction de bruit dans les potentiels par la prise en compte de fréquences d’observation peu significatives, nous utilisons, pour chacun des potentiels définis ci-dessus, la correction décrite en Section 2.2.3 (Equation 2.36). Cette correction permet de faire tendre la fonction ∆W (c, s) vers zéro lorsque n

^att

(c, s) et n

^obs

(c, s) sont petits par rapport à un paramètre ajustable σ, et vers sa forme non-corrigée (définie ici par l’équation 4.4, 4.8, 4.10, 4.12, 4.13 ou 4.14) lorsque n

^att

(c, s) et n

^obs

(c, s) sont grands par rapport `a σ.

Remarquons que l’application de cette correction individuellement à chaque terme de potentiel implique notamment que certaines égalités énoncées précédemment ne sont pas valables en pratique. A titre d’exemple, ∆W

_tts⁰

(t

i

, t

j

, s

k

), tel que défini par l’équation 4.6, n’est égal à ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

) + ∆W

tts

(t

i

, t

j

, s

k

) que lorsque le nombre d’observations de (t

i

, t

j

, s

k

) est suffisamment grand.

Evaluation des performances

Les performances des potentiels présentés ci-dessus ont été évaluées selon la méthode décrite en Section 4.1.2. Les résultats sont donnés en Table 4.1.

La première partie de cette table permet de comparer le pouvoir prédictif des différentes fonctions énergétiques considérées individuellement. On observe tout d’abord, sans réelle surprise, que le potentiel ∆W

ts

est nettement sup´erieur aux divers termes de couplage lorsqu’il s’agit d’isoler une association correcte s´equence-structure parmi un ensemble de leurres. Les performances individuelles de ∆W

tts

et ∆W

tss

sont n´eanmoins fort honorables. Dans le groupe de leurres D

str¹

par exemple, ces fonctions permettent d’atteindre des valeurs de < Z > inférieures à − 1, et même à classer quelques protéines du groupe en première position (S

1

> 0). Le terme ∆W

ttts

fait également preuve d’un certain pouvoir discriminatoire individuel, même s’il est plutôt limité.

Les termes de couplages n’ont toutefois pas été mis au point dans le but d’être utilisés

individuellement, mais afin de corriger les erreurs r´esultant de la non-ind´ependance des

contributions des couples (t

i

, s

j

) dans le potentiel ∆W

ts

. L’am´elioration des performances

du potentiel ∆W

ts

, lorsqu’il est accompagn´e des termes de couplage ∆W

tts

et ∆W

tss

, est

assez impressionnante (Table 4.1). Dans les trois groupes de leurres D

str¹

, D

str²

et D

^seq

,

les valeurs calcul´ees pour le Z-score moyen < Z > passent en effet de -2.69 `a -3.29, de

-1.45 `a -1.69, et de -2.21 `a -2.39, respectivement. Le pourcentage de structures natives

(ou de séquences sauvages) pour lesquelles l’énergie calculée est inférieure à celles de tous

les leurres correspondants (S

1

) augmente ´egalement significativement dans chacun des

trois groupes, en particulier dans D

^seq

, o` u S

1

passe de 22 `a 44%. D’ailleurs, le pouvoir

discriminatoire du potentiel ∆W

ts

avec les termes de couplage ∆W

tts

et ∆W

tss

apparaˆıt

meilleur, ou au pire ´equivalent `a celui du potentiel ∆W

ts

seul, quels que soient le groupe

de leurres considéré et la mesure utilisée, à l’exception de S

₋₁^x

qui diminue l´eg`erement

dans le cas de D

^seq

.

(12)

Potentiel D¹str Dstr² Dseq

< Z > < Z^x> < Z > < Z^x> < Z > < Z^x>

(S1/S−1) (S₋₁^x ) (S1/S−1) (S₋₁^x ) (S1/S−1) (S₋₁^x )

ts -2.69 -0.34 -1.45 -0.27 -2.21 -1.54

(40/ 80) (4) (8 / 68) (0) (22/100) (100)

tts -1.04 -0.06 -0.48 -0.16 -0.44 -0.23

(8 / 48) (0) (0 / 36) (4) (0 / 22) (10)

tss -1.49 -0.04 -0.25 -0.17 -1.33 -0.63

(4 / 64) (0) (0 / 28) (0) (0 / 35) (14)

ttts -0.22 -0.11 -0.84 -0.14 -0.55 -0.39

(4 / 24) (0) (0 / 32) (0) (0 / 18) (10)

ttss 0.86 0.07 -0.37 -0.02 0.58 0.37

(0 / 8) (0) (0 / 36) (4) (0 / 2) (2)

tsss 0.31 -0.02 -0.22 -0.05 0.07 0.08

(0 / 20) (0) (0 / 16) (0) (0 / 10) (0)

ts+tts+tss -3.29 -0.34 -1.69 -0.38 -2.39 -1.59

(60/ 84) (8) (12/ 68) (8) (44/100) (96)

ts+tts+tss -3.36 -0.37 -1.84 -0.41 -2.42 -1.62

+ttts (56/ 88) (8) (20/ 72) (8) (46/100) (96)

ts+tts+tss -2.94 -0.33 -1.92 -0.40 -2.29 -1.52

+ttts+ttss+tsss (56/ 84) (4) (20/ 76) (8) (22/100) (96)

Table 4.1 – Pouvoir pr´edictif des potentiels locaux bas´es sur les domaines de torsion.

Le pouvoir prédictif des potentiels est estimé sur la base des trois groupes de leurres et des différentes mesures présentés en Section 4.1.2. La première colonne désigne le potentiel utilisé :tset (ts+tts+tss) indiquent par exemple que les énergies des diverses associations séquence-structure sont évaluées à l’aide des équations 4.5 et 4.11, respectivement. Les valeurs des paramètresFloc et σ sont fixées à 2 et 20, respectivement. Nous discuterons l’influence de ces paramètres en Section 4.2.5. Les taux de succèsS1, S−1 etS₋₁^x sont donnés en pourcents.

Par ailleurs, selon la plupart des mesures que nous avons effectu´ees, l’addition du terme d’ordre sup´erieur ∆W

ttts

procure ´egalement une certaine am´elioration des performances (Table 4.1). Ce n’est cependant pas le cas de ∆W

ttss

et de ∆W

tsss

: l’incorporation de ces termes dans la fonction énergétique induit une diminution sensible du pouvoir prédictif dans les groupes D

str¹

et D

^seq

. Il est vraisemblable que ceci résulte, du moins en partie, de la taille de la base de données qui est encore trop réduite pour pouvoir en extraire des valeurs statistiques représentatives concernant simultanément quatre descripteurs de séquence et/ou de structure. En effet, le nombre moyen d’observations de chaque combinaison (t

i

, t

j

, s

k

, s

l

) et (t

i

, s

j

, s

k

, s

l

) vaut approximativement 6 et 16, respectivement, dans la base de donn´ees DB

1403

. Notons que le terme ∆W

ttts

est moins affecté par ce problème, étant donné que le nombre de domaines d’angles de torsion t possibles est de sept, ce qui est nettement inférieur au nombre d’acides aminés s.

En cons´equence, le nombre moyen d’observations des combinaisons (t

_i

, t

_j

, t

_k

, s

_l

) est plus important : il vaut approximativement 45.

Ces résultats mettent également en évidence certaines différences entre les trois

groupes de leurres. Nous avons mentionné précédemment le fait que les ensembles de

leurres du groupe D

²str

contiennent des structures alternatives plus proches des structures

natives que les ensembles de leurres du groupe D

str¹

. En cons´equence, il est plus difficile

pour les potentiels d’isoler les structures natives parmi les leurres du groupe D

str²

, ce qui

(13)

se refl`ete au niveau des mesures < Z >, S

1

et S

−1

. Par contre, du point de vue des mesures < Z

^x

> et S

₋₁^x

, les r´esultats sont essentiellement ´equivalents dans les groupes D

str¹

et D

str²

. Ceci s’explique par le fait que le groupe D

²str

contient des leurres plus similaires aux structures natives, et donc plus susceptibles de correspondre effectivement

`a des ´energies plus basses que la moyenne. Dans le groupe D

^seq

, les valeurs obtenues pour < Z > et S

1

sont généralement intermédiaires à celles obtenues dans D

¹str

et D

²str

, tandis que celles obtenues pour < Z

^x

> et S

₋₁^x

sont nettement meilleures. Il est en effet assez vraisemblable que les leurres qui présentent la plus grande identité de séquence avec la séquence sauvage soient les plus proches de celle-ci au niveau énergétique, et correspondent donc à des énergies plus basses que la moyenne. Au contraire, dans le cas de leurres obtenus par modifications structurales, la mesure de similarité entre les structures, qui est ici le r.m.s.d (voir les définitions des mesures, Section 4.1.2), ne reflète pas nécessairement correctement l’importance des différences structurales et de leurs impacts sur l’énergie. Certaines structures peuvent en effet avoir un r.m.s.d très

élevé, par rapport à la structure native, tout en gardant la plupart de leurs résidus dans leurs domaines d’angles de torsion natifs. D’autres mesures de similarité pourraient être envisagées, comme par exemple le pourcentage de résidus dont les angles de torsion de la chaˆıne principale sont dans le domaine natif.

Remarquons ´egalement que l’addition du terme ∆W

ttts

apparaˆıt plus avantageuse dans le groupe D

str²

que dans D

¹str

ou D

^seq

. Par ailleurs, malgré la taille vraisemblablement trop réduite de la base de données, les termes ∆W

ttss

et ∆W

tsss

induisent tout de même une légère amélioration des performances au sein de D

str²

. Ces observations suggèrent que l’inclusion de termes de couplages d’ordre élevé, qui sont censés apporter de petites précisions à la fonction énergétique, n’est réellement avantageuse que si le test est suffisamment compliqué. Au contraire, lors de la comparaison de structures natives de protéines avec des leurres plus grossiers par exemple, les différences entre les énergies calculées pour les diverses conformations résultent essentiellement de contributions plus basiques.

4.2.2 Potentiels locaux bas´ es sur l’accessibilit´ e au solvant

Un autre descripteur conformationnel important, et qui a fréquemment servi de base à la définition de potentiels statistiques [4,5,29–33], est l’accessibilité au solvant des résidus (voir Annexe A). De manière similaire avec ce que nous avons présenté précédemment pour les potentiels basés sur les domaines d’angles de torsion de la chaˆıne principale, un potentiel basique ∆W

as

décrivant les propensions des différents types d’acides aminés à avoir une certaine accessibilité au solvant est défini par :

∆W

as

(a

i

, s

j

) = − kT ln P (a

i

, s

j

)

P (a

i

)P (s

j

) , (4.15)

o` u l’´el´ement de structure a

i

décrit le domaine d’accessibilité au solvant du résidu en

position i dans la séquence et l’élément de séquence s

j

est la nature de l’acide amin´e en

position j. Nous consid´erons ici cinq domaines d’accessibilit´e au solvant A : A ≤ 5%,

5% < A ≤ 15%, 15% < A ≤ 30%, 30% < A ≤ 50% et 50% < A ≤ 100%. Selon ce

potentiel, l’énergie libre d’une protéine de N résidus, de séquence S = (s

1

, . . . , s

N

) dans

une conformation C = (a

1

, . . . , a

N

) vaut :

(14)

∆W

as

(C, S) = − kT X

i,j

ln P (a

_i

, s

_j

)

P (a

i

)P (s

j

) , (4.16) o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F

^loc

. Nous d´efinissons ´egalement les termes de couplage suivants :

∆W

aas

(a

i

, a

j

, s

k

) = − kT ln P (a

_i

, a

_j

, s

_k

)P (a

_i

)P (a

_j

)P (s

_k

)

P (a

i

, a

j

)P (a

i

, s

k

)P (a

j

, s

k

) , (4.17)

∆W

ass

(a

i

, s

j

, s

k

) = − kT ln P (a

i

, s

j

, s

k

)P (a

i

)P (s

j

)P (s

k

)

P (a

i

, s

j

)P (a

i

, s

k

)P (s

j

, s

k

) , (4.18)

∆W

aaas

(a

i

, a

j

, a

k

, s

l

) = (4.19)

− kT ln

· P (a

i

, a

j

, a

k

, s

l

)P (a

i

, a

j

)P (a

i

, a

k

)P (a

j

, a

k

)P (a

i

, s

l

)P (a

j

, s

l

)P (a

k

, s

l

) P (a

i

)P (a

j

)P (a

k

)P (s

l

)P (a

i

, a

j

, a

k

)P (a

i

, a

j

, s

l

)P (a

i

, a

k

, s

l

)P (a

j

, a

k

, s

l

)

¸ ,

∆W

aass

(a

i

, a

j

, s

k

, s

l

) = (4.20)

− kT ln

· P (a

i

, a

j

, s

k

, s

l

)P (a

i

, a

j

)P (a

i

, s

k

)P (a

i

, s

l

)P (a

j

, s

k

)P (a

j

, s

l

)P (s

k

, s

l

) P (a

_i

)P (a

_j

)P (s

_k

)P (s

_l

)P (a

_i

, a

_j

, s

_k

)P (a

_i

, a

_j

, s

_l

)P (a

_i

, s

_k

, s

_l

)P (a

_j

, s

_k

, s

_l

)

¸ ,

∆W

asss

(a

_i

, s

_j

, s

_k

, s

_l

) = (4.21)

− kT ln

· P (a

i

, s

j

, s

k

, s

l

)P (a

i

, s

j

)P (a

i

, s

k

)P (a

i

, s

l

)P (s

j

, s

k

)P (s

j

, s

l

)P (s

k

, s

l

) P (a

i

)P (s

j

)P (s

k

)P (s

l

)P (a

i

, s

j

, s

k

)P (a

i

, s

j

, s

l

)P (a

i

, s

k

, s

l

)P (s

j

, s

k

, s

l

)

¸ .

Evaluation des performances

Comme dans le cas des potentiels bas´es sur les angles de torsion de la chaˆıne principale, on remarque que les termes de couplage ∆W

aas

et ∆W

ass

possèdent chacun un certain pouvoir prédictif individuel, bien qu’il soit nettement inférieur à celui du potentiel ∆W

as

(Table 4.2).

Cependant, au vu des résultats présentés en Table 4.2, l’inclusion des termes de

couplage ∆W

aas

et ∆W

ass

semble nettement moins avantageuse que celle des termes

correspondants bas´es sur les angles de torsion de la chaˆıne principale. En effet, selon

la plupart des mesures effectu´ees, le potentiel ∆W

as

est l´eg`erement moins performant

lorsqu’il est accompagné de ces deux termes de couplage que lorsqu’il est considéré

individuellement, du moins au sein des groupes de leurres D

str¹

et D

^seq

. Il faut

probablement en conclure que, si l’on considère un résidu donné, l’influence des résidus

voisins joue un rôle moins important dans la détermination de son accessibilité au solvant

que dans celle de la conformation de sa chaˆıne principale. C’est-`a-dire que, lorsque les

probabilit´es d’observer diff´erents couples (t

i

, s

j

) ou (a

i

, s

j

) sont suppos´ees ind´ependantes

et que les contributions correspondantes sont simplement somm´ees (Equations 4.5 et

4.16), l’impr´ecision engendr´ee est vraisemblablement plus importante dans le cas de

potentiels bas´es sur les angles de torsion de la chaˆıne principale que dans le cas de

(15)

Potentiel D¹str Dstr² Dseq

< Z > < Z^x> < Z > < Z^x> < Z > < Z^x>

(S1/S−1) (S₋₁^x ) (S1/S−1) (S₋₁^x ) (S1/S−1) (S₋₁^x )

as -2.40 -0.45 -0.60 -0.26 -2.29 -1.58

(44/ 80) (16) (0 / 44) (0) (50/100) (96)

aas -0.95 -0.14 -0.38 -0.10 -1.31 -0.79

(8 / 36) (4) (0 / 32) (0) (0 / 72) (38)

ass -0.72 -0.15 -0.41 -0.13 -1.04 -0.47

(0 / 44) (0) (0 / 24) (0) (0 / 50) (12)

aaas 0.85 0.22 0.27 0.12 0.59 0.31

(0 / 8) (0) (0 / 8) (0) (0 / 0) (2)

aass 0.57 0.11 0.33 0.10 0.53 0.37

(0 / 0) (0) (0 / 4) (0) (0 / 6) (0)

asss -0.25 0.02 0.24 -0.02 -0.10 0.00

(0 / 40) (0) (0 / 8) (0) (0 / 20) (4)

as+aas+ass -2.34 -0.43 -0.71 -0.27 -2.34 -1.52

(36/ 88) (12) (0 / 48) (4) (42/100) (96)

as+aas+ass -2.14 -0.37 -0.53 -0.22 -2.32 -1.49

+aaas+aass+asss (24/ 80) (12) (0 / 36) (0) (42/100) (94)

Table 4.2 – Pouvoir prédictif des potentiels locaux basés sur l’accessibilité au solvant.

Le pouvoir prédictif des potentiels est estimé sur la base des trois groupes de leurres et des différentes mesures présentés en Section 4.1.2. La première colonne désigne le potentiel utilisé, à l’aide d’une notation simplifée similaire à celle utilisée en Table 4.1. Comme précédemment, les valeurs des paramètresFlocet σsont fixées à 2 et 20, respectivement. Nous discuterons l’influence de ces paramètres en Section 4.2.5.

Les taux de succ`esS1,S−1 etS^x₋₁ sont donn´es en pourcents.

potentiels basés sur l’accessibilité au solvant. Une certaine pertinence de ces termes de couplage n’est cependant pas à exclure, étant donné qu’ils permettent tout de même une légère amélioration des performances au sein du groupe de leurres qui constitue le test le plus complexe : D

str²

.

Les termes de couplage d’ordre sup´erieur ∆W

aaas

, ∆W

aass

et ∆W

asss

ne présentent quant à eux aucun pouvoir prédictif significatif lorsqu’ils sont considérés individuellement, et induisent une diminution sensible des performances lorsqu’ils sont inclus dans la fonction énergétique (Table 4.2).

4.2.3 Potentiels locaux ind´ ependants de la s´ equence

Si, au lieu de considérer comme précédemment les fréquences avec lesquelles des petits

éléments de structure c sont associés avec des petits éléments de séquence s, l’on considère les fréquences d’association de certains éléments de structure avec d’autres éléments de structure, on peut définir différents potentiels et termes de couplage indépendants de la séquence.

Ainsi, un potentiel basé sur la probabilité d’observer les résidus en positions i et j adoptant simultanément les conformations t

i

et t

j

, respectivement, est d´efini par :

∆W

tt

(t

i

, t

j

) = − kT ln P (t

i

, t

j

)

P (t

i

)P (t

j

) ' − kT ln F (t

i

, t

j

)

F (t

i

)F (t

j

) . (4.22)

(16)

Ce potentiel peut être intégré aux fonctions énergétiques définies précédemment.

L’´energie libre associ´ee au triplet (t

i

, t

j

, s

k

) sera alors donn´ee par :

∆W

_tts⁰⁰

(t

i

, t

j

, s

k

) = − kT ln P (t

i

, t

j

, s

k

)

P (t

i

)P (t

j

)P (s

k

) (4.23)

= ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

) + ∆W

tt

(t

i

, t

j

) + ∆W

tts

(t

i

, t

j

, s

k

) , o` u ∆W

ts

et ∆W

tts

sont d´efinis par les ´equations 4.4 et 4.8, respectivement. La contribution du potentiel ∆W

tt

à l’estimation de l’énergie libre d’une protéine de structure C vaut, quelle que soit la séquence S :

∆W

tt

(C, S) = − kT X

i,j

ln P (t

i

, t

j

)

P (t

i

)P (t

j

) , (4.24) o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que 1 ≤ j − i ≤ F

^loc

. Notons que le potentiel ∆W

tt

est fortement influencé par le fait que les élements de structure secondaire que sont les hélices α et les brins β ont une certaine longueur, et que les résidus adoptant des conformations caractéristiques de ces éléments (domaines A et B, respectivement) sont donc fréquemment regroupés le long de la séquence. Ainsi,

∆W

tt

(t

i

= A, t

i+1

= A) = − 0.44 kcal/mole et ∆W

tt

(t

i

= B, t

i+1

= B) = − 0.41 kcal/mole, tandis que ∆W

tt

(t

i

= A, t

i+1

= B) = 0.97 kcal/mole. D’autres propriétés sont néanmoins probablement prises en compte, comme par exemple la formation de tournants ayant une conformation bien spécifique (voir par exemple [34, 35]).

Les probabilit´es d’observer certains couples (t

i

, t

j

) associés à différentes positions i et j n’étant pas nécessairement indépendantes les unes des autres, il peut également être utile de définir le terme de couplage suivant :

∆W

ttt

(t

i

, t

j

, t

k

) = − kT ln P (t

i

, t

j

, t

k

)P (t

i

)P (t

j

)P (t

k

)

P (t

_i

, t

_j

)P (t

_i

, t

_k

)P (t

_j

, t

_k

) . (4.25) Une des caract´eristiques du terme ∆W

ttt

est qu’il atténue l’aspect très favorable au regroupement, le long de la séquence, des résidus adoptant des conformations de type α ou β du potentiel ∆W

tt

. On a par exemple ∆W

ttt

(t

i

= A, t

i+1

= A, t

i+2

= A) = 0.32 kcal/mole et ∆W

ttt

(t

i

= A, t

i+1

= B, t

i+2

= B) = − 0.83 kcal/mole.

De la même manière, on peut définir des potentiels indépendants de la séquence basés sur l’accessibilité au solvant des résidus :

∆W

aa

(a

i

, a

j

) = − kT ln P (a

i

, a

j

)

P (a

i

)P (a

j

) , (4.26)

∆W

aaa

(a

i

, a

j

, a

k

) = − kT ln P (a

i

, a

j

, a

k

)P (a

i

)P (a

j

)P (a

k

)

P (a

i

, a

j

)P (a

i

, a

k

)P (a

j

, a

k

) . (4.27) Remarquons que les r´esidus voisins d’un r´esidu accessible au solvant sont souvent

également accessibles au solvant, et que la même constatation peut être faite pour les

r´esidus enfouis. Le potentiel ∆W

aa

est donc comparable au potentiel ∆W

tt

dans le sens

o` u il favorise le regroupement, le long de la séquence, de résidus associés à une même

valeur du descripteur conformationnel. Cette caractéristique est partiellement atténuée

par le terme de couplage ∆W

aaa

.