Chapitre 4
Mise au point de termes de couplage
4.1 Introduction
L’objectif poursuivi lors de la d´erivation de potentiels de force moyenne est de profiter des donn´ees exp´erimentales disponibles concernant les structures prot´eiques et d’en extraire des informations `a propos de l’ensemble des interactions qui r´egissent le reploiement et la stabilit´e des prot´eines. Cette proc´edure est suivie dans l’espoir de mettre au point des fonctions ´energ´etiques qui jouissent d’une certaine g´en´eralit´e, c’est-
`a-dire qui peuvent se r´ev´eler profitables lors de l’´etude de prot´eines ne faisant pas partie de la base de donn´ees utilis´ee pour d´eriver les potentiels. Comme nous l’avons mentionn´e pr´ec´edemment (Section 2.2.3), cet espoir ne refl`ete pas parfaitement la r´ealit´e au vu notamment de la d´ependance des potentiels en certaines caract´eristiques des prot´eines incluses dans la base de donn´ees.
Par ailleurs, depuis que les premi`eres approches de ce type ont vu le jour, la quantit´e de donn´ees structurales disponibles a consid´erablement augment´e, sans pour autant engendrer une am´elioration drastique des performances des potentiels [1–3]. Il est en effet apparu qu’augmenter la taille de la base de donn´ees au-del`a de quelques centaines de prot´eines ne pr´esentait aucun avantage significatif pour les potentiels simples – bas´es sur un nombre limit´e de descripteurs de s´equence et de structure – qui sont encore fort commun´ement utilis´es actuellement. En outre, si l’accroissement de la quantit´e de donn´ees exp´erimentales permet un affinement de la discr´etisation de l’espace conformationnel (par exemple en r´eduisant la largeur des intervalles de distance dans le cas d’un potentiel de distance entre r´esidus), le b´en´efice d’un tel affinement est assez restreint au-del`a d’une certaine limite.
Au cours de ces derni`eres ann´ees, quelques potentiels plus complexes ont ´et´e mis au point dans le but d’exploiter de mani`ere plus efficace les quantit´es importantes de donn´ees structurales. Parmi ceux-ci, relevons l’existence de potentiels de contact ou de distance qui d´ependent de l’accessibilit´e au solvant des r´esidus concern´es [4, 5], des conformations de leurs chaˆınes principales [6], ou encore de l’orientation relative de leurs chaˆınes lat´erales [7–11]. Dans un autre registre, des potentiels locaux exprimant les propensions des divers acides amin´es `a ˆetre associ´es `a certaines conformations, et qui prennent en compte simultan´ement les conformations de deux ou trois r´esidus voisins, voire plus, ont ´egalement ´et´e d´ecrits [4,12,13]. De telles approches permettent notamment de prendre en compte certains couplages et de r´eduire ainsi l’impact de l’interd´ependance
94
des diff´erentes interactions et/ou de se d´ebarrasser, en partie, du probl`eme de l’influence de certaines caract´eristiques des prot´eines de la base de donn´ees. Par exemple, si l’on d´erive un potentiel de distance s´epar´ement pour les paires de r´esidus appartenant `a des h´elices α et pour celles comprises dans des feuillets β, les ´energies effectives calcul´ees seront vraisemblablement diff´erentes ´etant donn´e que le potentiel tient compte d’un environnement prot´eique moyen qui est diff´erent dans les deux cas [3,14–16]. Par contre, l’´energie effective calcul´ee `a l’aide d’un potentiel de distance ordinaire correspondra en quelque sorte `a la moyenne de ces ´energies effectives sp´ecifiques aux diff´erents types d’´el´ements de structure secondaire, et sera donc d´ependante de la composition de la base de donn´ees en prot´eines de classe α, β ou α/β.
Une difficult´e fr´equemment rencontr´ee, au cours des ´etudes de ce type d´ecrites dans la litt´erature, est li´ee au fait que le nombre de structures prot´eiques r´esolues apparaˆıt rapidement insuffisant lorsque l’on veut accroˆıtre la complexit´e d’un potentiel. On se retrouve en effet devant un choix d´elicat : l’usage d’un potentiel plus complexe est pr´ef´erable lorsque les valeurs associ´ees aux descripteurs de s´equence et de structure sont fr´equemment observ´ees (par exemple une paire Ala-Ala associ´ee `a des conformations de type h´elice α) tandis que l’usage d’un potentiel basique est n´ecessaire dans le cas contraire (par exemple une paire Trp-Trp associ´ee `a des conformations plus rares caract´eristiques de certains tournants). Nous verrons en Section 4.5 que la r´eaction face `a ce dilemne consiste le plus souvent en une r´eduction drastique de la r´esolution de la description de l’espace conformationnel, en se limitant par exemple `a trois conformations possibles par r´esidu, `a deux domaines d’accessibilit´e au solvant, ou en d´erivant des potentiels de contact plutˆot que des potentiels de distance.
Nous pr´esentons ici une proc´edure g´en´erale de d´erivation de termes de couplage qui permet d’´eviter ce probl`eme, et de construire des fonctions ´energ´etiques bas´ees simultan´ement sur plusieurs descripteurs de s´equence et de structure, sans pour autant alt´erer l’efficacit´e des contributions plus basiques lorsque les valeurs prises par ces descripteurs sont peu fr´equemment observ´ees dans la base de donn´ees [17].
4.1.1 Notre approche
Nous nous attacherons `a l’´etude de deux types de potentiels : les potentiels locaux et les potentiels de distance. Nous entendons ici par (( potentiel local )) un potentiel qui d´ecrit les interactions entre r´esidus qui sont proches le long de la s´equence. En particulier, nous nous focaliserons sur les corr´elations qui existent entre trois descripteurs diff´erents, associ´es `a chaque r´esidu : la nature de ce r´esidu, le domaine d’angles de torsion d´ecrivant la conformation de sa chaˆıne principale, et son accessibilit´e au solvant (voir Annexe A).
Les potentiels de distance sont li´es aux fr´equences avec lesquelles certaines paires de
r´esidus sont s´epar´ees par une distance spatiale donn´ee. Nous tenterons de mettre au
point des potentiels qui d´ecrivent la mani`ere dont l’accessibilit´e au solvant des r´esidus
concern´es, ainsi que les conformations de leurs chaˆınes principales, peuvent affecter ces
fr´equences. Notons que les potentiels de distance incluent ´egalement une composante
locale, si l’on consid`ere les distances spatiales s´eparant des paires de r´esidus proches l’un
de l’autre dans la s´equence. Apr`es une ´evaluation ind´ependante des potentiels locaux
et des potentiels de distance, nous verrons dans quelle mesure leur utilisation combin´ee
peut ˆetre avantageuse d’un point de vue pr´edictif.
Les diff´erents potentiels et termes de couplages pr´esent´es dans ce chapitre sont d´eriv´es de la base de donn´ees de structures prot´eiques DB
1403(voir Annexe B). L’´etat de r´ef´erence sur lequel nous nous basons est celui d´ecrit par l’´equation 2.29 ; il correspond `a un ´etat dans lequel la probabilit´e d’observer un ´el´ement de structure donn´e est ind´ependante de la s´equence. Le potentiel de force moyenne ∆W (c, s) d´ecrivant la corr´elation entre un petit ´el´ement de s´equence s et un petit ´el´ement de structure c peut s’´ecrire de la mani`ere suivante (Equations 2.20, 2.28 et 2.29) :
∆W (c, s) = − kT ln P (c, s)
P (c)P (s) ' − kT ln F (c, s)
F (c)F (s) = − kT ln n
obs(c, s)
n
att(c, s) , (4.1) o` u P (c) et P (s) sont les probabilit´es d’observation de c et de s, respectivement, et P (c, s) est la probabilit´e d’observation conjointe de c et s. Ces probabilit´es sont estim´ees
`a l’aide des fr´equences relatives d’observation au sein de la base de donn´ees de structures prot´eiques : F (c), F (s) et F (c, s). Il sera cependant n´ecessaire de g´en´eraliser cet ´etat de r´ef´erence afin, notamment, de pouvoir prendre en compte simultan´ement plusieurs descripteurs conformationnels.
4.1.2 M´ ethode d’´ evaluation des performances
Ensembles de leurres
La structure native d’une prot´eine correspond g´en´eralement `a la conformation de plus basse ´energie accessible `a la s´equence de cette prot´eine. Cette observation semble souffrir quelques exceptions (voir Section 1.3), mais elle n’a pas pour autant ´et´e d´elaiss´ee, et elle sert toujours de postulat `a la grande majorit´e des m´ethodes de pr´edictions structurales concernant les prot´eines. Si l’on dispose de la structure native d’une prot´eine, et si l’on admet que cette structure est effectivement celle de plus basse ´energie, on peut mettre en place une proc´edure permettant d’´evaluer les performances de fonctions ´energ´etiques.
Il suffit en effet de v´erifier que les fonctions ´energ´etiques en question attribuent `a la structure native d’une prot´eine une ´energie plus basse que celles attribu´ees `a un ensemble de structures alternatives.
Une autre possibilit´e, qui pr´esente certains avantages dont nous avons discut´e dans le chapitre pr´ec´edent, est de comparer l’´energie d’une prot´eine avec celles de leurres dont la structure est identique mais dont la s´equence a ´et´e modifi´ee. Il est alors n´ecessaire de se reposer sur l’hypoth`ese selon laquelle la s´equence sauvage de la prot´eine, associ´ee `a sa structure native, correspond `a une ´energie plus basse que celles des s´equences alternatives, ce qui est nettement plus d´elicat que dans le cas de modifications structurales. Les s´equences sauvages des prot´eines sont toutefois relativement bien optimis´ees vis-`a-vis de la stabilit´e de leurs structures natives, mˆeme si ce n’est vraisemblablement pas le seul crit`ere ayant jou´e un rˆole au cours de l’´evolution. Il est donc fort peu probable qu’une s´equence modifi´ee al´eatoirement procure une meilleure stabilit´e que la s´equence sauvage, pour peu qu’elle soit suffisamment diff´erente de celle-ci.
Afin d’´evaluer les performances des fonctions ´energ´etiques d´evelopp´ees dans ce
chapitre, nous avons suivi ces deux approches en parall`ele. Nous nous sommes en effet
bas´es sur deux groupes de 25 prot´eines auxquelles sont associ´ees des leurres obtenus
par modifications structurales, ainsi que sur un groupe de 50 prot´eines auxquelles sont
associ´ees des leurres obtenus par modifications de leurs s´equences. Ces groupes sont d´etaill´es ci-dessous.
1. D
str1: Ce groupe est compos´e de 25 prot´eines, chacune ´etant accompagn´ee d’un ensemble de leurres obtenus par modifications structurales. Ce groupe a ´et´e construit pr´ec´edemment `a partir d’ensembles de leurres mis au point par diff´erents groupes de chercheurs, et utilis´e afin de comparer les performances de six types de potentiels statistiques [18]. D
str1inclut les prot´eines suivantes (d´esign´ees ici par leur code PDB, et le cas ´ech´eant par le nom de la chaˆıne) :
(a) 1ctf, 1r69, 1sn3, 2cro, 4pti et 4rxn, chacune accompagn´ee d’environ 650 structures alternatives du groupe 4state reduced [19]. Ces structures ont ´et´e obtenues par une ´enum´eration exhaustive des conformations de dix r´esidus choisis al´eatoirement parmi les tournants de la prot´eine, sur la base de quatre conformations possibles par r´esidu. Les structures de plus basses ´energies (selon diff´erentes fonctions ´energ´etiques) et celles qui sont les plus proches de la structure native ont ´et´e retenues.
(b) 1fc2-C, 1hdd-C et 2cro, chacune accompagn´ee de 500 structures alternatives du groupe Fisa [20]. Ces structures ont ´et´e obtenues `a l’aide de la m´ethode de pr´ediction de structure Rosetta [5,20], qui suit une proc´edure de recuit simul´e visant `a combiner des fragments de prot´eines pour lesquels des conformations pr´ef´er´ees ont ´et´e pr´edites.
(c) 1bg8-A, 1bl0 et 1jwe, chacune accompagn´ee d’environ 1000 structures alter- natives du groupe Fisa casp3 [20]. Ces structures ont ´et´e obtenues suivant la mˆeme m´ethode que dans le groupe Fisa.
(d) 1ctf, 1dkt-A, 1fca, 1nlk, 1pgb et 1trl-A, chacune accompagn´ee de 2000 structures alternatives du groupe lattice ssfit [21]. Ces structures ont ´et´e obtenues suite `a une ´enum´eration exhaustive des conformations sur un r´eseau t´etrah´edrique. Les structures de plus basses ´energies (selon diff´erentes fonctions ´energ´etiques) ont ´et´e retenues.
(e) 1ctf, 1dtk, 1fc2-C, 1igd, 1shf-A, 2cro et 2ovo, chacune accompagn´ee d’environ 400 structures alternatives du groupe lmds [22]. Pour obtenir ces structures, 10.000 conformations ont ´et´e g´en´er´ees, pour chaque prot´eine, par modification al´eatoire des angles de torsion de la chaˆıne principale. Chacune de ces conformations a ensuite ´et´e modifi´ee de mani`ere `a minimiser son ´energie et
`a atteindre un minimum ´energ´etique local. Les conformations de plus basses
´energies ont ´et´e retenues.
2. D
str2: Ce groupe est ´egalement compos´e de 25 prot´eines, chacune accompagn´ee d’un ensemble d’approximativement 2000 leurres obtenus par modifications structurales [8, 23]. La m´ethode utilis´ee est la mˆeme que dans les groupes Fisa et Fisa casp3, mais des simulations suppl´ementaires ont ´et´e r´ealis´ees de mani`ere `a produire des structures plus proches de la structure native. Les ensembles de leurres du groupe D
str2constituent donc des tests plus compliqu´es pour les fonctions ´energ´etiques.
D
str2inclut les prot´eines suivantes, d´esign´ees ici par leur code PDB (toutes sont
monom´eriques) : 1a32, 1ail, 1am3, 1cc5, 1cei, 1hyp, 1flb, 1mzm, 1r69, 1utg, 1ctf,
1dol, 1orc, 1pgx, 1ptq, 1tif, 1vcc, 2fxb, 5icb, 1bq9, 1csp, 1msi, 1tuc, 1vif et 5pti.
3. D
seq: Ce groupe est compos´e de 50 prot´eines, chacune accompagn´ee d’un ensemble de 1000 leurres obtenus par modifications de la s´equence. Chaque leurre est cr´e´e en modifiant al´eatoirement les positions des acides amin´es le long de la s´equence.
La composition globale en acides amin´es est donc conserv´ee. Afin que le test ne soit pas trop ais´e, une fraction de la s´equence est cependant maintenue fixe. Cette fraction est d´efinie al´eatoirement pour chaque leurre et correspond, au maximum, `a 75% du nombre total de r´esidus de la prot´eine. D
seqinclut les prot´eines suivantes, d´esign´ees ici par leur code PDB (toutes sont monom´eriques) : 1ptq, 1d0d, 2igd, 1g2b, 1orc, 1hz6, 1i27, 1hoe, 1luz, 1ugi, 1aba, 1cy5, 1lpl, 1mk0, 1h7m, 1bm8, 1l8r, 1lyq, 1o13, 1gmx, 1cew, 1hxi, 1nyc, 1by2, 1lsl, 1o7i, 1gnu, 1fc3, 1mai, 1dzo, 1lwb, 1huf, 1nwz, 3nul, 1cuo, 1jf8, 1p0z, 1mdc, 1vsr, 1gmi, 1eca, 1j9b, 1kmt, 1mzg, 1oz9, 1h6h, 1l2h, 1srv, 2hbg et 1amx.
Notons que, lors de l’´evaluation de l’´energie de chacune de ces prot´eines et de celles des leurres correspondants, la prot´eine en question et toutes celles qui partagent avec elle une identit´e de s´equence sup´erieure `a 20 % sont exclues de la base de donn´ees utilis´ee pour d´eriver les potentiels. Ceci est n´ecessaire afin d’´eviter un biais des potentiels envers les structures natives (ou les s´equences sauvages) des prot´eines utilis´ees en tant que tests, et de garantir une certaine g´en´eralit´e aux r´esultats obtenus. Les identit´es de s´equence ont ´et´e calcul´ees `a l’aide du programme BLAST [24,25], disponible `a l’adresse : http://www.ncbi.nlm.nih.gov/blast.
Mesures
Nous avons utilis´e plusieurs m´ethodes afin de mesurer les performances des diff´erents potentiels, c’est-`a-dire leur capacit´e `a distinguer les associations correctes (s´equence sauvage - structure native) parmi les ensembles de leurres. Ces mesures, qui sont appliqu´ees `a chacun des trois groupes de leurres d´efinis ci-dessus, sont les suivantes :
1. S
1: La mesure S
1consiste `a calculer le pourcentage de prot´eines (dans chaque groupe) pour lesquelles l’´energie calcul´ee pour l’association correcte s´equence- structure est inf´erieure `a celles calcul´ees pour tous les leurres correspondants. Ce taux de succ`es est certainement la mesure plus simple, mais n’est pas pour autant sans int´erˆet.
2. < Z > : Le Z-score est l’une des mesures les plus fr´equemment utilis´ees pour ce type de tests. Il est d´efini de la mani`ere suivante :
Z = (E
m− µ
r)/σ
r, (4.2)
o` u E
mest l’´energie calcul´ee pour l’association correcte s´equence-structure, tandis que µ
ret σ
rsont respectivement la moyenne et l’´ecart-type de la distribution des
´energies calcul´ees pour les leurres. Un Z-score n´egatif, de grande valeur absolue,
indique que la fonction ´energ´etique permet de distinguer efficacement l’association
correcte s´equence-structure parmi les diff´erents leurres. Nous comparerons ici les
diff´erents potentiels `a l’aide du Z-score moyen < Z >, qui correspond `a la moyenne
des valeurs de Z calcul´ees pour les diff´erentes prot´eines incluses dans chacun des
trois groupes.
3. S
−1: Ce deuxi`eme taux de succ`es correspond au pourcentage de prot´eines pour lesquelles un Z-score inf´erieur `a − 1 est calcul´e, c’est-`a-dire pour lesquelles l’´energie calcul´ee pour l’association correcte s´equence-structure est nettement inf´erieure `a la moyenne, sans n´ecessairement ˆetre la plus basse [8,26]. Par rapport `a S
1, la mesure S
−1se r´ev`ele fort utile lorsque le test est compliqu´e, par exemple si les leurres ont des structures (des s´equences) tr`es similaires `a la structure native (`a la s´equence sauvage).
4. < Z
x> : Cette mesure permet d’´evaluer la capacit´e des potentiels `a s´electionner parmi un ensemble de leurres ceux qui sont les plus proches de l’association correcte s´equence-structure. Le Z-score non-natif Z
xest donn´e par :
Z
x= (µ
n− µ
r)/σ
r, (4.3)
o` u µ
nest l’´energie moyenne calcul´ee pour un sous-groupe incluant 5% des leurres [8,26]. Dans le cas de leurres bas´es sur une modification structurale, ce sous-groupe comprend les structures alternatives qui sont les plus similaires `a la structure native.
Cette similarit´e est mesur´ee `a l’aide du r.m.s.d, qui est la distance quadratique moyenne minimale entre les atomes C
αdes deux structures superpos´ees. Dans le cas de leurres bas´es sur une modification de la s´equence, le sous-groupe est constitu´e des leurres qui pr´esentent la plus grande identit´e de s´equence avec la prot´eine sauvage. Comme pour le Z-score, µ
ret σ
rsont respectivement la moyenne et l’´ecart-type de la distribution des ´energies calcul´ees pour l’ensemble des leurres.
Nous calculons ici le Z-score non-natif moyen < Z
x>, c’est-`a-dire la moyenne de Z
xsur les diff´erentes prot´eines de chacun des trois groupes.
5. S
−1x: Cette mesure est l’´equivalent du taux de succ`es S
−1, lorsque l’on consid`ere Z
xau lieu de Z . Elle correspond au pourcentage de prot´eines pour lesquelles un Z-score non-natif inf´erieur `a − 1 est calcul´e, c’est-`a-dire pour lesquelles les leurres les plus proches de l’association correcte s´equence-structure ont, en moyenne, une
´energie nettement inf´erieure `a la moyenne sur l’ensemble des leurres [8, 26].
L’int´erˆet d’utiliser simultan´ement plusieurs mesures diff´erentes r´eside dans le fait qu’aucune d’entre elles n’est parfaite. Ainsi, le taux de succ`es S
1souffre d’ˆetre bas´e sur une observation binaire : la prot´eine consid´er´ee est, ou non, associ´ee `a une ´energie plus basse que celles de tous les leurres. Si ce n’est pas le cas, que la prot´eine soit class´ee en deuxi`eme ou en derni`ere position n’a aucun impact sur S
1. De plus, cette mesure d´epend directement du nombre de leurres associ´es `a chaque prot´eine : plus celui- ci est grand, plus la probabilit´e d’avoir un taux de succ`es important sera faible, quelle que soit de la fonction ´energ´etique utilis´ee. Au contraire, le Z-score donne l’´energie de l’association s´equence-structure correcte, normalis´ee par rapport `a la moyenne et l’´ecart- type de la distribution des ´energies des leurres. Il n’a donc pas le caract`ere binaire de S
1et en principe ne d´epend pas du nombre de leurres. N´eanmoins, une des limitations de cette mesure est que plus les leurres sont proches les uns des autres d’un point de vue ´energ´etique, plus le Z-score sera ´elev´e, en valeur absolue. En d’autres termes, cette mesure sera d´efavorable aux fonctions ´energ´etiques qui attribuent des ´energies proches de l’´energie minimale `a certains leurres, et des ´energies beaucoup plus hautes `a d’autres.
De telles fonctions ´energ´etiques ne sont cependant pas pour autant inappropri´ees. Les
caract´eristiques de S
−1sont interm´ediaires `a celles de S
1et de < Z >.
Par ailleurs, notons que les mesures S
1, < Z > et S
−1peuvent ˆetre influenc´ees par la pr´esence ´eventuelle de certaines caract´eristiques communes aux leurres, li´ees par exemple `a la proc´edure suivie pour les g´en´erer. Si de telles caract´eristiques existent, les fonctions ´energ´etiques qui leur sont d´efavorables apparaˆıtront performantes, quelle que soit la pr´ecision avec laquelle elles permettent d’´evaluer les diff´erentes interactions. Les mesures < Z
x> et S
−1xsont moins concern´ees par ce probl`eme ´etant donn´e qu’elles ne tiennent pas compte de l’´energie de la structure native (ou de la s´equence sauvage). Elles sont cependant d´ependantes de l’hypoth`ese selon laquelle les leurres les plus similaires
`a l’association correcte s´equence-structure doivent ˆetre associ´es aux ´energies les plus basses. La validit´e de cette hypoth`ese n’est pas ´evidente, et elle peut d´ependre fortement de la mani`ere dont la similarit´e est ´evalu´ee, notamment dans le cas des leurres obtenus par modifications structurales.
En conclusion, il est difficle d’´evaluer la signification statistique de diff´erences observ´ees entre les performances de deux potentiels dans une application donn´ee. En outre, il est parfaitement envisageable que l’un de ces potentiels apparaisse (et soit r´eellement) plus performant que l’autre selon certaines mesures, et moins selon d’autres.
Nous disposons ici de 15 mesures diff´erentes des performances des potentiels (cinq
mesures appliqu´ees `a trois groupes de leurres), ce qui nous permettra, lorsque la plupart
de ces mesures concordent, de constater avec une certaine confiance l’am´elioration ou la
d´et´erioration du pouvoir pr´edictif.
4.2 Potentiels locaux
4.2.1 Potentiels locaux bas´ es sur les domaines de torsion
Sur la base de l’´equation 4.1, il est possible de mettre au point un potentiel basique
∆W
tsd´ecrivant les propensions des diff´erents types d’acides amin´es `a ˆetre associ´es `a certains domaines d’angles de torsion de la chaˆıne principale :
∆W
ts(t
i, s
j) = − kT ln P (t
i, s
j)
P (t
i)P (s
j) ' − kT ln F (t
i, s
j)
F (t
i)F (s
j) , (4.4) o` u l’´el´ement de structure t
id´ecrit le domaine d’angles de torsion de la chaˆıne principale du r´esidu en position i dans la s´equence et l’´el´ement de s´equence s
jest la nature de l’acide amin´e en position j. Nous consid´erons ici sept domaines d’angles de torsion, qui sont d´efinis en Annexe A. Si i = j, le potentiel refl`ete la corr´elation existant entre la nature d’un r´esidu et les conformations qu’il peut adopter. Dans le cas contraire, le potentiel permet de prendre en compte l’influence de la nature d’un r´esidu sur les conformations adopt´ees par les r´esidus voisins. Notons que l’on suppose que l’´energie ne d´epend que des positions relatives des deux r´esidus le long de la s´equence, c’est-`a-dire de i − j, et non des valeurs pr´ecises de i et de j. Selon ce potentiel, l’´energie libre d’une prot´eine de N r´esidus, de s´equence S = (s
1, . . . , s
N) dans une conformation C = (t
1, . . . , t
N) vaut :
∆W
ts(C, S) ' − kT X
i,j
ln F (t
i, s
j)
F (t
i)F (s
j) , (4.5)
o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F
loc, et F
locest un param`etre ajustable correspondant `a la taille de la fenˆetre dans laquelle on souhaite prendre en compte la corr´elation entre t
iet s
j. Plusieurs potentiels de ce type ont ´et´e d´ecrits dans la litt´erature [4, 12, 13, 27–29].
N´eanmoins, comme nous l’avons mentionn´e pr´ec´edemment (Section 2.2.3), le fait de sommer les contributions relatives aux diff´erents couples (t
i,s
j) est une approxi- mation consid´erable, ´etant donn´e que ces contributions ne sont pas n´ecessairement ind´ependantes. Par exemple, si s
kest un acide amin´e fr´equemment localis´e `a la fin d’une h´elice α, et que les r´esidus pr´ec´edant la position k adoptent une conformation h´elicoidale, les r´esidus en positions k + 1, k + 2, . . . choisiront probablement leurs conformations de mani`ere `a former un tournant. La probabilit´e d’observer un tel tournant risque cependant d’ˆetre plus faible si le r´esidu en position k n’est pas pr´ec´ed´e d’une h´elice α. Afin de r´esoudre ce probl`eme, il est tentant de consid´erer un petit ´el´ement de structure d´efini par une paire de domaines d’angles de torsion de la chaˆıne principale (t
i,t
j), afin de traduire en ´energie libre la corr´elation qui existe entre les conformations des r´esidus en positions i et j et la nature du r´esidu en position k (s
k). On obtient alors :
∆W
tts0(t
i, t
j, s
k) = − kT ln P (t
i, t
j, s
k)
P (t
i, t
j)P (s
k) . (4.6)
Ce potentiel ne peut cependant ˆetre somm´e directement sur l’ensemble des triplets de
positions i, j et k. En effet la contribution relative `a un triplet (t
i,t
j,s
k) inclut les
contributions de couples (t
i,s
k) et (t
j,s
k) et n’est donc pas ind´ependante de celle relative
au triplet (t
i,t
l,s
k), par exemple. L’´equation 4.6 peut d’ailleurs ˆetre r´e´ecrite de la mani`ere suivante :
∆W
tts0(t
i, t
j, s
k) = − kT ln
· P (t
i, s
k) P (t
i)P (s
k)
P (t
j, s
k) P (t
j)P (s
k)
P (t
i, t
j, s
k)P (t
i)P (t
j)P (s
k) P (t
i, t
j)P (t
i, s
k)P (t
j, s
k)
¸
, (4.7) c’est-`a-dire
∆W
tts0(t
i, t
j, s
k) = ∆W
ts(t
i, s
k) + ∆W
ts(t
j, s
k) + ∆W
tts(t
i, t
j, s
k) avec ∆W
tts(t
i, t
j, s
k) = − kT ln P (t
i, t
j, s
k)P (t
i)P (t
j)P (s
k)
P (t
i, t
j)P (t
i, s
k)P (t
j, s
k) , (4.8) Notons que, comme pr´ec´edemment, les probabilit´es d’observation des divers ´el´ements de s´equence et de structure, conjointement ou ind´ependamment, sont estim´ees `a l’aide des fr´equences relatives d’observation dans la base de donn´ees. ∆W
ttsest un terme de couplage qui est, par d´efinion, sommable au potentiel ∆W
ts. Il permet de prendre en compte le fait que le lien entre la pr´esence d’un acide amin´e de type s
ken position k et la conformation t
iadopt´ee par le r´esidu en position i n’est pas ind´ependant du lien entre s
ket t
j. L’´energie libre d’une prot´eine dans une conformation donn´ee peut alors ˆetre estim´ee de mani`ere plus pr´ecise qu’avec l’´equation 4.5 :
∆W (C, S) ' X
i,j
∆W
ts(t
i, s
j) + X
i,j,k
∆W
tts(t
i, t
j, s
k) , (4.9) o` u, dans le premier terme du membre de droite, la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F
loc. Dans le deuxi`eme terme du membre de droite, la somme est r´ealis´ee sur tous les triplets de positions i, j et k qui satisfont les conditions suivantes : | i − j | ≤ F
loc, | i − k | ≤ F
loc, | j − k | ≤ F
loc, et i < j. Si ce deuxi`eme terme est parfois n´egligeable vis-`a-vis du premier, cette constatation est loin d’ˆetre vraie de mani`ere g´en´erale. Ainsi, comme l’illustrent les deux exemples de la Figure 4.1, les valeurs de ∆W
ttspeuvent dans certains cas ˆetre telles que ∆W
tts0(t
i, t
j, s
k) soit de signe oppos´e `a ∆W
ts(t
i, s
k) + ∆W
ts(t
j, s
k).
De mani`ere similaire, nous pouvons d´efinir un terme de couplage ∆W
tss(t
i, s
j, s
k) afin de prendre en compte l’interd´ependance ´eventuelle de ∆W
ts(t
i, s
j) et ∆W
ts(t
i, s
k). En partant de l’´equation 4.1, et en choisissant comme ´el´ement de structure la conformation t
idu r´esidu en position i, et comme ´el´ement de s´equence la nature des acides amin´es en positions j et k (s
j, s
k), nous obtenons :
∆W
tss0(t
i, s
j, s
k) = − kT ln P (t
i, s
j, s
k) P (t
i)P (s
j, s
k)
= ∆W
ts(t
i, s
j) + ∆W
ts(t
i, s
j) + ∆W
tss(t
i, s
j, s
k) avec ∆W
tss(t
i, s
j, s
k) = − kT ln P (t
i, s
j, s
k)P (t
i)P (s
j)P (s
k)
P (t
i, s
j)P (t
i, s
k)P (s
j, s
k) . (4.10)
L’´equation 4.9 devient alors :
Figure 4.1 – Exemples de l’importance du terme de couplage ∆W
tts.
Deux cas de figure sont expos´es, et les valeurs prises par les potentiels ∆Wts, ∆Wtts, et ∆Wtts0 , sont donn´ees pour chacun. La conformation de chaque r´esidu est d´efinie par le domaine dans lequel se trouvent les angles de torsion de sa chaˆıne principale (voir Annexe A). Les symboles((X))indiquent que la nature (ou la conformation) du r´esidu en question n’est pas d´efinie.∆W (C, S) ' X
i,j
∆W
ts(t
i, s
j) + X
i,j,k
∆W
tts(t
i, t
j, s
k) + X
i,j,k
∆W
tss(t
i, s
j, s
k) , (4.11) o` u les deux premiers termes du membre de droite sont identiques `a ceux de l’´equation 4.9. Dans le troisi`eme, la somme est r´ealis´ee sur tous les triplets de positions i, j et k qui satisfont les conditions suivantes : | i − j | ≤ F
loc, | i − k | ≤ F
loc, | j − k | ≤ F
loc, et j < k.
Dans le mˆeme ordre d’id´ees, nous avons ´egalement d´efini les termes d’ordre sup´erieur suivants :
∆W
ttts(t
i, t
j, t
k, s
l) = (4.12)
− kT ln
· P (t
i, t
j, t
k, s
l)P (t
i, t
j)P (t
i, t
k)P (t
j, t
k)P (t
i, s
l)P (t
j, s
l)P (t
k, s
l) P (t
i)P (t
j)P (t
k)P (s
l)P (t
i, t
j, t
k)P (t
i, t
j, s
l)P (t
i, t
k, s
l)P (t
j, t
k, s
l)
¸ ,
∆W
ttss(t
i, t
j, s
k, s
l) = (4.13)
− kT ln
· P (t
i, t
j, s
k, s
l)P (t
i, t
j)P (t
i, s
k)P (t
i, s
l)P (t
j, s
k)P (t
j, s
l)P (s
k, s
l) P (t
i)P (t
j)P (s
k)P (s
l)P (t
i, t
j, s
k)P (t
i, t
j, s
l)P (t
i, s
k, s
l)P (t
j, s
k, s
l)
¸ ,
∆W
tsss(t
i, s
j, s
k, s
l) = (4.14)
− kT ln
· P (t
i, s
j, s
k, s
l)P (t
i, s
j)P (t
i, s
k)P (t
i, s
l)P (s
j, s
k)P (s
j, s
l)P (s
k, s
l) P (t
i)P (s
j)P (s
k)P (s
l)P (t
i, s
j, s
k)P (t
i, s
j, s
l)P (t
i, s
k, s
l)P (s
j, s
k, s
l)
¸ . Il est ´evident que des fonctions ´energ´etiques telles que ∆W
ttts, ∆W
ttssou ∆W
tssssont susceptibles d’ˆetre fortement affect´ees par la taille de la base de donn´ees de
structures prot´eiques. En effet, ces potentiels sont d´eriv´es des fr´equences d’observations
conjointes de 4 descripteurs de s´equence et de structure diff´erents. Le nombre de
combinaisons possibles des valeurs prises par ces decripteurs ´etant important, le nombre d’observations de chaque combinaison est forc´ement tr`es restreint en moyenne, mˆeme si la base de donn´ees comprend un grand nombre de prot´eines. N´eanmoins, pour diverses combinaisons fr´equentes d’acides amin´es et de domaines d’angles de torsion, le nombre d’observations est suffisant et il est possible d’obtenir des termes de couplages pr´esentant un certain int´erˆet pratique. Pour les autres, l’utilisation de ces termes est naturellement plus d´elicate, et risque de nuire aux performances g´en´erales. Afin d’´eviter l’introduction de bruit dans les potentiels par la prise en compte de fr´equences d’observation peu significatives, nous utilisons, pour chacun des potentiels d´efinis ci-dessus, la correction d´ecrite en Section 2.2.3 (Equation 2.36). Cette correction permet de faire tendre la fonction ∆W (c, s) vers z´ero lorsque n
att(c, s) et n
obs(c, s) sont petits par rapport `a un param`etre ajustable σ, et vers sa forme non-corrig´ee (d´efinie ici par l’´equation 4.4, 4.8, 4.10, 4.12, 4.13 ou 4.14) lorsque n
att(c, s) et n
obs(c, s) sont grands par rapport `a σ.
Remarquons que l’application de cette correction individuellement `a chaque terme de potentiel implique notamment que certaines ´egalit´es ´enonc´ees pr´ec´edemment ne sont pas valables en pratique. A titre d’exemple, ∆W
tts0(t
i, t
j, s
k), tel que d´efini par l’´equation 4.6, n’est ´egal `a ∆W
ts(t
i, s
k) + ∆W
ts(t
j, s
k) + ∆W
tts(t
i, t
j, s
k) que lorsque le nombre d’observations de (t
i, t
j, s
k) est suffisamment grand.
Evaluation des performances
Les performances des potentiels pr´esent´es ci-dessus ont ´et´e ´evalu´ees selon la m´ethode d´ecrite en Section 4.1.2. Les r´esultats sont donn´es en Table 4.1.
La premi`ere partie de cette table permet de comparer le pouvoir pr´edictif des diff´erentes fonctions ´energ´etiques consid´er´ees individuellement. On observe tout d’abord, sans r´eelle surprise, que le potentiel ∆W
tsest nettement sup´erieur aux divers termes de couplage lorsqu’il s’agit d’isoler une association correcte s´equence-structure parmi un ensemble de leurres. Les performances individuelles de ∆W
ttset ∆W
tsssont n´eanmoins fort honorables. Dans le groupe de leurres D
str1par exemple, ces fonctions permettent d’atteindre des valeurs de < Z > inf´erieures `a − 1, et mˆeme `a classer quelques prot´eines du groupe en premi`ere position (S
1> 0). Le terme ∆W
tttsfait ´egalement preuve d’un certain pouvoir discriminatoire individuel, mˆeme s’il est plutˆot limit´e.
Les termes de couplages n’ont toutefois pas ´et´e mis au point dans le but d’ˆetre utilis´es
individuellement, mais afin de corriger les erreurs r´esultant de la non-ind´ependance des
contributions des couples (t
i, s
j) dans le potentiel ∆W
ts. L’am´elioration des performances
du potentiel ∆W
ts, lorsqu’il est accompagn´e des termes de couplage ∆W
ttset ∆W
tss, est
assez impressionnante (Table 4.1). Dans les trois groupes de leurres D
str1, D
str2et D
seq,
les valeurs calcul´ees pour le Z-score moyen < Z > passent en effet de -2.69 `a -3.29, de
-1.45 `a -1.69, et de -2.21 `a -2.39, respectivement. Le pourcentage de structures natives
(ou de s´equences sauvages) pour lesquelles l’´energie calcul´ee est inf´erieure `a celles de tous
les leurres correspondants (S
1) augmente ´egalement significativement dans chacun des
trois groupes, en particulier dans D
seq, o` u S
1passe de 22 `a 44%. D’ailleurs, le pouvoir
discriminatoire du potentiel ∆W
tsavec les termes de couplage ∆W
ttset ∆W
tssapparaˆıt
meilleur, ou au pire ´equivalent `a celui du potentiel ∆W
tsseul, quels que soient le groupe
de leurres consid´er´e et la mesure utilis´ee, `a l’exception de S
−1xqui diminue l´eg`erement
dans le cas de D
seq.
Potentiel D1str Dstr2 Dseq
< Z > < Zx> < Z > < Zx> < Z > < Zx>
(S1/S−1) (S−1x ) (S1/S−1) (S−1x ) (S1/S−1) (S−1x )
ts -2.69 -0.34 -1.45 -0.27 -2.21 -1.54
(40/ 80) (4) (8 / 68) (0) (22/100) (100)
tts -1.04 -0.06 -0.48 -0.16 -0.44 -0.23
(8 / 48) (0) (0 / 36) (4) (0 / 22) (10)
tss -1.49 -0.04 -0.25 -0.17 -1.33 -0.63
(4 / 64) (0) (0 / 28) (0) (0 / 35) (14)
ttts -0.22 -0.11 -0.84 -0.14 -0.55 -0.39
(4 / 24) (0) (0 / 32) (0) (0 / 18) (10)
ttss 0.86 0.07 -0.37 -0.02 0.58 0.37
(0 / 8) (0) (0 / 36) (4) (0 / 2) (2)
tsss 0.31 -0.02 -0.22 -0.05 0.07 0.08
(0 / 20) (0) (0 / 16) (0) (0 / 10) (0)
ts+tts+tss -3.29 -0.34 -1.69 -0.38 -2.39 -1.59
(60/ 84) (8) (12/ 68) (8) (44/100) (96)
ts+tts+tss -3.36 -0.37 -1.84 -0.41 -2.42 -1.62
+ttts (56/ 88) (8) (20/ 72) (8) (46/100) (96)
ts+tts+tss -2.94 -0.33 -1.92 -0.40 -2.29 -1.52
+ttts+ttss+tsss (56/ 84) (4) (20/ 76) (8) (22/100) (96)
Table 4.1 – Pouvoir pr´edictif des potentiels locaux bas´es sur les domaines de torsion.
Le pouvoir pr´edictif des potentiels est estim´e sur la base des trois groupes de leurres et des diff´erentes mesures pr´esent´es en Section 4.1.2. La premi`ere colonne d´esigne le potentiel utilis´e :tset (ts+tts+tss) indiquent par exemple que les ´energies des diverses associations s´equence-structure sont ´evalu´ees `a l’aide des ´equations 4.5 et 4.11, respectivement. Les valeurs des param`etresFloc et σ sont fix´ees `a 2 et 20, respectivement. Nous discuterons l’influence de ces param`etres en Section 4.2.5. Les taux de succ`esS1, S−1 etS−1x sont donn´es en pourcents.
Par ailleurs, selon la plupart des mesures que nous avons effectu´ees, l’addition du terme d’ordre sup´erieur ∆W
tttsprocure ´egalement une certaine am´elioration des performances (Table 4.1). Ce n’est cependant pas le cas de ∆W
ttsset de ∆W
tsss: l’incorporation de ces termes dans la fonction ´energ´etique induit une diminution sensible du pouvoir pr´edictif dans les groupes D
str1et D
seq. Il est vraisemblable que ceci r´esulte, du moins en partie, de la taille de la base de donn´ees qui est encore trop r´eduite pour pouvoir en extraire des valeurs statistiques repr´esentatives concernant simultan´ement quatre descripteurs de s´equence et/ou de structure. En effet, le nombre moyen d’observations de chaque combinaison (t
i, t
j, s
k, s
l) et (t
i, s
j, s
k, s
l) vaut approximativement 6 et 16, respectivement, dans la base de donn´ees DB
1403. Notons que le terme ∆W
tttsest moins affect´e par ce probl`eme, ´etant donn´e que le nombre de domaines d’angles de torsion t possibles est de sept, ce qui est nettement inf´erieur au nombre d’acides amin´es s.
En cons´equence, le nombre moyen d’observations des combinaisons (t
i, t
j, t
k, s
l) est plus important : il vaut approximativement 45.
Ces r´esultats mettent ´egalement en ´evidence certaines diff´erences entre les trois
groupes de leurres. Nous avons mentionn´e pr´ec´edemment le fait que les ensembles de
leurres du groupe D
2strcontiennent des structures alternatives plus proches des structures
natives que les ensembles de leurres du groupe D
str1. En cons´equence, il est plus difficile
pour les potentiels d’isoler les structures natives parmi les leurres du groupe D
str2, ce qui
se refl`ete au niveau des mesures < Z >, S
1et S
−1. Par contre, du point de vue des mesures < Z
x> et S
−1x, les r´esultats sont essentiellement ´equivalents dans les groupes D
str1et D
str2. Ceci s’explique par le fait que le groupe D
2strcontient des leurres plus similaires aux structures natives, et donc plus susceptibles de correspondre effectivement
`a des ´energies plus basses que la moyenne. Dans le groupe D
seq, les valeurs obtenues pour < Z > et S
1sont g´en´eralement interm´ediaires `a celles obtenues dans D
1stret D
2str, tandis que celles obtenues pour < Z
x> et S
−1xsont nettement meilleures. Il est en effet assez vraisemblable que les leurres qui pr´esentent la plus grande identit´e de s´equence avec la s´equence sauvage soient les plus proches de celle-ci au niveau ´energ´etique, et correspondent donc `a des ´energies plus basses que la moyenne. Au contraire, dans le cas de leurres obtenus par modifications structurales, la mesure de similarit´e entre les structures, qui est ici le r.m.s.d (voir les d´efinitions des mesures, Section 4.1.2), ne refl`ete pas n´ecessairement correctement l’importance des diff´erences structurales et de leurs impacts sur l’´energie. Certaines structures peuvent en effet avoir un r.m.s.d tr`es
´elev´e, par rapport `a la structure native, tout en gardant la plupart de leurs r´esidus dans leurs domaines d’angles de torsion natifs. D’autres mesures de similarit´e pourraient ˆetre envisag´ees, comme par exemple le pourcentage de r´esidus dont les angles de torsion de la chaˆıne principale sont dans le domaine natif.
Remarquons ´egalement que l’addition du terme ∆W
tttsapparaˆıt plus avantageuse dans le groupe D
str2que dans D
1strou D
seq. Par ailleurs, malgr´e la taille vraisemblablement trop r´eduite de la base de donn´ees, les termes ∆W
ttsset ∆W
tsssinduisent tout de mˆeme une l´eg`ere am´elioration des performances au sein de D
str2. Ces observations sugg`erent que l’inclusion de termes de couplages d’ordre ´elev´e, qui sont cens´es apporter de petites pr´ecisions `a la fonction ´energ´etique, n’est r´eellement avantageuse que si le test est suffisamment compliqu´e. Au contraire, lors de la comparaison de structures natives de prot´eines avec des leurres plus grossiers par exemple, les diff´erences entre les ´energies calcul´ees pour les diverses conformations r´esultent essentiellement de contributions plus basiques.
4.2.2 Potentiels locaux bas´ es sur l’accessibilit´ e au solvant
Un autre descripteur conformationnel important, et qui a fr´equemment servi de base `a la d´efinition de potentiels statistiques [4,5,29–33], est l’accessibilit´e au solvant des r´esidus (voir Annexe A). De mani`ere similaire avec ce que nous avons pr´esent´e pr´ec´edemment pour les potentiels bas´es sur les domaines d’angles de torsion de la chaˆıne principale, un potentiel basique ∆W
asd´ecrivant les propensions des diff´erents types d’acides amin´es `a avoir une certaine accessibilit´e au solvant est d´efini par :
∆W
as(a
i, s
j) = − kT ln P (a
i, s
j)
P (a
i)P (s
j) , (4.15)
o` u l’´el´ement de structure a
id´ecrit le domaine d’accessibilit´e au solvant du r´esidu en
position i dans la s´equence et l’´el´ement de s´equence s
jest la nature de l’acide amin´e en
position j. Nous consid´erons ici cinq domaines d’accessibilit´e au solvant A : A ≤ 5%,
5% < A ≤ 15%, 15% < A ≤ 30%, 30% < A ≤ 50% et 50% < A ≤ 100%. Selon ce
potentiel, l’´energie libre d’une prot´eine de N r´esidus, de s´equence S = (s
1, . . . , s
N) dans
une conformation C = (a
1, . . . , a
N) vaut :
∆W
as(C, S) = − kT X
i,j
ln P (a
i, s
j)
P (a
i)P (s
j) , (4.16) o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F
loc. Nous d´efinissons ´egalement les termes de couplage suivants :
∆W
aas(a
i, a
j, s
k) = − kT ln P (a
i, a
j, s
k)P (a
i)P (a
j)P (s
k)
P (a
i, a
j)P (a
i, s
k)P (a
j, s
k) , (4.17)
∆W
ass(a
i, s
j, s
k) = − kT ln P (a
i, s
j, s
k)P (a
i)P (s
j)P (s
k)
P (a
i, s
j)P (a
i, s
k)P (s
j, s
k) , (4.18)
∆W
aaas(a
i, a
j, a
k, s
l) = (4.19)
− kT ln
· P (a
i, a
j, a
k, s
l)P (a
i, a
j)P (a
i, a
k)P (a
j, a
k)P (a
i, s
l)P (a
j, s
l)P (a
k, s
l) P (a
i)P (a
j)P (a
k)P (s
l)P (a
i, a
j, a
k)P (a
i, a
j, s
l)P (a
i, a
k, s
l)P (a
j, a
k, s
l)
¸ ,
∆W
aass(a
i, a
j, s
k, s
l) = (4.20)
− kT ln
· P (a
i, a
j, s
k, s
l)P (a
i, a
j)P (a
i, s
k)P (a
i, s
l)P (a
j, s
k)P (a
j, s
l)P (s
k, s
l) P (a
i)P (a
j)P (s
k)P (s
l)P (a
i, a
j, s
k)P (a
i, a
j, s
l)P (a
i, s
k, s
l)P (a
j, s
k, s
l)
¸ ,
∆W
asss(a
i, s
j, s
k, s
l) = (4.21)
− kT ln
· P (a
i, s
j, s
k, s
l)P (a
i, s
j)P (a
i, s
k)P (a
i, s
l)P (s
j, s
k)P (s
j, s
l)P (s
k, s
l) P (a
i)P (s
j)P (s
k)P (s
l)P (a
i, s
j, s
k)P (a
i, s
j, s
l)P (a
i, s
k, s
l)P (s
j, s
k, s
l)
¸ .
Evaluation des performances
Comme dans le cas des potentiels bas´es sur les angles de torsion de la chaˆıne principale, on remarque que les termes de couplage ∆W
aaset ∆W
assposs`edent chacun un certain pouvoir pr´edictif individuel, bien qu’il soit nettement inf´erieur `a celui du potentiel ∆W
as(Table 4.2).
Cependant, au vu des r´esultats pr´esent´es en Table 4.2, l’inclusion des termes de
couplage ∆W
aaset ∆W
asssemble nettement moins avantageuse que celle des termes
correspondants bas´es sur les angles de torsion de la chaˆıne principale. En effet, selon
la plupart des mesures effectu´ees, le potentiel ∆W
asest l´eg`erement moins performant
lorsqu’il est accompagn´e de ces deux termes de couplage que lorsqu’il est consid´er´e
individuellement, du moins au sein des groupes de leurres D
str1et D
seq. Il faut
probablement en conclure que, si l’on consid`ere un r´esidu donn´e, l’influence des r´esidus
voisins joue un rˆole moins important dans la d´etermination de son accessibilit´e au solvant
que dans celle de la conformation de sa chaˆıne principale. C’est-`a-dire que, lorsque les
probabilit´es d’observer diff´erents couples (t
i, s
j) ou (a
i, s
j) sont suppos´ees ind´ependantes
et que les contributions correspondantes sont simplement somm´ees (Equations 4.5 et
4.16), l’impr´ecision engendr´ee est vraisemblablement plus importante dans le cas de
potentiels bas´es sur les angles de torsion de la chaˆıne principale que dans le cas de
Potentiel D1str Dstr2 Dseq
< Z > < Zx> < Z > < Zx> < Z > < Zx>
(S1/S−1) (S−1x ) (S1/S−1) (S−1x ) (S1/S−1) (S−1x )
as -2.40 -0.45 -0.60 -0.26 -2.29 -1.58
(44/ 80) (16) (0 / 44) (0) (50/100) (96)
aas -0.95 -0.14 -0.38 -0.10 -1.31 -0.79
(8 / 36) (4) (0 / 32) (0) (0 / 72) (38)
ass -0.72 -0.15 -0.41 -0.13 -1.04 -0.47
(0 / 44) (0) (0 / 24) (0) (0 / 50) (12)
aaas 0.85 0.22 0.27 0.12 0.59 0.31
(0 / 8) (0) (0 / 8) (0) (0 / 0) (2)
aass 0.57 0.11 0.33 0.10 0.53 0.37
(0 / 0) (0) (0 / 4) (0) (0 / 6) (0)
asss -0.25 0.02 0.24 -0.02 -0.10 0.00
(0 / 40) (0) (0 / 8) (0) (0 / 20) (4)
as+aas+ass -2.34 -0.43 -0.71 -0.27 -2.34 -1.52
(36/ 88) (12) (0 / 48) (4) (42/100) (96)
as+aas+ass -2.14 -0.37 -0.53 -0.22 -2.32 -1.49
+aaas+aass+asss (24/ 80) (12) (0 / 36) (0) (42/100) (94)
Table 4.2 – Pouvoir pr´edictif des potentiels locaux bas´es sur l’accessibilit´e au solvant.
Le pouvoir pr´edictif des potentiels est estim´e sur la base des trois groupes de leurres et des diff´erentes mesures pr´esent´es en Section 4.1.2. La premi`ere colonne d´esigne le potentiel utilis´e, `a l’aide d’une notation simplif´ee similaire `a celle utilis´ee en Table 4.1. Comme pr´ec´edemment, les valeurs des param`etresFlocet σsont fix´ees `a 2 et 20, respectivement. Nous discuterons l’influence de ces param`etres en Section 4.2.5.
Les taux de succ`esS1,S−1 etSx−1 sont donn´es en pourcents.
potentiels bas´es sur l’accessibilit´e au solvant. Une certaine pertinence de ces termes de couplage n’est cependant pas `a exclure, ´etant donn´e qu’ils permettent tout de mˆeme une l´eg`ere am´elioration des performances au sein du groupe de leurres qui constitue le test le plus complexe : D
str2.
Les termes de couplage d’ordre sup´erieur ∆W
aaas, ∆W
aasset ∆W
asssne pr´esentent quant `a eux aucun pouvoir pr´edictif significatif lorsqu’ils sont consid´er´es individuelle- ment, et induisent une diminution sensible des performances lorsqu’ils sont inclus dans la fonction ´energ´etique (Table 4.2).
4.2.3 Potentiels locaux ind´ ependants de la s´ equence
Si, au lieu de consid´erer comme pr´ec´edemment les fr´equences avec lesquelles des petits
´el´ements de structure c sont associ´es avec des petits ´el´ements de s´equence s, l’on consid`ere les fr´equences d’association de certains ´el´ements de structure avec d’autres ´el´ements de structure, on peut d´efinir diff´erents potentiels et termes de couplage ind´ependants de la s´equence.
Ainsi, un potentiel bas´e sur la probabilit´e d’observer les r´esidus en positions i et j adoptant simultan´ement les conformations t
iet t
j, respectivement, est d´efini par :
∆W
tt(t
i, t
j) = − kT ln P (t
i, t
j)
P (t
i)P (t
j) ' − kT ln F (t
i, t
j)
F (t
i)F (t
j) . (4.22)
Ce potentiel peut ˆetre int´egr´e aux fonctions ´energ´etiques d´efinies pr´ec´edemment.
L’´energie libre associ´ee au triplet (t
i, t
j, s
k) sera alors donn´ee par :
∆W
tts00(t
i, t
j, s
k) = − kT ln P (t
i, t
j, s
k)
P (t
i)P (t
j)P (s
k) (4.23)
= ∆W
ts(t
i, s
k) + ∆W
ts(t
j, s
k) + ∆W
tt(t
i, t
j) + ∆W
tts(t
i, t
j, s
k) , o` u ∆W
tset ∆W
ttssont d´efinis par les ´equations 4.4 et 4.8, respectivement. La contribution du potentiel ∆W
tt`a l’estimation de l’´energie libre d’une prot´eine de structure C vaut, quelle que soit la s´equence S :
∆W
tt(C, S) = − kT X
i,j