• Aucun résultat trouvé

Mise au point de termes de couplage

N/A
N/A
Protected

Academic year: 2021

Partager "Mise au point de termes de couplage"

Copied!
55
0
0

Texte intégral

(1)

Chapitre 4

Mise au point de termes de couplage

4.1 Introduction

L’objectif poursuivi lors de la d´erivation de potentiels de force moyenne est de profiter des donn´ees exp´erimentales disponibles concernant les structures prot´eiques et d’en extraire des informations `a propos de l’ensemble des interactions qui r´egissent le reploiement et la stabilit´e des prot´eines. Cette proc´edure est suivie dans l’espoir de mettre au point des fonctions ´energ´etiques qui jouissent d’une certaine g´en´eralit´e, c’est-

`a-dire qui peuvent se r´ev´eler profitables lors de l’´etude de prot´eines ne faisant pas partie de la base de donn´ees utilis´ee pour d´eriver les potentiels. Comme nous l’avons mentionn´e pr´ec´edemment (Section 2.2.3), cet espoir ne refl`ete pas parfaitement la r´ealit´e au vu notamment de la d´ependance des potentiels en certaines caract´eristiques des prot´eines incluses dans la base de donn´ees.

Par ailleurs, depuis que les premi`eres approches de ce type ont vu le jour, la quantit´e de donn´ees structurales disponibles a consid´erablement augment´e, sans pour autant engendrer une am´elioration drastique des performances des potentiels [1–3]. Il est en effet apparu qu’augmenter la taille de la base de donn´ees au-del`a de quelques centaines de prot´eines ne pr´esentait aucun avantage significatif pour les potentiels simples – bas´es sur un nombre limit´e de descripteurs de s´equence et de structure – qui sont encore fort commun´ement utilis´es actuellement. En outre, si l’accroissement de la quantit´e de donn´ees exp´erimentales permet un affinement de la discr´etisation de l’espace conformationnel (par exemple en r´eduisant la largeur des intervalles de distance dans le cas d’un potentiel de distance entre r´esidus), le b´en´efice d’un tel affinement est assez restreint au-del`a d’une certaine limite.

Au cours de ces derni`eres ann´ees, quelques potentiels plus complexes ont ´et´e mis au point dans le but d’exploiter de mani`ere plus efficace les quantit´es importantes de donn´ees structurales. Parmi ceux-ci, relevons l’existence de potentiels de contact ou de distance qui d´ependent de l’accessibilit´e au solvant des r´esidus concern´es [4, 5], des conformations de leurs chaˆınes principales [6], ou encore de l’orientation relative de leurs chaˆınes lat´erales [7–11]. Dans un autre registre, des potentiels locaux exprimant les propensions des divers acides amin´es `a ˆetre associ´es `a certaines conformations, et qui prennent en compte simultan´ement les conformations de deux ou trois r´esidus voisins, voire plus, ont ´egalement ´et´e d´ecrits [4,12,13]. De telles approches permettent notamment de prendre en compte certains couplages et de r´eduire ainsi l’impact de l’interd´ependance

94

(2)

des diff´erentes interactions et/ou de se d´ebarrasser, en partie, du probl`eme de l’influence de certaines caract´eristiques des prot´eines de la base de donn´ees. Par exemple, si l’on d´erive un potentiel de distance s´epar´ement pour les paires de r´esidus appartenant `a des h´elices α et pour celles comprises dans des feuillets β, les ´energies effectives calcul´ees seront vraisemblablement diff´erentes ´etant donn´e que le potentiel tient compte d’un environnement prot´eique moyen qui est diff´erent dans les deux cas [3,14–16]. Par contre, l’´energie effective calcul´ee `a l’aide d’un potentiel de distance ordinaire correspondra en quelque sorte `a la moyenne de ces ´energies effectives sp´ecifiques aux diff´erents types d’´el´ements de structure secondaire, et sera donc d´ependante de la composition de la base de donn´ees en prot´eines de classe α, β ou α/β.

Une difficult´e fr´equemment rencontr´ee, au cours des ´etudes de ce type d´ecrites dans la litt´erature, est li´ee au fait que le nombre de structures prot´eiques r´esolues apparaˆıt rapidement insuffisant lorsque l’on veut accroˆıtre la complexit´e d’un potentiel. On se retrouve en effet devant un choix d´elicat : l’usage d’un potentiel plus complexe est pr´ef´erable lorsque les valeurs associ´ees aux descripteurs de s´equence et de structure sont fr´equemment observ´ees (par exemple une paire Ala-Ala associ´ee `a des conformations de type h´elice α) tandis que l’usage d’un potentiel basique est n´ecessaire dans le cas contraire (par exemple une paire Trp-Trp associ´ee `a des conformations plus rares caract´eristiques de certains tournants). Nous verrons en Section 4.5 que la r´eaction face `a ce dilemne consiste le plus souvent en une r´eduction drastique de la r´esolution de la description de l’espace conformationnel, en se limitant par exemple `a trois conformations possibles par r´esidu, `a deux domaines d’accessibilit´e au solvant, ou en d´erivant des potentiels de contact plutˆot que des potentiels de distance.

Nous pr´esentons ici une proc´edure g´en´erale de d´erivation de termes de couplage qui permet d’´eviter ce probl`eme, et de construire des fonctions ´energ´etiques bas´ees simultan´ement sur plusieurs descripteurs de s´equence et de structure, sans pour autant alt´erer l’efficacit´e des contributions plus basiques lorsque les valeurs prises par ces descripteurs sont peu fr´equemment observ´ees dans la base de donn´ees [17].

4.1.1 Notre approche

Nous nous attacherons `a l’´etude de deux types de potentiels : les potentiels locaux et les potentiels de distance. Nous entendons ici par (( potentiel local )) un potentiel qui d´ecrit les interactions entre r´esidus qui sont proches le long de la s´equence. En particulier, nous nous focaliserons sur les corr´elations qui existent entre trois descripteurs diff´erents, associ´es `a chaque r´esidu : la nature de ce r´esidu, le domaine d’angles de torsion d´ecrivant la conformation de sa chaˆıne principale, et son accessibilit´e au solvant (voir Annexe A).

Les potentiels de distance sont li´es aux fr´equences avec lesquelles certaines paires de

r´esidus sont s´epar´ees par une distance spatiale donn´ee. Nous tenterons de mettre au

point des potentiels qui d´ecrivent la mani`ere dont l’accessibilit´e au solvant des r´esidus

concern´es, ainsi que les conformations de leurs chaˆınes principales, peuvent affecter ces

fr´equences. Notons que les potentiels de distance incluent ´egalement une composante

locale, si l’on consid`ere les distances spatiales s´eparant des paires de r´esidus proches l’un

de l’autre dans la s´equence. Apr`es une ´evaluation ind´ependante des potentiels locaux

et des potentiels de distance, nous verrons dans quelle mesure leur utilisation combin´ee

peut ˆetre avantageuse d’un point de vue pr´edictif.

(3)

Les diff´erents potentiels et termes de couplages pr´esent´es dans ce chapitre sont d´eriv´es de la base de donn´ees de structures prot´eiques DB

1403

(voir Annexe B). L’´etat de r´ef´erence sur lequel nous nous basons est celui d´ecrit par l’´equation 2.29 ; il correspond `a un ´etat dans lequel la probabilit´e d’observer un ´el´ement de structure donn´e est ind´ependante de la s´equence. Le potentiel de force moyenne ∆W (c, s) d´ecrivant la corr´elation entre un petit ´el´ement de s´equence s et un petit ´el´ement de structure c peut s’´ecrire de la mani`ere suivante (Equations 2.20, 2.28 et 2.29) :

∆W (c, s) = − kT ln P (c, s)

P (c)P (s) ' − kT ln F (c, s)

F (c)F (s) = − kT ln n

obs

(c, s)

n

att

(c, s) , (4.1) o` u P (c) et P (s) sont les probabilit´es d’observation de c et de s, respectivement, et P (c, s) est la probabilit´e d’observation conjointe de c et s. Ces probabilit´es sont estim´ees

`a l’aide des fr´equences relatives d’observation au sein de la base de donn´ees de structures prot´eiques : F (c), F (s) et F (c, s). Il sera cependant n´ecessaire de g´en´eraliser cet ´etat de r´ef´erence afin, notamment, de pouvoir prendre en compte simultan´ement plusieurs descripteurs conformationnels.

4.1.2 M´ ethode d’´ evaluation des performances

Ensembles de leurres

La structure native d’une prot´eine correspond g´en´eralement `a la conformation de plus basse ´energie accessible `a la s´equence de cette prot´eine. Cette observation semble souffrir quelques exceptions (voir Section 1.3), mais elle n’a pas pour autant ´et´e d´elaiss´ee, et elle sert toujours de postulat `a la grande majorit´e des m´ethodes de pr´edictions structurales concernant les prot´eines. Si l’on dispose de la structure native d’une prot´eine, et si l’on admet que cette structure est effectivement celle de plus basse ´energie, on peut mettre en place une proc´edure permettant d’´evaluer les performances de fonctions ´energ´etiques.

Il suffit en effet de v´erifier que les fonctions ´energ´etiques en question attribuent `a la structure native d’une prot´eine une ´energie plus basse que celles attribu´ees `a un ensemble de structures alternatives.

Une autre possibilit´e, qui pr´esente certains avantages dont nous avons discut´e dans le chapitre pr´ec´edent, est de comparer l’´energie d’une prot´eine avec celles de leurres dont la structure est identique mais dont la s´equence a ´et´e modifi´ee. Il est alors n´ecessaire de se reposer sur l’hypoth`ese selon laquelle la s´equence sauvage de la prot´eine, associ´ee `a sa structure native, correspond `a une ´energie plus basse que celles des s´equences alternatives, ce qui est nettement plus d´elicat que dans le cas de modifications structurales. Les s´equences sauvages des prot´eines sont toutefois relativement bien optimis´ees vis-`a-vis de la stabilit´e de leurs structures natives, mˆeme si ce n’est vraisemblablement pas le seul crit`ere ayant jou´e un rˆole au cours de l’´evolution. Il est donc fort peu probable qu’une s´equence modifi´ee al´eatoirement procure une meilleure stabilit´e que la s´equence sauvage, pour peu qu’elle soit suffisamment diff´erente de celle-ci.

Afin d’´evaluer les performances des fonctions ´energ´etiques d´evelopp´ees dans ce

chapitre, nous avons suivi ces deux approches en parall`ele. Nous nous sommes en effet

bas´es sur deux groupes de 25 prot´eines auxquelles sont associ´ees des leurres obtenus

par modifications structurales, ainsi que sur un groupe de 50 prot´eines auxquelles sont

(4)

associ´ees des leurres obtenus par modifications de leurs s´equences. Ces groupes sont d´etaill´es ci-dessous.

1. D

str1

: Ce groupe est compos´e de 25 prot´eines, chacune ´etant accompagn´ee d’un ensemble de leurres obtenus par modifications structurales. Ce groupe a ´et´e construit pr´ec´edemment `a partir d’ensembles de leurres mis au point par diff´erents groupes de chercheurs, et utilis´e afin de comparer les performances de six types de potentiels statistiques [18]. D

str1

inclut les prot´eines suivantes (d´esign´ees ici par leur code PDB, et le cas ´ech´eant par le nom de la chaˆıne) :

(a) 1ctf, 1r69, 1sn3, 2cro, 4pti et 4rxn, chacune accompagn´ee d’environ 650 structures alternatives du groupe 4state reduced [19]. Ces structures ont ´et´e obtenues par une ´enum´eration exhaustive des conformations de dix r´esidus choisis al´eatoirement parmi les tournants de la prot´eine, sur la base de quatre conformations possibles par r´esidu. Les structures de plus basses ´energies (selon diff´erentes fonctions ´energ´etiques) et celles qui sont les plus proches de la structure native ont ´et´e retenues.

(b) 1fc2-C, 1hdd-C et 2cro, chacune accompagn´ee de 500 structures alternatives du groupe Fisa [20]. Ces structures ont ´et´e obtenues `a l’aide de la m´ethode de pr´ediction de structure Rosetta [5,20], qui suit une proc´edure de recuit simul´e visant `a combiner des fragments de prot´eines pour lesquels des conformations pr´ef´er´ees ont ´et´e pr´edites.

(c) 1bg8-A, 1bl0 et 1jwe, chacune accompagn´ee d’environ 1000 structures alter- natives du groupe Fisa casp3 [20]. Ces structures ont ´et´e obtenues suivant la mˆeme m´ethode que dans le groupe Fisa.

(d) 1ctf, 1dkt-A, 1fca, 1nlk, 1pgb et 1trl-A, chacune accompagn´ee de 2000 structures alternatives du groupe lattice ssfit [21]. Ces structures ont ´et´e obtenues suite `a une ´enum´eration exhaustive des conformations sur un r´eseau t´etrah´edrique. Les structures de plus basses ´energies (selon diff´erentes fonctions ´energ´etiques) ont ´et´e retenues.

(e) 1ctf, 1dtk, 1fc2-C, 1igd, 1shf-A, 2cro et 2ovo, chacune accompagn´ee d’environ 400 structures alternatives du groupe lmds [22]. Pour obtenir ces structures, 10.000 conformations ont ´et´e g´en´er´ees, pour chaque prot´eine, par modification al´eatoire des angles de torsion de la chaˆıne principale. Chacune de ces conformations a ensuite ´et´e modifi´ee de mani`ere `a minimiser son ´energie et

`a atteindre un minimum ´energ´etique local. Les conformations de plus basses

´energies ont ´et´e retenues.

2. D

str2

: Ce groupe est ´egalement compos´e de 25 prot´eines, chacune accompagn´ee d’un ensemble d’approximativement 2000 leurres obtenus par modifications structurales [8, 23]. La m´ethode utilis´ee est la mˆeme que dans les groupes Fisa et Fisa casp3, mais des simulations suppl´ementaires ont ´et´e r´ealis´ees de mani`ere `a produire des structures plus proches de la structure native. Les ensembles de leurres du groupe D

str2

constituent donc des tests plus compliqu´es pour les fonctions ´energ´etiques.

D

str2

inclut les prot´eines suivantes, d´esign´ees ici par leur code PDB (toutes sont

monom´eriques) : 1a32, 1ail, 1am3, 1cc5, 1cei, 1hyp, 1flb, 1mzm, 1r69, 1utg, 1ctf,

1dol, 1orc, 1pgx, 1ptq, 1tif, 1vcc, 2fxb, 5icb, 1bq9, 1csp, 1msi, 1tuc, 1vif et 5pti.

(5)

3. D

seq

: Ce groupe est compos´e de 50 prot´eines, chacune accompagn´ee d’un ensemble de 1000 leurres obtenus par modifications de la s´equence. Chaque leurre est cr´e´e en modifiant al´eatoirement les positions des acides amin´es le long de la s´equence.

La composition globale en acides amin´es est donc conserv´ee. Afin que le test ne soit pas trop ais´e, une fraction de la s´equence est cependant maintenue fixe. Cette fraction est d´efinie al´eatoirement pour chaque leurre et correspond, au maximum, `a 75% du nombre total de r´esidus de la prot´eine. D

seq

inclut les prot´eines suivantes, d´esign´ees ici par leur code PDB (toutes sont monom´eriques) : 1ptq, 1d0d, 2igd, 1g2b, 1orc, 1hz6, 1i27, 1hoe, 1luz, 1ugi, 1aba, 1cy5, 1lpl, 1mk0, 1h7m, 1bm8, 1l8r, 1lyq, 1o13, 1gmx, 1cew, 1hxi, 1nyc, 1by2, 1lsl, 1o7i, 1gnu, 1fc3, 1mai, 1dzo, 1lwb, 1huf, 1nwz, 3nul, 1cuo, 1jf8, 1p0z, 1mdc, 1vsr, 1gmi, 1eca, 1j9b, 1kmt, 1mzg, 1oz9, 1h6h, 1l2h, 1srv, 2hbg et 1amx.

Notons que, lors de l’´evaluation de l’´energie de chacune de ces prot´eines et de celles des leurres correspondants, la prot´eine en question et toutes celles qui partagent avec elle une identit´e de s´equence sup´erieure `a 20 % sont exclues de la base de donn´ees utilis´ee pour d´eriver les potentiels. Ceci est n´ecessaire afin d’´eviter un biais des potentiels envers les structures natives (ou les s´equences sauvages) des prot´eines utilis´ees en tant que tests, et de garantir une certaine g´en´eralit´e aux r´esultats obtenus. Les identit´es de s´equence ont ´et´e calcul´ees `a l’aide du programme BLAST [24,25], disponible `a l’adresse : http://www.ncbi.nlm.nih.gov/blast.

Mesures

Nous avons utilis´e plusieurs m´ethodes afin de mesurer les performances des diff´erents potentiels, c’est-`a-dire leur capacit´e `a distinguer les associations correctes (s´equence sauvage - structure native) parmi les ensembles de leurres. Ces mesures, qui sont appliqu´ees `a chacun des trois groupes de leurres d´efinis ci-dessus, sont les suivantes :

1. S

1

: La mesure S

1

consiste `a calculer le pourcentage de prot´eines (dans chaque groupe) pour lesquelles l’´energie calcul´ee pour l’association correcte s´equence- structure est inf´erieure `a celles calcul´ees pour tous les leurres correspondants. Ce taux de succ`es est certainement la mesure plus simple, mais n’est pas pour autant sans int´erˆet.

2. < Z > : Le Z-score est l’une des mesures les plus fr´equemment utilis´ees pour ce type de tests. Il est d´efini de la mani`ere suivante :

Z = (E

m

− µ

r

)/σ

r

, (4.2)

o` u E

m

est l’´energie calcul´ee pour l’association correcte s´equence-structure, tandis que µ

r

et σ

r

sont respectivement la moyenne et l’´ecart-type de la distribution des

´energies calcul´ees pour les leurres. Un Z-score n´egatif, de grande valeur absolue,

indique que la fonction ´energ´etique permet de distinguer efficacement l’association

correcte s´equence-structure parmi les diff´erents leurres. Nous comparerons ici les

diff´erents potentiels `a l’aide du Z-score moyen < Z >, qui correspond `a la moyenne

des valeurs de Z calcul´ees pour les diff´erentes prot´eines incluses dans chacun des

trois groupes.

(6)

3. S

−1

: Ce deuxi`eme taux de succ`es correspond au pourcentage de prot´eines pour lesquelles un Z-score inf´erieur `a − 1 est calcul´e, c’est-`a-dire pour lesquelles l’´energie calcul´ee pour l’association correcte s´equence-structure est nettement inf´erieure `a la moyenne, sans n´ecessairement ˆetre la plus basse [8,26]. Par rapport `a S

1

, la mesure S

−1

se r´ev`ele fort utile lorsque le test est compliqu´e, par exemple si les leurres ont des structures (des s´equences) tr`es similaires `a la structure native (`a la s´equence sauvage).

4. < Z

x

> : Cette mesure permet d’´evaluer la capacit´e des potentiels `a s´electionner parmi un ensemble de leurres ceux qui sont les plus proches de l’association correcte s´equence-structure. Le Z-score non-natif Z

x

est donn´e par :

Z

x

= (µ

n

− µ

r

)/σ

r

, (4.3)

o` u µ

n

est l’´energie moyenne calcul´ee pour un sous-groupe incluant 5% des leurres [8,26]. Dans le cas de leurres bas´es sur une modification structurale, ce sous-groupe comprend les structures alternatives qui sont les plus similaires `a la structure native.

Cette similarit´e est mesur´ee `a l’aide du r.m.s.d, qui est la distance quadratique moyenne minimale entre les atomes C

α

des deux structures superpos´ees. Dans le cas de leurres bas´es sur une modification de la s´equence, le sous-groupe est constitu´e des leurres qui pr´esentent la plus grande identit´e de s´equence avec la prot´eine sauvage. Comme pour le Z-score, µ

r

et σ

r

sont respectivement la moyenne et l’´ecart-type de la distribution des ´energies calcul´ees pour l’ensemble des leurres.

Nous calculons ici le Z-score non-natif moyen < Z

x

>, c’est-`a-dire la moyenne de Z

x

sur les diff´erentes prot´eines de chacun des trois groupes.

5. S

−1x

: Cette mesure est l’´equivalent du taux de succ`es S

−1

, lorsque l’on consid`ere Z

x

au lieu de Z . Elle correspond au pourcentage de prot´eines pour lesquelles un Z-score non-natif inf´erieur `a − 1 est calcul´e, c’est-`a-dire pour lesquelles les leurres les plus proches de l’association correcte s´equence-structure ont, en moyenne, une

´energie nettement inf´erieure `a la moyenne sur l’ensemble des leurres [8, 26].

L’int´erˆet d’utiliser simultan´ement plusieurs mesures diff´erentes r´eside dans le fait qu’aucune d’entre elles n’est parfaite. Ainsi, le taux de succ`es S

1

souffre d’ˆetre bas´e sur une observation binaire : la prot´eine consid´er´ee est, ou non, associ´ee `a une ´energie plus basse que celles de tous les leurres. Si ce n’est pas le cas, que la prot´eine soit class´ee en deuxi`eme ou en derni`ere position n’a aucun impact sur S

1

. De plus, cette mesure d´epend directement du nombre de leurres associ´es `a chaque prot´eine : plus celui- ci est grand, plus la probabilit´e d’avoir un taux de succ`es important sera faible, quelle que soit de la fonction ´energ´etique utilis´ee. Au contraire, le Z-score donne l’´energie de l’association s´equence-structure correcte, normalis´ee par rapport `a la moyenne et l’´ecart- type de la distribution des ´energies des leurres. Il n’a donc pas le caract`ere binaire de S

1

et en principe ne d´epend pas du nombre de leurres. N´eanmoins, une des limitations de cette mesure est que plus les leurres sont proches les uns des autres d’un point de vue ´energ´etique, plus le Z-score sera ´elev´e, en valeur absolue. En d’autres termes, cette mesure sera d´efavorable aux fonctions ´energ´etiques qui attribuent des ´energies proches de l’´energie minimale `a certains leurres, et des ´energies beaucoup plus hautes `a d’autres.

De telles fonctions ´energ´etiques ne sont cependant pas pour autant inappropri´ees. Les

caract´eristiques de S

−1

sont interm´ediaires `a celles de S

1

et de < Z >.

(7)

Par ailleurs, notons que les mesures S

1

, < Z > et S

−1

peuvent ˆetre influenc´ees par la pr´esence ´eventuelle de certaines caract´eristiques communes aux leurres, li´ees par exemple `a la proc´edure suivie pour les g´en´erer. Si de telles caract´eristiques existent, les fonctions ´energ´etiques qui leur sont d´efavorables apparaˆıtront performantes, quelle que soit la pr´ecision avec laquelle elles permettent d’´evaluer les diff´erentes interactions. Les mesures < Z

x

> et S

−1x

sont moins concern´ees par ce probl`eme ´etant donn´e qu’elles ne tiennent pas compte de l’´energie de la structure native (ou de la s´equence sauvage). Elles sont cependant d´ependantes de l’hypoth`ese selon laquelle les leurres les plus similaires

`a l’association correcte s´equence-structure doivent ˆetre associ´es aux ´energies les plus basses. La validit´e de cette hypoth`ese n’est pas ´evidente, et elle peut d´ependre fortement de la mani`ere dont la similarit´e est ´evalu´ee, notamment dans le cas des leurres obtenus par modifications structurales.

En conclusion, il est difficle d’´evaluer la signification statistique de diff´erences observ´ees entre les performances de deux potentiels dans une application donn´ee. En outre, il est parfaitement envisageable que l’un de ces potentiels apparaisse (et soit r´eellement) plus performant que l’autre selon certaines mesures, et moins selon d’autres.

Nous disposons ici de 15 mesures diff´erentes des performances des potentiels (cinq

mesures appliqu´ees `a trois groupes de leurres), ce qui nous permettra, lorsque la plupart

de ces mesures concordent, de constater avec une certaine confiance l’am´elioration ou la

d´et´erioration du pouvoir pr´edictif.

(8)

4.2 Potentiels locaux

4.2.1 Potentiels locaux bas´ es sur les domaines de torsion

Sur la base de l’´equation 4.1, il est possible de mettre au point un potentiel basique

∆W

ts

d´ecrivant les propensions des diff´erents types d’acides amin´es `a ˆetre associ´es `a certains domaines d’angles de torsion de la chaˆıne principale :

∆W

ts

(t

i

, s

j

) = − kT ln P (t

i

, s

j

)

P (t

i

)P (s

j

) ' − kT ln F (t

i

, s

j

)

F (t

i

)F (s

j

) , (4.4) o` u l’´el´ement de structure t

i

d´ecrit le domaine d’angles de torsion de la chaˆıne principale du r´esidu en position i dans la s´equence et l’´el´ement de s´equence s

j

est la nature de l’acide amin´e en position j. Nous consid´erons ici sept domaines d’angles de torsion, qui sont d´efinis en Annexe A. Si i = j, le potentiel refl`ete la corr´elation existant entre la nature d’un r´esidu et les conformations qu’il peut adopter. Dans le cas contraire, le potentiel permet de prendre en compte l’influence de la nature d’un r´esidu sur les conformations adopt´ees par les r´esidus voisins. Notons que l’on suppose que l’´energie ne d´epend que des positions relatives des deux r´esidus le long de la s´equence, c’est-`a-dire de i − j, et non des valeurs pr´ecises de i et de j. Selon ce potentiel, l’´energie libre d’une prot´eine de N r´esidus, de s´equence S = (s

1

, . . . , s

N

) dans une conformation C = (t

1

, . . . , t

N

) vaut :

∆W

ts

(C, S) ' − kT X

i,j

ln F (t

i

, s

j

)

F (t

i

)F (s

j

) , (4.5)

o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F

loc

, et F

loc

est un param`etre ajustable correspondant `a la taille de la fenˆetre dans laquelle on souhaite prendre en compte la corr´elation entre t

i

et s

j

. Plusieurs potentiels de ce type ont ´et´e d´ecrits dans la litt´erature [4, 12, 13, 27–29].

N´eanmoins, comme nous l’avons mentionn´e pr´ec´edemment (Section 2.2.3), le fait de sommer les contributions relatives aux diff´erents couples (t

i

,s

j

) est une approxi- mation consid´erable, ´etant donn´e que ces contributions ne sont pas n´ecessairement ind´ependantes. Par exemple, si s

k

est un acide amin´e fr´equemment localis´e `a la fin d’une h´elice α, et que les r´esidus pr´ec´edant la position k adoptent une conformation h´elicoidale, les r´esidus en positions k + 1, k + 2, . . . choisiront probablement leurs conformations de mani`ere `a former un tournant. La probabilit´e d’observer un tel tournant risque cependant d’ˆetre plus faible si le r´esidu en position k n’est pas pr´ec´ed´e d’une h´elice α. Afin de r´esoudre ce probl`eme, il est tentant de consid´erer un petit ´el´ement de structure d´efini par une paire de domaines d’angles de torsion de la chaˆıne principale (t

i

,t

j

), afin de traduire en ´energie libre la corr´elation qui existe entre les conformations des r´esidus en positions i et j et la nature du r´esidu en position k (s

k

). On obtient alors :

∆W

tts0

(t

i

, t

j

, s

k

) = − kT ln P (t

i

, t

j

, s

k

)

P (t

i

, t

j

)P (s

k

) . (4.6)

Ce potentiel ne peut cependant ˆetre somm´e directement sur l’ensemble des triplets de

positions i, j et k. En effet la contribution relative `a un triplet (t

i

,t

j

,s

k

) inclut les

contributions de couples (t

i

,s

k

) et (t

j

,s

k

) et n’est donc pas ind´ependante de celle relative

(9)

au triplet (t

i

,t

l

,s

k

), par exemple. L’´equation 4.6 peut d’ailleurs ˆetre r´e´ecrite de la mani`ere suivante :

∆W

tts0

(t

i

, t

j

, s

k

) = − kT ln

· P (t

i

, s

k

) P (t

i

)P (s

k

)

P (t

j

, s

k

) P (t

j

)P (s

k

)

P (t

i

, t

j

, s

k

)P (t

i

)P (t

j

)P (s

k

) P (t

i

, t

j

)P (t

i

, s

k

)P (t

j

, s

k

)

¸

, (4.7) c’est-`a-dire

∆W

tts0

(t

i

, t

j

, s

k

) = ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

) + ∆W

tts

(t

i

, t

j

, s

k

) avec ∆W

tts

(t

i

, t

j

, s

k

) = − kT ln P (t

i

, t

j

, s

k

)P (t

i

)P (t

j

)P (s

k

)

P (t

i

, t

j

)P (t

i

, s

k

)P (t

j

, s

k

) , (4.8) Notons que, comme pr´ec´edemment, les probabilit´es d’observation des divers ´el´ements de s´equence et de structure, conjointement ou ind´ependamment, sont estim´ees `a l’aide des fr´equences relatives d’observation dans la base de donn´ees. ∆W

tts

est un terme de couplage qui est, par d´efinion, sommable au potentiel ∆W

ts

. Il permet de prendre en compte le fait que le lien entre la pr´esence d’un acide amin´e de type s

k

en position k et la conformation t

i

adopt´ee par le r´esidu en position i n’est pas ind´ependant du lien entre s

k

et t

j

. L’´energie libre d’une prot´eine dans une conformation donn´ee peut alors ˆetre estim´ee de mani`ere plus pr´ecise qu’avec l’´equation 4.5 :

∆W (C, S) ' X

i,j

∆W

ts

(t

i

, s

j

) + X

i,j,k

∆W

tts

(t

i

, t

j

, s

k

) , (4.9) o` u, dans le premier terme du membre de droite, la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F

loc

. Dans le deuxi`eme terme du membre de droite, la somme est r´ealis´ee sur tous les triplets de positions i, j et k qui satisfont les conditions suivantes : | i − j | ≤ F

loc

, | i − k | ≤ F

loc

, | j − k | ≤ F

loc

, et i < j. Si ce deuxi`eme terme est parfois n´egligeable vis-`a-vis du premier, cette constatation est loin d’ˆetre vraie de mani`ere g´en´erale. Ainsi, comme l’illustrent les deux exemples de la Figure 4.1, les valeurs de ∆W

tts

peuvent dans certains cas ˆetre telles que ∆W

tts0

(t

i

, t

j

, s

k

) soit de signe oppos´e `a ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

).

De mani`ere similaire, nous pouvons d´efinir un terme de couplage ∆W

tss

(t

i

, s

j

, s

k

) afin de prendre en compte l’interd´ependance ´eventuelle de ∆W

ts

(t

i

, s

j

) et ∆W

ts

(t

i

, s

k

). En partant de l’´equation 4.1, et en choisissant comme ´el´ement de structure la conformation t

i

du r´esidu en position i, et comme ´el´ement de s´equence la nature des acides amin´es en positions j et k (s

j

, s

k

), nous obtenons :

∆W

tss0

(t

i

, s

j

, s

k

) = − kT ln P (t

i

, s

j

, s

k

) P (t

i

)P (s

j

, s

k

)

= ∆W

ts

(t

i

, s

j

) + ∆W

ts

(t

i

, s

j

) + ∆W

tss

(t

i

, s

j

, s

k

) avec ∆W

tss

(t

i

, s

j

, s

k

) = − kT ln P (t

i

, s

j

, s

k

)P (t

i

)P (s

j

)P (s

k

)

P (t

i

, s

j

)P (t

i

, s

k

)P (s

j

, s

k

) . (4.10)

L’´equation 4.9 devient alors :

(10)

Figure 4.1 – Exemples de l’importance du terme de couplage ∆W

tts

.

Deux cas de figure sont expos´es, et les valeurs prises par les potentiels ∆Wts, ∆Wtts, et ∆Wtts0 , sont donn´ees pour chacun. La conformation de chaque r´esidu est d´efinie par le domaine dans lequel se trouvent les angles de torsion de sa chaˆıne principale (voir Annexe A). Les symboles((X))indiquent que la nature (ou la conformation) du r´esidu en question n’est pas d´efinie.

∆W (C, S) ' X

i,j

∆W

ts

(t

i

, s

j

) + X

i,j,k

∆W

tts

(t

i

, t

j

, s

k

) + X

i,j,k

∆W

tss

(t

i

, s

j

, s

k

) , (4.11) o` u les deux premiers termes du membre de droite sont identiques `a ceux de l’´equation 4.9. Dans le troisi`eme, la somme est r´ealis´ee sur tous les triplets de positions i, j et k qui satisfont les conditions suivantes : | i − j | ≤ F

loc

, | i − k | ≤ F

loc

, | j − k | ≤ F

loc

, et j < k.

Dans le mˆeme ordre d’id´ees, nous avons ´egalement d´efini les termes d’ordre sup´erieur suivants :

∆W

ttts

(t

i

, t

j

, t

k

, s

l

) = (4.12)

− kT ln

· P (t

i

, t

j

, t

k

, s

l

)P (t

i

, t

j

)P (t

i

, t

k

)P (t

j

, t

k

)P (t

i

, s

l

)P (t

j

, s

l

)P (t

k

, s

l

) P (t

i

)P (t

j

)P (t

k

)P (s

l

)P (t

i

, t

j

, t

k

)P (t

i

, t

j

, s

l

)P (t

i

, t

k

, s

l

)P (t

j

, t

k

, s

l

)

¸ ,

∆W

ttss

(t

i

, t

j

, s

k

, s

l

) = (4.13)

− kT ln

· P (t

i

, t

j

, s

k

, s

l

)P (t

i

, t

j

)P (t

i

, s

k

)P (t

i

, s

l

)P (t

j

, s

k

)P (t

j

, s

l

)P (s

k

, s

l

) P (t

i

)P (t

j

)P (s

k

)P (s

l

)P (t

i

, t

j

, s

k

)P (t

i

, t

j

, s

l

)P (t

i

, s

k

, s

l

)P (t

j

, s

k

, s

l

)

¸ ,

∆W

tsss

(t

i

, s

j

, s

k

, s

l

) = (4.14)

− kT ln

· P (t

i

, s

j

, s

k

, s

l

)P (t

i

, s

j

)P (t

i

, s

k

)P (t

i

, s

l

)P (s

j

, s

k

)P (s

j

, s

l

)P (s

k

, s

l

) P (t

i

)P (s

j

)P (s

k

)P (s

l

)P (t

i

, s

j

, s

k

)P (t

i

, s

j

, s

l

)P (t

i

, s

k

, s

l

)P (s

j

, s

k

, s

l

)

¸ . Il est ´evident que des fonctions ´energ´etiques telles que ∆W

ttts

, ∆W

ttss

ou ∆W

tsss

sont susceptibles d’ˆetre fortement affect´ees par la taille de la base de donn´ees de

structures prot´eiques. En effet, ces potentiels sont d´eriv´es des fr´equences d’observations

conjointes de 4 descripteurs de s´equence et de structure diff´erents. Le nombre de

(11)

combinaisons possibles des valeurs prises par ces decripteurs ´etant important, le nombre d’observations de chaque combinaison est forc´ement tr`es restreint en moyenne, mˆeme si la base de donn´ees comprend un grand nombre de prot´eines. N´eanmoins, pour diverses combinaisons fr´equentes d’acides amin´es et de domaines d’angles de torsion, le nombre d’observations est suffisant et il est possible d’obtenir des termes de couplages pr´esentant un certain int´erˆet pratique. Pour les autres, l’utilisation de ces termes est naturellement plus d´elicate, et risque de nuire aux performances g´en´erales. Afin d’´eviter l’introduction de bruit dans les potentiels par la prise en compte de fr´equences d’observation peu significatives, nous utilisons, pour chacun des potentiels d´efinis ci-dessus, la correction d´ecrite en Section 2.2.3 (Equation 2.36). Cette correction permet de faire tendre la fonction ∆W (c, s) vers z´ero lorsque n

att

(c, s) et n

obs

(c, s) sont petits par rapport `a un param`etre ajustable σ, et vers sa forme non-corrig´ee (d´efinie ici par l’´equation 4.4, 4.8, 4.10, 4.12, 4.13 ou 4.14) lorsque n

att

(c, s) et n

obs

(c, s) sont grands par rapport `a σ.

Remarquons que l’application de cette correction individuellement `a chaque terme de potentiel implique notamment que certaines ´egalit´es ´enonc´ees pr´ec´edemment ne sont pas valables en pratique. A titre d’exemple, ∆W

tts0

(t

i

, t

j

, s

k

), tel que d´efini par l’´equation 4.6, n’est ´egal `a ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

) + ∆W

tts

(t

i

, t

j

, s

k

) que lorsque le nombre d’observations de (t

i

, t

j

, s

k

) est suffisamment grand.

Evaluation des performances

Les performances des potentiels pr´esent´es ci-dessus ont ´et´e ´evalu´ees selon la m´ethode d´ecrite en Section 4.1.2. Les r´esultats sont donn´es en Table 4.1.

La premi`ere partie de cette table permet de comparer le pouvoir pr´edictif des diff´erentes fonctions ´energ´etiques consid´er´ees individuellement. On observe tout d’abord, sans r´eelle surprise, que le potentiel ∆W

ts

est nettement sup´erieur aux divers termes de couplage lorsqu’il s’agit d’isoler une association correcte s´equence-structure parmi un ensemble de leurres. Les performances individuelles de ∆W

tts

et ∆W

tss

sont n´eanmoins fort honorables. Dans le groupe de leurres D

str1

par exemple, ces fonctions permettent d’atteindre des valeurs de < Z > inf´erieures `a − 1, et mˆeme `a classer quelques prot´eines du groupe en premi`ere position (S

1

> 0). Le terme ∆W

ttts

fait ´egalement preuve d’un certain pouvoir discriminatoire individuel, mˆeme s’il est plutˆot limit´e.

Les termes de couplages n’ont toutefois pas ´et´e mis au point dans le but d’ˆetre utilis´es

individuellement, mais afin de corriger les erreurs r´esultant de la non-ind´ependance des

contributions des couples (t

i

, s

j

) dans le potentiel ∆W

ts

. L’am´elioration des performances

du potentiel ∆W

ts

, lorsqu’il est accompagn´e des termes de couplage ∆W

tts

et ∆W

tss

, est

assez impressionnante (Table 4.1). Dans les trois groupes de leurres D

str1

, D

str2

et D

seq

,

les valeurs calcul´ees pour le Z-score moyen < Z > passent en effet de -2.69 `a -3.29, de

-1.45 `a -1.69, et de -2.21 `a -2.39, respectivement. Le pourcentage de structures natives

(ou de s´equences sauvages) pour lesquelles l’´energie calcul´ee est inf´erieure `a celles de tous

les leurres correspondants (S

1

) augmente ´egalement significativement dans chacun des

trois groupes, en particulier dans D

seq

, o` u S

1

passe de 22 `a 44%. D’ailleurs, le pouvoir

discriminatoire du potentiel ∆W

ts

avec les termes de couplage ∆W

tts

et ∆W

tss

apparaˆıt

meilleur, ou au pire ´equivalent `a celui du potentiel ∆W

ts

seul, quels que soient le groupe

de leurres consid´er´e et la mesure utilis´ee, `a l’exception de S

−1x

qui diminue l´eg`erement

dans le cas de D

seq

.

(12)

Potentiel D1str Dstr2 Dseq

< Z > < Zx> < Z > < Zx> < Z > < Zx>

(S1/S−1) (S−1x ) (S1/S−1) (S−1x ) (S1/S−1) (S−1x )

ts -2.69 -0.34 -1.45 -0.27 -2.21 -1.54

(40/ 80) (4) (8 / 68) (0) (22/100) (100)

tts -1.04 -0.06 -0.48 -0.16 -0.44 -0.23

(8 / 48) (0) (0 / 36) (4) (0 / 22) (10)

tss -1.49 -0.04 -0.25 -0.17 -1.33 -0.63

(4 / 64) (0) (0 / 28) (0) (0 / 35) (14)

ttts -0.22 -0.11 -0.84 -0.14 -0.55 -0.39

(4 / 24) (0) (0 / 32) (0) (0 / 18) (10)

ttss 0.86 0.07 -0.37 -0.02 0.58 0.37

(0 / 8) (0) (0 / 36) (4) (0 / 2) (2)

tsss 0.31 -0.02 -0.22 -0.05 0.07 0.08

(0 / 20) (0) (0 / 16) (0) (0 / 10) (0)

ts+tts+tss -3.29 -0.34 -1.69 -0.38 -2.39 -1.59

(60/ 84) (8) (12/ 68) (8) (44/100) (96)

ts+tts+tss -3.36 -0.37 -1.84 -0.41 -2.42 -1.62

+ttts (56/ 88) (8) (20/ 72) (8) (46/100) (96)

ts+tts+tss -2.94 -0.33 -1.92 -0.40 -2.29 -1.52

+ttts+ttss+tsss (56/ 84) (4) (20/ 76) (8) (22/100) (96)

Table 4.1 – Pouvoir pr´edictif des potentiels locaux bas´es sur les domaines de torsion.

Le pouvoir pr´edictif des potentiels est estim´e sur la base des trois groupes de leurres et des diff´erentes mesures pr´esent´es en Section 4.1.2. La premi`ere colonne d´esigne le potentiel utilis´e :tset (ts+tts+tss) indiquent par exemple que les ´energies des diverses associations s´equence-structure sont ´evalu´ees `a l’aide des ´equations 4.5 et 4.11, respectivement. Les valeurs des param`etresFloc et σ sont fix´ees `a 2 et 20, respectivement. Nous discuterons l’influence de ces param`etres en Section 4.2.5. Les taux de succ`esS1, S−1 etS−1x sont donn´es en pourcents.

Par ailleurs, selon la plupart des mesures que nous avons effectu´ees, l’addition du terme d’ordre sup´erieur ∆W

ttts

procure ´egalement une certaine am´elioration des performances (Table 4.1). Ce n’est cependant pas le cas de ∆W

ttss

et de ∆W

tsss

: l’incorporation de ces termes dans la fonction ´energ´etique induit une diminution sensible du pouvoir pr´edictif dans les groupes D

str1

et D

seq

. Il est vraisemblable que ceci r´esulte, du moins en partie, de la taille de la base de donn´ees qui est encore trop r´eduite pour pouvoir en extraire des valeurs statistiques repr´esentatives concernant simultan´ement quatre descripteurs de s´equence et/ou de structure. En effet, le nombre moyen d’observations de chaque combinaison (t

i

, t

j

, s

k

, s

l

) et (t

i

, s

j

, s

k

, s

l

) vaut approximativement 6 et 16, respectivement, dans la base de donn´ees DB

1403

. Notons que le terme ∆W

ttts

est moins affect´e par ce probl`eme, ´etant donn´e que le nombre de domaines d’angles de torsion t possibles est de sept, ce qui est nettement inf´erieur au nombre d’acides amin´es s.

En cons´equence, le nombre moyen d’observations des combinaisons (t

i

, t

j

, t

k

, s

l

) est plus important : il vaut approximativement 45.

Ces r´esultats mettent ´egalement en ´evidence certaines diff´erences entre les trois

groupes de leurres. Nous avons mentionn´e pr´ec´edemment le fait que les ensembles de

leurres du groupe D

2str

contiennent des structures alternatives plus proches des structures

natives que les ensembles de leurres du groupe D

str1

. En cons´equence, il est plus difficile

pour les potentiels d’isoler les structures natives parmi les leurres du groupe D

str2

, ce qui

(13)

se refl`ete au niveau des mesures < Z >, S

1

et S

−1

. Par contre, du point de vue des mesures < Z

x

> et S

−1x

, les r´esultats sont essentiellement ´equivalents dans les groupes D

str1

et D

str2

. Ceci s’explique par le fait que le groupe D

2str

contient des leurres plus similaires aux structures natives, et donc plus susceptibles de correspondre effectivement

`a des ´energies plus basses que la moyenne. Dans le groupe D

seq

, les valeurs obtenues pour < Z > et S

1

sont g´en´eralement interm´ediaires `a celles obtenues dans D

1str

et D

2str

, tandis que celles obtenues pour < Z

x

> et S

−1x

sont nettement meilleures. Il est en effet assez vraisemblable que les leurres qui pr´esentent la plus grande identit´e de s´equence avec la s´equence sauvage soient les plus proches de celle-ci au niveau ´energ´etique, et correspondent donc `a des ´energies plus basses que la moyenne. Au contraire, dans le cas de leurres obtenus par modifications structurales, la mesure de similarit´e entre les structures, qui est ici le r.m.s.d (voir les d´efinitions des mesures, Section 4.1.2), ne refl`ete pas n´ecessairement correctement l’importance des diff´erences structurales et de leurs impacts sur l’´energie. Certaines structures peuvent en effet avoir un r.m.s.d tr`es

´elev´e, par rapport `a la structure native, tout en gardant la plupart de leurs r´esidus dans leurs domaines d’angles de torsion natifs. D’autres mesures de similarit´e pourraient ˆetre envisag´ees, comme par exemple le pourcentage de r´esidus dont les angles de torsion de la chaˆıne principale sont dans le domaine natif.

Remarquons ´egalement que l’addition du terme ∆W

ttts

apparaˆıt plus avantageuse dans le groupe D

str2

que dans D

1str

ou D

seq

. Par ailleurs, malgr´e la taille vraisemblablement trop r´eduite de la base de donn´ees, les termes ∆W

ttss

et ∆W

tsss

induisent tout de mˆeme une l´eg`ere am´elioration des performances au sein de D

str2

. Ces observations sugg`erent que l’inclusion de termes de couplages d’ordre ´elev´e, qui sont cens´es apporter de petites pr´ecisions `a la fonction ´energ´etique, n’est r´eellement avantageuse que si le test est suffisamment compliqu´e. Au contraire, lors de la comparaison de structures natives de prot´eines avec des leurres plus grossiers par exemple, les diff´erences entre les ´energies calcul´ees pour les diverses conformations r´esultent essentiellement de contributions plus basiques.

4.2.2 Potentiels locaux bas´ es sur l’accessibilit´ e au solvant

Un autre descripteur conformationnel important, et qui a fr´equemment servi de base `a la d´efinition de potentiels statistiques [4,5,29–33], est l’accessibilit´e au solvant des r´esidus (voir Annexe A). De mani`ere similaire avec ce que nous avons pr´esent´e pr´ec´edemment pour les potentiels bas´es sur les domaines d’angles de torsion de la chaˆıne principale, un potentiel basique ∆W

as

d´ecrivant les propensions des diff´erents types d’acides amin´es `a avoir une certaine accessibilit´e au solvant est d´efini par :

∆W

as

(a

i

, s

j

) = − kT ln P (a

i

, s

j

)

P (a

i

)P (s

j

) , (4.15)

o` u l’´el´ement de structure a

i

d´ecrit le domaine d’accessibilit´e au solvant du r´esidu en

position i dans la s´equence et l’´el´ement de s´equence s

j

est la nature de l’acide amin´e en

position j. Nous consid´erons ici cinq domaines d’accessibilit´e au solvant A : A ≤ 5%,

5% < A ≤ 15%, 15% < A ≤ 30%, 30% < A ≤ 50% et 50% < A ≤ 100%. Selon ce

potentiel, l’´energie libre d’une prot´eine de N r´esidus, de s´equence S = (s

1

, . . . , s

N

) dans

une conformation C = (a

1

, . . . , a

N

) vaut :

(14)

∆W

as

(C, S) = − kT X

i,j

ln P (a

i

, s

j

)

P (a

i

)P (s

j

) , (4.16) o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que | i − j | ≤ F

loc

. Nous d´efinissons ´egalement les termes de couplage suivants :

∆W

aas

(a

i

, a

j

, s

k

) = − kT ln P (a

i

, a

j

, s

k

)P (a

i

)P (a

j

)P (s

k

)

P (a

i

, a

j

)P (a

i

, s

k

)P (a

j

, s

k

) , (4.17)

∆W

ass

(a

i

, s

j

, s

k

) = − kT ln P (a

i

, s

j

, s

k

)P (a

i

)P (s

j

)P (s

k

)

P (a

i

, s

j

)P (a

i

, s

k

)P (s

j

, s

k

) , (4.18)

∆W

aaas

(a

i

, a

j

, a

k

, s

l

) = (4.19)

− kT ln

· P (a

i

, a

j

, a

k

, s

l

)P (a

i

, a

j

)P (a

i

, a

k

)P (a

j

, a

k

)P (a

i

, s

l

)P (a

j

, s

l

)P (a

k

, s

l

) P (a

i

)P (a

j

)P (a

k

)P (s

l

)P (a

i

, a

j

, a

k

)P (a

i

, a

j

, s

l

)P (a

i

, a

k

, s

l

)P (a

j

, a

k

, s

l

)

¸ ,

∆W

aass

(a

i

, a

j

, s

k

, s

l

) = (4.20)

− kT ln

· P (a

i

, a

j

, s

k

, s

l

)P (a

i

, a

j

)P (a

i

, s

k

)P (a

i

, s

l

)P (a

j

, s

k

)P (a

j

, s

l

)P (s

k

, s

l

) P (a

i

)P (a

j

)P (s

k

)P (s

l

)P (a

i

, a

j

, s

k

)P (a

i

, a

j

, s

l

)P (a

i

, s

k

, s

l

)P (a

j

, s

k

, s

l

)

¸ ,

∆W

asss

(a

i

, s

j

, s

k

, s

l

) = (4.21)

− kT ln

· P (a

i

, s

j

, s

k

, s

l

)P (a

i

, s

j

)P (a

i

, s

k

)P (a

i

, s

l

)P (s

j

, s

k

)P (s

j

, s

l

)P (s

k

, s

l

) P (a

i

)P (s

j

)P (s

k

)P (s

l

)P (a

i

, s

j

, s

k

)P (a

i

, s

j

, s

l

)P (a

i

, s

k

, s

l

)P (s

j

, s

k

, s

l

)

¸ .

Evaluation des performances

Comme dans le cas des potentiels bas´es sur les angles de torsion de la chaˆıne principale, on remarque que les termes de couplage ∆W

aas

et ∆W

ass

poss`edent chacun un certain pouvoir pr´edictif individuel, bien qu’il soit nettement inf´erieur `a celui du potentiel ∆W

as

(Table 4.2).

Cependant, au vu des r´esultats pr´esent´es en Table 4.2, l’inclusion des termes de

couplage ∆W

aas

et ∆W

ass

semble nettement moins avantageuse que celle des termes

correspondants bas´es sur les angles de torsion de la chaˆıne principale. En effet, selon

la plupart des mesures effectu´ees, le potentiel ∆W

as

est l´eg`erement moins performant

lorsqu’il est accompagn´e de ces deux termes de couplage que lorsqu’il est consid´er´e

individuellement, du moins au sein des groupes de leurres D

str1

et D

seq

. Il faut

probablement en conclure que, si l’on consid`ere un r´esidu donn´e, l’influence des r´esidus

voisins joue un rˆole moins important dans la d´etermination de son accessibilit´e au solvant

que dans celle de la conformation de sa chaˆıne principale. C’est-`a-dire que, lorsque les

probabilit´es d’observer diff´erents couples (t

i

, s

j

) ou (a

i

, s

j

) sont suppos´ees ind´ependantes

et que les contributions correspondantes sont simplement somm´ees (Equations 4.5 et

4.16), l’impr´ecision engendr´ee est vraisemblablement plus importante dans le cas de

potentiels bas´es sur les angles de torsion de la chaˆıne principale que dans le cas de

(15)

Potentiel D1str Dstr2 Dseq

< Z > < Zx> < Z > < Zx> < Z > < Zx>

(S1/S−1) (S−1x ) (S1/S−1) (S−1x ) (S1/S−1) (S−1x )

as -2.40 -0.45 -0.60 -0.26 -2.29 -1.58

(44/ 80) (16) (0 / 44) (0) (50/100) (96)

aas -0.95 -0.14 -0.38 -0.10 -1.31 -0.79

(8 / 36) (4) (0 / 32) (0) (0 / 72) (38)

ass -0.72 -0.15 -0.41 -0.13 -1.04 -0.47

(0 / 44) (0) (0 / 24) (0) (0 / 50) (12)

aaas 0.85 0.22 0.27 0.12 0.59 0.31

(0 / 8) (0) (0 / 8) (0) (0 / 0) (2)

aass 0.57 0.11 0.33 0.10 0.53 0.37

(0 / 0) (0) (0 / 4) (0) (0 / 6) (0)

asss -0.25 0.02 0.24 -0.02 -0.10 0.00

(0 / 40) (0) (0 / 8) (0) (0 / 20) (4)

as+aas+ass -2.34 -0.43 -0.71 -0.27 -2.34 -1.52

(36/ 88) (12) (0 / 48) (4) (42/100) (96)

as+aas+ass -2.14 -0.37 -0.53 -0.22 -2.32 -1.49

+aaas+aass+asss (24/ 80) (12) (0 / 36) (0) (42/100) (94)

Table 4.2 – Pouvoir pr´edictif des potentiels locaux bas´es sur l’accessibilit´e au solvant.

Le pouvoir pr´edictif des potentiels est estim´e sur la base des trois groupes de leurres et des diff´erentes mesures pr´esent´es en Section 4.1.2. La premi`ere colonne d´esigne le potentiel utilis´e, `a l’aide d’une notation simplif´ee similaire `a celle utilis´ee en Table 4.1. Comme pr´ec´edemment, les valeurs des param`etresFlocet σsont fix´ees `a 2 et 20, respectivement. Nous discuterons l’influence de ces param`etres en Section 4.2.5.

Les taux de succ`esS1,S−1 etSx−1 sont donn´es en pourcents.

potentiels bas´es sur l’accessibilit´e au solvant. Une certaine pertinence de ces termes de couplage n’est cependant pas `a exclure, ´etant donn´e qu’ils permettent tout de mˆeme une l´eg`ere am´elioration des performances au sein du groupe de leurres qui constitue le test le plus complexe : D

str2

.

Les termes de couplage d’ordre sup´erieur ∆W

aaas

, ∆W

aass

et ∆W

asss

ne pr´esentent quant `a eux aucun pouvoir pr´edictif significatif lorsqu’ils sont consid´er´es individuelle- ment, et induisent une diminution sensible des performances lorsqu’ils sont inclus dans la fonction ´energ´etique (Table 4.2).

4.2.3 Potentiels locaux ind´ ependants de la s´ equence

Si, au lieu de consid´erer comme pr´ec´edemment les fr´equences avec lesquelles des petits

´el´ements de structure c sont associ´es avec des petits ´el´ements de s´equence s, l’on consid`ere les fr´equences d’association de certains ´el´ements de structure avec d’autres ´el´ements de structure, on peut d´efinir diff´erents potentiels et termes de couplage ind´ependants de la s´equence.

Ainsi, un potentiel bas´e sur la probabilit´e d’observer les r´esidus en positions i et j adoptant simultan´ement les conformations t

i

et t

j

, respectivement, est d´efini par :

∆W

tt

(t

i

, t

j

) = − kT ln P (t

i

, t

j

)

P (t

i

)P (t

j

) ' − kT ln F (t

i

, t

j

)

F (t

i

)F (t

j

) . (4.22)

(16)

Ce potentiel peut ˆetre int´egr´e aux fonctions ´energ´etiques d´efinies pr´ec´edemment.

L’´energie libre associ´ee au triplet (t

i

, t

j

, s

k

) sera alors donn´ee par :

∆W

tts00

(t

i

, t

j

, s

k

) = − kT ln P (t

i

, t

j

, s

k

)

P (t

i

)P (t

j

)P (s

k

) (4.23)

= ∆W

ts

(t

i

, s

k

) + ∆W

ts

(t

j

, s

k

) + ∆W

tt

(t

i

, t

j

) + ∆W

tts

(t

i

, t

j

, s

k

) , o` u ∆W

ts

et ∆W

tts

sont d´efinis par les ´equations 4.4 et 4.8, respectivement. La contribution du potentiel ∆W

tt

`a l’estimation de l’´energie libre d’une prot´eine de structure C vaut, quelle que soit la s´equence S :

∆W

tt

(C, S) = − kT X

i,j

ln P (t

i

, t

j

)

P (t

i

)P (t

j

) , (4.24) o` u la somme est r´ealis´ee sur toutes les paires de positions i et j telles que 1 ≤ j − i ≤ F

loc

. Notons que le potentiel ∆W

tt

est fortement influenc´e par le fait que les ´elements de structure secondaire que sont les h´elices α et les brins β ont une certaine longueur, et que les r´esidus adoptant des conformations caract´eristiques de ces ´el´ements (domaines A et B, respectivement) sont donc fr´equemment regroup´es le long de la s´equence. Ainsi,

∆W

tt

(t

i

= A, t

i+1

= A) = − 0.44 kcal/mole et ∆W

tt

(t

i

= B, t

i+1

= B) = − 0.41 kcal/mole, tandis que ∆W

tt

(t

i

= A, t

i+1

= B) = 0.97 kcal/mole. D’autres propri´et´es sont n´eanmoins probablement prises en compte, comme par exemple la formation de tournants ayant une conformation bien sp´ecifique (voir par exemple [34, 35]).

Les probabilit´es d’observer certains couples (t

i

, t

j

) associ´es `a diff´erentes positions i et j n’´etant pas n´ecessairement ind´ependantes les unes des autres, il peut ´egalement ˆetre utile de d´efinir le terme de couplage suivant :

∆W

ttt

(t

i

, t

j

, t

k

) = − kT ln P (t

i

, t

j

, t

k

)P (t

i

)P (t

j

)P (t

k

)

P (t

i

, t

j

)P (t

i

, t

k

)P (t

j

, t

k

) . (4.25) Une des caract´eristiques du terme ∆W

ttt

est qu’il att´enue l’aspect tr`es favorable au regroupement, le long de la s´equence, des r´esidus adoptant des conformations de type α ou β du potentiel ∆W

tt

. On a par exemple ∆W

ttt

(t

i

= A, t

i+1

= A, t

i+2

= A) = 0.32 kcal/mole et ∆W

ttt

(t

i

= A, t

i+1

= B, t

i+2

= B) = − 0.83 kcal/mole.

De la mˆeme mani`ere, on peut d´efinir des potentiels ind´ependants de la s´equence bas´es sur l’accessibilit´e au solvant des r´esidus :

∆W

aa

(a

i

, a

j

) = − kT ln P (a

i

, a

j

)

P (a

i

)P (a

j

) , (4.26)

∆W

aaa

(a

i

, a

j

, a

k

) = − kT ln P (a

i

, a

j

, a

k

)P (a

i

)P (a

j

)P (a

k

)

P (a

i

, a

j

)P (a

i

, a

k

)P (a

j

, a

k

) . (4.27) Remarquons que les r´esidus voisins d’un r´esidu accessible au solvant sont souvent

´egalement accessibles au solvant, et que la mˆeme constatation peut ˆetre faite pour les

r´esidus enfouis. Le potentiel ∆W

aa

est donc comparable au potentiel ∆W

tt

dans le sens

o` u il favorise le regroupement, le long de la s´equence, de r´esidus associ´es `a une mˆeme

valeur du descripteur conformationnel. Cette caract´eristique est partiellement att´enu´ee

par le terme de couplage ∆W

aaa

.

Références

Documents relatifs

Construire des automates de Moore déterministes pour les langages de

URBR : Pourcentage de la population vivant dans des agglomérations de plus de 20000 habitants (un département est dit urbain lorsque plus de la moitié de sa population vit dans de

[r]

[r]

Généralités Règlesdeconstructiondumodèle Sommesdescarrésetdegrésdeliberté Sommaire 1 Généralitéssurlesmodèles,expressiondessommesdes

Le sujet faisait effectuer un nombre important d’applications numériques. Il est anormal que certains candidats aient omis de donner l’unité de leurs résultats. Ils ne pouvaient

Voilà l'exemple le plus trivial du fait que, l’anumérisme n'ayant à supporter aucune réprobation sociale, nous avalons chiffres et nombres sans le moindre esprit critique, et

 Vous pourrez développer un STR ou raffiner un STR existant (STR au sens strict ou au sens usuel) dans la mesure où le projet sur lequel vous choisirez