Annexe A
Repr´ esentation simplifi´ ee des prot´ eines
La chaˆıne principale des prot´eines est repr´esent´ee par les atomes N, C
α, C et O. Les chaˆınes lat´erales des r´esidus sont prises en compte par l’interm´ediaire du C
βet d’un atome virtuel : le C
µ(Figure A.1). Le centre de cet atome correspond `a la moyenne g´eom´etrique des coordonn´ees des atomes (`a l’exception des atomes d’hydrog`ene) de la chaˆıne lat´erale du r´esidu consid´er´e, pour toutes les conformations adopt´ees par ce type de r´esidu dans la base de donn´ees de structures prot´eiques [1]. Dans le cas de la glycine, le C
βet le C
µsont positionn´es sur le C
α. Les pseudo-atomes C
µpermettent de tenir compte, partiellement, des sp´ecificit´es g´eom´etriques des diff´erents acides amin´es. Ils ont cependant une position fixe pour chaque type d’acide amin´e, ce qui implique que les degr´es de libert´e des chaˆınes lat´erales sont n´eglig´es. Dans ce travail, lorsque la distance (r
ij) s´eparant deux r´esidus est ´evoqu´ee, il s’agit de la distance s´eparant les pseudo-atomes C
µdes deux r´esidus consid´er´es.
Figure A.1 – Exemples de positions des pseudo-atomes C
µ. Deux acides amin´es sont repr´esent´es, avec les diff´erentes conformations accessibles aux chaˆınes lat´erales, telles qu’observ´ees dans une base de donn´ees de prot´eines de structures connues [1].
La conformation de la chaˆıne principale d’une prot´eine est compl`etement d´efinie par les angles de torsion (φ, ψ, ω) de chaque r´esidu (Figure A.2.a). Ces angles n’adoptent pas n’importe quelles valeurs et les conformations accessibles peuvent ˆetre regroup´ees en 7 domaines, qui sont s´epar´es par des barri`eres de potentiel [2,3]. Les limites de ces domaines
219
structurations alternatives. Dehouck Yves. Mai 2005.
ANNEXE A. REPR ´ ESENTATION SIMPLIFI ´ EE DES PROT ´ EINES 220 sont repr´esent´ees sur la carte de Ramachandran, en Figure A.2.b. Les domaines A et C correspondent aux h´elices α et 3
10. Les domaines B et P repr´esentent des conformations
´etendues, avec le domaine B correspondant essentiellement aux feuillets β et le domaine P aux conformations de type polyproline. Les domaines G et E correspondent plutˆot `a des tournants et le domaine O `a une conformation cis (ω = 0
◦). Ce dernier domaine n’est accessible qu’`a un nombre r´eduit d’acides amin´es, dont essentiellement la proline.
Figure A.2 – Angles di`edres d´efinissant la conformation de la chaˆıne principale. (a) Repr´esentation sch´ematique d’un tripeptide. Les noms des atomes de la chaˆıne principale sont indiqu´es, ainsi que les angles di`edres φ, ψ et ω associ´es au r´esidu central (Tyrosine). (b) Division de la carte de Ramachandran en domaines, qui correspondent aux valeurs accessibles aux angles φ, ψ et ω.
L’accessibilit´e au solvant A d’un r´esidu dans une prot´eine est d´efinie comme le rapport
(en pourcents) de la surface accessible au solvant de ce r´esidu, calcul´ee `a l’aide du
programme SurVol [4] sur la base du fichier PDB [5] d´ecrivant la structure de cette
prot´eine, et de celle de d’un acide amin´e de mˆeme type au sein d’un tripeptide Gly-X-
Gly [6].
Bibliographie
[1] J.P. Kocher, M.J. Rooman, and S.J. Wodak. Factors influencing the ability of knowledge-based potentials to identify native sequence-structure matches. Journal of Molecular Biology, 235 :1598–1613, 1994.
[2] G. Ramachandran and V. Sasiekharan. Conformation of peptides and proteins.
Advances in Protein Chemistry, 23 :283–437, 1968.
[3] M.J. Rooman, J.-P.A. Kocher, and S.J. Wodak. Prediction of protein backbone conformation based on 7 structure assignments : influence of local interactions.
Journal of Molecular Biology, 221 :961–979, 1991.
[4] P. Alard. Calculs de surface et d’´energie dans le domaine des macromol´ecules. PhD thesis, Universit´e Libre de Bruxelles, 1991.
[5] H.M. Berman, T. Battistuz, T.N. Bhat, W.F. Bluhm, P.E. Bourne, K. Burkhardt, Z. Feng, G.L. Gilliland, L. Iype, S. Jain, P. Fagan, J. Marvin, D. Padilla, V. Ravichandran, B. Schneider, N. Thanki, H. Weissig, J.D. Westbrook, and C. Zardecki. The Protein Data Bank. Acta Cristallographica Section D : Biological Cristallography, 58 :899–907, 2002.
[6] G.D. Rose, A.R. Geselowitz, G.J. Lesser, R.H. Lee, and M.H. Zehfus. Hydrophobicity of amino acid residues in globular proteins. Science, 229 :834–838, 1985.
221
Annexe B
Bases de donn´ ees de structures prot´ eiques
Nous d´ecrivons ici les diff´erentes bases de donn´ees utilis´ees dans ce travail pour la d´erivation des potentiels de force moyenne. La croissance rapide du nombre de structures de prot´eines d´etermin´ees exp´erimentalement incite en effet une mise `a jour r´eguli`ere des bases de donn´ees. Notons que dans le cas de chaˆınes faisant partie d’une prot´eine multim´erique, seuls les ´el´ements de s´equence qui comprennent au moins un r´esidu de la chaˆıne en question sont consid´er´es lors de la d´erivation des potentiels.
DB
141Cette base de donn´ees est constitu´ee de 141 chaˆınes prot´eiques, dont la structure a
´et´e d´etermin´ee par cristallographie aux rayons X avec une haute r´esolution ( ≤ 2.5 ˚ A), et qui partagent moins de 20% d’identit´e de s´equence [1]. Certaines prot´eines, pr´esentant une identit´e de s´equence comprise entre 20 et 25 % ont ´egalement ´et´e accept´ees, pour autant que leurs structures soient suffisamment diff´erentes. La restriction au niveau de l’identit´e de s´equence vise `a ´eviter une redondance au sein de la base de donn´ees, qui risquerait d’induire un biais des potentiels vers certains types de structures. En effet, les prot´eines de s´equences similaires pr´esentent g´en´eralement des similarit´es structurales.
1abp 1acx 1ald 1cc5 1col A 1cox 1crn 1ctf 1dfn A 1fkf
1gmf A 1gp1 A 1gst A 1hoe 1msb A 1ova A 1pgd 1pi2 1ppt 1prc H 1prc M 1rbp 1rhd 1sn3 1tpk A 1ubq 1utg 1wsy B 2ccy A 2cd4
2cdv 2fxb 2gbp 2gn5 2mt2 2pab A 2stv 2yhx 2zta A 351c
3adk 3blm 3cla 3pgk 3tln 4cpa I 4enl 4sgb I 5cpa 5p21
8adh 8atc A 8cat A 1ak3 A 1bbp A 1c2r A 1cpc B 1cy3 1ecd 1f3g
1fnr 1gd1 O 1gox 1hbg 1hsa A 1ifb 1lh4 1lmb 3 1lpe 1phh
1prc C 1prc L 1psg 1rnh 1rop A 1sar A 1sdh A 1ycc 256b A 2abx A
2alp 2aza A 2cab 2cpp 2cro 2cts 2cyp 2er7 E 2fbj L 2fcr
2gcr 2hip A 2kai A 2kai B 2liv 2lzt 2mhr 2ovo 2prk 2rsp A
2sga 2sns 2sod O 2st1 2tec I 2trx A 3b5c 3chy 3fab H 3fgf
3fxc 3gap A 3grs 3icd 3lzm 3pfk 3wrp 4cpv 4fd1 4fxn
4hhb B 4ins B 4p2p 4tms 4ts1 A 5acn 5hvp A 5pti 5tim A 5tnc
6ldh 6rxn 7pcy 7rsa 7xia 8atc B 8dfr 8i1b 9pap 9rnt
9wga A
Table B.1 – Liste des structures prot´eiques incluses dans la base de donn´ees DB
141.
Chaque structure est identifi´ee par le code PDB et, dans le cas de prot´eines multim´eriques, par le nom de la chaˆıne consid´er´ee.
222
DB
735Cette base de donn´ees est compos´ee de structures cristallographiques de haute r´esolution ( ≤ 2 ˚ A) correspondant `a 735 chaˆınes prot´eiques partageant mois de 20 % d’identit´e de s´equence. La liste de ces chaˆınes prot´eiques a ´et´e d´efinie `a l’aide du serveur (( Culling the PDB by Resolution and Sequence Identity )) , en octobre 2001.
La nouvelle version de ce serveur est disponible sur internet `a l’adresse suivante : http://www.fccc.edu/research/labs/dunbrack/pisces/culledpdb.html [2, 3].
1u9a A 1oac A 1vrk B 1bec 1dgw X 1dgw Y 1fjl A 1elk A 1rb9 1ej0 A 1bk7 A 1thf D 1kve A 1kve B 2end 8acn 2sic I 1tc1 A 1lam 8abp 5rub A 3ebx 2utg A 1thg 1ew6 A 1dy5 A 2nac A 1d8w A 1pmi 1uro A 1kuh 1ixh 1bte A 1qtw A 1htr P 1dmm A 1a4i A 1wfb A 1b0n A 1b0n B 1f58 P 1di6 A 2scp A 1cdc A 1sct B 1qft A 1qf5 A 1vpp X 1qcz A 1ycc 1f83 A 1f83 B 1tif 1evx A 1orc 2tps A 1eqc A 1e1d A 2cpg A 1b5e A 1d0i A 3grs 1fip A 4uag A 1aq0 A 1cse I 1cjw A 1muc A 1qmg A 1shk A
1yag G 1gnd 1a3l L 3lzt 1qnf 1sbw I 1amx 1sfp 1npk 1mrj
1eca 1jhg A 1bfd 1dqg A 1bue A 1nls 3cyr 1c1k A 1c5c H 2btc I
1a12 A 1eg9 A 1eg9 B 1sur 1lcl 2eng 1uox 1ugh I 1qh3 A 1a8d
1dbf A 1rsy 1kpt A 1msi 1svp A 1vps A 1fof A 1b8a A 1moq 2dnj A
1hxn 3vub 1dpj B 1qu9 A 1a2p A 1qpc A 1cm4 B 1kid 1rzl 3daa A
1ctf 1dbg A 1a8e 1csh 1tax A 1qh4 A 1qf8 A 1wwc A 1kp6 A 1isu A
1smd 1f94 A 2tgi 1bm8 1bxa A 1c5e A 2hts 1flm A 1atl A 1b2n A
1b2n B 1dzv P 1fhu A 1wap A 1pnk A 1pnk B 2ctc 1qjp A 1clv I 2mlt A
1b6g 1lou A 1cpo 1vid 1huu A 1sgp I 1hcz 1eyv A 1msk 1dtd B
1d3g A 1bfg 1eok A 1c3j A 1b4k A 1b3m A 1elq A 1pda 1pbe 1mug A 1qlm A 1gof 1fae A 2nlr A 3ezm A 2cpl 1qgw A 1qg8 A 1qgw C 1vie
1cor 1nci A 2bbk L 1rhs 1rh4 1b8d A 1aie 1bgf 1huw 1b2p A
1psc A 4xis 1dk8 A 1qnj A 1byb 1sft A 1fjs L 1qhv A 2ohx A 1qgx A
1jer 1bbp A 1vhh 1nsj 1gpe A 1hyp 1qsa A 1ova A 1ek6 A 1b0u A
1ej8 A 3pyp 1hoe 1dga A 1ql0 A 1mro A 1qj4 A 1mro B 1ctj 1mro C 1dci A 1a8i 1qh8 A 1agj A 1qh8 B 1bdm A 1a6m 1ezw A 1cnv 1vsr A 6rlx A 6rlx B 1mrp 1bxe A 1ayf A 1c3m A 1toa A 1bs0 A 1dlw A 1a34 A 1qqf A 1gsa 1tf4 A 1qkr A 1qj5 A 8prk A 1aru 1eyz A 1pcf A 1chd 1esg A 1bdo 1avm A 1cqq A 1en2 A 1dan T 1d02 A 1dan U 1qre A 1dkz A
1b16 A 2dri 1qks A 1lbu 1jdw 9gaf A 1puc 1a44 2trx A 1edg
1swu A 1dos A 1ads 1b25 A 2fcb A 2mcm 1qmp A 1nps A 1a8l 1yge
1sra 1sac A 1whi 1a53 1pud 1mka A 1f9z A 1iab 1aay A 1ppn
1d8c A 1esi A 1lst 1c3p A 1d1q A 1elw A 1b0y A 1ihs I 1svy 1bkc E 1cel A 1qdd A 3sil 1flt V 1flt X 1mun 1d8d A 1gai 1cem 1cs1 A 1iuz 1dps A 1dp4 A 1do6 A 1bs4 A 1c24 A 1mla 1b2v A 4ubp A 1cnz A 4ubp B 1sml A 4ubp C 1qqj A 1lmb 3 1cka A 1cjc A 1dgf A 1lts A 1lts C 1bd3 A 3tdt 1lkf A 1tx4 A 1mfm A 1nox 1ail 1bup A 1b5q A 1dpt A 1a2z A 1cjd A 2ayh 1byi 1dek A 2ahj A 1qk8 A 1cvl 1ayl 2ahj B 1axn 1a48 1dxe A 1f5f A 1tvx A 1bkf 1jkm B 1aho 1ygh A 1dqs A 1c4q A 1phb 1d0v A 1dow A 1rcf 1dow B 1coz A 2i1b 2ilk 3cao A
1bv1 1oyc 1thv 1pot 1dvj A 1dul A 1d4o A 1tca 2sqc A 1ds1 A
1ctq A 1rec 2pvb A 1cru A 1lki 3chb D 2erl 1qlw A 1fbm A 7ins G 1c52 1dp7 P 1bur S 1ppr M 1gci 1ewf A 4bcl 1czf A 1dxg A 1e30 A 1rva A 1bvq A 1b71 A 1c44 A 1nkd 1b4v A 1a4y A 1koe 1ida A 1aoc A 1qmv A 1edm B 1ceq A 1gky 1taf A 2pth 1tph 1 1cb8 A 1who 1bs9
2por 2ebn 1l58 1ayo A 1dcs 1b8o A 1tag 1a7t A 1af7 1cqy A
1doz A 1bd8 1tyv 1cmb A 1dfm A 1ecp A 1deo A 3pte 2cb5 A 1a68 1ae9 A 1qqp 1 1lkk A 2kin A 1qqp 2 2kin B 1qqp 3 1qqp 4 1dwk A 1gp1 A 1bxo A 2pgd 4pah 1ct5 A 1c3w A 2acy 1b65 A 1atz A 1tl2 A 6gsv A 1xnb 1dfn A 1vqb 1pid A 1ccw A 1pid B 1cc8 A 1ccw B 1afw A 2fha 1hfc 1kpe A 2tys A 2hbg 2tys B 1qb0 A 1aqb 1eye A 1frp A 1unk A
1avw B 1pdo 1aba 1slu A 1gpr 1icf I 1svb 1pjc A 1dbw A 2rn2
2a0b 1han 1aht L 1dvo A 1et1 A 1ako 1ddt 1cvr A 1d3v A 1epx A 1aw7 A 1b67 A 1reg X 1vfy A 1gcm A 1edq A 2qwc 1dbx A 3nul 1be9 A
Table B.2 – Liste des structures prot´eiques incluses dans la base de donn´ees DB
735.
Chaque structure est identifi´ee par le code PDB et, dans le cas de prot´eines multim´eriques, par le nom
de la chaˆıne consid´er´ee.
ANNEXE B. BASES DE DONN ´ EES DE STRUCTURES PROT ´ EIQUES 224
7a3h A 1arb 1d7o A 1azq A 1bg6 1a8v A 1dqz A 1e19 A 1psr A 1nwp A 1a3a A 1qq4 A 1qow A 1aoh A 1gar A 1mty B 1by2 1mty D 1rge A 1qhf A
1mty G 1scj B 1ifc 3cla 1ema 1vjs 1ptq 1hfe S 1bab B 1eyh A
1fvk A 1mgt A 1dhn 1ha1 1amm 1alo 1f41 A 1eu1 A 1c9o A 1cxp A 1dw0 A 1byq A 1f2t A 1dus A 1c7s A 1cxp C 1b93 A 1bx4 A 2sak 2pvi A 1wht A 1qtn A 1wht B 1lml 1qtn B 1fif A 1ejg A 1pbv 1egm A 1g3p 2dtr 1egm B 1cyo 1dlf H 1ajs A 1bgv A 1egm G 1dlf L 1qgi A 1ezg A 1cew I 1cxq A 1byr A 1c83 A 1c75 A 1cex 1d3y A 1mof 2psp A 1qto A 1qoy A 4pga A 1ryc 1df4 A 2olb A 2sn3 1qd1 A 2fdn 1pbw A 1din 1svf A 1erx A 1ubi 1svf B 1trk A 1ay7 B 2baa 1b3a A 1qq7 A 1gdo A 1fgl B 16pk 1bi5 A 1bx7 2ccy A 1cv8 2sns 1qfm A 4eug A 4mt2 5csm A 3seb 1f60 A 1ftr A 1f60 B 1rie 1al3 1dsz A 1e39 A 1a9x B
1phm 1sbp 1duv G 1mml 1ush 1vom 1vls 7atj A 2lis A 1qb7 A
1gd1 O 1f61 A 1czp A 3std A 2bvw A 1et7 A 1es9 A 2arc A 1c1d A 1dmh A 1dlj A 2nsy A 1qq9 A 1bkr A 1zin 1ed8 A 1one A 1hka 1fna 1mpg A 1qfo A 2plc 1ft5 A 1poa 1nba A 2pii 1iib A 1dqa A 1qts A 1d0d A 1qsu A 1fus 1dj0 A 1vfa B 1eg3 A 1fle I 1oaa 1dg6 A 153l 5hpg A 119l 2myr 1eyn A 1dzo A 1tib 256b A 1euv A 1cy5 A 1euv B 1msc
1bj7 1pym A 1bea 1ra9 1ezm 7odc A 1yac A 1wdc A 1iow 1vfb A
1wdc C 1qna A 2igd 1apm I 1fnc 1guq A 1ex2 A 1aop 1czs A 1ew4 A 2hmz A 1poc 1euw A 1pne 1opd 1lfa A 1nbc A 1duz A 2rsp A 2cba 1qus A 1pgs 1c3c A 5pti 1amt A 1fcy A 1dgw A 1alv A 1luc A 1vns 1b6a 1mol A 1beb A 1atg 1qcx A
Table B.2 – (suite)
DB
1403Cette base de donn´ees a ´et´e construite sur la base d’une liste de 1522 chaˆınes prot´eiques partageant mois de 20 % d’identit´e de s´equence, et dont la structure a ´et´e r´esolue par cristallographie aux rayons X avec une haute r´esolution ( ≤ 2 ˚ A). Cette liste a ´et´e extraite du serveur (( Culling the PDB by Resolution and Sequence Identity )) , en octobre 2003. La nouvelle version de ce serveur est disponible sur internet `a l’adresse http://www.fccc.edu/research/labs/dunbrack/pisces/culledpdb.html [3].
Notons que l’analyse d’une macromol´ecule donn´ee par cristallographie aux rayons X fournit un ensemble de coordonn´ees qui ne sont pas ind´ependantes de la sym´etrie cristalline. La plupart du temps, les coordonn´ees d´epos´ees dans la PDB sont celles des atomes n´ecessaires au raffinement des donn´ees exp´erimentales obtenues, c’est-`a- dire les coordonn´ees des atomes inclus dans l’unit´e asym´etrique. Dans certains cas, ces coordonn´ees ne correspondent pas `a l’enti`eret´e de la macromol´ecule biologique, ou au contraire en incluent plusieurs copies. Afin de reprendre dans la base de donn´ees les structures quaternaires correctes des prot´eines s´electionn´ees, nous avons fait usage du serveur (( Protein Quaternary Structure )) (PQS), disponible sur internet `a l’adresse http://pqs.ebi.ac.uk [4]. A partir des coordonn´ees d´epos´ees dans la PDB, ce serveur reconstruit la structure quaternaire la plus vraisemblable de la prot´eine active, sur la base notamment de l’´evaluation de la surface accessible au solvant de r´esidus de diff´erents types et de l’´etablissement d’interactions sp´ecifiques entre chaˆınes.
Par ailleurs, nous avons exclu de la base de donn´ees toutes les structures prot´eiques
qui contiennent plus de 5 % d’h´et´eroatomes ou de r´esidus non-naturels. La base de
donn´ees est finalement constitu´ee de 1403 structures de chaˆınes prot´eiques, qui sont
list´ees en Table B.3.
2baa 1svb A 1lyc A 1dy5 A 1m6i A 1qj4 A 1mso A 1mso B 1kcm A 1jyo A 1nsj A 1jo0 A 2igd 1kpf A 1gkm A 1i1q A 1i1q B 1g60 A 1d2m A 1byb 1ew6 A 1sgp I 1qj5 A 1oe1 A 1p7t A 1csn A 1a4y A 1l6p A 1oc7 A 1p5z B 1nxz A 1mg7 A 1mai 1lci 1uek A 1oja A 1g61 A 1p0k A 1tif 1bea A 1ql0 A 1e87 A 1pn0 A 1cg5 B 1ezm 1nr0 A 1luq A 1g9g A 1gmi A 1f0i A 1k6w A 1jx6 A 1j96 A 1gu2 A 1d2o A 1e4c P 1nox A 1buo A 1njh A 1dp4 A 1tig A 1kgd A 1ddw A 1pn1 A 3vub A 1f2d A 1j1n A 1l6r A 1pdo A 1gvn A 2sic I 1m2x A 1f0j A 1kv7 A 1jd5 A 1gkp A 1k6x A 1nwa A 3pro C 1gtt D 1g5t A 1dqp A 1ucs A 1ext A 1gs9 A 1bup A 1uay A 1lni A 1qtw A 1cuk A 1o0s A 1n2s A 1o9w A 1tyv A 1kcq A 1k92 A 1km4 A 1igq A 1svf A 1svf B 1gvo A 1a3a A 1mun 1iq4 A 1e2k A 1i24 A 1j98 A 1ey4 A 1l1d A 1jer A 1dow A 1dow B 16pk 1arb 1yac A 1gvp A 1oaa A 1vls A 1dhn A 1qtx B 1o13 A 1ng5 A 1ejb A 1ayl A 1gxj A 3eip A 1ugi A 1oxx K 1iq5 B 1stm A 1gtv A 1fc3 A 1gj7 A 1njk A 1pdq A 1e4f T 1a3c A 1pbw A 1mk0 A 1q5y A 1ng6 A 1irq A 1c52 1k94 A 1i40 A 1alu A 1iq6 A 1hs6 A 1gl2 C 1i1w A 1nlf A 1dqs A 1g66 A 1d2s A 1f86 A 1ohl A 1ci4 A 1cqy A 1a92 A 1qu9 A 1g2b A 1m6p A 1kyp A 1e6b A 1lb3 A 1m4v A 1m55 A 1jet A 1klx A 2bsp A 1fmt A 1i27 A 1gu7 A 1kta A 1dqt A 1e0t A 1kic A 1bb1 A 1bb1 B 1htr P
1doz A 1jtg B 1byi A 1pby C 1h7m A 1gxm A 1mi8 A 3lzt 1ad2 1qqf A
1cuo A 1d4o A 1ga6 A 7a3h A 2tgi A 1n8f A 1ayo A 1b8o A 1srv A 1dg6 A
1fdr 1ute A 1l8r A 1odz A 1lv7 A 1lk9 A 1is3 A 1pjc A 1hoe 1j09 A
1gu9 A 1fw9 A 1k5c A 1ct5 A 1d2v A 1bgc 1jke C 1d2v C 1gbs 1k3i A 1gqe A 1hxi A 1m6s A 1mk4 A 1lm4 A 1ejg A 1lb6 A 1b3a A 1k04 A 1qhd A 1pot 2mhr 1j24 A 1jz8 D 1o8b A 1e30 A 1utg A 2ayh 1puc A 1apm I 1vns A 1hdh A 1nqz A 1lm5 A 1hbn A 1iir A 1hbn B 1luz A 1hbn C 1gsa A 1jq5 A 2nac A 1nyc A 1h65 A 1agj A 1f9v A 1oi0 A 1aie A 1fsg A 1k20 B 1i60 A 1gdo A 1kd8 C 1h80 A 1jf8 A 1fp2 A 1vie A 1ezw A 1fn8 A 1m1f A 1bd0 A 1qop B 1pzt A 1bgf A 1lpl A 1mwp A 1l1l A 1oqv A 1h0h B 1kq1 A 1n55 A 1phm 1osp O 1iu1 A 1d8h A 1hw1 A 2hbg 1gxr A 1k07 A 1fp3 A 1eca 1fy7 A 1oai A 1eg5 A 1mpg A 1fn9 B 1n8k A 1b93 A 1dqz A 1e19 A 1jbe A 1d2z A 1o50 A 1oi2 A 1d2z B 1faa A 1ghe A 1lyq A 1e8c A 1mb4 A 1gqi A 1hdk A 1muw A 1qjb A 1e6i A 1lm8 C 1h7s A 1ixh 1gmu A 1n1b A 1lm8 H 1hfe S 1svp A 1hty A 1dk0 A 1fe6 A 1iko P 1hxn 2fdn 1f9y A 1aq0 A 1m1h A 1di6 A 1j9b A 1nln A 1bx4 A 1plc 1i0d A 1oht A 1lm8 V 1toa A 1or7 A 1vpp X 1or7 C 1ofz A 1n57 A 1ni9 A 1i7n A 1kpt A 1ikp A 2hrv A 1qsg A 2tps A 1jpz A 1izc A 1lri A 1pg4 A 1qmy A 1baz A 1sbp 2arc A 1hn0 A 1kew A 1pwb A 1itu A 1jh6 A 1dwk A 1dci A 1gp0 A 1bm8 1gxu A 1byq A 1e2w A 1p0z A 1ewf A 1m93 B 1nsz A 1m93 C 1j5p A 1i7p A 3cla A 1ifc 1eaj A 1bx7 A 1gp1 A 1itv A 1vps A 1hw5 A 1one A 1et1 A 1dv1 A 1gmx A 1byr A 1f0x A 1kve A 1kve B 1p4o A 1aba 1nlq A 1l3k A 1bm9 A 1nuu A 2por A 1qqp 1 1qqp 2 1qqp 3 1iw0 A 1qqp 4 1c3c A 1hdo A 1ld8 A 1ld8 B 1cv8 1itw A 1g0s A 1fr2 A 1fr2 B 1f32 A 1h4a X 1n1f A 1cm4 B 1agq A 1pi1 A 1mpl A 1ojr A 1eyb A 1o4v A 1ail A 1oi7 A 1nm1 G
1lyv A 1fjj A 1wpo A 1hxr A 1mct I 1af7 1itx A 1nls A 1got B 1g13 B
2gdm 1gy7 A 1l7a A 1got G 1qqq A 1iqc A 1wer 1clv I 1b8z A 1o4w A 1bf2 1k3s A 1fle I 1elk A 1bte A 1c1k A 1gxy A 1ugx A 1bkb A 1ugx B 1c8u A 1qft A 1psr A 1opc 1m1n A 1m1n B 1k5n A 2mcm 1he1 A 1dnl A 1mcv I 1b5f B 1a1x 1tl2 A 3sil 1vin 1duv G 1opd 1qoy A 1o6s B
1jmk C 3ezm A 1e1a A 1eye A 1f8e A 1o58 A 1nuy A 1jl0 A 1mrj 1dpg A
1ic2 A 1skz A 1j5u A 1h10 A 1pcf A 1jiw I 1tfe A 1esw A 1jfb A 1c96 A 1q33 A 1jdh A 1k7j A 1jdh B 1a28 A 1l3p A 1npk A 1jl1 A 1hp1 A 1jix A 1g2r A 1oga D 1mka A 1ia9 A 1ubk L 1p6o A 1ubk S 1k7k A 1sbw I 1h4g A 1g6g A 1iom A 1g4m A 1yge 1dek A 1j5w A 1i7w B 1eaq A 1fhu A 1oyj A
1e58 A 1ecl 1ccw A 1ccw B 1amf 2mlt A 1o75 A 1o6v A 1j9l A 1ojx A
1ls1 A 1n8v A 1ku1 A 1eyh A 1idp A 1cnv 1lki 1dpj B 1gr3 A 1ah7 A 1zpd A 1f39 A 1ox0 A 1b25 B 1nz0 A 1ols A 1psw A 1q2w A 1ols B 1qg8 A 1kko A 1nww A 1m22 A 1dcs A 1nm8 A 2cpg A 1gso A 1c5e A 1i9s A 1in4 A 1ks8 A 1k3y A 1ogd A 1btk A 1i88 A 1m7b A 1oej A 1bs0 A 1e6u A 1ctf A
1dlw A 1co6 A 1nep A 1orc 1kbl A 1ka1 A 1ku3 A 1koe 1mo9 A 1j83 B
1jkv A 1lq9 A 1ks9 A 1hzt A 1dyp A 1nri A 2cb5 A 1euv A 1euv B 1dd3 C 1jqe A 1lkk A 3nul 1ygh A 1mgq A 1gwe A 1sfp A 1g8e A 1fec A 1l5o A 1fye A 1i2k A 1ako A 1flm A 1aoc A 1a62 1mrp 1h16 A 2psp A 1nrj A
Table B.3 – Liste des structures prot´eiques incluses dans la base de donn´ees DB
1403.
Chaque structure est identifi´ee par le code PDB et, dans le cas de prot´eines multim´eriques, par le
nom de la chaˆıne consid´er´ee. Les codes en caract`eres gras correspondent aux prot´eines pour lesquelles
la structure quaternaire d´efinie par PQS est utilis´ee. Dans ces cas, les noms de chaˆınes peuvent ˆetre
diff´erents de ceux attribu´es dans les fichiers PDB.
ANNEXE B. BASES DE DONN ´ EES DE STRUCTURES PROT ´ EIQUES 226
1euw A 1tvx A 2nlr A 1ijb A 1d8w A 1qhv A 1huf A 1nyt A 1btn A 1nwz A
1mf7 A 1mz9 A 1e1h A 1eej A 1lvk 1e1h B 1i0r A 1jkx A 1fur A 1fv1 C
1nte A 1nig A 1cq3 A 1iua A 1b43 A 1oo0 A 1qnf 1lu0 A 1m40 A 1nnw A
1gak A 1jc4 A 1hqs A 1i12 A 1h32 A 1hfu A 1h2s B 1ex2 A 1elu A 1ldd A 1g2y A 1mvf D 1eb6 A 1uok 1kzf A 1jhd A 1c24 A 2cpl 1n3l A 1nrl C 1q4v A 1qi7 A 1l7l A 1od3 A 1cew I 1mgt A 1h6h A 1f58 P 1sac A 1mpx A
1jy1 A 1dtd B 1rhs 1jdp H 1j7x A 2eng 1qlm A 1ogi A 1c3p A 1gqz A
1m7g A 1mki A 1lmi A 1p90 A 1koi A 1lvm A 1nps A 1nkd A 1lts A 1f1e A 1lts C 1je0 A 1n08 A 1iab 1jbw A 1fm0 D 1fm0 E 1d1q A 1f74 A 1nth A 1jy2 N 1jy2 O 1e8u A 1jy2 P 1nij A 1jsd A 1jsd B 1eay C 1wdc A 4mt2 A 1j2j B 1i4j A 1o8x A 1olz A 1rss 1o97 D 1ldg A 1jdr A 1fnl A 1ifr A 1m1z A 1jmv A 1h8d L 1al3 A 1nba A 1jw9 B 1aoh A 1i9z A 1g55 A 1gci 1pym A 1cs1 A 1mkk A 1flr L 1dd9 A 1iow A 1oz2 A 1jhg A 1h8e A 1od6 A 1o04 A 1o98 A 1h6k A 1m3u A 1h8e H 1h8e I 1cmc A 1g8k A 1hhs A 1lml 1eyq A 1fm2 B 1h2w A 1p1j A 1df4 A 1kqf A 1lxj A 1kqf C 1m7j A 1kol A 1mtp A 1c1y B 1mtp B 1pb7 A 1mdc 1axn 1h6l A 1m45 B 1ig3 A 1jmx B 1nbc A 1lqa A 1khc A 1mxe E 1i8a A 1o20 A 1kzk B 1onw A 1k0m A 6rlx A 1ll2 A 6rlx B 1ocy A 1o06 A 1i4m A 1jos A 1flt X 1l5w A 1g8m B 1lj8 A 1k7w A 1fcq A 1otf A 1g6s A 1fx2 A 1g72 B 1fm4 A 2a0b 1g4y B 1khd A 2ccy A 1cru A 1mvl A 1oq1 A 1l9l A 1jhj A 1gef A 1aol 1gyh A 1nf9 A 1kmt A 1mh9 A 1dtj A 1je5 A 1k87 A 1i2t A 1gut B 1g73 A 1eer A 1eer B 1ez3 A 1i19 A 1ef1 C 1mxg A 1uc8 A 1mmi A 1bkr A 1k4c C 1jdw 1 1qau A 1b65 A 1wfb A 1nxb 1o22 A 1lc0 A 1o08 A 1cdc B 1m48 A 2dpm A 1jp4 A 1pid A 1c7k A 1ogo X 1g6u A 1f94 A 1m0d A 2hft A 1i8d A 1b66 A 1din 1qb5 D 1avw B 1mj5 A 1ky3 A 1isp A 1gnl A 1jg1 A 1jzt A 1ihr A 1ltz A
1rsy 1jov A 1qge E 1fd3 A 1gk7 A 1ds1 A 2dri 1eyv A 1mxi A 5csm A
1lok A 1oh0 A 1mbm A 2lis A 1iuk A 1oew A 8abp 1mof A 1taf A 1taf B
1bqc A 1mml A 1dki A 1f1m D 1h70 A 1g8q A 1tca 1eq2 A 1ihs I 1otj A
1gk8 A 1udv A 1qd1 A 1lzj A 1amu A 1gk8 I 1bu8 A 1qb7 A 1avy A 1ns5 A
1oz9 A 1uxy 1m65 A 1mix A 1aop 1qre A 1c7n A 1gux A 1h4x A 1gux B
1gk9 A 1lbu 1gk9 B 2pgd A 4eug A 1qcs A 1khi A 1pz4 A 1ogs A 1qlw A 1oey A 1reg X 1kzq A 1nrw A 1gpi A 1azo 1d9c A 1nh8 A 1m5w A 1k12 A 1jr2 A 1fpo A 1oey J 1gd0 A 1gcq C 1dto A 1iqy A 1h72 C 1obd A 1p5f A 1dj0 A 1bdm A 1cfb 1dgw A 1qnr A 1pq1 A 1l2h A 1ksh B 1pq1 B 1juh A 1lzl A 1h1d A 1qaz A 1o1x A 1icf I 3pcg A 1g1j A 1lc5 A 1fgl B 1amx 1gx3 A 1qgi A 1dgw Y 1iqz A 1i39 A 1vhh 1gv9 A 1mzg A 1eex A 1eex E 1d3v A 1qo2 A 1nvm A 1nvm B 1eex G 1k4i A 1ors C 1n62 A 1sur A 1n62 B 1n62 C 1uox A 1bdo A 1c2a A 1mty B 1ijq A 1dmg A 1mty D 1isu A 1e5k A 1mty G 1scj B 1i4u A 7odc A 1gwu A 2bbk H 1m2d A 7ahl A 1fcy A 2bbk L 1a12 A 1obf O 1kqp A 1nrz A 1o1z A 1ji1 A 1dmh A 1lw9 A 1h8p A 1jfx A 1oxc A 1gx5 A 1cvr A 1b0n A 1o7i A 1b0n B 1epx A 1ksk A 1n7o A 1huw A 1g5a A 1oru A 1q98 A 1ay7 B 1o3u A 1ogw A 1mc2 A 1n5u A 1k30 A 1by2 1d0c A 1jhs A 1dxg A 1kp6 A 1hx0 A 1nkr 1ff4 A 1a4i A 1nof A 1e42 A 1fo8 A 1nxj A 1o7j A 1f08 A 1mol A 1k6f A 1jcd A 1d3y A 1l2l A 1qcx A
1uca A 1na3 A 1iwl A 1ntv A 1iap A 1d0d A 1ekj A 1pgs 1i71 A 1jr7 A
1ois 1nze A 1go3 E 1hjz A 1nog A 1cdl E 1go3 F 1jya A 1ug6 A 1d5t A
1kae A 1kug A 1e29 A 1mdo A 1jak A 1iwm A 1rb9 1dvo A 1gnu A 1ej0 A 1i58 A 1sra 1gwy A 1c9o A 2sli 2erl 1pin A 2sak 1jnd A 1kaf A 1qnx A 1qo7 A 1mxr A 1msc A 1lfp A 1k4n A 3fap B 1ml9 A 1l9x A 1iv3 A
1gpp A 1sei A 1ijv B 1pvg A 1luc A 1o9g A 2ptd 1b6a 1nxm A 1p42 A
1d7p M 1q08 A 1n7s A 1ae9 A 1n7s B 1dqa A 1n7s C 1n7s D 1o3y A 1j6o A 1aho 1g3k A 1kr4 A 1hyo A 1ib2 A 1j54 A 1gpq A 1hd2 A 1dbo A 1whi A 1cxq A 1dl2 A 1a4m A 1hyp 1chd 1dj8 A 1b12 A 1o7n B 1qf5 A 1gpr A 1b9w A 1lqp A 1ajj 1mxt A 1inl A 1e0b A 1dzf A 1evl A 1iat A 1ji7 A 1e7l A 1fs1 A 1moq A 1eu1 A 1nqe A 1n2e A 1slu A 1m2k A 1qq4 A 1mfm A 1k6k A 1f9a F 1mqk H 1t1d A 1ual A 1f5m A 1ujp A 1hx6 A 1ijy A 1oxj A
1gny A 1kwf A 1lsl A 2pii A 1aqu A 1a8d 1bxy A 1n9p A 1vca A 3thi A
1g5h A 1ptq 1h1n A 1jk3 A 1f5n A 1k2x A 2ilk A 1q7e A 1k2x B 1gyx A 1h97 B 1l8a A 1hm9 B 1uch 1edg 1b2p A 1lug A 1erz A 1kwg A 1es9 A 2pth 1obo A 1a8e 1h03 P 1qf8 A 1me4 A 2pvb A 1fvi A 1ofc X 1dqe A
Table B.3 – (suite 1)
1at0 A 1mn8 A 1id0 A 1uan A 1vcc 1iv8 A 1j58 A 1ekq A 1cse I 1ooh A 1lwb A 1gz8 A 1l8b A 1f3u A 1f3u B 1qs1 A 1poc A 1ow1 A 1jyh A 1g3p
1cc8 A 1ny1 A 1qq7 A 1b16 A 1gvd A 1prx A 2spc A 1pmi 1jcl A 1nc5 A
1lqt A 1my7 A 1m9x C 1j73 A 2ahj A 2ahj B 1pxg A 1h05 A 1ekr A 1trb A 1muc A 1czp A 1fs5 A 1h99 A 1f3v A 1vfy A 1cy5 A 1b0x A 1o7s A 1gve A 1ou8 A 1kjq A 1d4a A 1mdw A 1jm0 A 1gtk A 1a6m 1lfw A 1fvk A 1io0 A 1b8a A 1hq0 A 1fkm A 1dzk A 1vsr A 1hz4 A 1f60 A 1f60 B 1cqm A 1fj2 A 1lwd A 1qtn A 1qtn B 1cp2 A 1f46 A 1nqj A 1who 1m4j A 1pa1 A 1qh5 A 1mla 1kll A 1fob A 1gvf A 1li1 A 1m15 A 1jm1 A 1n7z A 1io1 A 1lg7 A 1msk 1jat A 1jb3 A 1m9z A 1khx A 1k55 A 1a53 1ftr A 1efd N 1ea5 A 1etx A 1j3a A 1odm A 1kng A 1dkz A 1l6k A 1ow4 A 4ubp A 4ubp B 1jyk A 1n0q A 2tnf A 1k8k C 1k8k D 1eqc A 1a2z A 1k8k E 1k8k F 1k8k G 1ezg A 1m0w A 1m16 A 1kt6 A 1dqi A 1jjy A 1hz6 A 1ew2 A 1gq8 A 1kyf A 1bqu A
1m4l A 1wwc A 1mhn A 1anf 1p5v B 1h3n A 1j8r A 1qmg A 1ffa 1j77 A
1n6a A 1uas A 1tx4 A 1mug A 1dbx A 1h7c A 1ten 1on2 A 1jek A 1n12 A
1jek B 1o86 A 1mg4 A 1kb0 A 1mzw B 1ueh A 1a6q 1eok A 1qdd A 1fl0 A
1edm B 1dzo A 1chm A 1lst 1d0q A 1ew4 A 1el6 A 1ajs A 1o9r A 1on3 A
1kwn A 1n13 A 1n13 B 1gkl B 3seb 1whs A 1lam A 1whs B 1dfn A 1j79 A 1j6z A 1ix9 A 1gs5 A
Table B.3 – (suite 2)
Bibliographie
[1] R.T. Wintjens, M.J. Rooman, and S.J. Wodak. Automatic classification and analysis of αα-turn motifs in proteins. Journal of Molecular Biology, 255 :235–253, 1996.
[2] U. Hobohm, M. Scharf, R. Schneider, and C. Sander. Selection of representative protein data sets. Protein Science, 1 :409–417, 1992.
[3] G. Wang and R. Dunbrack. PISCES : a protein sequence culling server.
Bioinformatics, 19 :1589–1591, 2003.
[4] K. Henrick and J.M. Thornton. PQS : a protein quaternary structure file server.
Trends in Biochemical Science, 23 :358–361, 1998.
228
Annexe C Fugue
Le programme Fugue a pour objectif la pr´ediction de la conformation pr´ef´er´ee de fragments de s´equences de prot´eines, en se basant uniquement sur des interactions locales le long de la chaˆıne, et l’identification de fragments qui poss`edent une conformation fortement pr´ef´er´ee en absence d’interactions tertiaires [1, 2].
Dans un premier temps, la s´equence cible est divis´ee en fenˆetres successives de 5
`a 15 acides amin´es cons´ecutifs le long de la s´equence, chaque fenˆetre ´etant d´ecal´ee d’un r´esidu par rapport `a la pr´ec´edente. Au sein de ces fenˆetres, chaque r´esidu est successivement associ´e `a chacune des 7 conformations possibles de sa chaˆıne principale (voir Annexe A). L’´energie de chaque conformation est ´evalu´ee `a l’aide d’un potentiel bas´e sur les fr´equences d’observation, dans une base de donn´ees de structures prot´eiques, de l’association entre un acide amin´e de type s
i, en position i le long de la s´equence, ou d’une paire d’acides amin´es de types s
iet s
jen positions i et j, respectivement, avec un domaine d’angles de torsion de la chaˆıne principale (t
k) en position k. L’´energie associ´ee aux r´esidus inclus dans la fenˆetre lorsqu’ils adoptent une certaine conformation est donn´ee par :
∆W = − kT X
k
X
i,j<i
1 ξ ln
· F (t
k, s
i, s
j)
F (t
k)F (s
i, s
j) + F (t
k, s
i) F (t
k)F (s
i)
¸
, (C.1)
o` u la somme est r´ealis´ee sur les positions k incluses dans la fenˆetre consid´er´ee, et sur les positions i et j qui respectent la condition k − 8 ≤ i, j ≤ k + 8. Le facteur 1/ξ est un facteur de normalisation qui ´evite de compter plusieurs fois chaque couple r´esidu - domaine de torsion. ξ correspond au nombre de positions i qui respectent la condition k − 8 ≤ i ≤ k + 8, et prend donc la valeur de 17, sauf `a proximit´e des extr´emit´es de la chaˆıne prot´eique. Ce potentiel est ´equivalent `a la combinaison des potentiels d´efinis en Section 4.2.1 (Equations 4.4 et 4.10) : ∆W
ts+ (1/ξ)∆W
tss. Notons que l’utilisation de ce potentiel n´ecessite de faire l’hypoth`ese que la conformation d’un r´esidu d´epend de la nature mais pas de la conformation des r´esidus voisins, ce qui permet d’´evaluer toutes les conformations de plus basse ´energie en un temps raisonnable. Fugue dispose alors, dans chaque fenˆetre, d’une liste des conformations les plus favorables.
Si, dans un fenˆetre donn´ee, l’´ecart ´energ´etique entre la meilleure conformation et la premi`ere conformation significativement diff´erente (la similarit´e entre les structures est mesur´ee `a l’aide du r.m.s.d : l’´ecart quadratique moyen minimal entre les positions des atomes des deux chaˆınes principales) est suffisamment important (∆W ≥ 0.5 kcal/mole),
229
ANNEXE C. FUGUE 230 la structure pr´edite est retenue. Selon le nombre de recoupements entre les pr´edictions dans les diff´erentes fenˆetres o` u apparaˆıt un r´esidu particulier, un score est attribu´e `a la pr´ediction structurale qui correspond `a ce r´esidu.
Le programme Fugue peut ˆetre utilis´e dans le but de pr´edire la conformation adopt´ee par certains r´esidus au sein de la structure native de la prot´eine `a laquelle ils appartiennent. Comme avec tous les autres programmes de pr´ediction bas´es uniquement sur des interactions locales, ´etablies entre r´esidus proches dans la s´equence, on ne peut cependant s’attendre `a des pr´edictions parfaites. Les interactions tertiaires, ´etablies entre r´esidus proches dans l’espace mais ´eloign´es dans la s´equence, ont en effet une importance non n´egligeable. Des tests, effectu´es sur un ensemble de 69 prot´eines, ont montr´e que Fugue pr´edit une conformation pr´ef´er´ee pour 44% des r´esidus de ces prot´eines et que, parmi ceux-ci, 56% adoptent effectivement cette conformation dans la structure native [1]. Le pourcentage de succ`es augmente jusqu’`a 73% lorsque les 7 domaines d’angles de torsion de la chaˆıne principale sont group´es en trois conformations distinctes : h´elice (domaines A et C), conformation ´etendue (B et P) et tournant (E, G et O). Notons que des pourcentages plus importants de pr´edictions correctes sont obtenus si l’on ne consid`ere que les r´esidus ayant un score de pr´ediction ´elev´e, ce qui a ´egalement comme cons´equence la diminution du nombre de r´esidus dont la conformation est pr´edite.
Par ailleurs, les segments de la s´equence d’une prot´eine pour lesquels une conforma-
tion fortement pr´ef´er´ee en absence d’interactions tertiaires est pr´edite par Fugue sont
fort susceptibles de correspondre `a des r´egions qui se structurent rapidement au d´ebut
du processus de reploiement, ou `a des peptides qui adoptent pr´ef´erentiellement une telle
conformation en solution [1–3].
Bibliographie
[1] M.J. Rooman, J.P. Kocher, and S.J. Wodak. Extracting information on folding from the amino acid sequence : accurate predictions for protein regions with preferred conformation in the absence of tertiary interactions. Biochemistry, 31 :10226–10238, 1992.
[2] M.J. Rooman and S.J. Wodak. Extracting information on folding from the amino acid sequence : consensus regions with preferred conformation in homologous proteins.
Biochemistry, 31 :10239–10249, 1992.
[3] A. Pintar, A. Chollet, C. Bradshaw, A. Chaffotte, C. Cadieux, M.J. Rooman, K. Hallenga, J. Knowles, M. Goldberg, and S.J. Wodak. Conformational properties of four peptides corresponding to alpha-helical regions of Rhodospirillum cytochrome c2 and bovine calcium binding protein. Biochemistry, 33 :11158–11173, 1994.
231
Annexe D PoPMuSiC
PoPMuSiC est un programme de pr´ediction du changement de stabilit´e de prot´eines suite `a des mutations ponctuelles [1–3]. Ce programme est disponible sur internet, `a l’adresse http://babylone.ulb.ac.be/popmusic. Il utilise comme entr´ee la structure de la prot´eine cible en format PDB [4], et est bas´e sur l’hypoth`ese qu’une mutation ponctuelle ne modifie pas significativement la conformation de la chaˆıne principale de la prot´eine. Chaque r´esidu est successivement remplac´e par les 19 autres acides amin´es et la diff´erence d’´energie libre entre la prot´eine sauvage et la prot´eine mutante est calcul´ee.
Les mutations les plus stabilisantes, les plus d´estabilisantes, ou celles qui affectent le moins la stabilit´e de la prot´eine peuvent alors ˆetre s´electionn´ees.
L’´evaluation de l’´energie libre est r´ealis´ee `a l’aide de potentiels de force moyenne, sur base de la repr´esentation simplifi´ee des prot´eines pr´esent´ee en Annexe A. Les potentiels utilis´es sont les suivants :
1. Potentiel de torsion ` a courte port´ ee (∆W
cptor). Ce potentiel est calcul´e `a partir des fr´equences d’observation, dans la base de donn´ees de structures prot´eiques, de l’association entre acide amin´e de type s
k, en position k le long de la s´equence, avec un domaine d’angles de torsion de la chaˆıne principale (t
i), ou une paire de domaines d’angles de torsion (t
i, t
j). Ce potentiel est `a courte port´ee car seuls les domaines d’angles de torsion (t
i, t
j) avec k − 1 ≤ i, j ≤ k + 1 sont pris en compte.
L’´energie totale de la prot´eine s’exprime par :
∆W
cptor= − kT X
k
X
i,j<i
1 ξ ln
· F (t
i, t
j, s
k)
F (t
i, t
j)F (s
k) + F (t
i, s
k) F (t
i)F (s
k)
¸
, (D.1)
o` u la somme est r´ealis´ee sur tous les r´esidus, en positions k dans la s´equence, et sur les positions i et j qui respectent la condition k − 1 ≤ i, j ≤ k + 1. Le facteur 1/ξ est un facteur de normalisation ´evite de compter plusieurs fois chaque couple r´esidu - domaine de torsion. ξ correspond `a la taille de la fenˆetre [k − 1, k + 1] et prend donc la valeur de 3, sauf `a proximit´e des extr´emit´es de la chaˆıne prot´eique.
Ce potentiel est ´equivalent `a la combinaison des potentiels d´efinis en Section 4.2.1 (Equations 4.4 et 4.8) : ∆W
ts+ (1/ξ )∆W
tts.
2. Potentiel de torsion ` a moyenne port´ ee (∆W
mptor). Ce potentiel est identique au potentiel pr´ec´edent, si ce n’est qu’il prend en compte les domaines de torsions correspondants aux positions i, j telles que k − 8 ≤ i, j ≤ k + 8.
232
3. Potentiel de distance (∆W
dis). Ce potentiel est calcul´e `a partir des fr´equences avec lesquelles deux r´esidus de types respectifs s
iet s
jsont s´epar´es par une certaine distance spatiale r
ijdans la base de donn´ees. Les distances r
ijsont d´efinies comme
´etant celles s´eparant les pseudo-atomes C
µ(voir Annexe A) des deux r´esidus.
Les r´esidus cons´ecutifs dans la s´equence ne sont pas pris en compte, car la distance qui les s´epare et approximativement constante. Les fr´equences sont calcul´ees de mani`ere distincte pour les r´esidus s´epar´es par une `a six positions le long de la s´equence, tandis que les paires s´epar´ees par plus de six r´esidus sont regroup´ees dans une seule fonction ´energ´etique. Ceci permet de tenir compte d’une composante locale et de la d´ecoupler des interactions non-locales, ´etablies entre r´esidus ´eloign´es dans la s´equence mais proches dans l’espace.
Les distances r
ijcomprises entre 3 et 8 ˚ A sont r´eparties en 25 domaines de 0.2 ˚ A de largeur. Les distances inf´erieures `a 3 ˚ A sont regroup´ees en un seul domaine. Il en va de mˆeme pour les distances sup´erieures `a 8 ˚ A. Afin de lisser le potentiel, les fr´equences relatives d’observation dans chaque domaine sont combin´ees avec celles des 10 domaines voisins, de part et d’autre, avec un poids d´ecroissant lorsque la s´eparation par rapport au domaine central diminue. L’´energie totale de la prot´eine vaut :
∆W
dis= − kT X
i,j<i