• Aucun résultat trouvé

La chaˆıne principale des prot´eines est repr´esent´ee par les atomes N, C

N/A
N/A
Protected

Academic year: 2021

Partager "La chaˆıne principale des prot´eines est repr´esent´ee par les atomes N, C"

Copied!
17
0
0

Texte intégral

(1)

Annexe A

Repr´ esentation simplifi´ ee des prot´ eines

La chaˆıne principale des prot´eines est repr´esent´ee par les atomes N, C

α

, C et O. Les chaˆınes lat´erales des r´esidus sont prises en compte par l’interm´ediaire du C

β

et d’un atome virtuel : le C

µ

(Figure A.1). Le centre de cet atome correspond `a la moyenne g´eom´etrique des coordonn´ees des atomes (`a l’exception des atomes d’hydrog`ene) de la chaˆıne lat´erale du r´esidu consid´er´e, pour toutes les conformations adopt´ees par ce type de r´esidu dans la base de donn´ees de structures prot´eiques [1]. Dans le cas de la glycine, le C

β

et le C

µ

sont positionn´es sur le C

α

. Les pseudo-atomes C

µ

permettent de tenir compte, partiellement, des sp´ecificit´es g´eom´etriques des diff´erents acides amin´es. Ils ont cependant une position fixe pour chaque type d’acide amin´e, ce qui implique que les degr´es de libert´e des chaˆınes lat´erales sont n´eglig´es. Dans ce travail, lorsque la distance (r

ij

) s´eparant deux r´esidus est ´evoqu´ee, il s’agit de la distance s´eparant les pseudo-atomes C

µ

des deux r´esidus consid´er´es.

Figure A.1 – Exemples de positions des pseudo-atomes C

µ

. Deux acides amin´es sont repr´esent´es, avec les diff´erentes conformations accessibles aux chaˆınes lat´erales, telles qu’observ´ees dans une base de donn´ees de prot´eines de structures connues [1].

La conformation de la chaˆıne principale d’une prot´eine est compl`etement d´efinie par les angles de torsion (φ, ψ, ω) de chaque r´esidu (Figure A.2.a). Ces angles n’adoptent pas n’importe quelles valeurs et les conformations accessibles peuvent ˆetre regroup´ees en 7 domaines, qui sont s´epar´es par des barri`eres de potentiel [2,3]. Les limites de ces domaines

219

structurations alternatives. Dehouck Yves. Mai 2005.

(2)

ANNEXE A. REPR ´ ESENTATION SIMPLIFI ´ EE DES PROT ´ EINES 220 sont repr´esent´ees sur la carte de Ramachandran, en Figure A.2.b. Les domaines A et C correspondent aux h´elices α et 3

10

. Les domaines B et P repr´esentent des conformations

´etendues, avec le domaine B correspondant essentiellement aux feuillets β et le domaine P aux conformations de type polyproline. Les domaines G et E correspondent plutˆot `a des tournants et le domaine O `a une conformation cis (ω = 0

). Ce dernier domaine n’est accessible qu’`a un nombre r´eduit d’acides amin´es, dont essentiellement la proline.

Figure A.2 – Angles di`edres d´efinissant la conformation de la chaˆıne principale. (a) Repr´esentation sch´ematique d’un tripeptide. Les noms des atomes de la chaˆıne principale sont indiqu´es, ainsi que les angles di`edres φ, ψ et ω associ´es au r´esidu central (Tyrosine). (b) Division de la carte de Ramachandran en domaines, qui correspondent aux valeurs accessibles aux angles φ, ψ et ω.

L’accessibilit´e au solvant A d’un r´esidu dans une prot´eine est d´efinie comme le rapport

(en pourcents) de la surface accessible au solvant de ce r´esidu, calcul´ee `a l’aide du

programme SurVol [4] sur la base du fichier PDB [5] d´ecrivant la structure de cette

prot´eine, et de celle de d’un acide amin´e de mˆeme type au sein d’un tripeptide Gly-X-

Gly [6].

(3)

Bibliographie

[1] J.P. Kocher, M.J. Rooman, and S.J. Wodak. Factors influencing the ability of knowledge-based potentials to identify native sequence-structure matches. Journal of Molecular Biology, 235 :1598–1613, 1994.

[2] G. Ramachandran and V. Sasiekharan. Conformation of peptides and proteins.

Advances in Protein Chemistry, 23 :283–437, 1968.

[3] M.J. Rooman, J.-P.A. Kocher, and S.J. Wodak. Prediction of protein backbone conformation based on 7 structure assignments : influence of local interactions.

Journal of Molecular Biology, 221 :961–979, 1991.

[4] P. Alard. Calculs de surface et d’´energie dans le domaine des macromol´ecules. PhD thesis, Universit´e Libre de Bruxelles, 1991.

[5] H.M. Berman, T. Battistuz, T.N. Bhat, W.F. Bluhm, P.E. Bourne, K. Burkhardt, Z. Feng, G.L. Gilliland, L. Iype, S. Jain, P. Fagan, J. Marvin, D. Padilla, V. Ravichandran, B. Schneider, N. Thanki, H. Weissig, J.D. Westbrook, and C. Zardecki. The Protein Data Bank. Acta Cristallographica Section D : Biological Cristallography, 58 :899–907, 2002.

[6] G.D. Rose, A.R. Geselowitz, G.J. Lesser, R.H. Lee, and M.H. Zehfus. Hydrophobicity of amino acid residues in globular proteins. Science, 229 :834–838, 1985.

221

(4)

Annexe B

Bases de donn´ ees de structures prot´ eiques

Nous d´ecrivons ici les diff´erentes bases de donn´ees utilis´ees dans ce travail pour la d´erivation des potentiels de force moyenne. La croissance rapide du nombre de structures de prot´eines d´etermin´ees exp´erimentalement incite en effet une mise `a jour r´eguli`ere des bases de donn´ees. Notons que dans le cas de chaˆınes faisant partie d’une prot´eine multim´erique, seuls les ´el´ements de s´equence qui comprennent au moins un r´esidu de la chaˆıne en question sont consid´er´es lors de la d´erivation des potentiels.

DB

141

Cette base de donn´ees est constitu´ee de 141 chaˆınes prot´eiques, dont la structure a

´et´e d´etermin´ee par cristallographie aux rayons X avec une haute r´esolution ( ≤ 2.5 ˚ A), et qui partagent moins de 20% d’identit´e de s´equence [1]. Certaines prot´eines, pr´esentant une identit´e de s´equence comprise entre 20 et 25 % ont ´egalement ´et´e accept´ees, pour autant que leurs structures soient suffisamment diff´erentes. La restriction au niveau de l’identit´e de s´equence vise `a ´eviter une redondance au sein de la base de donn´ees, qui risquerait d’induire un biais des potentiels vers certains types de structures. En effet, les prot´eines de s´equences similaires pr´esentent g´en´eralement des similarit´es structurales.

1abp 1acx 1ald 1cc5 1col A 1cox 1crn 1ctf 1dfn A 1fkf

1gmf A 1gp1 A 1gst A 1hoe 1msb A 1ova A 1pgd 1pi2 1ppt 1prc H 1prc M 1rbp 1rhd 1sn3 1tpk A 1ubq 1utg 1wsy B 2ccy A 2cd4

2cdv 2fxb 2gbp 2gn5 2mt2 2pab A 2stv 2yhx 2zta A 351c

3adk 3blm 3cla 3pgk 3tln 4cpa I 4enl 4sgb I 5cpa 5p21

8adh 8atc A 8cat A 1ak3 A 1bbp A 1c2r A 1cpc B 1cy3 1ecd 1f3g

1fnr 1gd1 O 1gox 1hbg 1hsa A 1ifb 1lh4 1lmb 3 1lpe 1phh

1prc C 1prc L 1psg 1rnh 1rop A 1sar A 1sdh A 1ycc 256b A 2abx A

2alp 2aza A 2cab 2cpp 2cro 2cts 2cyp 2er7 E 2fbj L 2fcr

2gcr 2hip A 2kai A 2kai B 2liv 2lzt 2mhr 2ovo 2prk 2rsp A

2sga 2sns 2sod O 2st1 2tec I 2trx A 3b5c 3chy 3fab H 3fgf

3fxc 3gap A 3grs 3icd 3lzm 3pfk 3wrp 4cpv 4fd1 4fxn

4hhb B 4ins B 4p2p 4tms 4ts1 A 5acn 5hvp A 5pti 5tim A 5tnc

6ldh 6rxn 7pcy 7rsa 7xia 8atc B 8dfr 8i1b 9pap 9rnt

9wga A

Table B.1 – Liste des structures prot´eiques incluses dans la base de donn´ees DB

141

.

Chaque structure est identifi´ee par le code PDB et, dans le cas de prot´eines multim´eriques, par le nom de la chaˆıne consid´er´ee.

222

(5)

DB

735

Cette base de donn´ees est compos´ee de structures cristallographiques de haute r´esolution ( ≤ 2 ˚ A) correspondant `a 735 chaˆınes prot´eiques partageant mois de 20 % d’identit´e de s´equence. La liste de ces chaˆınes prot´eiques a ´et´e d´efinie `a l’aide du serveur (( Culling the PDB by Resolution and Sequence Identity )) , en octobre 2001.

La nouvelle version de ce serveur est disponible sur internet `a l’adresse suivante : http://www.fccc.edu/research/labs/dunbrack/pisces/culledpdb.html [2, 3].

1u9a A 1oac A 1vrk B 1bec 1dgw X 1dgw Y 1fjl A 1elk A 1rb9 1ej0 A 1bk7 A 1thf D 1kve A 1kve B 2end 8acn 2sic I 1tc1 A 1lam 8abp 5rub A 3ebx 2utg A 1thg 1ew6 A 1dy5 A 2nac A 1d8w A 1pmi 1uro A 1kuh 1ixh 1bte A 1qtw A 1htr P 1dmm A 1a4i A 1wfb A 1b0n A 1b0n B 1f58 P 1di6 A 2scp A 1cdc A 1sct B 1qft A 1qf5 A 1vpp X 1qcz A 1ycc 1f83 A 1f83 B 1tif 1evx A 1orc 2tps A 1eqc A 1e1d A 2cpg A 1b5e A 1d0i A 3grs 1fip A 4uag A 1aq0 A 1cse I 1cjw A 1muc A 1qmg A 1shk A

1yag G 1gnd 1a3l L 3lzt 1qnf 1sbw I 1amx 1sfp 1npk 1mrj

1eca 1jhg A 1bfd 1dqg A 1bue A 1nls 3cyr 1c1k A 1c5c H 2btc I

1a12 A 1eg9 A 1eg9 B 1sur 1lcl 2eng 1uox 1ugh I 1qh3 A 1a8d

1dbf A 1rsy 1kpt A 1msi 1svp A 1vps A 1fof A 1b8a A 1moq 2dnj A

1hxn 3vub 1dpj B 1qu9 A 1a2p A 1qpc A 1cm4 B 1kid 1rzl 3daa A

1ctf 1dbg A 1a8e 1csh 1tax A 1qh4 A 1qf8 A 1wwc A 1kp6 A 1isu A

1smd 1f94 A 2tgi 1bm8 1bxa A 1c5e A 2hts 1flm A 1atl A 1b2n A

1b2n B 1dzv P 1fhu A 1wap A 1pnk A 1pnk B 2ctc 1qjp A 1clv I 2mlt A

1b6g 1lou A 1cpo 1vid 1huu A 1sgp I 1hcz 1eyv A 1msk 1dtd B

1d3g A 1bfg 1eok A 1c3j A 1b4k A 1b3m A 1elq A 1pda 1pbe 1mug A 1qlm A 1gof 1fae A 2nlr A 3ezm A 2cpl 1qgw A 1qg8 A 1qgw C 1vie

1cor 1nci A 2bbk L 1rhs 1rh4 1b8d A 1aie 1bgf 1huw 1b2p A

1psc A 4xis 1dk8 A 1qnj A 1byb 1sft A 1fjs L 1qhv A 2ohx A 1qgx A

1jer 1bbp A 1vhh 1nsj 1gpe A 1hyp 1qsa A 1ova A 1ek6 A 1b0u A

1ej8 A 3pyp 1hoe 1dga A 1ql0 A 1mro A 1qj4 A 1mro B 1ctj 1mro C 1dci A 1a8i 1qh8 A 1agj A 1qh8 B 1bdm A 1a6m 1ezw A 1cnv 1vsr A 6rlx A 6rlx B 1mrp 1bxe A 1ayf A 1c3m A 1toa A 1bs0 A 1dlw A 1a34 A 1qqf A 1gsa 1tf4 A 1qkr A 1qj5 A 8prk A 1aru 1eyz A 1pcf A 1chd 1esg A 1bdo 1avm A 1cqq A 1en2 A 1dan T 1d02 A 1dan U 1qre A 1dkz A

1b16 A 2dri 1qks A 1lbu 1jdw 9gaf A 1puc 1a44 2trx A 1edg

1swu A 1dos A 1ads 1b25 A 2fcb A 2mcm 1qmp A 1nps A 1a8l 1yge

1sra 1sac A 1whi 1a53 1pud 1mka A 1f9z A 1iab 1aay A 1ppn

1d8c A 1esi A 1lst 1c3p A 1d1q A 1elw A 1b0y A 1ihs I 1svy 1bkc E 1cel A 1qdd A 3sil 1flt V 1flt X 1mun 1d8d A 1gai 1cem 1cs1 A 1iuz 1dps A 1dp4 A 1do6 A 1bs4 A 1c24 A 1mla 1b2v A 4ubp A 1cnz A 4ubp B 1sml A 4ubp C 1qqj A 1lmb 3 1cka A 1cjc A 1dgf A 1lts A 1lts C 1bd3 A 3tdt 1lkf A 1tx4 A 1mfm A 1nox 1ail 1bup A 1b5q A 1dpt A 1a2z A 1cjd A 2ayh 1byi 1dek A 2ahj A 1qk8 A 1cvl 1ayl 2ahj B 1axn 1a48 1dxe A 1f5f A 1tvx A 1bkf 1jkm B 1aho 1ygh A 1dqs A 1c4q A 1phb 1d0v A 1dow A 1rcf 1dow B 1coz A 2i1b 2ilk 3cao A

1bv1 1oyc 1thv 1pot 1dvj A 1dul A 1d4o A 1tca 2sqc A 1ds1 A

1ctq A 1rec 2pvb A 1cru A 1lki 3chb D 2erl 1qlw A 1fbm A 7ins G 1c52 1dp7 P 1bur S 1ppr M 1gci 1ewf A 4bcl 1czf A 1dxg A 1e30 A 1rva A 1bvq A 1b71 A 1c44 A 1nkd 1b4v A 1a4y A 1koe 1ida A 1aoc A 1qmv A 1edm B 1ceq A 1gky 1taf A 2pth 1tph 1 1cb8 A 1who 1bs9

2por 2ebn 1l58 1ayo A 1dcs 1b8o A 1tag 1a7t A 1af7 1cqy A

1doz A 1bd8 1tyv 1cmb A 1dfm A 1ecp A 1deo A 3pte 2cb5 A 1a68 1ae9 A 1qqp 1 1lkk A 2kin A 1qqp 2 2kin B 1qqp 3 1qqp 4 1dwk A 1gp1 A 1bxo A 2pgd 4pah 1ct5 A 1c3w A 2acy 1b65 A 1atz A 1tl2 A 6gsv A 1xnb 1dfn A 1vqb 1pid A 1ccw A 1pid B 1cc8 A 1ccw B 1afw A 2fha 1hfc 1kpe A 2tys A 2hbg 2tys B 1qb0 A 1aqb 1eye A 1frp A 1unk A

1avw B 1pdo 1aba 1slu A 1gpr 1icf I 1svb 1pjc A 1dbw A 2rn2

2a0b 1han 1aht L 1dvo A 1et1 A 1ako 1ddt 1cvr A 1d3v A 1epx A 1aw7 A 1b67 A 1reg X 1vfy A 1gcm A 1edq A 2qwc 1dbx A 3nul 1be9 A

Table B.2 – Liste des structures prot´eiques incluses dans la base de donn´ees DB

735

.

Chaque structure est identifi´ee par le code PDB et, dans le cas de prot´eines multim´eriques, par le nom

de la chaˆıne consid´er´ee.

(6)

ANNEXE B. BASES DE DONN ´ EES DE STRUCTURES PROT ´ EIQUES 224

7a3h A 1arb 1d7o A 1azq A 1bg6 1a8v A 1dqz A 1e19 A 1psr A 1nwp A 1a3a A 1qq4 A 1qow A 1aoh A 1gar A 1mty B 1by2 1mty D 1rge A 1qhf A

1mty G 1scj B 1ifc 3cla 1ema 1vjs 1ptq 1hfe S 1bab B 1eyh A

1fvk A 1mgt A 1dhn 1ha1 1amm 1alo 1f41 A 1eu1 A 1c9o A 1cxp A 1dw0 A 1byq A 1f2t A 1dus A 1c7s A 1cxp C 1b93 A 1bx4 A 2sak 2pvi A 1wht A 1qtn A 1wht B 1lml 1qtn B 1fif A 1ejg A 1pbv 1egm A 1g3p 2dtr 1egm B 1cyo 1dlf H 1ajs A 1bgv A 1egm G 1dlf L 1qgi A 1ezg A 1cew I 1cxq A 1byr A 1c83 A 1c75 A 1cex 1d3y A 1mof 2psp A 1qto A 1qoy A 4pga A 1ryc 1df4 A 2olb A 2sn3 1qd1 A 2fdn 1pbw A 1din 1svf A 1erx A 1ubi 1svf B 1trk A 1ay7 B 2baa 1b3a A 1qq7 A 1gdo A 1fgl B 16pk 1bi5 A 1bx7 2ccy A 1cv8 2sns 1qfm A 4eug A 4mt2 5csm A 3seb 1f60 A 1ftr A 1f60 B 1rie 1al3 1dsz A 1e39 A 1a9x B

1phm 1sbp 1duv G 1mml 1ush 1vom 1vls 7atj A 2lis A 1qb7 A

1gd1 O 1f61 A 1czp A 3std A 2bvw A 1et7 A 1es9 A 2arc A 1c1d A 1dmh A 1dlj A 2nsy A 1qq9 A 1bkr A 1zin 1ed8 A 1one A 1hka 1fna 1mpg A 1qfo A 2plc 1ft5 A 1poa 1nba A 2pii 1iib A 1dqa A 1qts A 1d0d A 1qsu A 1fus 1dj0 A 1vfa B 1eg3 A 1fle I 1oaa 1dg6 A 153l 5hpg A 119l 2myr 1eyn A 1dzo A 1tib 256b A 1euv A 1cy5 A 1euv B 1msc

1bj7 1pym A 1bea 1ra9 1ezm 7odc A 1yac A 1wdc A 1iow 1vfb A

1wdc C 1qna A 2igd 1apm I 1fnc 1guq A 1ex2 A 1aop 1czs A 1ew4 A 2hmz A 1poc 1euw A 1pne 1opd 1lfa A 1nbc A 1duz A 2rsp A 2cba 1qus A 1pgs 1c3c A 5pti 1amt A 1fcy A 1dgw A 1alv A 1luc A 1vns 1b6a 1mol A 1beb A 1atg 1qcx A

Table B.2 – (suite)

DB

1403

Cette base de donn´ees a ´et´e construite sur la base d’une liste de 1522 chaˆınes prot´eiques partageant mois de 20 % d’identit´e de s´equence, et dont la structure a ´et´e r´esolue par cristallographie aux rayons X avec une haute r´esolution ( ≤ 2 ˚ A). Cette liste a ´et´e extraite du serveur (( Culling the PDB by Resolution and Sequence Identity )) , en octobre 2003. La nouvelle version de ce serveur est disponible sur internet `a l’adresse http://www.fccc.edu/research/labs/dunbrack/pisces/culledpdb.html [3].

Notons que l’analyse d’une macromol´ecule donn´ee par cristallographie aux rayons X fournit un ensemble de coordonn´ees qui ne sont pas ind´ependantes de la sym´etrie cristalline. La plupart du temps, les coordonn´ees d´epos´ees dans la PDB sont celles des atomes n´ecessaires au raffinement des donn´ees exp´erimentales obtenues, c’est-`a- dire les coordonn´ees des atomes inclus dans l’unit´e asym´etrique. Dans certains cas, ces coordonn´ees ne correspondent pas `a l’enti`eret´e de la macromol´ecule biologique, ou au contraire en incluent plusieurs copies. Afin de reprendre dans la base de donn´ees les structures quaternaires correctes des prot´eines s´electionn´ees, nous avons fait usage du serveur (( Protein Quaternary Structure )) (PQS), disponible sur internet `a l’adresse http://pqs.ebi.ac.uk [4]. A partir des coordonn´ees d´epos´ees dans la PDB, ce serveur reconstruit la structure quaternaire la plus vraisemblable de la prot´eine active, sur la base notamment de l’´evaluation de la surface accessible au solvant de r´esidus de diff´erents types et de l’´etablissement d’interactions sp´ecifiques entre chaˆınes.

Par ailleurs, nous avons exclu de la base de donn´ees toutes les structures prot´eiques

qui contiennent plus de 5 % d’h´et´eroatomes ou de r´esidus non-naturels. La base de

donn´ees est finalement constitu´ee de 1403 structures de chaˆınes prot´eiques, qui sont

list´ees en Table B.3.

(7)

2baa 1svb A 1lyc A 1dy5 A 1m6i A 1qj4 A 1mso A 1mso B 1kcm A 1jyo A 1nsj A 1jo0 A 2igd 1kpf A 1gkm A 1i1q A 1i1q B 1g60 A 1d2m A 1byb 1ew6 A 1sgp I 1qj5 A 1oe1 A 1p7t A 1csn A 1a4y A 1l6p A 1oc7 A 1p5z B 1nxz A 1mg7 A 1mai 1lci 1uek A 1oja A 1g61 A 1p0k A 1tif 1bea A 1ql0 A 1e87 A 1pn0 A 1cg5 B 1ezm 1nr0 A 1luq A 1g9g A 1gmi A 1f0i A 1k6w A 1jx6 A 1j96 A 1gu2 A 1d2o A 1e4c P 1nox A 1buo A 1njh A 1dp4 A 1tig A 1kgd A 1ddw A 1pn1 A 3vub A 1f2d A 1j1n A 1l6r A 1pdo A 1gvn A 2sic I 1m2x A 1f0j A 1kv7 A 1jd5 A 1gkp A 1k6x A 1nwa A 3pro C 1gtt D 1g5t A 1dqp A 1ucs A 1ext A 1gs9 A 1bup A 1uay A 1lni A 1qtw A 1cuk A 1o0s A 1n2s A 1o9w A 1tyv A 1kcq A 1k92 A 1km4 A 1igq A 1svf A 1svf B 1gvo A 1a3a A 1mun 1iq4 A 1e2k A 1i24 A 1j98 A 1ey4 A 1l1d A 1jer A 1dow A 1dow B 16pk 1arb 1yac A 1gvp A 1oaa A 1vls A 1dhn A 1qtx B 1o13 A 1ng5 A 1ejb A 1ayl A 1gxj A 3eip A 1ugi A 1oxx K 1iq5 B 1stm A 1gtv A 1fc3 A 1gj7 A 1njk A 1pdq A 1e4f T 1a3c A 1pbw A 1mk0 A 1q5y A 1ng6 A 1irq A 1c52 1k94 A 1i40 A 1alu A 1iq6 A 1hs6 A 1gl2 C 1i1w A 1nlf A 1dqs A 1g66 A 1d2s A 1f86 A 1ohl A 1ci4 A 1cqy A 1a92 A 1qu9 A 1g2b A 1m6p A 1kyp A 1e6b A 1lb3 A 1m4v A 1m55 A 1jet A 1klx A 2bsp A 1fmt A 1i27 A 1gu7 A 1kta A 1dqt A 1e0t A 1kic A 1bb1 A 1bb1 B 1htr P

1doz A 1jtg B 1byi A 1pby C 1h7m A 1gxm A 1mi8 A 3lzt 1ad2 1qqf A

1cuo A 1d4o A 1ga6 A 7a3h A 2tgi A 1n8f A 1ayo A 1b8o A 1srv A 1dg6 A

1fdr 1ute A 1l8r A 1odz A 1lv7 A 1lk9 A 1is3 A 1pjc A 1hoe 1j09 A

1gu9 A 1fw9 A 1k5c A 1ct5 A 1d2v A 1bgc 1jke C 1d2v C 1gbs 1k3i A 1gqe A 1hxi A 1m6s A 1mk4 A 1lm4 A 1ejg A 1lb6 A 1b3a A 1k04 A 1qhd A 1pot 2mhr 1j24 A 1jz8 D 1o8b A 1e30 A 1utg A 2ayh 1puc A 1apm I 1vns A 1hdh A 1nqz A 1lm5 A 1hbn A 1iir A 1hbn B 1luz A 1hbn C 1gsa A 1jq5 A 2nac A 1nyc A 1h65 A 1agj A 1f9v A 1oi0 A 1aie A 1fsg A 1k20 B 1i60 A 1gdo A 1kd8 C 1h80 A 1jf8 A 1fp2 A 1vie A 1ezw A 1fn8 A 1m1f A 1bd0 A 1qop B 1pzt A 1bgf A 1lpl A 1mwp A 1l1l A 1oqv A 1h0h B 1kq1 A 1n55 A 1phm 1osp O 1iu1 A 1d8h A 1hw1 A 2hbg 1gxr A 1k07 A 1fp3 A 1eca 1fy7 A 1oai A 1eg5 A 1mpg A 1fn9 B 1n8k A 1b93 A 1dqz A 1e19 A 1jbe A 1d2z A 1o50 A 1oi2 A 1d2z B 1faa A 1ghe A 1lyq A 1e8c A 1mb4 A 1gqi A 1hdk A 1muw A 1qjb A 1e6i A 1lm8 C 1h7s A 1ixh 1gmu A 1n1b A 1lm8 H 1hfe S 1svp A 1hty A 1dk0 A 1fe6 A 1iko P 1hxn 2fdn 1f9y A 1aq0 A 1m1h A 1di6 A 1j9b A 1nln A 1bx4 A 1plc 1i0d A 1oht A 1lm8 V 1toa A 1or7 A 1vpp X 1or7 C 1ofz A 1n57 A 1ni9 A 1i7n A 1kpt A 1ikp A 2hrv A 1qsg A 2tps A 1jpz A 1izc A 1lri A 1pg4 A 1qmy A 1baz A 1sbp 2arc A 1hn0 A 1kew A 1pwb A 1itu A 1jh6 A 1dwk A 1dci A 1gp0 A 1bm8 1gxu A 1byq A 1e2w A 1p0z A 1ewf A 1m93 B 1nsz A 1m93 C 1j5p A 1i7p A 3cla A 1ifc 1eaj A 1bx7 A 1gp1 A 1itv A 1vps A 1hw5 A 1one A 1et1 A 1dv1 A 1gmx A 1byr A 1f0x A 1kve A 1kve B 1p4o A 1aba 1nlq A 1l3k A 1bm9 A 1nuu A 2por A 1qqp 1 1qqp 2 1qqp 3 1iw0 A 1qqp 4 1c3c A 1hdo A 1ld8 A 1ld8 B 1cv8 1itw A 1g0s A 1fr2 A 1fr2 B 1f32 A 1h4a X 1n1f A 1cm4 B 1agq A 1pi1 A 1mpl A 1ojr A 1eyb A 1o4v A 1ail A 1oi7 A 1nm1 G

1lyv A 1fjj A 1wpo A 1hxr A 1mct I 1af7 1itx A 1nls A 1got B 1g13 B

2gdm 1gy7 A 1l7a A 1got G 1qqq A 1iqc A 1wer 1clv I 1b8z A 1o4w A 1bf2 1k3s A 1fle I 1elk A 1bte A 1c1k A 1gxy A 1ugx A 1bkb A 1ugx B 1c8u A 1qft A 1psr A 1opc 1m1n A 1m1n B 1k5n A 2mcm 1he1 A 1dnl A 1mcv I 1b5f B 1a1x 1tl2 A 3sil 1vin 1duv G 1opd 1qoy A 1o6s B

1jmk C 3ezm A 1e1a A 1eye A 1f8e A 1o58 A 1nuy A 1jl0 A 1mrj 1dpg A

1ic2 A 1skz A 1j5u A 1h10 A 1pcf A 1jiw I 1tfe A 1esw A 1jfb A 1c96 A 1q33 A 1jdh A 1k7j A 1jdh B 1a28 A 1l3p A 1npk A 1jl1 A 1hp1 A 1jix A 1g2r A 1oga D 1mka A 1ia9 A 1ubk L 1p6o A 1ubk S 1k7k A 1sbw I 1h4g A 1g6g A 1iom A 1g4m A 1yge 1dek A 1j5w A 1i7w B 1eaq A 1fhu A 1oyj A

1e58 A 1ecl 1ccw A 1ccw B 1amf 2mlt A 1o75 A 1o6v A 1j9l A 1ojx A

1ls1 A 1n8v A 1ku1 A 1eyh A 1idp A 1cnv 1lki 1dpj B 1gr3 A 1ah7 A 1zpd A 1f39 A 1ox0 A 1b25 B 1nz0 A 1ols A 1psw A 1q2w A 1ols B 1qg8 A 1kko A 1nww A 1m22 A 1dcs A 1nm8 A 2cpg A 1gso A 1c5e A 1i9s A 1in4 A 1ks8 A 1k3y A 1ogd A 1btk A 1i88 A 1m7b A 1oej A 1bs0 A 1e6u A 1ctf A

1dlw A 1co6 A 1nep A 1orc 1kbl A 1ka1 A 1ku3 A 1koe 1mo9 A 1j83 B

1jkv A 1lq9 A 1ks9 A 1hzt A 1dyp A 1nri A 2cb5 A 1euv A 1euv B 1dd3 C 1jqe A 1lkk A 3nul 1ygh A 1mgq A 1gwe A 1sfp A 1g8e A 1fec A 1l5o A 1fye A 1i2k A 1ako A 1flm A 1aoc A 1a62 1mrp 1h16 A 2psp A 1nrj A

Table B.3 – Liste des structures prot´eiques incluses dans la base de donn´ees DB

1403

.

Chaque structure est identifi´ee par le code PDB et, dans le cas de prot´eines multim´eriques, par le

nom de la chaˆıne consid´er´ee. Les codes en caract`eres gras correspondent aux prot´eines pour lesquelles

la structure quaternaire d´efinie par PQS est utilis´ee. Dans ces cas, les noms de chaˆınes peuvent ˆetre

diff´erents de ceux attribu´es dans les fichiers PDB.

(8)

ANNEXE B. BASES DE DONN ´ EES DE STRUCTURES PROT ´ EIQUES 226

1euw A 1tvx A 2nlr A 1ijb A 1d8w A 1qhv A 1huf A 1nyt A 1btn A 1nwz A

1mf7 A 1mz9 A 1e1h A 1eej A 1lvk 1e1h B 1i0r A 1jkx A 1fur A 1fv1 C

1nte A 1nig A 1cq3 A 1iua A 1b43 A 1oo0 A 1qnf 1lu0 A 1m40 A 1nnw A

1gak A 1jc4 A 1hqs A 1i12 A 1h32 A 1hfu A 1h2s B 1ex2 A 1elu A 1ldd A 1g2y A 1mvf D 1eb6 A 1uok 1kzf A 1jhd A 1c24 A 2cpl 1n3l A 1nrl C 1q4v A 1qi7 A 1l7l A 1od3 A 1cew I 1mgt A 1h6h A 1f58 P 1sac A 1mpx A

1jy1 A 1dtd B 1rhs 1jdp H 1j7x A 2eng 1qlm A 1ogi A 1c3p A 1gqz A

1m7g A 1mki A 1lmi A 1p90 A 1koi A 1lvm A 1nps A 1nkd A 1lts A 1f1e A 1lts C 1je0 A 1n08 A 1iab 1jbw A 1fm0 D 1fm0 E 1d1q A 1f74 A 1nth A 1jy2 N 1jy2 O 1e8u A 1jy2 P 1nij A 1jsd A 1jsd B 1eay C 1wdc A 4mt2 A 1j2j B 1i4j A 1o8x A 1olz A 1rss 1o97 D 1ldg A 1jdr A 1fnl A 1ifr A 1m1z A 1jmv A 1h8d L 1al3 A 1nba A 1jw9 B 1aoh A 1i9z A 1g55 A 1gci 1pym A 1cs1 A 1mkk A 1flr L 1dd9 A 1iow A 1oz2 A 1jhg A 1h8e A 1od6 A 1o04 A 1o98 A 1h6k A 1m3u A 1h8e H 1h8e I 1cmc A 1g8k A 1hhs A 1lml 1eyq A 1fm2 B 1h2w A 1p1j A 1df4 A 1kqf A 1lxj A 1kqf C 1m7j A 1kol A 1mtp A 1c1y B 1mtp B 1pb7 A 1mdc 1axn 1h6l A 1m45 B 1ig3 A 1jmx B 1nbc A 1lqa A 1khc A 1mxe E 1i8a A 1o20 A 1kzk B 1onw A 1k0m A 6rlx A 1ll2 A 6rlx B 1ocy A 1o06 A 1i4m A 1jos A 1flt X 1l5w A 1g8m B 1lj8 A 1k7w A 1fcq A 1otf A 1g6s A 1fx2 A 1g72 B 1fm4 A 2a0b 1g4y B 1khd A 2ccy A 1cru A 1mvl A 1oq1 A 1l9l A 1jhj A 1gef A 1aol 1gyh A 1nf9 A 1kmt A 1mh9 A 1dtj A 1je5 A 1k87 A 1i2t A 1gut B 1g73 A 1eer A 1eer B 1ez3 A 1i19 A 1ef1 C 1mxg A 1uc8 A 1mmi A 1bkr A 1k4c C 1jdw 1 1qau A 1b65 A 1wfb A 1nxb 1o22 A 1lc0 A 1o08 A 1cdc B 1m48 A 2dpm A 1jp4 A 1pid A 1c7k A 1ogo X 1g6u A 1f94 A 1m0d A 2hft A 1i8d A 1b66 A 1din 1qb5 D 1avw B 1mj5 A 1ky3 A 1isp A 1gnl A 1jg1 A 1jzt A 1ihr A 1ltz A

1rsy 1jov A 1qge E 1fd3 A 1gk7 A 1ds1 A 2dri 1eyv A 1mxi A 5csm A

1lok A 1oh0 A 1mbm A 2lis A 1iuk A 1oew A 8abp 1mof A 1taf A 1taf B

1bqc A 1mml A 1dki A 1f1m D 1h70 A 1g8q A 1tca 1eq2 A 1ihs I 1otj A

1gk8 A 1udv A 1qd1 A 1lzj A 1amu A 1gk8 I 1bu8 A 1qb7 A 1avy A 1ns5 A

1oz9 A 1uxy 1m65 A 1mix A 1aop 1qre A 1c7n A 1gux A 1h4x A 1gux B

1gk9 A 1lbu 1gk9 B 2pgd A 4eug A 1qcs A 1khi A 1pz4 A 1ogs A 1qlw A 1oey A 1reg X 1kzq A 1nrw A 1gpi A 1azo 1d9c A 1nh8 A 1m5w A 1k12 A 1jr2 A 1fpo A 1oey J 1gd0 A 1gcq C 1dto A 1iqy A 1h72 C 1obd A 1p5f A 1dj0 A 1bdm A 1cfb 1dgw A 1qnr A 1pq1 A 1l2h A 1ksh B 1pq1 B 1juh A 1lzl A 1h1d A 1qaz A 1o1x A 1icf I 3pcg A 1g1j A 1lc5 A 1fgl B 1amx 1gx3 A 1qgi A 1dgw Y 1iqz A 1i39 A 1vhh 1gv9 A 1mzg A 1eex A 1eex E 1d3v A 1qo2 A 1nvm A 1nvm B 1eex G 1k4i A 1ors C 1n62 A 1sur A 1n62 B 1n62 C 1uox A 1bdo A 1c2a A 1mty B 1ijq A 1dmg A 1mty D 1isu A 1e5k A 1mty G 1scj B 1i4u A 7odc A 1gwu A 2bbk H 1m2d A 7ahl A 1fcy A 2bbk L 1a12 A 1obf O 1kqp A 1nrz A 1o1z A 1ji1 A 1dmh A 1lw9 A 1h8p A 1jfx A 1oxc A 1gx5 A 1cvr A 1b0n A 1o7i A 1b0n B 1epx A 1ksk A 1n7o A 1huw A 1g5a A 1oru A 1q98 A 1ay7 B 1o3u A 1ogw A 1mc2 A 1n5u A 1k30 A 1by2 1d0c A 1jhs A 1dxg A 1kp6 A 1hx0 A 1nkr 1ff4 A 1a4i A 1nof A 1e42 A 1fo8 A 1nxj A 1o7j A 1f08 A 1mol A 1k6f A 1jcd A 1d3y A 1l2l A 1qcx A

1uca A 1na3 A 1iwl A 1ntv A 1iap A 1d0d A 1ekj A 1pgs 1i71 A 1jr7 A

1ois 1nze A 1go3 E 1hjz A 1nog A 1cdl E 1go3 F 1jya A 1ug6 A 1d5t A

1kae A 1kug A 1e29 A 1mdo A 1jak A 1iwm A 1rb9 1dvo A 1gnu A 1ej0 A 1i58 A 1sra 1gwy A 1c9o A 2sli 2erl 1pin A 2sak 1jnd A 1kaf A 1qnx A 1qo7 A 1mxr A 1msc A 1lfp A 1k4n A 3fap B 1ml9 A 1l9x A 1iv3 A

1gpp A 1sei A 1ijv B 1pvg A 1luc A 1o9g A 2ptd 1b6a 1nxm A 1p42 A

1d7p M 1q08 A 1n7s A 1ae9 A 1n7s B 1dqa A 1n7s C 1n7s D 1o3y A 1j6o A 1aho 1g3k A 1kr4 A 1hyo A 1ib2 A 1j54 A 1gpq A 1hd2 A 1dbo A 1whi A 1cxq A 1dl2 A 1a4m A 1hyp 1chd 1dj8 A 1b12 A 1o7n B 1qf5 A 1gpr A 1b9w A 1lqp A 1ajj 1mxt A 1inl A 1e0b A 1dzf A 1evl A 1iat A 1ji7 A 1e7l A 1fs1 A 1moq A 1eu1 A 1nqe A 1n2e A 1slu A 1m2k A 1qq4 A 1mfm A 1k6k A 1f9a F 1mqk H 1t1d A 1ual A 1f5m A 1ujp A 1hx6 A 1ijy A 1oxj A

1gny A 1kwf A 1lsl A 2pii A 1aqu A 1a8d 1bxy A 1n9p A 1vca A 3thi A

1g5h A 1ptq 1h1n A 1jk3 A 1f5n A 1k2x A 2ilk A 1q7e A 1k2x B 1gyx A 1h97 B 1l8a A 1hm9 B 1uch 1edg 1b2p A 1lug A 1erz A 1kwg A 1es9 A 2pth 1obo A 1a8e 1h03 P 1qf8 A 1me4 A 2pvb A 1fvi A 1ofc X 1dqe A

Table B.3 – (suite 1)

(9)

1at0 A 1mn8 A 1id0 A 1uan A 1vcc 1iv8 A 1j58 A 1ekq A 1cse I 1ooh A 1lwb A 1gz8 A 1l8b A 1f3u A 1f3u B 1qs1 A 1poc A 1ow1 A 1jyh A 1g3p

1cc8 A 1ny1 A 1qq7 A 1b16 A 1gvd A 1prx A 2spc A 1pmi 1jcl A 1nc5 A

1lqt A 1my7 A 1m9x C 1j73 A 2ahj A 2ahj B 1pxg A 1h05 A 1ekr A 1trb A 1muc A 1czp A 1fs5 A 1h99 A 1f3v A 1vfy A 1cy5 A 1b0x A 1o7s A 1gve A 1ou8 A 1kjq A 1d4a A 1mdw A 1jm0 A 1gtk A 1a6m 1lfw A 1fvk A 1io0 A 1b8a A 1hq0 A 1fkm A 1dzk A 1vsr A 1hz4 A 1f60 A 1f60 B 1cqm A 1fj2 A 1lwd A 1qtn A 1qtn B 1cp2 A 1f46 A 1nqj A 1who 1m4j A 1pa1 A 1qh5 A 1mla 1kll A 1fob A 1gvf A 1li1 A 1m15 A 1jm1 A 1n7z A 1io1 A 1lg7 A 1msk 1jat A 1jb3 A 1m9z A 1khx A 1k55 A 1a53 1ftr A 1efd N 1ea5 A 1etx A 1j3a A 1odm A 1kng A 1dkz A 1l6k A 1ow4 A 4ubp A 4ubp B 1jyk A 1n0q A 2tnf A 1k8k C 1k8k D 1eqc A 1a2z A 1k8k E 1k8k F 1k8k G 1ezg A 1m0w A 1m16 A 1kt6 A 1dqi A 1jjy A 1hz6 A 1ew2 A 1gq8 A 1kyf A 1bqu A

1m4l A 1wwc A 1mhn A 1anf 1p5v B 1h3n A 1j8r A 1qmg A 1ffa 1j77 A

1n6a A 1uas A 1tx4 A 1mug A 1dbx A 1h7c A 1ten 1on2 A 1jek A 1n12 A

1jek B 1o86 A 1mg4 A 1kb0 A 1mzw B 1ueh A 1a6q 1eok A 1qdd A 1fl0 A

1edm B 1dzo A 1chm A 1lst 1d0q A 1ew4 A 1el6 A 1ajs A 1o9r A 1on3 A

1kwn A 1n13 A 1n13 B 1gkl B 3seb 1whs A 1lam A 1whs B 1dfn A 1j79 A 1j6z A 1ix9 A 1gs5 A

Table B.3 – (suite 2)

(10)

Bibliographie

[1] R.T. Wintjens, M.J. Rooman, and S.J. Wodak. Automatic classification and analysis of αα-turn motifs in proteins. Journal of Molecular Biology, 255 :235–253, 1996.

[2] U. Hobohm, M. Scharf, R. Schneider, and C. Sander. Selection of representative protein data sets. Protein Science, 1 :409–417, 1992.

[3] G. Wang and R. Dunbrack. PISCES : a protein sequence culling server.

Bioinformatics, 19 :1589–1591, 2003.

[4] K. Henrick and J.M. Thornton. PQS : a protein quaternary structure file server.

Trends in Biochemical Science, 23 :358–361, 1998.

228

(11)

Annexe C Fugue

Le programme Fugue a pour objectif la pr´ediction de la conformation pr´ef´er´ee de fragments de s´equences de prot´eines, en se basant uniquement sur des interactions locales le long de la chaˆıne, et l’identification de fragments qui poss`edent une conformation fortement pr´ef´er´ee en absence d’interactions tertiaires [1, 2].

Dans un premier temps, la s´equence cible est divis´ee en fenˆetres successives de 5

`a 15 acides amin´es cons´ecutifs le long de la s´equence, chaque fenˆetre ´etant d´ecal´ee d’un r´esidu par rapport `a la pr´ec´edente. Au sein de ces fenˆetres, chaque r´esidu est successivement associ´e `a chacune des 7 conformations possibles de sa chaˆıne principale (voir Annexe A). L’´energie de chaque conformation est ´evalu´ee `a l’aide d’un potentiel bas´e sur les fr´equences d’observation, dans une base de donn´ees de structures prot´eiques, de l’association entre un acide amin´e de type s

i

, en position i le long de la s´equence, ou d’une paire d’acides amin´es de types s

i

et s

j

en positions i et j, respectivement, avec un domaine d’angles de torsion de la chaˆıne principale (t

k

) en position k. L’´energie associ´ee aux r´esidus inclus dans la fenˆetre lorsqu’ils adoptent une certaine conformation est donn´ee par :

∆W = − kT X

k

X

i,j<i

1 ξ ln

· F (t

k

, s

i

, s

j

)

F (t

k

)F (s

i

, s

j

) + F (t

k

, s

i

) F (t

k

)F (s

i

)

¸

, (C.1)

o` u la somme est r´ealis´ee sur les positions k incluses dans la fenˆetre consid´er´ee, et sur les positions i et j qui respectent la condition k − 8 ≤ i, j ≤ k + 8. Le facteur 1/ξ est un facteur de normalisation qui ´evite de compter plusieurs fois chaque couple r´esidu - domaine de torsion. ξ correspond au nombre de positions i qui respectent la condition k − 8 ≤ i ≤ k + 8, et prend donc la valeur de 17, sauf `a proximit´e des extr´emit´es de la chaˆıne prot´eique. Ce potentiel est ´equivalent `a la combinaison des potentiels d´efinis en Section 4.2.1 (Equations 4.4 et 4.10) : ∆W

ts

+ (1/ξ)∆W

tss

. Notons que l’utilisation de ce potentiel n´ecessite de faire l’hypoth`ese que la conformation d’un r´esidu d´epend de la nature mais pas de la conformation des r´esidus voisins, ce qui permet d’´evaluer toutes les conformations de plus basse ´energie en un temps raisonnable. Fugue dispose alors, dans chaque fenˆetre, d’une liste des conformations les plus favorables.

Si, dans un fenˆetre donn´ee, l’´ecart ´energ´etique entre la meilleure conformation et la premi`ere conformation significativement diff´erente (la similarit´e entre les structures est mesur´ee `a l’aide du r.m.s.d : l’´ecart quadratique moyen minimal entre les positions des atomes des deux chaˆınes principales) est suffisamment important (∆W ≥ 0.5 kcal/mole),

229

(12)

ANNEXE C. FUGUE 230 la structure pr´edite est retenue. Selon le nombre de recoupements entre les pr´edictions dans les diff´erentes fenˆetres o` u apparaˆıt un r´esidu particulier, un score est attribu´e `a la pr´ediction structurale qui correspond `a ce r´esidu.

Le programme Fugue peut ˆetre utilis´e dans le but de pr´edire la conformation adopt´ee par certains r´esidus au sein de la structure native de la prot´eine `a laquelle ils appartiennent. Comme avec tous les autres programmes de pr´ediction bas´es uniquement sur des interactions locales, ´etablies entre r´esidus proches dans la s´equence, on ne peut cependant s’attendre `a des pr´edictions parfaites. Les interactions tertiaires, ´etablies entre r´esidus proches dans l’espace mais ´eloign´es dans la s´equence, ont en effet une importance non n´egligeable. Des tests, effectu´es sur un ensemble de 69 prot´eines, ont montr´e que Fugue pr´edit une conformation pr´ef´er´ee pour 44% des r´esidus de ces prot´eines et que, parmi ceux-ci, 56% adoptent effectivement cette conformation dans la structure native [1]. Le pourcentage de succ`es augmente jusqu’`a 73% lorsque les 7 domaines d’angles de torsion de la chaˆıne principale sont group´es en trois conformations distinctes : h´elice (domaines A et C), conformation ´etendue (B et P) et tournant (E, G et O). Notons que des pourcentages plus importants de pr´edictions correctes sont obtenus si l’on ne consid`ere que les r´esidus ayant un score de pr´ediction ´elev´e, ce qui a ´egalement comme cons´equence la diminution du nombre de r´esidus dont la conformation est pr´edite.

Par ailleurs, les segments de la s´equence d’une prot´eine pour lesquels une conforma-

tion fortement pr´ef´er´ee en absence d’interactions tertiaires est pr´edite par Fugue sont

fort susceptibles de correspondre `a des r´egions qui se structurent rapidement au d´ebut

du processus de reploiement, ou `a des peptides qui adoptent pr´ef´erentiellement une telle

conformation en solution [1–3].

(13)

Bibliographie

[1] M.J. Rooman, J.P. Kocher, and S.J. Wodak. Extracting information on folding from the amino acid sequence : accurate predictions for protein regions with preferred conformation in the absence of tertiary interactions. Biochemistry, 31 :10226–10238, 1992.

[2] M.J. Rooman and S.J. Wodak. Extracting information on folding from the amino acid sequence : consensus regions with preferred conformation in homologous proteins.

Biochemistry, 31 :10239–10249, 1992.

[3] A. Pintar, A. Chollet, C. Bradshaw, A. Chaffotte, C. Cadieux, M.J. Rooman, K. Hallenga, J. Knowles, M. Goldberg, and S.J. Wodak. Conformational properties of four peptides corresponding to alpha-helical regions of Rhodospirillum cytochrome c2 and bovine calcium binding protein. Biochemistry, 33 :11158–11173, 1994.

231

(14)

Annexe D PoPMuSiC

PoPMuSiC est un programme de pr´ediction du changement de stabilit´e de prot´eines suite `a des mutations ponctuelles [1–3]. Ce programme est disponible sur internet, `a l’adresse http://babylone.ulb.ac.be/popmusic. Il utilise comme entr´ee la structure de la prot´eine cible en format PDB [4], et est bas´e sur l’hypoth`ese qu’une mutation ponctuelle ne modifie pas significativement la conformation de la chaˆıne principale de la prot´eine. Chaque r´esidu est successivement remplac´e par les 19 autres acides amin´es et la diff´erence d’´energie libre entre la prot´eine sauvage et la prot´eine mutante est calcul´ee.

Les mutations les plus stabilisantes, les plus d´estabilisantes, ou celles qui affectent le moins la stabilit´e de la prot´eine peuvent alors ˆetre s´electionn´ees.

L’´evaluation de l’´energie libre est r´ealis´ee `a l’aide de potentiels de force moyenne, sur base de la repr´esentation simplifi´ee des prot´eines pr´esent´ee en Annexe A. Les potentiels utilis´es sont les suivants :

1. Potentiel de torsion ` a courte port´ ee (∆W

cptor

). Ce potentiel est calcul´e `a partir des fr´equences d’observation, dans la base de donn´ees de structures prot´eiques, de l’association entre acide amin´e de type s

k

, en position k le long de la s´equence, avec un domaine d’angles de torsion de la chaˆıne principale (t

i

), ou une paire de domaines d’angles de torsion (t

i

, t

j

). Ce potentiel est `a courte port´ee car seuls les domaines d’angles de torsion (t

i

, t

j

) avec k − 1 ≤ i, j ≤ k + 1 sont pris en compte.

L’´energie totale de la prot´eine s’exprime par :

∆W

cptor

= − kT X

k

X

i,j<i

1 ξ ln

· F (t

i

, t

j

, s

k

)

F (t

i

, t

j

)F (s

k

) + F (t

i

, s

k

) F (t

i

)F (s

k

)

¸

, (D.1)

o` u la somme est r´ealis´ee sur tous les r´esidus, en positions k dans la s´equence, et sur les positions i et j qui respectent la condition k − 1 ≤ i, j ≤ k + 1. Le facteur 1/ξ est un facteur de normalisation ´evite de compter plusieurs fois chaque couple r´esidu - domaine de torsion. ξ correspond `a la taille de la fenˆetre [k − 1, k + 1] et prend donc la valeur de 3, sauf `a proximit´e des extr´emit´es de la chaˆıne prot´eique.

Ce potentiel est ´equivalent `a la combinaison des potentiels d´efinis en Section 4.2.1 (Equations 4.4 et 4.8) : ∆W

ts

+ (1/ξ )∆W

tts

.

2. Potentiel de torsion ` a moyenne port´ ee (∆W

mptor

). Ce potentiel est identique au potentiel pr´ec´edent, si ce n’est qu’il prend en compte les domaines de torsions correspondants aux positions i, j telles que k − 8 ≤ i, j ≤ k + 8.

232

(15)

3. Potentiel de distance (∆W

dis

). Ce potentiel est calcul´e `a partir des fr´equences avec lesquelles deux r´esidus de types respectifs s

i

et s

j

sont s´epar´es par une certaine distance spatiale r

ij

dans la base de donn´ees. Les distances r

ij

sont d´efinies comme

´etant celles s´eparant les pseudo-atomes C

µ

(voir Annexe A) des deux r´esidus.

Les r´esidus cons´ecutifs dans la s´equence ne sont pas pris en compte, car la distance qui les s´epare et approximativement constante. Les fr´equences sont calcul´ees de mani`ere distincte pour les r´esidus s´epar´es par une `a six positions le long de la s´equence, tandis que les paires s´epar´ees par plus de six r´esidus sont regroup´ees dans une seule fonction ´energ´etique. Ceci permet de tenir compte d’une composante locale et de la d´ecoupler des interactions non-locales, ´etablies entre r´esidus ´eloign´es dans la s´equence mais proches dans l’espace.

Les distances r

ij

comprises entre 3 et 8 ˚ A sont r´eparties en 25 domaines de 0.2 ˚ A de largeur. Les distances inf´erieures `a 3 ˚ A sont regroup´ees en un seul domaine. Il en va de mˆeme pour les distances sup´erieures `a 8 ˚ A. Afin de lisser le potentiel, les fr´equences relatives d’observation dans chaque domaine sont combin´ees avec celles des 10 domaines voisins, de part et d’autre, avec un poids d´ecroissant lorsque la s´eparation par rapport au domaine central diminue. L’´energie totale de la prot´eine vaut :

∆W

dis

= − kT X

i,j<i

ln

· F (r

ij

, s

i

, s

j

) F (r

ij

)F (s

i

, s

j

)

¸

. (D.2)

o` u la somme est r´ealis´ee sur toutes les paires de r´esidus, en positions i et j de la s´equence. Ce potentiel est essentiellement ´equivalent au potentiel ∆W

ds

d´efini en Section 4.3 (Equation 4.42).

4. Potentiel de distance ` a longue port´ ee (∆W

lpdis

). Ce potentiel est identique au potentiel de distance ∆W

dis

, si ce n’est que seules les paires de r´esidus s´epar´es de plus de 14 positions le long de la s´equence sont consid´er´ees.

Des tests pr´eliminaires ont permis de mettre en ´evidence une plus grande importance des interactions locales, d´ecrites par les potentiels de torsion, en surface que dans le coeur de la prot´eine. Une tendance oppos´ee est observ´ee pour les interactions tertiaires d´ecrites par les potentiels de distance. Les changements de stabilit´e dus aux mutations sont donc

´evalu´es par des combinaisons lin´eaires de ces potentiels, leur pond´eration d´ependant de l’accessibilit´e au solvant A du r´esidu mut´e (voir Annexe A). Ces combinaisons sont donn´ees ci-dessous, pour les diff´erents domaines d’accessibilit´e au solvant. Aucune combinaison de potentiels d´ecrivant correctement les interactions impliquant les r´esidus dont l’accessibilit´e est comprise entre 40 et 50 % n’a pu ˆetre mise en ´evidence. PoPMuSiC ne tient donc pas compte de ces r´esidus. Le changement de stabilit´e de la prot´eine suite

`a une mutation ponctuelle (∆∆G) est estim´e de la mani`ere suivante :

(0% ≤ A < 20%) ∆∆G ' 0.42 ∆∆W

mptor

+ 1.05 ∆∆W

lpdis

+ 1.18 kcal/mole (D.3)

(20% ≤ A < 40%) ∆∆G ' 0.89 ∆∆W

cptor

+ 0.62 ∆∆W

dis

+ 0.47 kcal/mole (D.4)

(50% ≤ A ≤ 100%) ∆∆G ' 0.87 ∆∆W

cptor

+ 0.25 kcal/mole , (D.5)

o` u ∆∆G = ∆G (prot´eine mutante) − ∆G (prot´eine sauvage), est n´egatif lorsque la

mutation est stabilisante.

(16)

ANNEXE D. POPMUSIC 234

Les performances du programme PoPMuSiC ont ´et´e ´evalu´ees `a l’aide d’un ensemble

de 296 mutations, introduites dans huit prot´eines et un peptide, pour lesquelles des

valeurs exp´erimentales de ∆∆G sont disponibles. Pour les mutations en surface (50% ≤

A ≤ 100%), le coefficient de corr´elation entre les valeurs de ∆∆G pr´edites et mesur´ees est

de 0.87 lorsqu’un nombre restreint de mutations qui affectent probablement la structure

de la prot´eine, et ne satisfont donc pas l’une des hypoth`eses de base du programme, sont

rejet´ees. Par ailleurs, dans cet intervalle d’accessibilit´e au solvant, l’erreur sur ∆∆G est

inf´erieure `a 0.27 kcal/mole pour 70 % des mutations. Les pr´edictions sont moins pr´ecises

pour les mutations de r´esidus qui ne sont pas en surface. Le coefficient de corr´elation entre

les valeurs de ∆∆G pr´edites et mesur´ees vaut alors 0.80, et l’intervalle de confiance est

de 0.81 kcal/mole et 1.46 kcal/mole, pour les mutations de r´esidus semi-enfouis (20% ≤

A < 40%) et enfouis (0% ≤ A < 20%), respectivement.

(17)

Bibliographie

[1] D. Gilis and M. Rooman. Prediction of stability changes upon single site mutations using database-derived potentials. Theoretical Chemistry Accounts, 101 :46–50, 1999.

[2] D. Gilis and M. Rooman. PoPMuSiC, an algorithm for Predicting Protein Mutant Stability Changes. Application to prion proteins. Protein Engineering, 13 :849–856, 2000.

[3] J.M. Kwasigroch, D. Gilis, Y. Dehouck, and M. Rooman. PoPMuSiC, rationally designing point mutations in protein structures. Bioinformatics, 18 :1701–1702, 2002.

[4] H.M. Berman, T. Battistuz, T.N. Bhat, W.F. Bluhm, P.E. Bourne, K. Burkhardt, Z. Feng, G.L. Gilliland, L. Iype, S. Jain, P. Fagan, J. Marvin, D. Padilla, V. Ravichandran, B. Schneider, N. Thanki, H. Weissig, J.D. Westbrook, and C. Zardecki. The Protein Data Bank. Acta Cristallographica Section D : Biological Cristallography, 58 :899–907, 2002.

235

Références

Documents relatifs

a) Comme pr ec edemment, on fait l'hyp oth ese que les enfants choisissent au hasard.. D'autre part, pour une variable normale centr ee r eduite, pour. L' ecart type de la

Contrairement ` a la recherche dans un arbre quelconque o` u il faut parcourir quasiment tous les nœuds de l’arbre pour d´ eterminer si l’´ el´ ement existe, la recherche dans

Notons que si nous utilisons toutes les donn´ees pour la TOD inverse nous obtenons un PSNR de 37.62 dB pour la carte de texture et un PSNR infini pour la carte d’altitude puisque

Donner un exemple de formule φ faisant intervenir deux prot´ eines et une seule variable G([A] =&lt; v&amp;[B] =&lt;

Nous utiliserons la repr´ esentation en compl´ ement ` a 2 pour repr´ esenter les nombres n´ egatifs, car c’est la plus utilis´ ee dans les syst` emes informatiques

PR ´ EPARATION DES DONN ´ EES Pour pouvoir manipuler ce fichier (et faire des statistiques dessus), il faut le stocker dans une variable de type un peu sp´ ecial qu’on

Indiquer en montrant le calcul la moyenne de cette s´erie.. Indiquer la m´ediane de cette s´erie en indiquant

Une fois la table lookup construite pour S , toutes les occurrence d’une s´ equence requˆ ete de taille w dans S peuvent ˆ etre retrouv´ ees en temps O(w + k), o` u k est le