Modélisation et prédiction de structure de protéines: une introduction

(1)

Modélisation et prédiction de structure de protéines:

une introduction

(2)

Glycolyse . Transport d'oxygène . Capture d'énergie lumineuse . Pompage d'ions . Métabolisme des acides aminés . Synthèse d'ARN. Transport de métabolites . Motilité cellulaire . Photosynthèse . Transport d'ions . Synthèse d'ATP . Synthèse d'acides gras . Cycle de Krebs . Cytosquelette . Respiration . Synthèse de sucres . Mort cellulaire. Contraction musculaire . Croissance des tissus . Répertoire

immunitaire. Maturation d'ARN. Synthèse de lipides. Anticorps . Traduction du code génétique. Réplication d'ADN . Capsides virales . Cheveux . Inflammation Coagulation . Signalisation . Répression de gènes . Gluconéogénèse. Hormones . Dégradation d'aliments . Neurotransmission . Oxidoréduction . Bioluminescence . Réparation d'ADN . Synthèse de protéines . Thermogénèse . Fusion cellulaire.

Détoxification . Compaction d'ADN . Chaperones . Catabolisme ADN/ARN . Transport vésiculaire . Maturation protéique . Choc thermique . Épissage .

Transport nucléaire . Fuseau mitotique . Communication cellulaire . Homéostase . Neurotoxines et biodéfense . Biosynthèse d'acides aminés . Sécrétion . Cycle de l'urée . Biosynthèse de nucléotides . Recombinaison génétique . Chimiorécepteurs . Transport de protéines . Moteurs . Intégration du métabolisme . Neurotoxines . Biosynthèse d'hormones . Tissus connectifs . Dégradation d'antibiotiques . Vision

(3)

Séquence Structure

Fonction

A U GC G C UU A UA G C CA A G G :

Ingénierie de la structure et fonction des biomolécules

(4)

●

Organisation structurale et stabilité des protéines

●

Prédiction de structure secondaire

●

Modélisation moléculaire, mécanique moléculaire

●

Prédiction de structure 3D: modélisation par homologie

(5)

Le problème du repliement

la structure native est un minimum d'énergie libre

K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T

N_états ~ 3ⁿ n = 100-300

Un acide aminé possède 3 conformations; un polypeptide de longueur n en possède... 3ⁿ. Et pourtant, il se replie en un temps très court (10^-6 – 1 s).

(6)

Structure des protéines

(7)

Structure des protéines

(8)

C_H

N C

H O

R

_i

N H

C_H

R

_i+1

C O

i i+1

i+2

La chaîne principale possède deux dièdres flexibles phi, psi par acide aminé

  N

H

C_H

R

_i+2

Liaison peptide

= plane

d+ d-

d- d+

(9)

Les valeurs stériquement permises de phi, psi sont celles du diagramme de Ramachandran

C_H

N C

H O

C

_

N H

C_H

  C

O C_H



^



(10)

Lovell et al, 2003, Proteins, 50:437

C_H

N C

H O

C_

N H

C_H

  C

O C_H

(11)

Hélice  Feuillet  (antiparallèle, ici)

Dans les hélices et feuillets, les groupements polaires de la chaine principale sont engagés dans des liaisons hydrogènes

3.6 résidus par tour

Pseudo-périodicité de 2 i

i+4

(12)

boucles

coude

~1/3 des acides aminés

Les boucles sont plus flexibles, donc difficiles à

prédire. Elles ont assez souvent un role fonctionnel.

(13)

H CH

CH₃ CH₃

CH CH₃ CH₃

CH₂ CH₂

CH₂ OH

C

O O

CH₂ CH₂

C

O O

CH₂ C

O NH₂ CH₂ C

O NH₂

CH₂ CH₂

CH CH₃ OH

CH₂ OH CH₂

SH

CH₂ NH

CH₂ CH₃

CH₃ CH

CH₂ NH₃

CH₂ CH₂

CH₂

CH₂ NH NH

CH₃

S CH₂

CH₃

CH₂

N CH

NH NH₂ NH₂

(CH₂)₃ + +

-

La nature utilise une chimiothèque de 20 acides aminés avec une gamme de caractéristiques physico-chimiques

Ile

Trp

Leu Phe

Tyr

Val

Ala Gly

Pro

Ser

Asn Cys Thr

Met

Gln

Lys

Arg

Glu

Asp His

polarité taille

(14)

La nature a sélectionné les acides aminés L

Ne pas confondre “L” avec “lévogyre”: subtile différence

L D

(15)

C_H

N C

H O





CH₂

NH₃

CH₂

CH₂ +

Lysine

c₁ c2

c3

Les chaines latérales ont des angles de torsion flexibles

53 conformations de Lys vue dans des structures

cristallographiques de protéines.

(16)

-2.5

-4.3

Les chaines latérales ont des conformations préférées, appelées “rotamères”

Exemple de l'asparagine ^-3.3

conformations typiques vues dans les protéines conformations vues par simulation

énergie(chi1,chi2)

C N

C

C_

C_g O_d N_d

_

_

-4.5

chi2

chi1 1 kcal/mol entre contours

(17)

Structure “quaternaire”: Notion de domaine structural

50-300 acides aminés

Deux aminoacyl-ARNt synthétases 4 modules

fibronectine

(18)

Un même domaine peut être utilisé par de nombreuses protéines différentes

Tyrosine kinase c-Src

Domaine “SH3”: trouvé dans des contextes variés dans >150 protéines de structures 3D connues.

23 chez la levure

(19)

Glycéraldéhyde- 3-phosphate déshydrogénase

Protéine fixant le NAD Protéine fixant

le substrat A Protéine fixant

le substrat B

fusions Déshydrogénases

à NAD de spécificité large

duplications

évolution séparée et spécialisation

Déshydrogénases à NAD de spécificité étroite

NAD

Domaine de fixation du substrat

Domaine de fixation du NAD

Le domaine structural comme module élémentaire

dans l'évolution des protéines

(20)

3 classes

40 architectures

~ 1100 “topologies”

ou “repliements”

~ 2200 superfamilles

Structures de domaines: classement hiérarchique par similarité

Classifying a Protein in the CATH Database of Domain Structures

Acta Cryst (1998) D54:1155 Orengo, Martin, Hutchinson, Jones, Jones, Michie,

Swindells, Thornton

 / 

(21)

Protéines orthologues Protéines paralogues Gène X

Gène X Gène X

spéciation

Gène X

Gène X Gène X

Gène A Gène B

duplication du gène

divergence

Reflet de l'évolution

(22)

Classe



Classe



Classe /



www.cathdb.info

Classement structural des domaines

●114000 structures

●2200 superfamilles

●100 contiennent 60%

des domaines

(23)

La découverte de nouveaux plis ralentit.

~ quelques milliers de plis différents dans le monde du vivant

Protein Data Bank www.rcsb.org/pdb/

L'espace des plis est discret et fini

(24)

Les protéines sont formées par assemblage de domaines

Le répertoire structural = {qques milliers de domaines}^N

(25)

Les structures 3D de biomolécules sont regroupées dans la “Protein Data Bank”

année Nombre

total de structures

dans la PDB

2012

niveau nombre de d'identité protéines 100% 48216 95% 34262 25% ~4000

88000 structures de protéines

(26)

Le synchrotron SOLEIL

Accélérateur d'électrons; émet des rayons X, utilisables pour la cristallographie.

Faisceau

monochromatique de rayons X

Cristal de protéine ou d'ARN

Cliché de diffraction Les projets internationaux de

“génomique structurale” visent à déterminer les structures de toutes les protéines d'organismes choisis, par cristallographie de rayons X, par résonance magnétique

nucléaire, et par modélisation.

(27)

Importance de la modélisation

Pour l'immense majorité des protéines connues, il n'y a pas de structure 3D expérimentale.

Pour ~1/3, la fonction n'est pas connue.

ID % Longueur

# Swissprot Nom Description Score E Identité alignée

1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73

6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73

14 Q63449 PRGR_RAT Progesterone receptor 136 1e-32 80 72

17 P06401 PRGR_HUMAN Progesterone receptor 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor alpha 98 4e-21 55 72

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47

351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49

355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

: : : : : : : : :

(28)

Stabilité des protéines

(29)

Les protéines sont marginalement stables

DG = 5-15 kcal/mol = 10-30 kT ~ 0.1 kT par acide aminé

~ 0.01 kT par atome

-DG Forte entropie configurationnelle

Nombreuses interactions protéine-eau

Faible entropie configurationnelle Interactions protéine-eau

Interactions protéine-protéine Effets compensatoires

(30)

L'effet qui s'oppose au repliement est l'entropie configurationnelle

K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T

N_états ~ 3ⁿ n = 100-300

Un nombre astronomique d'états accessibles pour la protéine dépliée

(31)

Les protéines tendent à enfouir leurs groupes apolaires avec un empilement très compact

Fraction de volume occupée élevée: ~ 0.74 (moyenne sur les structures connues) thioredoxine

Les sphères rouges sont les atomes des chaines latérales hydrophobes.

(32)

La force motrice du repliement est l'effet hydrophobe

Ségrégation alkane/eau

Tension de surface =

+70 cal/mol/A²

1 nm Kauzmann, 1959

L'eau interagit faiblement avec les alkanes saturés et fortement avec l'eau. D'où une tension de surface eau/alkane forte et positive, qui poussera deux goutelettes microscopiques d'huile à coalescer

spontanément. Ainsi, en caricaturant un peu, on peut dire que le repliement est induit par les interactions eau-eau.

(33)

Les hélices et feuillets sont des structures étendues

qui peuvent traverser le coeur hydrophobe d'une protéine tout en formant toutes les liaisons hydrogènes possibles

Hélices + feuillets =

plus de 60% des acides aminés

Prédites par Corey et Pauling avant la détermination de structures expérimentales

(34)

Les protéines membranaires sont un cas à part

~ 30% du génome humain, ~ 50% des médicaments sur le marché Nombre limité de structures connues (~100).

Nombre limité d'architectures possibles.

Cytochrome oxidase

(35)

aa Gly Ala Val Leu Ile Met Pro Phe Trp Ser

% 7 8 7 9 5 2 5 4 1 7 aa Thr Asn Gln Tyr Cys Lys Arg His Asp Glu

% 6 4 4 3 2 6 5 2 5 6

Pourcentages d'utilisation des acides aminés dans les protéines

Le repliement n'est pas une propriété universelle

Un polypeptide avec une séquence arbitraire ne se repliera pas.

Seule une infime minorité de séquences, sélectionnées par l'évolution, conduisent à un repliement stable et unique.

Il faut notamment un bon équilibre entre résidus hydrophiles et

hydrophobes.

(36)

Les interactions électrostatiques gouvernent la reconnaissance moléculaire

CH₂ NH₃

CH₂ CH₂

CH₂

CH₂ NH NH

NH NH₂ NH₂

(^CH₂)₃ + +

C O O

CH₂ CH₂

-

C O O

CH₂

-

Lys Arg

Glu

His Asp

Cu²⁺ + Fe²⁺

Zn²⁺

25% des acides aminés sont chargés

Acetylcholine estérase

Régions rouges = potentiel électrostatique négatif Son substrat, l'acétylcholine, est positif

phospho-Ser

(37)

hème

Cytochrome c

Vue de devant Vue de derrière

Le cytochrome c interagit avec la membrane mitochondriale, chargée négativement, et avec des régions négatives sur le cytochrome bc1 et

le cytochrome oxidase.

Bleu: potentiel positif Rouge: potentiel négatif

Les interactions électrostatiques gouvernent

la reconnaissance moléculaire

(38)

Prédiction de la structure secondaire

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17 v_j

(39)

Hélice  Feuillet 

3.6 résidus par tour Pseudo-périodicité de 2

Prédiction de structure secondaire

(40)

Dans les protéines, le diamètre d'un domaine correspond souvent à quelques éléments de structure secondaire

Représentants de 30 “architectures” dans la classification CATH www.cathdb.info

(41)

Dans les protéines, le diamètre d'un domaine correspond souvent à quelques éléments de structure secondaire

Les hélices sont souvent amphipathes, avec une face enfouie dans la protéine et une vers le solvant.

hydrophile hydrophile

H y d r o p h o b e

boucle

diamètre

(42)

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17

hydrophobes hydrophiles

Les hélices sont souvent amphipathes, avec une face enfouie dans la protéine et une vers le solvant.

“Roue

hélicoidale”

Prédiction de structure secondaire

Vue du dessus et simplifiée d'une hélice amphiphile

(43)

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17

On s'intéresse à un acide aminé, disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci-dessous. On considère les acides

aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs:

(44)

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17

aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs:

(45)

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17

aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs.

Pour les acides aminés hydrophobes, on compte les vecteurs négativement:

(46)

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17

On ajoute tous ces vecteurs:

V₁₃

Si l'hypothèse est juste: on obtiendra un grand vecteur V₁₃ (les v_j s'ajoutent “constructivement”). Sinon, on obtiendra un petit vecteur.

(47)

Moment hydrophobe: _i =

S

H_j v_j

Ala8 Lys9

Lys10

Gly11 Ala12 Thr13

Leu14

Phe15 Lys16

Thr17 v_j

j= i-m i+ m

H_j = hydrophobicité,

caractéristique de chaque type d'acide aminé

m = 3 ou 4

...G S A K K G A T L F K T R C Q Q...

||

Le moment hydrophobe permet de repérer des régions amphipathes

qui ont la périodicité 3.6.

En fait, nous avons défini un “moment hydrophobe”:

(48)

Moment hydrophobe:

_i = _{j= i-m}^{i+ m}

S

H_j v_j

H_j = hydrophobicité

Hypothèse d'un feuillet beta: on

définit un autre moment hydrophobe :

v_j = (-1) ^j

Pseudo-périodicité de 2

(chaine latérale au-dessus ou en-dessous du feuillet)

j=1 j=2

j=3

j=4

Axe j du feuillet

Sphères oranges

= chaines latérales

Axe j du feuillet

Hypothèse valable:

grande valeur de |_i|

(49)

Une méthode inspirée des réseaux de neurones

Une cellule neuronale j recoit des signaux en entrée x₁, x₂, ..., x_n, depuis des cellules voisines 1, 2, ..., n; les intègre, et les convertit en un signal de sortie y_j:

x₁

x₃ x₂

x₄ x₆

y_j

x₅

Cellule neuronale j

Les signaux d'entrée x_i

sont pondérés et sommés: E_j = S_i w_ij x_i

puis convertis: y_j = s ( E_j ) E_j s(E_j) ^Neurone

allumé Neurone

éteint

dendrites axone

(50)

hélice/feuillet/autre

Phe Asn Ala Arg Met Lys Leu

sortie

caché entrée

Un réseau de neurones pour prédire la structure secondaire

~ 75% de prédictions correctes

L'architecture du réseau est choisie au départ. On optimise les poids w_ij de toutes les connections (1212 dans cet exemple) pour obtenir des prédictions correctes sur un jeu de structures connues (phase d'apprentissage). Ainsi paramétré, le réseau a “appris” à associer une structure secondaire à toute séquence qu'on lui présente. Plus précisément, le réseau prédit l'état du résidu central Arg.

E_j = S_i w_ij x_i

(51)

hélice/feuillet/autre

Phe Asn Ala Arg Met Lys Leu

sortie

caché entrée

Un réseau de neurones pour prédire la structure secondaire

~ 80% de prédictions correctes

Phe Gln Ser Arg Met Lys Ile

Phe Asn Ala Lys Ile Lys Leu

Tyr Asn - Arg Met Arg Leu

Utilisation d'un alignement multiple en entrée

(52)

Structure 3D:

mécanique moléculaire et dynamique moléculaire

U

{r}

T₁ T₂ T₃

(53)

On observe expérimentalement que les macromolécules biologiques adoptent un ensemble de conformations

Tige-boucle d'ARN (vue stéréo)

Lysine

(54)

On peut les caractériser par une surface d'énergie

Prédiction de structure = recherche de structures de basse énergie

C N

C

C_

C_g O_d N_d

_

_

chi2

chi1

(55)

On peut construire une fonction d'énergie empirique pour la modélisation biomoléculaire

U = S

liaisons k_b (b-b₀)²+ S

angles k_a (a-a₀)²+ S

torsions k_t [1 + cos(nt-)]

(56)

On peut construire une fonction d'énergie empirique pour la modélisation biomoléculaire

-2q

q

-q' q -q'

q'

U = S_ij [ A_ij/r_ij¹² - B_ij/r_ij⁶ ] + S_ij q_iq_j/r_ij Coulomb

Lennard-Jones ou van der Waals

(57)

Paramétrisation: 1980-2000

Liaisons, angles, torsions: -spectroscopie de petites molécules -résolution numérique de Schrodinger Lennard-Jones: -cristaux de petites molécules

-propriétés de liquides simples Charges atomiques : -résolution numérique

de l'équation de Schrodinger -cristaux de petites molécules

alanyl-methionine Jelsch '01

(58)

Fonction d'énergie: Mécanique Moléculaire

U = S_liaisons k_b (b-b₀)²+ S_angles k_a (a-a₀)²+ S_torsions k_t [1 + cos(nt-)]

+ S_ij [ A_ij/r_ij¹² - B_ij/r_ij⁶ + q_iq_j/r_ij ]

CH₂ O CH₂ O CH₃

N CH C N CH C N CH H H H

H

H N O

CH₂ C CH₂ CH₂

N H H H

.35

-.30

-.35

.25 -.55

.55

-.55

.55 .3

.3 -.6

Positions équivalentes et

indépendantes

(59)

chi2

chi1

Recherche de structures de basse énergie:

minimisation d'énergie

C N

C C_

C_g O_d N_d

c₁ c2

(60)

Minimisation selon la ligne de plus grande pente

(1) Méthode: partant de P_i, on se déplace le long du gradient: -grad U(P_i) jusqu'au minimum dans cette direction, P_i+1. On recommence jusqu'au minimum (gradient nul).

(2) Recherche de P_i+1:

par interpolations successives

(61)

chi2

chi1

Exploration conformationnelle par dynamique moléculaire

Permet

de franchir les barrières d'énergie (pas trop fortes)

Résoudre numériquement les équations du mouvement:

m_i g_i = F_i = - grad U_i 3 équations par atome

C N

C C_

C_g O_d N_d

c₁ c

2

(62)

Description implicite du solvant

Energie électrostatique pour une paire d'ions: E = q q' / e r e = constante diélectrique de l'eau

Continuum diélectrique Solvent “explicite” Solvent “implicite”

Pour traiter quelques ions dans l'eau, tout va bien...

(63)

hétérogénéité “diélectrique” du système:

cf électrostatique des milieux continus

Continuum diélectrique Solvent “explicite” Solvent “implicite”

Dans un premier temps, on peut ignorer cette difficulté:

Energie électrostatique E = q q' / e r

Pour une biomolécule, c'est plus compliqué:

Description implicite du solvant

(64)

Recuit simulé:

Optimisation sur une surface d'énergie rugueuse

U

{r}

T₁ T₂ T₃

●Exploration par dynamique moléculaire

●Température élevée; décroit progressivement

(65)

Repliement in silico

vilin FiP35

Shaw et al (2010) Science, 330:341

(66)

Explicit-solvent simulations of villin headpiece folding;

Freddolino, Schulten (2009) Biophysical Journal

Fluctuations d'un domaine PDZ à l'échelle microseconde

(67)

●

Organisation structurale et stabilité des protéines

●

Prédiction de structure secondaire

●

Modélisation moléculaire, dynamique moléculaire

●

Prédiction de structure 3D: modélisation par homologie

(68)

K L H G G P M LD S D Q K F WR T P A A L H Q NE G F T

?

Prédiction de structure par homologie: identifier d'abord le pli,

généralement par comparaisons de séquences

(69)

Modélisation par homologie

Recherche d'une ou plusieurs protéines homologues de structures connue (“cibles”)

Alignement multiple avec un ensemble d'homologues

Régions conservées: on moyenne les chaines principales des cibles Boucles flexibles: recherche dans la Protein Data Bank;

méthodes de modélisation “ab initio”

Chaines latérales: recherche de rotamères favorables, eg par une exploration stochastique, de type “Monte Carlo”

Affinement et évaluation du modèle: relaxation par minimisation d'énergie et/ou dynamique moléculaire

(70)

86% des angles chi1 corrects 73% des chi2 et chi1

Exercice de prédiction: délétion, puis reconstruction des chaines latérales;

la position de la chaine principale est connue exactement (elle n'est pas modélisée).

Quand la chaine principale est

parfaitement connue, la prédiction est très bonne mais pas

parfaite.

Gaillard et al, Proteins 2016

(71)

C. elegans

M. genitalium S. cerevisiae

E. coli

0 20 40 60 80 0 20 40 60 80

0 20 40 60 80

15 5 15 5

% de séquences avec des homologues PDB

% d'identité

Modélisation par homologie:

une cible n'est pas toujours disponible

Distribution des identités de séquence dans la Protein Data Bank

Une cible doit avoir suffisamment de similarité avec la séquence modélisée

(72)

La structure quaternaire est moins conservée

● Recherche d'une ou plusieurs protéines homologues

● Alignement multiple avec un ensemble d'homologues

● Régions conservées: on moyenne les chaines principales

● Boucles flexibles: recherche dans la PDB; méthodes “ab initio”

● Chaines latérales: recherche de rotamères favorables

● Affinement et évaluation du modèle

● Positionnement relatif des domaines?

Contacts inter-domaine moins nombreux:

positionnements relatifs moins conservés que les structures intradomaines