Modélisation et prédiction de structure de protéines:
une introduction
Glycolyse . Transport d'oxygène . Capture d'énergie lumineuse . Pompage d'ions . Métabolisme des acides aminés . Synthèse d'ARN. Transport de métabolites . Motilité cellulaire . Photosynthèse . Transport d'ions . Synthèse d'ATP . Synthèse d'acides gras . Cycle de Krebs . Cytosquelette . Respiration . Synthèse de sucres . Mort cellulaire. Contraction musculaire . Croissance des tissus . Répertoire
immunitaire. Maturation d'ARN. Synthèse de lipides. Anticorps . Traduction du code génétique. Réplication d'ADN . Capsides virales . Cheveux . Inflammation Coagulation . Signalisation . Répression de gènes . Gluconéogénèse. Hormones . Dégradation d'aliments . Neurotransmission . Oxidoréduction . Bioluminescence . Réparation d'ADN . Synthèse de protéines . Thermogénèse . Fusion cellulaire.
Détoxification . Compaction d'ADN . Chaperones . Catabolisme ADN/ARN . Transport vésiculaire . Maturation protéique . Choc thermique . Épissage .
Transport nucléaire . Fuseau mitotique . Communication cellulaire . Homéostase . Neurotoxines et biodéfense . Biosynthèse d'acides aminés . Sécrétion . Cycle de l'urée . Biosynthèse de nucléotides . Recombinaison génétique . Chimiorécepteurs . Transport de protéines . Moteurs . Intégration du métabolisme . Neurotoxines . Biosynthèse d'hormones . Tissus connectifs . Dégradation d'antibiotiques . Vision
Séquence Structure
Fonction
A U GC G C UU A UA G C CA A G G :
Ingénierie de la structure et fonction des biomolécules
●
Organisation structurale et stabilité des protéines
●
Prédiction de structure secondaire
●
Modélisation moléculaire, mécanique moléculaire
●
Prédiction de structure 3D: modélisation par homologie
Le problème du repliement
la structure native est un minimum d'énergie libre
K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T
Nétats ~ 3n n = 100-300
Un acide aminé possède 3 conformations; un polypeptide de longueur n en possède... 3n. Et pourtant, il se replie en un temps très court (10-6 – 1 s).
Structure des protéines
Structure des protéines
CH
N C
H O
R
iN H
CH
R
i+1C O
i i+1
i+2
La chaîne principale possède deux dièdres flexibles phi, psi par acide aminé
N
H
CH
R
i+2Liaison peptide
= plane
d+ d-
d- d+
Les valeurs stériquement permises de phi, psi sont celles du diagramme de Ramachandran
CH
N C
H O
C
N H
CH
C
O CH
Lovell et al, 2003, Proteins, 50:437
CH
N C
H O
C
N H
CH
C
O CH
Hélice Feuillet (antiparallèle, ici)
Dans les hélices et feuillets, les groupements polaires de la chaine principale sont engagés dans des liaisons hydrogènes
3.6 résidus par tour
Pseudo-périodicité de 2 i
i+4
boucles
coude
~1/3 des acides aminés
Les boucles sont plus flexibles, donc difficiles à
prédire. Elles ont assez souvent un role fonctionnel.
H CH
CH3 CH3
CH CH3 CH3
CH2 CH2
CH2 OH
C
O O
CH2 CH2
C
O O
CH2 C
O NH2 CH2 C
O NH2
CH2 CH2
CH CH3 OH
CH2 OH CH2
SH
CH2 NH
CH2 CH3
CH3 CH
CH2 NH3
CH2 CH2
CH2
CH2 NH NH
CH3
S CH2
CH3
CH2
N CH
NH NH2 NH2
(CH2)3 + +
-
-
La nature utilise une chimiothèque de 20 acides aminés avec une gamme de caractéristiques physico-chimiques
Ile
Trp
Leu Phe
Tyr
Val
Ala Gly
Pro
Ser
Asn Cys Thr
Met
Gln
Lys
Arg
Glu
Asp His
polarité taille
La nature a sélectionné les acides aminés L
Ne pas confondre “L” avec “lévogyre”: subtile différence
L D
CH
N C
H O
CH2
NH3
CH2
CH2
CH2 +
Lysine
c1 c2
c3
Les chaines latérales ont des angles de torsion flexibles
53 conformations de Lys vue dans des structures
cristallographiques de protéines.
-2.5
-4.3
Les chaines latérales ont des conformations préférées, appelées “rotamères”
Exemple de l'asparagine -3.3
conformations typiques vues dans les protéines conformations vues par simulation
énergie(chi1,chi2)
C N
C
C
Cg Od Nd
-4.5
chi2
chi1 1 kcal/mol entre contours
Structure “quaternaire”: Notion de domaine structural
50-300 acides aminés
Deux aminoacyl-ARNt synthétases 4 modules
fibronectine
Un même domaine peut être utilisé par de nombreuses protéines différentes
Tyrosine kinase c-Src
Domaine “SH3”: trouvé dans des contextes variés dans >150 protéines de structures 3D connues.
23 chez la levure
Glycéraldéhyde- 3-phosphate déshydrogénase
Protéine fixant le NAD Protéine fixant
le substrat A Protéine fixant
le substrat B
fusions Déshydrogénases
à NAD de spécificité large
duplications
évolution séparée et spécialisation
Déshydrogénases à NAD de spécificité étroite
NAD
Domaine de fixation du substrat
Domaine de fixation du NAD
Le domaine structural comme module élémentaire
dans l'évolution des protéines
3 classes
40 architectures
~ 1100 “topologies”
ou “repliements”
~ 2200 superfamilles
Structures de domaines: classement hiérarchique par similarité
Classifying a Protein in the CATH Database of Domain Structures
Acta Cryst (1998) D54:1155 Orengo, Martin, Hutchinson, Jones, Jones, Michie,
Swindells, Thornton
/
Protéines orthologues Protéines paralogues Gène X
Gène X Gène X
spéciation
Gène X
Gène X Gène X
Gène A Gène B
duplication du gène
divergence
Reflet de l'évolution
Classe
Classe
Classe /
www.cathdb.info
Classement structural des domaines
●114000 structures
●2200 superfamilles
●100 contiennent 60%
des domaines
La découverte de nouveaux plis ralentit.
~ quelques milliers de plis différents dans le monde du vivant
Protein Data Bank www.rcsb.org/pdb/
L'espace des plis est discret et fini
Les protéines sont formées par assemblage de domaines
Le répertoire structural = {qques milliers de domaines}N
Les structures 3D de biomolécules sont regroupées dans la “Protein Data Bank”
année Nombre
total de structures
dans la PDB
2012
niveau nombre de d'identité protéines 100% 48216 95% 34262 25% ~4000
88000 structures de protéines
Le synchrotron SOLEIL
Accélérateur d'électrons; émet des rayons X, utilisables pour la cristallographie.
Faisceau
monochromatique de rayons X
Cristal de protéine ou d'ARN
Cliché de diffraction Les projets internationaux de
“génomique structurale” visent à déterminer les structures de toutes les protéines d'organismes choisis, par cristallographie de rayons X, par résonance magnétique
nucléaire, et par modélisation.
Importance de la modélisation
Pour l'immense majorité des protéines connues, il n'y a pas de structure 3D expérimentale.
Pour ~1/3, la fonction n'est pas connue.
ID % Longueur
# Swissprot Nom Description Score E Identité alignée
1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73
6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73
14 Q63449 PRGR_RAT Progesterone receptor 136 1e-32 80 72
17 P06401 PRGR_HUMAN Progesterone receptor 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor alpha 98 4e-21 55 72
: : : : : : : : :
: : : : : : : : :
343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47
351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49
355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65
: : : : : : : : :
: : : : : : : : :
Stabilité des protéines
Les protéines sont marginalement stables
DG = 5-15 kcal/mol = 10-30 kT ~ 0.1 kT par acide aminé
~ 0.01 kT par atome
-DG Forte entropie configurationnelle
Nombreuses interactions protéine-eau
Faible entropie configurationnelle Interactions protéine-eau
Interactions protéine-protéine Effets compensatoires
L'effet qui s'oppose au repliement est l'entropie configurationnelle
K L H G G P M L D S D Q K F W R T P A A L H Q N E G F T
Nétats ~ 3n n = 100-300
Un nombre astronomique d'états accessibles pour la protéine dépliée
Les protéines tendent à enfouir leurs groupes apolaires avec un empilement très compact
Fraction de volume occupée élevée: ~ 0.74 (moyenne sur les structures connues) thioredoxine
Les sphères rouges sont les atomes des chaines latérales hydrophobes.
La force motrice du repliement est l'effet hydrophobe
Ségrégation alkane/eau
Tension de surface =
+70 cal/mol/A2
1 nm Kauzmann, 1959
L'eau interagit faiblement avec les alkanes saturés et fortement avec l'eau. D'où une tension de surface eau/alkane forte et positive, qui poussera deux goutelettes microscopiques d'huile à coalescer
spontanément. Ainsi, en caricaturant un peu, on peut dire que le repliement est induit par les interactions eau-eau.
Les hélices et feuillets sont des structures étendues
qui peuvent traverser le coeur hydrophobe d'une protéine tout en formant toutes les liaisons hydrogènes possibles
Hélices + feuillets =
plus de 60% des acides aminés
Prédites par Corey et Pauling avant la détermination de structures expérimentales
Les protéines membranaires sont un cas à part
~ 30% du génome humain, ~ 50% des médicaments sur le marché Nombre limité de structures connues (~100).
Nombre limité d'architectures possibles.
Cytochrome oxidase
aa Gly Ala Val Leu Ile Met Pro Phe Trp Ser
% 7 8 7 9 5 2 5 4 1 7 aa Thr Asn Gln Tyr Cys Lys Arg His Asp Glu
% 6 4 4 3 2 6 5 2 5 6
Pourcentages d'utilisation des acides aminés dans les protéines
Le repliement n'est pas une propriété universelle
Un polypeptide avec une séquence arbitraire ne se repliera pas.
Seule une infime minorité de séquences, sélectionnées par l'évolution, conduisent à un repliement stable et unique.
Il faut notamment un bon équilibre entre résidus hydrophiles et
hydrophobes.
Les interactions électrostatiques gouvernent la reconnaissance moléculaire
CH2 NH3
CH2 CH2
CH2
CH2 NH NH
NH NH2 NH2
(CH2)3 + +
C O O
CH2 CH2
-
C O O
CH2
-
Lys Arg
Glu
His Asp
Cu2+ + Fe2+
Zn2+
25% des acides aminés sont chargés
Acetylcholine estérase
Régions rouges = potentiel électrostatique négatif Son substrat, l'acétylcholine, est positif
phospho-Ser
hème
Cytochrome c
Vue de devant Vue de derrière
Le cytochrome c interagit avec la membrane mitochondriale, chargée négativement, et avec des régions négatives sur le cytochrome bc1 et
le cytochrome oxidase.
Bleu: potentiel positif Rouge: potentiel négatif
Les interactions électrostatiques gouvernent
la reconnaissance moléculaire
Prédiction de la structure secondaire
Ala8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17 vj
Hélice Feuillet
3.6 résidus par tour Pseudo-périodicité de 2
Prédiction de structure secondaire
Dans les protéines, le diamètre d'un domaine correspond souvent à quelques éléments de structure secondaire
Représentants de 30 “architectures” dans la classification CATH www.cathdb.info
Dans les protéines, le diamètre d'un domaine correspond souvent à quelques éléments de structure secondaire
Les hélices sont souvent amphipathes, avec une face enfouie dans la protéine et une vers le solvant.
hydrophile hydrophile
H y d r o p h o b e
boucle
diamètre
Ala8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17
hydrophobes hydrophiles
Les hélices sont souvent amphipathes, avec une face enfouie dans la protéine et une vers le solvant.
“Roue
hélicoidale”
Prédiction de structure secondaire
Vue du dessus et simplifiée d'une hélice amphiphile
Ala8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17
On s'intéresse à un acide aminé, disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci-dessous. On considère les acides
aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs:
Ala8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17
On s'intéresse à un acide aminé, disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci-dessous. On considère les acides
aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs:
Ala8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17
On s'intéresse à un acide aminé, disons Thr13. On fait l'hypothèse qu'il est dans une hélice, représentée ci-dessous. On considère les acides
aminés 9, 10, 11, 12, 13, 14, 15, 16, 17, qu'on repère par des vecteurs.
Pour les acides aminés hydrophobes, on compte les vecteurs négativement:
Ala8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17
On ajoute tous ces vecteurs:
V13
Si l'hypothèse est juste: on obtiendra un grand vecteur V13 (les vj s'ajoutent “constructivement”). Sinon, on obtiendra un petit vecteur.
Moment hydrophobe: i =
S
Hj vjAla8 Lys9
Lys10
Gly11 Ala12 Thr13
Leu14
Phe15 Lys16
Thr17 vj
j= i-m i+ m
Hj = hydrophobicité,
caractéristique de chaque type d'acide aminé
m = 3 ou 4
...G S A K K G A T L F K T R C Q Q...
||
Le moment hydrophobe permet de repérer des régions amphipathes
qui ont la périodicité 3.6.
En fait, nous avons défini un “moment hydrophobe”:
Moment hydrophobe:
i = j= i-mi+ m
S
Hj vjHj = hydrophobicité
Hypothèse d'un feuillet beta: on
définit un autre moment hydrophobe :
vj = (-1) j
Pseudo-périodicité de 2
(chaine latérale au-dessus ou en-dessous du feuillet)
j=1 j=2
j=3
j=4
Axe j du feuillet
Sphères oranges
= chaines latérales
Axe j du feuillet
Hypothèse valable:
grande valeur de |i|
Une méthode inspirée des réseaux de neurones
Une cellule neuronale j recoit des signaux en entrée x1, x2, ..., xn, depuis des cellules voisines 1, 2, ..., n; les intègre, et les convertit en un signal de sortie yj:
x1
x3 x2
x4 x6
yj
x5
Cellule neuronale j
Les signaux d'entrée xi
sont pondérés et sommés: Ej = Si wij xi
puis convertis: yj = s ( Ej ) Ej s(Ej) Neurone
allumé Neurone
éteint
dendrites axone
hélice/feuillet/autre
Phe Asn Ala Arg Met Lys Leu
sortie
caché entrée
Un réseau de neurones pour prédire la structure secondaire
~ 75% de prédictions correctes
L'architecture du réseau est choisie au départ. On optimise les poids wij de toutes les connections (1212 dans cet exemple) pour obtenir des prédictions correctes sur un jeu de structures connues (phase d'apprentissage). Ainsi paramétré, le réseau a “appris” à associer une structure secondaire à toute séquence qu'on lui présente. Plus précisément, le réseau prédit l'état du résidu central Arg.
Ej = Si wij xi
hélice/feuillet/autre
Phe Asn Ala Arg Met Lys Leu
sortie
caché entrée
Un réseau de neurones pour prédire la structure secondaire
~ 80% de prédictions correctes
Phe Gln Ser Arg Met Lys Ile
Phe Asn Ala Lys Ile Lys Leu
Tyr Asn - Arg Met Arg Leu
Utilisation d'un alignement multiple en entrée
Structure 3D:
mécanique moléculaire et dynamique moléculaire
U
{r}
T1 T2 T3
On observe expérimentalement que les macromolécules biologiques adoptent un ensemble de conformations
Tige-boucle d'ARN (vue stéréo)
Lysine
On peut les caractériser par une surface d'énergie
Prédiction de structure = recherche de structures de basse énergie
C N
C
C
Cg Od Nd
chi2
chi1
On peut construire une fonction d'énergie empirique pour la modélisation biomoléculaire
U = S
liaisons kb (b-b0)2 + S
angles ka (a-a0)2 + S
torsions kt [1 + cos(nt-)]
On peut construire une fonction d'énergie empirique pour la modélisation biomoléculaire
-2q
q
-q' q -q'
q'
q'
U = Sij [ Aij/rij12 - Bij/rij6 ] + Sij qiqj/rij Coulomb
Lennard-Jones ou van der Waals
Paramétrisation: 1980-2000
Liaisons, angles, torsions: -spectroscopie de petites molécules -résolution numérique de Schrodinger Lennard-Jones: -cristaux de petites molécules
-propriétés de liquides simples Charges atomiques : -résolution numérique
de l'équation de Schrodinger -cristaux de petites molécules
alanyl-methionine Jelsch '01
Fonction d'énergie: Mécanique Moléculaire
U = Sliaisons kb (b-b0)2 + Sangles ka (a-a0)2 + Storsions kt [1 + cos(nt-)]
+ Sij [ Aij/rij12 - Bij/rij6 + qiqj/rij ]
CH2 O CH2 O CH3
N CH C N CH C N CH H H H
H
H N O
CH2 C CH2 CH2
N H H H
.35
-.30
-.35
.25 -.55
.55
-.55
.55 .3
.3 -.6
Positions équivalentes et
indépendantes
chi2
chi1
Recherche de structures de basse énergie:
minimisation d'énergie
C N
C C
Cg Od Nd
c1 c2
Minimisation selon la ligne de plus grande pente
(1) Méthode: partant de Pi, on se déplace le long du gradient: -grad U(Pi) jusqu'au minimum dans cette direction, Pi+1. On recommence jusqu'au minimum (gradient nul).
(2) Recherche de Pi+1:
par interpolations successives
chi2
chi1
Exploration conformationnelle par dynamique moléculaire
Permet
de franchir les barrières d'énergie (pas trop fortes)
Résoudre numériquement les équations du mouvement:
mi gi = Fi = - grad Ui 3 équations par atome
C N
C C
Cg Od Nd
c1 c
2
Description implicite du solvant
Energie électrostatique pour une paire d'ions: E = q q' / e r e = constante diélectrique de l'eau
Continuum diélectrique Solvent “explicite” Solvent “implicite”
Pour traiter quelques ions dans l'eau, tout va bien...
hétérogénéité “diélectrique” du système:
cf électrostatique des milieux continus
Continuum diélectrique Solvent “explicite” Solvent “implicite”
Dans un premier temps, on peut ignorer cette difficulté:
Energie électrostatique E = q q' / e r
Pour une biomolécule, c'est plus compliqué:
Description implicite du solvant
Recuit simulé:
Optimisation sur une surface d'énergie rugueuse
U
{r}
T1 T2 T3
●Exploration par dynamique moléculaire
●Température élevée; décroit progressivement
Repliement in silico
vilin FiP35
Shaw et al (2010) Science, 330:341
Explicit-solvent simulations of villin headpiece folding;
Freddolino, Schulten (2009) Biophysical Journal
Fluctuations d'un domaine PDZ à l'échelle microseconde
●
Organisation structurale et stabilité des protéines
●
Prédiction de structure secondaire
●
Modélisation moléculaire, dynamique moléculaire
●
Prédiction de structure 3D: modélisation par homologie
K L H G G P M LD S D Q K F WR T P A A L H Q NE G F T
?
Prédiction de structure par homologie: identifier d'abord le pli,
généralement par comparaisons de séquences
Modélisation par homologie
Recherche d'une ou plusieurs protéines homologues de structures connue (“cibles”)
Alignement multiple avec un ensemble d'homologues
Régions conservées: on moyenne les chaines principales des cibles Boucles flexibles: recherche dans la Protein Data Bank;
méthodes de modélisation “ab initio”
Chaines latérales: recherche de rotamères favorables, eg par une exploration stochastique, de type “Monte Carlo”
Affinement et évaluation du modèle: relaxation par minimisation d'énergie et/ou dynamique moléculaire
86% des angles chi1 corrects 73% des chi2 et chi1
Exercice de prédiction: délétion, puis reconstruction des chaines latérales;
la position de la chaine principale est connue exactement (elle n'est pas modélisée).
Quand la chaine principale est
parfaitement connue, la prédiction est très bonne mais pas
parfaite.
Gaillard et al, Proteins 2016
C. elegans
M. genitalium S. cerevisiae
E. coli
0 20 40 60 80 0 20 40 60 80
0 20 40 60 80
0 20 40 60 80
15 5 15 5
% de séquences avec des homologues PDB
% d'identité
Modélisation par homologie:
une cible n'est pas toujours disponible
Distribution des identités de séquence dans la Protein Data Bank
Une cible doit avoir suffisamment de similarité avec la séquence modélisée
La structure quaternaire est moins conservée
● Recherche d'une ou plusieurs protéines homologues
● Alignement multiple avec un ensemble d'homologues
● Régions conservées: on moyenne les chaines principales
● Boucles flexibles: recherche dans la PDB; méthodes “ab initio”
● Chaines latérales: recherche de rotamères favorables
● Affinement et évaluation du modèle
● Positionnement relatif des domaines?
Contacts inter-domaine moins nombreux:
positionnements relatifs moins conservés que les structures intradomaines