Comparaison et alignement de séquences
Mastères Ingénierie et Chimie des BioMolécules et Biologie et Santé Module Bioinformatique structurale. Cours I
Novembre 2020
T. Simonson, Ecole Polytechnique
●
Comparaisons de séquences: pourquoi faire?
●
L'alignement de séquences comme
modèle d'un processus évolutif
●
Alignement de séquences: algorithmes
●
Déroulement du module Bioinformatique
Arbre phylogénétique retraçant l'évolution des globines.
Millions d'années
1) Les protéines similaires ont souvent un
ancêtre commun: Exemple des globines
Gène X
Gène X Gène X
Spéciation
Divergence
Orthologues
Les protéines similaires ont souvent un ancêtre commun
Gène X
Gène X Gène X
Gène Y Gène Z
Duplication
Divergence
Paralogues
Gène X
Gène X Gène X
Gène Y Gène Z Duplication
accidentelle
Divergence
Paralogues
Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues
individu
individu + descendance
population invasion
de la population
Gène X
Gène X Gène X
Gène Y Gène Z Divergence
Paralogues
Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues
Duplication accidentelle
X
duplication spéciation
spéciation
duplication A
B
B1 B2
a b1 b2 c1 c2 c3
paralogues temps
orthologues
Evolution d'un gène par spéciation,
duplication et divergence
Séquence Structure
Fonction
2) Les protéines similaires ont souvent des structures et fonctions similaires
K L H G G P M L D S D Q K F W R T P A A L
Launay & Simonson BMC Bioinformatics 2008
A partir de 60% d'identité de séquence on peut dire avec confiance que deux homologues ont la même fonction.
A partir de 35% d'identité des complexes homologues vont probablement interagir de manière homologue.
L'alignement de séquences comme
modèle d'un processus évolutif
L'alignement comme modèle d'un processus évolutif
Hypothèse: deux protéines similaires
ont toujours un ancêtre commun
T C L I C G D E A S G C H Y T C L V C G D E A T G Y H Y L C V V C G D K A T G Y H Y
Récepteur de l'androstérone
Ancêtre commun hypothétique
Récepteur de l'hormone thyroïdienne
Mutations hypothétiques en rouge
L'hypothèse ci-dessus est-elle vraisemblable?
L'alignement comme hypothèse
d'un ancêtre commun “parsimonieux”
Un modèle probabiliste d'évolution
P(xi,yj) = probabilité d'observer xi aligné avec yj P(xi ¹yj) = P(“xi muté en yj” ou “yj muté en xi”) P(xi = yj) = P(“xi conservé”)
● Probabilités estimées à partir d'alignements tests
● Hypothèse de positions équivalentes et indépendantes
T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y
séquence x:
séquence y:
La vraisemblance ou probabilité d'un alignement
T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y
Récepteur de l'androstérone Récepteur de l'hormone
thyroïdienne
Mutations probables alignement probable Mutations improbables alignement improbable
En comparant des protéines homologues, on voit que les mutations ont des probabilités différentes
androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétonïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*
Récepteur de l'androstérone
androgen CLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYL-CASRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGA Rev Erb CKVCGDVASGFHYGVLACEGCKGFFRRSIQQNIQYKRCLKNENCSIVRINRNRCQQCRFKKCLSVGMSRD- glucocorticoid CLVCSDEASGCHYGVLTCEGCKAFFKRAVEGQHNYL-CKYEGKCIIDKIRRKNCPACRYRKCLQAGMNLEA retinoic acid CAICGDRSSGKHYGVYSCEGCKGFFKRTVRKDLTYT-CRDNKDCLIDKRQRNRCQYCRYQKCLAMGM---
Se fixent sur l'ADN et régulent l'expression génétique
sous le contrôle de petits
ligands: stéroïdes, vitamines, ...
Récepteurs nucléaires
Les mutations ont des probabilités différentes
androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*
PHE F
TYR Y
homologues
KYL NYL NYL NYL DYM VYT LFT TYS :
Les propriétés structurales des acides aminés font
que les mutations ont des probabilités différentes
Les propriétés structurales des acides aminés font que les mutations ont des probabilités différentes
LYS K
ARG R
GLN Q
homologues
RKCY
RKCY QKCL
RKCL RKCY
QKCF KRCV
KKCL ::*
Un modèle probabiliste d'évolution
P(xi,yj) = probabilité d'observer xi aligné avec yj P(xi ¹yj) = P(“xi muté en yj” ou “yj muté en xi”) P(xi = yj) = P(“xi conservé”)
● Probabilités estimées à partir d'alignements tests
● Hypothèse de positions équivalentes et indépendantes
T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y
séquence x:
séquence y:
Difficulté: qu'est-ce qu'une grande probabilité?
Alignement avec le récepteur humain de la progestérone
PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC PQRVCVICGDEASGCHYGVLTCGSCKVFFKRAVEGHHQYLCAGRNDCIVDKIRRKNCPAC
**' *'******** *** ************* ** '**** **** '** ******'*
Alignement avec le récepteur humain de l'hormone thyroïdienne
PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSC KDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLC *''***'*'* ** '** ** **'* ' * * * *** * * *
Alignement avec la ferrédoxine de la bactérie Proteus vulgaris PQKTCLICGDEASGAHYGTLTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC DQDKCIGCKTCVLACPYGTMEVVSRPVMRKLTALNTIEAFKAEANKCDLCHHRAEG-PAC * *' * ***' * * * * * * * ' * ' *'*
Modèle “aléatoire” comme point de référence
Q(xi,yj) = probabilité d'observer xi et yj
dans deux protéines indépendantes
= qxi qyj Fréquences naturelles de xi, yj x qx
W 1.3 % des acides aminés L 9.0 %
W
W L
L
Hypothèse “évolutive”: deux séquences ont un ancêtre commun (parsimonieux) Hypothèse concurrente: elles n'ont aucune relation biologique: c'est comme si on cherchait à aligner deux séquences aléatoires, tirées au hasard.
Vraisemblance d'une colonne dans un alignement
M(xi,yj) = log P(xi,yj)/Q(xi,yj) = log [ P(xi,yj)/qxi qyj ]
T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y xi
yi
M = matrice de “score”
déf.
On prend toujours un ratio entre une probabilité P (scénario évolutif) et une probabilité Q (scénario aléatoire):
Une matrice empirique très utilisée: BLOSUM62
C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W
Une matrice empirique très utilisée: BLOSUM62
Pénalty pour gaps: voir plus loin
Exc: calculer les valeurs de P(W,W) et P(L,L) et les commenter.
C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W
Les mutations ont des probabilités différentes K R Q Y F
K 6 3 2 -2 -4 R 7 1 -1 -3 Q 7 -1 -4 Y 8 4 F 8
Extrait de la matrice empirique BLOSUM50
P(xi,yj) = probabilité d'observer xi aligné avec yj
= P(“xi conservé” ou “xi muté en yj” ou “yj muté en xi”)
●Probabilités estimées à partir d'alignements tests
●Hypothèse de positions équivalentes
●Hypothèse de positions indépendantes: P(alignement) = P
(i,j) P(xi,yj)
T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y
La vraisemblance ou probabilité d'un alignement
Vraisemblance ou “score” d'un alignement
s(xi,yj) = log P(xi,yj)/Q(xi,yj)
= log [ P(xi,yj)/qxi qyj ]
s(x,y) = S
(i,j) s(xi,yj)
T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y
La probabilité de mutation dépend du temps
P(x,y) = P(x,y;T) = probabilité d'une mutation pendant le temps T
Une matrice de similarité vaut pour une échelle de temps, ou de similarité donnée.
BLOSUM50 BLOSUM62
Les cytochromes c de chimpanzee et d'humain sont plus similaires que les cytochromes c
d'humain et d'Escherichia coli...
Il est nettement plus facile d'allonger un gap existant que d'ouvrir un nouveau gap
●Ouvrir un gap: -d
●L'allonger d'un résidu: -e (e<d)
●Coût d'un gap de longueur m:
g(m) = -d – (m-1) e
Eg, boucles
Il faut un traitement plus réaliste des gaps
Les positions ne sont plus équivalentes ni indépendantes
En résumé, un alignement correspond à un modèle d'évolution, qui comprend:
● Hypothèse de divergence “minimale” depuis un ancêtre commun
● Détermination empirique des probabilités de mutations
● Hypothèse de positions équivalentes et indépendantes
● Un modèle de référence (hypothèse “nulle”)
L'alignement de séquences:
algorithmes
Comparaison graphique de deux séquences par une matrice densité
W
W P * * Q * *
R * * W W
A A P Q R A A A P Q R A
On dispose les deux séquences sur les bords d'une matrice.
Pour chaque paire de résidus similaires ou identiques, on dessine un point dans la matrice:
Séquence 2
Séquence 1
Comparaison graphique de deux séquences par une matrice densité
cheval
humain
Cytochromes c
Récepteur estrogène Récepteur
androgène
C'est souvent une partie d'une protéine qui est conservée: il faut chercher un alignement “local”
Aspartyl-ARNt synthétase
de levure
Domaine du site actif,
Aspartyl-ARNt synthétase
d'E coli
BLAST: Basic Local Alignment Search Tool
● recherche de tétrapeptides homologues
● extension de chaque peptide tant que la similarité > seuil
C L I C G D E A S G C H Y L C V V G D K A T G Y H Y
Récepteur de l'androstérone
Récepteur de l'hormone thyroïdienne
G D E A score BLOSUM62
G D E A 21 = 6+6+5+4 G D D A 18
G D Q A 18 G E E A 17 G D E G 17 G D K A 17 G D E V 17
Tétrapeptides homologues à un tétrapeptide de référence
V A G D E Q K A 0 4
G 6
D 6 2
E 5 2 1 BLOSUM62
7 homologues (avec BLOSUM62 et un seuil de 17).
Eg: Tétrapeptides homologues à la référence GDEA
>sp|P10827|THA_HUMAN Thyroid hormone receptor alpha Homo sapiens.
MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIPSYLDKDEQCVVCGDKA TGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCIAVGM AMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEPTPEEWDLIHIATEAHRSTNA QGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEFTKIITPAITRVVDFAKKLPMFS ELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTLSGEMAVKREQLKNGGLGVVSDAIF ELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLCVDKIEKSQEAYLLAFEHYVNHRKHNI PHFWPKLLMKEREVQSSILYKGAAAEGRPGGSLGVHPEGQQLLGMHVVQGPQVRQLEQQL GEAGSLQGPVLQHQSPKSPQQRLLELLHRSGILHARAVCGEDDSSEADSPSSSEEEPEVC EDLAGNAASP
G D E A G D D A G D Q A G E E A G D E G G D K A G D E V
On identifie dans la séquence cible un
tétrapeptide homologue à la séquence de référence
C L I C G D E A S G C H Y L C V V G D K A T G Y H Y
Récepteur de l'androstérone
Récepteur de l'hormone thyroïdienne
On étend le “micro-alignement” dans chaque direction, tant que le score > seuil
●Chaque tétrapeptide homologue conduit à un alignement local sans gaps
●On retient les meilleurs alignements
Homologues du récepteur de l'androstérone identifiés avec BLAST
ID % Match
# Swissprot Hit Description Score E Identity Length (bits) *
1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72
: : : : : : : : :
: : : : : : : : :
343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65
*E = espérance du nombre d'alignements fortuits de score supérieur
Une méthode plus rigoureuse, qui s'inspire de la “matrice” déja vue
P Q R A S
P * Q *
R *
On dispose les deux séquences sur les bords d'une matrice:
Séquence 2
Séquence 1
Une méthode plus rigoureuse; présentation partielle
P Q R A S
P * Q *
R *
On dispose les deux séquences sur les bords d'une matrice.
Un alignement correspond à une ligne à travers la matrice:
Séquence 2
Séquence 1
P Q R A S
P Q R
Séquence 2
Séquence 1
-PQRA SPQR-
Exc: représenter les alignements suivants: P-QRA SPQR-
P--QRA SPQ-R-
Un alignement correspond à une ligne à travers la matrice.
Une ligne “incomplète” correspond à un alignement incomplet:
P Q R A S
P Q R
-PQRA SPQR-
P Q R A S
P Q R
-PQ SPQ
Une méthode plus rigoureuse; présentation partielle
Un alignement correspond à une ligne à travers la matrice.
On annote la table avec les scores:
P Q R A S
P Q R
P Q R A 0
S-8
P -1
Q 4
R 9 1
-PQRA SPQR-
S P Q R P -1 7 -1 -2 Q 0 -1 5 1 R -1 -2 1 5 A 1 -1 -1 -1
Une méthode plus rigoureuse; présentation partielle
P Q R A 0
S-8
P -1
Q 4
R 9 1
L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:
P-QRA SPQR-
P Q R A 0
S -1 P -9
Q -4
R 1 -7
-PQRA SPQR-
Une méthode plus rigoureuse; présentation partielle
P Q R A 0
S-8
P -1
Q 4
R 9 1
L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:
P Q R A 0
S -1 P -9
Q -4
R 1 -7
PQ--RA S-PQR-
P Q R A 0
S -1 -9 P -17 Q -25
R -20 -28
P-QRA SPQR- -PQRA
SPQR-
Une méthode plus rigoureuse; présentation partielle
Comment trouver le meilleur chemin à travers la table?
P Q R A 0
S
P
Q -1 -9 R 9 ?
Supposons que nous connaissons les scores de trois alignements particuliers:
Chaque score bleu correspond à un
alignement incomplet, inconnu à ce stade.
Pour le moment, nous n'avons pas besoin
de savoir comment ces valeurs sont obtenues:
elles sont admises.
A partir de ces 3 scores, je peux trouver le score manquant! Comment??
Comment trouver le meilleur chemin à travers la table?
P Q R A 0
S
P
Q -1 -9 R 9 ?
Supposons que nous connaissons les scores de trois alignements particuliers:
A partir des 3 scores bleus, je peux trouver le score manquant!
3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17
Comment trouver le meilleur chemin à travers la table?
P Q R A 0
S
P
Q -1 -9 R 9 1
Supposons que nous connaissons les scores de trois alignements particuliers:
A partir des 3 scores bleus, je peux trouver le score manquant!
3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17
Comment trouver le meilleur chemin à travers la table?
P Q R A 0
S
P
Q 4 -1 -9 R -4 ?
Supposons que nous connaissons encore trois autres scores:
On peut construire progressivement un alignement optimal;
pour une description complète de la méthode, voir Dardel & Képès
Comment trouver le meilleur chemin à travers la table?
P Q R A 0
S
P
Q 4 -1 -9 R -4 9 1
Supposons que nous connaissons encore trois autres scores:
Comment obtenir ces scores “intermédiaires”? Par une opération de remplissage de la table entière, en commençant en haut à gauche.
La méthode de Needleman-Wunsch: initialisation
P Q R A 0 -8 -16 -24 -32 S -8
P-16
Q-24
R-32
F(i,j) F(i-1,j) F(i-1,j-1)
F(i,j-1)
-d -d
s(x
i,y
j)
y1 y2 y3 y4 y5 y6 x1
x2 x3 x4 x5
Calcul récursif de F(i,j)
- P Q R A
Extension de F
- S P Q R
0 -8 -16 -24 -32 -8 -1 -8
P Q S -1 0
Matrice de similarité
P Q - S
Coût pq en mémoire et calcul
La méthode de Needleman-Wunsch
P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23
P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1
Pour les détails, voir le livre de Dardel & Képès
La méthode de Needleman-Wunsch
P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23
P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1
Pour les détails, voir le livre de Dardel & Képès
La méthode de Needleman-Wunsch
P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23
P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1
Pour les détails, voir le livre de Dardel & Képès (chap. 2)
P Q R A S P
Q R
Séquence 2
Séquence 1
-PQRA SPQR-
Alignements multiples:
principes
Homologues du récepteur de l'androstérone identifiés avec BLAST
*E = espérance du nombre d'alignements fortuits de score supérieur
ID % Match
# Swissprot Hit Description Score E Identity Length (bits) *
1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72
: : : : : : : : :
: : : : : : : : :
343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65
Méthode heuristique pour un alignement multiple:
trois phases successives
●
Alignement 2 à 2 des séquences
●
Construction d'un arbre “guide”
●
Alignement progressif séquences-profil
a) S T A R b) S K A T c) P I T
S T A R S K A T
4 -1 4 -1
Score =6
S T A R P I T -
-1 -1 0 -8
S K A T P – I T
-1 -8 -1 5
Score =-10 (Exc.)
Score =-5 (Exc.)
Phase 1: alignement des séquences 2 à 2
Phases 2, 3: on reprend le problème à zéro, en traitant les séquences dans un ordre intelligent
Phase 2: Classement des séquences par similarité Phase 3: On les aligne progessivement,
en commençant par les plus similaires
Phase 2: classement hiérarchique, ou arbre “guide”
a b
d c
a b
c d
a b
d c 1 2
3
“Unweighted Pair Group Joining with Arithmetic Mean”
Phase 3: alignement des séquences en remontant progressivement l'arbre
progesterone mineralocorticoid
glucocorticoid
estrogen
vitamin D
PPAR retinoic acid
thyroid androgen
0.8 0.7 0.8
0.4 1.2
0.5 1.1
0.2 1.4
0.9 1.0
Phase 3: alignement des séquences en remontant progressivement l'arbre
a b
c
a) S T A R b) S K A T
a avec b
c avec {a, b}
Alignement “séquence-profil”
S T A R S T I R S K A T P
I T
P T -1 T -1 K -1
total
-3
0 -24
-27
Alignement séquence-profil:
programmation dynamique
S T A R S T I R S K A T
P I T
P T -1 T -1 K -1
total
-3
Aligner une séquence avec un alignement:
calcul d'un score moyen
Alignement existant:
Séquence à aligner:
b
s(a, b' ) = s(a,b) + s(a,b') + s(a,b'') b''
Somme de paires
0 -24 -48 -72 -96
-24 -3 -27 -51 -75 -48 -19 -6 -25 -49 -72 -43 -10 -4 -22
S T A R S T I R S K A T P
I T
S T A R T S A R S K I T P - I T Alignement séquence-profil:
programmation dynamique
S T A R S T I R S K A T P P
I I G T
S T A R T S A R S K I T P - I T P - I G Aligner deux profils ou alignements:
calcul d'un score moyen
a b
s( a' , b' ) = s(a,b) + s(a,b') b'' + s(a,b'')+ s(a',b) + s(a',b')+ s(a',b'')
Somme de paires
Produit final:
androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*
584 588
588
Nécessité d'une validation expérimentale
● Mutagénèse des résidus conservés
● Mise en évidence d'une interaction avec un substrat ou inhibiteur
● Détermination de structures tri- dimensionnelles (!)
Matinées 9h30 – 12h30 Après midis 14h – 17h30
dates chapitres de la matinée (salles) après-midi
---
19/11 Alignements de séquence (SI32) TP (SI32)
26/11 Modélisation (SI32) TP (SI32)
14/12 Modélisation, suite + TD TP (SI30)
15/12 TD TP (SI30)
18/12 Reconnaissance moléculaire 1 + TD TP (SI30)
5/1 Reconnaissance moléculaire 2 + TD TP (SI30)
7/1 TP (TBA) TP (TBA)
Contrôle: présentation d'un des TPs + contrôle oral le 13/1/21
thomas.simonson@polytechnique.edu thomas.gaillard@polytechnique.edu Laboratoire de Biologie Structurale de la Cellule, Ecole Polytechnique
http://biology.polytechnique.fr/biocomputing/teach.html