Comparaison et alignement de séquences

(1)

Comparaison et alignement de séquences

Mastères Ingénierie et Chimie des BioMolécules et Biologie et Santé Module Bioinformatique structurale. Cours I

Novembre 2020

T. Simonson, Ecole Polytechnique

(2)

●

Comparaisons de séquences: pourquoi faire?

●

L'alignement de séquences comme

modèle d'un processus évolutif

●

Alignement de séquences: algorithmes

●

Déroulement du module Bioinformatique

(3)

Arbre phylogénétique retraçant l'évolution des globines.

Millions d'années

1) Les protéines similaires ont souvent un

ancêtre commun: Exemple des globines

(4)

Gène X

Gène X Gène X

Spéciation

Divergence

Orthologues

Les protéines similaires ont souvent un ancêtre commun

Gène X

Gène X Gène X

Gène Y Gène Z

Duplication

Divergence

Paralogues

(5)

Gène X

Gène X Gène X

Gène Y Gène Z Duplication

accidentelle

Divergence

Paralogues

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

individu

individu + descendance

population invasion

de la population

(6)

Gène X

Gène X Gène X

Gène Y Gène Z Divergence

Paralogues

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

Duplication accidentelle

(7)

X

duplication spéciation

spéciation

duplication A

B

B₁ B₂

a b₁ b₂ c₁ c₂ c₃

paralogues temps

orthologues

Evolution d'un gène par spéciation,

duplication et divergence

(8)

Séquence Structure

Fonction

2) Les protéines similaires ont souvent des structures et fonctions similaires

K L H G G P M L D S D Q K F W R T P A A L

(9)

Launay & Simonson BMC Bioinformatics 2008

A partir de 60% d'identité de séquence on peut dire avec confiance que deux homologues ont la même fonction.

A partir de 35% d'identité des complexes homologues vont probablement interagir de manière homologue.

(10)

L'alignement de séquences comme

modèle d'un processus évolutif

(11)

L'alignement comme modèle d'un processus évolutif

Hypothèse: deux protéines similaires

ont toujours un ancêtre commun

(12)

T C L I C G D E A S G C H Y T C L V C G D E A T G Y H Y L C V V C G D K A T G Y H Y

Récepteur de l'androstérone

Ancêtre commun hypothétique

Récepteur de l'hormone thyroïdienne

Mutations hypothétiques en rouge

L'hypothèse ci-dessus est-elle vraisemblable?

L'alignement comme hypothèse

d'un ancêtre commun “parsimonieux”

(13)

Un modèle probabiliste d'évolution

P(x_i,y_j) = probabilité d'observer x_i aligné avec y_j P(x_i¹y_j) = P(“x_i muté en y_j” ou “y_j muté en x_i”) P(x_i= y_j) = P(“x_i conservé”)

● Probabilités estimées à partir d'alignements tests

● Hypothèse de positions équivalentes et indépendantes

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y

séquence x:

séquence y:

(14)

La vraisemblance ou probabilité d'un alignement

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

Récepteur de l'androstérone Récepteur de l'hormone

thyroïdienne

Mutations probables alignement probable Mutations improbables alignement improbable

(15)

En comparant des protéines homologues, on voit que les mutations ont des probabilités différentes

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétonïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*

(16)

Récepteur de l'androstérone

(17)

androgen CLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYL-CASRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGA Rev Erb CKVCGDVASGFHYGVLACEGCKGFFRRSIQQNIQYKRCLKNENCSIVRINRNRCQQCRFKKCLSVGMSRD- glucocorticoid CLVCSDEASGCHYGVLTCEGCKAFFKRAVEGQHNYL-CKYEGKCIIDKIRRKNCPACRYRKCLQAGMNLEA retinoic acid CAICGDRSSGKHYGVYSCEGCKGFFKRTVRKDLTYT-CRDNKDCLIDKRQRNRCQYCRYQKCLAMGM---

Se fixent sur l'ADN et régulent l'expression génétique

sous le contrôle de petits

ligands: stéroïdes, vitamines, ...

Récepteurs nucléaires

(18)

Les mutations ont des probabilités différentes

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*

(19)

PHE F

TYR Y

homologues

KYL NYL NYL NYL DYM VYT LFT TYS :

Les propriétés structurales des acides aminés font

que les mutations ont des probabilités différentes

(20)

Les propriétés structurales des acides aminés font que les mutations ont des probabilités différentes

LYS K

ARG R

GLN Q

homologues

RKCY

RKCY QKCL

RKCL RKCY

QKCF KRCV

KKCL ::*

(21)

Un modèle probabiliste d'évolution

P(x_i,y_j) = probabilité d'observer x_i aligné avec y_j P(x_i¹y_j) = P(“x_i muté en y_j” ou “y_j muté en x_i”) P(x_i= y_j) = P(“x_i conservé”)

● Probabilités estimées à partir d'alignements tests

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y

séquence x:

séquence y:

(22)

Difficulté: qu'est-ce qu'une grande probabilité?

Alignement avec le récepteur humain de la progestérone

PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC PQRVCVICGDEASGCHYGVLTCGSCKVFFKRAVEGHHQYLCAGRNDCIVDKIRRKNCPAC

**' *'******** *** ************* ** '**** **** '** ******'*

Alignement avec le récepteur humain de l'hormone thyroïdienne

PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSC KDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLC *''***'*'* ** '** ** **'* ' * * * *** * * *

Alignement avec la ferrédoxine de la bactérie Proteus vulgaris PQKTCLICGDEASGAHYGTLTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC DQDKCIGCKTCVLACPYGTMEVVSRPVMRKLTALNTIEAFKAEANKCDLCHHRAEG-PAC * *' * ***' * * * * * * * ' * ' *'*

(23)

Modèle “aléatoire” comme point de référence

Q(x_i,y_j) = probabilité d'observer x_i et y_j

dans deux protéines indépendantes

= q_xi q_yj Fréquences naturelles de x_i, y_j x q_x

W 1.3 % des acides aminés L 9.0 %

W

W L

 L

Hypothèse “évolutive”: deux séquences ont un ancêtre commun (parsimonieux) Hypothèse concurrente: elles n'ont aucune relation biologique: c'est comme si on cherchait à aligner deux séquences aléatoires, tirées au hasard.

(24)

Vraisemblance d'une colonne dans un alignement

M(x_i,y_j) = log P(x_i,y_j)/Q(x_i,y_j) = log [ P(x_i,y_j)/q_xi q_yj]

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y x_i

y_i

M = matrice de “score”

déf.

On prend toujours un ratio entre une probabilité P (scénario évolutif) et une probabilité Q (scénario aléatoire):

(25)

Une matrice empirique très utilisée: BLOSUM62

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W

(26)

Une matrice empirique très utilisée: BLOSUM62

Pénalty pour gaps: voir plus loin

Exc: calculer les valeurs de P(W,W) et P(L,L) et les commenter.

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W

(27)

Les mutations ont des probabilités différentes K R Q Y F

K 6 3 2 -2 -4 R 7 1 -1 -3 Q 7 -1 -4 Y 8 4 F 8

Extrait de la matrice empirique BLOSUM50

(28)

P(x_i,y_j) = probabilité d'observer x_i aligné avec y_j

= P(“x_i conservé” ou “x_i muté en y_j” ou “y_j muté en x_i”)

●Probabilités estimées à partir d'alignements tests

●Hypothèse de positions équivalentes

●Hypothèse de positions indépendantes: P(alignement) = P

(i,j) P(x_i,y_j)

La vraisemblance ou probabilité d'un alignement

(29)

Vraisemblance ou “score” d'un alignement

s(x_i,y_j) = log P(x_i,y_j)/Q(x_i,y_j)

= log [ P(x_i,y_j)/q_xi q_yj]

s(x,y) = S

(i,j) s(x_i,y_j)

(30)

La probabilité de mutation dépend du temps

P(x,y) = P(x,y;T) = probabilité d'une mutation pendant le temps T

Une matrice de similarité vaut pour une échelle de temps, ou de similarité donnée.

BLOSUM50  BLOSUM62

Les cytochromes c de chimpanzee et d'humain sont plus similaires que les cytochromes c

d'humain et d'Escherichia coli...

(31)

Il est nettement plus facile d'allonger un gap existant que d'ouvrir un nouveau gap

●Ouvrir un gap: -d

●L'allonger d'un résidu: -e (e<d)

●Coût d'un gap de longueur m:

g(m) = -d – (m-1) e

Eg, boucles

Il faut un traitement plus réaliste des gaps

Les positions ne sont plus équivalentes ni indépendantes

(32)

En résumé, un alignement correspond à un modèle d'évolution, qui comprend:

● Hypothèse de divergence “minimale” depuis un ancêtre commun

● Détermination empirique des probabilités de mutations

● Un modèle de référence (hypothèse “nulle”)

(33)

L'alignement de séquences:

algorithmes

(34)

Comparaison graphique de deux séquences par une matrice densité

W

W P * * Q * *

R * * W W

A A P Q R A A A P Q R A

On dispose les deux séquences sur les bords d'une matrice.

Pour chaque paire de résidus similaires ou identiques, on dessine un point dans la matrice:

Séquence 2

Séquence 1

(35)

Comparaison graphique de deux séquences par une matrice densité

cheval

humain

Cytochromes c

Récepteur estrogène Récepteur

androgène

(36)

C'est souvent une partie d'une protéine qui est conservée: il faut chercher un alignement “local”

Aspartyl-ARNt synthétase

de levure

Domaine du site actif,

Aspartyl-ARNt synthétase

d'E coli

(37)

BLAST: Basic Local Alignment Search Tool

● recherche de tétrapeptides homologues

● extension de chaque peptide tant que la similarité > seuil

C L I C G D E A S G C H Y L C V V G D K A T G Y H Y

(38)

G D E A score BLOSUM62

G D E A 21 = 6+6+5+4 G D D A 18

G D Q A 18 G E E A 17 G D E G 17 G D K A 17 G D E V 17

Tétrapeptides homologues à un tétrapeptide de référence

V A G D E Q K A 0 4

G 6

D 6 2

E 5 2 1 BLOSUM62

7 homologues (avec BLOSUM62 et un seuil de 17).

(39)

Eg: Tétrapeptides homologues à la référence GDEA

>sp|P10827|THA_HUMAN Thyroid hormone receptor alpha Homo sapiens.

MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIPSYLDKDEQCVVCGDKA TGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCIAVGM AMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEPTPEEWDLIHIATEAHRSTNA QGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEFTKIITPAITRVVDFAKKLPMFS ELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTLSGEMAVKREQLKNGGLGVVSDAIF ELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLCVDKIEKSQEAYLLAFEHYVNHRKHNI PHFWPKLLMKEREVQSSILYKGAAAEGRPGGSLGVHPEGQQLLGMHVVQGPQVRQLEQQL GEAGSLQGPVLQHQSPKSPQQRLLELLHRSGILHARAVCGEDDSSEADSPSSSEEEPEVC EDLAGNAASP

G D E A G D D A G D Q A G E E A G D E G G D K A G D E V

On identifie dans la séquence cible un

tétrapeptide homologue à la séquence de référence

(40)

C L I C G D E A S G C H Y L C V V G D K A T G Y H Y

On étend le “micro-alignement” dans chaque direction, tant que le score > seuil

●Chaque tétrapeptide homologue conduit à un alignement local sans gaps

●On retient les meilleurs alignements

(41)

Homologues du récepteur de l'androstérone identifiés avec BLAST

ID % Match

# Swissprot Hit Description Score E Identity Length (bits) *

1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

*E = espérance du nombre d'alignements fortuits de score supérieur

(42)

Une méthode plus rigoureuse, qui s'inspire de la “matrice” déja vue

P Q R A S

P * Q *

R *

On dispose les deux séquences sur les bords d'une matrice:

Séquence 2

Séquence 1

(43)

Une méthode plus rigoureuse; présentation partielle

P Q R A S

P * Q *

R *

On dispose les deux séquences sur les bords d'une matrice.

Un alignement correspond à une ligne à travers la matrice:

Séquence 2

Séquence 1

P Q R A S

P Q R

Séquence 2

Séquence 1

-PQRA SPQR-

Exc: représenter les alignements suivants: P-QRA SPQR-

P--QRA SPQ-R-

(44)

Un alignement correspond à une ligne à travers la matrice.

Une ligne “incomplète” correspond à un alignement incomplet:

P Q R A S

P Q R

-PQRA SPQR-

P Q R A S

P Q R

-PQ SPQ

Une méthode plus rigoureuse; présentation partielle

(45)

Un alignement correspond à une ligne à travers la matrice.

On annote la table avec les scores:

P Q R A S

P Q R

P Q R A 0

S-8

P -1

Q 4

R 9 1

-PQRA SPQR-

S P Q R P -1 7 -1 -2 Q 0 -1 5 1 R -1 -2 1 5 A 1 -1 -1 -1

Une méthode plus rigoureuse; présentation partielle

(46)

P Q R A 0

S-8

P -1

Q 4

R 9 1

L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:

P-QRA SPQR-

P Q R A 0

S -1 P -9

Q -4

R 1 -7

-PQRA SPQR-

Une méthode plus rigoureuse; présentation partielle

(47)

P Q R A 0

S-8

P -1

Q 4

R 9 1

L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:

P Q R A 0

S -1 P -9

Q -4

R 1 -7

PQ--RA S-PQR-

P Q R A 0

S -1 -9 P -17 Q -25

R -20 -28

P-QRA SPQR- -PQRA

SPQR-

Une méthode plus rigoureuse; présentation partielle

(48)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 ?

Supposons que nous connaissons les scores de trois alignements particuliers:

Chaque score bleu correspond à un

alignement incomplet, inconnu à ce stade.

Pour le moment, nous n'avons pas besoin

de savoir comment ces valeurs sont obtenues:

elles sont admises.

A partir de ces 3 scores, je peux trouver le score manquant! Comment??

(49)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 ?

A partir des 3 scores bleus, je peux trouver le score manquant!

3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17

(50)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 1

A partir des 3 scores bleus, je peux trouver le score manquant!

3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17

(51)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q 4 -1 -9 R -4 ?

Supposons que nous connaissons encore trois autres scores:

On peut construire progressivement un alignement optimal;

pour une description complète de la méthode, voir Dardel & Képès

(52)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q 4 -1 -9 R -4 9 1

Supposons que nous connaissons encore trois autres scores:

Comment obtenir ces scores “intermédiaires”? Par une opération de remplissage de la table entière, en commençant en haut à gauche.

(53)

La méthode de Needleman-Wunsch: initialisation

P Q R A 0 -8 -16 -24 -32 S -8

P-16

Q-24

R-32

(54)

F(i,j) F(i-1,j) F(i-1,j-1)

F(i,j-1)

-d -d

s(x

_i

,y

_j

)

y₁ y₂ y₃ y₄ y₅ y₆ x₁

x₂ x₃ x₄ x₅

Calcul récursif de F(i,j)

(55)

- P Q R A

Extension de F

- S P Q R

0 -8 -16 -24 -32 -8 -1 -8

P Q S -1 0

Matrice de similarité

P Q - S

Coût pq en mémoire et calcul

(56)

La méthode de Needleman-Wunsch

P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23

P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1

Pour les détails, voir le livre de Dardel & Képès

(57)

La méthode de Needleman-Wunsch

P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23

P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1

Pour les détails, voir le livre de Dardel & Képès

(58)

La méthode de Needleman-Wunsch

P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23

P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1

Pour les détails, voir le livre de Dardel & Képès (chap. 2)

P Q R A S P

Q R

Séquence 2

Séquence 1

-PQRA SPQR-

(59)

Alignements multiples:

principes

(60)

Homologues du récepteur de l'androstérone identifiés avec BLAST

*E = espérance du nombre d'alignements fortuits de score supérieur

ID % Match

# Swissprot Hit Description Score E Identity Length (bits) *

1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

(61)

Méthode heuristique pour un alignement multiple:

trois phases successives

●

Alignement 2 à 2 des séquences

●

Construction d'un arbre “guide”

●

Alignement progressif séquences-profil

(62)

a) S T A R b) S K A T c) P I T

S T A R S K A T

4 -1 4 -1

Score =6

S T A R P I T -

-1 -1 0 -8

S K A T P – I T

-1 -8 -1 5

Score =-10 (Exc.)

Score =-5 (Exc.)

Phase 1: alignement des séquences 2 à 2

(63)

Phases 2, 3: on reprend le problème à zéro, en traitant les séquences dans un ordre intelligent

Phase 2: Classement des séquences par similarité Phase 3: On les aligne progessivement,

en commençant par les plus similaires

(64)

Phase 2: classement hiérarchique, ou arbre “guide”

a b

d c

a b

c d

a b

d c 1 2

3

“Unweighted Pair Group Joining with Arithmetic Mean”

(65)

Phase 3: alignement des séquences en remontant progressivement l'arbre

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid androgen

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9 1.0

(66)

Phase 3: alignement des séquences en remontant progressivement l'arbre

a b

c

a) S T A R b) S K A T

a avec b

c avec {a, b}

Alignement “séquence-profil”

(67)

S T A R S T I R S K A T P

I T

P T -1 T -1 K -1

total

-3

0 -24

-27

Alignement séquence-profil:

programmation dynamique

(68)

S T A R S T I R S K A T

P I T

P T -1 T -1 K -1

total

-3

Aligner une séquence avec un alignement:

calcul d'un score moyen

Alignement existant:

Séquence à aligner:

b

s(a, b' ) = s(a,b) + s(a,b') + s(a,b'') b''

Somme de paires

(69)

0 -24 -48 -72 -96

-24 -3 -27 -51 -75 -48 -19 -6 -25 -49 -72 -43 -10 -4 -22

S T A R S T I R S K A T P

I T

S T A R T S A R S K I T P - I T Alignement séquence-profil:

programmation dynamique

(70)

S T A R S T I R S K A T P P

I I G T

S T A R T S A R S K I T P - I T P - I G Aligner deux profils ou alignements:

calcul d'un score moyen

a b

s( a' , b' ) = s(a,b) + s(a,b') b'' + s(a,b'')+ s(a',b) + s(a',b')+ s(a',b'')

Somme de paires

(71)

Produit final:

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*

584 588

588

(72)

Nécessité d'une validation expérimentale

● Mutagénèse des résidus conservés

● Mise en évidence d'une interaction avec un substrat ou inhibiteur

● Détermination de structures tri- dimensionnelles (!)

(73)

Matinées 9h30 – 12h30 Après midis 14h – 17h30

dates chapitres de la matinée (salles) après-midi

---

19/11 Alignements de séquence (SI32) TP (SI32)

26/11 Modélisation (SI32) TP (SI32)

14/12 Modélisation, suite + TD TP (SI30)

15/12 TD TP (SI30)

18/12 Reconnaissance moléculaire 1 + TD TP (SI30)

5/1 Reconnaissance moléculaire 2 + TD TP (SI30)

7/1 TP (TBA) TP (TBA)

Contrôle: présentation d'un des TPs + contrôle oral le 13/1/21

thomas.simonson@polytechnique.edu thomas.gaillard@polytechnique.edu Laboratoire de Biologie Structurale de la Cellule, Ecole Polytechnique

http://biology.polytechnique.fr/biocomputing/teach.html

(74)