• Aucun résultat trouvé

Comparaison et alignement de séquences

N/A
N/A
Protected

Academic year: 2022

Partager "Comparaison et alignement de séquences"

Copied!
74
0
0

Texte intégral

(1)

Comparaison et alignement de séquences

Mastères Ingénierie et Chimie des BioMolécules et Biologie et Santé Module Bioinformatique structurale. Cours I

Novembre 2020

T. Simonson, Ecole Polytechnique

(2)

Comparaisons de séquences: pourquoi faire?

L'alignement de séquences comme

modèle d'un processus évolutif

Alignement de séquences: algorithmes

Déroulement du module Bioinformatique

(3)

Arbre phylogénétique retraçant l'évolution des globines.

Millions d'années

1) Les protéines similaires ont souvent un

ancêtre commun: Exemple des globines

(4)

Gène X

Gène X Gène X

Spéciation

Divergence

Orthologues

Les protéines similaires ont souvent un ancêtre commun

Gène X

Gène X Gène X

Gène Y Gène Z

Duplication

Divergence

Paralogues

(5)

Gène X

Gène X Gène X

Gène Y Gène Z Duplication

accidentelle

Divergence

Paralogues

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

individu

individu + descendance

population invasion

de la population

(6)

Gène X

Gène X Gène X

Gène Y Gène Z Divergence

Paralogues

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

Duplication accidentelle

(7)

X

duplication spéciation

spéciation

duplication A

B

B1 B2

a b1 b2 c1 c2 c3

paralogues temps

orthologues

Evolution d'un gène par spéciation,

duplication et divergence

(8)

Séquence Structure

Fonction

2) Les protéines similaires ont souvent des structures et fonctions similaires

K L H G G P M L D S D Q K F W R T P A A L

(9)

Launay & Simonson BMC Bioinformatics 2008

A partir de 60% d'identité de séquence on peut dire avec confiance que deux homologues ont la même fonction.

A partir de 35% d'identité des complexes homologues vont probablement interagir de manière homologue.

(10)

L'alignement de séquences comme

modèle d'un processus évolutif

(11)

L'alignement comme modèle d'un processus évolutif

Hypothèse: deux protéines similaires

ont toujours un ancêtre commun

(12)

T C L I C G D E A S G C H Y T C L V C G D E A T G Y H Y L C V V C G D K A T G Y H Y

Récepteur de l'androstérone

Ancêtre commun hypothétique

Récepteur de l'hormone thyroïdienne

Mutations hypothétiques en rouge

L'hypothèse ci-dessus est-elle vraisemblable?

L'alignement comme hypothèse

d'un ancêtre commun “parsimonieux”

(13)

Un modèle probabiliste d'évolution

P(xi,yj) = probabilité d'observer xi aligné avec yj P(xi ¹yj) = P(“xi muté en yj” ou “yj muté en xi”) P(xi = yj) = P(“xi conservé”)

Probabilités estimées à partir d'alignements tests

Hypothèse de positions équivalentes et indépendantes

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y

séquence x:

séquence y:

(14)

La vraisemblance ou probabilité d'un alignement

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

Récepteur de l'androstérone Récepteur de l'hormone

thyroïdienne

Mutations probables alignement probable Mutations improbables alignement improbable

(15)

En comparant des protéines homologues, on voit que les mutations ont des probabilités différentes

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétonïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*

(16)

Récepteur de l'androstérone

(17)

androgen CLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYL-CASRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGA Rev Erb CKVCGDVASGFHYGVLACEGCKGFFRRSIQQNIQYKRCLKNENCSIVRINRNRCQQCRFKKCLSVGMSRD- glucocorticoid CLVCSDEASGCHYGVLTCEGCKAFFKRAVEGQHNYL-CKYEGKCIIDKIRRKNCPACRYRKCLQAGMNLEA retinoic acid CAICGDRSSGKHYGVYSCEGCKGFFKRTVRKDLTYT-CRDNKDCLIDKRQRNRCQYCRYQKCLAMGM---

Se fixent sur l'ADN et régulent l'expression génétique

sous le contrôle de petits

ligands: stéroïdes, vitamines, ...

Récepteurs nucléaires

(18)

Les mutations ont des probabilités différentes

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*

(19)

PHE F

TYR Y

homologues

KYL NYL NYL NYL DYM VYT LFT TYS :   

Les propriétés structurales des acides aminés font

que les mutations ont des probabilités différentes

(20)

Les propriétés structurales des acides aminés font que les mutations ont des probabilités différentes

LYS K

ARG R

GLN Q

homologues

RKCY

RKCY QKCL

RKCL RKCY

QKCF KRCV

KKCL ::*

(21)

Un modèle probabiliste d'évolution

P(xi,yj) = probabilité d'observer xi aligné avec yj P(xi ¹yj) = P(“xi muté en yj” ou “yj muté en xi”) P(xi = yj) = P(“xi conservé”)

Probabilités estimées à partir d'alignements tests

Hypothèse de positions équivalentes et indépendantes

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y

séquence x:

séquence y:

(22)

Difficulté: qu'est-ce qu'une grande probabilité?

Alignement avec le récepteur humain de la progestérone

PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC PQRVCVICGDEASGCHYGVLTCGSCKVFFKRAVEGHHQYLCAGRNDCIVDKIRRKNCPAC

**' *'******** *** ************* ** '**** **** '** ******'*

Alignement avec le récepteur humain de l'hormone thyroïdienne

PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSC KDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLC *''***'*'* ** '** ** **'* ' * * * *** * * *

Alignement avec la ferrédoxine de la bactérie Proteus vulgaris PQKTCLICGDEASGAHYGTLTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC DQDKCIGCKTCVLACPYGTMEVVSRPVMRKLTALNTIEAFKAEANKCDLCHHRAEG-PAC * *' * ***' * * * * * * * ' * ' *'*

(23)

Modèle “aléatoire” comme point de référence

Q(xi,yj) = probabilité d'observer xi et yj

dans deux protéines indépendantes

= qxi qyj Fréquences naturelles de xi, yj x qx

W 1.3 % des acides aminés L 9.0 %

W

W L

 L

Hypothèse “évolutive”: deux séquences ont un ancêtre commun (parsimonieux) Hypothèse concurrente: elles n'ont aucune relation biologique: c'est comme si on cherchait à aligner deux séquences aléatoires, tirées au hasard.

(24)

Vraisemblance d'une colonne dans un alignement

M(xi,yj) = log P(xi,yj)/Q(xi,yj) = log [ P(xi,yj)/qxi qyj ]

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y xi

yi

M = matrice de “score”

déf.

On prend toujours un ratio entre une probabilité P (scénario évolutif) et une probabilité Q (scénario aléatoire):

(25)

Une matrice empirique très utilisée: BLOSUM62

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W

(26)

Une matrice empirique très utilisée: BLOSUM62

Pénalty pour gaps: voir plus loin

Exc: calculer les valeurs de P(W,W) et P(L,L) et les commenter.

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W

(27)

Les mutations ont des probabilités différentes K R Q Y F

K 6 3 2 -2 -4 R 7 1 -1 -3 Q 7 -1 -4 Y 8 4 F 8

Extrait de la matrice empirique BLOSUM50

(28)

P(xi,yj) = probabilité d'observer xi aligné avec yj

= P(“xi conservé” ou “xi muté en yj” ou “yj muté en xi”)

Probabilités estimées à partir d'alignements tests

Hypothèse de positions équivalentes

Hypothèse de positions indépendantes: P(alignement) = P

(i,j) P(xi,yj)

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

La vraisemblance ou probabilité d'un alignement

(29)

Vraisemblance ou “score” d'un alignement

s(xi,yj) = log P(xi,yj)/Q(xi,yj)

= log [ P(xi,yj)/qxi qyj ]

s(x,y) = S

(i,j) s(xi,yj)

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

(30)

La probabilité de mutation dépend du temps

P(x,y) = P(x,y;T) = probabilité d'une mutation pendant le temps T

Une matrice de similarité vaut pour une échelle de temps, ou de similarité donnée.

BLOSUM50  BLOSUM62

Les cytochromes c de chimpanzee et d'humain sont plus similaires que les cytochromes c

d'humain et d'Escherichia coli...

(31)

Il est nettement plus facile d'allonger un gap existant que d'ouvrir un nouveau gap

Ouvrir un gap: -d

L'allonger d'un résidu: -e (e<d)

Coût d'un gap de longueur m:

g(m) = -d – (m-1) e

Eg, boucles

Il faut un traitement plus réaliste des gaps

Les positions ne sont plus équivalentes ni indépendantes

(32)

En résumé, un alignement correspond à un modèle d'évolution, qui comprend:

Hypothèse de divergence “minimale” depuis un ancêtre commun

Détermination empirique des probabilités de mutations

Hypothèse de positions équivalentes et indépendantes

Un modèle de référence (hypothèse “nulle”)

(33)

L'alignement de séquences:

algorithmes

(34)

Comparaison graphique de deux séquences par une matrice densité

W

W P * * Q * *

R * * W W

A A P Q R A A A P Q R A

On dispose les deux séquences sur les bords d'une matrice.

Pour chaque paire de résidus similaires ou identiques, on dessine un point dans la matrice:

Séquence 2

Séquence 1

(35)

Comparaison graphique de deux séquences par une matrice densité

cheval

humain

Cytochromes c

Récepteur estrogène Récepteur

androgène

(36)

C'est souvent une partie d'une protéine qui est conservée: il faut chercher un alignement “local”

Aspartyl-ARNt synthétase

de levure

Domaine du site actif,

Aspartyl-ARNt synthétase

d'E coli

(37)

BLAST: Basic Local Alignment Search Tool

recherche de tétrapeptides homologues

extension de chaque peptide tant que la similarité > seuil

C L I C G D E A S G C H Y L C V V G D K A T G Y H Y

Récepteur de l'androstérone

Récepteur de l'hormone thyroïdienne

(38)

G D E A score BLOSUM62

G D E A 21 = 6+6+5+4 G D D A 18

G D Q A 18 G E E A 17 G D E G 17 G D K A 17 G D E V 17

Tétrapeptides homologues à un tétrapeptide de référence

V A G D E Q K A 0 4

G 6

D 6 2

E 5 2 1 BLOSUM62

7 homologues (avec BLOSUM62 et un seuil de 17).

(39)

Eg: Tétrapeptides homologues à la référence GDEA

>sp|P10827|THA_HUMAN Thyroid hormone receptor alpha Homo sapiens.

MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIPSYLDKDEQCVVCGDKA TGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCIAVGM AMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEPTPEEWDLIHIATEAHRSTNA QGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEFTKIITPAITRVVDFAKKLPMFS ELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTLSGEMAVKREQLKNGGLGVVSDAIF ELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLCVDKIEKSQEAYLLAFEHYVNHRKHNI PHFWPKLLMKEREVQSSILYKGAAAEGRPGGSLGVHPEGQQLLGMHVVQGPQVRQLEQQL GEAGSLQGPVLQHQSPKSPQQRLLELLHRSGILHARAVCGEDDSSEADSPSSSEEEPEVC EDLAGNAASP

G D E A G D D A G D Q A G E E A G D E G G D K A G D E V

On identifie dans la séquence cible un

tétrapeptide homologue à la séquence de référence

(40)

C L I C G D E A S G C H Y L C V V G D K A T G Y H Y

Récepteur de l'androstérone

Récepteur de l'hormone thyroïdienne

On étend le “micro-alignement” dans chaque direction, tant que le score > seuil

Chaque tétrapeptide homologue conduit à un alignement local sans gaps

On retient les meilleurs alignements

(41)

Homologues du récepteur de l'androstérone identifiés avec BLAST

ID % Match

# Swissprot Hit Description Score E Identity Length (bits) *

1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72

: : : : : : : : :

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

*E = espérance du nombre d'alignements fortuits de score supérieur

(42)

Une méthode plus rigoureuse, qui s'inspire de la “matrice” déja vue

P Q R A S

P * Q *

R *

On dispose les deux séquences sur les bords d'une matrice:

Séquence 2

Séquence 1

(43)

Une méthode plus rigoureuse; présentation partielle

P Q R A S

P * Q *

R *

On dispose les deux séquences sur les bords d'une matrice.

Un alignement correspond à une ligne à travers la matrice:

Séquence 2

Séquence 1

P Q R A S

P Q R

Séquence 2

Séquence 1

-PQRA SPQR-

Exc: représenter les alignements suivants: P-QRA SPQR-

P--QRA SPQ-R-

(44)

Un alignement correspond à une ligne à travers la matrice.

Une ligne “incomplète” correspond à un alignement incomplet:

P Q R A S

P Q R

-PQRA SPQR-

P Q R A S

P Q R

-PQ SPQ

Une méthode plus rigoureuse; présentation partielle

(45)

Un alignement correspond à une ligne à travers la matrice.

On annote la table avec les scores:

P Q R A S

P Q R

P Q R A 0

S-8

P -1

Q 4

R 9 1

-PQRA SPQR-

S P Q R P -1 7 -1 -2 Q 0 -1 5 1 R -1 -2 1 5 A 1 -1 -1 -1

Une méthode plus rigoureuse; présentation partielle

(46)

P Q R A 0

S-8

P -1

Q 4

R 9 1

L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:

P-QRA SPQR-

P Q R A 0

S -1 P -9

Q -4

R 1 -7

-PQRA SPQR-

Une méthode plus rigoureuse; présentation partielle

(47)

P Q R A 0

S-8

P -1

Q 4

R 9 1

L'alignement optimal est en compétition avec beaucoup d'autres alignements possibles:

P Q R A 0

S -1 P -9

Q -4

R 1 -7

PQ--RA S-PQR-

P Q R A 0

S -1 -9 P -17 Q -25

R -20 -28

P-QRA SPQR- -PQRA

SPQR-

Une méthode plus rigoureuse; présentation partielle

(48)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 ?

Supposons que nous connaissons les scores de trois alignements particuliers:

Chaque score bleu correspond à un

alignement incomplet, inconnu à ce stade.

Pour le moment, nous n'avons pas besoin

de savoir comment ces valeurs sont obtenues:

elles sont admises.

A partir de ces 3 scores, je peux trouver le score manquant! Comment??

(49)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 ?

Supposons que nous connaissons les scores de trois alignements particuliers:

A partir des 3 scores bleus, je peux trouver le score manquant!

3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17

(50)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 1

Supposons que nous connaissons les scores de trois alignements particuliers:

A partir des 3 scores bleus, je peux trouver le score manquant!

3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17

(51)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q 4 -1 -9 R -4 ?

Supposons que nous connaissons encore trois autres scores:

On peut construire progressivement un alignement optimal;

pour une description complète de la méthode, voir Dardel & Képès

(52)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q 4 -1 -9 R -4 9 1

Supposons que nous connaissons encore trois autres scores:

Comment obtenir ces scores “intermédiaires”? Par une opération de remplissage de la table entière, en commençant en haut à gauche.

(53)

La méthode de Needleman-Wunsch: initialisation

P Q R A 0 -8 -16 -24 -32 S -8

P-16

Q-24

R-32

(54)

F(i,j) F(i-1,j) F(i-1,j-1)

F(i,j-1)

-d -d

s(x

i

,y

j

)

y1 y2 y3 y4 y5 y6 x1

x2 x3 x4 x5

Calcul récursif de F(i,j)

(55)

- P Q R A

Extension de F

- S P Q R

0 -8 -16 -24 -32 -8 -1 -8

P Q S -1 0

Matrice de similarité

P Q - S

Coût pq en mémoire et calcul

(56)

La méthode de Needleman-Wunsch

P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23

P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1

Pour les détails, voir le livre de Dardel & Képès

(57)

La méthode de Needleman-Wunsch

P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23

P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1

Pour les détails, voir le livre de Dardel & Képès

(58)

La méthode de Needleman-Wunsch

P Q R A 0 -8 -16 -24 -32 S -8 -1 -8 -16 -23

P-16 -1 -2 -10 -15 Q-24 -9 4 -1 -9 R-32 -17 -4 9 1

Pour les détails, voir le livre de Dardel & Képès (chap. 2)

P Q R A S P

Q R

Séquence 2

Séquence 1

-PQRA SPQR-

(59)

Alignements multiples:

principes

(60)

Homologues du récepteur de l'androstérone identifiés avec BLAST

*E = espérance du nombre d'alignements fortuits de score supérieur

ID % Match

# Swissprot Hit Description Score E Identity Length (bits) *

1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72

: : : : : : : : :

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

(61)

Méthode heuristique pour un alignement multiple:

trois phases successives

Alignement 2 à 2 des séquences

Construction d'un arbre “guide”

Alignement progressif séquences-profil

(62)

a) S T A R b) S K A T c) P I T

S T A R S K A T

4 -1 4 -1

Score =6

S T A R P I T -

-1 -1 0 -8

S K A T P – I T

-1 -8 -1 5

Score =-10 (Exc.)

Score =-5 (Exc.)

Phase 1: alignement des séquences 2 à 2

(63)

Phases 2, 3: on reprend le problème à zéro, en traitant les séquences dans un ordre intelligent

Phase 2: Classement des séquences par similarité Phase 3: On les aligne progessivement,

en commençant par les plus similaires

(64)

Phase 2: classement hiérarchique, ou arbre “guide”

a b

d c

a b

c d

a b

d c 1 2

3

“Unweighted Pair Group Joining with Arithmetic Mean”

(65)

Phase 3: alignement des séquences en remontant progressivement l'arbre

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid androgen

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9 1.0

(66)

Phase 3: alignement des séquences en remontant progressivement l'arbre

a b

c

a) S T A R b) S K A T

a avec b

c avec {a, b}

Alignement “séquence-profil”

(67)

S T A R S T I R S K A T P

I T

P T -1 T -1 K -1

total

-3

0 -24

-27

Alignement séquence-profil:

programmation dynamique

(68)

S T A R S T I R S K A T

P I T

P T -1 T -1 K -1

total

-3

Aligner une séquence avec un alignement:

calcul d'un score moyen

Alignement existant:

Séquence à aligner:

b

s(a, b' ) = s(a,b) + s(a,b') + s(a,b'') b''

Somme de paires

(69)

0 -24 -48 -72 -96

-24 -3 -27 -51 -75 -48 -19 -6 -25 -49 -72 -43 -10 -4 -22

S T A R S T I R S K A T P

I T

S T A R T S A R S K I T P - I T Alignement séquence-profil:

programmation dynamique

(70)

S T A R S T I R S K A T P P

I I G T

S T A R T S A R S K I T P - I T P - I G Aligner deux profils ou alignements:

calcul d'un score moyen

a b

s( a' , b' ) = s(a,b) + s(a,b') b'' + s(a,b'')+ s(a',b) + s(a',b')+ s(a',b'')

Somme de paires

(71)

Produit final:

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*

584 588

588

(72)

Nécessité d'une validation expérimentale

Mutagénèse des résidus conservés

Mise en évidence d'une interaction avec un substrat ou inhibiteur

Détermination de structures tri- dimensionnelles (!)

(73)

Matinées 9h30 – 12h30 Après midis 14h – 17h30

dates chapitres de la matinée (salles) après-midi

---

19/11 Alignements de séquence (SI32) TP (SI32)

26/11 Modélisation (SI32) TP (SI32)

14/12 Modélisation, suite + TD TP (SI30)

15/12 TD TP (SI30)

18/12 Reconnaissance moléculaire 1 + TD TP (SI30)

5/1 Reconnaissance moléculaire 2 + TD TP (SI30)

7/1 TP (TBA) TP (TBA)

Contrôle: présentation d'un des TPs + contrôle oral le 13/1/21

thomas.simonson@polytechnique.edu thomas.gaillard@polytechnique.edu Laboratoire de Biologie Structurale de la Cellule, Ecole Polytechnique

http://biology.polytechnique.fr/biocomputing/teach.html

(74)

Références

Documents relatifs

Pour des distances évolutives plus grandes, les probabilités de substitution des acides aminés les uns envers les autres sont estimées et non calculées directement en comparant

• La plus grande valeur V(i,j) est le score du meilleur alignement local.. Alignement

• Alignement local: Plus long chemin entre n’importe quelles arêtes (i,j) et (i’, j’) du graphe d’édition.. • Quelle mesure

global, c'est-à-dire entre les deux séquences sur toute leur longueur local, entre une séquence et une partie d’une autre séquence.. Similarité global

En bioinformatique, la comparaison de séquences ADN deux à deux doit permettre de trouver des homologies c’est-à-dire comment les séquences ont muté à travers les espèces

Pour le tracing back (principe de la programmation dynamique, c'est par essence un processus off- line), on part de la case en bas à droite et on remonte le chemin d'alignement

• Procédez à un alignement des deux séquences ADN normale et mutée en visualisant les mutations avec l'outil EMBOSS proposé par EBI-EMBL : par

En notant str1 = prefixe1L et str2 = prefixe2L, une plus longue sous-chaine commune aux deux mots s’obtient en prenant une plus longue sous-chaine commune aux deux préfixes prefixe1