• Aucun résultat trouvé

Modélisation et génome ou Bioinformatique ou Biologie “Computationnelle”

N/A
N/A
Protected

Academic year: 2022

Partager "Modélisation et génome ou Bioinformatique ou Biologie “Computationnelle”"

Copied!
136
0
0

Texte intégral

(1)

Modélisation et génome

ou

Bioinformatique ou

Biologie

“Computationnelle”

Bio566

(2)

ADN ARN

protéine

assemblée supramoléculaire réseaux et voies

cellule tissu

organisme

population

(3)

Séquence Structure

Fonction

A U G C G C U U A U A G C C A A G G :

Comprendre la structure et fonction des biomolécules

(4)

Comprendre leur intégration dans la cellule

(~109 macromolécules)

Biologie “intégrative” ou “systémique” (web.expasy.org/pathways)

(5)

(web.expasy.org/pathways)

(6)

L U C A Last Universal Common Ancestor

Vie artificielle

Phylogénie et évolution

(7)

X

Y M

p q

1-p

1-2q q 1-p p

Les outils de l'informatique, des statistiques,

de la chimie, de la physique

(8)

Comparaisons de séquences Protéines Génomique comparative ARN

Phylogénie et évolution Réseaux cellulaires Organisation et analyse statistique du génome

Organisation du cours

Thomas Simonson (Dépt. Bio) thomas.simonson@polytechnique.fr Thomas Gaillard (Dépt. Bio) thomas.gaillard@polytechnique.edu

document écrit (chaps 1-7)

Apportez vos ordinateurs pour les PC 2, 3 cf aussi biology.polytechnique.fr/biocomputing

contrôle oral

(9)

Comparaison et alignement

de séquences

(10)

Comparaisons de séquences: pourquoi faire?

L'alignement de séquences comme

modèle d'un processus évolutif

Alignement de paires de séquences: algorithmes

Alignements multiples: méthodes et applications

(11)

Arbre phylogénétique retraçant l'évolution des globines

Millions d'années

1) Les protéines similaires ont généralement

un ancêtre commun: exemple des globines

(12)

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

Gène X

Gène X Gène X

Gène Y Gène Z Duplication

accidentelle

Divergence

Paralogues

(13)

Gène X

Gène X Gène X

Gène Y Gène Z Duplication

accidentelle

Divergence

Paralogues

individu

individu

La duplication conduit à des gènes paralogues

Les paralogues changent généralement de fonction

(14)

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

individu

individu + descendance

population invasion

de la population

Gène X

Gène X Gène X

Gène Y Gène Z Duplication

accidentelle

Divergence

Paralogues

(15)

Les paralogues changent généralement de fonction La duplication conduit à des gènes paralogues

Gène X

Gène X Gène X

Gène Y Gène Z Duplication

accidentelle

Divergence

Paralogues

(16)

Gène X

Gène X Gène X

Spéciation

Divergence

La spéciation produit des gènes orthologues

Les gènes orthologues conservent la fonction

(17)

X

duplication spéciation

spéciation

duplication A

B

B1 B2

a b1 b2 c1 c2 c3

Evolution d'un gène par spéciation, duplication et divergence

paralogues temps

orthologues

(18)

Gènes et pseudogènes de l'hémoglobine humaine

Gène ancestral

duplication divergence translocation

duplications et divergence

a b

a b

a e g b

z

ya1 e Gg b

z yz a2 a

zD 1 q Ag yb d

1

Chromosome 11 Chromosome 22

(19)

Transfert horizontal chez les bactéries

Un plasmide en cours de transfert d'une bactérie à une autre

Ce processus ne respecte pas les arbres phylogénétiques...

~25% des gènes d'Escherichia coli acquis par transfert horizontal

(20)

Séquence Structure

Fonction

2) Les protéines aux séquences similaires ont souvent des structures

et des fonctions similaires

KL H G G P M L D SD Q K F W R T P A AL

(21)

Récepteur de l'androstérone

(22)

androgen CLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYL-CASRNDCTIDKFRRKNCPSCRLRKCYEAGMTLGA Rev Erb CKVCGDVASGFHYGVLACEGCKGFFRRSIQQNIQYKRCLKNENCSIVRINRNRCQQCRFKKCLSVGMSRD- glucocorticoid CLVCSDEASGCHYGVLTCEGCKAFFKRAVEGQHNYL-CKYEGKCIIDKIRRKNCPACRYRKCLQAGMNLEA retinoic acid CAICGDRSSGKHYGVYSCEGCKGFFKRTVRKDLTYT-CRDNKDCLIDKRQRNRCQYCRYQKCLAMGM---

Se fixent sur l'ADN et régulent l'expression génétique sous le contrôle de petits ligands: stéroïdes,

vitamines, hormones, ...

Récepteurs nucléaires

(23)

L'alignement de séquences comme modèle

d'un processus évolutif

(24)

L'alignement comme modèle d'un processus évolutif

Hypothèse: deux protéines similaires

ont toujours un ancêtre commun

(25)

T C L I C G D E A S G C H Y T C L V C G D E A T G Y H Y L C V V C G D K A T G Y H Y

Mutations hypothétiques en rouge

L'hypothèse ci-dessus est-elle vraisemblable?

Récepteur de l'androstérone

Ancêtre commun hypothétique Récepteur de l'hormone thyroïdienne

L'alignement comme hypothèse

d'un ancêtre commun “parsimonieux”

(26)

T C L I C G D E A S G C H Y T C L V C G D E A T G Y H Y L C V V C G D K A T G Y H Y

Mutations hypothétiques en rouge

L'hypothèse ci-dessus est-elle vraisemblable?

Récepteur de l'androstérone

Ancêtre commun hypothétique Récepteur de l'hormone thyroïdienne

L'alignement comme hypothèse

d'un ancêtre commun “parsimonieux”

E K

(27)

T C L I C G D E A S G C H Y T C L V C G D E A T G Y H Y L C V V C G D K A T G Y H Y

Mutations hypothétiques en rouge

L'hypothèse ci-dessus est-elle vraisemblable?

Récepteur de l'androstérone

Ancêtre commun hypothétique Récepteur de l'hormone thyroïdienne

L'alignement comme hypothèse

d'un ancêtre commun “parsimonieux”

(28)

Les mutations ont des probabilités différentes

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*

(29)

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*

Les mutations ont des probabilités différentes

(30)

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*

Les mutations ont des probabilités différentes

(31)

PHE F

TYR Y

KYL NYL NYL NYL DYM VYT LFT TYS :  

Similaires ou

“homologues”

Les mutations ont des probabilités différentes

(32)

LYS K

ARG R

GLN Q

homologues

RKCY RKCY QKCL RKCL RKCY QKCF KRCV KKCL ::*

Les mutations ont des probabilités différentes

(33)

Un modèle probabiliste d'évolution

P(xi,yj) = probabilité d'observer xi aligné avec yj = P(“xi muté en yj” ou “yj muté en xi”)

Probabilités estimées à partir d'alignements tests

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y

séquence x:

séquence y:

(34)

Les mutations ont des probabilités différentes

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * * : * *. * ** ::*

(35)

Un modèle probabiliste d'évolution

P(xi,yj) = probabilité d'observer xi aligné avec yj = P(“xi muté en yj” ou “yj muté en xi”)

Probabilités estimées à partir d'alignements tests

Hypothèse de positions équivalentes et indépendantes

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y

séquence x:

séquence y:

(36)

Récepteur de l'androstérone

Alignement avec le récepteur humain de la progestérone PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC PQRVCVICGDEASGCHYGVLTCGSCKVFFKRAVEGHHQYLCAGRNDCIVDKIRRKNCPAC

**' *'******** *** ************* ** '**** **** '** ******'*

Alignement avec le récepteur humain de l'hormone thyroïdienne PQKTCLICGDEASGAHYGALTCGSCKVFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSC KDEQCVVCGDKATGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLC *''***'*'* ** '** ** **'* ' * * * *** * * *

Alignement avec la ferrédoxine de la bactérie Proteus vulgaris PQKTCLICGDEASGAHYGTLTCGSCKVFFKRAAEGKQKYLCASRNDCTIDKFRRKNCPSC DQDKCIGCKTCVLACPYGTMEVVSRPVMRKLTALNTIEAFKAEANKCDLCHHRAEG-PAC * *' * ***' * * * * * * * ' * ' *'*

(37)

Modèle “aléatoire” comme hypothèse concurrente

Q(xi,yj) = probabilité d'observer xi et yj

dans deux protéines indépendantes

 qxi qyj fréquences naturelles de xi, yj

x qx

W 1.3 % des acides aminés L 9.0 %

WW L

L

tryptophane leucine

(38)

“Vraisemblance” d'une colonne dans un alignement

s(xi,yj) = log P(xi,yj)/Q(xi,yj) = log [ P(xi,yj)/qxi qyj ]

T C L I C G D E A S G C H Y L C V V C G D K A T G Y H Y xi

yi

s = matrice de “score”

déf.

(39)

Une matrice empirique s très utilisée

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W

BLOSUM62

(40)

Une matrice empirique s très utilisée

C S T P A G N D E Q H R K M I L V F Y W C 9 -1 -1 -3 0 -3 -3 -3 -4 -3 -3 -3 -3 -1 -1 -1 -1 -2 -2 -2 C S 4 1 -1 1 0 1 0 0 0 -1 -1 0 -1 -2 -2 -2 -2 -2 -3 S T 5 -1 0 -2 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -2 T P 7 -1 -2 -2 -1 -1 -1 -2 -2 -1 -2 -3 -3 -2 -4 -3 -4 P A 4 0 -2 -2 -1 -1 -2 -1 -1 -1 -1 -1 0 -2 -2 -3 A G 6 0 -1 -2 -2 -2 -2 -2 -3 -4 -4 -3 -3 -3 -2 G N 6 1 0 0 1 0 0 -2 -3 -3 -3 -3 -2 -4 N D 6 2 0 -1 -2 -1 -3 -3 -4 -3 -3 -3 -4 D E 5 2 0 0 1 -2 -3 -3 -2 -3 -2 -3 E Q 5 0 1 1 0 -3 -2 -2 -3 -1 -2 Q H 8 0 -1 -2 -3 -3 -3 -1 2 -2 H R 5 2 -1 -3 -2 -3 -3 -2 -3 R K 5 -1 -3 -2 -2 -3 -2 -3 K M 5 1 2 1 0 -1 -1 M I 4 2 3 0 -1 -3 I L 4 1 0 -1 -2 L V 4 -1 -1 -3 V F 6 3 1 F Y 7 2 Y W 11 W C S T P A G N D E Q H R K M I L V F Y W

BLOSUM62

Pénalité pour gaps: voir plus loin

(41)

Les mutations ont des vraisemblances différentes

K R Q Y F K 6 3 2 -2 -4 R 7 1 -1 -3 Q 7 -1 -4 Y 8 4 F 8

Extrait de la matrice empirique BLOSUM50

(42)

P(xi,yj) = probabilité d'observer xi aligné avec yj = P(“xi muté en yj” ou “yj muté en xi”)

Probabilités estimées à partir d'alignements tests

Hypothèse de positions équivalentes

Hypothèse de positions indépendantes: P(alignement) = P(i,j) P(xi,yj)

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

La vraisemblance ou probabilité d'un alignement

(43)

Vraisemblance ou “score” d'un alignement

s(xi,yj) = log P(xi,yj)/Q(xi,yj)

= log [ P(xi,yj)/qxi qyj ]

S(x,y) = S(i,j) s(xi,yj)

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

(44)

La probabilité de mutation dépend du temps

P(x,y) = P(x,y|T) = probabilité d'une mutation pendant le temps T

Les cytochromes c de chimpanzee et d'humain sont plus similaires que les cytochromes c

d'humain et d'Escherichia coli...

Si on compare des protéines de mammifère, par exemple, les vrais homologues seront très similaires:

scores élevés. Si on compare mammifère et bactérie, de vrais homologues seront nettement moins similaires:

scores plus faibles si on utilise la même matrice

(45)

P(x,y) = P(x,y|T) = probabilité d'une mutation pendant le temps T

Les cytochromes c de chimpanzee et d'humain sont plus similaires que les cytochromes c

d'humain et d'Escherichia coli...

Une matrice de similarité n'est optimale que pour une échelle de temps, ou de similarité donnée.

BLOSUM40  BLOSUM50  BLOSUM62  BLOSUM80

La probabilité de mutation dépend du temps

(46)

En résumé, un alignement correspond à un modèle d'évolution, qui comprend:

Hypothèse de divergence “minimale” depuis un ancêtre commun

Détermination empirique des probabilités de mutations

Hypothèse de positions équivalentes et indépendantes

Un modèle de référence (hypothèse “nulle”)

(47)

L'alignement de paires de séquences:

algorithmes

(48)

Comparaison graphique de deux séquences par une matrice densité

W

W P * * Q * * R * * W W

A A P Q R A A A P Q R A

On dispose les deux séquences sur les bords d'une matrice.

Pour chaque paire de résidus similaires ou identiques, on dessine un point dans la matrice:

Séquence 1

Séquence 2

(49)

Comparaison graphique de deux séquences par une matrice densité

cheval

humain

Cytochromes c

Récepteur estrogène Récepteur

androgène

(50)

Comment trouver l'alignement le plus vraisemblable?

Pour deux séquences de longueur n:

N »

N 1 2 3 4 5 6 7 8 9 .... 100 n 2 6 20 70 252 924 3.432 17.160 48.620 ... 1059

Recherche exhaustive impossible!

2n n

22n pn

» alignements possibles!

(51)

Existence d'un algorithme récursif

Un alignement donné, A, comprend de nombreux alignements plus petits, A1, A2, A3, ...

T C L I C G D E A S G C H Y L C V V - G D K A T G Y H Y

T C L I C G D L C V V - G D

E A S G C H Y K A T G Y H Y

I C G D E A V - G D K A

A

A 1 A 2 A 3

Pour évaluer un alignement

A

, on peut utiliser les résultats déja acquis pour des sous-alignements (scores additifs):

algorithme récursif

(52)

Une méthode qui s'inspire de la “matrice” déja vue

P Q R A S

P * Q *

R *

On dispose les deux séquences sur les bords d'un tableau:

Séquence 2

Séquence 1

(53)

On dispose les deux séquences sur les bords d'un tableau.

Un alignement correspond à un chemin à travers le tableau:

P Q R A S

P Q R

Séquence 2

Séquence 1

-PQRA SPQR-

Une méthode qui s'inspire de la “matrice” déja vue

P Q R A S

P * Q *

R *

Séquence 2

Séquence 1

(54)

P Q R A S

P Q R

-PQRA SPQR-

P Q R A S

P Q R

-PQ SPQ

Une méthode qui s'inspire de la “matrice” déja vue

On dispose les deux séquences sur les bords d'un tableau.

Un alignement correspond à un chemin à travers le tableau:

(55)

Un alignement correspond à un chemin à travers le tableau.

On annote le tableau avec les scores cumulés:

P Q R A S

P Q R

P Q R A 0

S-8

P -1

Q 4

R 9 1

-PQRA SPQR-

S P Q R P -1 7 -1 -2 Q 0 -1 5 1 R -1 -2 1 5 A 1 -1 -1 -1

Une méthode qui s'inspire de la “matrice” déja vue

gap! Matrice de score

(56)

P Q R A 0

S-8

P -1

Q 4

R 9 1

Chaque alignement est en compétition avec beaucoup d'autres alignements possibles:

P-QRA SPQR-

P Q R A 0

S -1 P -9

Q -4

R 1 -7

-PQRA SPQR-

Une méthode qui s'inspire de la “matrice” déja vue

(57)

P Q R A 0

S-8

P -1

Q 4

R 9 1

P Q R A 0

S -1 P -9

Q -4

R 1 -7

PQ--RA S-PQR-

P Q R A 0

S -1 -9 P -17 Q -25

R -20 -28

P-QRA SPQR- -PQRA

SPQR-

Une méthode qui s'inspire de la “matrice” déja vue

Chaque alignement est en compétition avec beaucoup d'autres alignements possibles:

(58)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 ?

Supposons que nous connaissons les scores de trois alignements particuliers:

Chaque score bleu correspond à un

alignement incomplet optimal, inconnu à ce stade.

A partir de ces 3 scores, je peux trouver le score manquant

(59)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 ?

Supposons que nous connaissons les scores de trois alignements particuliers:

A partir des 3 scores bleus, je peux trouver le score manquant

3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17

(60)

Comment trouver le meilleur chemin à travers la table?

P Q R A 0

S

P

Q -1 -9 R 9 1

Supposons que nous connaissons les scores de trois alignements particuliers:

Si les chemins aboutissant aux cases bleues sont optimaux, le chemin final aussi A partir des 3 scores bleus, je peux trouver

le score manquant

3 possibilités: score -1 -1 = -2 score 9 - 8 = 1 score -9 - 8 = -17

(61)

On construira les alignements optimaux de toutes les tailles:

alignement optimal de x

1

, ... , x

i

avec y

1

, ... , y

j

pour chaque i  p, j  q

y

1

y

2

y

3

y

4

y

5

... y

q

x

1

x

2

x

3

x

4

... x

p

Algorithme de “programmation dynamique”

de Needleman-Wunsch

Pour aligner deux séquences:

(62)

Soit: F(i,j) = score du meilleur alignement de x1, ... , xi avec y1, ... , yj

déf.

y

1

y

2

y

3

y

4

y

5

y

6

x

1

x

2

x

3

x

4

x

5

F(3,4)

Table F(i,j)

de scores optimaux

Tableau F de scores d'alignements optimaux partiels

A(i,j) = l'alignement correspondant

déf.

(63)

- H E A G A W Initialisation de F

- P A W H E

0 -d -2d -3d -4d -5d -6d

-d -2d -3d -4d -5d H E

- -

s(xi,-) = s(-,yj) = -d = coût d'un gap

(64)

On va déduire F(i,j) des scores d'alignements (optimaux) plus petits

Algorithme de programmation dynamique de Needleman-Wunsch

y

1

y

2

y

3

y

4

y

5

y

6

x

1

x

2

x

3

x

4

x

5

F(3,4)

(65)

F(i,j) F(i-1,j) F(i-1,j-1)

F(i,j-1)

-d -d

s(x

i

,y

j

)

y1 y2 y3 y4 y5 y6 x1

x2 x3 x4 x5

Calcul récursif de F(i,j)

(66)

Calcul récursif de F(i,j)

I G A xi L G V yj

A I G xi G V yj -

G A xi - - S L G V yj

Un alignement de

avec

peut être obtenu en ajoutant x

i

ou y

j

ou les deux au bout d'un alignement plus petit.

y

1

y

2

... y

j

x

1

x

2

... x

i

création ou extension d'un “gap”

création ou extension d'un “gap”

(67)

Calcul récursif de F(i,j)

I G A xi L G V yj

A I G xi G V yj -

G A xi - - S L G V yj

L'alignement optimal de

avec

peut être obtenu en ajoutant x

i

ou y

j

ou les deux au bout d'un

alignement optimal plus petit.

y

1

y

2

... y

j

x

1

x

2

... x

i

(68)

F(i-1,j-1) + s(xi,yj) F(i,j) = max F(i-1,j) - d

F(i,j-1) - d

I G A xi L G V yj A I G xi G V yj - G A xi - - S L G V yj

s est la matrice de score employée (eg, BLOSUM62)

Calcul récursif de F(i,j)

création ou extension d'un “gap”

création ou extension d'un “gap”

(69)

- H E A G A W Extension de F

- P A W H E

0 -8 -16 -24 -32 -40 -48

-8 -16 -24 -32 -40

-2

H E A P -2 -1 -1 A -2 -1 5 Matrice de similarité

Coût pq en mémoire et calcul

(70)

- H E A G A W Extension de F

- P A W H E

0 -8 -16 -24 -32 -40 -48

-8 -16 -24 -32 -40

-2 -9

H E A P -2 -1 -1 A -2 -1 5 Matrice de similarité

H E - P

Coût pq en mémoire et calcul

(71)

0 -8 -16 -24 -32 -40 -48 -56 -64 -72 -80 -8 -2 -9 -17 -25 -33 -42 -49 -57 -65 -73 -16 -10 -3 -4 -12 -20 -28 -36 -44 -52 -60 -24 -18 -11 -6 -7 -15 -5 -13 -21 -29 -37 -32 -14 -18 -13 -8 -9 -13 -7 -3 -11 -19 -40 -22 -8 -16 -16 -9 -12 -15 -7 3 -5 -48 -30 -16 -3 -11 -11 -12 -12 -15 -5 2 -56 -38 -24 -11 -6 -12 -14 -15 -12 -9 1

- H E A G A W G H E E -

P A W H E A E

HEAGAWGHE-E --P-AW-HEAE

Alignement optimal:

Identification de l'alignement optimal par “tracé inverse”

(72)

Il est plus facile d'allonger un gap existant que d'ouvrir un nouveau gap

Ouvrir un gap: -d

L'allonger d'un résidu: -e (e<d)

Coût d'un gap de longueur m:

g(m) = -d – (m-1) e

Eg, boucles

 positions équivalentes et indépendantes

(73)

Programmation dynamique avec 3 tableaux

I G A xi L G V yj

A I G xi G V yj -

G A xi - S L G yj G A - xi L G V yj

A(i,j) = score du meilleur alignement de x1, ... , xi avec y1, ... , yj

qui se termine sur un appariement

Ix(i,j) = score du meilleur alignement de x1, ... , xi avec y1, ... , yj

qui se termine sur une insertion dans x

Exercice: trouver l'algorithme correspondant Iy(i,j) = score du meilleur alignement

de x1, ... , xi avec y1, ... , yj

qui se termine sur une insertion dans y

(74)

C'est souvent une partie d'une protéine qui est conservée: il faut chercher un alignement “local”

aspartyl-ARNt synthétase de levure Domaine du

site actif,

aspartyl-ARNt synthétase

d'E coli

Dans cet exemple, chaque protéine

possède un domaine absent chez l'autre (un seul est visible dans les vues 3D)

(75)

Alignement local: méthode de Smith-Waterman

F(i-1,j-1) + s(xi,yj) F(i,j) = max F(i-1,j) - d

F(i,j-1) - d 0

I G A xi L G V yj

A I G xi G V yj - G A xi - - S L G V yj

Nouvel alignement

On ne pénalisera pas les morceaux non-alignés en début et fin de séquence.

(76)

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 5 0 0 0 0 0 0 0 0 0 2 0 20 12 4 0 0 0 10 2 0 0 0 12 18 22 14 6 0 2 16 8 0 0 4 10 18 28 20 0 0 8 21 13 5 0 4 10 20 27 0 0 6 13 18 12 4 0 4 16 26 H E A G A W G H E E

P A W H E A E

AWGHE AW-HE

Alignement local optimal:

(77)

L'alignement de séquences:

algorithmes heuristiques

(78)

Needleman-Wunsch: “exacte” mais coûteuse

Atteint le maximum absolu de F(p,q) Mais:

Coût  pq en mémoire et calcul

Hypothèse de positions équivalentes

Hypothèse de positions indépendantes:

P(alignement) = Pi,j P(xi,yj)

(79)

Méthodes heuristiques rapides

BLAST: Basic Local Alignment Search Tool

recherche de tétrapeptides homologues

extension de chaque tétrapeptide tant que la similarité > seuil

FASTA

recherche de dipeptides homologues

extension tant que la similarité > seuil

alignement exact avec gaps, limité à une bande autour de l'extension trouvée

(80)

BLAST: Basic Local Alignment Search Tool

recherche de tétrapeptides homologues

extension de chaque tétrapeptide tant que la similarité > seuil

C L I C G D E A S G C H Y L C V V G D K A T G Y H Y

Récepteur de l'androstérone

Récepteur de l'hormone thyroïdienne

(81)

G D E A score BLOSUM62

G D E A 21 = 6+6+5+4 G D D A 18

G D Q A 18 G E E A 17 G D E G 17 G D K A 17 G D E V 17

Tétrapeptides homologues à un tétrapeptide de référence

V A G D E Q K A 0 4

G 6

D 6 2

E 5 2 1 Extrait de BLOSUM62

7 homologues (avec BLOSUM62 et un seuil de 17).

(82)

Eg: Tétrapeptides homologues à la référence GDEA

>sp|P10827|THA_HUMAN Thyroid hormone receptor alpha Homo sapiens.

MEQKPSKVECGSDPEENSARSPDGKRKRKNGQCSLKTSMSGYIPSYLDKDEQCVVCGDKA TGYHYRCITCEGCKGFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCIAVGM AMDLVLDDSKRVAKRKLIEQNRERRRKEEMIRSLQQRPEPTPEEWDLIHIATEAHRSTNA QGSHWKQRRKFLPDDIGQSPIVSMPDGDKVDLEAFSEFTKIITPAITRVVDFAKKLPMFS ELPCEDQIILLKGCCMEIMSLRAAVRYDPESDTLTLSGEMAVKREQLKNGGLGVVSDAIF ELGKSLSAFNLDDTEVALLQAVLLMSTDRSGLLCVDKIEKSQEAYLLAFEHYVNHRKHNI PHFWPKLLMKEREVQSSILYKGAAAEGRPGGSLGVHPEGQQLLGMHVVQGPQVRQLEQQL GEAGSLQGPVLQHQSPKSPQQRLLELLHRSGILHARAVCGEDDSSEADSPSSSEEEPEVC EDLAGNAASP

G D E A G D D A G D Q A G E E A G D E G G D K A G D E V

On identifie dans la séquence y un tétrapeptide homologue à un tétrapeptide de la séquence x

Séquence y

(83)

C L I C G D E A S G C H Y L C V V G D K A T G Y H Y

Récepteur de l'androstérone

Récepteur de l'hormone thyroïdienne

On étend le “micro-alignement” dans chaque direction, tant que le score > seuil

Chaque tétrapeptide conduit à un alignement local sans gaps

On retient les meilleurs alignements

(84)

Homologues du récepteur de l'androstérone identifiés par recherche BLAST dans la banque SwissProt

ID % Match

# Swissprot Hit Description Score E Identity Length 1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor (PR) 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor (PR) 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor (MR) 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor (GR) 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta (ER-beta) 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor (ER-alpha) 98 4e-21 55 72

: : : : : : : : :

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

(85)

FASTA: intermédiaire entre BLAST et Needleman-Wunsch

recherche de dipeptides homologues

extension tant que la similarité > seuil

alignement exact avec gaps, limité à une bande autour de l'extension trouvée

Cf. document écrit

(86)

Comparaisons de séquences pour prédire la structure, la fonction, et l'origine évolutive des protéines

L'alignement de séquences comme

modèle d'un processus évolutif

Alignement de séquences: algorithmes

récursifs exacts et algorithmes heuristiques

En résumé:

(87)

Alignements multiples:

Méthode et applications

(88)

Homologues du récepteur de

l'androstérone identifiés avec BLAST

ID % Longueur

# Swissprot Nom Description Score E Identité alignée 1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor alpha 98 4e-21 55 72

: : : : : : : : :

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

Comment intégrer un ensemble d'homologues dans un seul alignement?

(89)

Algorithme de programmation dynamique pour trois séquences

i

j

F(i,j,k) k

Trop coûteux pour traiter plus de ~10 séquences

5010 = 1017

(90)

A partir du résultat Blast, une méthode “évidente” est possible: laquelle?

Comment intégrer un ensemble d'homologues dans un seul alignement?

ID % Longueur

# Swissprot Nom Description Score E Identité alignée 1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor alpha 98 4e-21 55 72

: : : : : : : : :

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

(91)

Nécessité d'une méthode “heuristique”

ID % Longueur

# Swissprot Nom Description Score E Identité alignée 1 P15207 ANDR_RAT Androgen receptor. 162 1e-40 100 73 6 P19091 ANDR_MOUSE Androgen receptor. 162 1e-40 100 73 14 Q63449 PRGR_RAT Progesterone receptor 136 1e-32 80 72 17 P06401 PRGR_HUMAN Progesterone receptor 136 1e-32 80 72 21 P08235 MCR_HUMAN Mineralocorticoid receptor 136 1e-32 79 72 33 P04150 GCR_HUMAN Glucocorticoid receptor 131 3e-31 77 72 41 Q9YH32 ESR2_ORENI Estrogen receptor beta 99 3e-21 58 72 42 Q9YH33 ESR1_ORENI Estrogen receptor alpha 98 4e-21 55 72

: : : : : : : : :

: : : : : : : : :

343 Q9N4Q7 NH13_CAEEL Nuclear hormone receptor nhr-13 54 8e-08 39 66 344 Q23294 NH11_CAEEL Nuclear hormone receptor nhr-11 54 8e-08 42 66 345 O45460 NH54_CAEEL Nuclear hormone receptor nhr-54 54 1e-07 37 67 346 Q09565 NH20_CAEEL Nuclear hormone receptor nhr-20 51 7e-07 34 66 347 Q09587 NH22_CAEEL Nuclear hormone receptor nhr-22 45 5e-05 32 66 349 P17672 E75B_DROME Ecdysone-induced protein 75B 40 0.001 37 47 351 P20659 TRX_DROME Trithorax protein. 31 0.74 26 49 355 P98164 LRP2_HUMAN Lipoprotein receptor. 30 1.7 27 65

(92)

Méthode heuristique pour un alignement multiple: trois phases successives

Alignement deux à deux des séquences

Classement des séquences par similarité: arbre “guide”

On les aligne progressivement,

en commençant par les plus similaires

(93)

a) S T A R b) S K A T c) P I T d) P I G

S T A R S K A T

4 -1 4 -1 Score =6

S T A R P I T -

-1 -1 0 -8

S K A T P – I T

-1 -8 -1 5

Score =-10 (Exc.)

Score =-5 (Exc.)

Phase 1: alignement des séquences 2 à 2

etc

(94)

Phases 2, 3: on reprend le problème à zéro, en traitant les séquences dans un ordre plausible

Phase 2: Classement des séquences par similarité Phase 3: On les aligne progressivement,

en commençant par les plus similaires

(95)

a) STAR b) SKAT

c) PIT S=6 S=-10 S=-5

d) PIG

S=9

Phase 2: classement hiérarchique des séquences

(96)

a b

c

6

-3 -6

d 9 -5

Phase 2: classement hiérarchique des séquences

-3

(97)

Phase 2: classement hiérarchique des séquences

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

a b

d c

(98)

c d

a b

d c 1

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

Phase 2: classement hiérarchique des séquences

(99)

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

c d

a b

1 1

Phase 2: classement hiérarchique des séquences

(100)

a b

1 2

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

a b c d

2 1

Phase 2: classement hiérarchique des séquences

(101)

1 2

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

a b c d

2 1

Phase 2: classement hiérarchique des séquences

(102)

Phase 2: classement hiérarchique, ou arbre “guide”

a b

c d

1 2

3

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

(103)

a b

c d

3

“Unweighted Pair Group Joining with Arithmetic Mean”

ou UPGMA

a b

2

d c 1

Phase 2: classement hiérarchique, ou arbre “guide”

(104)

Phase 3: alignement des séquences en remontant progressivement l'arbre

a b

c

Exemple avec 3 séquences

(105)

a b

c

a) S T A R b) S K A T

a avec b Exemple avec 3 séquences

Phase 3: alignement des séquences

en remontant progressivement l'arbre

(106)

a b

c

a) S T A R b) S K A T

a avec b

c avec {a, b}

Exemple avec 3 séquences

Phase 3: alignement des séquences

en remontant progressivement l'arbre

(107)

a b

c

a) S T A R b) S K A T

a avec b

c avec {a, b}

Comment aligner une

séquence avec un alignement?

Alignement “séquence-profil”

Exemple avec 3 séquences

Nous avons besoin de généraliser légèrement l'alignement séquence-séquence....

Phase 3: alignement des séquences

en remontant progressivement l'arbre

(108)

S T A R S T I R S K A T

P I T

Aligner une séquence avec un

alignement: calcul d'un score “moyen”

Un alignement existant de 3 séquences:

Séquence à aligner:

(109)

S T A R S T I R S K A T

P I T

Un alignement existant de 3 séquences:

Séquence à aligner:

On considère l'alignement (en haut) comme une séquence de colonnes Xi

Aligner une séquence avec un

alignement: calcul d'un score “moyen”

(110)

S T A R S T I R S K A T

P I T

Un alignement existant de 3 séquences:

Séquence à aligner:

P T -1 T -1 K -1

Total -3 =s(y1,X2) X2

y1

Aligner une séquence avec un

alignement: calcul d'un score “moyen”

(111)

S T A R S T I R S K A T

P I T

P T -1 T -1 K -1

total -3 Un alignement existant de 3 séquences:

Séquence à aligner:

b

s(a, b' ) = s(a,b) + s(a,b') + s(a,b'') b''

Somme de paires

Aligner une séquence avec un

alignement: calcul d'un score “moyen”

(112)

S T A R S T I R S K A T

P I T

P T -1 T -1 K -1

total -3

0 -24 -48 -27

Alignement séquence-“profil”:

programmation dynamique, comme d'habitude

Pénalités de gaps triplées

(113)

0 -24 -48 -72 -96 -24 -3 -27 -51 -75 -48 -19 -6 -25 -49 -72 -43 -10 -4 -22

P I T

S T A R S T I R S K I T P - I T

Alignement séquence-profil:

programmation dynamique

S T A R

S T I R

S K A T

(114)

P P I I G T

S T A R S T I R S K A T P - I T P - I G

Aligner deux alignements: alignement “profil-profil”

a b

s( a' , b' ) = s(a,b) + s(a,b') b'' + s(a,b'')+ s(a',b) + s(a',b')+ s(a',b'')

Somme de paires

Légère généralisation de l'alignement de séquences

S T A R

S T I R

S K A T

(115)

Phase 3: aligner les séquences

en remontant progressivement l'arbre

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid androgen

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9 1.0

Les longueurs de branches measurent les distances entre séquences

(116)

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid androgen

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9

1.0 distance

= 0.9 + 1.0

Les longueurs de branches measurent les distances entre séquences

Phase 3: aligner les séquences

en remontant progressivement l'arbre

(117)

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid androgen

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9 1.0

Phase 3: aligner les séquences

en remontant progressivement l'arbre

(118)

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9 1.0

androgen

Phase 3: aligner les séquences

en remontant progressivement l'arbre

(119)

progesterone mineralocorticoid

glucocorticoid

estrogen

vitamin D

PPAR retinoic acid

thyroid

0.8 0.7 0.8

0.4 1.2

0.5 1.1

0.2 1.4

0.9 1.0

androgen

Phase 3: aligner les séquences

en remontant progressivement l'arbre

(120)

Produit final

androgène VFFKRAAEG--KQKYLCASRNDCTIDKFRRKNCPSCRLRKCY progestérone VFFKRAVEG--HHNYLCAGRNDCIVDKIRRKNCPACRLRKCY minéralocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRLQKCL glucocorticoïde VFFKRAVEG--QHNYLCAGRNDCIIDKIRRKNCPACRYRKCL estrogène AFFKRSIQG--HNDYMCPATNQCTIDKNRRKSCQACRLRKCY acide rétinoïque GFFRRSIQK--NMVYTCHRDKNCIINKVTRNRCQYCRLQKCF vitamine D3 GFFRRSMKR--KALFTCPFNGDCRITKDNRRHCQACRLKRCV thyroïde GFFRRTIQKNLHPTYSCKYDSCCVIDKITRNQCQLCRFKKCL **:*: . : : * : * *. * ** ::*

584 588

588

Références

Documents relatifs

La chute de la concen- tration de l'AMPc sous l'action de la progestérone, contrôlant la réassociation des sous-unités (R) et (C) est le mécanisme le plus plausible pour conduire à

Document conçu par Lucas Filleur, enseignant de biologie-écologie et Yann Renault, enseignant de SVT ; Lycée Théodore Monod, Le Rheu. Annexe n°4 – Principes d’une amplification

J’ai aussi cr´ e´ e une m´ ethode pour comparer dans l’espace ´ electrostatique une petite mol´ e- cule avec la prot´ eine qu’elle est cens´ ee remplacer au sein

•  Relevant evolution of data sharing legal framework. –  Revision of the EU data

Banques de séquences nucléiques Banques de séquences nucléiques Banques de séquences nucléiques Banques de séquences nucléiques Banques de séquences protéiques Banques de

= criblage à haut débit de molécules naturelles ou de synthèses pour découvrir de nouvelles. cibles thérapeutiques et de

- La matrice Cov est en général symétrique définie positive, elle est diagonalisable sur une base orthonormée de vecteurs propres avec des valeurs propres positives. La

Question 6 : Quelle expérience proposeriez-vous pour déterminer individuellement le rôle de ces acides aminés dans la fixation des polysaccharides3. Recherchez sur