• Aucun résultat trouvé

Alignement multiple

N/A
N/A
Protected

Academic year: 2022

Partager "Alignement multiple"

Copied!
20
0
0

Texte intégral

(1)

Alignement multiple

Thierry Lecroq

Universit´e de Rouen FRANCE

(2)

1 Calcul des scores d’alignement deux `a deux entre les s´equences ;

2 Conversion des scores en distances ;

3 Construction d’un arbre guide ;

4 Alignement des nœuds de l’arbre par ordre croissant des distances.

Thierry Lecroq (Univ. Rouen) Informatique 2 / 20

(3)

Exemple 5 s´equences

x0 =ATCTCGAGA x1 =ATCCGAGA x2 =ATGTCGACGA x3 =ATGTCGACAGA x4 =ATTCAACGA

(4)

Par programmation dynamique avec s(a, a) = 1;

s(a, b) =−1 aveca6=b; ins(a) =sup(a) =−2.

Thierry Lecroq (Univ. Rouen) Informatique 4 / 20

(5)

Conversion des scores en distances

1−nombre d’identit´es de l’alignement longueur de l’alignement

(6)

A T C C G A G A 0 -2 -4 -6 -8 -10 -12 -14 -16

A -2 1 -1 -3 -5 -7 -9 -11 -13

T -4 -1 2 0 -2 -4 -6 -8 -10

C -6 -3 0 3 1 -1 -3 -5 -7

T -8 -5 -2 1 2 0 -2 -4 -6

C -10 -7 -4 -1 2 1 -1 -3 -5

G -12 -9 -6 -3 0 3 1 0 -2

A -14 -11 -8 -5 -2 1 4 2 1

G -16 -13 -10 -7 -4 -1 2 5 3

A -18 -15 -12 -9 -6 -3 0 3 6

A T C T C G A G A

A T C - C G A G A

d(x0, x1) = 1− 89 = 0,11

Thierry Lecroq (Univ. Rouen) Informatique 6 / 20

(7)

x

0

et x

2

A T G T C G A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17

T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11

T -8 -5 -2 -1 2 0 -2 -4 -6 -8 -10

C -10 -7 -4 -3 0 3 1 -1 -3 -5 -7

G -12 -9 -6 -3 -2 1 4 2 0 -2 -4

A -14 -11 -8 -5 -4 -1 2 5 3 1 -1

G -16 -13 -10 -7 -6 -3 0 3 4 4 2

A -18 -15 -12 -9 -8 -5 -2 1 2 3 5

A T C T C G A - G A

A T G T C G A C G A

d(x0, x2) = 1− 108 = 0,2

(8)

A T G T C G A C A G A 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14 -16

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11 -13

T -8 -5 -2 -1 2 0 -2 -4 -6 -8 -10 -12

C -10 -7 -4 -3 0 3 1 -1 -3 -5 -7 -9

G -12 -9 -6 -3 -2 1 4 2 0 -2 -4 -6

A -14 -11 -8 -5 -4 -1 2 5 3 1 -1 -3

G -16 -13 -10 -7 -6 -3 0 3 4 2 2 0

A -18 -15 -12 -9 -8 -5 -2 1 2 5 3 3

A T C T C G - - A G A

A T G T C G A C A G A

d(x0, x3) = 1− 118 = 0,27

Thierry Lecroq (Univ. Rouen) Informatique 8 / 20

(9)

x

0

et x

4

A T T C A A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

C -6 -3 0 1 1 -1 -3 -5 -7 -9

T -8 -5 -2 1 0 0 -2 -4 -6 -8

C -10 -7 -4 -1 2 0 -1 -1 -3 -5

G -12 -9 -6 -3 0 1 -1 -2 0 -2

A -14 -11 -8 -5 -2 1 2 0 -2 1

G -16 -13 -10 -7 -4 -1 0 1 1 -1

A -18 -15 -12 -9 -6 -3 0 -1 0 2

A T C T C G A - G A

A T - T C A A C G A

d(x0, x4) = 1− 107 = 0,3

(10)

A T G T C G A C G A 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17

T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11

C -8 -5 -2 -1 0 0 -2 -4 -4 -6 -8

G -10 -7 -4 -1 -2 -1 1 -1 -3 -3 -5

A -12 -9 -6 -3 -2 -3 -1 2 0 -2 -2

G -14 -11 -8 -5 -4 -3 -2 0 1 1 -1

A -16 -13 -10 -7 -6 -5 -4 -1 -1 0 2

A T - C C G A - G A

A T G T C G A C G A

d(x1, x2) = 1− 107 = 0,3

Thierry Lecroq (Univ. Rouen) Informatique 10 / 20

(11)

x

1

et x

3

A T G T C G A C A G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14 -16

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11 -13

C -8 -5 -2 -1 0 0 -2 -4 -4 -6 -8 -10

G -10 -7 -4 -1 -2 -1 1 -1 -3 -5 -5 -7

A -12 -9 -6 -3 -2 -3 -1 2 0 -2 -4 -4

G -14 -11 -8 -5 -4 -3 -2 0 1 -1 -1 -3

A -16 -13 -10 -7 -6 -5 -4 -1 -1 2 0 0

AT-CCG–AGA ATGTCGACAGA d(x1, x3) = 1− 117 = 0,36

(12)

A T T C A A C G A 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

C -6 -3 0 1 1 -1 -3 -5 -7 -9

C -8 -5 -2 -1 2 0 -2 -2 -4 -6

G -10 -7 -4 -3 0 1 -1 -3 -1 -3

A -12 -9 -6 -5 -2 1 2 0 -2 0

G -14 -11 -8 -7 -4 -1 0 1 1 -1

A -16 -13 -10 -9 -6 -3 0 -1 0 2

A T C C G A - G A

A T T C A A C G A

d(x1, x4) = 1− 69 = 0,33

Thierry Lecroq (Univ. Rouen) Informatique 12 / 20

(13)

x

2

et x

3

A T G T C G A C A G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22

A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19

T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14 -16

G -6 -3 0 3 1 -1 -3 -5 -7 -9 -11 -13

T -8 -5 -2 1 4 2 0 -2 -4 -6 -8 -10

C -10 -7 -4 -1 2 5 3 1 -1 -3 -5 -7

G -12 -9 -6 -3 0 3 6 4 2 0 -2 -4

A -14 -11 -8 -5 -2 1 4 7 5 3 1 -1

C -16 -13 -10 -7 -4 -1 2 5 8 6 4 2

G -18 -15 -12 -9 -6 -3 0 3 6 7 7 5

A -20 -17 -14 -11 -8 -5 -2 1 4 7 6 8

A T G T C G A C - G A

A T G T C G A C A G A

d(x2, x3) = 1− 1011 = 0,09

(14)

A T T C A A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18

A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

G -6 -3 0 1 -1 -3 -5 -7 -7 -9

T -8 -5 -2 1 0 -2 -4 -6 -8 -8

C -10 -7 -4 -1 2 0 -2 -3 -5 -7

G -12 -9 -6 -3 0 1 -1 -3 -2 -4

A -14 -11 -8 -5 -2 1 2 0 -2 -1

C -16 -13 -10 -7 -4 -1 0 3 1 -1

G -18 -15 -12 -9 -6 -3 -2 1 4 2

A -20 -17 -14 -11 -8 -5 -2 -1 2 5

A T G T C G A C G A

A T - T C A A C G A

d(x2, x4) = 1− 108 = 0,2

Thierry Lecroq (Univ. Rouen) Informatique 14 / 20

(15)

x

3

et x

4

A T T C A A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18

A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

G -6 -3 0 1 -1 -3 -5 -7 -7 -9

T -8 -5 -2 1 0 -2 -4 -6 -8 -8

C -10 -7 -4 -1 2 0 -2 -3 -5 -7

G -12 -9 -6 -3 0 1 -1 -3 -2 -4

A -14 -11 -8 -5 -2 1 2 0 -2 -1

C -16 -13 -10 -7 -4 -1 0 3 1 -1

A -18 -15 -12 -9 -6 -3 0 1 2 2

G -20 -17 -14 -11 -8 -5 -2 -1 2 1

A -22 -19 -16 -13 -10 -7 -4 -3 0 3

A T G T C G A C A G A

A T - T C A A C - G A

d(x3, x4) = 1118 = 0,27

(16)

x3 0,27 0,36 0,9 x4 0,3 0,33 0,2 0,27

x0 x1 x2 x3

Thierry Lecroq (Univ. Rouen) Informatique 16 / 20

(17)

L’arbre guide

x x x x x

4

0 1 2 3

Un dendrogramme.

(18)

x0 A T C T C G A G A

x1 A T C - C G A G A

a(x2, x3)

x2 A T G T C G A C - G A

x3 A T G T C G A C A G A

Thierry Lecroq (Univ. Rouen) Informatique 18 / 20

(19)

a(a(x0, x1), a(x2, x3))

x0 A T C T C G A - - G A

x1 A T C - C G A - - G A

x2 A T G T C G A C - G A

x3 A T G T C G A C A G A

(20)

x0 A T C T C G A - - G A

x1 A T C - C G A - - G A

x2 A T G T C G A C - G A

x3 A T G T C G A C A G A

x4 A T - T C A A C - G A

Thierry Lecroq (Univ. Rouen) Informatique 20 / 20

Références

Documents relatifs

Alignement multiple progressif : ajout des séquences en fonction de leurs distances dans l’arbre (distance  , on commence par aligner les deux plus proches .  Alignement

• les listes ordonnées sont ensuite parcourues pour identifier les k-mers qui sont trouvés dans deux ou plusieurs séquences mais qui apparaissent au plus une fois dans chacun

 Heuristique pour le score SP: Algorithme garanti d’obtenir un alignement dont le score est au plus deux fois plus élevé que le score d’un alignement optimal....

– Optimisation en temps: calculer la table autour d’une bande.. Temps et espace O(kn) où k est

– choisir une paire de séquences de score max, tq exactement une des séquences est dans l’alignement partiel obtenu. – Aligner la nouvelle séquence avec la matrice consensus

• La plus grande valeur V(i,j) est le score du meilleur alignement local.. Alignement

• Alignement local: Plus long chemin entre n’importe quelles arêtes (i,j) et (i’, j’) du graphe d’édition.. • Quelle mesure

global, c'est-à-dire entre les deux séquences sur toute leur longueur local, entre une séquence et une partie d’une autre séquence.. Similarité global