• Aucun résultat trouvé

Alignement multiple

N/A
N/A
Protected

Academic year: 2022

Partager "Alignement multiple"

Copied!
20
0
0

Texte intégral

(1)

Alignement multiple

Thierry Lecroq

Universit´e de Rouen FRANCE

(2)

1 Calcul des scores d’alignement deux `a deux entre les s´equences ;

2 Conversion des scores en distances ;

3 Construction d’un arbre guide ;

4 Alignement des nœuds de l’arbre par ordre croissant des distances.

Thierry Lecroq (Univ. Rouen) Informatique 2 / 20

(3)

Exemple 5 s´equences

x0 =ATCTCGAGA x1 =ATCCGAGA x2 =ATGTCGACGA x3 =ATGTCGACAGA x4 =ATTCAACGA

(4)

Par programmation dynamique avec s(a, a) = 1;

s(a, b) =−1 aveca6=b; ins(a) =sup(a) =−2.

Thierry Lecroq (Univ. Rouen) Informatique 4 / 20

(5)

Conversion des scores en distances

1−nombre d’identit´es de l’alignement longueur de l’alignement

(6)

A T C C G A G A 0 -2 -4 -6 -8 -10 -12 -14 -16

A -2 1 -1 -3 -5 -7 -9 -11 -13

T -4 -1 2 0 -2 -4 -6 -8 -10

C -6 -3 0 3 1 -1 -3 -5 -7

T -8 -5 -2 1 2 0 -2 -4 -6

C -10 -7 -4 -1 2 1 -1 -3 -5

G -12 -9 -6 -3 0 3 1 0 -2

A -14 -11 -8 -5 -2 1 4 2 1

G -16 -13 -10 -7 -4 -1 2 5 3

A -18 -15 -12 -9 -6 -3 0 3 6

A T C T C G A G A

A T C - C G A G A

d(x0, x1) = 1− 89 = 0,11

Thierry Lecroq (Univ. Rouen) Informatique 6 / 20

(7)

x

0

et x

2

A T G T C G A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17

T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11

T -8 -5 -2 -1 2 0 -2 -4 -6 -8 -10

C -10 -7 -4 -3 0 3 1 -1 -3 -5 -7

G -12 -9 -6 -3 -2 1 4 2 0 -2 -4

A -14 -11 -8 -5 -4 -1 2 5 3 1 -1

G -16 -13 -10 -7 -6 -3 0 3 4 4 2

A -18 -15 -12 -9 -8 -5 -2 1 2 3 5

A T C T C G A - G A

A T G T C G A C G A

d(x0, x2) = 1− 108 = 0,2

(8)

A T G T C G A C A G A 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14 -16

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11 -13

T -8 -5 -2 -1 2 0 -2 -4 -6 -8 -10 -12

C -10 -7 -4 -3 0 3 1 -1 -3 -5 -7 -9

G -12 -9 -6 -3 -2 1 4 2 0 -2 -4 -6

A -14 -11 -8 -5 -4 -1 2 5 3 1 -1 -3

G -16 -13 -10 -7 -6 -3 0 3 4 2 2 0

A -18 -15 -12 -9 -8 -5 -2 1 2 5 3 3

A T C T C G - - A G A

A T G T C G A C A G A

d(x0, x3) = 1− 118 = 0,27

Thierry Lecroq (Univ. Rouen) Informatique 8 / 20

(9)

x

0

et x

4

A T T C A A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

C -6 -3 0 1 1 -1 -3 -5 -7 -9

T -8 -5 -2 1 0 0 -2 -4 -6 -8

C -10 -7 -4 -1 2 0 -1 -1 -3 -5

G -12 -9 -6 -3 0 1 -1 -2 0 -2

A -14 -11 -8 -5 -2 1 2 0 -2 1

G -16 -13 -10 -7 -4 -1 0 1 1 -1

A -18 -15 -12 -9 -6 -3 0 -1 0 2

A T C T C G A - G A

A T - T C A A C G A

d(x0, x4) = 1− 107 = 0,3

(10)

A T G T C G A C G A 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17

T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11

C -8 -5 -2 -1 0 0 -2 -4 -4 -6 -8

G -10 -7 -4 -1 -2 -1 1 -1 -3 -3 -5

A -12 -9 -6 -3 -2 -3 -1 2 0 -2 -2

G -14 -11 -8 -5 -4 -3 -2 0 1 1 -1

A -16 -13 -10 -7 -6 -5 -4 -1 -1 0 2

A T - C C G A - G A

A T G T C G A C G A

d(x1, x2) = 1− 107 = 0,3

Thierry Lecroq (Univ. Rouen) Informatique 10 / 20

(11)

x

1

et x

3

A T G T C G A C A G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19 T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14 -16

C -6 -3 0 1 -1 -1 -3 -5 -7 -9 -11 -13

C -8 -5 -2 -1 0 0 -2 -4 -4 -6 -8 -10

G -10 -7 -4 -1 -2 -1 1 -1 -3 -5 -5 -7

A -12 -9 -6 -3 -2 -3 -1 2 0 -2 -4 -4

G -14 -11 -8 -5 -4 -3 -2 0 1 -1 -1 -3

A -16 -13 -10 -7 -6 -5 -4 -1 -1 2 0 0

AT-CCG–AGA ATGTCGACAGA d(x1, x3) = 1− 117 = 0,36

(12)

A T T C A A C G A 0 -2 -4 -6 -8 -10 -12 -14 -16 -18 A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

C -6 -3 0 1 1 -1 -3 -5 -7 -9

C -8 -5 -2 -1 2 0 -2 -2 -4 -6

G -10 -7 -4 -3 0 1 -1 -3 -1 -3

A -12 -9 -6 -5 -2 1 2 0 -2 0

G -14 -11 -8 -7 -4 -1 0 1 1 -1

A -16 -13 -10 -9 -6 -3 0 -1 0 2

A T C C G A - G A

A T T C A A C G A

d(x1, x4) = 1− 69 = 0,33

Thierry Lecroq (Univ. Rouen) Informatique 12 / 20

(13)

x

2

et x

3

A T G T C G A C A G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18 -20 -22

A -2 1 -1 -3 -5 -7 -9 -11 -13 -15 -17 -19

T -4 -1 2 0 -2 -4 -6 -8 -10 -12 -14 -16

G -6 -3 0 3 1 -1 -3 -5 -7 -9 -11 -13

T -8 -5 -2 1 4 2 0 -2 -4 -6 -8 -10

C -10 -7 -4 -1 2 5 3 1 -1 -3 -5 -7

G -12 -9 -6 -3 0 3 6 4 2 0 -2 -4

A -14 -11 -8 -5 -2 1 4 7 5 3 1 -1

C -16 -13 -10 -7 -4 -1 2 5 8 6 4 2

G -18 -15 -12 -9 -6 -3 0 3 6 7 7 5

A -20 -17 -14 -11 -8 -5 -2 1 4 7 6 8

A T G T C G A C - G A

A T G T C G A C A G A

d(x2, x3) = 1− 1011 = 0,09

(14)

A T T C A A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18

A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

G -6 -3 0 1 -1 -3 -5 -7 -7 -9

T -8 -5 -2 1 0 -2 -4 -6 -8 -8

C -10 -7 -4 -1 2 0 -2 -3 -5 -7

G -12 -9 -6 -3 0 1 -1 -3 -2 -4

A -14 -11 -8 -5 -2 1 2 0 -2 -1

C -16 -13 -10 -7 -4 -1 0 3 1 -1

G -18 -15 -12 -9 -6 -3 -2 1 4 2

A -20 -17 -14 -11 -8 -5 -2 -1 2 5

A T G T C G A C G A

A T - T C A A C G A

d(x2, x4) = 1− 108 = 0,2

Thierry Lecroq (Univ. Rouen) Informatique 14 / 20

(15)

x

3

et x

4

A T T C A A C G A

0 -2 -4 -6 -8 -10 -12 -14 -16 -18

A -2 1 -1 -3 -5 -7 -9 -11 -13 -15

T -4 -1 2 0 -2 -4 -6 -8 -10 -12

G -6 -3 0 1 -1 -3 -5 -7 -7 -9

T -8 -5 -2 1 0 -2 -4 -6 -8 -8

C -10 -7 -4 -1 2 0 -2 -3 -5 -7

G -12 -9 -6 -3 0 1 -1 -3 -2 -4

A -14 -11 -8 -5 -2 1 2 0 -2 -1

C -16 -13 -10 -7 -4 -1 0 3 1 -1

A -18 -15 -12 -9 -6 -3 0 1 2 2

G -20 -17 -14 -11 -8 -5 -2 -1 2 1

A -22 -19 -16 -13 -10 -7 -4 -3 0 3

A T G T C G A C A G A

A T - T C A A C - G A

d(x3, x4) = 1118 = 0,27

(16)

x3 0,27 0,36 0,9 x4 0,3 0,33 0,2 0,27

x0 x1 x2 x3

Thierry Lecroq (Univ. Rouen) Informatique 16 / 20

(17)

L’arbre guide

x x x x x

4

0 1 2 3

Un dendrogramme.

(18)

x0 A T C T C G A G A

x1 A T C - C G A G A

a(x2, x3)

x2 A T G T C G A C - G A

x3 A T G T C G A C A G A

Thierry Lecroq (Univ. Rouen) Informatique 18 / 20

(19)

a(a(x0, x1), a(x2, x3))

x0 A T C T C G A - - G A

x1 A T C - C G A - - G A

x2 A T G T C G A C - G A

x3 A T G T C G A C A G A

(20)

x0 A T C T C G A - - G A

x1 A T C - C G A - - G A

x2 A T G T C G A C - G A

x3 A T G T C G A C A G A

x4 A T - T C A A C - G A

Thierry Lecroq (Univ. Rouen) Informatique 20 / 20

Références

Documents relatifs

Ce rapport bibliographique s’inscrit au sein du projet « Géochimie et minéralogie du scandium dans les latérites en NC », initié en octobre 2015 pour une durée de 18 mois, et

• Un alignement de séquences réalisé par ClustalW entre deux protéines

Étendre chaque paire de 12-mers dans les deux directions (sans gaps), jusqu’à ce que le score chute en dessous d’un certain seuil.. Si l’alignement (sans gaps) trouvé dépasse

Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que.. - Il est

• Calculer la valeur d’une solution optimale du plus petit au plus grand sous-problème.. • Construire une solution optimale à partir des informations

 Heuristique pour le score SP: Algorithme garanti d’obtenir un alignement dont le score est au plus deux fois plus élevé que le score d’un alignement optimal....

– Optimisation en temps: calculer la table autour d’une bande.. Temps et espace O(kn) où k est

– choisir une paire de séquences de score max, tq exactement une des séquences est dans l’alignement partiel obtenu. – Aligner la nouvelle séquence avec la matrice consensus

Il convient de faire une troisième catégorie de mots alémaniques d’origine rom ane: ceux qui n ’ont pas et, selon tout vraisem­ blance, n ’o nt jamais eu

Autrement dit, ce type de matrice donne la probabilité que, suite à une mutation par substitution au cours de l'évolution, un acide aminé quelconque peut remplacer un autre

PALDPLDSTS PAVDFIESSS PSVNVGLSVS PAINYAASIS PAIHWECSLS PALDAYISFS PPINIPYSAS PPINLQPSKS PSIHGRWSYS PAINMSMSWS PSVNCTKSFS..

De plus, elles ont le

Figure 1 shows typical trajectories into the opinion space of a system of normal agents (1a), a system influenced by diplomats (1b) and a system influenced by auctoritates

Alignement multiple progressif : ajout des séquences en fonction de leurs distances dans l’arbre (distance  , on commence par aligner les deux plus proches .  Alignement

dynamique Needleman & Wunsch - 1970 un chemin dans la matrice à un alignement. On construit la matrice des meilleurs scores de tous les

• les listes ordonnées sont ensuite parcourues pour identifier les k-mers qui sont trouvés dans deux ou plusieurs séquences mais qui apparaissent au plus une fois dans chacun

• donc si même résultat avec deux modèles, utiliser le plus simple car la variance de la distance augmente avec le nombre de paramètres. • application de la correction Gamma que

• La plus grande valeur V(i,j) est le score du meilleur alignement local.. Alignement

• Alignement local: Plus long chemin entre n’importe quelles arêtes (i,j) et (i’, j’) du graphe d’édition.. • Quelle mesure

global, c'est-à-dire entre les deux séquences sur toute leur longueur local, entre une séquence et une partie d’une autre séquence.. Similarité global

Les triangles ABE et ACD sont isoc` eles (BC et DE

On utilise les coordonnées barycentriques dans le repère affine (A, B, C).. Donc les points B, I, J

Q 1 : Les cotés du triangle orthique sont antiparallèles aux cotés du triangle ABC : il en résulte que les symétriques de D par rapport à AB et AC sont alignés avec E (et le pied