• Aucun résultat trouvé

Alignement de génomes

N/A
N/A
Protected

Academic year: 2022

Partager "Alignement de génomes"

Copied!
9
0
0

Texte intégral

(1)

Alignement de génomes

(2)

MUMmer (1999)

• Utilise l’arbre des suffixe.

• Basé sur le principe de « Maximum Unique Match » (MUM).

Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que

- Il est maximal, i.e. ne peut pas être étendu à droite ou à gauche

- Il est unique dans les deux séquences.

(3)

Exemple de MUM

d=3

S: a c g a c t c a g c t a c t g g t c a c g t a t t a c t t a c c g c

T: a c g t c t c t g c t a c g g t c a c g t a t t c a c t t a c c g c

- “agc” pas un MUM car pas unique

- “ggt” pas un MUM car pas maximal.

(4)

Recherche des MUM

• Construire l’arbre des suffixes généralisé pour S et T, étiqueter les arêtes par leur profondeur en

caractère, et les feuilles par leur caractère gauche;

• Marquer les nœuds internes ayant exactement deux enfants, tels que ces enfants sont deux

feuilles, l’une dans S et l’autre dans T, et qui ont des caractères gauches différents;

• Les MUM sont les étiquettes des chemins de la

racine aux nœuds marqués.

(5)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c #

1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

5 (c)

[1]

6 (t)

#

#

7 (a)

(6)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c #

1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

5 (c)

[1]

6 (t)

#

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

2 (a)

[2]

[1]

3 (c)

[3]

4 (t)

[2]

5 (c) [1]

t $

6 (t) 7 (a)

[3]

(7)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c #

1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

5 (c)

[1]

6 (t)

#

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

2 (a)

[2]

[1]

3 (c)

[3]

4 (t)

[2]

5 (c) [1]

t $

6 (t) 7 (a)

[3]

(8)

Alignement de l’homme et de la souris par BLASTZ (Schwartz et al. 2003)

1. Supprimer les répétitions propre à chaque espèce

2. Trouver tous les 12-mers espacés identiques, à une ``transition’’ près, dans les deux génomes.

1. Étendre chaque paire de 12-mers dans les deux directions (sans gaps), jusqu’à ce que le score chute en dessous d’un certain seuil

2. Si l’alignement (sans gaps) trouvé dépasse un seuil (disons 300)

1. Étendre l’alignement en autorisant les gaps (programmation dyn.) 2. Garder l’alignement si le score dépasse un seuil (disons 5000)

3. Entre chaque paire d’alignements, refaire l’étape 2. avec des scores moins contraignants. Par exemple, 7-mers (match exact), seuils plus faibles (par exemple 2000 avec et sans gaps)

4. Rétablir les vraies positions des alignements trouvés (étape 1.)

(9)

BLASTZ: Paramètres utilisés

• Matrice de substitution:

• Gap de taille k pénalisé par un poids de 400+30k

• Score d’un alignement multiplié par une valeur entre 0 et 1 en fonction de la nature des séquences (biais des nucléotides)

Les seuils doivent être très élevés pour atteindre une spécificité raisonnable (au moins 3000 pour les alignements avant gap)

12-mers espacé (19 positions): 1110100110010101111 (Ma et.al 2002)

Autoriser une transition: (A-G, G-A, C-T, T-C)

A C G T A 91 -114 -31 -123 C -114 100 -125 -31 G -31 -125 -100 -114 T -123 -31 -114 91

Références

Documents relatifs

– choisir une paire de séquences de score max, tq exactement une des séquences est dans l’alignement partiel obtenu. – Aligner la nouvelle séquence avec la matrice consensus

• La plus grande valeur V(i,j) est le score du meilleur alignement local.. Alignement

• Alignement local: Plus long chemin entre n’importe quelles arêtes (i,j) et (i’, j’) du graphe d’édition.. • Quelle mesure

Pour des distances évolutives plus grandes, les probabilités de substitution des acides aminés les uns envers les autres sont estimées et non calculées directement en comparant

Famille de matrices correspondant à différentes distances évolutives entre les séquences : PAM120 et BLOSUM80 : estimation des fréquences de substitution entre acides aminés pour

• les listes ordonnées sont ensuite parcourues pour identifier les k-mers qui sont trouvés dans deux ou plusieurs séquences mais qui apparaissent au plus une fois dans chacun

• donc si même résultat avec deux modèles, utiliser le plus simple car la variance de la distance augmente avec le nombre de paramètres. • application de la correction Gamma que