Alignement de génomes

(1)

Alignement de génomes

(2)

MUMmer (1999)

• Utilise l’arbre des suffixe.

• Basé sur le principe de « Maximum Unique Match » (MUM).

Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que

- Il est maximal, i.e. ne peut pas être étendu à droite ou à gauche

- Il est unique dans les deux séquences.

(3)

Exemple de MUM

d=3

S: a c g a c t c a g c t a c t g g t c a c g t a t t a c t t a c c g c

T: a c g t c t c t g c t a c g g t c a c g t a t t c a c t t a c c g c

- “agc” pas un MUM car pas unique

- “ggt” pas un MUM car pas maximal.

(4)

Recherche des MUM

• Construire l’arbre des suffixes généralisé pour S et T, étiqueter les arêtes par leur profondeur en

caractère, et les feuilles par leur caractère gauche;

• Marquer les nœuds internes ayant exactement deux enfants, tels que ces enfants sont deux

feuilles, l’une dans S et l’autre dans T, et qui ont des caractères gauches différents;

• Les MUM sont les étiquettes des chemins de la

racine aux nœuds marqués.

(5)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø) c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

7 (a)

(6)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

$ t a t c 2 (a)

[2]

[1]

$ t a t c 3 (c)

[3]

$ t 4 (t)

$ t

[2]

5 (c) [1]

t $

6 (t) 7 (a)$

[3]

(7)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

$ t a t c 2 (a)

[2]

[1]

$ t a t c 3 (c)

[3]

$ t 4 (t)

$ t

[2]

5 (c) [1]

t $

6 (t) 7 (a)$

[3]