Alignement de génomes
MUMmer (1999)
• Utilise l’arbre des suffixe.
• Basé sur le principe de « Maximum Unique Match » (MUM).
Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que
- Il est maximal, i.e. ne peut pas être étendu à droite ou à gauche
- Il est unique dans les deux séquences.
Exemple de MUM
d=3
S: a c g a c t c a g c t a c t g g t c a c g t a t t a c t t a c c g c
T: a c g t c t c t g c t a c g g t c a c g t a t t c a c t t a c c g c
- “agc” pas un MUM car pas unique
- “ggt” pas un MUM car pas maximal.
Recherche des MUM
• Construire l’arbre des suffixes généralisé pour S et T, étiqueter les arêtes par leur profondeur en
caractère, et les feuilles par leur caractère gauche;
• Marquer les nœuds internes ayant exactement deux enfants, tels que ces enfants sont deux
feuilles, l’une dans S et l’autre dans T, et qui ont des caractères gauches différents;
• Les MUM sont les étiquettes des chemins de la
racine aux nœuds marqués.
S: a c a c t a c # T: a c t c t a t $ d = 2
a c [2] a c t a c # 1 2 3 4 5 6 7
1 (Ø) c a c t a c #
2 (a)
t a c #
3 (c)
# c a t 4 (a)
# c a t 5 (c)
[1]
6 (t)
#
#
7 (a)
S: a c a c t a c # T: a c t c t a t $ d = 2
a c [2] a c t a c # 1 2 3 4 5 6 7
1 (Ø)
c a c t a c #
2 (a)
t a c #
3 (c)
# c a t 4 (a)
# c a t 5 (c)
[1]
6 (t)
#
#
7 (a)
1 2 3 4 5 6 7
c t a t $
1 (Ø)
$ t a t c 2 (a)
[2]
[1]
$ t a t c 3 (c)
[3]
$ t 4 (t)
$ t
[2]
5 (c) [1]
t $
6 (t) 7 (a)$
[3]
S: a c a c t a c # T: a c t c t a t $ d = 2
a c [2] a c t a c # 1 2 3 4 5 6 7
1 (Ø)
c a c t a c #
2 (a)
t a c #
3 (c)
# c a t 4 (a)
# c a t 5 (c)
[1]
6 (t)
#
#
7 (a)
1 2 3 4 5 6 7
c t a t $
1 (Ø)
$ t a t c 2 (a)
[2]
[1]
$ t a t c 3 (c)
[3]
$ t 4 (t)
$ t
[2]
5 (c) [1]
t $
6 (t) 7 (a)$
[3]