Alignement de génomes

(1)

Alignement de génomes

(2)

MUMmer (1999)

• Utilise l’arbre des suffixe.

• Basé sur le principe de « Maximum Unique Match » (MUM).

Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que

- Il est maximal, i.e. ne peut pas être étendu à droite ou à gauche

- Il est unique dans les deux séquences.

(3)

Exemple de MUM

d=3

S: a c g a c t c a g c t a c t g g t c a c g t a t t a c t t a c c g c

T: a c g t c t c t g c t a c g g t c a c g t a t t c a c t t a c c g c

- “agc” pas un MUM car pas unique

- “ggt” pas un MUM car pas maximal.

(4)

Recherche des MUM

• Construire l’arbre des suffixes généralisé pour S et T, étiqueter les arêtes par leur profondeur en

caractère, et les feuilles par leur caractère gauche;

• Marquer les nœuds internes ayant exactement deux enfants, tels que ces enfants sont deux

feuilles, l’une dans S et l’autre dans T, et qui ont des caractères gauches différents;

• Les MUM sont les étiquettes des chemins de la

racine aux nœuds marqués.

(5)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c #

1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

5 (c)

[1]

6 (t)

#

7 (a)

(6)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c #

1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

5 (c)

[1]

6 (t)

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

2 (a)

[2]

[1]

3 (c)

[3]

4 (t)

[2]

5 (c) [1]

t $

6 (t) 7 (a)

[3]

(7)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c #

1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

5 (c)

[1]

6 (t)

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

2 (a)

[2]

[1]

3 (c)

[3]

4 (t)

[2]

5 (c) [1]

t $

6 (t) 7 (a)

[3]

(8)

Alignement de l’homme et de la souris par BLASTZ (Schwartz et al. 2003)

1. Supprimer les répétitions propre à chaque espèce

2. Trouver tous les 12-mers espacés identiques, à une ``transition’’ près, dans les deux génomes.

1. Étendre chaque paire de 12-mers dans les deux directions (sans gaps), jusqu’à ce que le score chute en dessous d’un certain seuil

2. Si l’alignement (sans gaps) trouvé dépasse un seuil (disons 300)

1. Étendre l’alignement en autorisant les gaps (programmation dyn.) 2. Garder l’alignement si le score dépasse un seuil (disons 5000)

3. Entre chaque paire d’alignements, refaire l’étape 2. avec des scores moins contraignants. Par exemple, 7-mers (match exact), seuils plus faibles (par exemple 2000 avec et sans gaps)

4. Rétablir les vraies positions des alignements trouvés (étape 1.)

(9)

BLASTZ: Paramètres utilisés

• Matrice de substitution:

• Gap de taille k pénalisé par un poids de 400+30k

• Score d’un alignement multiplié par une valeur entre 0 et 1 en fonction de la nature des séquences (biais des nucléotides)

• Les seuils doivent être très élevés pour atteindre une spécificité raisonnable (au moins 3000 pour les alignements avant gap)

• 12-mers espacé (19 positions): 1110100110010101111 (Ma et.al 2002)

• Autoriser une transition: (A-G, G-A, C-T, T-C)

A C G T A 91 -114 -31 -123 C -114 100 -125 -31 G -31 -125 -100 -114 T -123 -31 -114 91