• Aucun résultat trouvé

Alignement de génomes

N/A
N/A
Protected

Academic year: 2022

Partager "Alignement de génomes"

Copied!
7
0
0

Texte intégral

(1)

Alignement de génomes

(2)

MUMmer (1999)

• Utilise l’arbre des suffixe.

• Basé sur le principe de « Maximum Unique Match » (MUM).

Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que

- Il est maximal, i.e. ne peut pas être étendu à droite ou à gauche

- Il est unique dans les deux séquences.

(3)

Exemple de MUM

d=3

S: a c g a c t c a g c t a c t g g t c a c g t a t t a c t t a c c g c

T: a c g t c t c t g c t a c g g t c a c g t a t t c a c t t a c c g c

- “agc” pas un MUM car pas unique

- “ggt” pas un MUM car pas maximal.

(4)

Recherche des MUM

• Construire l’arbre des suffixes généralisé pour S et T, étiqueter les arêtes par leur profondeur en

caractère, et les feuilles par leur caractère gauche;

• Marquer les nœuds internes ayant exactement deux enfants, tels que ces enfants sont deux

feuilles, l’une dans S et l’autre dans T, et qui ont des caractères gauches différents;

• Les MUM sont les étiquettes des chemins de la

racine aux nœuds marqués.

(5)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø) c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

#

7 (a)

(6)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

$ t a t c 2 (a)

[2]

[1]

$ t a t c 3 (c)

[3]

$ t 4 (t)

$ t

[2]

5 (c) [1]

t $

6 (t) 7 (a)$

[3]

(7)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

$ t a t c 2 (a)

[2]

[1]

$ t a t c 3 (c)

[3]

$ t 4 (t)

$ t

[2]

5 (c) [1]

t $

6 (t) 7 (a)$

[3]

Références

Documents relatifs

Une biscuiterie artisanale produit chaque jour 1472 galettes et 1196 palets bretons. Elle souhaite vendre des boîtes contenant un assortiment de galettes et de palets de

• les listes ordonnées sont ensuite parcourues pour identifier les k-mers qui sont trouvés dans deux ou plusieurs séquences mais qui apparaissent au plus une fois dans chacun

• n’identifie pas les ARNt dont la structure n’est pas canonique (structure secondaire avec des bulges, bras T-Y-C de 8 …) dont les ARNt sélénocystéine qui ont, entre autre,

UNIVERSITE PIERRE ET

tRNAscan-SE (Lowe and Eddy, Nucleic Acids Res.,25, 955-64 (1997)) qui s’appuie sur deux méthodes existantes (tRNAscan et EufindtRNA ( Pavesi al., Nucleic Acids Res., 22, 1247-56

Pour certains k mers rares même avec un grand jeu d’apprentissage comme un génome entier, il peut être difficile d’obtenir des estimations précises et inversement certains k

MAUVE évite ce problème en utilisant des « Multiple Maximal Unique Matches » (multi-MUMs) de longueur minimum k comme ancres, c’est-à-dire des régions qui sont trouvées

• Utilisation d’une heuristique pour fournir l’alignement final entre les deux séquences (alignement local qui va renvoyer les deux sous-régions les plus conservées entre