• Aucun résultat trouvé

Alignement de génomes

N/A
N/A
Protected

Academic year: 2022

Partager "Alignement de génomes"

Copied!
7
0
0

Texte intégral

(1)

Alignement de génomes

(2)

MUMmer (1999)

• Utilise l’arbre des suffixe.

• Basé sur le principe de « Maximum Unique Match » (MUM).

Étant donné deux génomes A et B, un MUM est un facteur commun de A et B de longueur dépassant un certain seuil d (par défaut d=20) tel que

- Il est maximal, i.e. ne peut pas être étendu à droite ou à gauche

- Il est unique dans les deux séquences.

(3)

Exemple de MUM

d=3

S: a c g a c t c a g c t a c t g g t c a c g t a t t a c t t a c c g c

T: a c g t c t c t g c t a c g g t c a c g t a t t c a c t t a c c g c

- “agc” pas un MUM car pas unique

- “ggt” pas un MUM car pas maximal.

(4)

Recherche des MUM

• Construire l’arbre des suffixes généralisé pour S et T, étiqueter les arêtes par leur profondeur en

caractère, et les feuilles par leur caractère gauche;

• Marquer les nœuds internes ayant exactement deux enfants, tels que ces enfants sont deux

feuilles, l’une dans S et l’autre dans T, et qui ont des caractères gauches différents;

• Les MUM sont les étiquettes des chemins de la

racine aux nœuds marqués.

(5)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø) c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

#

7 (a)

(6)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

$ t a t c 2 (a)

[2]

[1]

$ t a t c 3 (c)

[3]

$ t 4 (t)

$ t

[2]

5 (c) [1]

t $

6 (t) 7 (a)$

[3]

(7)

S: a c a c t a c # T: a c t c t a t $ d = 2

a c [2] a c t a c # 1 2 3 4 5 6 7

1 (Ø)

c a c t a c #

2 (a)

t a c #

3 (c)

# c a t 4 (a)

# c a t 5 (c)

[1]

6 (t)

#

#

7 (a)

1 2 3 4 5 6 7

c t a t $

1 (Ø)

$ t a t c 2 (a)

[2]

[1]

$ t a t c 3 (c)

[3]

$ t 4 (t)

$ t

[2]

5 (c) [1]

t $

6 (t) 7 (a)$

[3]

Références

Documents relatifs

Une biscuiterie artisanale produit chaque jour 1472 galettes et 1196 palets bretons. Elle souhaite vendre des boîtes contenant un assortiment de galettes et de palets de

UNIVERSITE PIERRE ET

tRNAscan-SE (Lowe and Eddy, Nucleic Acids Res.,25, 955-64 (1997)) qui s’appuie sur deux méthodes existantes (tRNAscan et EufindtRNA ( Pavesi al., Nucleic Acids Res., 22, 1247-56

Pour certains k mers rares même avec un grand jeu d’apprentissage comme un génome entier, il peut être difficile d’obtenir des estimations précises et inversement certains k

MAUVE évite ce problème en utilisant des « Multiple Maximal Unique Matches » (multi-MUMs) de longueur minimum k comme ancres, c’est-à-dire des régions qui sont trouvées

• Utilisation d’une heuristique pour fournir l’alignement final entre les deux séquences (alignement local qui va renvoyer les deux sous-régions les plus conservées entre

• les listes ordonnées sont ensuite parcourues pour identifier les k-mers qui sont trouvés dans deux ou plusieurs séquences mais qui apparaissent au plus une fois dans chacun

• n’identifie pas les ARNt dont la structure n’est pas canonique (structure secondaire avec des bulges, bras T-Y-C de 8 …) dont les ARNt sélénocystéine qui ont, entre autre,