Les méthodes d’alignement
dans l’analyse des séquences
But d’un alignement
• Déterminer si des séquences ont divergé depuis un ancêtre commun
• Degré de similarité → homologie ?
• Nombre minimum d’opérations d’édition
(substitution, insertion, suppression) pour
transformer x en y
Exemples d’alignements
αglobine HBA_HUMAN
G S A Q VK G HGKKV AD A LTNAV AH V D DM P NALSA LS D LH AH KL G N P K VK A HGKKV LG A FSDGL AH L D NL K GTFAT LS E LH CD KL βglobine HBA_HUMAN
αglobine HBA_HUMAN
GS A QVKG H G K KV ADA L T N A VA HV DDMPN A L S A L SDL H A H K L NN P ELQA H A G KV FKL V Y E A AI QL QVTGVVVTDA T L K N L GSV H V S K G leghamoglobine lapin LGB2_LUPLU
αglobine HBA_HUMAN
GS A Q V K G H G KKV A D A L TN AV A H V D D M PN A L S AL S D LH AH K L
GS G Y L V G D S LTF V D L L VA Q H T A D L LA A N A AL L D EFPQ FK AH Q E
Nématode Stransférase F11G11.2
Méthodologie
• Quel type d’alignement ?
• Quel score ?
• Quel algorithme ?
• Quelle méthode statistique ?
Quel type d’alignement ?
x y
brêche
Global
x y
Local
Matrices de substitution
• PAM (Point Accepted Mutation) [Dayhoff et al 1978]
• BLOSUM (Blocks Substitution Matrices) [Henikoff & Henikoff 1992]
• autres
PAM 250
C 12 S 0 2 T 2 1 3 P 3 1 0 6 A 2 1 1 1 2 G 3 1 0 1 1 5 N 4 1 0 1 0 0 2 D 5 0 0 1 0 1 2 4 E 5 0 0 1 0 0 1 3 4 Q 5 1 1 0 0 1 1 2 2 4 H 3 1 1 0 1 2 2 1 1 3 6 R 4 0 1 0 2 3 0 1 1 1 2 6 K 5 0 0 1 1 2 1 0 0 1 0 3 5 M 5 2 1 2 1 3 2 3 2 1 2 0 0 6 I 2 1 0 2 1 3 2 2 2 2 2 2 2 2 5 L 6 3 2 3 2 4 3 4 3 2 2 3 3 4 2 6 V 2 1 0 1 0 1 2 2 2 2 2 2 2 2 4 2 4 F 4 3 3 5 4 5 4 6 5 5 2 4 5 0 1 2 1 9 Y 0 3 3 5 3 5 2 4 4 4 0 4 4 2 1 1 2 7 10 W 5 2 5 6 6 7 4 7 7 5 3 2 3 4 5 2 6 0 0 17 C S T P A G N D E Q H R K M I L V F Y W
Définition
Un alignement de x, y ∈ A* est un mot w sur l’alphabet
(A ∪ {}) × (A ∪ {}) – {(,)}
tel que Π 1 (w) = x et Π 2 (w) = y
Exemple
x = ACTGC et y = ACGTC
w = (A,A) (C,C) (T,) (G,G) (,T) (C,C)
w = ( ) ( ) ( ) ( ) ( ) ( )
w = ( )
A A C
C T
G
G
T C
C A C T G C
A C – G T C
Tracé ou « dotplot »
A
G T C A
C
C G T C
Tracé ou « dotplot »
x
y
Score d’un alignement
score(w) = Σ score(w[i])
score(a, b) est indépendant des positions de a et b
i = 0
|w| 1
score ou distance ?
non oui
local
oui oui
global
oui inégalité non
triangulaire
oui non
f(a,a) = f(b,b)
distance
score
Coût des brêches
• constant br( ℓ ) = c
• linéaire br( ℓ ) = e × ℓ
• affine br( ℓ ) = g + h × ( ℓ 1)
• concave
• autres
coût d’ouverture coût d’extension