Statistiques et séquences
Phase 0 Phase 1 Phase 2
p
-
Document écrit chap. 5
Introduction
Utilisation prédictive des biais statistiques Modélisation des séquences par des
chaines de Markov
Modèles de Markov cachés, ou “HMM”
Séquence de dinosaure
● La séquence de Jurassic Park estelle crédible?
● Comment pouvezvous, bioinformaticiens, détecter une supercherie ou une erreur?
● Comment faire pour fabriquer de toutes pièces une séquence crédible?
● Quelles sont les applications de ce type d'analyse?
Les séquences biologiques sontelles aléatoires?
● Il existe des biais dans la distribution des nucléotides
● Ces biais reflètent une histoire évolutive, mélange de pressions sélectives systématiques et de hasard
● Ils peuvent être utilisés à des fins prédictives
Les nucléotides ne sont pas équidistribués
TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA
Plasmodium falciparum
CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC
Streptomyces Griseus
Les nucléotides ne sont pas équidistribués
TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA
Plasmodium falciparum
CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC
Streptomyces griseus
Fréquence des nucléotides
Sur un génome complet, on peut calculer la fréquence de chaque nucléotide sur l'ensemble des deux brins d'ADN.
Les règles d'appariement WatsonCrick imposent : fA = fT et fG = fC
Il y a donc une seule fréquence indépendante, par exemple fG+C = fG + fC On parle de taux de G+C d'un génome.
Il y a équidistribution ssi fG + fC = 50%
Contenu en G+C des génomes
Streptomyces B pertussis M leprae E coli H sapiens L lactis A thaliana M genitalium C botulinium P falciparum
10 20 30 40 50 60 70 80
% (G+C)
Distribution des acides aminés dans les protéines
alanine 8.3 leucine 9.0
asparagine 4.4 lysine 5.7
aspartate 5.3 méthionine 2.4 arginine 5.7 phénylalanine 3.9
cystéine 1.7 proline 5.1
glutamine 4.0 serine 6.9
glutamate 6.2 tryptophane 1.3
glycine 7.2 tyrosine 3.2
histidine 2.2 thréonine 5.8
isoleucine 5.2 valine 6.6
En %
Les fréquences sont à peu près les mêmes dans les différents organismes.
Biais d'ordres plus élevés
Analyse de la fréquence des nuplets
Soit un nuplet de nucléotides (consécutifs) X1X2...Xn Si fX1X2...Xn > fX1 fX2 ... fXn nuplet surreprésenté Si fX1X2...Xn < fX1 fX2 ... fXn nuplet sousreprésenté Si fX1X2...Xn = fX1 fX2 ... fXn neutre
Fréquence des dinucléotides
Distribution de la fréquence
des di-nucléotides XpY dans des segments génomiques de 50 kb.
Fréquences normalisées: fXY/fX fY
Gentles & Karlin (2001) Genome Res 11:540
Fréquence des dinucléotides
CpG est sous-représenté chez les vertébrés
Distribution de la fréquence
des di-nucléotides XpY dans des segments génomiques de 50 kb.
Fréquences normalisées: fXY/fX fY
Gentles & Karlin (2001) Genome Res. 11:540
Un mécanisme d'élimination des séquences CpG chez les vertébrés
N NH2
O N
N O
O NH
Dans l'ADN, les cytosines sont sensibles à l'oxidation.
Les désoxi-uridines résultantes sont réparées par une machinerie spécialisée.
cytosine uridine
C G
U
G G
C G oxidation excision réparation
oxidation
N NH2
O N
N O
O NH
Dans les séquences CpG vertébrés, le C est souvent méthylé (70% du génome).
La réparation peut alors causer une mutation; d'où une disparition progessive.
5-méthyl-cytosine thymidine
CG GC
oxidation excision réparation TG
GC TG
C G
GC
TG AC CG GC
Un mécanisme d'élimination des
séquences CpG chez les vertébrés
Les biais les plus importants sont ceux d'ordre 3
Ils se manifestent dans les régions codantes.
Ils résultent de la structure du code génétique,
qui utilise des triplets de nucléotides.
Les contraintes sur la composition des protéines se répercutent sur les parties codantes de l'ADN
Codons STOP systématiquement évités quand ils sont dans la phase de lecture, sur le brin codant.
Fréquences particulières des différents acides aminés.
Par exemple: 1.3% de Trp 1.3% de codons TGG 2.4% de Met 2.4% de codons ATG
Le code génétique est dégénéré
61 codons “sens” pour 20 acides aminés
La cellule exprime des préférences entre les différents codons synonymes
Ces préférences sont spécifiques de chaque espèce
Fréquence des codons (
0/
00)
E coli
H sapiens
TTT : Phe 19 TCT : Ser 10 TAT : Tyr 15 TGT : Cys 6 TTC : Phe 18 TCC : Ser 10 TAC : Tyr 14 TGC : Cys 5 TTA : Leu 10 TCA : Ser 6 TAA : Stop TGA : Stop TTG : Leu 11 TCG : Ser 8 TAG : Stop TGG : Trp 13 CTT : Leu 10 CCT : Pro 6 CAT : His 11 CGT : Arg 25 CTC : Leu 10 CCC : Pro 4 CAC : His 11 CGC : Arg 22 CTA : Leu 3 CCA : Pro 8 CAA : Gln 13 CGA : Arg 3 CTG : Leu 55 CCG : Pro 24 CAG : Gln 30 CGT : Arg 4 ATT : Ile 27 ACT : Thr 11 AAT : Asn 16 AGT : Ser 7 ATC : Ile 28 ACC : Thr 24 AAC : Asn 25 AGC : Ser 15 ATA : Ile 4 ACA : Thr 6 AAA : Lys 37 AGA : Arg 2 ATG : Met 27 ACG : Thr 12 AAG : Lys 12 AGG : Arg 1 GTT : Val 21 GCT : Ala 18 GAT : Asp 32 GGT : Gly 29 GTC : Val 14 GCC : Ala 23 GAC : Asp 23 GGC : Gly 31 GTA : Val 12 GCA : Ala 20 GAA : Glu 44 GGA : Gly 7 GTG : Val 25 GCG : Ala 33 GAG : Glu 20 GGG : Gly 9
TTT : Phe 16 TCT : Ser 13 TAT : Tyr 13 TGT : Cys 10 TTC : Phe 23 TCC : Ser 18 TAC : Tyr 19 TGC : Cys 15 TTA : Leu 5 TCA : Ser 9 TAA : Stop TGA : Stop TTG : Leu 11 TCG : Ser 4 TAG : Stop TGG : Trp 14 CTT : Leu 11 CCT : Pro 16 CAT : His 9 CGT : Arg 5 CTC : Leu 20 CCC : Pro 20 CAC : His 14 CGC : Arg 11 CTA : Leu 6 CCA : Pro 14 CAA : Gln 11 CGA : Arg 5 CTG : Leu 43 CCG : Pro 6 CAG : Gln 34 CGT : Arg 4 ATT : Ile 15 ACT : Thr 13 AAT : Asn 17 AGT : Ser 10 ATC : Ile 24 ACC : Thr 23 AAC : Asn 23 AGC : Ser 19 ATA : Ile 6 ACA : Thr 14 AAA : Lys 22 AGA : Arg 10 ATG : Met 23 ACG : Thr 7 AAG : Lys 35 AGG : Arg 11 GTT : Val 10 GCT : Ala 20 GAT : Asp 22 GGT : Gly 11 GTC : Val 16 GCC : Ala 29 GAC : Asp 29 GGC : Gly 25 GTA : Val 6 GCA : Ala 14 GAA : Glu 27 GGA : Gly 17 GTG : Val 31 GCG : Ala 7 GAG : Glu 41 GGG : Gly 17
L'usage du code génétique suit approximativement l'évolution
Xénope
Homo sapiens
Rang des codons chez H sapiens vs leur rang chez le xénope
L'usage du code génétique suit approximativement l'évolution
Drosophile
Homo sapiens
L'usage du code génétique suit approximativement l'évolution
Escherichia coli
Homo sapiens
L'évitement du dinucléotide CpG
affecte l'usage des codons chez l'homme
NCG NCA NCC NCT
0 6 12 18 24 30
Proline (CCN) Thréonine (ACN) Alanine (GCN) Sérine (TCN)
Fréquence chez H sapiens (
0/
00)
L'usage des codons est corrélé à l'abondance des ARNt isoaccepteurs
E coli data
J. Mol. Biol. (1996) 260:649 croissance
lente
croissance rapide
Le ribosome trouve le bon ARNt
par un processus d'essai et erreur
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
En cas de mauvais appariement, l'ARNt est rejeté.
Le ribosome trouve le bon ARNt
par un processus d'essai et erreur
Le ribosome trouve le bon ARNt par un processus d'essai et erreur
Le processus se répète jusqu'à l'arrivée d'un ARNt correct.
Le ribosome trouve le bon ARNt
par un processus d'essai et erreur
Le nombre moyen d'essais par codon dépend de l'abondance relative de l'ARNt recherché
<n
essais> =
[ARNt total][ARNt recherché]
En utilisant préférentiellement les codons correspondant aux
ARNt les plus abondants, la cellule augmente la vitesse de traduction
Les gènes les plus exprimés sont les “mieux adaptés”
(i.e., ils utilisent les ARNt les plus abondants)
Fréquence d'utilisation du codon optimal Nombre de molécules de protéine par cellule quelques gènes
de E coli
Le biais d'usage des codons est d'autant plus marqué que le gène est fortement traduit.
(Moyenne=635)
Utilisation prédictive des biais statistiques
Exemples de prédictions statistiques
● Classification des séquences en fonction des propriétés de la distribution des nucléotides
Régions codantes / noncodantes
Introns / exons
Prédictions des cadres de lecture
Prédictions du taux d'expression
● Détection d'erreurs
Erreurs de séquençage
Insertions / délétions
Contaminations par de l'ADN exogène
● Etudes phylogénétiques
Transfert de gènes
Une méthode de détection des régions codantes
Détection des biais de période 3 D = S S | fN,phase i fN |
N=A,C,G,T 3 phases
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
fA, phase 0 = 11/20 = 0.55 fA = 24/60 = 0.40
Une méthode de détection des régions codantes
On calcule le score D sur une fenêtre de N triplets de base (N=10 à 100)
On translate progressivement la fenêtre en traçant la valeur du score en fonction de la position du centre de la fenêtre.
D = S S | fN,phase i fN |
N=A,C,G,T 3 phases
fréquence
La distribution de probabilité de D est différente dans les régions codantes et noncodantes.
Une méthode de détection des régions codantes
Méthode indépendante de la table d'usage des codons
Niveau d'expression d'un gène
Indice d'adaptation des codons (“CAI”) pour un gène donné:
Le CAI 1 lorsque l'usage des codons est optimal Pour un gène donné, on considère tous
ses codons, i = 1, … L, et on définit wi = fcodon i / fcodon majoritaire 1
f = fréquences mesurées pour des protéines de référence fortement
exprimées
Indice = ( P wi )1/L = moyenne géométrique sur les L codons du gène
L
i
NAR '87
Exemples de CAI chez E coli
Répresseur Met bgalactosidase phosphofructokinase ARN polymérase ribosome lipoprotéine
Application: prédiction du niveau d'expression
d'un gène de fonction inconnue
Exemples de CAI chez la levure
Mesures précises et exhaustives de
l'expression des
protéines de la levure.
Nature, 2003, 425:737
Modélisation des séquences d'ADN
par des chaînes de Markov
Une séquence de dinosaure?
Taux de G+C? 60.4%
Fréquence de CpG? f
CG/f
Cf
G= 1.14
Pas très crédible...
Comment fabriquer une séquence de dinosaure crédible?
Fréquences des mono et dinucléotides chez les vertébrés:
fA = 0.30 fC = 0.21 fT = 0.29 fG = 0.21
A C G T
A 0.102 0.055 0.071 0.074
C 0.077 0.057 0.010 0.069
G 0.059 0.046 0.054 0.048
T 0.062 0.057 0.072 0.087
3' 5'
Ajouter itérativement des nucléotides en respectant ces fréquences
Générateur de séquences aléatoires
A partir de la table de fréquences, on a les probabilités conditionnelles:
p(A | C) = = fCA fC
fCA
fCA + fCC + fCG + fCT
A C G T
A 34% 18% 24% 25% 100%
C 36% 27% 5% 32% 100%
G 28% 22% 26% 23% 100%
T 22% 21% 26% 31% 100%
Y 3' X 5'
Munis d'un générateur de nombres aléatoires, nous pouvons fabriquer une pseudoséquence respectant la distribution souhaitée.
Yp(Y|X)=1p(Y|X)
Générateur de séquences aléatoires
A C G T
A C G T
ATGAGTAAGCTGAAAGAGTACAGAGT
Générateur de séquences aléatoires
A C G T
A C G T
ATGAGTAAGCTGAAAGAGTACAGAGT
Nombre tiré aléatoirement:
34
Générateur de séquences aléatoires
A C G T
A C G T
ATGAGTAAGCTGAAAGAGTACAGAGTC
Nombre tiré aléatoirement:
34
Générateur de séquences aléatoires
A C G T
A C G T
ATGAGTAAGCTGAAAGAGTACAGAGTC
Générateur de séquences aléatoires
A C G T
A C G T
ATGAGTAAGCTGAAAGAGTACAGAGTC
Nombre tiré aléatoirement:
92
Générateur de séquences aléatoires
A C G T
A C G T
ATGAGTAAGCTGAAAGAGTACAGAGTCT
Nombre tiré aléatoirement:
92
Processus ou chaîne de Markov
Chaîne de Markov
Processus aléatoire discret:
le système passe d'un état ei à un état ei+1 suivant une loi de probabilité p(ei+1| ei)
L'évolution future du système à partir de l'instant i ne dépend pas de l'histoire antérieure, mais seulement de i.
Généralisation aux biais d'ordres plus élevés:
le système passe de ei à ei+1 suivant une loi de probabilité p(ei+1| ei, ei1, ..., eik+1)
Pas de mémoire
Mémoire des k instants
antérieurs
Pour une séquence donnée, quelle est la probabilité P qu'elle soit produite par la chaîne de Markov donnée?
P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en1)
A C G T
A 34% 18% 24% 25%
C 36% 27% 5% 32%
G 28% 22% 26% 23%
T 22% 21% 26% 31%
3' 5'
P(AATG) = 0.30 × 0.34 × 0.25 × 0.26 1/151 P(CGCG) = 0.21 × 0.05 × 0.22 × 0.05 1/8658
fA = 0.30 fC = 0.21 fT = 0.28 fG = 0.21
Tests d'hypothèses a posteriori
Les cellules de mammifère en culture peuvent être contaminées par des mycoplasmes, parasites bactériens intracellulaires.
Si on extrait l'ADN de cultures contaminées, on obtient un mélange.
Après séquençage, comment reconnaître l'ADN mammifère de l'ADN mycoplasmique ?
Discrimination entre deux hypothèses: exemple 1
A C G T
A 34% 18% 24% 25%
C 36% 27% 5% 32%
G 28% 22% 26% 23%
T 22% 21% 26% 31%
3' 5'
A C G T
A 42% 15% 17% 26%
C 40% 18% 6.5% 36%
G 31% 19% 18% 32%
T 26% 14% 19% 42%
3' 5'
humain mycoplasme
S = TTCAAATAATCGTGAAATATCTT
P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en1)
Phumain(S)= 4.3 1015 Pmycoplasme(S) = 18.7 1015
Discrimination entre deux hypothèses: exemple 1
TTT : Phe 19 TCT : Ser 10 TAT : Tyr 15 TGT : Cys 6 TTC : Phe 18 TCC : Ser 10 TAC : Tyr 14 TGC : Cys 5 TTA : Leu 10 TCA : Ser 6 TAA : Stop TGA : Stop TTG : Leu 11 TCG : Ser 8 TAG : Stop TGG : Trp 13 CTT : Leu 10 CCT : Pro 6 CAT : His 11 CGT : Arg 25 CTC : Leu 10 CCC : Pro 4 CAC : His 11 CGC : Arg 22 CTA : Leu 3 CCA : Pro 8 CAA : Gln 13 CGA : Arg 3 CTG : Leu 55 CCG : Pro 24 CAG : Gln 30 CGT : Arg 4 ATT : Ile 27 ACT : Thr 11 AAT : Asn 16 AGT : Ser 7 ATC : Ile 28 ACC : Thr 24 AAC : Asn 25 AGC : Ser 15 ATA : Ile 4 ACA : Thr 6 AAA : Lys 37 AGA : Arg 2 ATG : Met 27 ACG : Thr 12 AAG : Lys 12 AGG : Arg 1 GTT : Val 21 GCT : Ala 18 GAT : Asp 32 GGT : Gly 29 GTC : Val 14 GCC : Ala 23 GAC : Asp 23 GGC : Gly 31 GTA : Val 12 GCA : Ala 20 GAA : Glu 44 GGA : Gly 7 GTG : Val 25 GCG : Ala 33 GAG : Glu 20 GGG : Gly 9
La table d'usage des codons n'est calculée que pour les triplets
en phase 0 (les codons):
P0(NN'N'')
C'est insuffisant pour construire le modèle de Markov.
Exemple 2: recherche de la phase codante
Modèle de Markov d'ordre deux: pi(ek|ek1 ek2), i=phase
ATGAGTAAGCTGAAAGAGTACAGA
p0 p1
p2
Phase 0 Phase 2 Phase 1
Fréquences des triplets
A partir des probabilités P0(NN'N'') des codons, on peut estimer les probabilités de tous les triplets dans les deux autres phases.
Exemple: TTT en phase 1: NTTTNN probabilité = P1(TTT) = P0(NTT) x P0(TNN)
= [P0(ATT)+P0(CTT)+P0(GTT)+P0(TTT)] x P0(TNN)
P1(ABC) = P0(NAB) P0(CNN) P2(ABC) = P1(NAB) P1(CNN)
ATGAGTAAGCTGAAAGAGTACAGA
P0 P1
P2
Phase 0 Phase 2 Phase 1
Construction d'un modèle de Markov complexe simulant les séquences codantes
p(ek|ek1 ek2) = pi(k)(ek|ek1 ek2)
ATGAGTAAGCTGAAAGAGTACAGA
P0 P1
P2
Phase 0 Phase 2 Phase 1
On peut maintenant construire un modèle de Markov avec une probabilité de transition ek2 ek1 e→ k
qui dépend de la phase courante i(k):
Construction d'un modèle de Markov complexe simulant les séquences codantes
Phase 0 Phase 1 Phase 2
p(ek|ek1 ek2) = pi(k)(ek|ek1 ek2)
ATGAGTAAGCTGAAAGAGTACAGA
P0 P1
P2
Phase 0 Phase 2 Phase 1
On peut maintenant construire un modèle de Markov avec une probabilité de transition ek2 ek1 e→ k
qui dépend de la phase courante i(k):
Flèches = transitions entre états
P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2,e1) p(e4|e3,e2) ... p(en|en1,en2)
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
P0 P1
P2
On peut calculer la probabilité d'une séquence sous chaque hypothèse
Exemple 2: recherche a posteriori de la phase codante
1ère hypothèse:
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
P2 P0
P1
2ème hypothèse:
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
P1 P2
P0
3ème hypothèse:
Exemple: un gène d'E coli
ATGAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGGCGAAATTCGCGCCCCAGGA AGTTCG
25 premiers codons prob(phase 0) = 1097 prob(phase 1) = 10105 prob(phase 2) = 10104
La phase correcte obtient une probabilité 107 fois supérieure à celle des deux autres.
Prédiction indépendante de la présence de codons de démarrage ou de codons stop
Probabilités que la séquence soit produite par le modèle en phase 0, 1, 2
S'il y a des erreurs de séquençage,
le problème change de nature!
Modèles de Markov cachées, ou “HMM”
Hidden Markov Models
S'il y a des erreurs de séquençage, le problème change de nature
Les erreurs de séquençage et en particulier les insertions/délétions peuvent fausser la détection des cadres ouverts de lecture
Décalages de phase Evénements rares : fréquence p 1/1000
Comment repérer et corriger les erreurs de séquençage ?
Modèle de Markov de séquence codante avec erreurs:
notion de modèle de Markov “caché”
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
L'objet: une séquence supposée codante, pouvant contenir une petite fraction d'erreurs, sous forme
d'insertions ou délétions survenues lors du séquençage Position des erreurs: inconnue
Phase de lecture: inconnue et changeante (rarement) L'objectif: décoder la séquence, donc identifier le cadre de lecture à chaque position dans la séquence
Le modèle de Markov: doit génèrer des séquences “codantes” plus une petite fraction de décalages de phase
Modèle de séquences codantes avec erreurs de phase
Phase 0 Phase 1 Phase 2
Modèle de séquences sans erreurs
Phase 0 Phase 1 Phase 2
On autorise des transitions correspondant aux erreurs de phase:
insertions/délétions (en pointillés rouges):
Phase 0 Phase 1 Phase 2
Modèle de séquences sans erreurs
Modèle de séquences avec erreurs
p
p
Modèle de séquences codantes avec erreurs de phase
Modèle de séquences avec erreurs de phase
On autorise des transitions correspondant aux erreurs de phase (pointillés):
Ce modèle permet de générer des séquences, mais pas de calculer des probabilités a posteriori.
En effet, pour un nucléotide donné dans une séquence analysée, il y a 3 états possibles de la chaîne de Markov (phases 0, 1, 2).
En pratique, on ne “voit” pas l'état détaillé de la chaîne de Markov, seulement le nucléotide produit...
Modèle de Markov caché ou “HMM”
Phase 0 Phase 1 Phase 2
p
p
Modèle de Markov caché
Connaitre la phase codante à chaque position
Phase 0 Phase 1 Phase 2
p
p
Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:
Modèle de Markov caché
Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:
A chaque étape du processus de Markov, on va 1) changer de phase ou non
2) produire un nucléotide
Vocabulaire: on dit que le nucléotide est “émis”;
à chaque état du modèle correspond une distribution
de probabilité pour la production (l'émission) des nucléotides
Phase 0 Phase 1 Phase 2
p
p
Modèle de Markov caché
Connaitre la phase codante à chaque position Pour une séquence de longueur n, il y a 3n parcours possibles!
Heureusement, il y a....
Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:
Phase 0 Phase 1 Phase 2
p
p
La programmation dynamique!
On cherchera le parcours le plus probable, avec une méthode récursive (simple).
ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT
Phase 0 Phase 1 Phase 2
p
p
Exemples de parcours
Séquence nucléotidique: ATGAGTAAG
phase 0 phase 1 phase 2
Un chemin qui démarre en phase 0 et avec une insertion et une délétion
ATGAG
TAAGATGAGTAAG
Un chemin qui démarre en phase 0 et sans aucune erreur de phase
Phase 0 Phase 1 Phase 2 Phase 0 etc
Exemples de parcours
Séquence nucléotidique: ATGAGTAAG
phase 0 phase 1 phase 2
Un chemin qui démarre en phase 0 et avec une insertion et une délétion
ATGAGTAAG
Un chemin qui démarre en phase 0 et sans aucune erreur de phase
Lequel des deux chemins est le plus probable? Facile.
Parmi les 39 = 19683 chemins possibles, quel est le plus probable?
Nettement plus difficile.
ATGAG
TAAGRecherche du chemin le plus probable par programmation dynamique:
algorithme de Viterbi
Pour k= 1,...,n:
On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i, avec le bon nucléotide nk émis en k:
remplissage récursif d'une table 3 x n
phase 0 phase 1 phase 2
P(1,k)
Recherche du chemin le plus probable par programmation dynamique:
algorithme de Viterbi
Pour k= 1,...,n:
On calcule la probabilité P(i,k) du meilleur chemin de 1 à k, se terminant dans la phase i (i=0, 1, ou 2):
P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]
j=0,1,2
On a la relation récursive:
probabilité de transition+émission en supposant une phase j en k1 et une phase i en k:
pj,i(ek|ek1,ek2) = p(j i) → x pi(ek|ek1,ek2) transition émission ( ou 12) (dépend de i)
Recherche du chemin le plus probable par programmation dynamique:
algorithme de Viterbi
probabilité en supposant une phase j en k1
et une phase i en k
On a la relation récursive:
i=0 i=1 i=2
k1 k
Si i = j+1 [3], transition standard;
sinon, pj,i =
P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]
j=0,1,2
Algorithme de Viterbi
Pour k = 1,...,n:
On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i:
Remplissage d'une table P de dimensions 3 × n :
phase 0 p0(n0)
phase 1 p1(n0)
phase 2 p2(n0)
initialisation
P(i,k) = max [ P(j,k1) pj,i(ek|ek1,ek2) ]
j=0,1,2
0 1 2 ...
ATTAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGG CGAAATTCGCGCCCCAGGAAGTTCGCTTAACAGGTCTGGAAGGCGAGCAG CTTGGTATTGTGAGTCTGAGAGAAGCTCTGGAGAAAGCAGAAGAAGCCGG AGTAGACTTAGTCGAGATCAGCCTAACGCCGAGCCGCCGGTTTGTCGTAT
phase 0 phase 1 phase 2
n Probabilité maximale
sauts de phase
Algorithme de Viterbi
Pour simplifier le dessin, on ne montre la phase que pour une base sur 3.
Exemple: une portion du gène infC de E. coli
en gris: résultat expérimental; souligné: prédiction de Viterbi
délétion délétion
Ingrédients utilisés:
la table d'utilisation des codons d'E. coli
une valeur pour la probabilité p de saut de phase Grandeurs intermédiaires:
les tables de fréquence Pi des trinucléotides dans les 3 phases i possibles
les probabilités pj,i(ek|ek1,ek2)
Relation de récursion et initialisation: simples
Phase 0 Phase 1 Phase 2
p
p
Les HMM ont de très nombreuses applications
Cf chap 5 du livre de cours
Martin et al, BMC Struct Biol, 2006
Les HMM ont de très nombreuses applications
Pour en savoir (beaucoup) plus:
Biological sequence analysis:
probabilistic models of proteins and nucleic acids R Durbin, S Eddy, A Krogh, G Mitchison
● Alignements de séquences
● Recherche de gènes
● Classification de protéines
● Phylogénie
Cf chap 5 du livre de cours
X
Y M
p q
1-p
1-2q q 1-p p