Statistiques et séquences

(1)

Statistiques et séquences

Phase 0 Phase 1 Phase 2

p

-

Document écrit chap. 5

(2)

Introduction

Utilisation prédictive des biais statistiques Modélisation des séquences par des

chaines de Markov

Modèles de Markov cachés, ou “HMM”

(3)

(4)

Séquence de dinosaure

● La séquence de Jurassic Park estelle crédible?

● Comment pouvezvous, bioinformaticiens, détecter une supercherie ou une erreur?

● Comment faire pour fabriquer de toutes pièces une séquence crédible?

● Quelles sont les applications de ce type d'analyse?

(5)

Les séquences biologiques sontelles aléatoires?

● Il existe des biais dans la distribution des nucléotides

● Ces biais reflètent une histoire évolutive, mélange de pressions sélectives systématiques et de hasard

● Ils peuvent être utilisés à des fins prédictives

(6)

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces Griseus

(7)

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces griseus

(8)

Fréquence des nucléotides

Sur un génome complet, on peut calculer la fréquence de chaque nucléotide sur l'ensemble des deux brins d'ADN.

Les règles d'appariement WatsonCrick imposent : f_A = f_T et f_G = f_C

Il y a donc une seule fréquence indépendante, par exemple f_G+C = f_G + f_C On parle de taux de G+C d'un génome.

Il y a équidistribution ssi f_G + f_C = 50%

(9)

Contenu en G+C des génomes

Streptomyces B pertussis M leprae E coli H sapiens L lactis A thaliana M genitalium C botulinium P falciparum

10 20 30 40 50 60 70 80

% (G+C)

(10)

Distribution des acides aminés dans les protéines

alanine 8.3 leucine 9.0

asparagine 4.4 lysine 5.7

aspartate 5.3 méthionine 2.4 arginine 5.7 phénylalanine 3.9

cystéine 1.7 proline 5.1

glutamine 4.0 serine 6.9

glutamate 6.2 tryptophane 1.3

glycine 7.2 tyrosine 3.2

histidine 2.2 thréonine 5.8

isoleucine 5.2 valine 6.6

En %

Les fréquences sont à peu près les mêmes dans les différents organismes.

(11)

Biais d'ordres plus élevés

Analyse de la fréquence des nuplets

Soit un nuplet de nucléotides (consécutifs) X₁X₂...X_n Si f_X₁_X₂_...X_n > f_X₁ f_X₂ ... f_X_n nuplet surreprésenté Si f_X₁_X₂_...X_n < f_X₁ f_X₂ ... f_X_n nuplet sousreprésenté Si f_X₁_X₂_...X_n = f_X₁ f_X₂ ... f_X_n neutre

(12)

Fréquence des dinucléotides

Distribution de la fréquence

des di-nucléotides XpY dans des segments génomiques de 50 kb.

Fréquences normalisées: f_XY/f_X f_Y

Gentles & Karlin (2001) Genome Res 11:540

(13)

Fréquence des dinucléotides

CpG est sous-représenté chez les vertébrés

Distribution de la fréquence

des di-nucléotides XpY dans des segments génomiques de 50 kb.

Fréquences normalisées: f_XY/f_X f_Y

Gentles & Karlin (2001) Genome Res. 11:540

(14)

Un mécanisme d'élimination des séquences CpG chez les vertébrés

N NH₂

O N

N O

O NH

Dans l'ADN, les cytosines sont sensibles à l'oxidation.

Les désoxi-uridines résultantes sont réparées par une machinerie spécialisée.

cytosine uridine

C G

U

G G

C G oxidation excision réparation

oxidation

(15)

N NH₂

O N

N O

O NH

Dans les séquences CpG vertébrés, le C est souvent méthylé (70% du génome).

La réparation peut alors causer une mutation; d'où une disparition progessive.

5-méthyl-cytosine thymidine

CG GC

oxidation excision réparation TG

GC TG

C G

GC

TG AC CG GC

Un mécanisme d'élimination des

séquences CpG chez les vertébrés

(16)

Les biais les plus importants sont ceux d'ordre 3

Ils se manifestent dans les régions codantes.

Ils résultent de la structure du code génétique,

qui utilise des triplets de nucléotides.

(17)

Les contraintes sur la composition des protéines se répercutent sur les parties codantes de l'ADN

Codons STOP systématiquement évités quand ils sont dans la phase de lecture, sur le brin codant.

Fréquences particulières des différents acides aminés.

Par exemple: 1.3% de Trp 1.3% de codons TGG 2.4% de Met 2.4% de codons ATG

(18)

Le code génétique est dégénéré

61 codons “sens” pour 20 acides aminés

(19)

La cellule exprime des préférences entre les différents codons synonymes

Ces préférences sont spécifiques de chaque espèce

(20)

Fréquence des codons (

⁰

/

⁰⁰

)

E coli

H sapiens

TTT : Phe 19 TCT : Ser 10 TAT : Tyr 15 TGT : Cys 6 TTC : Phe 18 TCC : Ser 10 TAC : Tyr 14 TGC : Cys 5 TTA : Leu 10 TCA : Ser 6 TAA : Stop TGA : Stop TTG : Leu 11 TCG : Ser 8 TAG : Stop TGG : Trp 13 CTT : Leu 10 CCT : Pro 6 CAT : His 11 CGT : Arg 25 CTC : Leu 10 CCC : Pro 4 CAC : His 11 CGC : Arg 22 CTA : Leu 3 CCA : Pro 8 CAA : Gln 13 CGA : Arg 3 CTG : Leu 55 CCG : Pro 24 CAG : Gln 30 CGT : Arg 4 ATT : Ile 27 ACT : Thr 11 AAT : Asn 16 AGT : Ser 7 ATC : Ile 28 ACC : Thr 24 AAC : Asn 25 AGC : Ser 15 ATA : Ile 4 ACA : Thr 6 AAA : Lys 37 AGA : Arg 2 ATG : Met 27 ACG : Thr 12 AAG : Lys 12 AGG : Arg 1 GTT : Val 21 GCT : Ala 18 GAT : Asp 32 GGT : Gly 29 GTC : Val 14 GCC : Ala 23 GAC : Asp 23 GGC : Gly 31 GTA : Val 12 GCA : Ala 20 GAA : Glu 44 GGA : Gly 7 GTG : Val 25 GCG : Ala 33 GAG : Glu 20 GGG : Gly 9

(21)

L'usage du code génétique suit approximativement l'évolution

Xénope

Homo sapiens

Rang des codons chez H sapiens vs leur rang chez le xénope

(22)

L'usage du code génétique suit approximativement l'évolution

Drosophile

Homo sapiens

(23)

L'usage du code génétique suit approximativement l'évolution

Escherichia coli

Homo sapiens

(24)

L'évitement du dinucléotide CpG

affecte l'usage des codons chez l'homme

NCG NCA NCC NCT

0 6 12 18 24 30

Proline (CCN) Thréonine (ACN) Alanine (GCN) Sérine (TCN)

Fréquence chez H sapiens (

⁰

/

⁰⁰

)

(25)

L'usage des codons est corrélé à l'abondance des ARNt isoaccepteurs

E coli data

J. Mol. Biol. (1996) 260:649 croissance

lente

croissance rapide

(26)

Le ribosome trouve le bon ARNt

par un processus d'essai et erreur

(27)

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

En cas de mauvais appariement, l'ARNt est rejeté.

(28)

Le ribosome trouve le bon ARNt

par un processus d'essai et erreur

(29)

Le ribosome trouve le bon ARNt par un processus d'essai et erreur

Le processus se répète jusqu'à l'arrivée d'un ARNt correct.

(30)

Le ribosome trouve le bon ARNt

par un processus d'essai et erreur

(31)

Le nombre moyen d'essais par codon dépend de l'abondance relative de l'ARNt recherché

<n

_essais

> =

[ARNt total]

[ARNt recherché]

En utilisant préférentiellement les codons correspondant aux

ARNt les plus abondants, la cellule augmente la vitesse de traduction

(32)

Les gènes les plus exprimés sont les “mieux adaptés”

(i.e., ils utilisent les ARNt les plus abondants)

Fréquence d'utilisation du codon optimal Nombre de molécules de protéine par cellule quelques gènes

de E coli

Le biais d'usage des codons est d'autant plus marqué que le gène est fortement traduit.

(Moyenne=635)

(33)

Utilisation prédictive des biais statistiques

(34)

Exemples de prédictions statistiques

● Classification des séquences en fonction des propriétés de la distribution des nucléotides

Régions codantes / noncodantes

Introns / exons

Prédictions des cadres de lecture

Prédictions du taux d'expression

● Détection d'erreurs

Erreurs de séquençage

Insertions / délétions

Contaminations par de l'ADN exogène

● Etudes phylogénétiques

Transfert de gènes

(35)

Une méthode de détection des régions codantes

Détection des biais de période 3 D = S S | f_N,phase i f_N |

N=A,C,G,T 3 phases

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

f_A, phase 0 = 11/20 = 0.55 f_A = 24/60 = 0.40

(36)

Une méthode de détection des régions codantes

On calcule le score D sur une fenêtre de N triplets de base (N=10 à 100)

On translate progressivement la fenêtre en traçant la valeur du score en fonction de la position du centre de la fenêtre.

(37)

D = S S | f_N,phase i f_N |

N=A,C,G,T 3 phases

fréquence

La distribution de probabilité de D est différente dans les régions codantes et noncodantes.

Une méthode de détection des régions codantes

Méthode indépendante de la table d'usage des codons

(38)

Niveau d'expression d'un gène

Indice d'adaptation des codons (“CAI”) pour un gène donné:

Le CAI  1 lorsque l'usage des codons est optimal Pour un gène donné, on considère tous

ses codons, i = 1, … L, et on définit w_i = f_codon i / fcodon majoritaire  1

f = fréquences mesurées pour des protéines de référence fortement

exprimées

Indice = ( P w_i )^1/L = moyenne géométrique sur les L codons du gène

L

i

NAR '87

(39)

Exemples de CAI chez E coli

Répresseur Met bgalactosidase phosphofructokinase ARN polymérase ribosome lipoprotéine

Application: prédiction du niveau d'expression

d'un gène de fonction inconnue

(40)

Exemples de CAI chez la levure

Mesures précises et exhaustives de

l'expression des

protéines de la levure.

Nature, 2003, 425:737

(41)

Modélisation des séquences d'ADN

par des chaînes de Markov

(42)

Une séquence de dinosaure?

Taux de G+C? 60.4%

Fréquence de CpG? f

_CG

/f

_C

f

_G

= 1.14

Pas très crédible...

(43)

Comment fabriquer une séquence de dinosaure crédible?

Fréquences des mono et dinucléotides chez les vertébrés:

f_A = 0.30 f_C = 0.21 f_T = 0.29 f_G = 0.21

A C G T

A 0.102 0.055 0.071 0.074

C 0.077 0.057 0.010 0.069

G 0.059 0.046 0.054 0.048

T 0.062 0.057 0.072 0.087

3' 5'

Ajouter itérativement des nucléotides en respectant ces fréquences

(44)

Générateur de séquences aléatoires

A partir de la table de fréquences, on a les probabilités conditionnelles:

p(A | C) = = f_CA f_C

f_CA

f_CA + f_CC + f_CG + f_CT

A C G T

A 34% 18% 24% 25% 100%

C 36% 27% 5% 32% 100%

G 28% 22% 26% 23% 100%

T 22% 21% 26% 31% 100%

Y 3' X 5'

Munis d'un générateur de nombres aléatoires, nous pouvons fabriquer une pseudoséquence respectant la distribution souhaitée.



_Y^p(Y|X)=1

p(Y|X)

(45)

Générateur de séquences aléatoires

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGT

(46)

Générateur de séquences aléatoires

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGT

Nombre tiré aléatoirement:

34

(47)

Générateur de séquences aléatoires

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGTC

34

(48)

Générateur de séquences aléatoires

A C G T

(49)

Générateur de séquences aléatoires

A C G T

92

(50)

Générateur de séquences aléatoires

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGTCT

92

Processus ou chaîne de Markov

(51)

Chaîne de Markov

Processus aléatoire discret:

le système passe d'un état e_i à un état e_i+1 suivant une loi de probabilité p(e_i+1| e_i)

L'évolution future du système à partir de l'instant i ne dépend pas de l'histoire antérieure, mais seulement de i.

Généralisation aux biais d'ordres plus élevés:

le système passe de e_i à e_i+1 suivant une loi de probabilité p(e_i+1| e_i, e_i1, ..., e_ik+1)

Pas de mémoire

Mémoire des k instants

antérieurs

(52)

Pour une séquence donnée, quelle est la probabilité P qu'elle soit produite par la chaîne de Markov donnée?

P(e₁e₂....e_n) = p(e₁) p(e₂|e₁) p(e₃|e₂) ... p(e_n|e_n1)

A C G T

A 34% 18% 24% 25%

C 36% 27% 5% 32%

G 28% 22% 26% 23%

T 22% 21% 26% 31%

3' 5'

P(AATG) = 0.30 × 0.34 × 0.25 × 0.26  1/151 P(CGCG) = 0.21 × 0.05 × 0.22 × 0.05  1/8658

f_A = 0.30 f_C = 0.21 f_T = 0.28 f_G = 0.21

Tests d'hypothèses a posteriori

(53)

Les cellules de mammifère en culture peuvent être contaminées par des mycoplasmes, parasites bactériens intracellulaires.

Si on extrait l'ADN de cultures contaminées, on obtient un mélange.

Après séquençage, comment reconnaître l'ADN mammifère de l'ADN mycoplasmique ?

Discrimination entre deux hypothèses: exemple 1

(54)

A C G T

A 34% 18% 24% 25%

C 36% 27% 5% 32%

G 28% 22% 26% 23%

T 22% 21% 26% 31%

3' 5'

A C G T

A 42% 15% 17% 26%

C 40% 18% 6.5% 36%

G 31% 19% 18% 32%

T 26% 14% 19% 42%

3' 5'

humain mycoplasme

S = TTCAAATAATCGTGAAATATCTT

P(e₁e₂....e_n) = p(e₁) p(e₂|e₁) p(e₃|e₂) ... p(e_n|e_n1)

P_humain(S)= 4.3 10¹⁵ P_mycoplasme(S) = 18.7 10¹⁵

Discrimination entre deux hypothèses: exemple 1

(55)

La table d'usage des codons n'est calculée que pour les triplets

en phase 0 (les codons):

P₀(NN'N'')

C'est insuffisant pour construire le modèle de Markov.

Exemple 2: recherche de la phase codante

Modèle de Markov d'ordre deux: ^p_i^(e_k^|e_k1^e_k2), i=phase

ATGAGTAAGCTGAAAGAGTACAGA

p₀ p₁

p₂

(56)

Fréquences des triplets

A partir des probabilités P₀(NN'N'') des codons, on peut estimer les probabilités de tous les triplets dans les deux autres phases.

Exemple: TTT en phase 1: NTTTNN probabilité = P₁(TTT) = P₀(NTT) x P₀(TNN)

= [P₀(ATT)+P₀(CTT)+P₀(GTT)+P₀(TTT)] x P₀(TNN)

P₁(ABC) = P₀(NAB) P₀(CNN) P₂(ABC) = P₁(NAB) P₁(CNN)

P₀ P₁

P₂

(57)

Construction d'un modèle de Markov complexe simulant les séquences codantes

p(e_k|e_k1e_k2) = p_i(k)(e_k|e_k1e_k2)

P₀ P₁

P₂

On peut maintenant construire un modèle de Markov avec une probabilité de transition e_k2 e_k1 e→ _k

qui dépend de la phase courante i(k):

(58)

Construction d'un modèle de Markov complexe simulant les séquences codantes

p(e_k|e_k1e_k2) = p_i(k)(e_k|e_k1e_k2)

P₀ P₁

P₂

On peut maintenant construire un modèle de Markov avec une probabilité de transition e_k2 e_k1 e→ _k

qui dépend de la phase courante i(k):

Flèches = transitions entre états

(59)

P(e₁e₂....e_n) = p(e₁) p(e₂|e₁) p(e₃|e₂,e₁) p(e₄|e₃,e₂) ... p(e_n|e_n1,e_n2)

P₀ P₁

P₂

On peut calculer la probabilité d'une séquence sous chaque hypothèse

Exemple 2: recherche a posteriori de la phase codante

1ère hypothèse:

P₂ P₀

P₁

2ème hypothèse:

P₁ P₂

P₀

3ème hypothèse:

(60)

Exemple: un gène d'E coli

ATGAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGGCGAAATTCGCGCCCCAGGA AGTTCG

25 premiers codons prob(phase 0) = 10⁹⁷ prob(phase 1) = 10¹⁰⁵ prob(phase 2) = 10¹⁰⁴

La phase correcte obtient une probabilité 10⁷ fois supérieure à celle des deux autres.

Prédiction indépendante de la présence de codons de démarrage ou de codons stop

Probabilités que la séquence soit produite par le modèle en phase 0, 1, 2

(61)

S'il y a des erreurs de séquençage,

le problème change de nature!

(62)

Modèles de Markov cachées, ou “HMM”

Hidden Markov Models

(63)

S'il y a des erreurs de séquençage, le problème change de nature

Les erreurs de séquençage et en particulier les insertions/délétions peuvent fausser la détection des cadres ouverts de lecture

Décalages de phase Evénements rares : fréquence p  1/1000

Comment repérer et corriger les erreurs de séquençage ?

Modèle de Markov de séquence codante avec erreurs:

notion de modèle de Markov “caché”

(64)

L'objet: une séquence supposée codante, pouvant contenir une petite fraction d'erreurs, sous forme

d'insertions ou délétions survenues lors du séquençage Position des erreurs: inconnue

Phase de lecture: inconnue et changeante (rarement) L'objectif: décoder la séquence, donc identifier le cadre de lecture à chaque position dans la séquence

Le modèle de Markov: doit génèrer des séquences “codantes” plus une petite fraction de décalages de phase

(65)

Modèle de séquences codantes avec erreurs de phase

Modèle de séquences sans erreurs

(66)

On autorise des transitions correspondant aux erreurs de phase:

insertions/délétions (en pointillés rouges):

Modèle de séquences sans erreurs

Modèle de séquences avec erreurs

p



p



Modèle de séquences codantes avec erreurs de phase

(67)

Modèle de séquences avec erreurs de phase

On autorise des transitions correspondant aux erreurs de phase (pointillés):

Ce modèle permet de générer des séquences, mais pas de calculer des probabilités a posteriori.

En effet, pour un nucléotide donné dans une séquence analysée, il y a 3 états possibles de la chaîne de Markov (phases 0, 1, 2).

En pratique, on ne “voit” pas l'état détaillé de la chaîne de Markov, seulement le nucléotide produit...

Modèle de Markov caché ou “HMM”

p



p



(68)

Modèle de Markov caché

Connaitre la phase codante à chaque position

p



p



Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

(69)

Modèle de Markov caché

A chaque étape du processus de Markov, on va 1) changer de phase ou non

2) produire un nucléotide

Vocabulaire: on dit que le nucléotide est “émis”;

à chaque état du modèle correspond une distribution

de probabilité pour la production (l'émission) des nucléotides

p



p



(70)

Modèle de Markov caché

Connaitre la phase codante à chaque position Pour une séquence de longueur n, il y a 3ⁿ parcours possibles!

Heureusement, il y a....

p



p



(71)

La programmation dynamique!

On cherchera le parcours le plus probable, avec une méthode récursive (simple).

p



p



(72)

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0 phase 1 phase 2

Un chemin qui démarre en phase 0 et avec une insertion et une délétion

ATGAG

^TAAG

ATGAGTAAG

Un chemin qui démarre en phase 0 et sans aucune erreur de phase

Phase 0 Phase 1 Phase 2 Phase 0 etc

(73)

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

Un chemin qui démarre en phase 0 et avec une insertion et une délétion

ATGAGTAAG

Un chemin qui démarre en phase 0 et sans aucune erreur de phase

Lequel des deux chemins est le plus probable? Facile.

Parmi les 3⁹ = 19683 chemins possibles, quel est le plus probable?

Nettement plus difficile.

ATGAG

^TAAG

(74)

Recherche du chemin le plus probable par programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i, avec le bon nucléotide n_k émis en k:

remplissage récursif d'une table 3 x n

phase 0 phase 1 phase 2

P(1,k)

(75)

Recherche du chemin le plus probable par programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k, se terminant dans la phase i (i=0, 1, ou 2):

P(i,k) = max [ P(j,k1) p_j,i(e_k|e_k1,e_k2) ]

j=0,1,2

On a la relation récursive:

probabilité de transition+émission en supposant une phase j en k1 et une phase i en k:

p_j,i(e_k|e_k1,e_k2) = p(j i) → x p_i(e_k|e_k1,e_k2) transition émission ( ou 12) (dépend de i)

(76)

Recherche du chemin le plus probable par programmation dynamique:

algorithme de Viterbi

probabilité en supposant une phase j en k1

et une phase i en k

On a la relation récursive:

i=0 i=1 i=2

k1 k

Si i = j+1 [3], transition standard;

sinon, p_j,i = 

j=0,1,2

(77)

Algorithme de Viterbi

Pour k = 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant dans la phase i:

Remplissage d'une table P de dimensions 3 × n :

phase 0 p₀(n₀)

phase 1 p₁(n₀)

phase 2 ^p₂⁽ⁿ₀⁾

initialisation

j=0,1,2

0 1 2 ...

(78)

ATTAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGG CGAAATTCGCGCCCCAGGAAGTTCGCTTAACAGGTCTGGAAGGCGAGCAG CTTGGTATTGTGAGTCTGAGAGAAGCTCTGGAGAAAGCAGAAGAAGCCGG AGTAGACTTAGTCGAGATCAGCCTAACGCCGAGCCGCCGGTTTGTCGTAT

n Probabilité maximale

sauts de phase

Algorithme de Viterbi

Pour simplifier le dessin, on ne montre la phase que pour une base sur 3.

Exemple: une portion du gène infC de E. coli

en gris: résultat expérimental; souligné: prédiction de Viterbi

délétion délétion

(79)

Ingrédients utilisés:

la table d'utilisation des codons d'E. coli

une valeur pour la probabilité p de saut de phase Grandeurs intermédiaires:

les tables de fréquence P_i des trinucléotides dans les 3 phases i possibles

les probabilités p_j,i(e_k|e_k1,e_k2)

Relation de récursion et initialisation: simples

p



p



(80)

Les HMM ont de très nombreuses applications

Cf chap 5 du livre de cours

Martin et al, BMC Struct Biol, 2006

(81)

Les HMM ont de très nombreuses applications

Pour en savoir (beaucoup) plus:

Biological sequence analysis:

probabilistic models of proteins and nucleic acids R Durbin, S Eddy, A Krogh, G Mitchison

● Alignements de séquences

● Recherche de gènes

● Classification de protéines

● Phylogénie

Cf chap 5 du livre de cours

X

Y M

p q

1-p

1-2q q 1-p p

Statistiques et séquences