• Aucun résultat trouvé

Statistiques et séquences

N/A
N/A
Protected

Academic year: 2022

Partager "Statistiques et séquences"

Copied!
81
0
0

Texte intégral

(1)

Statistiques et séquences

Phase 0 Phase 1 Phase 2

p

-

Document écrit chap. 5 

(2)

Introduction

Utilisation prédictive des biais statistiques Modélisation des séquences par des

      chaines de Markov

Modèles de Markov cachés, ou “HMM”

(3)
(4)

Séquence de dinosaure

 La séquence de Jurassic Park est­elle crédible?

 

 Comment pouvez­vous, bioinformaticiens, détecter une  supercherie ou une erreur?

 Comment faire pour fabriquer de toutes pièces une séquence  crédible?

 Quelles sont les applications de ce type d'analyse?

(5)

Les séquences biologiques sont­elles aléatoires?

 Il existe des biais dans la distribution des nucléotides  

 Ces biais reflètent une histoire évolutive, mélange de  pressions sélectives systématiques et de hasard

 Ils peuvent être utilisés à des fins prédictives

(6)

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces Griseus

(7)

Les nucléotides ne sont pas équidistribués

TTATTATTATAATATTCTTTTTGCGTTATGGAAATATTTTTTGGGGGTATTTTAATATGT TTTTCTTTTTCATTATTTTTAGAGATATTTTCATCTATATTATAGTCCATAATATTTTTG TCGTTAATATTGTATATATGTTGAGAAGGTTCTTTTTGATTGTGTTCATTTATAAGATGA TTGATGTTTGAATCTTCCTTTTGATCATCTTGTTTTATAATATCTACATTTATATCATTT ATAGAAGTAATATCTTCTTTTTTATCATAATTGTTTTTCCTATTTTTTATGTTTGGCATA TAATTGTGTGATCCAAAACTGCGGCTAATTTTTATTTCTGTATTTTCAAAACTATTATGT TTTTCAAGTAGTTCACCAGTCTCTATTTTTTCATCATACA

Plasmodium falciparum

CGTAGAAGATCGCCTCGACCGGGCAGACCGGCTCACAGGCTCCGCAGTCGACGCACTCGT CCGAGTGGATGTACAAGGACCGCTGGCCCTCGTAGATGCAGTCGACGGGGCACTCCTCGA TGCAGGCCTTGTCCTTCACGTCGACACAAGGCTGCGCGATGACGTAGGTCACGCTGTCGT TCCTCCTCGGTAGGGCGTTGGCTCTGCCGCGGGAGCGCGGCGTCGTCGATGCCCGCCTCT AGTATCTCCGTTCTTGGGCACGATCCGAACAGGAGGGGCGGACAGAGCTGTGGAATTCAC CATCGGCGGACGGCTGGAAGTCAGCATTACCCCCGCTGACGTGGGCAAACGCGTGTCCGT TCGCCGCCGGACGGAGAGCGGTGGCACGGGCGCGCAGTTC

Streptomyces griseus

(8)

Fréquence des nucléotides

Sur un génome complet, on peut calculer la fréquence de chaque nucléotide sur l'ensemble des deux brins d'ADN. 

Les règles d'appariement Watson­Crick imposent :  fA = fT   et   fG = fC 

Il y a donc une seule fréquence indépendante, par exemple fG+C = fG + fC On parle de taux de G+C d'un génome.

Il y a équidistribution ssi fG + fC = 50%

(9)

Contenu en G+C des génomes

Streptomyces B pertussis M leprae E coli H sapiens L lactis A thaliana M genitalium C botulinium P falciparum

10         20       30      40       50      60      70      80   

% (G+C)

(10)

Distribution des acides aminés dans les protéines

alanine 8.3 leucine 9.0

asparagine 4.4 lysine 5.7

aspartate 5.3 méthionine 2.4 arginine 5.7 phénylalanine 3.9

cystéine 1.7 proline 5.1

glutamine 4.0 serine 6.9

glutamate 6.2 tryptophane 1.3

glycine 7.2 tyrosine 3.2

histidine 2.2 thréonine 5.8

isoleucine 5.2 valine 6.6

En %

Les fréquences sont à peu près les mêmes dans les différents organismes.

(11)

Biais d'ordres plus élevés

Analyse de la fréquence des n­uplets

Soit un n­uplet de nucléotides (consécutifs) X1X2...Xn  Si  fX1X2...Xn > fX1 fX2 ... fXn  n­uplet sur­représenté Si  fX1X2...Xn < fX1 fX2 ... fXn  n­uplet sous­représenté Si  fX1X2...Xn = fX1 fX2 ... fXn  neutre

(12)

Fréquence des di­nucléotides

Distribution de la fréquence

des di-nucléotides XpY dans des segments génomiques de 50 kb.

Fréquences normalisées: fXY/fX fY

Gentles & Karlin (2001) Genome Res 11:540

(13)

Fréquence des di­nucléotides

CpG est sous-représenté chez les vertébrés

Distribution de la fréquence

des di-nucléotides XpY dans des segments génomiques de 50 kb.

Fréquences normalisées: fXY/fX fY

Gentles & Karlin (2001) Genome Res. 11:540

(14)

Un mécanisme d'élimination des séquences CpG chez les vertébrés

N NH2

O N

N O

O NH

Dans l'ADN, les cytosines sont sensibles à l'oxidation.

Les désoxi-uridines résultantes sont réparées par une machinerie spécialisée.

cytosine uridine

C G

U

G G

C G oxidation excision réparation

oxidation

(15)

N NH2

O N

N O

O NH

Dans les séquences CpG vertébrés, le C est souvent méthylé (70% du génome).

La réparation peut alors causer une mutation; d'où une disparition progessive.

5-méthyl-cytosine thymidine

CG GC

oxidation excision réparation TG

GC TG

C G

GC

TG AC CG GC

Un mécanisme d'élimination des

séquences CpG chez les vertébrés

(16)

Les biais les plus importants sont ceux d'ordre 3

Ils se manifestent dans les régions codantes.

Ils résultent de la structure du code génétique,

qui utilise des triplets de nucléotides.

(17)

Les contraintes sur la composition des protéines se répercutent sur les parties codantes de l'ADN

Codons STOP systématiquement évités quand ils sont dans la phase de lecture, sur le brin codant.

Fréquences particulières des différents acides aminés.

Par exemple:  1.3% de Trp 1.3% de codons TGG      2.4% de Met 2.4% de codons ATG

(18)

Le code génétique est dégénéré

61 codons “sens” pour 20 acides aminés

(19)

La cellule exprime des préférences entre les différents codons synonymes

Ces préférences sont spécifiques de chaque espèce

(20)

Fréquence des codons (

0

/

00

)

E coli

H sapiens

TTT : Phe   19 TCT : Ser     10 TAT : Tyr   15 TGT : Cys  6 TTC : Phe   18 TCC : Ser  10  TAC : Tyr   14 TGC : Cys  5 TTA : Leu   10 TCA : Ser    6 TAA : Stop    TGA : Stop TTG : Leu   11 TCG : Ser    8 TAG : Stop  TGG : Trp 13 CTT : Leu   10 CCT : Pro    6 CAT : His   11 CGT : Arg 25 CTC : Leu   10 CCC : Pro        4 CAC : His   11 CGC : Arg 22 CTA : Leu    3 CCA : Pro    8 CAA : Gln   13 CGA : Arg  3 CTG : Leu      55 CCG : Pro   24 CAG : Gln   30 CGT : Arg  4 ATT : Ile   27 ACT : Thr   11 AAT : Asn   16 AGT : Ser  7 ATC : Ile   28 ACC : Thr   24 AAC : Asn   25 AGC : Ser 15 ATA : Ile    4 ACA : Thr    6 AAA : Lys   37 AGA : Arg  2 ATG : Met   27 ACG : Thr      12 AAG : Lys   12 AGG : Arg  1 GTT : Val   21 GCT : Ala   18 GAT : Asp   32 GGT : Gly 29 GTC : Val   14 GCC : Ala   23 GAC : Asp   23 GGC : Gly 31 GTA : Val   12 GCA : Ala   20 GAA : Glu   44 GGA : Gly  7 GTG : Val   25 GCG : Ala   33 GAG : Glu   20 GGG : Gly  9

TTT : Phe   16 TCT : Ser     13 TAT : Tyr   13 TGT : Cys 10 TTC : Phe   23 TCC : Ser  18  TAC : Tyr   19 TGC : Cys 15 TTA : Leu    5 TCA : Ser    9 TAA : Stop    TGA : Stop TTG : Leu   11 TCG : Ser    4 TAG : Stop  TGG : Trp 14 CTT : Leu   11 CCT : Pro   16 CAT : His    9 CGT : Arg  5 CTC : Leu   20 CCC : Pro       20 CAC : His   14 CGC : Arg 11 CTA : Leu    6 CCA : Pro   14 CAA : Gln   11 CGA : Arg  5 CTG : Leu      43 CCG : Pro    6 CAG : Gln   34 CGT : Arg  4 ATT : Ile   15 ACT : Thr   13 AAT : Asn   17 AGT : Ser 10 ATC : Ile   24 ACC : Thr   23 AAC : Asn   23 AGC : Ser 19 ATA : Ile    6 ACA : Thr   14 AAA : Lys   22 AGA : Arg 10 ATG : Met   23 ACG : Thr       7 AAG : Lys   35 AGG : Arg 11 GTT : Val   10 GCT : Ala   20 GAT : Asp   22 GGT : Gly 11 GTC : Val   16 GCC : Ala   29 GAC : Asp   29 GGC : Gly 25 GTA : Val    6 GCA : Ala   14 GAA : Glu   27 GGA : Gly 17 GTG : Val   31 GCG : Ala    7 GAG : Glu   41 GGG : Gly 17

(21)

L'usage du code génétique suit approximativement l'évolution

Xénope

Homo sapiens

Rang des codons chez H sapiens vs leur rang chez le xénope

(22)

L'usage du code génétique suit approximativement l'évolution

Drosophile

Homo sapiens

(23)

L'usage du code génétique suit approximativement l'évolution

Escherichia coli

Homo sapiens

(24)

L'évitement du dinucléotide CpG

affecte l'usage des codons chez l'homme

NCG NCA NCC NCT

0 6 12 18 24 30

Proline (CCN) Thréonine (ACN) Alanine (GCN) Sérine (TCN)

Fréquence chez H sapiens (

0

/

00

)

(25)

L'usage des codons est corrélé à l'abondance des ARNt isoaccepteurs

E coli data

J. Mol. Biol. (1996) 260:649 croissance

lente

croissance rapide

(26)

Le ribosome trouve le bon ARNt 

par un processus d'essai et erreur

(27)

Le ribosome trouve le bon ARNt  par un processus d'essai et erreur

En cas de mauvais appariement, l'ARNt est rejeté.

(28)

Le ribosome trouve le bon ARNt 

par un processus d'essai et erreur

(29)

Le ribosome trouve le bon ARNt  par un processus d'essai et erreur

Le processus se répète jusqu'à l'arrivée d'un ARNt correct.

(30)

Le ribosome trouve le bon ARNt 

par un processus d'essai et erreur

(31)

Le nombre moyen d'essais par codon dépend de l'abondance relative de l'ARNt recherché

<n

essais

>  =

[ARNt total]

[ARNt recherché]

En utilisant préférentiellement les codons correspondant aux

ARNt les plus abondants, la cellule augmente la vitesse de traduction

(32)

Les gènes les plus exprimés sont les “mieux adaptés”

(i.e., ils utilisent les ARNt les plus abondants)

Fréquence d'utilisation du codon optimal Nombrde molécules de proinpar cellule quelques gènes

de E coli

Le biais d'usage des codons est d'autant plus marqué que le gène est fortement traduit.

(Moyenne=635)

(33)

Utilisation prédictive des biais statistiques

(34)

Exemples de prédictions statistiques

 Classification des séquences en fonction des propriétés de la distribution des nucléotides 

­ Régions codantes / non­codantes

­ Introns / exons 

­ Prédictions des cadres de lecture 

­ Prédictions du taux d'expression 

 Détection d'erreurs 

­ Erreurs de séquençage 

­ Insertions / délétions 

­ Contaminations par de l'ADN exogène 

 Etudes phylogénétiques 

­ Transfert de gènes

(35)

Une méthode de détection des régions codantes

Détection des biais de période 3 D = S S   | fN,phase i  ­ fN |

N=A,C,G,T 3 phases

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

fA, phase 0  =   11/20  =  0.55 fA      =  24/60   =  0.40

(36)

Une méthode de détection des régions codantes

On calcule le score D sur une fenêtre de N triplets de base (N=10 à 100)

On translate progressivement la fenêtre en traçant la valeur du score en fonction de la position du centre de la fenêtre.

(37)

D = S S    | fN,phase i  ­ fN |

N=A,C,G,T 3 phases

fréquence

La distribution de probabilité de D est différente dans les régions codantes et non­codantes.

Une méthode de détection des régions codantes

Méthode indépendante de la table d'usage des codons

(38)

Niveau d'expression d'un gène

Indice d'adaptation des codons (“CAI”) pour un gène donné:

Le CAI  1 lorsque l'usage des codons est optimal Pour un gène donné, on considère tous 

ses codons, i = 1, … L, et on définit wi  = fcodon i / fcodon majoritaire     1

f = fréquences mesurées pour des  protéines de référence fortement 

exprimées 

Indice = ( P wi )1/L  =  moyenne géométrique sur les L codons du gène

L

i

NAR '87

(39)

Exemples de CAI chez E coli

Répresseur Met b­galactosidase phosphofructokinase ARN polymérase ribosome lipoprotéine

Application: prédiction du niveau d'expression

d'un gène de fonction inconnue

(40)

Exemples de CAI chez la levure

Mesures précises et  exhaustives de 

l'expression des 

protéines de la levure.

Nature, 2003, 425:737

(41)

Modélisation des séquences d'ADN

par des chaînes de Markov

(42)

Une séquence de dinosaure?

Taux de G+C? 60.4%

Fréquence de CpG?  f

CG

/f

C

 f

G

 = 1.14

Pas très crédible...

(43)

Comment fabriquer une séquence de dinosaure crédible?

Fréquences des mono­ et dinucléotides chez les vertébrés:

fA = 0.30 fC = 0.21 fT = 0.29 fG = 0.21

    A     C   G    T

A 0.102 0.055 0.071 0.074

C 0.077 0.057 0.010 0.069

G 0.059 0.046 0.054 0.048

T 0.062 0.057 0.072 0.087

3' 5'

Ajouter itérativement des nucléotides en respectant ces fréquences

(44)

Générateur de séquences aléatoires

A partir de la table de fréquences, on a les probabilités conditionnelles:

p(A | C)  =      =  fCA   fC

      fCA   

 fCA + fCC + fCG + fCT  

  A       C  G  T

A 34% 18% 24% 25% 100%

C 36% 27% 5% 32% 100%

G 28% 22% 26% 23% 100%

T 22% 21% 26% 31% 100%

Y   3' X   5'

Munis d'un générateur de nombres aléatoires, nous pouvons fabriquer une pseudo­séquence respectant la distribution souhaitée.

Yp(Y|X)=1

p(Y|X)

(45)

Générateur de séquences aléatoires

A C G T

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGT

(46)

Générateur de séquences aléatoires

A C G T

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGT

Nombre tiré aléatoirement:

34

(47)

Générateur de séquences aléatoires

A C G T

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGTC

Nombre tiré aléatoirement:

34

(48)

Générateur de séquences aléatoires

A C G T

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGTC

(49)

Générateur de séquences aléatoires

A C G T

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGTC

Nombre tiré aléatoirement:

92

(50)

Générateur de séquences aléatoires

A C G T

A C G T

ATGAGTAAGCTGAAAGAGTACAGAGTCT

Nombre tiré aléatoirement:

92

Processus ou chaîne de Markov

(51)

Chaîne de Markov

Processus aléatoire discret:

le système passe d'un état ei à un état ei+1  suivant une loi de probabilité p(ei+1| ei)

L'évolution future du système à partir de l'instant i ne  dépend pas de l'histoire antérieure, mais seulement de i.

Généralisation aux biais d'ordres plus élevés:

le système passe de ei à ei+1 suivant une loi de probabilité p(ei+1| ei,  ei­1, ..., ei­k+1)

Pas de mémoire

Mémoire des k instants

antérieurs

(52)

Pour une séquence donnée, quelle est la probabilité P qu'elle soit produite par la chaîne de Markov donnée?

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en­1)

  A    C  G  T

A 34% 18% 24% 25%

C 36% 27% 5% 32%

G 28% 22% 26% 23%

T 22% 21% 26% 31%

3' 5'

P(AATG) = 0.30 × 0.34 × 0.25 × 0.26   1/151 P(CGCG) = 0.21 × 0.05 × 0.22 × 0.05   1/8658 

fA = 0.30 fC = 0.21 fT = 0.28 fG = 0.21

Tests d'hypothèses a posteriori

(53)

Les cellules de mammifère en culture peuvent être contaminées par des mycoplasmes, parasites bactériens intracellulaires.

Si on extrait l'ADN de cultures contaminées, on obtient un mélange.

Après séquençage, comment reconnaître l'ADN mammifère de l'ADN mycoplasmique ?

Discrimination entre deux hypothèses: exemple 1

(54)

  A    C  G  T

A 34% 18% 24% 25%

C 36% 27% 5% 32%

G 28% 22% 26% 23%

T 22% 21% 26% 31%

3' 5'

  A    C  G  T

A 42% 15% 17% 26%

C 40% 18% 6.5% 36%

G 31% 19% 18% 32%

T 26% 14% 19% 42%

3' 5'

humain mycoplasme

S = TTCAAATAATCGTGAAATATCTT

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2) ... p(en|en­1)

Phumain(S)= 4.3 10­15  Pmycoplasme(S) = 18.7 10­15

Discrimination entre deux hypothèses: exemple 1

(55)

TTT : Phe   19 TCT : Ser     10 TAT : Tyr   15 TGT : Cys  6 TTC : Phe   18 TCC : Ser  10  TAC : Tyr   14 TGC : Cys  5 TTA : Leu   10 TCA : Ser    6 TAA : Stop    TGA : Stop TTG : Leu   11 TCG : Ser    8 TAG : Stop  TGG : Trp 13 CTT : Leu   10 CCT : Pro    6 CAT : His   11 CGT : Arg 25 CTC : Leu   10 CCC : Pro        4 CAC : His   11 CGC : Arg 22 CTA : Leu    3 CCA : Pro    8 CAA : Gln   13 CGA : Arg  3 CTG : Leu      55 CCG : Pro   24 CAG : Gln   30 CGT : Arg  4 ATT : Ile   27 ACT : Thr   11 AAT : Asn   16 AGT : Ser  7 ATC : Ile   28 ACC : Thr   24 AAC : Asn   25 AGC : Ser 15 ATA : Ile    4 ACA : Thr    6 AAA : Lys   37 AGA : Arg  2 ATG : Met   27 ACG : Thr      12 AAG : Lys   12 AGG : Arg  1 GTT : Val   21 GCT : Ala   18 GAT : Asp   32 GGT : Gly 29 GTC : Val   14 GCC : Ala   23 GAC : Asp   23 GGC : Gly 31 GTA : Val   12 GCA : Ala   20 GAA : Glu   44 GGA : Gly  7 GTG : Val   25 GCG : Ala   33 GAG : Glu   20 GGG : Gly  9

La table d'usage des codons n'est calculée que pour les triplets

en phase 0 (les codons):

   P0(NN'N'')

C'est insuffisant pour construire le modèle de Markov.

Exemple 2: recherche de la phase codante

Modèle de Markov d'ordre deux:   pi(ek|ek­1 ek­2),  i=phase 

ATGAGTAAGCTGAAAGAGTACAGA

p0 p1

p2

Phase 0 Phase 2 Phase 1

(56)

Fréquences des triplets

A partir des probabilités P0(NN'N'') des codons, on peut estimer les probabilités de tous les triplets dans les deux autres phases.

Exemple: TTT en phase 1: NTTTNN probabilité = P1(TTT) = P0(NTT) x P0(TNN)

= [P0(ATT)+P0(CTT)+P0(GTT)+P0(TTT)] x P0(TNN) 

P1(ABC)  = P0(NAB) P0(CNN) P2(ABC)  = P1(NAB) P1(CNN)  

ATGAGTAAGCTGAAAGAGTACAGA

P0 P1

P2

Phase 0 Phase 2 Phase 1

(57)

Construction d'un modèle de Markov complexe simulant les séquences codantes

p(ek|ek­1 ek­2) = pi(k)(ek|ek­1 ek­2)

ATGAGTAAGCTGAAAGAGTACAGA

P0 P1

P2

Phase 0 Phase 2 Phase 1

On peut maintenant construire un modèle de Markov avec  une probabilité de transition ek­2 ek­1   e→ k

qui dépend de la phase courante i(k):

(58)

Construction d'un modèle de Markov complexe simulant les séquences codantes

Phase 0 Phase 1 Phase 2

p(ek|ek­1 ek­2) = pi(k)(ek|ek­1 ek­2)

ATGAGTAAGCTGAAAGAGTACAGA

P0 P1

P2

Phase 0 Phase 2 Phase 1

On peut maintenant construire un modèle de Markov avec  une probabilité de transition ek­2 ek­1   e→ k

qui dépend de la phase courante i(k):

Flèches =  transitions  entre états

(59)

P(e1e2....en) = p(e1) p(e2|e1) p(e3|e2,e1) p(e4|e3,e2) ... p(en|en­1,en­2)

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

P0 P1

P2

On peut calculer la probabilité d'une séquence sous chaque hypothèse

Exemple 2: recherche a posteriori de la phase codante

1ère hypothèse:

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

P2 P0

P1

2ème hypothèse:

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

P1 P2

P0

3ème hypothèse:

(60)

Exemple: un gène d'E coli

ATGAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGGCGAAATTCGCGCCCCAGGA AGTTCG

25 premiers codons prob(phase 0) = 10­97  prob(phase 1) = 10­105  prob(phase 2) = 10­104

La phase correcte obtient une probabilité 107 fois supérieure à celle des deux autres.

Prédiction indépendante de la présence de codons de démarrage ou de codons stop

Probabilités que la séquence soit produite par le modèle en phase 0, 1, 2

(61)

S'il y a des erreurs de séquençage,

le problème change de nature!

(62)

Modèles de Markov cachées, ou “HMM”

Hidden Markov Models

(63)

S'il y a des erreurs de séquençage, le problème change de nature

Les erreurs de séquençage et en particulier les insertions/délétions peuvent fausser la détection des cadres ouverts de lecture

Décalages de phase  Evénements rares :  fréquence  p    1/1000 

Comment repérer et corriger les erreurs de séquençage ? 

Modèle de Markov de séquence codante avec erreurs:

notion de  modèle de Markov “caché”

(64)

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

L'objet: une séquence supposée codante, pouvant contenir une petite fraction d'erreurs, sous forme

d'insertions ou délétions survenues lors du séquençage Position des erreurs: inconnue

Phase de lecture: inconnue et changeante (rarement) L'objectif: décoder la séquence, donc identifier le cadre de lecture à chaque position dans la séquence

Le modèle de Markov: doit génèrer des séquences “codantes” plus une petite fraction de décalages de phase

(65)

Modèle de séquences codantes avec erreurs de phase

Phase 0 Phase 1 Phase 2

Modèle de séquences sans erreurs

(66)

Phase 0 Phase 1 Phase 2

On autorise des transitions correspondant aux erreurs de phase:

insertions/délétions (en pointillés rouges):

Phase 0 Phase 1 Phase 2

Modèle de séquences sans erreurs

Modèle de séquences avec erreurs

p



p



Modèle de séquences codantes avec erreurs de phase

(67)

Modèle de séquences avec erreurs de phase

On autorise des transitions correspondant aux erreurs de phase (pointillés):

Ce modèle permet de générer des séquences, mais pas de calculer des probabilités a posteriori.

En effet, pour un nucléotide donné dans une séquence analysée, il y a 3 états possibles de la chaîne de Markov (phases 0, 1, 2).

En pratique, on ne “voit” pas l'état détaillé de la chaîne de Markov, seulement le nucléotide produit...

Modèle de Markov caché ou “HMM”

Phase 0 Phase 1 Phase 2

p



p



(68)

Modèle de Markov caché

Connaitre la phase codante à chaque position

Phase 0 Phase 1 Phase 2

p



p



Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

(69)

Modèle de Markov caché

Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

A chaque étape du processus de Markov, on va 1) changer de phase ou non

2) produire un nucléotide

Vocabulaire: on dit que le nucléotide est “émis”;

à chaque état du modèle correspond une distribution

de probabilité pour la production (l'émission) des nucléotides

Phase 0 Phase 1 Phase 2

p



p



(70)

Modèle de Markov caché

Connaitre la phase codante à chaque position Pour une séquence de longueur n, il y a 3n parcours possibles!

Heureusement, il y a....

Ce qui intéresse la/le biologiste, pour une séquence donnée, c'est de pouvoir reconstruire le parcours correspondant dans l'automate ci-dessous:

Phase 0 Phase 1 Phase 2

p



p



(71)

La programmation dynamique!

On cherchera le parcours le plus probable, avec une méthode récursive (simple).

ATGAGTAAGCTGAAAGAGTACAGAGTGAACAGACAGATAAGGGCAAAGGAGTGCAGGCTT

Phase 0 Phase 1 Phase 2

p



p



(72)

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0 phase 1 phase 2

Un chemin qui démarre en phase 0 et avec une insertion et une délétion

ATGAG

­

TAAG

ATGAGTAAG

Un chemin qui démarre en phase 0 et sans aucune erreur de phase

Phase 0 Phase 1 Phase 2 Phase 0 etc

(73)

Exemples de parcours

Séquence nucléotidique: ATGAGTAAG

phase 0 phase 1 phase 2

Un chemin qui démarre en phase 0 et avec une insertion et une délétion

ATGAGTAAG

Un chemin qui démarre en phase 0 et sans aucune erreur de phase

Lequel des deux chemins est le plus probable? Facile.

Parmi les 39 = 19683 chemins possibles, quel est le plus probable?

Nettement plus difficile.

ATGAG

­

TAAG

(74)

Recherche du chemin le plus probable par programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant  dans la phase i, avec le bon nucléotide nk émis en k:

remplissage récursif d'une table 3 x n

phase 0 phase 1 phase 2

P(1,k)

(75)

Recherche du chemin le plus probable par programmation dynamique:

algorithme de Viterbi

Pour k= 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k, se terminant dans la phase i (i=0, 1, ou 2):

P(i,k) = max [ P(j,k­1) pj,i(ek|ek­1,ek­2) ]

j=0,1,2

On a la relation récursive:

probabilité de transition+émission en  supposant une phase j en k­1 et une  phase i en k:

pj,i(ek|ek­1,ek­2) = p(j i) → x pi(ek|ek­1,ek­2)       transition       émission        ( ou 1­2)  (dépend de i)

(76)

Recherche du chemin le plus probable par programmation dynamique:

algorithme de Viterbi

probabilité en supposant une phase j en k­1

et une phase i en k

On a la relation récursive:

i=0 i=1 i=2

k­1 k

Si i = j+1 [3],  transition  standard;

sinon, pj,i = 

P(i,k) = max [ P(j,k­1) pj,i(ek|ek­1,ek­2) ]

j=0,1,2

(77)

Algorithme de Viterbi

Pour k = 1,...,n:

On calcule la probabilité P(i,k) du meilleur chemin de 1 à k se terminant  dans la phase i:

Remplissage d'une table P de dimensions 3 × n :

phase 0    p0(n0)

phase 1    p1(n0)

phase 2    p2(n0)

initialisation

P(i,k) = max [ P(j,k­1) pj,i(ek|ek­1,ek­2) ]

j=0,1,2

0   1  2 ...

(78)

ATTAAAGGCGGAAAACGAGTTCAAACGGCGCGCCCTAACCGTATCAATGG CGAAATTCGCGCCCCAGGAAGTTCGCTTAACAGGTCTGGAAGGCGAGCAG CTTGGTATTGTGAGTCTGAGAGAAGCTCTGGAGAAAGCAGAAGAAGCCGG AGTAGACTTAGTCGAGATCAGCCTAACGCCGAGCCGCCGGTTTGTCGTAT

phase 0 phase 1 phase 2

n Probabilité maximale

sauts de phase

Algorithme de Viterbi

Pour simplifier le dessin, on ne montre la phase que pour une base sur 3.

Exemple: une portion du gène infC de E. coli

en gris: résultat expérimental; souligné: prédiction de Viterbi

délétion délétion

(79)

Ingrédients utilisés:

­ la table d'utilisation des codons d'E. coli

­ une valeur pour la probabilité p de saut de phase Grandeurs intermédiaires:

­ les tables de fréquence Pi des tri­nucléotides dans les 3 phases i possibles 

­ les probabilités pj,i(ek|ek­1,ek­2)

Relation de récursion et initialisation: simples

Phase 0 Phase 1 Phase 2

p



p



(80)

Les HMM ont de très nombreuses applications

Cf chap 5 du livre de cours

Martin et al, BMC Struct Biol, 2006

(81)

Les HMM ont de très nombreuses applications

Pour en savoir (beaucoup) plus:

Biological sequence analysis:

probabilistic models of proteins and nucleic acids R Durbin, S Eddy, A Krogh, G Mitchison

 Alignements de séquences

 Recherche de gènes

 Classification de protéines

 Phylogénie

Cf chap 5 du livre de cours

X

Y M

p q

1-p

1-2q q 1-p p

Références

Documents relatifs

La figure ci-dessous représente un champ rectangulaire ABCD traversé par une route de largeur uniforme (partie grise).. La

Liste : Courant, interrupteur, résistance, générateur, circuit, moteur, fermé, électricité, pile, ampoule, fil, diode, récepteur.... Exercice : Remplir les cases vides en vous

1°) Écrire un script qui affiche la liste des diviseurs d’un nombre. 2°) Modifier le script pour qu’il affiche la liste des diviseurs d’un nombre ainsi que le nombre de diviseurs.

[r]

[r]

Vous y branchez un sèche-cheveux de 1800 W, les deux autres appareils étant allumés.. Que peut-il

Vous y branchez un sèche-cheveux de 1800 W, les deux autres appareils étant allumés.. Que peut-il

L’algorithme de Viterbi permet de trouver, étant donné une séquence d’observation, le chemin le plus probable dans un HMM (la succession la plus probable d’états)