• Aucun résultat trouvé

Lx deMarkovphasées ..... stationnaire .' .., .

N/A
N/A
Protected

Academic year: 2022

Partager "Lx deMarkovphasées ..... stationnaire .' .., ."

Copied!
6
0
0

Texte intégral

(1)
(2)

Table des matières

iaRTrE. MonÉr,rs.lrroN

DE

sÉeunxcns rl.(}aînes

de

Markov

cxemple

d'indépendance

l.Modèle

shuffie

sur les chaînes de

Markov lhtroduction

ide Xt,loi

stationnaire

: . . . . . . . . .

.

de Markov

d'ordre

supérieur à un

infinitésimal

stationnaire .' ..,

d'un

modèle

deMarkovphasées . . ...

chaînes de Markov parcimonieuses Iæs

VLMC

Lx PMM

IèsMTD

iînes de Markov

dérivantes . . . .

.

2T

37

39 39 4T 44 44 44 47 50 51 52 52 54 55 58 59

6I

62 64 65 66 68 68

b&ive

linéaire

(3)

l0

Analyse statistique des séquencos birtklgiqtrcl

Chapitre

2. Chaînes de

Markov

cachées 2.1.

Motivation

.

2.2.Les

modèles

HMM

.

2.2.1. Modèle

MlMl

2.2.2.Modèle MlMrn

2.2.3. Longueur des plages, ergodicité

2.3.lnf&ence

2.3.1. La vraisemblance .

2.3.2.Ualgorithme EM

2.3.2.l.LaphaseM: ..

2.3.2.2.LaphaseE:...

2.3.2.3.

L

algorithme récursif

EM

2.3.2.4.

EM

et gel

final

.

2.3.3. Qualité des estimations 2.3.3.1. Rappels

2.3.3.2. Vraisemblance conditionnelle 2.3.3.3.

Loi

des estimateurs

2.3.3.4. Conclusion

2.3.4.Ualgorithme

SEM 2.3.5. L) algorithme de

Viterbi 2.4.Les SHMM

2.5. Exemples d' applications 2.5.1. Modélisation des gènes 2.5.2. Profils

HMM

.

2.5.2.1. Les RBS

2.5.2.2. Les sites donneurs et accepteurs 2.6. Chaînes de Markov cachées et score

local

.

2.6.1. Algorithme de

Viterbi

2.6.2. Algonthme

EM

2.6.3. Yaiance de I' estimateur

2.6.3.1. Information de Fisher 2.6.3.2. Variances

2.6.3.3. Variance pour les scores . 2.6.3.4. Simulations

2.6.4. Score local avec

rn

segments 2.6.4.1. Vraisemblance

2.6.4.2.

Algorithme

de

Viterbi

2.6.4.3.

Algorithme EM.

.

2.6.4.4. Information de Fisher 2.7. Logiciels et notes bibliographiques .

2.7.

l.

Quelques logiciels bibliographiqucs

69 69 70

l9

79 70

7l ll

72 72 73 74

t)

77 7',l

80

8l

82 82 83 85 86 86 88 89 89 90 93 93 95 95 96 97 97 99 99 100 100

l0l l0I t0|

l0l

Table des

matières

I

I DnuxIÈUN

PARTIE. MOTIFS

Chapitre

3.

ComPter

les

motifs

3.1.

Définitions

.

3.1.1.

Alphabet.

3.1.2. Séquence 3.1.3.

Mot

3.1.3.1. Palindromes 3.1.4.

Motif

3.1.5. Que comPter?

3.1.5.1. Pour un mot .

3.1.5.2.

Pourunmotif .

.

3.2. Automates .

103

105 105 105 106 106 106

to1 to7

3.2.l.Langages

3.2.2. Automates Finis Déterministes 3.2.3. Comptages

3.3.

Algorithmes

.

3.3. 1. Construction d'automates

3.3.1.1. Automate non

déterministe '

.

3.3.1.2. Déterminisation

3.3.l.3.Minimisation . '

.

3.3.l.4.Heuristique . . .

.

3.3.2. Arbres de suffixes 3.3.3. Arbres de préfixes

109 110

t12

rt4 tt4

115 118

r20

720 124

t29 r32

ro7 108 109

135

13s

r39

r56 157 158 160

l6l

3.4. Notes bibliograPhiques '

Chapitre

4. Statistiques de

motifs

4.1. Cyrano de Bergerac 4.2. Statistique de

motifs

4.3. Pattern

Markov Chain

.

4.3.1. Modèle

M0

.

4.3.2.Uncas

simple 4.3.3. Modèle

Mrn

4.4. Calculs exacts .

4.4.1. Finite

Markov

Chain

Imbedding

.

4.4.2.

Algorithmes .

4.4.2.1. Développements asymptotiques 4.4.3. Temps d'attente

4.4.3.1. Etudier la répartition des motifs 4.4.3.2, Simuter la répartition des motifs 4.4.3.3. Consi<Jérations numériques 4.4.4. Montonts

4.4.4.1. lispérancc

r40

141

t42 t44

150 151

t54

163 163 4.4,4.2. Vrriuncc 165

(4)

12

Analyse statistique des séquences biologiques

4.4.5. Lois

jointes

.

4.4.6. Plusieurs séquences 4.4.7. Modèle hétérogène 4.5. Approximations gaussiennes

4.5.1. Cas

Markov

4.5.2. Lois jointes

4.5.3.Loi

de

(N-, N-+r)

4.5.4. Approche fondée sur les martingales .

4.5.5. Modèle shuffle 4.5.5.1. Espérance 4.5.5.2. Variance

4.5.5.3. Approximation gaussienne 4.6. Approximations binomiales

4.6.1. Prise en compte de

l'estimation

des paramètres .

4.7. Approximations de Poisson composées 4.7. 1. Mots recouvrants

4.7.1.1. Structure

d'un

mot périodique 4.7 .L.2. Occurrences par paquets 4.7 .1.3, Calcul de

0 .

.

4.7 .1.4.

Loi

de Poisson géométrique .

4.7.1.5. Exemple du traitement par

AFD

4.7.1.6, Cas de

motifs

.

4.7 .2. Matnce d' autorecouvrement 4.7.3. Résultat principal

4.7.4. Cas Poisson

4.7.5. Cas Poisson géométrique 4.7.6, Cas général

4.8. Grandes déviations 4.8.1.

Introduction

.

4.8.2.Niveau1....

4.8.2.1. Calculs numériques

4.8.3.Niveau2....

4.8.3.1. Mise en æuvre pratique 4.9. Comparaison des méthodes

4.9.1. Complexités .

4.9.2, Comparaison Markov versus shuffle 4.9.3. Grandes déviations précises 4.9.4. Cas extrêmes

4.9.5. Cas réels

.

.

4.9.6. Conclusions .

4.10. Notes

bibliographiques

,

i'

t7r

173

n5

t76

176 111

t77

183 184 185

t87

188 188 193 198 198 198

r99

200 200

20r

201 202 204 205 205 2TT

2r3 2t3

215 211 218 220 220

22r

225 225 226 229 232 234

Table des

matières

13

Chapitre

5.

Motifs biologiques

237

5.1.

Chi

237

5.2. Régulation

.

244

5.3.

PROSITE

246

5.4. Scan

statistics

247

5.5. Notes bibliographiques

.

251

5.5.l.Chi ...251

5.5.2.

Régulation

252

5.5.3.

Prosite

252

5.5.4. Scan

statistics

252

'InorsrÈrrn

pARTrE.

Ar,rcNnunNTS

DE

sÉeuENCEs

253

Chapitre

6. Score local

d'une

séquence 255

6.1.

Définition

255

6.1.1. Segment de score

maximal

255

6.1.2.

Algorithme linéaire

256

6.1.3. Segments

sous-optimaux

258

6.2. Significativité

exacte

259

6.2.1. Cas

simple

260

6.2.2.Extension aux scores rationnels

.

264

6.2.3. Extension au cas

markovien

265

6.3. Approximations

asymptotiques

265

6.3.1. Runs de 1,

loi

de

Gumbel

265

6.3.1.1. Exemple

simple

265

6.3.1.2.

Application

au cas

Bemoulli . .

267

6.3.2.Loi

asymptotique du score d'une

séquence

267

6.3.3. Validité des

approximations

270

6.4. Notes bibliographiques

. 2iI

Chapitre

7.

Alignement

de deux

séquences

273

7,1.

Introduction .

273

7.l.l.Lévolutionponctuelle... ...

213

7.I.2.

Matrices

d'évolution

275

7.1.2.1.

Evolution

des séquences

nucléotidiques

2'75

7.1.2.2. Modèle de Jukes et

Cantor

277

7.1.2.3. Modèle de

Kimura 2i1

7

.l.2.4.

Autres

modèles

278

7

.l

.2.5. Evolution des séquenccs

protéiques

218 7.1,2.6. Evolutions non

ponctucllcs . . .

279

7.2,

l,'tligncrncnt

dc dcux séqucnccs

tl'Al)N

280

7,2,1. Nurnhrc d'uligncmcnttr

portiblor

2lt3

(5)

l4

Anulyrc stutintique donréqucnccn biologiqucs

7.3. Score global : Needlemun ct Wunsch

7 .3.1 , U algorithme de progrtmmation clynamique .

7.3.2. Recherche de I'alignement : le trace-back 7.3.3. Complexité, algorithme SL

7.3.3.1.

Algorithme

SL (Space Linear) 7.4. Score local : Smith et Waterman

7.4.1. Alignement global de séquences tronquées 7.4.2. Programmation dynamique et trace-back 7.5. Scores de gap affines

7.6.

Significativité

.

7.7. Heuristiques,

BLAST

7.8. Alignement et

HMM

7.9. Notes bibliographiques .

Chapitre

8.

Alignements multiples

8.1. Une heuristique d'alignement

multiple

8.1.1.

L

arbre guide :

CLUSTAL

8.2. Ouverture vers la phylogénie

8.2.1. Phylogénie et distances 8.2.2. Phylogénie et parcimonie

8.2.2.1. Calcul du coût

d'un

arbre

8.2.2.2. Recherche de I'arbre le plus parcimonieux 8.2.3. Phytogénie et vraisemblance

8.2.3.1.

L

algorithme

PhyML

8.3. Notes bibliographiques .

Chapitre

9.

Matrices

de

similarité

9.1. Les matrices

PAM

.

9.2. Discussion critique 9.3. Les matrices

BLOSUM

9.4. Autres matrices

9.4.1. Sensibilité au choix de S

.

.

9.5. Notes bibliographiques .

ANNnxns

A. L

algorithme

EM A.l.

La phase

M A.2.Laphase

E

4.3.

L algorithme

récursif 4.4.

Variances des estimateurs

4.5.

Notes bibl iographiques

285 285 287 290 290 291

29r

292 294 295 295 297 300 303 305 306 307 307 308 308 309 310

3t2

313 315 316 318 319 321 321 JZZ 323 325 326 326 321 327 .129

Table des

matières l5

B. Arbres, distances et algorithme

NJ . .

.

B.

l.

Distances d'arbre, distances phylogénétiques

B.2.Ualgonthme

NJ

B.3. Notes bibliographiques C. Valeurs propres et vecteurs propres

C.1. Analyse spectrale C.1.1. Matrices positives

C.L.2.Matices stochastiques :..

C.1.3. Méthode de la puissance zlleme C.2.

Algorithme QR

C.3.Algorithmed'Amoldi . . .

.

C.4. Notes bibliographiques

lllbllographie

lnrfox .

359

33r

331 JJJ 335 337 337 JJI 339 340

34r

345 341 349

(6)

Références

Documents relatifs

tonces la impot·tancia. de nuestt'a profesión es enorme. La ganadería española representa un · valor apt·oxi- mado de tres mil. mill ones de pesetas y se calculan s us

Cet exercice n’est pas efficace au sens qu’il n’entraîne en rien un lycéen (futur étudiant, donc) à prendre du recul sur les notions étudiées et comprendre ce qu’il fait.

On donne maintenant une application de (II.10)/t la majoration de la r6solvante d'un op6rateur de classe Cp. Voici maintenant une application de la proposition

Dépdurvu depuis son arrivée en France en 2019, de tout document officiel susceptible de faire foi de son identité réelle, Hasni Belmisoub né le 26 février 2001 en Algérie, se disant

Les cheminées utilisées doivent être testées selon la norme CAN/ULC S629 M87au Canada et selon la norme UL 103(Type HT chimneys in Standard for Chimneys, Factory-Built,

Deux élèves veulent les offrent a leur enseignant au jour des maîtres... Le marchand lui rend

Placez la face du transducteur fermement sur la glace mouillée, et vous allez maintenant être en mesure de voir la profondeur affichée numériquement et un signal montrant le fond

Si ce produit se déplace trop facilement d’un côté à l’autre, vous devez augmenter le frottement :.. Réduire