Table des matières
iaRTrE. MonÉr,rs.lrroN
DEsÉeunxcns rl.(}aînes
deMarkov
cxemple
d'indépendance
l.Modèle
shuffiesur les chaînes de
Markov lhtroduction
ide Xt,loi
stationnaire: . . . . . . . . .
.de Markov
d'ordre
supérieur à uninfinitésimal
stationnaire .' ..,
d'un
modèledeMarkovphasées . . ...
chaînes de Markov parcimonieuses Iæs
VLMC
Lx PMM
IèsMTD
iînes de Markov
dérivantes . . . .
.2T
37
39 39 4T 44 44 44 47 50 51 52 52 54 55 58 59
6I
62 64 65 66 68 68
b&ive
linéairel0
Analyse statistique des séquencos birtklgiqtrclChapitre
2. Chaînes deMarkov
cachées 2.1.Motivation
.2.2.Les
modèlesHMM
.2.2.1. Modèle
MlMl
2.2.2.Modèle MlMrn
2.2.3. Longueur des plages, ergodicité
2.3.lnf&ence
2.3.1. La vraisemblance .
2.3.2.Ualgorithme EM
2.3.2.l.LaphaseM: ..
2.3.2.2.LaphaseE:...
2.3.2.3.
L
algorithme récursifEM
2.3.2.4.EM
et gelfinal
.2.3.3. Qualité des estimations 2.3.3.1. Rappels
2.3.3.2. Vraisemblance conditionnelle 2.3.3.3.
Loi
des estimateurs2.3.3.4. Conclusion
2.3.4.Ualgorithme
SEM 2.3.5. L) algorithme deViterbi 2.4.Les SHMM
2.5. Exemples d' applications 2.5.1. Modélisation des gènes 2.5.2. Profils
HMM
.2.5.2.1. Les RBS
2.5.2.2. Les sites donneurs et accepteurs 2.6. Chaînes de Markov cachées et score
local
.2.6.1. Algorithme de
Viterbi
2.6.2. AlgonthmeEM
2.6.3. Yaiance de I' estimateur2.6.3.1. Information de Fisher 2.6.3.2. Variances
2.6.3.3. Variance pour les scores . 2.6.3.4. Simulations
2.6.4. Score local avec
rn
segments 2.6.4.1. Vraisemblance2.6.4.2.
Algorithme
deViterbi
2.6.4.3.Algorithme EM.
.2.6.4.4. Information de Fisher 2.7. Logiciels et notes bibliographiques .
2.7.
l.
Quelques logiciels bibliographiqucs69 69 70
l9
79 70
7l ll
72 72 73 74
t)
77 7',l
80
8l
82 82 83 85 86 86 88 89 89 90 93 93 95 95 96 97 97 99 99 100 100
l0l l0I t0|
l0l
Table des
matières
II DnuxIÈUN
PARTIE. MOTIFSChapitre
3.ComPter
lesmotifs
3.1.Définitions
.3.1.1.
Alphabet.
3.1.2. Séquence 3.1.3.
Mot
3.1.3.1. Palindromes 3.1.4.
Motif
3.1.5. Que comPter?
3.1.5.1. Pour un mot .
3.1.5.2.
Pourunmotif .
.3.2. Automates .
103
105 105 105 106 106 106
to1 to7
3.2.l.Langages
3.2.2. Automates Finis Déterministes 3.2.3. Comptages
3.3.
Algorithmes
.3.3. 1. Construction d'automates
3.3.1.1. Automate non
déterministe '
.3.3.1.2. Déterminisation
3.3.l.3.Minimisation . '
.3.3.l.4.Heuristique . . .
.3.3.2. Arbres de suffixes 3.3.3. Arbres de préfixes
109 110
t12
rt4 tt4
115 118
r20
720 124
t29 r32
ro7 108 109135
13s
r39
r56 157 158 160
l6l
3.4. Notes bibliograPhiques '
Chapitre
4. Statistiques demotifs
4.1. Cyrano de Bergerac 4.2. Statistique demotifs
4.3. PatternMarkov Chain
.4.3.1. Modèle
M0
.4.3.2.Uncas
simple 4.3.3. ModèleMrn
4.4. Calculs exacts .
4.4.1. Finite
Markov
ChainImbedding
.4.4.2.
Algorithmes .4.4.2.1. Développements asymptotiques 4.4.3. Temps d'attente
4.4.3.1. Etudier la répartition des motifs 4.4.3.2, Simuter la répartition des motifs 4.4.3.3. Consi<Jérations numériques 4.4.4. Montonts
4.4.4.1. lispérancc
r40
141
t42 t44
150 151
t54
163 163 4.4,4.2. Vrriuncc 165
12
Analyse statistique des séquences biologiques4.4.5. Lois
jointes
.4.4.6. Plusieurs séquences 4.4.7. Modèle hétérogène 4.5. Approximations gaussiennes
4.5.1. Cas
Markov
4.5.2. Lois jointes4.5.3.Loi
de(N-, N-+r)
4.5.4. Approche fondée sur les martingales .
4.5.5. Modèle shuffle 4.5.5.1. Espérance 4.5.5.2. Variance
4.5.5.3. Approximation gaussienne 4.6. Approximations binomiales
4.6.1. Prise en compte de
l'estimation
des paramètres .4.7. Approximations de Poisson composées 4.7. 1. Mots recouvrants
4.7.1.1. Structure
d'un
mot périodique 4.7 .L.2. Occurrences par paquets 4.7 .1.3, Calcul de0 .
.4.7 .1.4.
Loi
de Poisson géométrique .4.7.1.5. Exemple du traitement par
AFD
4.7.1.6, Cas demotifs
.4.7 .2. Matnce d' autorecouvrement 4.7.3. Résultat principal
4.7.4. Cas Poisson
4.7.5. Cas Poisson géométrique 4.7.6, Cas général
4.8. Grandes déviations 4.8.1.
Introduction
.4.8.2.Niveau1....
4.8.2.1. Calculs numériques
4.8.3.Niveau2....
4.8.3.1. Mise en æuvre pratique 4.9. Comparaison des méthodes
4.9.1. Complexités .
4.9.2, Comparaison Markov versus shuffle 4.9.3. Grandes déviations précises 4.9.4. Cas extrêmes
4.9.5. Cas réels
.
.4.9.6. Conclusions .
4.10. Notes
bibliographiques
,i'
t7r
173
n5
t76
176 111
t77
183 184 185t87
188 188 193 198 198 198r99
200 20020r
201 202 204 205 205 2TT2r3 2t3
215 211 218 220 22022r
225 225 226 229 232 234Table des
matières
13Chapitre
5.Motifs biologiques 237
5.1.
Chi
2375.2. Régulation
.
2445.3.
PROSITE
2465.4. Scan
statistics
2475.5. Notes bibliographiques
.
2515.5.l.Chi ...251
5.5.2.
Régulation
2525.5.3.
Prosite
2525.5.4. Scan
statistics
252'InorsrÈrrn
pARTrE.Ar,rcNnunNTS
DEsÉeuENCEs
253Chapitre
6. Score locald'une
séquence 2556.1.
Définition
2556.1.1. Segment de score
maximal
2556.1.2.
Algorithme linéaire
2566.1.3. Segments
sous-optimaux
2586.2. Significativité
exacte
2596.2.1. Cas
simple
2606.2.2.Extension aux scores rationnels
.
2646.2.3. Extension au cas
markovien
2656.3. Approximations
asymptotiques
2656.3.1. Runs de 1,
loi
deGumbel
2656.3.1.1. Exemple
simple
2656.3.1.2.
Application
au casBemoulli . .
2676.3.2.Loi
asymptotique du score d'uneséquence
2676.3.3. Validité des
approximations
2706.4. Notes bibliographiques
. 2iI
Chapitre
7.Alignement
de deuxséquences
2737,1.
Introduction .
2737.l.l.Lévolutionponctuelle... ...
2137.I.2.
Matricesd'évolution
2757.1.2.1.
Evolution
des séquencesnucléotidiques
2'757.1.2.2. Modèle de Jukes et
Cantor
2777.1.2.3. Modèle de
Kimura 2i1
7
.l.2.4.
Autresmodèles
2787
.l
.2.5. Evolution des séquenccsprotéiques
218 7.1,2.6. Evolutions nonponctucllcs . . .
2797.2,
l,'tligncrncnt
dc dcux séqucnccstl'Al)N
2807,2,1. Nurnhrc d'uligncmcnttr
portiblor
2lt3l4
Anulyrc stutintique donréqucnccn biologiqucs7.3. Score global : Needlemun ct Wunsch
7 .3.1 , U algorithme de progrtmmation clynamique .
7.3.2. Recherche de I'alignement : le trace-back 7.3.3. Complexité, algorithme SL
7.3.3.1.
Algorithme
SL (Space Linear) 7.4. Score local : Smith et Waterman7.4.1. Alignement global de séquences tronquées 7.4.2. Programmation dynamique et trace-back 7.5. Scores de gap affines
7.6.
Significativité
.7.7. Heuristiques,
BLAST
7.8. Alignement etHMM
7.9. Notes bibliographiques .
Chapitre
8.Alignements multiples
8.1. Une heuristique d'alignement
multiple
8.1.1.L
arbre guide :CLUSTAL
8.2. Ouverture vers la phylogénie8.2.1. Phylogénie et distances 8.2.2. Phylogénie et parcimonie
8.2.2.1. Calcul du coût
d'un
arbre8.2.2.2. Recherche de I'arbre le plus parcimonieux 8.2.3. Phytogénie et vraisemblance
8.2.3.1.
L
algorithmePhyML
8.3. Notes bibliographiques .Chapitre
9.Matrices
desimilarité
9.1. Les matrices
PAM
.9.2. Discussion critique 9.3. Les matrices
BLOSUM
9.4. Autres matrices9.4.1. Sensibilité au choix de S
.
.9.5. Notes bibliographiques .
ANNnxns
A. L
algorithmeEM A.l.
La phaseM A.2.Laphase
E4.3.
L algorithmerécursif 4.4.
Variances des estimateurs4.5.
Notes bibl iographiques285 285 287 290 290 291
29r
292 294 295 295 297 300 303 305 306 307 307 308 308 309 310
3t2
313 315 316 318 319 321 321 JZZ 323 325 326 326 321 327 .129
Table des
matières l5
B. Arbres, distances et algorithmeNJ . .
.B.
l.
Distances d'arbre, distances phylogénétiquesB.2.Ualgonthme
NJB.3. Notes bibliographiques C. Valeurs propres et vecteurs propres
C.1. Analyse spectrale C.1.1. Matrices positives
C.L.2.Matices stochastiques :..
C.1.3. Méthode de la puissance zlleme C.2.
Algorithme QR
C.3.Algorithmed'Amoldi . . .
.C.4. Notes bibliographiques
lllbllographie
lnrfox . 359
33r
331 JJJ 335 337 337 JJI 339 340