Sur quelques mod` eles d’´ evolution de s´ equences de nucl´ eotides avec d´ ependance du voisinage
Jean B´erard (1), Jean-Baptiste Gou´er´e (2) et Didier Piau (3)
(1) Institut Camille Jordan UMR 5208 Universit´e Lyon 1
(2) Laboratoire MAPMO UMR 6628 Universit´e d’Orl´eans
(3) Institut Fourier UMR 5582 Universit´e Grenoble 1
ou infinie.
Evolution (temporelle) par substitutions (pas d’insertions ni de´ suppressions).
Dans les mod`eles classiques, les taux de substitution ne d´ependent que du nucl´eotide au site consid´er´e.
Par cons´equent,
– chaque site ´evolue ind´ependamment de tous les autres,
– les historiques des sites r´ealisent des copies ind´ependantes d’un processus markovien,
– chaque copie converge en loi vers la mesure stationnaire,
Mais on sait bien que
(a) les fr´equences observ´ees ne sont pas des produits,
(b) et d’ailleurs, les taux de substitution en un site d´ependent aussi des voisins du site.
Un exemple connu et massif : les ˆılots CpG.
– C mute vers T [jusqu’`a] 10 fois plus souvent quand C fait partie de CG.
– (Donc) G mute vers A [jusqu’`a] 10 fois plus souvent quand G fait partie de CG.
τ(x, x0 |yxz).
Cˆone d’influence
Les fr´equences stationnaires F(x) d´ependent des fr´equences F(yxz).
Les fr´equences F(yxz) d´ependent elles-mˆemes des F(uyxzv).
Und so weiter. . .
. . . donc on est coinc´e.
R´esolution approch´ee d’un mod`ele avec substitutions
« doubles » li´ees aux CpG
Laurent Duret et Nicolas Galtier, Molecular Biology and Evolution (2000) : mod`ele de Tamura `a 2 param`etres + CpG vers CpA et CpG vers TpG au mˆeme taux.
Ici, les F(x) d´ependent des F(xy). Les F(xy) d´ependent des F(xyz), etc.
Id´ee : F(xyz) ≈ F(xy) F(yz)/F(y) (∗) Remarques :
(1) Dans un autre contexte : Bethe Ansatz, approximation de Kikuchi, . . .
(2) La formule (∗) serait exacte pour une chaˆıne de Markov (spatiale).
Donc on peut r´esoudre, au moins num´eriquement, et le r´esultat ressemble `a peu pr`es `a une loi de probabilit´e.
[Duret et Galtier] La fr´equence de TpA est ´egalement modifi´ee, sans intervention de m´ecanismes auxiliaires.
V´erification : par simulations (sic).
Boˆıte lin´eaire finie ou cercle discret : quel rapport avec le syst`eme sur la droite ?
A cautionary tale
Mod`ele du votant : sommet i dans S, ´etat s(i) = ±.
Evolution :´ s(i) change au taux d(i) := #{j ∼ i;s(j) 6= s(i)}.
Destin en temps grand :
Si S est fini, S devient unicolore puis le reste.
Si S = Z, jusqu’au temps t 1, toute sous-boˆıte finie de S est : – unicolore pendant un temps t − o(t),
– en deux parties unicolores pendant un temps infini, – autre pendant un temps fini,
– toujours de nouveau unicolore + et unicolore −.
(a) le syst`eme converge vers une mesure stationnaire
unique, qui est invariante par les translations (spatiales), (b) on peut calculer exactement ses marginales (la
fr´equence `a l’´equilibre de chaque polynucl´eotide),
(c) cette mesure v´erifie de fortes propri´et´es (impr´evues) d’ind´ependance.
Construction d’une dynamique par processus de Poisson ponctuels
= substitutions « simples ».
τ(x, y) = taux de substitution de x vers y.
Attention : on autorise des substitutions simples (virtuelles) de x vers x.
Donc chaque τ(x, x) est un param`etre libre.
F = substitutions « doubles » de CpG vers CpA et de CpG vers TpG.
On veut repr´esenter l’historique d’une collection finie de sites.
? ? ? ?
• • • • -
• • • •
• • • • • • • •
T C T T
C
A G
C
G
C
G
A C
C
G
A G
G
C
G
A C
C
G F
F
F
F
F
F
F
F
Pour ajouter les substitutions « doubles », les F doivent aller lire le nucl´eotide de gauche JJJ ou celui de droite III, selon les cas.
A G
G
C
G
A C
C
G F
F
F
F
F
F
F
F F III
F JJJ
F JJJ
F III F JJJ
F III
F III
F JJJ
Le r´esultat est que la premi`ere colonne et la derni`ere colonne comportent des jokers.
A G
G
C
G
A C
C
G F C
F A/G
F A
F C
F G
F T
F C/T
F G
On en d´eduit la s´equence actuelle, modulo les jokers.
A G
G
C
G
A C
C
G F C
F A/G
F A
F C
F G
F T
F C/T
F G
Quotient en R/Y
On voit que les substitutions « doubles » deviennent inutiles !
A/G A/G
A/G
C/T
A/G
A/G C/T
C/T
A/G F C/T
F A/G
F A/G
F C/T
F A/G
F C/T
F C/T
F A/G
? ? ? ?
• • • • -
• • • •
• • A/G C/T C/T A/G • •
T C T T
C/T
A/G A/G
C/T
A/G
C/T
A/G
A/G C/T
C/T
A/G
Y = {C, T} = pyrimidines.
? ? ? ?
• • • • -
• • • •
• • A/G C T G • •
T C T T
C
A G
C
G
C
G
A C
C
G F C
F A/G
F A
F C
F G
F T
F C/T
F G
les temps d’attente sont exponentiels.
Avant la superposition des F :
On « quitte » x par une substitution de type au bout d’un temps exponentiel de param`etre
τ(x) := X
y
τ(x, y),
et le « successeur » de x est distribu´e selon la loi σx(·) := τ(x, ·)
τ(x) .
Apr`es la superposition des F :
On remplace C par T (idem pour G et A) et on regarde les cons´equences.
(1) Le temps restant pour quitter C est toujours exponentiel de param`etre τ(C) [c’est le paradoxe de l’autobus] ; alors qu’on veut un temps exponentiel de param`etre τ(T).
(2) Le successeur est toujours d´ecrit par la loi σC(·) ; alors qu’on veut la loi σT(·).
On obtient les bonnes lois si et seulement si
τ(C) = τ(T), σC(·) = σT(·), et donc aussi
τ(G) = τ(A), σG(·) = σA(·).
Donc la construction fonctionne `a la condition que τ(C, ·) = τ(T,·), τ(A,·) = τ(G,·).
A T C G
· vT vC ∗ vA · ∗ vG vA ∗ · vG
∗ vT vC ·
,
avec ∗ = coefficients libres (taux de transitions).
Donc :
A T
A T C G
· vT vC wG
vA · wC vG
.
Exemples : Tamura, Tamura-Nei, Hasegawa-Kishino-Yano, Kimura, Jukes-Cantor. . .
τ(A, T) = τ(G, T), τ(A, C) = τ(G, C), τ(C, A) = τ(T, A), τ(C, G) = τ(T, G).
Substitutions « doubles » : pas de condition.
On peut introduire les taux
τ(CG, CA) et τ(CG, T G), mais aussi les taux
τ(T A, CA), τ(T A, T G),
Sur les s´equences en R/Y Th´eor`eme A L’´evolution de chaque site cod´e en
purine/pyrimidine est autonome et markovienne, avec les taux de substitution
τ(R, Y ) := vT + vC, τ(Y, R) := vA + vG.
La loi de la s´equence en purines/pyrimidines converge vers le produit des lois de Bernoulli
F(R) := (vA + vG)/v, F(Y ) := (vT + vC)/v.
Notation :
v := vA + vT + vC + vG.
Th´eor`eme B Chaque portion de s´equence
{R, T, C}{A, T, C, G}n{A, T, Y } de longueur n + 2 ´evolue de fa¸con autonome.
Corollaire On peut calculer la loi stationnaire des polynucl´eotides de longueur n en consid´erant une marginale de la loi stationnaire d’une chaˆıne de Markov avec 9 × 4n ´etats.
Ind´ependances en nucl´eotides Xi(t) := la valeur du nucl´eotide du site i au temps t.
Hi := collection des horloges et F du site i.
Les collections Hi sont i.i.d.
Th´eor`eme C Pour t > s, Xi(t) ne d´epend que de Xi−1(s), Xi(s), Xi+1(s), et de
Hi−1 ∩ [s, t], Hi ∩ [s, t], Hi+1 ∩ [s, t].
Corollaire (1) Si |i − j| 3, les historiques Xi(·) et Xj(·) des sites i et j sont ind´ependants.
(2) Les collections (Xi(·))i∈I sont ind´ependantes les unes des
autres d`es que les ensembles d’indices I sont `a distance > 3 les uns des autres.
(3) Mˆemes ind´ependances pour la mesure stationnaire–qui existe et qui est unique.
Un exemple Xk := (X3i+k)i.
Sous la mesure stationnaire, chaque Xk est un ´echantillon i.i.d.
De plus, X0, X1 et X2 ont la mˆeme loi mais ne sont pas ind´ependants les uns des autres.
Par cons´equent, le mod`ele est (sans doute) mort pour les biologistes.
(1) Les 8 fr´equences F(x) et F(yz) avec yz de type YpR sont autonomes.
(2) Les 4 fr´equences F(yz) avec yz de type YpR sont solutions d’un syst`eme lin´eaire autonome.
Exemple : Jukes-Cantor + CpG
τ(x, y) ≡ 1 et τ(CG, CA) = τ(CG, T G) = % et pas d’autre substitution « double ».
On veut calculer F(C).
Taux des arriv´ees en C : +1 pour chaque N → C. Taux des d´eparts de C : +1 pour chaque C → N
+% pour CG → T G.
Donc :
d
dtF(C) = 1 − 4F(C) − % F(CG).
De mˆeme,
d
dtF(G) = 1 − 4F(G) − % F(CG).
+1 pour chaque N G → CG.
Taux des d´eparts de CG :
+1 pour chaque CG → CN « simple », +1 pour chaque CG → N G « simple », +% pour CG → CA « double »,
+% pour CG → T G « double ». d
dtF(CG) = F(C) + F(G) − (8 + 2%)F(CG).
On a ferm´e un syst`eme en les inconnues
(F(C), F(G), F(CG)).
Quelques fr´equences stationnaires du mod`ele JC+CpG F(C) = F(G) = 1
4
1 − 2 % 32 + 10%
, F(CG) = 1
16
1 − 10 % 32 + 10%
. Par sym´etrie de A avec T,
F(A) = F(T) = 1 4
1 + 2 % 32 + 10%
.
Les fr´equences des 3 autres dinucl´eotides YpR sont de la mˆeme forme et F(T G) = F(CA) par sym´etrie et renversement de
s´equence :
F(CA) = F(T G) = 1 16
1 + 4 % 32 + 10%
, F(T A) = 1
16
1 + 2 % 32 + 10%
.
F(Y R) = F(Y )F(R), avec
F(Y R) = F(CG) + F(CA) + F(T G) + F(T A), et
F(Y ) = F(C) + F(T), F(R) = F(G) + F(A).
Ici,
F(CG) + F(CA) + F(T G) + F(T A) = 1 4, et
F(Y ) = F(R) = 1 .
Pour les 12 autres dinucl´eotides, les formules sont plus compliqu´ees.
On pose
F(xy) = 1 16
1 + k(xy) % 32 + 10%
. Donc k(xy) ne d´epend pas de % si xy est de type YpR.
Pour calculer les autres valeurs, on pose
k(xy) = k0(xy) + % k1(xy), avec
k0(xy) := lim k(xy) quand % → 0 Alors :
• k0(·) est connu pour tout polynucl´eotide (de toute taille),
• |k1(xy)| ne prend que 2 valeurs.
16 32 + 10% 96 + 19%
F(AC) = 1 16
1 + %
32 + 10%
0 − 4%
32 + 10%
, F(AG) = 1
16
1 + %
32 + 10%
1 − 3%
96 + 19%
, F(AT) = 1
16
1 + %
32 + 10%
4 + 4%
32 + 10%
. Remarque La limite de k(xy) quand % → ∞ existe, est non d´eg´en´er´ee et est disponible (disparition imm´ediate des CpG).
Cas g´en´eral R/Y + YpR (id´ee)
Mˆeme technique dans le cas g´en´eral que si les seuls taux de
substitution « doubles » non nuls sont τ(CG, CA) = τ(CG, T G).
En effet :
x requiert y et CG,
CG requiert x, CA et T G, CA requiert x, CG et T A,
et T A requiert x, CG, CA et T G.
Donc on a bien ferm´e la boucle.
F = vecteur des 4 fr´equences F(xy) avec xy de type YpR.
Alors F est solution d’un syst`eme lin´eaire
((v + w) Id + U) · F = V,
avec des matrices explicites U et V donc tout fonctionne.
En fonction des seuls taux de substitutions « doubles », U est une matrice affine et V est une matrice constante.
Vitesses de convergence
Temps de couplage et distance en variation totale pour n sites.
T := temps de couplage.
Th´eor`eme D P(T > t) 6 exp(−s) avec
t := (4/ac) (log(n) + 1 + s),
et la distance en variation totale entre la distribution au temps t et la distribution stationnaire vaut au plus exp(−s).
Param`etres :
c := X
x
min(vx, wx),
a := (vA + vG)(vT + vC)/v2 6 1/4.
(4/ac) × log(n).
Pendant ce temps le nombre de substitutions effectu´e sera de l’ordre de
Constante × n × log(n).
D’ailleurs il semble qu’on ne puisse jamais faire mieux et que ce soit un r´esultat g´en´eral.
D´etails sur arXiv/math.PR Merci de votre attention.