• Aucun résultat trouvé

Sur quelques mod` eles d’´ evolution de s´ equences de nucl´ eotides avec d´ ependance du voisinage

N/A
N/A
Protected

Academic year: 2022

Partager "Sur quelques mod` eles d’´ evolution de s´ equences de nucl´ eotides avec d´ ependance du voisinage"

Copied!
45
0
0

Texte intégral

(1)

Sur quelques mod` eles d’´ evolution de s´ equences de nucl´ eotides avec d´ ependance du voisinage

Jean B´erard (1), Jean-Baptiste Gou´er´e (2) et Didier Piau (3)

(1) Institut Camille Jordan UMR 5208 Universit´e Lyon 1

(2) Laboratoire MAPMO UMR 6628 Universit´e d’Orl´eans

(3) Institut Fourier UMR 5582 Universit´e Grenoble 1

(2)

ou infinie.

Evolution (temporelle) par substitutions (pas d’insertions ni de´ suppressions).

Dans les mod`eles classiques, les taux de substitution ne d´ependent que du nucl´eotide au site consid´er´e.

Par cons´equent,

– chaque site ´evolue ind´ependamment de tous les autres,

– les historiques des sites r´ealisent des copies ind´ependantes d’un processus markovien,

– chaque copie converge en loi vers la mesure stationnaire,

(3)

Mais on sait bien que

(a) les fr´equences observ´ees ne sont pas des produits,

(b) et d’ailleurs, les taux de substitution en un site d´ependent aussi des voisins du site.

Un exemple connu et massif : les ˆılots CpG.

– C mute vers T [jusqu’`a] 10 fois plus souvent quand C fait partie de CG.

– (Donc) G mute vers A [jusqu’`a] 10 fois plus souvent quand G fait partie de CG.

(4)

τ(x, x0 |yxz).

Cˆone d’influence

Les fr´equences stationnaires F(x) d´ependent des fr´equences F(yxz).

Les fr´equences F(yxz) d´ependent elles-mˆemes des F(uyxzv).

Und so weiter. . .

. . . donc on est coinc´e.

(5)

R´esolution approch´ee d’un mod`ele avec substitutions

« doubles » li´ees aux CpG

Laurent Duret et Nicolas Galtier, Molecular Biology and Evolution (2000) : mod`ele de Tamura `a 2 param`etres + CpG vers CpA et CpG vers TpG au mˆeme taux.

Ici, les F(x) d´ependent des F(xy). Les F(xy) d´ependent des F(xyz), etc.

Id´ee : F(xyz) ≈ F(xy) F(yz)/F(y) (∗) Remarques :

(1) Dans un autre contexte : Bethe Ansatz, approximation de Kikuchi, . . .

(2) La formule (∗) serait exacte pour une chaˆıne de Markov (spatiale).

(6)

Donc on peut r´esoudre, au moins num´eriquement, et le r´esultat ressemble `a peu pr`es `a une loi de probabilit´e.

[Duret et Galtier] La fr´equence de TpA est ´egalement modifi´ee, sans intervention de m´ecanismes auxiliaires.

V´erification : par simulations (sic).

Boˆıte lin´eaire finie ou cercle discret : quel rapport avec le syst`eme sur la droite ?

(7)

A cautionary tale

Mod`ele du votant : sommet i dans S, ´etat s(i) = ±.

Evolution :´ s(i) change au taux d(i) := #{j ∼ i;s(j) 6= s(i)}.

Destin en temps grand :

Si S est fini, S devient unicolore puis le reste.

Si S = Z, jusqu’au temps t 1, toute sous-boˆıte finie de S est : – unicolore pendant un temps t − o(t),

– en deux parties unicolores pendant un temps infini, – autre pendant un temps fini,

– toujours de nouveau unicolore + et unicolore −.

(8)

(a) le syst`eme converge vers une mesure stationnaire

unique, qui est invariante par les translations (spatiales), (b) on peut calculer exactement ses marginales (la

fr´equence `a l’´equilibre de chaque polynucl´eotide),

(c) cette mesure v´erifie de fortes propri´et´es (impr´evues) d’ind´ependance.

(9)

Construction d’une dynamique par processus de Poisson ponctuels

= substitutions « simples ».

τ(x, y) = taux de substitution de x vers y.

Attention : on autorise des substitutions simples (virtuelles) de x vers x.

Donc chaque τ(x, x) est un param`etre libre.

F = substitutions « doubles » de CpG vers CpA et de CpG vers TpG.

On veut repr´esenter l’historique d’une collection finie de sites.

(10)

(11)

? ? ? ?

-

T C T T

C

A G

C

G

C

G

A C

C

G

(12)

A G

G

C

G

A C

C

G F

F

F

F

F

F

F

F

(13)

Pour ajouter les substitutions « doubles », les F doivent aller lire le nucl´eotide de gauche JJJ ou celui de droite III, selon les cas.

(14)

A G

G

C

G

A C

C

G F

F

F

F

F

F

F

F F III

F JJJ

F JJJ

F III F JJJ

F III

F III

F JJJ

(15)

Le r´esultat est que la premi`ere colonne et la derni`ere colonne comportent des jokers.

(16)

A G

G

C

G

A C

C

G F C

F A/G

F A

F C

F G

F T

F C/T

F G

(17)

On en d´eduit la s´equence actuelle, modulo les jokers.

(18)

A G

G

C

G

A C

C

G F C

F A/G

F A

F C

F G

F T

F C/T

F G

(19)

Quotient en R/Y

On voit que les substitutions « doubles » deviennent inutiles !

(20)

A/G A/G

A/G

C/T

A/G

A/G C/T

C/T

A/G F C/T

F A/G

F A/G

F C/T

F A/G

F C/T

F C/T

F A/G

(21)

? ? ? ?

-

A/G C/T C/T A/G

T C T T

C/T

A/G A/G

C/T

A/G

C/T

A/G

A/G C/T

C/T

A/G

(22)

Y = {C, T} = pyrimidines.

(23)

? ? ? ?

-

A/G C T G

T C T T

C

A G

C

G

C

G

A C

C

G F C

F A/G

F A

F C

F G

F T

F C/T

F G

(24)

les temps d’attente sont exponentiels.

Avant la superposition des F :

On « quitte » x par une substitution de type au bout d’un temps exponentiel de param`etre

τ(x) := X

y

τ(x, y),

et le « successeur » de x est distribu´e selon la loi σx(·) := τ(x, ·)

τ(x) .

(25)

Apr`es la superposition des F :

On remplace C par T (idem pour G et A) et on regarde les cons´equences.

(1) Le temps restant pour quitter C est toujours exponentiel de param`etre τ(C) [c’est le paradoxe de l’autobus] ; alors qu’on veut un temps exponentiel de param`etre τ(T).

(2) Le successeur est toujours d´ecrit par la loi σC(·) ; alors qu’on veut la loi σT(·).

On obtient les bonnes lois si et seulement si

τ(C) = τ(T), σC(·) = σT(·), et donc aussi

τ(G) = τ(A), σG(·) = σA(·).

Donc la construction fonctionne `a la condition que τ(C, ·) = τ(T,·), τ(A,·) = τ(G,·).

(26)

A T C G

· vT vC ∗ vA · ∗ vG vA ∗ · vG

∗ vT vC ·

 ,

avec ∗ = coefficients libres (taux de transitions).

Donc :

A T

A T C G

· vT vC wG

vA · wC vG

 .

(27)

Exemples : Tamura, Tamura-Nei, Hasegawa-Kishino-Yano, Kimura, Jukes-Cantor. . .

(28)













τ(A, T) = τ(G, T), τ(A, C) = τ(G, C), τ(C, A) = τ(T, A), τ(C, G) = τ(T, G).

Substitutions « doubles » : pas de condition.

On peut introduire les taux

τ(CG, CA) et τ(CG, T G), mais aussi les taux

τ(T A, CA), τ(T A, T G),

(29)

Sur les s´equences en R/Y Th´eor`eme A L’´evolution de chaque site cod´e en

purine/pyrimidine est autonome et markovienne, avec les taux de substitution

τ(R, Y ) := vT + vC, τ(Y, R) := vA + vG.

La loi de la s´equence en purines/pyrimidines converge vers le produit des lois de Bernoulli

F(R) := (vA + vG)/v, F(Y ) := (vT + vC)/v.

Notation :

v := vA + vT + vC + vG.

(30)

Th´eor`eme B Chaque portion de s´equence

{R, T, C}{A, T, C, G}n{A, T, Y } de longueur n + 2 ´evolue de fa¸con autonome.

Corollaire On peut calculer la loi stationnaire des polynucl´eotides de longueur n en consid´erant une marginale de la loi stationnaire d’une chaˆıne de Markov avec 9 × 4n ´etats.

(31)

Ind´ependances en nucl´eotides Xi(t) := la valeur du nucl´eotide du site i au temps t.

Hi := collection des horloges et F du site i.

Les collections Hi sont i.i.d.

Th´eor`eme C Pour t > s, Xi(t) ne d´epend que de Xi1(s), Xi(s), Xi+1(s), et de

Hi1 ∩ [s, t], Hi ∩ [s, t], Hi+1 ∩ [s, t].

(32)

Corollaire (1) Si |i − j| 3, les historiques Xi(·) et Xj(·) des sites i et j sont ind´ependants.

(2) Les collections (Xi(·))iI sont ind´ependantes les unes des

autres d`es que les ensembles d’indices I sont `a distance > 3 les uns des autres.

(3) Mˆemes ind´ependances pour la mesure stationnaire–qui existe et qui est unique.

(33)

Un exemple Xk := (X3i+k)i.

Sous la mesure stationnaire, chaque Xk est un ´echantillon i.i.d.

De plus, X0, X1 et X2 ont la mˆeme loi mais ne sont pas ind´ependants les uns des autres.

Par cons´equent, le mod`ele est (sans doute) mort pour les biologistes.

(34)

(1) Les 8 fr´equences F(x) et F(yz) avec yz de type YpR sont autonomes.

(2) Les 4 fr´equences F(yz) avec yz de type YpR sont solutions d’un syst`eme lin´eaire autonome.

(35)

Exemple : Jukes-Cantor + CpG

τ(x, y) ≡ 1 et τ(CG, CA) = τ(CG, T G) = % et pas d’autre substitution « double ».

On veut calculer F(C).

Taux des arriv´ees en C : +1 pour chaque N → C. Taux des d´eparts de C : +1 pour chaque C → N

+% pour CG → T G.

Donc :

d

dtF(C) = 1 − 4F(C) − % F(CG).

De mˆeme,

d

dtF(G) = 1 − 4F(G) − % F(CG).

(36)

+1 pour chaque N G → CG.

Taux des d´eparts de CG :

+1 pour chaque CG → CN « simple », +1 pour chaque CG → N G « simple », +% pour CG → CA « double »,

+% pour CG → T G « double ». d

dtF(CG) = F(C) + F(G) − (8 + 2%)F(CG).

On a ferm´e un syst`eme en les inconnues

(F(C), F(G), F(CG)).

(37)

Quelques fr´equences stationnaires du mod`ele JC+CpG F(C) = F(G) = 1

4

1 − 2 % 32 + 10%

, F(CG) = 1

16

1 − 10 % 32 + 10%

. Par sym´etrie de A avec T,

F(A) = F(T) = 1 4

1 + 2 % 32 + 10%

.

Les fr´equences des 3 autres dinucl´eotides YpR sont de la mˆeme forme et F(T G) = F(CA) par sym´etrie et renversement de

s´equence :

F(CA) = F(T G) = 1 16

1 + 4 % 32 + 10%

, F(T A) = 1

16

1 + 2 % 32 + 10%

.

(38)

F(Y R) = F(Y )F(R), avec

F(Y R) = F(CG) + F(CA) + F(T G) + F(T A), et

F(Y ) = F(C) + F(T), F(R) = F(G) + F(A).

Ici,

F(CG) + F(CA) + F(T G) + F(T A) = 1 4, et

F(Y ) = F(R) = 1 .

(39)

Pour les 12 autres dinucl´eotides, les formules sont plus compliqu´ees.

On pose

F(xy) = 1 16

1 + k(xy) % 32 + 10%

. Donc k(xy) ne d´epend pas de % si xy est de type YpR.

Pour calculer les autres valeurs, on pose

k(xy) = k0(xy) + % k1(xy), avec

k0(xy) := lim k(xy) quand % → 0 Alors :

• k0(·) est connu pour tout polynucl´eotide (de toute taille),

• |k1(xy)| ne prend que 2 valeurs.

(40)

16 32 + 10% 96 + 19%

F(AC) = 1 16

1 + %

32 + 10%

0 − 4%

32 + 10%

, F(AG) = 1

16

1 + %

32 + 10%

1 − 3%

96 + 19%

, F(AT) = 1

16

1 + %

32 + 10%

4 + 4%

32 + 10%

. Remarque La limite de k(xy) quand % → ∞ existe, est non d´eg´en´er´ee et est disponible (disparition imm´ediate des CpG).

(41)

Cas g´en´eral R/Y + YpR (id´ee)

Mˆeme technique dans le cas g´en´eral que si les seuls taux de

substitution « doubles » non nuls sont τ(CG, CA) = τ(CG, T G).

En effet :

x requiert y et CG,

CG requiert x, CA et T G, CA requiert x, CG et T A,

et T A requiert x, CG, CA et T G.

Donc on a bien ferm´e la boucle.

(42)

F = vecteur des 4 fr´equences F(xy) avec xy de type YpR.

Alors F est solution d’un syst`eme lin´eaire

((v + w) Id + U) · F = V,

avec des matrices explicites U et V donc tout fonctionne.

En fonction des seuls taux de substitutions « doubles », U est une matrice affine et V est une matrice constante.

(43)

Vitesses de convergence

Temps de couplage et distance en variation totale pour n sites.

T := temps de couplage.

Th´eor`eme D P(T > t) 6 exp(−s) avec

t := (4/ac) (log(n) + 1 + s),

et la distance en variation totale entre la distribution au temps t et la distribution stationnaire vaut au plus exp(−s).

Param`etres :

c := X

x

min(vx, wx),

a := (vA + vG)(vT + vC)/v2 6 1/4.

(44)

(4/ac) × log(n).

Pendant ce temps le nombre de substitutions effectu´e sera de l’ordre de

Constante × n × log(n).

D’ailleurs il semble qu’on ne puisse jamais faire mieux et que ce soit un r´esultat g´en´eral.

(45)

D´etails sur arXiv/math.PR Merci de votre attention.

Références

Documents relatifs

E2 Savoir utiliser la propriété fondamentale du barycentre1. ABC est

Ce devoir est constitu´ e d’un probl` eme de

L'application qui a une suite associe la diérence de deux termes consécutifs est un endomorphisme de E a dont l'image est incluse dans F a qui est de dimension 2?. Le noyau de

On pourra utiliser la formule de Leibniz et préciser les termes contribuant réelle- ment aux sommes

Elles convergent donc toutes les deux et vers la mˆ eme limite.. Donc f n est d´ erivable comme somme et produit de fonctions

On n’a pas l’unicit´ e si p n’est

Pour t 6= 0 fix´e, la suite converge vers 2t (quotient des termes de plus haut degr´e

On peut aussi dire que comme les augmentations sont en pourcentage, cela correspond à des situations de proportionnalité et donc que l’augmentation sera toujours de 18 % du prix