Sur quelques applications des processus de branchement en biologie mol´eculaire
Didier Piau
Expos´es donn´es les 3 et 4 novembre 2003 `a l’ ´ENS dans le cadre de l’atelier«Applications
`
a la biologie et `a la dynamique des populations» organis´e par le GdR du CNRS sur les interactions de particules (GRIP), voir acm.emath.fr/grip.
Le style est celui de notes de cours, j’ai omis des figures, simulations et dessins utilis´es pendant les expos´es mais ajout´e des r´ef´erences bibliographiques.
Remerciements chaleureux aux participants de ces journ´ees et tout particuli`erement aux organisateurs Hatem Zaag et Thierry Goudon.
Introduction
Processus de branchement : un individu existe pendant un certain temps puis est rem- plac´e par, ou donne naissance `a, un certain nombre d’individus identiques ou similaires ou diff´erents. La d´efinition est vague, c’est expr`es : un des int´erˆets de la notion est de pouvoir subir de nombreuses modifications pour s’adapter aux situations particuli`eres.
Domaines concern´es : biologie mol´eculaire, biologie cellulaire, biologie du d´eveloppement, immunologie, ´evolution, ´ecologie, m´edecine, virologie, etc.
Apports de la th´eorie : comprendre/expliquer des situations parfois contraires `a l’intuition, sugg´erer/d´evelopper de nouveaux protocoles exp´erimentaux, garantir des marges d’erreur, fournir des pr´edictions, etc.
Apports `a la th´eorie : d´evelopper de nouvelles math´ematiques.
Caveat : comme toujours, deux ´ecueils `a ´eviter simultan´ement, le trivial pour les math´e- matiques et le `a-cˆot´e pour la biologie.
Plan
1. Processus de branchement, un rapide survol
2. R´ep´etitions de l’ADN et processus de branchement it´er´es 3. R´eactions PCR et processus de branchement immortels
1 Processus de branchement
1.1 Processus de Galton-Watson simple
Description informelle :{Sn, n>0}processus al´eatoire,nentier. Description de l’´evolution de Sn−1 `a Sn : on se donne une loi (de reproduction) sur les entiers et des v.a.i.i.d.
{Zx(n);x>1, n>1}ind´ependantes de S0 et qui suivent cette loi ; siSn−1 = 0, Sn= 0 ; si Sn−1 >1, Sn=
Sn−1
X
x=1
Zx(n).
1.2 Classification des processus de branchement homog`enes
1.2.1 Une remarque
Puisque E(Sn) =E(Z)nS0, le param`etre m=E(Z) permet de d´ecider si E(Sn) ↑+∞ ou E(Sn) est constante ouE(Sn)↓0.
1.2.2 Deux comportements possibles
L’´etat 0 est (seul ´etat) absorbant : si Sn = 0, alors Sk = 0 pour tout k > n. Fait : Sn tend forc´ement vers 0 ou vers +∞, c’est-`a-dire P(extinction) +P(explosion) = 1 avec explosion ={Sn→ ∞} et extinction ={Sn= 0 `a partir d’un certain rang}.
1.2.3 Trois r´egimes
R´egime sous-critique m <1
L’extinction est presque sˆure et rapide : la queue de la loi du temps d’extinction d´ecroˆıt g´eom´etriquement, i.e. P(Sn6= 0)6mnS0. Population totale finie et d’esp´erance finie.
R´egime sur-critique m >1
La non-extinction est possible et sur la non-extinction, la croissance est rapide. En effet, Sn=mn(W +o(1)) presque sˆurement, avec W >0 al´eatoire et {W = 0}={extinction}.
En particulier, pas de troisi`eme voie entre l’extinction et la croissance g´eom´etrique.
R´egime critique m= 1
L’extinction est presque sˆure, la dur´ee de vie est non int´egrable : P(Sn6= 0)∼c/n.
1.2.4 Processus vs. arbre
Le processus{Sn} (ne) d´ecrit (que) la population totale, on s’int´eresse aussi aux relations de parent´e, d’h´eritage, etc. Cette information est repr´esent´ee par un arbre.
1.2.5 Parenth`ese sur l’arbre critique infini
On peut conditionner la loi critique par la non extinction ! Le r´esultat n’est plus un pro- cessus de Galton-Watson. Il y a Θ(n2) sommets `a distance 6n. Il existe une seule ligne
de descente infinie. La marche au hasard simple au plus proche voisin sur les sommets de cet arbre (al´eatoire) est sous-diffusive : d(Xn, X0)≈n1/3 au moins en loi.
1.3 Outils ´el´ementaires
Fonctions g´en´eratrices : fn(u) =E(uSn),ϕn(u) =E(uZ(n)).
1.3.1 R´ecurrence par les feuilles
La g´en´eration n+ 1 est fabriqu´ee `a partir de la g´en´eration net de l’al´eatoire n→ n+ 1.
Par exemple,Sn+1 =Z1+· · ·+ZSn doncfn+1=fn◦ϕn+1.
1.3.2 R´ecurrence par la racine
La g´en´eration n+ 1 est la somme des contributions, en n g´en´erations, de chacun des individus de la g´en´eration 1. Par exemple,Sn+1 =Sn(1)+· · ·+Sn(S1)doncfn+1 =ϕ1◦f2:n+1 avec des notations qu’on esp`ere ´evidentes.
1.4 Outils semi-´el´ementaires
Processus de Markov de branchement : les sommets de l’arbre sont marqu´es. Si x est l’ancˆetre direct de y, l’´etat s(y) d´epend de s(x) de fa¸con markovienne. Exemple le plus simple :s(y) =s(x) +ξy, tous lesξy i.i.d.
On note|x|l’ˆage de x, le num´ero de sa g´en´eration. Voici deux martingales utiles.
1.4.1 Martingale `a la Biggins Bn
bn, n>0
est une martingale avec Bn= X
|x|=n
us(x) etb=mE(uξ).
1.4.2 Martingale `a la Joffe quand P(Z = 0) = 0 An
an, n>0
est une martingale avecAn= 1 Sn
X
|x|=n
us(x) eta=E(uξ).
On commence par exemple avecE(Bn+1| Fn) = X
|x|=n
us(x)E X
y←x
us(y)−s(x)
! .
2 Branchement it´ er´ e et r´ ep´ etitions de l’ADN
2.1 Motivation
Certaines maladies g´en´etiques sont li´ees `a l’apparition soudaine d’un tr`es grand nombre de r´ep´etitions de certaines portions du mat´eriel g´en´etique. Deux exemples canoniques : le
syndrome X fragile (triplet CCG, nombre normal < 60, affect´e > 200) et la dystrophie myotonique (triplet AGC, nombre normal<25, affect´e >50).
Progression non coh´erente avec les lois mend´eliennes : longue p´eriode de variations relati- vement mod´er´ees, puis croissance explosive et sans retour. Les processus de branchement classiques, mˆeme sur-critiques, ne permettent pas de reproduire ce comportement.
2.2 Un premier mod`ele simple
Soit Yn le nombre de r´ep´etitions diminu´e de 1, apr`es n cycles. ´Evolution Yn → Yn+1
al´eatoire. `A chaque ´etape, on utilise une nouvelle copie ind´ependante{Sk(n+1), k>0}d’un processus de Galton-Watson{Sk, k>0} issu deS0 = 1 avec reproductionZ. Si Yn = 0, Yn+1 = 0. SiYn=y>1,Yn+1=S(n+1)1 +· · ·+Sy(n+1).
A l’´` evidence : siYn= 0,Yk= 0 pour toutk>n; siP(Z = 1) = 1, Sk= 1 pour toutk>0 donc Yn =Y0 pour tout n > 0 ; si P(Z = 0) = 1, Sk = 0 pour tout k >0 donc Yn = 0 pour tout n>1. On se place d´esormais en dehors de ces cas d´eg´en´er´es, donc on suppose queY0>1,P(Z = 1)6= 1 etP(Z = 0)6= 1.
On note p0 = P(Z = 0), m = E(Z), EY l’explosion du processus {Yn} et DY la mort du processus {Yn}, mˆeme si EY correspond `a la mort probable du patient et DY `a une r´emission de la maladie. Ainsi,
EY ={Yn→ ∞}, DY ={Yn= 0 `a partir d’un certain rang}.
Th´eor`eme (Gawel et Kimmel 1996, Pakes 2000) Si p0 6= 0, P(EY) = 1. Si p0 = 0, P(DY) = 1.
Au risque d’insister, un corollaire concerne le cas m > 1. Alors E(Yn) → ∞ mais cette convergence en moyenne ne refl`ete pas (forc´ement) le comportement trajectoriel. En effet, sip0= 0, Yn→ ∞ presque sˆurement mais, sip06= 0, Yn→0 presque sˆurement.
2.3 Un second mod`ele plus r´ealiste
On ajoute la possibilit´e que certaines r´einsertions des r´ep´etitions dans l’ADN lin´eaire
´echouent, donc on compl`ete l’´etapeYn→Yn+1 par un jeu de pile ou face (thinning bino- mial) de probabilit´e de succ`esu ∈[0,1]. Si Xn = 0, Xn+1 = 0. SiXn=x>1,Xn+1 suit une loi binomiale de param`etres uetS1+· · ·+Sx.
Siu= 0 ou siX0 = 0, Xn= 0 pour toutn>1. On suppose donc d´esormais que u >0 et X0 >1.
SoitPx la probabilit´e sachant {X0 =x}. On peut renforcer comme suit les conclusions de Gawel et Kimmel 1996.
Comportement en moyenne
(1) Si m >1, E(Xn) tend vers l’infini.
(2) Si m <1, ou si m= 1 et u <1, E(Xn)→0.
(3) Si m=u= 1, E(Xn) =E(X0).
Comportement presque sˆur (4) Si p0 6= 0, P(DX) = 1.
(5) Si p0 = 0 et u= 1, Px(EX) = 1 pour tout x>1.
(6) Si p0 = 0 et u <1, Px(DX) +Px(EX) = 1 pour tout x >1, Px(DX) et Px(EX) sont strictement positifs etPx(DX)6P1(DX)x. En particulier, Px(EX)→1 quand x→ ∞.
Cas explosif
(7)Si p0 = 0, le comportement deXn est explosif surEX, au sens o`u, conditionnellement
`
a EX, Xn+1/Xn→ ∞ et, plus pr´ecis´ement,
(logXn+1)/Xn→logm presque sˆurement.
Les hypoth`eses de (1) et (4) peuvent ˆetre r´ealis´ees simultan´ement donc E(Xn) → ∞ et P(DX) = 1 ne sont pas contradictoires.
Quandp0= 0 et dans le cas particulier o`uu m >1, on peut majorer explicitementP1(DX) parq <1 en utilisant la fonction g´en´eratrice deZ, et doncPx(DX) parqx.
2.4 Conclusion
La croissance deXnest (au moins) exponentielle et aussi fortement exponentielle que l’on veut, du moins `a partir du moment o`u on atteint un seuil ad´equat. Le mod`ele rend donc compte de cet aspect du ph´enom`ene.
3 R´ eactions PCR et bornes exactes pour les processus de branchement immortels
3.1 PCR
PCR = polymerase chain reaction. Analogue pour la biologie mol´eculaire de l’invention de la roue. Lire Kary Mullis.
R´ep´etition de cycles de trois phases : d´enaturation, hybridation d’amorces sp´ecifiques, extension grˆace (par exemple) `a Thermus aquaticus (Taq).
Ordres de grandeur : ADNHomo sapiens = 108–109 bp (paires de bases), longueur de la cible = 102–104 bp, longueur des amorces = 15–20 bp, n = 25–30 cycles, population de d´epart S0>1, erreurs = 1 pour 105–1011 bases.
Des points `a noter : la population de d´epart peut ˆetre petite ; les taux d’erreurs men- tionn´es dans la litt´erature sont souvent pifom´etriques ; les r´eactions de PCR mutag`enes, appel´ees aussi exp´eriences d’´evolution in vitro, reviennent `a se placer d´elib´er´ement dans des conditions exp´erimentales `a fort taux de mutation.
Deux sources d’alea : les r´eplications incompl`etes d’une cible et les incorporations in- correctes (et non r´epar´ees) d’un nucl´eotide. Deux param`etres : l’efficacit´e λ (en phase exponentielle,Sn∼(1 +λ)nS0), le taux de mutationµ(nombre moyen de mutations par cycle par base ou par s´equence).
Moyen : mod´elisation de la diversit´e statistique de la population apr`esncycles.
Applications : m´edecine l´egale, d´etection pr´ecoce du cancer (probl`eme des faux positifs), ADN pr´ehistorique, etc.
3.2 Mod`ele
Deux noyaux de transitions sont possibles.
Dans le noyau produit, chaque site mute avec probabilit´ep; toutes les mutations ont pour probabilit´e p/3 ; les L sites sont i.i.d. ; on compte le nombre de sites “faux”. Chaˆıne de Markov sur{0,1, . . . , L}.{Transitions compliqu´ees, m´ecanisme simple.}
Le noyau additif peut ˆetre vu comme la limite du noyau produit quand p → 0, L → ∞ et p L → µ; ou bien on compte toutes les mutations ; ou bien on n´eglige les mutations doubles sur le mˆeme site. Six→y,s(x)→s(y) =s(x) +ξy et (ξy) i.i.d. Chaˆıne de Markov sur les entiers positifs.
D´esormais, le noyau est additif, {x1, . . . , x`} est un ´echantillon uniforme au temps n, Un=s(x1) et Mn=`−1
`
X
i=1
s(xi).
Pour obtenir un estimateur ponctuel de µ=E(ξ), il suffirait de r´esoudreMobs =Eµ(Mn) ou Mobs =Eµ(Un). Probl`eme : E(Un) n’est pas calculable.
Pourtant : Sun et al. 1995 et 2000, Weiss et von Haeseler 1995. Id´ee implicite : en«champ moyen», i.e. si S0 → ∞, ¸ca marche.
3.3 Champ moyen
Une d´emonstration : Quelle est la proportioncn de s´equences qui sont pr´esentes au temps net cr´e´ees pendant le n`eme cycle ?
cn= (Sn−Sn−1)/Sn. Or :Sn∼Sn−1E(Zx) =Sn−1(1 +λn) Donccn=λn/(1 +λn) Champ moyen La variable al´eatoire Un∗ suit la loi de ε1ξ1+· · ·+εnξn avec (εk) et (ξk) ind´ependants, εk Bernoulli 0–1 et P(εk = 1) =λk/(1 +λk). De mˆeme, Mn∗ suit la loi du barycentre de `copies i.i.d. de Un∗.
D’o`u :E(Mn∗), var(Mn∗), asymptotiques gaussiennes, poissoniennes, intervalles de confiance de l’estimateurµ, etc.b
Quelle est la validit´e de l’approximation de champ moyen ? Dans Weiss et von Haeseler, pas de r´eponse. Dans Sun, mention d’une borneS0(1 +λ)2n (et plutˆotS0 (1 +λ)3n, si on suit l’argument). Probl`eme : mais n→ ∞, mais la phase exponentielle.
Pourtant : simulations. Weiss et von Haeseler pourS0 = 1 et efficacit´e constante. De plus, Weiss et von Haeseler 1997 : Monte Carlo par coalescent et pour des efficacit´es variables.
L’explication peut s’´enoncer comme un
M´etath´eor`emeL’approximation de champ moyen n’entraˆıne qu’une erreur d’ordre1/S0.
3.4 In´egalit´es
On va d´evelopper le m´etath´eor`eme dans un cas simple. Des extensions sont valables pour d’autres noyaux markoviens, d’autres m´ecanismes de branchement (de carr´e int´egrable), pour des distances de Hamming (utiles si on ne connaˆıt pas l’´etat de d´epart), etc.
(1) Moyennes
E(Mn) =E(Mn∗)−µB =E(Un∗)−µB,
avec B−/S0 6 B 6 B+/S0 et B± positifs, explicites, raisonnables, ne d´ependent que de (λk). Borne universelle : pour tout sch´ema (λk),B 62/S0.
(2) Variances
var(Mn) = var(Un∗)/`−C/`+ (1−1/`)D,
avecC−/S06C6C+/S0,D−/S0 6D6D+/S0 etC±etD± ne d´ependent que de (λk), µ2 etvar(ξ). Bornes universelles sur C et D.
(3) Distributions
La variable al´eatoire Un∗ domine stochastiquement la variable al´eatoire Un et la distance en variation totale entre leurs lois est major´ee parB 6B+/S0.
Deux rappels :
(i) X domine stochastiquement Y si : P(X > x) > P(Y > x) pour tout x, ou de fa¸con
´equivalente, s’il existeX0de loi la loi deXetY0 de loi la loi deY tels queX0>Y0presque sˆurement ;
(ii) la distance en variation totale entreν etν0 discr`etes est 12P
x|ν(x)−ν∗(x)|.
3.5 Cons´equences pour l’estimateur
Pas d’explosion de l’erreur quand n → ∞ L’estimateur de champ moyen sous-estime µ.
Dans certains cas (r´ealistes), correction importante (entre +33% et +63%). Zone explicite
«de s´ecurit´e» o`u le biais est n´egligeable : n S0 inf(λk) 1. Dans le cas homog`ene, la distance en variation totale est62(1−λ)/S0, donc →0 siλ→1. Dans le cas homog`ene, analogue si λ→ 0 mais seulement `a partir de nλ 1, donc invisible sur les simulations de Weiss et von Haeseler.
3.6 Cons´equences pour la variance
D`es que ` > 3, var(Mn) > var(Mn∗). En particulier, var(Mn) ne tend pas vers 0 quand
`→ ∞. Augmenter la taille `de l’´echantillon devient vite inutile : `cr≈n S0. {Echantillons de populations finies fortement corr´´ el´ees.}
3.7 Extensions
La d´emarche ci-dessus (description du champ moyen puis ´ecarts de la population finie au champ moyen) reste valable dans un cadre beaucoup plus g´en´eral. Par exemple :
A la g´` en´erationn,x→Zx>1 descendants avec (Zx)xi.i.d. de loi la loi deLn. Si{Zx =k}, descendants (x1, . . . , xk) et incr´ements (ξ(x1), . . . , ξ(xk)) de loi πn,k.
Soit µn,k la somme sur i des moyennes des marginales deπn,k et ρn la loi biais´ee de Ln : ρn(j) =j αn,j,αn,j =P(Ln=j)/E(Ln).
{Dans le cas PCR,Ln= 1 ou 2, πn,1=δ0,πn,2=δ0⊗Poisson(µ).}
Champ moyen La variable al´eatoire Un∗ suit la loi de ξ1∗ +· · · +ξn∗ o`u les ξk∗ sont ind´ependantes et distribu´ees comme suit : on tire j > 1 selon la loi ρn, puis un indice iuniforme entre 1 et j, puis ξn∗ selon la i`eme marginale de πn,j.
Donc esp´erance et variance du champ moyen puis ´ecarts en 1/S0avec constantes explicites.
3.8 Conclusion
Estimateurs ponctuels non calculables, sauf en population infinie. D´eviations n´egligeables d`es les petites populations. Variabilit´e importante et incompressible.
Pour un ´echantillon pr´esentantN mutations au total, l’intervalle de confiance de niveau 1−1/z2 est de la forme[1−z/√
N ,1 +z/√ N].
Ceci reste (essentiellement) vrai pour des efficacit´es al´eatoires (loi de Michaelis-Menten. . .).
4 La suite
Il aurait fallu traiter au moins les points suivants : processus de branchement multi-types, logistiques, bisexu´es, asexu´es, avec promiscuit´e, malthusiens (en environnements al´eatoires presque critiques), avec ´ev´enements d´esastreux, avec immigration, avec ´emigration . . . Et aussi parler de mod`eles du cycle cellulaire, de parasitologie qualitative, de raccourcis- sement des t´elom`eres, de g´en´etique du vieillissement.
Mais encore de processus de branchement en temps continu, de mod`eles de coalescent . . .
R´ ef´ erences
On peut commencer par [1] pour les sections 1 et 2 et par [4] pour la section 3 puis se reporter aux bibliographies de ces deux r´ef´erencest. Je pr´epare une note [8] sur les r´esultats de la section 2 ainsi qu’un texte d’introduction [7] `a certains des th`emes abord´es dans ces notes, destin´e `a des non math´ematiciens.
[1] Kimmel, M., Axelrod, D. E.Branching processes in biology. Interdisciplinary Applied Mathematics 19, Springer-Verlag, New York (2002).
[2] Mullis, K.Dancing Naked in the Mind Field. Pantheon Books, New York (1998).
[3] Piau, D. Processus de branchement en champ moyen et r´eaction PCR. Advances in Applied Probabability 33 (2), 391–403 (2001).
[4] Piau, D. Mutation-replication statistics of polymerase chain reactions. Journal of Computational Biology 9 (6), 831–847 (2002).
[5] Piau, D. Immortal branching Markov processes, averaging properties and applications to polymerase chain reactions. `A paraˆıtre auxAnnals of Probability (2003).
[6] Piau, D. Confidence intervals for non homogeneous branching processes and PCR reactions. `A paraˆıtre auxAnnals of Probability (2004).
[7] Piau, D. Estimation of PCR parameters and related branching processes, a tutorial for biologists. En pr´eparation (2004+).
[8] Piau, D. Sur le processus de branchement it´er´e de Gawel et Kimmel. En pr´eparation (2004+).
[9] Sun, F. The polymerase chain reaction and branching processes. Journal of Compu- tational Biology 2 (1), 63–86 (1995).
[10] Wang, D., Zhao, C., Cheng, R., Sun, F. Estimation of the mutation rate during error-prone polymerase chain reaction. Journal of Computational Biology7, 143–158 (2000).
[11] Weiss, G., von Haeseler, A. Modeling the polymerase chain reaction. Journal of Computational Biology 2 (1), 49–61 (1995).
[12] Weiss, G., von Haeseler, A. A coalescent approach to the polymerase chain reaction.
Nucleic Acids Research, 25 (15), 3082–3087 (1997).
Universit´e Lyon 1 ex–LaPCS
Domaine de Gerland 50 avenue Tony-Garnier 69366 Lyon Cedex 07
Didier.Piau@univ-lyon1.fr lapcs.univ-lyon1.fr/∼piau