Sur quelques applications des processus de branchement en biologie mol´eculaire

(1)

Sur quelques applications des processus de branchement en biologie mol´eculaire

Didier Piau

Exposés donnés les 3 et 4 novembre 2003 à l’ ÉNS dans le cadre de l’atelier«Applications

`

a la biologie et `a la dynamique des populations» organis´e par le GdR du CNRS sur les interactions de particules (GRIP), voir acm.emath.fr/grip.

Le style est celui de notes de cours, j’ai omis des figures, simulations et dessins utilisés pendant les exposés mais ajouté des références bibliographiques.

Remerciements chaleureux aux participants de ces journ´ees et tout particuli`erement aux organisateurs Hatem Zaag et Thierry Goudon.

Introduction

Processus de branchement : un individu existe pendant un certain temps puis est rem- placé par, ou donne naissance à, un certain nombre d’individus identiques ou similaires ou différents. La définition est vague, c’est exprès : un des intérêts de la notion est de pouvoir subir de nombreuses modifications pour s’adapter aux situations particulières.

Domaines concernés : biologie moléculaire, biologie cellulaire, biologie du développement, immunologie, évolution, écologie, médecine, virologie, etc.

Apports de la théorie : comprendre/expliquer des situations parfois contraires à l’intuition, suggérer/développer de nouveaux protocoles expérimentaux, garantir des marges d’erreur, fournir des prédictions, etc.

Apports à la théorie : développer de nouvelles mathématiques.

Caveat : comme toujours, deux écueils à éviter simultanément, le trivial pour les mathé- matiques et le à-côté pour la biologie.

Plan

1. Processus de branchement, un rapide survol

2. Répétitions de l’ADN et processus de branchement itérés 3. Réactions PCR et processus de branchement immortels

(2)

1 Processus de branchement

1.1 Processus de Galton-Watson simple

Description informelle :{S_n, n>0}processus aléatoire,nentier. Description de l’évolution de Sn−1 à S_n : on se donne une loi (de reproduction) sur les entiers et des v.a.i.i.d.

{Z_x⁽ⁿ⁾;x>1, n>1}ind´ependantes de S₀ et qui suivent cette loi ; siSn−1 = 0, S_n= 0 ; si Sn−1 >1, Sn=

Sn−1

X

x=1

Z_x⁽ⁿ⁾.

1.2 Classification des processus de branchement homog`enes

1.2.1 Une remarque

Puisque E(Sn) =E(Z)ⁿS0, le param`etre m=E(Z) permet de d´ecider si E(Sn) ↑+∞ ou E(Sn) est constante ouE(Sn)↓0.

1.2.2 Deux comportements possibles

L’état 0 est (seul état) absorbant : si S_n = 0, alors S_k = 0 pour tout k > n. Fait : S_n tend forcément vers 0 ou vers +∞, c’est-à-dire P(extinction) +P(explosion) = 1 avec explosion ={S_n→ ∞} et extinction ={S_n= 0 à partir d’un certain rang}.

1.2.3 Trois r´egimes

R´egime sous-critique m <1

L’extinction est presque sûre et rapide : la queue de la loi du temps d’extinction décroˆıt géométriquement, i.e. P(Sn6= 0)6mⁿS0. Population totale finie et d’espérance finie.

R´egime sur-critique m >1

La non-extinction est possible et sur la non-extinction, la croissance est rapide. En effet, Sn=mⁿ(W +o(1)) presque sˆurement, avec W >0 al´eatoire et {W = 0}={extinction}.

En particulier, pas de troisième voie entre l’extinction et la croissance géométrique.

R´egime critique m= 1

L’extinction est presque sûre, la durée de vie est non intégrable : P(Sn6= 0)∼c/n.

1.2.4 Processus vs. arbre

Le processus{S_n} (ne) décrit (que) la population totale, on s’intéresse aussi aux relations de parenté, d’héritage, etc. Cette information est représentée par un arbre.

1.2.5 Parenth`ese sur l’arbre critique infini

On peut conditionner la loi critique par la non extinction ! Le r´esultat n’est plus un processus de Galton-Watson. Il y a Θ(n²) sommets `a distance 6n. Il existe une seule ligne

(3)

de descente infinie. La marche au hasard simple au plus proche voisin sur les sommets de cet arbre (al´eatoire) est sous-diffusive : d(X_n, X₀)≈n^1/3 au moins en loi.

1.3 Outils ´el´ementaires

Fonctions g´en´eratrices : fn(u) =E(u^Sⁿ),ϕn(u) =E(u^Z⁽ⁿ⁾).

1.3.1 R´ecurrence par les feuilles

La génération n+ 1 est fabriquée à partir de la génération net de l’aléatoire n→ n+ 1.

Par exemple,S_n+1 =Z₁+· · ·+Z_S_n doncf_n+1=f_n◦ϕ_n+1.

1.3.2 R´ecurrence par la racine

La génération n+ 1 est la somme des contributions, en n générations, de chacun des individus de la génération 1. Par exemple,S_n+1 =S_n⁽¹⁾+· · ·+S_n^(S¹⁾doncf_n+1 =ϕ₁◦f_2:n+1 avec des notations qu’on espère évidentes.

1.4 Outils semi-´el´ementaires

Processus de Markov de branchement : les sommets de l’arbre sont marqués. Si x est l’ancêtre direct de y, l’état s(y) dépend de s(x) de fa¸con markovienne. Exemple le plus simple :s(y) =s(x) +ξy, tous lesξy i.i.d.

On note|x|l’âge de x, le numéro de sa génération. Voici deux martingales utiles.

1.4.1 Martingale `a la Biggins B_n

bⁿ, n>0

est une martingale avec B_n= X

|x|=n

u^s(x) etb=mE(u^ξ).

1.4.2 Martingale `a la Joffe quand P(Z = 0) = 0 A_n

aⁿ, n>0

est une martingale avecA_n= 1 Sn

X

|x|=n

u^s(x) eta=E(u^ξ).

On commence par exemple avecE(Bn+1| F_n) = X

|x|=n

u^s(x)E X

y←x

u^s(y)−s(x)

! .

2 Branchement it´ er´ e et r´ ep´ etitions de l’ADN

2.1 Motivation

Certaines maladies génétiques sont liées à l’apparition soudaine d’un très grand nombre de répétitions de certaines portions du matériel génétique. Deux exemples canoniques : le

(4)

syndrome X fragile (triplet CCG, nombre normal < 60, affect´e > 200) et la dystrophie myotonique (triplet AGC, nombre normal<25, affect´e >50).

Progression non cohérente avec les lois mendéliennes : longue période de variations relati- vement modérées, puis croissance explosive et sans retour. Les processus de branchement classiques, même sur-critiques, ne permettent pas de reproduire ce comportement.

2.2 Un premier mod`ele simple

Soit Yn le nombre de répétitions diminué de 1, après n cycles. Évolution Yn → Yn+1

aléatoire. À chaque étape, on utilise une nouvelle copie indépendante{S_k⁽ⁿ⁺¹⁾, k>0}d’un processus de Galton-Watson{S_k, k>0} issu deS₀ = 1 avec reproductionZ. Si Y_n = 0, Y_n+1 = 0. SiY_n=y>1,Y_n+1=S⁽ⁿ⁺¹⁾₁ +· · ·+Sy⁽ⁿ⁺¹⁾.

A l’´` evidence : siYn= 0,Yk= 0 pour toutk>n; siP(Z = 1) = 1, Sk= 1 pour toutk>0 donc Yn =Y0 pour tout n > 0 ; si P(Z = 0) = 1, S_k = 0 pour tout k >0 donc Yn = 0 pour tout n>1. On se place désormais en dehors de ces cas dégénérés, donc on suppose queY0>1,P(Z = 1)6= 1 etP(Z = 0)6= 1.

On note p0 = P(Z = 0), m = E(Z), E_Y l’explosion du processus {Y_n} et D_Y la mort du processus {Y_n}, même si E_Y correspond à la mort probable du patient et D_Y à une rémission de la maladie. Ainsi,

E_Y ={Y_n→ ∞}, D_Y ={Y_n= 0 `a partir d’un certain rang}.

Th´eor`eme (Gawel et Kimmel 1996, Pakes 2000) Si p₀ 6= 0, P(E_Y) = 1. Si p₀ = 0, P(D_Y) = 1.

Au risque d’insister, un corollaire concerne le cas m > 1. Alors E(Yn) → ∞ mais cette convergence en moyenne ne reflète pas (forcément) le comportement trajectoriel. En effet, sip0= 0, Yn→ ∞ presque sûrement mais, sip06= 0, Yn→0 presque sûrement.

2.3 Un second mod`ele plus r´ealiste

On ajoute la possibilité que certaines réinsertions des répétitions dans l’ADN linéaire

échouent, donc on complète l’étapeYn→Yn+1 par un jeu de pile ou face (thinning bino- mial) de probabilité de succèsu ∈[0,1]. Si Xn = 0, Xn+1 = 0. SiXn=x>1,Xn+1 suit une loi binomiale de paramètres uetS₁+· · ·+S_x.

Siu= 0 ou siX0 = 0, Xn= 0 pour toutn>1. On suppose donc d´esormais que u >0 et X₀ >1.

SoitPx la probabilit´e sachant {X₀ =x}. On peut renforcer comme suit les conclusions de Gawel et Kimmel 1996.

Comportement en moyenne

(1) Si m >1, E(X_n) tend vers l’infini.

(2) Si m <1, ou si m= 1 et u <1, E(Xn)→0.

(3) Si m=u= 1, E(X_n) =E(X₀).

(5)

Comportement presque sˆur (4) Si p₀ 6= 0, P(D_X) = 1.

(5) Si p0 = 0 et u= 1, Px(E_X) = 1 pour tout x>1.

(6) Si p0 = 0 et u <1, Px(D_X) +Px(E_X) = 1 pour tout x >1, Px(D_X) et Px(E_X) sont strictement positifs etPx(D_X)6P1(D_X)^x. En particulier, Px(E_X)→1 quand x→ ∞.

Cas explosif

(7)Si p₀ = 0, le comportement deX_n est explosif surE_X, au sens o`u, conditionnellement

`

a E_X, X_n+1/X_n→ ∞ et, plus pr´ecis´ement,

(logX_n+1)/X_n→logm presque sˆurement.

Les hypothèses de (1) et (4) peuvent être réalisées simultanément donc E(X_n) → ∞ et P(D_X) = 1 ne sont pas contradictoires.

Quandp0= 0 et dans le cas particulier oùu m >1, on peut majorer explicitementP1(D_X) parq <1 en utilisant la fonction génératrice deZ, et doncPx(D_X) parq^x.

2.4 Conclusion

La croissance deX_nest (au moins) exponentielle et aussi fortement exponentielle que l’on veut, du moins à partir du moment où on atteint un seuil adéquat. Le modèle rend donc compte de cet aspect du phénomène.

3 R´ eactions PCR et bornes exactes pour les processus de branchement immortels

3.1 PCR

PCR = polymerase chain reaction. Analogue pour la biologie mol´eculaire de l’invention de la roue. Lire Kary Mullis.

Répétition de cycles de trois phases : dénaturation, hybridation d’amorces spécifiques, extension grâce (par exemple) à Thermus aquaticus (Taq).

Ordres de grandeur : ADNHomo sapiens = 10⁸–10⁹ bp (paires de bases), longueur de la cible = 10²–10⁴ bp, longueur des amorces = 15–20 bp, n = 25–30 cycles, population de d´epart S₀>1, erreurs = 1 pour 10⁵–10¹¹ bases.

Des points à noter : la population de départ peut être petite ; les taux d’erreurs men- tionnés dans la littérature sont souvent pifométriques ; les réactions de PCR mutagènes, appelées aussi expériences d’évolution in vitro, reviennent à se placer délibérément dans des conditions expérimentales à fort taux de mutation.

Deux sources d’alea : les réplications incomplètes d’une cible et les incorporations in- correctes (et non réparées) d’un nucléotide. Deux paramètres : l’efficacité λ (en phase exponentielle,Sn∼(1 +λ)ⁿS0), le taux de mutationµ(nombre moyen de mutations par cycle par base ou par séquence).

(6)

Moyen : modélisation de la diversité statistique de la population aprèsncycles.

Applications : médecine légale, détection précoce du cancer (problème des faux positifs), ADN préhistorique, etc.

3.2 Mod`ele

Deux noyaux de transitions sont possibles.

Dans le noyau produit, chaque site mute avec probabilitép; toutes les mutations ont pour probabilité p/3 ; les L sites sont i.i.d. ; on compte le nombre de sites “faux”. Chaˆıne de Markov sur{0,1, . . . , L}.{Transitions compliquées, mécanisme simple.}

Le noyau additif peut être vu comme la limite du noyau produit quand p → 0, L → ∞ et p L → µ; ou bien on compte toutes les mutations ; ou bien on néglige les mutations doubles sur le même site. Six→y,s(x)→s(y) =s(x) +ξ_y et (ξ_y) i.i.d. Chaˆıne de Markov sur les entiers positifs.

D´esormais, le noyau est additif, {x₁, . . . , x_`} est un ´echantillon uniforme au temps n, U_n=s(x₁) et M_n=`⁻¹

`

X

i=1

s(x_i).

Pour obtenir un estimateur ponctuel de µ=E(ξ), il suffirait de r´esoudreM_obs =Eµ(M_n) ou M_obs =Eµ(U_n). Probl`eme : E(U_n) n’est pas calculable.

Pourtant : Sun et al. 1995 et 2000, Weiss et von Haeseler 1995. Id´ee implicite : en«champ moyen», i.e. si S₀ → ∞, ¸ca marche.

3.3 Champ moyen

Une démonstration : Quelle est la proportioncn de séquences qui sont présentes au temps net créées pendant le nème cycle ?

cn= (Sn−Sn−1)/Sn. Or :Sn∼Sn−1E(Zx) =Sn−1(1 +λn) Donccn=λn/(1 +λn) Champ moyen La variable aléatoire U_n^∗ suit la loi de ε₁ξ₁+· · ·+ε_nξ_n avec (ε_k) et (ξ_k) indépendants, ε_k Bernoulli 0–1 et P(ε_k = 1) =λ_k/(1 +λ_k). De même, M_n^∗ suit la loi du barycentre de `copies i.i.d. de U_n^∗.

D’o`u :E(M_n^∗), var(M_n^∗), asymptotiques gaussiennes, poissoniennes, intervalles de confiance de l’estimateurµ, etc.b

Quelle est la validité de l’approximation de champ moyen ? Dans Weiss et von Haeseler, pas de réponse. Dans Sun, mention d’une borneS₀(1 +λ)²ⁿ (et plutôtS₀ (1 +λ)³ⁿ, si on suit l’argument). Problème : mais n→ ∞, mais la phase exponentielle.

Pourtant : simulations. Weiss et von Haeseler pourS0 = 1 et efficacit´e constante. De plus, Weiss et von Haeseler 1997 : Monte Carlo par coalescent et pour des efficacit´es variables.

L’explication peut s’´enoncer comme un

MétathéorèmeL’approximation de champ moyen n’entraˆıne qu’une erreur d’ordre1/S0.

(7)

3.4 In´egalit´es

On va développer le métathéorème dans un cas simple. Des extensions sont valables pour d’autres noyaux markoviens, d’autres mécanismes de branchement (de carré intégrable), pour des distances de Hamming (utiles si on ne connaˆıt pas l’état de départ), etc.

(1) Moyennes

E(M_n) =E(M_n^∗)−µB =E(U_n^∗)−µB,

avec B⁻/S₀ 6 B 6 B⁺/S₀ et B^± positifs, explicites, raisonnables, ne d´ependent que de (λ_k). Borne universelle : pour tout sch´ema (λ_k),B 62/S₀.

(2) Variances

var(M_n) = var(U_n^∗)/`−C/`+ (1−1/`)D,

avecC⁻/S₀6C6C⁺/S₀,D⁻/S₀ 6D6D⁺/S₀ etC^±etD^± ne d´ependent que de (λ_k), µ² etvar(ξ). Bornes universelles sur C et D.

(3) Distributions

La variable aléatoire U_n^∗ domine stochastiquement la variable aléatoire U_n et la distance en variation totale entre leurs lois est majorée parB 6B⁺/S0.

Deux rappels :

(i) X domine stochastiquement Y si : P(X > x) > P(Y > x) pour tout x, ou de fa¸con

´equivalente, s’il existeX⁰de loi la loi deXetY⁰ de loi la loi deY tels queX⁰>Y⁰presque sˆurement ;

(ii) la distance en variation totale entreν etν⁰ discr`etes est ¹₂P

x|ν(x)−ν^∗(x)|.

3.5 Cons´equences pour l’estimateur

Pas d’explosion de l’erreur quand n → ∞ L’estimateur de champ moyen sous-estime µ.

Dans certains cas (r´ealistes), correction importante (entre +33% et +63%). Zone explicite

«de sécurité» où le biais est négligeable : n S0 inf(λ_k) 1. Dans le cas homogène, la distance en variation totale est62(1−λ)/S₀, donc →0 siλ→1. Dans le cas homogène, analogue si λ→ 0 mais seulement à partir de nλ 1, donc invisible sur les simulations de Weiss et von Haeseler.

3.6 Cons´equences pour la variance

D`es que ` > 3, var(Mn) > var(M_n^∗). En particulier, var(Mn) ne tend pas vers 0 quand

`→ ∞. Augmenter la taille `de l’´echantillon devient vite inutile : `cr≈n S0. {Echantillons de populations finies fortement corr´´ el´ees.}

3.7 Extensions

La démarche ci-dessus (description du champ moyen puis écarts de la population finie au champ moyen) reste valable dans un cadre beaucoup plus général. Par exemple :

A la g´` en´erationn,x→Zx>1 descendants avec (Zx)xi.i.d. de loi la loi deLn. Si{Z_x =k}, descendants (x₁, . . . , x_k) et incr´ements (ξ(x₁), . . . , ξ(x_k)) de loi π_n,k.

(8)

Soit µ_n,k la somme sur i des moyennes des marginales deπ_n,k et ρn la loi biais´ee de Ln : ρ_n(j) =j α_n,j,α_n,j =P(L_n=j)/E(L_n).

{Dans le cas PCR,Ln= 1 ou 2, πn,1=δ0,πn,2=δ0⊗Poisson(µ).}

Champ moyen La variable aléatoire U_n^∗ suit la loi de ξ₁^∗ +· · · +ξ_n^∗ où les ξ_k^∗ sont indépendantes et distribuées comme suit : on tire j > 1 selon la loi ρ_n, puis un indice iuniforme entre 1 et j, puis ξ_n^∗ selon la ième marginale de πn,j.

Donc esp´erance et variance du champ moyen puis ´ecarts en 1/S0avec constantes explicites.

3.8 Conclusion

Estimateurs ponctuels non calculables, sauf en population infinie. Déviations négligeables dès les petites populations. Variabilité importante et incompressible.

Pour un ´echantillon pr´esentantN mutations au total, l’intervalle de confiance de niveau 1−1/z² est de la forme[1−z/√

N ,1 +z/√ N].

Ceci reste (essentiellement) vrai pour des efficacit´es al´eatoires (loi de Michaelis-Menten. . .).

4 La suite

Il aurait fallu traiter au moins les points suivants : processus de branchement multi-types, logistiques, bisexués, asexués, avec promiscuité, malthusiens (en environnements aléatoires presque critiques), avec événements désastreux, avec immigration, avec émigration . . . Et aussi parler de modèles du cycle cellulaire, de parasitologie qualitative, de raccourcis- sement des télomères, de génétique du vieillissement.

Mais encore de processus de branchement en temps continu, de mod`eles de coalescent . . .

R´ ef´ erences

On peut commencer par [1] pour les sections 1 et 2 et par [4] pour la section 3 puis se reporter aux bibliographies de ces deux référencest. Je prépare une note [8] sur les résultats de la section 2 ainsi qu’un texte d’introduction [7] à certains des thèmes abordés dans ces notes, destiné à des non mathématiciens.

[1] Kimmel, M., Axelrod, D. E.Branching processes in biology. Interdisciplinary Applied Mathematics 19, Springer-Verlag, New York (2002).

[2] Mullis, K.Dancing Naked in the Mind Field. Pantheon Books, New York (1998).

[3] Piau, D. Processus de branchement en champ moyen et r´eaction PCR. Advances in Applied Probabability 33 (2), 391–403 (2001).

[4] Piau, D. Mutation-replication statistics of polymerase chain reactions. Journal of Computational Biology 9 (6), 831–847 (2002).

[5] Piau, D. Immortal branching Markov processes, averaging properties and applications to polymerase chain reactions. `A paraˆıtre auxAnnals of Probability (2003).

[6] Piau, D. Confidence intervals for non homogeneous branching processes and PCR reactions. `A paraˆıtre auxAnnals of Probability (2004).

(9)

[7] Piau, D. Estimation of PCR parameters and related branching processes, a tutorial for biologists. En pr´eparation (2004+).

[8] Piau, D. Sur le processus de branchement itéré de Gawel et Kimmel. En préparation (2004+).

[9] Sun, F. The polymerase chain reaction and branching processes. Journal of Compu- tational Biology 2 (1), 63–86 (1995).

[10] Wang, D., Zhao, C., Cheng, R., Sun, F. Estimation of the mutation rate during error-prone polymerase chain reaction. Journal of Computational Biology7, 143–158 (2000).

[11] Weiss, G., von Haeseler, A. Modeling the polymerase chain reaction. Journal of Computational Biology 2 (1), 49–61 (1995).

[12] Weiss, G., von Haeseler, A. A coalescent approach to the polymerase chain reaction.

Nucleic Acids Research, 25 (15), 3082–3087 (1997).

Universit´e Lyon 1 ex–LaPCS

Domaine de Gerland 50 avenue Tony-Garnier 69366 Lyon Cedex 07

Didier.Piau@univ-lyon1.fr lapcs.univ-lyon1.fr/∼piau