• Aucun résultat trouvé

Sur quelques applications des processus de branchement en biologie mol´eculaire

N/A
N/A
Protected

Academic year: 2022

Partager "Sur quelques applications des processus de branchement en biologie mol´eculaire"

Copied!
9
0
0

Texte intégral

(1)

Sur quelques applications des processus de branchement en biologie mol´eculaire

Didier Piau

Expos´es donn´es les 3 et 4 novembre 2003 `a l’ ´ENS dans le cadre de l’atelier«Applications

`

a la biologie et `a la dynamique des populations» organis´e par le GdR du CNRS sur les interactions de particules (GRIP), voir acm.emath.fr/grip.

Le style est celui de notes de cours, j’ai omis des figures, simulations et dessins utilis´es pendant les expos´es mais ajout´e des r´ef´erences bibliographiques.

Remerciements chaleureux aux participants de ces journ´ees et tout particuli`erement aux organisateurs Hatem Zaag et Thierry Goudon.

Introduction

Processus de branchement : un individu existe pendant un certain temps puis est rem- plac´e par, ou donne naissance `a, un certain nombre d’individus identiques ou similaires ou diff´erents. La d´efinition est vague, c’est expr`es : un des int´erˆets de la notion est de pouvoir subir de nombreuses modifications pour s’adapter aux situations particuli`eres.

Domaines concern´es : biologie mol´eculaire, biologie cellulaire, biologie du d´eveloppement, immunologie, ´evolution, ´ecologie, m´edecine, virologie, etc.

Apports de la th´eorie : comprendre/expliquer des situations parfois contraires `a l’intuition, sugg´erer/d´evelopper de nouveaux protocoles exp´erimentaux, garantir des marges d’erreur, fournir des pr´edictions, etc.

Apports `a la th´eorie : d´evelopper de nouvelles math´ematiques.

Caveat : comme toujours, deux ´ecueils `a ´eviter simultan´ement, le trivial pour les math´e- matiques et le `a-cˆot´e pour la biologie.

Plan

1. Processus de branchement, un rapide survol

2. R´ep´etitions de l’ADN et processus de branchement it´er´es 3. R´eactions PCR et processus de branchement immortels

(2)

1 Processus de branchement

1.1 Processus de Galton-Watson simple

Description informelle :{Sn, n>0}processus al´eatoire,nentier. Description de l’´evolution de Sn−1 `a Sn : on se donne une loi (de reproduction) sur les entiers et des v.a.i.i.d.

{Zx(n);x>1, n>1}ind´ependantes de S0 et qui suivent cette loi ; siSn−1 = 0, Sn= 0 ; si Sn−1 >1, Sn=

Sn−1

X

x=1

Zx(n).

1.2 Classification des processus de branchement homog`enes

1.2.1 Une remarque

Puisque E(Sn) =E(Z)nS0, le param`etre m=E(Z) permet de d´ecider si E(Sn) ↑+∞ ou E(Sn) est constante ouE(Sn)↓0.

1.2.2 Deux comportements possibles

L’´etat 0 est (seul ´etat) absorbant : si Sn = 0, alors Sk = 0 pour tout k > n. Fait : Sn tend forc´ement vers 0 ou vers +∞, c’est-`a-dire P(extinction) +P(explosion) = 1 avec explosion ={Sn→ ∞} et extinction ={Sn= 0 `a partir d’un certain rang}.

1.2.3 Trois r´egimes

R´egime sous-critique m <1

L’extinction est presque sˆure et rapide : la queue de la loi du temps d’extinction d´ecroˆıt g´eom´etriquement, i.e. P(Sn6= 0)6mnS0. Population totale finie et d’esp´erance finie.

R´egime sur-critique m >1

La non-extinction est possible et sur la non-extinction, la croissance est rapide. En effet, Sn=mn(W +o(1)) presque sˆurement, avec W >0 al´eatoire et {W = 0}={extinction}.

En particulier, pas de troisi`eme voie entre l’extinction et la croissance g´eom´etrique.

R´egime critique m= 1

L’extinction est presque sˆure, la dur´ee de vie est non int´egrable : P(Sn6= 0)∼c/n.

1.2.4 Processus vs. arbre

Le processus{Sn} (ne) d´ecrit (que) la population totale, on s’int´eresse aussi aux relations de parent´e, d’h´eritage, etc. Cette information est repr´esent´ee par un arbre.

1.2.5 Parenth`ese sur l’arbre critique infini

On peut conditionner la loi critique par la non extinction ! Le r´esultat n’est plus un pro- cessus de Galton-Watson. Il y a Θ(n2) sommets `a distance 6n. Il existe une seule ligne

(3)

de descente infinie. La marche au hasard simple au plus proche voisin sur les sommets de cet arbre (al´eatoire) est sous-diffusive : d(Xn, X0)≈n1/3 au moins en loi.

1.3 Outils ´el´ementaires

Fonctions g´en´eratrices : fn(u) =E(uSn),ϕn(u) =E(uZ(n)).

1.3.1 R´ecurrence par les feuilles

La g´en´eration n+ 1 est fabriqu´ee `a partir de la g´en´eration net de l’al´eatoire n→ n+ 1.

Par exemple,Sn+1 =Z1+· · ·+ZSn doncfn+1=fn◦ϕn+1.

1.3.2 R´ecurrence par la racine

La g´en´eration n+ 1 est la somme des contributions, en n g´en´erations, de chacun des individus de la g´en´eration 1. Par exemple,Sn+1 =Sn(1)+· · ·+Sn(S1)doncfn+11◦f2:n+1 avec des notations qu’on esp`ere ´evidentes.

1.4 Outils semi-´el´ementaires

Processus de Markov de branchement : les sommets de l’arbre sont marqu´es. Si x est l’ancˆetre direct de y, l’´etat s(y) d´epend de s(x) de fa¸con markovienne. Exemple le plus simple :s(y) =s(x) +ξy, tous lesξy i.i.d.

On note|x|l’ˆage de x, le num´ero de sa g´en´eration. Voici deux martingales utiles.

1.4.1 Martingale `a la Biggins Bn

bn, n>0

est une martingale avec Bn= X

|x|=n

us(x) etb=mE(uξ).

1.4.2 Martingale `a la Joffe quand P(Z = 0) = 0 An

an, n>0

est une martingale avecAn= 1 Sn

X

|x|=n

us(x) eta=E(uξ).

On commence par exemple avecE(Bn+1| Fn) = X

|x|=n

us(x)E X

y←x

us(y)−s(x)

! .

2 Branchement it´ er´ e et r´ ep´ etitions de l’ADN

2.1 Motivation

Certaines maladies g´en´etiques sont li´ees `a l’apparition soudaine d’un tr`es grand nombre de r´ep´etitions de certaines portions du mat´eriel g´en´etique. Deux exemples canoniques : le

(4)

syndrome X fragile (triplet CCG, nombre normal < 60, affect´e > 200) et la dystrophie myotonique (triplet AGC, nombre normal<25, affect´e >50).

Progression non coh´erente avec les lois mend´eliennes : longue p´eriode de variations relati- vement mod´er´ees, puis croissance explosive et sans retour. Les processus de branchement classiques, mˆeme sur-critiques, ne permettent pas de reproduire ce comportement.

2.2 Un premier mod`ele simple

Soit Yn le nombre de r´ep´etitions diminu´e de 1, apr`es n cycles. ´Evolution Yn → Yn+1

al´eatoire. `A chaque ´etape, on utilise une nouvelle copie ind´ependante{Sk(n+1), k>0}d’un processus de Galton-Watson{Sk, k>0} issu deS0 = 1 avec reproductionZ. Si Yn = 0, Yn+1 = 0. SiYn=y>1,Yn+1=S(n+1)1 +· · ·+Sy(n+1).

A l’´` evidence : siYn= 0,Yk= 0 pour toutk>n; siP(Z = 1) = 1, Sk= 1 pour toutk>0 donc Yn =Y0 pour tout n > 0 ; si P(Z = 0) = 1, Sk = 0 pour tout k >0 donc Yn = 0 pour tout n>1. On se place d´esormais en dehors de ces cas d´eg´en´er´es, donc on suppose queY0>1,P(Z = 1)6= 1 etP(Z = 0)6= 1.

On note p0 = P(Z = 0), m = E(Z), EY l’explosion du processus {Yn} et DY la mort du processus {Yn}, mˆeme si EY correspond `a la mort probable du patient et DY `a une r´emission de la maladie. Ainsi,

EY ={Yn→ ∞}, DY ={Yn= 0 `a partir d’un certain rang}.

Th´eor`eme (Gawel et Kimmel 1996, Pakes 2000) Si p0 6= 0, P(EY) = 1. Si p0 = 0, P(DY) = 1.

Au risque d’insister, un corollaire concerne le cas m > 1. Alors E(Yn) → ∞ mais cette convergence en moyenne ne refl`ete pas (forc´ement) le comportement trajectoriel. En effet, sip0= 0, Yn→ ∞ presque sˆurement mais, sip06= 0, Yn→0 presque sˆurement.

2.3 Un second mod`ele plus r´ealiste

On ajoute la possibilit´e que certaines r´einsertions des r´ep´etitions dans l’ADN lin´eaire

´echouent, donc on compl`ete l’´etapeYn→Yn+1 par un jeu de pile ou face (thinning bino- mial) de probabilit´e de succ`esu ∈[0,1]. Si Xn = 0, Xn+1 = 0. SiXn=x>1,Xn+1 suit une loi binomiale de param`etres uetS1+· · ·+Sx.

Siu= 0 ou siX0 = 0, Xn= 0 pour toutn>1. On suppose donc d´esormais que u >0 et X0 >1.

SoitPx la probabilit´e sachant {X0 =x}. On peut renforcer comme suit les conclusions de Gawel et Kimmel 1996.

Comportement en moyenne

(1) Si m >1, E(Xn) tend vers l’infini.

(2) Si m <1, ou si m= 1 et u <1, E(Xn)→0.

(3) Si m=u= 1, E(Xn) =E(X0).

(5)

Comportement presque sˆur (4) Si p0 6= 0, P(DX) = 1.

(5) Si p0 = 0 et u= 1, Px(EX) = 1 pour tout x>1.

(6) Si p0 = 0 et u <1, Px(DX) +Px(EX) = 1 pour tout x >1, Px(DX) et Px(EX) sont strictement positifs etPx(DX)6P1(DX)x. En particulier, Px(EX)→1 quand x→ ∞.

Cas explosif

(7)Si p0 = 0, le comportement deXn est explosif surEX, au sens o`u, conditionnellement

`

a EX, Xn+1/Xn→ ∞ et, plus pr´ecis´ement,

(logXn+1)/Xn→logm presque sˆurement.

Les hypoth`eses de (1) et (4) peuvent ˆetre r´ealis´ees simultan´ement donc E(Xn) → ∞ et P(DX) = 1 ne sont pas contradictoires.

Quandp0= 0 et dans le cas particulier o`uu m >1, on peut majorer explicitementP1(DX) parq <1 en utilisant la fonction g´en´eratrice deZ, et doncPx(DX) parqx.

2.4 Conclusion

La croissance deXnest (au moins) exponentielle et aussi fortement exponentielle que l’on veut, du moins `a partir du moment o`u on atteint un seuil ad´equat. Le mod`ele rend donc compte de cet aspect du ph´enom`ene.

3 R´ eactions PCR et bornes exactes pour les processus de branchement immortels

3.1 PCR

PCR = polymerase chain reaction. Analogue pour la biologie mol´eculaire de l’invention de la roue. Lire Kary Mullis.

R´ep´etition de cycles de trois phases : d´enaturation, hybridation d’amorces sp´ecifiques, extension grˆace (par exemple) `a Thermus aquaticus (Taq).

Ordres de grandeur : ADNHomo sapiens = 108–109 bp (paires de bases), longueur de la cible = 102–104 bp, longueur des amorces = 15–20 bp, n = 25–30 cycles, population de d´epart S0>1, erreurs = 1 pour 105–1011 bases.

Des points `a noter : la population de d´epart peut ˆetre petite ; les taux d’erreurs men- tionn´es dans la litt´erature sont souvent pifom´etriques ; les r´eactions de PCR mutag`enes, appel´ees aussi exp´eriences d’´evolution in vitro, reviennent `a se placer d´elib´er´ement dans des conditions exp´erimentales `a fort taux de mutation.

Deux sources d’alea : les r´eplications incompl`etes d’une cible et les incorporations in- correctes (et non r´epar´ees) d’un nucl´eotide. Deux param`etres : l’efficacit´e λ (en phase exponentielle,Sn∼(1 +λ)nS0), le taux de mutationµ(nombre moyen de mutations par cycle par base ou par s´equence).

(6)

Moyen : mod´elisation de la diversit´e statistique de la population apr`esncycles.

Applications : m´edecine l´egale, d´etection pr´ecoce du cancer (probl`eme des faux positifs), ADN pr´ehistorique, etc.

3.2 Mod`ele

Deux noyaux de transitions sont possibles.

Dans le noyau produit, chaque site mute avec probabilit´ep; toutes les mutations ont pour probabilit´e p/3 ; les L sites sont i.i.d. ; on compte le nombre de sites “faux”. Chaˆıne de Markov sur{0,1, . . . , L}.{Transitions compliqu´ees, m´ecanisme simple.}

Le noyau additif peut ˆetre vu comme la limite du noyau produit quand p → 0, L → ∞ et p L → µ; ou bien on compte toutes les mutations ; ou bien on n´eglige les mutations doubles sur le mˆeme site. Six→y,s(x)→s(y) =s(x) +ξy et (ξy) i.i.d. Chaˆıne de Markov sur les entiers positifs.

D´esormais, le noyau est additif, {x1, . . . , x`} est un ´echantillon uniforme au temps n, Un=s(x1) et Mn=`−1

`

X

i=1

s(xi).

Pour obtenir un estimateur ponctuel de µ=E(ξ), il suffirait de r´esoudreMobs =Eµ(Mn) ou Mobs =Eµ(Un). Probl`eme : E(Un) n’est pas calculable.

Pourtant : Sun et al. 1995 et 2000, Weiss et von Haeseler 1995. Id´ee implicite : en«champ moyen», i.e. si S0 → ∞, ¸ca marche.

3.3 Champ moyen

Une d´emonstration : Quelle est la proportioncn de s´equences qui sont pr´esentes au temps net cr´e´ees pendant le n`eme cycle ?

cn= (Sn−Sn−1)/Sn. Or :Sn∼Sn−1E(Zx) =Sn−1(1 +λn) Donccnn/(1 +λn) Champ moyen La variable al´eatoire Un suit la loi de ε1ξ1+· · ·+εnξn avec (εk) et (ξk) ind´ependants, εk Bernoulli 0–1 et P(εk = 1) =λk/(1 +λk). De mˆeme, Mn suit la loi du barycentre de `copies i.i.d. de Un.

D’o`u :E(Mn), var(Mn), asymptotiques gaussiennes, poissoniennes, intervalles de confiance de l’estimateurµ, etc.b

Quelle est la validit´e de l’approximation de champ moyen ? Dans Weiss et von Haeseler, pas de r´eponse. Dans Sun, mention d’une borneS0(1 +λ)2n (et plutˆotS0 (1 +λ)3n, si on suit l’argument). Probl`eme : mais n→ ∞, mais la phase exponentielle.

Pourtant : simulations. Weiss et von Haeseler pourS0 = 1 et efficacit´e constante. De plus, Weiss et von Haeseler 1997 : Monte Carlo par coalescent et pour des efficacit´es variables.

L’explication peut s’´enoncer comme un

M´etath´eor`emeL’approximation de champ moyen n’entraˆıne qu’une erreur d’ordre1/S0.

(7)

3.4 In´egalit´es

On va d´evelopper le m´etath´eor`eme dans un cas simple. Des extensions sont valables pour d’autres noyaux markoviens, d’autres m´ecanismes de branchement (de carr´e int´egrable), pour des distances de Hamming (utiles si on ne connaˆıt pas l’´etat de d´epart), etc.

(1) Moyennes

E(Mn) =E(Mn)−µB =E(Un)−µB,

avec B/S0 6 B 6 B+/S0 et B± positifs, explicites, raisonnables, ne d´ependent que de (λk). Borne universelle : pour tout sch´ema (λk),B 62/S0.

(2) Variances

var(Mn) = var(Un)/`−C/`+ (1−1/`)D,

avecC/S06C6C+/S0,D/S0 6D6D+/S0 etC±etD± ne d´ependent que de (λk), µ2 etvar(ξ). Bornes universelles sur C et D.

(3) Distributions

La variable al´eatoire Un domine stochastiquement la variable al´eatoire Un et la distance en variation totale entre leurs lois est major´ee parB 6B+/S0.

Deux rappels :

(i) X domine stochastiquement Y si : P(X > x) > P(Y > x) pour tout x, ou de fa¸con

´equivalente, s’il existeX0de loi la loi deXetY0 de loi la loi deY tels queX0>Y0presque sˆurement ;

(ii) la distance en variation totale entreν etν0 discr`etes est 12P

x|ν(x)−ν(x)|.

3.5 Cons´equences pour l’estimateur

Pas d’explosion de l’erreur quand n → ∞ L’estimateur de champ moyen sous-estime µ.

Dans certains cas (r´ealistes), correction importante (entre +33% et +63%). Zone explicite

«de s´ecurit´e» o`u le biais est n´egligeable : n S0 inf(λk) 1. Dans le cas homog`ene, la distance en variation totale est62(1−λ)/S0, donc →0 siλ→1. Dans le cas homog`ene, analogue si λ→ 0 mais seulement `a partir de nλ 1, donc invisible sur les simulations de Weiss et von Haeseler.

3.6 Cons´equences pour la variance

D`es que ` > 3, var(Mn) > var(Mn). En particulier, var(Mn) ne tend pas vers 0 quand

`→ ∞. Augmenter la taille `de l’´echantillon devient vite inutile : `cr≈n S0. {Echantillons de populations finies fortement corr´´ el´ees.}

3.7 Extensions

La d´emarche ci-dessus (description du champ moyen puis ´ecarts de la population finie au champ moyen) reste valable dans un cadre beaucoup plus g´en´eral. Par exemple :

A la g´` en´erationn,x→Zx>1 descendants avec (Zx)xi.i.d. de loi la loi deLn. Si{Zx =k}, descendants (x1, . . . , xk) et incr´ements (ξ(x1), . . . , ξ(xk)) de loi πn,k.

(8)

Soit µn,k la somme sur i des moyennes des marginales deπn,k et ρn la loi biais´ee de Ln : ρn(j) =j αn,jn,j =P(Ln=j)/E(Ln).

{Dans le cas PCR,Ln= 1 ou 2, πn,10n,20⊗Poisson(µ).}

Champ moyen La variable al´eatoire Un suit la loi de ξ1 +· · · +ξn o`u les ξk sont ind´ependantes et distribu´ees comme suit : on tire j > 1 selon la loi ρn, puis un indice iuniforme entre 1 et j, puis ξn selon la i`eme marginale de πn,j.

Donc esp´erance et variance du champ moyen puis ´ecarts en 1/S0avec constantes explicites.

3.8 Conclusion

Estimateurs ponctuels non calculables, sauf en population infinie. D´eviations n´egligeables d`es les petites populations. Variabilit´e importante et incompressible.

Pour un ´echantillon pr´esentantN mutations au total, l’intervalle de confiance de niveau 1−1/z2 est de la forme[1−z/√

N ,1 +z/√ N].

Ceci reste (essentiellement) vrai pour des efficacit´es al´eatoires (loi de Michaelis-Menten. . .).

4 La suite

Il aurait fallu traiter au moins les points suivants : processus de branchement multi-types, logistiques, bisexu´es, asexu´es, avec promiscuit´e, malthusiens (en environnements al´eatoires presque critiques), avec ´ev´enements d´esastreux, avec immigration, avec ´emigration . . . Et aussi parler de mod`eles du cycle cellulaire, de parasitologie qualitative, de raccourcis- sement des t´elom`eres, de g´en´etique du vieillissement.

Mais encore de processus de branchement en temps continu, de mod`eles de coalescent . . .

R´ ef´ erences

On peut commencer par [1] pour les sections 1 et 2 et par [4] pour la section 3 puis se reporter aux bibliographies de ces deux r´ef´erencest. Je pr´epare une note [8] sur les r´esultats de la section 2 ainsi qu’un texte d’introduction [7] `a certains des th`emes abord´es dans ces notes, destin´e `a des non math´ematiciens.

[1] Kimmel, M., Axelrod, D. E.Branching processes in biology. Interdisciplinary Applied Mathematics 19, Springer-Verlag, New York (2002).

[2] Mullis, K.Dancing Naked in the Mind Field. Pantheon Books, New York (1998).

[3] Piau, D. Processus de branchement en champ moyen et r´eaction PCR. Advances in Applied Probabability 33 (2), 391–403 (2001).

[4] Piau, D. Mutation-replication statistics of polymerase chain reactions. Journal of Computational Biology 9 (6), 831–847 (2002).

[5] Piau, D. Immortal branching Markov processes, averaging properties and applications to polymerase chain reactions. `A paraˆıtre auxAnnals of Probability (2003).

[6] Piau, D. Confidence intervals for non homogeneous branching processes and PCR reactions. `A paraˆıtre auxAnnals of Probability (2004).

(9)

[7] Piau, D. Estimation of PCR parameters and related branching processes, a tutorial for biologists. En pr´eparation (2004+).

[8] Piau, D. Sur le processus de branchement it´er´e de Gawel et Kimmel. En pr´eparation (2004+).

[9] Sun, F. The polymerase chain reaction and branching processes. Journal of Compu- tational Biology 2 (1), 63–86 (1995).

[10] Wang, D., Zhao, C., Cheng, R., Sun, F. Estimation of the mutation rate during error-prone polymerase chain reaction. Journal of Computational Biology7, 143–158 (2000).

[11] Weiss, G., von Haeseler, A. Modeling the polymerase chain reaction. Journal of Computational Biology 2 (1), 49–61 (1995).

[12] Weiss, G., von Haeseler, A. A coalescent approach to the polymerase chain reaction.

Nucleic Acids Research, 25 (15), 3082–3087 (1997).

Universit´e Lyon 1 ex–LaPCS

Domaine de Gerland 50 avenue Tony-Garnier 69366 Lyon Cedex 07

Didier.Piau@univ-lyon1.fr lapcs.univ-lyon1.fr/∼piau

Références

Documents relatifs

The United States and China were, and continue to be in the pandemic era, at the center of the global network in coronavirus related research, while developing countries are

Dans ce chapitre on a vu trois implémentations du tatouage numérique et leur fonctionnement par la conversion ainsi que l'application de l'algorithme de tatouage ,au début on a

Accord- ing to him, the fact that white movie directors are making movies with black casts does in no manner mean that the African Americans would see in them an empowering genre..

Cette régularité dans la perception des loyers (sur une durée d'au moins neuf ans dans le cadre du dispositif Censi-Bouvard) est d'ailleurs

Il y a quelques années, j’avais vaguement entendu parler d’un projet de fusion entre ma commune (Bagnes) et la commune voisine (Vollèges). De nature curieuse, j’ai

In this short note, we extend the Boltzmann model for combinatorial random sampling [8] to allow for infinite size objects; in particular, this extension now fully

the revolution frequency). It is shown to be an important contribution in the study of the synchrotron frequency shift with intensity in Chapter 2. Therefore, the longitudinal

Les deux chapitres suivants présentent les résultats nouveaux obtenus en appliquant cette stratégie : le chapitre 3 présente des bornes à la Berry-Esseen dans le cadre du