• Aucun résultat trouvé

Modèle de Wright-Fisher et fixation

Dans le document Recueil de Modèles Aléatoires (Page 171-176)

La fonction p ∈ [0, 1] 7→ −(p log(p) + (1 − p) log(1 − p)) est l’entropie de Boltzmann ou de Shannon de la loi de Bernoulli Ber(p). Elle est continue, strictement concave, positive, symétrique par rapport à 1/2, et atteint son maximum log(2) pour p = 1/2, et son minimum 0 pour p = 0 et p = 1.

Remarque 12.3 (Martingale). Soit Fn = σ(X0, . . . , Xn) pour tout n > 0.

En reprenant la preuve du théorème 12.2, on a, pour tout n > 1,

E(Xn| Fn−1) = E(Xn| Xn−1) = Xn−1.

Ainsi, en plus d’être une chaîne de Markov, la suite (Xn)n>0 est une mar-

tingale pour sa filtration naturelle (Fn)n>0. En particulier, on a bien sûr la

conservation E(X0) = E(Xn) pour tout n > 1. Le théorème d’arrêt indique

que (Xn∧T)n>0 est aussi une martingale et donc E(X0) = E(Xn∧T),

qui converge vers E(XT) par convergence dominée quand n → ∞ car T est

fini p.s. et X est uniformément bornée. Comme T est un temps de fixation, on a en fait Xn= Xn∧T. Il est également possible d’appliquer le théorème de

convergence p.s. et dans Lp des martingales bornées dans Lp avec p > 1.

12.3 Modèle de Wright-Fisher et fixation

Le modèle de Wright-Fisher est un modèle simple de l’évolution de la fré- quence d’un gène à plusieurs allèles au fil des générations dans une population. On suppose que la population est de taille finie constante, hermaphrodite, que les générations sont séparées, qu’il n’y a pas de migration et que les unions sont indépendantes du caractère étudié.

On néglige dans un premier temps les phénomènes de mutation et sélection. On note N ∈ Nla taille de la population et n = 0, 1, 2, . . . les générations

successives. Sur le locus étudié, on peut trouver deux allèles différents notés

A et B. La variable aléatoire Xn compte le nombre d’allèles A à la génération

n. La population à la génération n + 1 est déduite de celle de la génération n

par un tirage avec remise de N individus de la génération n où la probabilité d’obtenir A est Xn/N . On peut réaliser (Xn)n>0 comme la suite récurrente aléatoire définie par la relation récurrence

Xn+1= N X k=1 1{U n+1,k6ψXn} où ψx:= x N

et où (Un,k)n>1,16k6N sont des variables aléatoires i.i.d. de loi uniforme sur [0, 1], indépendantes de X0. Pour tous x0, . . . , xn, on a

160 12 Modèle de Wright-Fisher

Remarque 12.4 (Modèle à plus de deux allèles). Le modèle de Wright-Fisher à ℓ > 2 allèles A1, . . . , Aℓfait intervenir la loi multinomiale. Plus précisément,

Xn prend ses valeurs dans {x ∈ Nℓ: x1+ · · · + xℓ= N} et Loi(Xn+1| X0, . . . , Xn) = Loi(Xn+1| Xn) = Mul(N,

Xn

N ).

La suite (Xn)n>0est une chaîne de Markov d’espace d’états {0, 1, . . . , N} et de matrice de transition P donnée pour tous x, y ∈ {0, 1, . . . , N} par

P(x, y) := P(Xn+1= y | Xn= x) =  N y  ψy x(1 − ψx)N−y.

Les états 0 et N sont absorbants (deux classes de récurrence singleton) tandis que tous les autres états mènent à {0, N} et sont donc transitoires. Tout comme pour le modèle de Moran, lorsque la population ne contient plus qu’un allèle, on dit qu’il est fixé dans la population. Le temps de fixation est

T := inf{n > 0 : Xn∈ {0, N}}.

L’espace d’états étant fini, le temps d’atteinte T de {0, N} vérifie P(T < ∞) = 1 et E(T ) < ∞.

De plus (Xn)n>0converge p.s. vers la variable aléatoire XT qui suit une loi de Bernoulli portée par 0 et N. On a P(XT = 0)+P(XT = N) = 1. L’événement {XT = N} signifie que l’allèle A est fixé tandis que l’événement {XT = 0} signifie que l’allèle B est fixé.

On adopte les notations Px= P( · | X0= x) et Ex= E( · | X0= x).

Théorème 12.5 (Probabilité de fixation). Pour tout x∈ {0, 1, . . . , N}, Px(XT = N) = 1 − Px(XT = 0) = x

N.

Démonstration. La preuve est identique à celle faite pour le modèle de Moran

(théorème 12.2) car Loi(Xn| Xn−1) = Bin(N,Xn−1N ) d’où E(Xn) = E(E(Xn| Xn−1)) = E(NXn−1

N ) = E(Xn−1) = · · · = E(X0) = x,

⊓ ⊔

Remarque 12.6 (Martingale). L’intégralité de la remarque 12.3 (modèle de Moran) reste valable pour le modèle de Wright-Fisher, car pour tout n > 1,

E(Xn| Fn−1) = E(Xn| Xn−1) = NXn−1

N = Xn−1, où Fn:= σ(X0, . . . , Xn) pour tout n > 0.

12.3 Modèle de Wright-Fisher et fixation 161 0 50 100 150 200 0 20 40 60 80 100 Temps Taille population

Fisher-Wright taille N=100 init X0=25 tmax = 200

Fig. 12.1. Quelques trajectoires, jusqu’au temps t = 200, de la chaîne de Wright-

Fisher pour une population de taille N = 100, toutes issues de X0= N/4 = 25. Remarque 12.7 (Couplage avec un jeu de pile ou face). Il est possible d’obte- nir une minoration de T par une variable aléatoire géométrique par couplage. On commence par observer que pour tout x et tout n on a

P(Xn+1∈ {0, N} | Xn= x) = P(x, {0, N}) > p p= min 06x6NP(x,{0, N}) = min06x6N(1 − ψx) N + ψN x >2−N+1

où le minimum est atteint en ψx = 1/2. Ainsi, la chaîne atteint un état

absorbant 0 ou N avant qu’un lanceur de pièce n’obtienne son premier pile avec une pièce qui fait pile avec probabilité 2−N+1. Pour rendre rigoureux ce

raisonnement, on construit le couple de processus (jeu de pile ou face et chaîne de Wright-Fisher) sur le même espace de probabilité. Représentons la chaîne de Markov comme une suite récurrente aléatoire : pour tout x ∈ {0, . . . , N}, soit (Ix,y)06y6N une partition de l’intervalle [0, 1], avec Ix,y de longueur

|Ix,y| = P(x, y),

et soit (Un)n>1une suite de variables aléatoires i.i.d. de loi uniforme sur [0, 1],

indépendante de X0. On réalise (Xn)n>0 en utilisant la récurrence

162 12 Modèle de Wright-Fisher

Il est possible de faire un dessin figurant une tour de N +1 copies de l’intervalle

[0, 1] avec ses N + 1 partitions. Dans cette construction, on peut toujours

ordonner les intervalles, et supposer que Ix,0 et Ix,N sont les deux premiers

en partant de la gauche. Par construction p= min06x6N|Ix,0∪ Ix,N| et

T := inf{n > 0 : Xn∈ {0, N}} 6 T:= inf{n > 1 : 1{Un6p∗}= 1}

et Tsuit la loi géométrique Geo(p). En particulier, T est intégrable et donc

fini p.s. Cette méthode de couplage fournit plus généralement, pour des chaînes de Markov, un minorant géométrique des temps d’atteinte d’ensembles.

La vitesse de fixation peut être quantifiée par l’hétérozygotie, c’est-à-dire la probabilité que deux gènes choisis aléatoirement et sans remise dans la population totale à la génération n soient représentés par des allèles différents. Elle est donnée par

Hn= 2Xn(N − Xn) N (N− 1) = 2 N− 1Var(Xn+1| Xn). On a Hn = 0 si n > T et donc Hn p.s. −→

n→∞0. Le théorème suivant montre que

l’hétérozygotie moyenne E(Hn) décroît exponentiellement au cours du temps.

Théorème 12.8 (Hétérozygotie moyenne). Pour tout n > 1,

E(Hn) = h0λn où h0:= E(H0), λ := 1 1

N ∈ ]0, 1[, et

Var(Xn) = E(X0)(N − E(X0))(1 − λn) + λnVar(X0).

Démonstration. Il suffit d’établir que pour tout n > 1,

E(Xn(N − Xn)) =  1 − N1 n E(X0(N − X0)). On a

E(Xn(N − Xn)) = NE(Xn) − E(Xn2) = NE(Xn−1) − E E(Xn2| Xn−1). On écrit alors E(Xn2| Xn−1) = Var(Xn| Xn−1) + (E(Xn| Xn−1))2 = Xn−1  1 − XNn−1  + X2 n−1.

En regroupant les termes, on obtient bien E(Xn(N − Xn)) =

 1 − N1



12.3 Modèle de Wright-Fisher et fixation 163

ce qui fournit la formule pour E(Hn). Pour la variance, on utilise la formule4 Var(Xn) = E(Var(Xn| Xn−1)) + Var(E(Xn| Xn−1)).

⊓ ⊔ Comme dans le problème de la ruine du joueur (théorème 2.2), et comme pour le modèle de Moran (théorème 12.2), on souhaite déterminer le temps moyen de sortie en fonction du point de départ. Pour tour 0 6 x 6 N, notons

m(x) = Ex(T ). Alors m(0) = m(N) = 0 et, grâce à la propriété de Markov (faible), on obtient un système d’équations linéaires : pour tout 0 < x < N,

m(x) = N X y=0 Ex(T 1{X 1=y}) = N X y=0 (1 + Ey(T ))P(x, y) = 1 + N X y=0 m(y)P(x, y),

dont m est l’unique solution positive minimale. Bien qu’on puisse calculer m numériquement, il n’existe pas d’expression simple et explicite de m comme pour le temps de sortie d’un intervalle pour la marche aléatoire simple (théo- rème 2.2) ou pour le modèle de Moran (théorème 12.2). Il est toutefois possible de trouver l’équivalent de m lorsque la taille de la population N tend vers l’in- fini : pour tout 0 < p < 1,

m(⌊Np⌋) ∼

N→∞−2N(p log(p) + (1 − p) log(1 − p)),

ce qui rappelle le modèle de Moran (théorème 12.2). La clé de la démonstration de ce résultat consiste à établir que la suite de processus Y(N ), définie par

Y(N )= (1

NX⌊Nt⌋)t∈R+

à valeurs dans [0, 1], converge en loi quand N → ∞ vers un processus de diffusion Y sur [0, 1], solution de l’équation différentielle stochastique

dYt= p

Yt(1 − Yt)dBt. On trouvera les détails de ce résultat dans le chapitre 27.

Remarque 12.9 (Lien avec le modèle de Moran). Pour le modèle de Wright- Fisher, l’espérance du temps d’absorption est de l’ordre de N tandis qu’il est de l’ordre de N2pour le modèle de Moran (voir théorème 12.2). Cela vient du fait

que lors d’une transition du modèle de Moran, un seul allèle est modifié tandis que tous sont concernés à chaque transition du modèle de Wright-Fisher.

4. Plus généralement, si Φ est convexe alors VarΦ(X) := E(Φ(X)) − Φ(E(X)) > 0 par l’inégalité de Jensen, et VarΦ(X) = E(VarΦ(X | Y )) + VarΦ(E(X | Y )) où VarΦ

164 12 Modèle de Wright-Fisher

Dans le document Recueil de Modèles Aléatoires (Page 171-176)