• Aucun résultat trouvé

Première partie Le modèle d’Eigen

Chapitre 2

Introduction

Selon la théorie initiée par Oparin [62] et Haldane [41] dans les années 20, les premières formes de vie sur terre ont dues être des macromolécules d’une grande simplicité. Avec cette considération en tête, Manfred Eigen se lance dans les années 70 dans la construction d’un cadre théorique afin de mieux com-prendre les premières étapes de la vie terrestre [28]. Une petite partie de son travail porte sur la modélisation mathématique de l’évolution d’une popula-tion de macromolécules. La simplicité de ces macromolécules permet de décrire l’évolution d’une telle population par des réactions cinétiques et chimiques, à partir desquelles Eigen dérive un système d’équations différentielles. Il s’agit d’un système décrivant l’évolution d’une population sous deux forces princi-pales : sélection et mutation.

Le système d’Eigen est l’un des premiers modèles biologiques à présenter un phénomène de transition de phase. En effet, quand les macromolécules sont longues, il existe un taux de mutation critique au–dessus duquel l’information génétique est perdue après quelques générations. Le taux de mutation critique est aussi appelé le seuil d’erreur. Le modèle d’Eigen présente un deuxième phé-nomène d’importance : la quasi–espèce. Pour des taux de mutation en–dessous du seuil d’erreur, une population à l’équilibre contient une concentration posi-tive de la macromolécule la plus adaptée, la master sequence, ainsi qu’un nuage de mutants qui diffèrent de la master sequence de quelques mutations. Contrai-rement au cas d’une espèce « pure », il s’agit ici d’une population dans laquelle la master sequence peut être présente avec une concentration faible, et le nuage de mutants acquiert une énorme importance.

Manfred Eigen

L’efficacité des distributions de quasi–espèce pour décrire des populations de virus a attiré une grande attention sur le modèle d’Eigen [22, 23, 69], et la pos-sible existence d’un seuil d’erreur pour des populations de virus a donné lieu à de nombreuses recherches pour induire une catastrophe d’erreur dans des populations de virus, afin de combattre diverses maladies virales [2, 15, 79]. La définition du modèle d’Eigen est remarquablement simple, cependant son analyse mathématique est ardue. Les deux questions principales qui se posent sont, la localisation du seuil d’erreur, et la description de la distribution de la quasi–espèce. Notamment, nous voudrions trouver la concentration de la mas-ter sequence et des différents mutants dans une population à l’équilibre.

Nous ne sommes pas les premiers à nous intéresser à ces questions. Un des premiers travaux sur le sujet est dû à Eigen lui même, McCaskill et Schus-ter [30]. Dans ce travail, on s’aperçoit déjà que la description de la distribution de la quasi–espèce n’est pas en général une tâche simple. En effet, une telle description n’est possible qu’après avoir fait certaines approximations ou sim-plifications dans le modèle. Thompson et McBride [78], ainsi que Jones, Enns et Rangnekar [49] et Swetina et Schuster [76], réussissent à linéariser le système d’équations différentielles d’Eigen. Ils se servent ensuite de cette linéarisation pour caractériser la distribution de la quasi–espèce comme le vecteur propre associé à la plus grande valeur propre de la matrice du système linéarisé. Les solutions ainsi obtenues reçoivent le nom de solutions exactes. Des solutions

45

exactes pour des paysages de fitness particuliers ont aussi été obtenues par d’autres moyens par Saakian et Hu [68], Saakian [65], ou Saakian, Biebricher et Hu [66]. Également Novozhilov et Semenov [71, 72] et Bratus, Novozhilov et Semenov [7, 70] obtiennent des résultats plus concrets pour des choix particu-liers de paysages de fitness et de noyaux de mutation.

Le contenu de cette première partie est une synthèse des résultats déjà connus pour le modèle d’Eigen, et de notre contribution au sujet. Nous commençons par introduire le modèle dans le chapitre 3, avec quelques considérations pré-liminaires. Nous montrons ensuite comment linéariser le système pour obtenir les premières représentations de la distribution de la quasi–espèce, suivant les lignes des travaux [49, 76, 78]. Finalement, nous présentons le régime asympto-tique permettant de retrouver le seuil d’erreur. Ce régime asymptoasympto-tique donne lieu à un système d’équations différentielles infini, qui sera l’objet d’étude prin-cipal des chapitres 4 et 5. Dans le chapitre 4 nous considérons le cas du paysage de fitness à un pic, c’est–à–dire, un seul génotype plus adapté dans un paysage neutre. Sous cette hypothèse, nous obtenons une formule explicite pour la dis-tribution de la quasi–espèce. Nous justifions aussi le passage à la limite. Dans le chapitre 5, les résultats du chapitre 4 sont généralisés à des paysages de fitness plus généraux : ceux qui attribuent la même fitness à tous les génotypes qui diffèrent de la master sequence d’un même nombre de mutations.

Chapitre 3

Généralités

3.1 Le modèle

Le modèle d’Eigen a pour but de modéliser l’évolution au cours du temps d’une population de macromolécules. Nous allons d’abord introduire tous les élé-ments nécessaires pour pouvoir définir le modèle.

Les génotypes.SoitAun alphabet fini de cardinalκ > 2 . Nous identifions les macromolécules ou individus avec des chaînes de longueur` > 1 sur l’alpha-bet A et nous appelons une telle chaîne un génotype. L’espace des génotypes est donc A` . Des choix typiques pourA sont l’ensemble des 20 aminoacides pour des protéines,{A, T, G, C}pour des séquences d’ADN, ou{0,1}pour des séquences binaires.

La sélection.La sélection est donnée par unpaysage de fitness, i.e., une fonction

f:A` −→R+.

Pour une séquence donnéeu∈ A`, sa fitnessf(u)représente le taux auquel un individu ayant le génotypeuse reproduit. Une fonction constantefcorrespond à un paysage de sélection neutre, où tous les individus se reproduisent au même taux. Le paysage non neutre le plus simple auquel nous pouvons penser est le

paysage à un pic, i.e., tous les génotypes ont le même taux de reproduction sauf un génotype privilégié w A`, appelé la master sequence, qui a un taux de reproduction supérieur à tous les autres génotypes. Soit σ > 1, la fonction de

fitnessfdu paysage à un pic est donnée par ∀u∈A` , f(u) = σ si u=w, 1 si u6=w.

Les mutations. Lors d’une reproduction, une nouvelle chaîne est créée par ré-plication du génome du parent, cependant, des erreurs peuvent arriver au cours de la réplication, c’est ce qu’on appelle les mutations. Nous supposons que les mutations arrivent indépendamment au hasard sur chaque site de la chaîne, avec probabilitéq [0,1]. Quand une mutation se produit sur un site particu-lier, la lettre est remplacée par une des κ−1 lettres restantes dans l’alphabet, choisie uniformément au hasard. Nous pouvons coder le mécanisme de mu-tation dans un noyau M : A` ×A` −→ [0,1] ainsi : pour tout u, v A`, la probabilitéM(u, v)de transformer le génotypeuenvpar mutation est

M(u, v) = ` Y i=1 q κ−11u(i)6=v(i)+ (1q)1u(i)=v(i) .

La distance de Hamming. L’espace des génotypesA` est muni de la distance de HammingdH, qui mesure le nombre de digits différents entre deux chaînes, i.e., pouru, v∈A` dH(u, v) = ` X i=1 1u(i)6=v(i). Par exemple, dH(01101,01011) = 2 et dH(AAT GT T, CAT GCC) = 3 .

Le noyau de mutationMpeut être réécrit en utilisant la distance de Hamming : pour toutu, v∈A`, M(u, v) = q κ−1 dH(u,v) (1−q)`dH(u,v) .

Le modèle d’Eigen.Nous considérons une population infinie d’individus dont les génotypes sont décrits par les éléments de A`, la composition de la popu-lation évolue au cours du temps. Pour v A`, notons xv(t) la concentration

3.2. Le modèle pour les classes de Hamming 49

d’individus ayant le génotypevdans la population au tempst. L’évolution des concentrationsxv(t)est gouvernée par le système d’équations différentielles

xv0(t) = X

u∈A`

xu(t)f(u)M(u, v) −xv(t) X

u∈A`

xu(t)f(u), v∈A`.

C’est le modèle d’Eigen. Le premier terme dans l’équation correspond à la créa-tion d’individus avec génotypev, le deuxième terme correspond à la destruction d’individus avec génotypev. Posons

φ(t) = X

u∈A`

xu(t)f(u).

La quantitéφ(t)est lafitness moyennede la population au tempst, et elle corres-pond à la création totale de chaînes au tempst. Remarquons que si la concen-tration totale de la population au tempstest égale à 1, i.e.,

X

v∈A`

xv(t) = 1,

elle le sera aussi pour tout s > t. En effet, comme le noyau de mutation M

est une matrice stochastique, en sommant sur toutes les équations du système d’Eigen, nous obtenons X

v∈A`

xv0(t) = 0 .

Nous allons toujours supposer que la concentration totale de la population est égale à 1.

Remarque 3.1.1. Le modèle d’Eigen peut se généraliser naturellement dans le cadre suivant :Eest un ensemble fini,fest une fonction deEdansR+ etMest une matrice stochastique surE.

3.2 Le modèle pour les classes de Hamming

L’espace d’états du modèle d’Eigen est le simplexe de dimension κ`−1. C’est un espace peu adapté à notre étude à cause de sa grande dimension et de l’ab-sence d’un ordre naturel. Afin de réduire la taille de l’espace d’états, nous allons regrouper les chaînes dans des classes de Hamming vis–à–vis d’une séquence de référence. Dans le cas du paysage de fitness à un pic, le choix de la séquence de référence est évident, nous choisissons la master sequence,w.

Classes de Hamming.Soit l {0,. . ., `}, nous disons que le génotype u A`

appartient à la classe de Hammingls’il est à distancelde la master sequence, i.e., sidH(u, w) =l.

Dans la section précédente, nous avons défini le modèle d’Eigen pour une fonc-tion de fitnessf: A` −→ R+ quelconque. Nous ne considérons par la suite que des fonctions de fitness qui respectent les classes de Hamming, c’est à dire, des fonctions de fitness telles que, pour toutu, v∈A`,

dH(u, w) = dH(v, w) f(u) = f(v).

Soitf :A` −→R+ une fonction de fitness vérifiant cette hypothèse. Nous pou-vons alors définir une nouvelle fonction fH : {0,. . ., `} −→ R+ de la manière suivante : pourl∈{0,. . ., `}, nous posonsfH(l)égale à la valeur defcommune à toutudans la classe de Hammingl.

La fonction de fitness du paysage à un pic respecte les classes de Hamming. La fonctionfH associée est donnée par

∀l∈{0,. . ., `}, fH(l) =

σ si l=0,

1 si 16l6`.

Le noyau de mutationMse factorise aussi à travers les classes de Hamming.

Lemme 3.2.1. Soientb, c {0,. . ., `}et soit u A` un génotype dans la classe de Hammingb. La somme X

v∈A`

dH(v,w∗)=c

M(u, v)

ne dépend pas deudans la classe de Hammingb, c’est une fonction debetcseulement, que nous notonsMH(b, c). Le coefficientMH(b, c)est donné par

X 06k6`−b 06l6b b+k−l=c `−b k b l qk(1−q)`bk q κ−1 l 1− q κ−1 b−l .

Démonstration. Le génotype u étant dans la classe de Hamming b, il diffère exactement de b digits de la master sequence. Soient l {0,. . ., b} et k

3.3. Solutions stationnaires et stabilité 51

{0,. . ., `−b}. Parmi les bdigits différents de la master sequence, la probabi-lité que exactement l digits mutent pour devenir égaux à ceux de la master sequence est b l q κ−1 l 1− q κ−1 b−l .

Également, parmi les`−bdigits égaux à la master sequence la probabilité que exactementkchangent et deviennent différents de ceux de la master sequence est `−b k qk(1−q)`k.

Nous obtenons le résultat voulu en sommant les produits des deux probabilités, sur tous lesl, kqui vérifient la contrainteb+k−l=c.

Remarque 3.2.2. Soientb, c∈{0,. . ., `}, soitXune variable aléatoire de distribution Bin(b, q/(κ −1)) et soit Y une variable aléatoire de loi Bin(`−b, q), avec X et Y indépendantes. Alors,

MH(b, c) = P(b−X+Y =c).

Nous avons obtenu un nouvel espace d’états, l’espace des classes de Hamming

{0,. . ., `}, une nouvelle fonction de fitnessfH :{0,. . ., `}−→R+, et un nouveau noyau de mutation MH : {0,. . ., `}×{0,. . ., `} −→ [0,1]. Pour k {0,. . ., `}, nous notonsxk(t)la concentration des chaînes dans la classe de Hammingkau tempst. Les concentrationsxk(t)obéissent au système d’équations

(S) xk0(t) = ` X i=0 xi(t)fH(i)MH(i, k) −xk(t) ` X i=0 xi(t)fH(i), 06k6`. Dans la section suivante, nous étudions un modèle d’Eigen plus général dont les résultats s’appliquent au système (S). Le reste du chapitre est consacré à étudier le système(S)dans un régime asymptotique particulier.

3.3 Solutions stationnaires et stabilité

Comme nous l’avons dit dans la remarque 3.1.1, le modèle d’Eigen peut être défini de manière plus générale pour un ensemble fini de génotypes E, une fonction de fitnessf:E−→R+ et un noyau de mutationMsurE. Nous faisons

ici un petit parenthèse pour étudier ce modèle généralisé. Nous supposons que l’ensembleEa cardinal N> 2 et nous identifionsEavec l’ensemble{1,. . ., N}, nous parlons alors dui–ème génotype, pour 16i6N. Le système d’équations d’Eigen général s’écrit ainsi :

(∗) xk0(t) =

N

X

i=1

xi(t)f(i)M(i, k) −xk(t)φ(t), 16k6N ,

oùφ(t)représente la fitness moyenne de la population au tempst,

φ(t) =

N

X

i=1

xi(t)f(i).

SoitSN le simplexe àNcoordonnées :

SN

=

x ∈[0,1]N:x1+· · ·+xN=1 .

Pour tout x0 SN, la solution de (∗) avec condition initiale x(0) = x0 reste toujours dansSN, cela peut être vérifié en sommant sur toutes les équations du système(∗).

Scaling. Le système (∗) vérifie la propriété de scaling suivante : étant donnée une fonction de fitnessf : {1,. . ., N} −→ R+ et une constantec > 0 nous pou-vons définir une nouvelle fonction de fitnesscf:N−→R+ par

∀k>0, (cf)(k) = cf(k).

La trajectoire (x(t), t > 0) est solution du système (∗) associé à cf si et seule-ment si (x(ct), t > 0) est solution du système (∗) associé à f. Autrement dit, multiplier toutes les fitness par ccorrespond à accélérer le temps d’un facteur

c. En particulier, les solutions stationnaires du système(∗)sont invariantes par le changementf−→cf.

Nous définissons la matrice W(i, j)

16i,j6Npar

∀i, j∈{1,. . ., N}, W(i, j) = f(i)M(i, j). Nous faisons l’hypothèse suivante sur la matriceW:

Hypothèse. La matrice W a toutes ses composantes strictement positives. Sous cette hypothèse, le théorème de Perron–Frobenius peut s’appliquer à la matriceW:

3.3. Solutions stationnaires et stabilité 53

Théorème 3.3.1 (Perron–Frobenius.). SoitA une matrice carrée ayant tous ses co-efficients strictement positifs. Il existe un nombre réel positifλvérifiant les propriétés suivantes :

•La valeurλest une valeur propre simple deA, et toute autre valeur propre deAa un module strictement inférieur àλ.

•Il existe un vecteur propreudeA, associé àλ, ayant toutes ses composantes stricte-ment positives.

La démonstration du théorème de Perron–Frobenius peut être trouvé dans [73]. Le théorème est vrai pour les vecteurs propres à gauche comme pour les vec-teurs propres à droite. Rappelons que vest unvecteur propre généralisé de rang

k>1 de la matriceAassocié à la valeur propreµ, si

(A−µI)kv = 0 et (A−µI)k−1v 6= 0 .

Nous avons le résultat suivant :

Lemme 3.3.2. SoitAune matrice carrée ayant tous ses coefficients strictement posi-tifs. Tout vecteur propre généralisé deAayant toutes ses composantes positives, est un multiple du vecteur propre de Perron–Frobenius.

Démonstration. Soitv un vecteur propre généralisé (à droite) de rangk > 1 de

A, associé à la valeur propreµ, ayant toutes ses composantes positives, avec au moins une composante non nulle. Soitλla valeur propre de Perron–Frobenius deAet soitule vecteur propre à gauche associé. Alors

tu(A−µI) = (λ−µ)tu.

Nous en déduisons que

0 = tu(A−µI)kv = (λ−µ)k(tu)v.

Or, puisqueua toutes ses coordonnées strictement positives, tuv > 0 et donc

λ=µ. Puisqueλest une valeur propre simple, le sous–espace propre généralisé associé àλest de dimension 1, et nous concluons quevest multiple du vecteur propre à droite de Perron–Frobenius deA.

Soit λ la valeur propre associée à la matrice W par le théorème de Perron– Frobenius et soitule vecteur propre unitaire deWayant toutes ses composantes strictement positives. Nous avons le théorème suivant :

Théorème 3.3.3. Le vecteur u est le seul point stationnaire du système d’équations

(∗)dans le simplexeSN. En outre, pour toutx0 ∈SN, la solution(x(t))t>0de(∗)avec condition initialex0converge versuquandttend vers l’infini.

Démonstration. Une solution stationnaire de (∗), x SN, satisfait le système d’équations 0 = N X i=1 xif(i)M(i, k) −xkφ(x), 16k6N.

Ce système peut se réécrire sous forme matricielle :txW =txφ(x), avec,

φ(x) = N X i=1 xif(i) = N X i,j=1 xif(i)M(i, j) = N X i,j=1 xiW(i, j).

Ainsi, six∈SNest une solution stationnaire de(∗), alorsxest un vecteur propre unitaire de W ayant toutes ses composantes positives et φ(x) est une valeur propre de W. L’unicité d’une telle solution découle du théorème de Perron– Frobenius. Pour démontrer l’existence, nous prenons λla valeur propre de W

donnée par le théorème de Perron–Frobenius, et u le vecteur propre unitaire associé. Nous remarquons queλvérifie l’équation

λ =

N

X

i,j=1

uiW(i, j),

et doncx=u∈SNest bien une solution stationnaire de(∗). Nous démontrons ensuite que toute solution de(∗)converge versu. Pour cela nous effectuons le changement de variables suivant :

yk(t) = xk(t)exp Zt 0 φ(s)ds , 16k6N. Ce changement de variables rend le système linéaire, en effet,

yk0(t) =

N

X

i=1

yi(t)W(i, k), 16k6N ,

ce qui s’écrit sous forme matriciellety0 = tyW. Remarquons que pour retrou-ver(x(t))t>0à partir de(y(t))t>0, il suffit de prendre

xk(t) = yk(t)

3.3. Solutions stationnaires et stabilité 55

En effet, cela se voit en sommant surk dans la formule de changement de va-riables, ce qui donne

N X k=1 yk(t) = exp Zt 0 φ(s)ds .

Il existe une matrice de changement de baseP qui nous permet de passer de la matriceWà sa forme canonique de Jordan réelle :

PWP−1 = Wf = λ 0 · · · 0 0 .. . J 0 ,

oùλest la valeur propre donnée par le théorème de Perron–Frobenius etJune matrice de Jordan réelle. Remarquons que la première ligne de la matriceP, que nous appelonsP(1,·), est un vecteur propre deWassocié àλ, i.e.,

P(1,·)W = P(1,·)λ.

Nous faisons encore un changement de variables : nous posons tz = tyP−1. Alors, zvérifie le système d’équations différentielles tz0 = tzWf, dont la solu-tion est donnée par

z(t) = eλt 0 · · · 0 0 .. . eJt 0 z1(0) z2(0) .. . zN(0) ,

oùeJtest la matrice exponentielle définie par :

eJt = X

n>0

Jntn n! .

Puisque toute valeur propre de la matrice J est en valeur absolue strictement plus petite que λ (par le théorème de Perron–Frobenius), nous avons pour la norme d’opérateur||·||associée à la norme euclidienne deRN :

Nous avons défini le vecteur z par tz =tyP−1, ceci entraîne notamment que

z1(0)6=0. En effet, nous pouvons exprimer le vecteury(0)comme combinaison linéaire des lignes de la matriceP :

t

y(0) = c1P(1,·) +· · ·+cNP(N,·),

avecc1,. . ., cNR. Nous en déduisons que

z1(0) = ty(0)P−1(·,1) = c1.

Or, les lignes de P sont des vecteurs propres généralisés de W, et d’après le lemme 3.3.2, le sous–espace engendré par P(2,·),. . ., P(N,·) ne contient pas le simplexeSN. Commey(0) =x(0)∈SN, nécessairementc16=0. Puisquez1(0)6=

0,

lim

t→∞ zk(t)

z1(t) = 0, 26k6N.

Vu quety(t) =tz(t)P, il s’ensuit que, pour toutk∈{1,. . ., N},

lim t→∞ xk(t) = lim t→∞ yk(t) y1(t) +· · ·+yn(t) = lim t→∞ X 16i6N zi(t)P(i, k) X 16i,j6N zi(t)P(i, j) = P(1, k) N X j=1 P(1, j) = uk,

oùu = (u1,. . ., uN) est le vecteur de Perron–Frobenius normalisé deW. C’est ce qu’il fallait démontrer.

Le résultat que nous venons de démontrer s’applique au système d’Eigen ori-ginal défini dans la section 3.1, ainsi qu’au système d’Eigen pour les classes de Hamming défini dans la section 3.2, sous l’hypothèse que les fonctions de fit-ness associées soient strictement positives. Le théorème peut être généralisé à des matrices W avec des coefficients nuls sous l’hypothèse qu’elle soient irré-ductibles : une matrice carréeWest irréductible si pour tout pair d’indicesi, jil existe un nombre naturelm =m(i, j)tel que l’élémentWm(i, j)est strictement positif. Les résultats du théorème 3.3.3 apparaissent déjà dans plusieurs articles dans la littérature sur le modèle d’Eigen, notamment dans [5, 48, 49, 78].

3.4. Régime asymptotique 57

3.4 Régime asymptotique

Revenons au modèle d’Eigen pour les classes de Hamming introduit dans la section 3.2 : (S) xk0(t) = ` X i=0 xi(t)fH(i)MH(i, k) −xk(t) ` X i=0 xi(t)fH(i), 06k6`. Les résultats de la section précédente s’appliquent au système (S). Pour voir apparaître un phénomène de seuil d’erreur, nous étudions le système(S)quand la longueur du génome`tend vers l’infini et la probabilité de mutationqtend vers 0. Plus précisément, nous considérons le régime asymptotique suivant :

`→∞, q→0, `q→a∈]0,+∞[ .

Dans la suite, quand nous disons qu’un résultat est vraiasymptotiquement, cela veut dire qu’il est vrai pour`assez grand,qassez petit et`qassez proche dea.

Fonction de fitness limite. Pour que le régime asymptotique précédent ait du sens, nous supposons que, pour chaque`>1, la fonctionfH :{0,. . ., `}−→R+

est la restriction à l’espace{0,. . ., `}d’une fonctionf:N−→R+.

Le cas du paysage à un pic peut être étudié dans ce cadre en considérant la fonctionf :N−→R+donnée par

∀k>0 f(k) =

σ si k=0,

1 si k>1 .

Noyau de mutation limite.Soientb, c Net ` > b, c. SoitXune variable aléa-toire de loi binomiale de paramètresbetq/(κ−1), soitYune variable aléatoire de loi binomiale de paramètres`−betq. Supposons queXetY sont indépen-dantes. D’après la remarque 3.2.2,

MH(b, c) = P −X+Y =c−b.

Asymptotiquement,P(X = 0)tend vers 1, etY tend vers une variable aléatoire de loi de Poisson de paramètrea. Donc, pour toutb, c>0,

lim `→∞, q→0 `q→a MH(b, c) = ea a c−b (c−b)! si b6c , 0 si b > c.

Nous notonsMce noyau limite.

Système d’Eigen limite. Nous nous intéressons donc au système d’équations limite suivant : (S) xk0(t) = k X i=0 xi(t)f(i)ea a k−i (k−i)! xk(t) X i=0 xi(t)f(i), k>0 .

Dans les sections suivantes, nous étudions les solutions stationnaires et la sta-bilité des trajectoires pour ce système, d’abord pour le paysage à un pic, puis pour des fonctions de fitness plus générales.

Chapitre 4

Documents relatifs