• Aucun résultat trouvé

II.4 L’évolution expérimentale in silico

III.2.1 Choix des paramètres pour la construction des populations

popula-tions souches

Pour la construction des populations souches, dix simulations avec des paramètres iden-tiques (Table III.1) sont jouées avec des populations de N = 1000 individus, démarrant d’une population clonale avec une séquence aléatoire de 5 000 bases et au moins un gène

fonctionnel1. Elles sont simulées pendant 150 000 générations pour constituer les

popu-lations souches pour les scénarios, puis pendant 50 000 générations supplémentaires afin d’avoir des contrôles pour les scénarios. Certaines des valeurs des paramètres utilisés pour les populations souches sont différentes de celles couramment utilisées dans les simulations avec aevol et leur choix est donc discuté dans la suite.

Dans la plupart des campagnes de simulations effectuées avec aevol, le calcul des probabi-lités de reproduction se fait selon un schéma basé sur les rangs des individus (Exponential ranking). En effet, ces méthodes de sélection sont moins sensibles au phénomène de conver-gence prématurée vers un optimum local, observé avec des méthodes basées sur les valeurs brutes d’adaptation (Fitness-proportionate). Cependant ces dernières sont plus proches de la façon dont la sélection est modélisée dans les modèles de génétique des populations, et surtout de la biologie "réelle". En effet, un individu dix fois mieux adapté qu’un autre individu devrait se reproduire dix fois plus que l’autre individu. Pour cette campagne de simulations, le choix se porte donc sur la méthode de sélection dite Fitness-proportionate, où la probabilité de reproduction est directement fonction de la valeur d’écart à la cible g. Le paramètre k permet de contrôler la force de la sélection, en déterminant la vitesse à laquelle le coefficient de sélection s décroît quand l’écart à la cible g augmente (Figure III.4). Il est fixé à 750 dans les populations souches et sera augmenté ou diminué dans les scénarios.

Comme étudié dans Knibbe (2006), avec une méthode de sélection Fitness-proportionate, les génomes tendent à se raccourcir progressivement au cours du temps, principalement par la perte de bases non codantes. Ce phénomène peut s’expliquer par le rôle du non codant dans les réarrangements génomiques et donc dans la variabilité mutationnelle du phénotype. En effet, au fur et à mesure de l’évolution, les gains d’adaptation dus aux mutations favorables deviennent de plus en plus faibles, alors que les pertes d’adaptation dues aux mutations délétères peuvent rester conséquentes. En conséquence avec le mode de sélection basé sur les valeurs brutes d’adaptation, les mutations favorables ne sont plus sé-lectionnées alors que les mutations délétères sont, elles, contre-sésé-lectionnées, passant ainsi d’une sélection directionnelle à une sélection stabilisatrice. Cela implique que le niveau de

1

Pour chaque simulation, des séquences de 5 000 bases sont créées aléatoirement et testées jusqu’à ce qu’elles contiennent au moins un gène fonctionnel, c’est-à-dire codant pour un triangle de largeur et de hauteur strictement positives. La première séquence répondant à ce critère est alors donnée comme génome pour l’ensemble des individus de la population initiale d’une simulation.

III.2. Méthodologie : Tester les hypothèses proposées pour l’évolution

réductive 69

Paramètres Symbole Valeur

Taille de population N 1000

Taille du génome initial (aléatoire) Linit 5 000 paires de bases

Séquence promotrice 0101011001110010010110

avec dmax = 4 mésappa-riements

Séquence terminatrice abcd∗ ∗ ∗ dcba

Signal d’initiation de la traduction 011011∗ ∗ ∗ ∗000

Signal de terminaison de la traduction 001

Code génétique Figure III.1

Ensemble global des processus cellulaires [0, 1]

Pléiotropie maximale des protéines wmax 5· 10−3

Cible moyenne de l’environnement fE Figure III.1

Variation de l’environnement : temps caractéristique τ 5000 Variation de l’environnement : déviation standard σ 0.05

Intensité de sélection k 750

Taux de mutation ponctuelle uM utationP onctuelle 5· 10−6 par pb Taux de petite insertion uP etiteInsertion 5· 10−6 par pb

Taux de petite délétion uP etiteDeletion 1· 10−5 par pb

Taux de grande délétion uGrandeDeletion 5· 10−5 par pb

Taux de duplication uDuplication 5· 10−5 par pb

Taux d’inversion uInversion 5· 10−5 par pb

Taux de translocation uT ranslocation 5· 10−5 par pb

Longueurs des petits indels Loi uniforme entre 1 et 6

pb

Proportion d’essais de transferts ut 0.5 par individus

Taux de détachement 0.3

Table III.1 – Valeurs des paramètres utilisés pour la construction des populations souches

Ces valeurs ont été choisies après des analyses préliminaires. Certains paramètres comme les signaux structuraux n’ont pas d’impact sur la structure du génome. L’impact de wmax a été étudié (Knibbe et al., 2007b) tout comme l’impact des taux de mutation et particulièrement les taux de réarrangement (Knibbe et al., 2007a). Taux de mutation et wmax ont été choisis pour obtenir une densité de gènes assez proche de la densité de gènes bactérienne et avec suffisamment de gènes pour permettre des expériences sur l’évolution réductive. L’intensité et la fréquence des variations environnementales (σ et τ respectivement) ont été choisis suite à une large campagne d’expériences (Annexe A). k a été testé dans Batut et al. (2013).

0.000 0.005 0.010 0.015 0.020 0.025 −1.0 −0.8 −0.6 −0.4 −0.2 0.0

Différence d'écart à la cible ∆ g

T

aux de croissance relatif Coefficient de sélection

s k= 2250 k= 1250 k= 750 k= 500 k= 250

Figure III.4 – Taux de croissance relatif ou coefficient de sélection s en fonction de la différence d’écart à la cible entre deux individus

Le taux de croissance relatif est e−kg2

e−kg1 − 1, soit le rapport entre la probabilité de reproduction pour des individus ayant une différence d’écart à la cible ∆g = g1− g2.

variabilité mutationnelle indirectement sélectionné diminue. Il devient alors avantageux

de réduire les régions non codantes qui sont mutagènes pour les réarrangements1 mais ne

participent pas au phénotype, donc à la fitness des individus.

Afin de rester dans une sélection directionnelle et d’éviter l’érosion du non codant, les génomes doivent subir des changements fréquents des conditions d’évaluation de leur adaptation afin qu’ils soient confrontés à des tâches différentes à accomplir. Ainsi, dans ce travail, nous faisons fluctuer la cible environnementale à chaque pas de temps par changement des hauteurs des trois gaussiennes constituant la cible (Figure III.2) selon un processus régressif d’ordre 1 de paramètres σ et τ . σ contrôle l’amplitude de la fluctuation et τ la vitesse à laquelle une hauteur de gaussienne tend à retourner vers la hauteur moyenne de la gaussienne (Section III.1.2).

Une campagne de simulations a eu lieu durant cette thèse pour tester l’impact de σ et τ

sur la structure des génomes (Annexe A)2. Ainsi, τ et la taille du génome ont une relation

1En effet, c’est la taille totale du génome et pas seulement la partie codante qui détermine le nombre de réarrangements spontanés subis à chaque reproduction (nrear = urear × L, avec nrear le nombre de réarrangement, urear le taux de réarrangement spontané par base, L la taille du génome). Comme par ailleurs un réarrangement entre deux séquences non codantes affecte tous les gènes situés entre ces deux séquences (une délétion, par exemple), l’ADN non codant est de facto mutagène pour les gènes avoisinnants.

2

On notera que cette campagne a été effectuée avec une cible environnementale un peu différente de celle utilisée dans ce présent travail et où ce sont les positions des gaussiennes qui fluctuent au cours du temps et non les hauteurs. En outre, les trois gaussiennes utilisées étaient chevauchantes, avec une gaussienne négative alors que les trois gaussiennes utilisées ici sont positives et peu chevauchantes. L’avantage de cet environnement est qu’il est plus simple à modifier pour les scénarios. De plus, la variation

III.2. Méthodologie : Tester les hypothèses proposées pour l’évolution

réductive 71

en forme de cloche, avec des petits génomes pour les petites et grandes valeurs de τ et des grands génomes pour les valeurs moyennes de τ , principalement par des changements dans la quantité de bases non codantes. La forme de la cloche est exacerbée par des valeurs croissantes de σ. Bien que l’environnement et sa fluctuation soient différents entre la campagne précédente de simulations et les simulations de construction des contrôles, les impacts de σ et τ restent similaires, mais avec des plages quelques peu différentes. Les valeurs utilisées ici (σ = 0.05 et τ = 5000) ont été choisies pour qu’au moins 80% des bases des génomes soient codantes, reflétant ainsi la forte densité en gènes des génomes bactériens, et que l’environnement varie assez lentement pour les génomes aient le temps de s’adapter à ces variations.

Afin d’atteindre un nombre assez important de gènes dans les souches pour espérer voir ensuite une réduction du nombre de gènes, nous avons choisi dans ce travail une pléiotropie maximale des protéines inférieure à celle utilisée par défaut dans aevol. Ce paramètre

correspond à la largeur maximale des triangles wmax. En diminuant cette valeur, chaque

triangle couvre une surface moins importante et plus de triangles sont donc nécessaires pour approcher au mieux la cible environnementale (Knibbe et al., 2007b). Les valeurs de

wmax ∈ [0.01; 0.3] utilisées jusqu’à présent permettait d’obtenir environ 70 gènes, ce qui

est trop faible pour des expériences d’évolution réductive. La valeur choisie wmax = 0.005

permet d’obtenir une centaine de gènes au minimum.

Les taux de mutation et de réarrangement ont aussi un impact sur le nombre de gènes et surtout sur la quantité de bases non codantes (Knibbe et al., 2007a). Le génome est d’autant plus compact et pauvre en gènes que ces taux sont élevés. Comme mentionné précédemment, les génomes des populations souches doivent avoir assez de gènes pour simuler une évolution réductive mais aussi avoir une densité de gènes assez élevée. Des expériences préliminaires ont montré qu’il est possible d’obtenir au moins 80% des bases incluses dans des gènes, lorsque les taux de réarrangement (duplication, grande délétion, translocation, inversion) sont un ordre de grandeur supérieurs aux taux de mutation locale (mutation ponctuelle, petite insertion, petite délétion) et que ces derniers sont de l’ordre de 5 · 10−6.

La compaction des génomes chez les bactéries semble principalement due à un biais muta-tionnel favorisant les délétions sur les insertions (Kuo et Ochman, 2009; Mira et al., 2001). Afin de favoriser cette compaction, nous avons introduit un biais semblable à celui observé dans les bactéries dans les taux spontanés de mutation locale. Ainsi, dans ce travail, le taux spontané de petite délétion est systématiquement deux fois plus fort que le taux de petite insertion et le taux de mutation ponctuelle.

Enfin, alors que la plupart des bactéries libres sont capables d’effectuer des recombinai-sons entre leur ADN et l’ADN d’autres bactéries (Takuno et al., 2012), les endosymbiotes sont isolés génétiquement au sein d’une cellule eucaryote et donc peu exposés à de l’ADN exogène. Certaines espèces ont même perdu la faculté de recombiner. Cet arrêt de la

re-environnementale des hauteurs est plus facile à appréhender. En effet, la variation des moyennes dans l’environnement précédent entrainait une variation des hauteurs des pics de la cible environnementale car les gaussiennes sont chevauchantes. Cela rend l’impact des valeurs σ et τ plus difficile à interpréter.

combinaison est l’une des causes évoquées pour expliquer leur évolution réductive. Afin de pouvoir tester ce scénario, nous avons donné aux populations souches la capacité de re-combiner entre elles de façon homologue, par transfert de portions homologues de génome entre un donneur et un receveur selon la procédure décrite dans la section III.1.3, avec un

taux d’essais de transfert µt = 0.5. Le coefficient de proportionnalité µn déterminant le

nombre d’essais effectués pour trouver le premier alignement est fixé à 1 · 10−5, la

demi-largeur de l’espace de recherche à 50 bases et le décalage maximal entre les alignements à 20 bases. La probabilité de détachement lors de l’extension de la zone d’homologie par

recherche d’alignement est de 0.3. Ces valeurs permettent d’obtenir environN/4transferts

par génération, de taille généralement comprise entre 100 et 400 bases, ce qui correspond environ à la longueur d’un à quatre gènes dans nos génomes artificiels.