• Aucun résultat trouvé

II.4 L’évolution expérimentale in silico

III.1.5 Sorties et post-traitements des simulations

Les sorties principales d’une simulation avec aevol sont les séries temporelles, au cours de l’évolution, de valeurs comme la taille du génome ou le nombre de gènes, à chaque génération, pour le meilleur individu de la génération et pour la moyenne de la population. Cependant, le meilleur individu à une génération donnée peut appartenir à une lignée

III.1. aevol : modèle de l’évolution de la taille et de l’organisation des

génomes bactériens 65

qui sera éteinte en fin de simulation. Or, nous nous intéressons plus particulièrement à l’évolution de caractéristiques fixées, c’est-à-dire celles conduisant aux individus en fin de simulation. À l’aide des arbres généalogiques, aevol permet de reconstruire la lignée ancestrale du meilleur individu obtenu en fin de simulation et nous nous intéressons à l’évolution des caractéristiques génomiques le long de cette lignée. De plus, pour comparer les caractéristiques en fin de simulation, les différents indicateurs sont étudiés sur l’ancêtre commun le plus récent de tous les individus de la dernière génération afin d’avoir accès à des caractéristiques partagées par tous les individus.

Les évènements mutationnels le long de la lignée ancestrale, c’est-à-dire gagnante, sont aussi étudiés afin de différencier les évènements spontanés des évènements fixés, conservés par la sélection. La lignée et ses évènements mutationnels sont aussi utilisés pour recons-truire des familles de gènes et leur évolution (création, perte, duplication d’un gène, ...). Contrairement aux méthodes de génomique comparative, les familles de gènes ne sont donc pas issues de la recherche d’homologie des séquences à partir des génomes "finaux" avec une méthode rétrospective. Elles sont construites avec une approche prospective en partant des gènes initiaux et en tenant compte de tous les évènements susceptibles de modifier les familles de gènes.

À intervalles réguliers, l’ensemble de la population est enregistré dans des fichiers de sau-vegarde. À partir des informations contenues dans ces fichiers, des essais reproductifs peuvent être effectués pour l’ensemble de la population. Les distributions de certains ca-ractères liés à la reproduction des individus au sein de la population sont ainsi accessibles, comme le nombre d’individus se reproduisant, le nombre de descendants par individus, les proportions de descendants identiques à leur parent en terme de fitness. Ces informations donnent des indications sur la génétique des populations dans aevol.

Autre indicateur important en génétique des populations, la taille efficace de population

peut aussi être inférée. La taille efficace de population, notée Ne, correspond à la taille

d’une population idéale évoluant seulement par dérive génétique qui présenterait le même niveau de diversité génétique qu’une population réelle. Cette mesure détermine ainsi le

taux de changement de la composition d’une population causé par dérive génétique. Ne

peut être estimé empiriquement à partir du temps de coalescence, c’est-à-dire le nombre de générations nécessaires pour remonter à l’ancêtre commun des sites génétiques de deux individus pris au hasard. Ainsi, la taille efficace de population à l’instant t est égale à

E[T ]/2avec E[T ] l’espérance du temps de coalescence de la population entière (Felsenstein,

2005). Cependant, dans de nombreux cas biologiques, le temps de coalescence est difficile à estimer parce que tous les évènements ne sont pas connus. Avec aevol, tous les évènements de reproduction sont enregistrés et le temps de coalescence de toutes les paires d’individus

peut être calculé afin d’en déduire Ne.

En l’absence de transfert, le temps de coalescence peut être calculé de façon exacte (Figure III.3a). En revanche, en présence de transfert, le temps de coalescence de deux individus est plus compliqué à estimer. En effet, une partie du génome d’un individu peut provenir d’un autre individu que son parent principal. Le temps de coalescence de deux individus n’est alors plus calculable. Le temps de coalescence est alors calculé pour des ensembles de sites

Générations

0

Reproduction Temps de coalescence = 6 générations

2 individus choisis au hasard Ancêtre commun le plus récent

(a) Sans transfert

Générations

0

Transfert

Temps de coalescence = 7 générations

Sites homologues de 2 individus choisis au hasard Ancêtre commun le plus récent Reproduction (b) Avec transfert

Figure III.3 – Estimations des temps de coalescence dans aevol avec une connaissance exacte des évènements de reproduction et transfert

Tous les évènements de reproduction et de transfert sont enregistrés dans des fichiers de sauvegarde. En utilisant une méthode rétrospective, nous pouvons donc remonter à l’ancêtre commun le plus récent de deux individu choisis au hasard en suivant la lignée ancestrale de chacun des individus choisis.

Avec du transfert, le génome d’un individu n’est pas issu seulement de celui de n’importe quel de ces ancêtres directs, certaines portions ayant été acquises par transfert. Pour accéder au temps de coalescence, nous ne remontons pas jusqu’à l’ancêtre commun de deux individus mais jusqu’à l’ancêtre commun de sites homologues de deux individus en suivant la lignée ancestrale lorsque les sites ont été transmis par reproduction et en suivant les donneurs lorsque les sites sont transmis par transfert.

III.2. Méthodologie : Tester les hypothèses proposées pour l’évolution

réductive 67

"homologues" entre des paires d’individus (Figure III.3b). Pour chaque paire d’individus, leurs génomes sont alignés afin de trouver des portions conservées entre les deux génomes. Pour chaque paire de portions dites "homologues", les évènements de reproduction et de transfert sont rejoués depuis la fin de simulation jusqu’à trouver l’ancêtre commun le plus

récent de la paire. Neest alors la moyenne pour toutes les paires d’individus de la moyenne

du temps de coalescence de toutes les paires de portions "homologues", divisée par 2.

III.2 Méthodologie : Tester les hypothèses proposées

pour l’évolution réductive

Les expériences d’évolution in silico sont habituellement réalisées de la façon suivante. Un paramètre dont l’impact doit être étudié est déterminé ainsi que les valeurs à tester. Les autres paramètres sont fixés et ne changent pas. Pour chaque valeur du paramètre à tester, plusieurs simulations sont effectuées avec des graines du générateur aléatoire diffé-rentes afin de prendre en compte l’effet statistique des observations. Toutes les simulations démarrent à la génération 0 avec des populations d’organismes "naïfs" générés aléatoire-ment ou manuellealéatoire-ment. Dans le cas d’aevol, par exemple, la population est généralealéatoire-ment initialisée avec des génomes aléatoires comprenant au moins un gène fonctionnel. Elles évoluent pendant un grand nombre de générations, sans changement des paramètres au cours de la simulation.

Pour tester les différentes hypothèses pouvant induire l’évolution réductive, un tel plan d’expérience n’est pas adapté. En effet, l’évolution réductive correspond à la réduction des génomes dans certaines lignées pour des organismes ayant déjà évolué et dont le génome est composé d’un grand nombre de gènes. C’est pourquoi nous avons proposé une nouvelle méthodologie pour utiliser la plate-forme (Batut et al., 2013) (Figure III.5). Elle se base sur la construction de populations de génomes artificiels, nommées populations souches, par évolution pendant 150 000 générations. A partir de ces populations évoluées, différents changements de paramètres sont effectués, un par un, et l’évolution est prolongée pendant 50 000 générations avec ces nouveaux paramètres pour étudier leur impact sur la structure des génomes et tester s’ils induisent une évolution réductive. Ces populations avec changements sont appelés scénarios car ils symbolisent des hypothèses de scénarios pour expliquer l’évolution réductive, chez les endosymbiotes ou chez Prochlorococcus. Afin de pouvoir quantifier l’impact des changements, les populations souches continuent leur évolution en parallèle des différents scénarios. Elles sont nommées simulations de contrôle dans la suite du manuscrit.

Pour un minimum de puissance statistique, dix populations souches sont construites avec, à l’exception de la graine du générateur aléatoire, les même paramètres détaillés par la suite. Onze scénarios, soit onze changements de paramètres sont testés. Au total, en dehors

des simulations de contrôles, 110 simulations, soit 5.5·106générations, sont simulées. Cette

campagne de simulation a nécessité un total d’environ 4 ans et 116 jours de calcul. Les campagnes préliminaires ayant permis de choisir les valeurs des paramètres (voir section

suivante) ont par ailleurs nécessité environ 30 ans de calcul en comptant la campagne présentée dans l’annexe A.