• Aucun résultat trouvé

Chapitre 6 : Modélisation de l’histoire évolutive de la

6.2. Matériel et méthodes

Le logiciel BayeSSC, utilisé pour les simulations, est construit sur la base de Simcoal 1.0 (Excoffier, Novembre et al. 2000) mais présente une méthode de simulation plus flexible. Il réalise automatiquement une sortie analysée des simulations demandées avec un résumé de statistiques telles que le nombre de sites en ségrégation, le nombre d‟haplotypes, l‟indice π de diversité moléculaire ainsi que le D de Tajima. Trois modèles différents vont être testés sur les deux populations de tomates domestiquées et sauvages : un modèle de taille de population constante, un modèle incluant un goulet d‟étranglement 500 générations dans le passé et un modèle plus compliqué incluant une séparation des deux populations, un goulet d‟étranglement, une croissance démographique 500 générations dans le passé et des évènements de migration (Figure 6-3).

Les séquences étant de longueur relativement faible, on néglige l‟effet de la recombinaison intra-fragment, ce qui va simplifier la méthode de simulation de coalescence utilisée. BayeSSC va permettre de simuler l‟histoire évolutive des populations de tomate en s‟appuyant sur les résultats de diversité des séquences obtenus sur le pool sauvage et cultivé. Ces simulations permettront de paramétrer l‟importance du goulet d‟étranglement et la

période la plus probable où ce goulet a pu avoir lieu. BayeSSC va générer des généalogies qui seront fonction du modèle indiqué puis les mutations seront placées le long de cette généalogie en utilisant le modèle de site fini avec deux états alléliques potentiels pour chaque site.

500 générations

Ne constant

Ne

dom

Ne

wild

Ne

dom

T

500 générations

Modèle n°1

Ne

wild Goulet d’étranglement

Modèle n°2

Séparation des populations et goulet d’étranglement

Croissance démographique

Modèle n°3

Migration

Figure 6-3. Modèles évolutifs utilisés dans l’analyse.

Le modèle n°1 est un modèle de taille constante, le modèle n°2 implique un goulet d‟étranglement 500 générations dans le passé et le modèle n°3 intègre une division des deux populations, un goulet d‟étranglement, une croissance démographique et la migration d‟accessions sauvages vers le groupe cultivé. Nedom et Newild représentent respectivement la taille efficace de la population domestiquée et de la population sauvage.

Vingt séquences de 550 bp seront simulées pour les deux populations « sauvage » et « domestiquée » et quatre statistiques seront définies sur ces deux jeux de séquences : le nombre de sites polymorphes, le nombre d‟haplotypes, la diversité nucléotidique π et le D de Tajima. Pour chaque modèle, 1000 généalogies sont simulées où un seul paramètre est déclaré comme variable suivant une distribution définie à l‟avance. Cette distribution est ensuite découpée en classes et nous calculons un score relatif à la vraisemblance par rapport aux données observées, pour chacune des classes. La méthode décrite par Belle, Ramakrishnan et al. (2006) a été adaptée afin de prendre en compte la variation d‟un paramètre dans le calcul du score. Ensuite un script a été développé pour R afin d‟analyser les sorties de BayeSSC et directement étudier la vraisemblance des modèles par rapport aux données réelles (http://www.stanford.edu/group/hadlylab/ssc/index.html). Un plus grand nombre de simulations peut être analysé en même temps.

Pour chaque statistique obtenue, la vraisemblance empirique P est calculée de la façon suivante : supposons que la statistique observée est x, qui se classe dans le kième rang parmi S valeurs simulées de moyenne m. Si x > m, la vraisemblance empirique se calcule comme le nombre de simulations donnant des valeurs supérieures à x divisé par S. Donc on compte le nombre de simulations donnant une valeur supérieure à x dans la queue droite de la distribution puis on double ce nombre pour obtenir un test bilatéral. On réalise l‟analyse symétrique si x < m. Quand la statistique observée tombe hors de la gamme de variation des valeurs simulées, on fixe P=0.0005 comme une estimation conservative de la vraisemblance. Afin de combiner les probabilités sur plusieurs statistiques, on utilise la méthode de combinaison de probabilité de Fisher. Ce test suppose que les probabilités sont indépendantes. Ce n‟est pas le cas ici mais nous négligerons les effets de dépendances entre π et le D de Tajima. De cette manière, le test statistique, qui suit une loi du χ², a été estimé à partir des quatre statistiques analysées.

Pour tous les modèles, l‟estimation du taux de substitution par site et par an chez la tomate est fixée à la valeur donnée par Gaut (1998) pour des gènes nucléaires chez les végétaux supérieurs et validé chez la tomate (Ku, Vision et al. 2000; Nesbitt and Tanksley 2002). Cette valeur est fixée à 6.03e-9 substitutions silencieuses par site et par an. Même si la tomate sauvage est une espèce potentiellement pérenne, on fixe le taux de génération à une génération par an. Le taux de mutations (probabilité que la séquence subisse un évènement de mutation par génération) est alors égal à 3.3e-6 (6.03e-91550sites).

Les séquences de certains fragments décrits dans l‟article présenté dans le chapitre 5 ont été utilisées pour étudier la diversité du chromosome 2. Le fragment lcn2.1 n‟a pas été retenu car il apparaît avoir évolué différemment par rapport au chromosome. On utilise toutes les séquences disponibles obtenues à partir de 92 accessions sauvages et cultivées (S. l.

esculentum, S. l. cerasiforme et S. pimpinellifolium) Les accessions sont classées en fonction

de leur appartenance aux groupes « sauvage » (Wild) ou « domestiqué » (Domesticated) identifiés par STRUCTURE dans le chapitre 3.

Vingt trois fragments, ciblant majoritairement des régions non codantes, sont considérés comme neutres. Toutes les séquences ne sont pas disponibles pour tous les individus (données manquantes) mais, en moyenne, 60 séquences par fragment dans le groupe « domestiqué » et 18 séquences par fragment dans le groupe « sauvage » ont été utilisées. La diversité moléculaire des séquences pour les 23 fragments a été analysée à l‟aide du programme DNAsp5.0.