D´ etection des signatures de s´ election : approches intra et inter populations
Simon Boitard
UMR 7205 (EPHE - MNHN - CNRS), Paris INRA, GABI, Jouy en Josas
S. Boitard (INRA, GABI) D´etection des signatures de s´election 1 / 25
Introduction
Signatures de s´election positive (adaptation) `a l’int´erieur d’une esp`ece.
Enjeu th´eorique (comprendre ´evolution / diff´erentiation des races depuis domestication) et appliqu´e (zones du g´enome d’int´erˆet agronomique . . . ).
Scans g´enomiques possibles `a partir de donn´ees de type puces SNP haute densit´e ou NGS.
Deux approches possibles : recherche de zones de faible diversit´e g´en´etique intra population, ou de grande distance g´en´etique inter populations.
Plan de l’expos´ e
1 D´etection de zones de faible diversit´e g´en´etique intra population
2 D´etection de zones de forte diff´erentiation g´en´etique inter populations
3 Conclusions
S. Boitard (INRA, GABI) D´etection des signatures de s´election 3 / 25
1 D´etection de zones de faible diversit´e g´en´etique intra population
2 D´etection de zones de forte diff´erentiation g´en´etique inter populations
3 Conclusions
Balayage s´ electif
S. Boitard (INRA, GABI) D´etection des signatures de s´election 5 / 25
Balayage s´ electif
Balayage s´ electif
S. Boitard (INRA, GABI) D´etection des signatures de s´election 5 / 25
Balayage s´ electif
Balayage s´ electif
S. Boitard (INRA, GABI) D´etection des signatures de s´election 5 / 25
Donn´ ees SNP
Echantillon de n chromosomes. 0 = ancestral, 1 = mut´e.
0−0−0−0−1−0−0−0−0−0−0−...
0−0−0−0−1−0−0−0−1−0−0−...
0−0−0−0−0−0−0−0−0−0−0−...
yi nombre d’all`eles 1 au sitei (valeurs entre 0 et n).
0−0−0−0−2−0−0−0−1−0−0−...
Distribution de Yi d´epend du mod`ele d’´evolution.
Effet d’un balayage s´ electif sur la distribution de Y
iDistribution du nombre d’all`eles mut´es (Yi) `a un site neutre (i) loin d’un site s´electionn´e (courbe bleue) (ii) proche d’un site s´electionn´e (courbe rouge)
S. Boitard (INRA, GABI) D´etection des signatures de s´election 7 / 25
Influence de la d´ emographie
L’histoire d´emographique de la population a aussi un effet sur la distribution des fr´equence all´eliques.
Pour compenser cet effet :
1 Estimer la distribution de Yi `a l’aide de donn´ees tout g´enome.
≈distribution sous neutralit´e.
2 Calculer la distribution sous s´election `a partir de la distribution neutre (Nielsen et al2005).
3 Identifier les r´egions o`u la distribution locale des fr´equences ressemble
`
a la distribution sous s´election.
Mod` ele de Chaˆıne de Markov cach´ ee (Boitard et al, 2009)
S. Boitard (INRA, GABI) D´etection des signatures de s´election 9 / 25
Exemple : sweep mouton Texel OAR2
Utilisation d’individus s´ equenc´ es en pool
La m´ethode de d´etection est bas´ee seulement sur les fr´equences all´eliques (pas les haplotypes).
Pour l’estimation des fr´equences all´eliques, s´equen¸cage en pool est plus efficace (moins cher pour mˆeme pr´ecision) que s´equen¸cage individuel (Futschik et Schl¨otterer, 2010).
Tenir compte de l’incertitude sur les fr´equences all´eliques li´ee `a ce type de donn´ees pour la d´etection des balayages s´electifs (Boitard et al, 2012a)
S. Boitard (INRA, GABI) D´etection des signatures de s´election 11 / 25
Utilisation d’individus s´ equenc´ es en pool
Logiciel Pool-hmm (Boitard et al, 2012b)
Estimation des fr´equences all´eliques et d´etection de signatures de s´election `a l’aide de donn´ees NGS en pool.
Distribution des fr´equences all´eliques en fonction de l’annotation.
url : https://qgp.jouy.inra.fr/
●
●
● ● ● ● ● ● ● ● ● ● ● ●
●
●
● ●
●
derived allele count
probability
1 5 10 15 19
0.0010.0020.0030.004
S. Boitard (INRA, GABI) D´etection des signatures de s´election 13 / 25
1 D´etection de zones de faible diversit´e g´en´etique intra population
2 D´etection de zones de forte diff´erentiation g´en´etique inter populations
3 Conclusions
Balayage s´ electif
S. Boitard (INRA, GABI) D´etection des signatures de s´election 15 / 25
Balayage s´ electif
D´ etection de locus sous s´ election
Pour chaque SNP, calcul d’une mesure de diff´erentiation g´en´etique entre populations :
FST = sp2
¯
p(1−p¯) =
1 n−1
Pn
i=1(pi−¯p)2
¯
p(1−p¯)
Estimer la distribution neutre de cette mesure, qui d´epend de l’histoire d´emographique des diff´erentes populations.
Identifier les SNP extrˆemes par rapport `a cette distribution.
S. Boitard (INRA, GABI) D´etection des signatures de s´election 16 / 25
Test FLK (Bonhomme et al, 2010)
Extension du FST prenant en compte :
les diff´erences de taille efficace entre populations.
la structure hi´erarchique des populations.
Test hapFLK (Fariello et al, en r´ evision)
Version haplotypique de FLK :
Clustering local des individus `a l’aide du logiciel FastPHASE (Sheet and Stephens, 2006).
Pour chaque SNP, utilisation d’une version multi-all´elique de FLK, en consid´erant les clusters comme des all`eles.
S. Boitard (INRA, GABI) D´etection des signatures de s´election 18 / 25
Simulations
50 generations
50 generations
100 generations N1=1000 ind
2N1
2N1
N1 N1
N1 N1
N1
Puissance de HapFLK - 4 populations, p
0= 0.01
S. Boitard (INRA, GABI) D´etection des signatures de s´election 20 / 25
Puissance de HapFLK - 2 populations
Comparaison avec XP-EHH - 2 populations
0.00 0.02 0.04 0.06 0.08 0.10
0.00.20.40.60.81.0
p=0.05
Type I error
Power of detection
hapFLK Fst xpehh
0.00 0.02 0.04 0.06 0.08 0.10
0.00.20.40.60.81.0
p=0.10
Type I error
Power of detection
0.00 0.02 0.04 0.06 0.08 0.10
0.00.20.40.60.81.0
p=0.20
Type I error
Power of detection
0.00 0.02 0.04 0.06 0.08 0.10
0.00.20.40.60.81.0
p=0.30
Type I error
Power of detection
S. Boitard (INRA, GABI) D´etection des signatures de s´election 22 / 25
Exemple : sweep mouton Nouvelle Z´ elande OAR14
1 D´etection de zones de faible diversit´e g´en´etique intra population
2 D´etection de zones de forte diff´erentiation g´en´etique inter populations
3 Conclusions
S. Boitard (INRA, GABI) D´etection des signatures de s´election 24 / 25
Conclusions
Deux approches compl´ementaires, bonne puissance de d´etection et robustesse `a l’histoire d´emographique.
Zones de faible diversit´e intra population : Mutations fix´ees et de fr´equence initiale faible.
S´election assez ancienne.
Besoin seulement des fr´equences all´eliques.
Zones de forte diff´erentiation inter populations :
Mutation en cours de fixation et de fr´equence initiale plus variable.
S´election r´ecente.