D´ etection de traces de s´ election ` a l’aide de m´ ethodes de g´ enomique des populations
Fr´ ed´ eric Hospital
1, Simon Boitard
1,21: UMR 1313 GABI (INRA / AgroParisTech), Jouy en Josas
2: UMR 7205 ISYEB (MNHN / EPHE / CNRS / UPMC), Paris
1 / 23
Outline
1 Introduction et principes
2 D´ etection dans des lign´ ees divergentes
3 D´ etection ` a l’´ echelle des populations
Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK
4 Conclusions g´ en´ erales
Outline
1 Introduction et principes
2 D´ etection dans des lign´ ees divergentes
3 D´ etection ` a l’´ echelle des populations
Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK
4 Conclusions g´ en´ erales
3 / 23
Outline
1 Introduction et principes
2 D´ etection dans des lign´ ees divergentes
3 D´ etection ` a l’´ echelle des populations
Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK
4 Conclusions g´ en´ erales
Outline
1 Introduction et principes
2 D´ etection dans des lign´ ees divergentes
3 D´ etection ` a l’´ echelle des populations
Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK
4 Conclusions g´ en´ erales
5 / 23
Tests bas´ es sur le F ST
p = (p
1, . . . , p
i, . . . , p
n) : fr´ equences all´ eliques ` a un SNP dans n populations.
p et s
p2: moyenne et variance de p.
F
ST=
sp2
¯p(1−¯p)
H
0: “´ evolution neutre” (d´ erive g´ en´ etique)
vs H
1: “s´ election positive dans au moins une population”.
H
0rejet´ e si F
STtrop large.
Test FLK (Bonhomme et al, 2010)
Extension du F
STtenant compte :
des diff´ erences de tailles efficaces entre populations.
des diff´ erentes distances entre paires de populations.
(estim´ e ` a partir de l’ensemble des SNPs disponibles)
7 / 23
Outline
1 Introduction et principes
2 D´ etection dans des lign´ ees divergentes
3 D´ etection ` a l’´ echelle des populations
Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK
4 Conclusions g´ en´ erales
Mod´ elisation des haplotypes
Classification locale des haplotypes autour de chaque SNP ` a l’aide du mod` ele de Scheet and Stephens (2006).
lines : haplotypes columns : SNPs
9 / 23
Le test hapFLK (Fariello et al, 2013)
Classification
algorithme EM
Estimation des fr´ equences des diff´ erents clusters pour chaque SNP ` et population j :
Pop 1
Pop 2
p
`kj=
N1j
P
Nji=1
P (z
ik`|Θ)
Calcul de FLK, en consid´ erant les clusters comme des all` eles.
La moyenne de FLK pour plusieurs ´ evaluations de l’algorithme EM
donne hapFLK
Le test hapFLK (Fariello et al, 2013)
Classification
algorithme EM
Estimation des fr´ equences des diff´ erents clusters pour chaque SNP ` et population j :
Pop 1
Pop 2
p
`kj=
N1j
P
Nji=1
P (z
ik`|Θ)
Calcul de FLK, en consid´ erant les clusters comme des all` eles.
La moyenne de FLK pour plusieurs ´ evaluations de l’algorithme EM donne hapFLK
10 / 23
R´ esultats sur donn´ ees simul´ ees
Simulation de s´ equences de 5Mb avec 100 SNPs (g´ enotypage haut d´ ebit) ou 300 SNPs (s´ equen¸cage) de MAF > 5%.
50 generations
50 generations
100 generations N1=1000 ind
2N1
2N1
N1 N1
N1 N1
N1
Plus de puissance pour les tests haplotypiques
p
0tr` es faible, 4 populations, donn´ ees de g´ enotypage.
12 / 23
La d´ etection de traces de s´ election plus complexes est
´ egalement possible
2 populations, donn´ ees de g´ enotypage.
Plus de puissance que pour un autre test haplotypique couramment utilis´ e.
2 populations, donn´ ees de g´ enotypage, erreur de type I = 5%.
14 / 23
Le test marqueur par marqueur peut suffire pour des donn´ ees de s´ equen¸cage
2 populations, donn´ ees de s´ equen¸ cage.
Mais les haplotypes sont ` a nouveau utiles si :
la s´ election agit directement sur un haplotype.
la d´ erive g´ en´ etique est
tr` es forte.
Application chez le mouton : projet Sheep HapMap
74 populations, 50,000 SNPs
Analyse des populations d’Europe du Nord
16 / 23
Signature classique (“hard sweep”) en Texel
fr´ equences all´ eliques fr´ equences des clusters
Mutation candidate dans
MSTN
Signature plus complexe en Nouvelle Z´ elande
fr´ equences all´ eliques fr´ equences des clusters
• Un cluster assez fr´ equent en New Zealand Texel (NTX)
• Deux clusters fix´ es en New Zealand Rommey (ROM).
18 / 23
Les races de Nouvelle Z´ elande sont sous s´ election
Autres exemples d’utilisation dans le d´ epartement
mouton : ensemble des races de SheepHapMap (en r´ evision).
vache : projet 1000 genomes, projet Gembal (en pr´ eparation).
porc : projet Delisus (en pr´ eparation).
poulet : lign´ ees divergentes gras / maigre (soumis), ph (pr´ evu).
20 / 23
Perspectives m´ ethodologiques
Prise en compte des migrations.
Donn´ ees de s´ equen¸ cage ` a faible couverture.
Annotation des signatures de s´ election / lien avec les ph´ enotypes.
Deux M2 et une th` ese ` a venir sur le sujet.
Outline
1 Introduction et principes
2 D´ etection dans des lign´ ees divergentes
3 D´ etection ` a l’´ echelle des populations
Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK
4 Conclusions g´ en´ erales
22 / 23