• Aucun résultat trouvé

Détection de traces de sélection à l’aide de méthodes de génomique des populations

N/A
N/A
Protected

Academic year: 2021

Partager "Détection de traces de sélection à l’aide de méthodes de génomique des populations"

Copied!
24
0
0

Texte intégral

(1)

D´ etection de traces de s´ election ` a l’aide de m´ ethodes de g´ enomique des populations

Fr´ ed´ eric Hospital

1

, Simon Boitard

1,2

1: UMR 1313 GABI (INRA / AgroParisTech), Jouy en Josas

2: UMR 7205 ISYEB (MNHN / EPHE / CNRS / UPMC), Paris

1 / 23

(2)

Outline

1 Introduction et principes

2 D´ etection dans des lign´ ees divergentes

3 D´ etection ` a l’´ echelle des populations

Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK

4 Conclusions g´ en´ erales

(3)

Outline

1 Introduction et principes

2 D´ etection dans des lign´ ees divergentes

3 D´ etection ` a l’´ echelle des populations

Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK

4 Conclusions g´ en´ erales

3 / 23

(4)

Outline

1 Introduction et principes

2 D´ etection dans des lign´ ees divergentes

3 D´ etection ` a l’´ echelle des populations

Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK

4 Conclusions g´ en´ erales

(5)

Outline

1 Introduction et principes

2 D´ etection dans des lign´ ees divergentes

3 D´ etection ` a l’´ echelle des populations

Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK

4 Conclusions g´ en´ erales

5 / 23

(6)

Tests bas´ es sur le F ST

p = (p

1

, . . . , p

i

, . . . , p

n

) : fr´ equences all´ eliques ` a un SNP dans n populations.

p et s

p2

: moyenne et variance de p.

F

ST

=

s

p2

¯p(1−¯p)

H

0

: “´ evolution neutre” (d´ erive g´ en´ etique)

vs H

1

: “s´ election positive dans au moins une population”.

H

0

rejet´ e si F

ST

trop large.

(7)

Test FLK (Bonhomme et al, 2010)

Extension du F

ST

tenant compte :

des diff´ erences de tailles efficaces entre populations.

des diff´ erentes distances entre paires de populations.

(estim´ e ` a partir de l’ensemble des SNPs disponibles)

7 / 23

(8)

Outline

1 Introduction et principes

2 D´ etection dans des lign´ ees divergentes

3 D´ etection ` a l’´ echelle des populations

Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK

4 Conclusions g´ en´ erales

(9)

Mod´ elisation des haplotypes

Classification locale des haplotypes autour de chaque SNP ` a l’aide du mod` ele de Scheet and Stephens (2006).

lines : haplotypes columns : SNPs

9 / 23

(10)

Le test hapFLK (Fariello et al, 2013)

Classification

algorithme EM

Estimation des fr´ equences des diff´ erents clusters pour chaque SNP ` et population j :

Pop 1

Pop 2

p

`kj

=

N1

j

P

Nj

i=1

P (z

ik`

|Θ)

Calcul de FLK, en consid´ erant les clusters comme des all` eles.

La moyenne de FLK pour plusieurs ´ evaluations de l’algorithme EM

donne hapFLK

(11)

Le test hapFLK (Fariello et al, 2013)

Classification

algorithme EM

Estimation des fr´ equences des diff´ erents clusters pour chaque SNP ` et population j :

Pop 1

Pop 2

p

`kj

=

N1

j

P

Nj

i=1

P (z

ik`

|Θ)

Calcul de FLK, en consid´ erant les clusters comme des all` eles.

La moyenne de FLK pour plusieurs ´ evaluations de l’algorithme EM donne hapFLK

10 / 23

(12)

R´ esultats sur donn´ ees simul´ ees

Simulation de s´ equences de 5Mb avec 100 SNPs (g´ enotypage haut d´ ebit) ou 300 SNPs (s´ equen¸cage) de MAF > 5%.

50 generations

50 generations

100 generations N1=1000 ind

2N1

2N1

N1 N1

N1 N1

N1

(13)

Plus de puissance pour les tests haplotypiques

p

0

tr` es faible, 4 populations, donn´ ees de g´ enotypage.

12 / 23

(14)

La d´ etection de traces de s´ election plus complexes est

´ egalement possible

2 populations, donn´ ees de g´ enotypage.

(15)

Plus de puissance que pour un autre test haplotypique couramment utilis´ e.

2 populations, donn´ ees de g´ enotypage, erreur de type I = 5%.

14 / 23

(16)

Le test marqueur par marqueur peut suffire pour des donn´ ees de s´ equen¸cage

2 populations, donn´ ees de s´ equen¸ cage.

Mais les haplotypes sont ` a nouveau utiles si :

la s´ election agit directement sur un haplotype.

la d´ erive g´ en´ etique est

tr` es forte.

(17)

Application chez le mouton : projet Sheep HapMap

74 populations, 50,000 SNPs

Analyse des populations d’Europe du Nord

16 / 23

(18)

Signature classique (“hard sweep”) en Texel

fr´ equences all´ eliques fr´ equences des clusters

Mutation candidate dans

MSTN

(19)

Signature plus complexe en Nouvelle Z´ elande

fr´ equences all´ eliques fr´ equences des clusters

• Un cluster assez fr´ equent en New Zealand Texel (NTX)

• Deux clusters fix´ es en New Zealand Rommey (ROM).

18 / 23

(20)

Les races de Nouvelle Z´ elande sont sous s´ election

(21)

Autres exemples d’utilisation dans le d´ epartement

mouton : ensemble des races de SheepHapMap (en r´ evision).

vache : projet 1000 genomes, projet Gembal (en pr´ eparation).

porc : projet Delisus (en pr´ eparation).

poulet : lign´ ees divergentes gras / maigre (soumis), ph (pr´ evu).

20 / 23

(22)

Perspectives m´ ethodologiques

Prise en compte des migrations.

Donn´ ees de s´ equen¸ cage ` a faible couverture.

Annotation des signatures de s´ election / lien avec les ph´ enotypes.

Deux M2 et une th` ese ` a venir sur le sujet.

(23)

Outline

1 Introduction et principes

2 D´ etection dans des lign´ ees divergentes

3 D´ etection ` a l’´ echelle des populations

Marqueur par marqueur : la statistique FLK Utilisation des haplotypes : la statistique hapFLK

4 Conclusions g´ en´ erales

22 / 23

(24)

D’autres travaux li´ es ` a la s´ election dans le d´ epartement

M´ ethodes :

Prise en compte du LD en cumulant des signaux marqueur par marqueur : score local (M. I. Fariello, M. San Cristobal, D.

Robelin), fused lasso (D. Lalo´ e).

D´ etection de signatures intra population et utilisation de donn´ ees de s´ equen¸ cage en pool (Pool-HMM).

Applications :

Lign´ ees divergentes pour motivation sociale chez la caille (J.

Recoquillay, F. Pitel, C. Leterrier).

Lign´ ee divergentes efficacit´ e alimentaire chez le poulet (B.

Bed’Hom, T. Zerjal).

4 expos´ es ` a venir (vache, poulet, carpe, cheval).

Références

Documents relatifs

On fixe une cat´ egorie C et on prend comme objets les couples (R, M ) d’une monade R sur C et d’un R-module M. Que peut-on prendre comme morphismes pour faire une cat´

Perdre ses photos de vacances : ¸ca n’a pas de

La boucle tant que est utilis ´ee lorsque le nombre d’it ´erations n’est pas connu `a l’avance: elle ex ´ecute le bloc d’instructions tant que la condition reste vraie.

L’´ erosion num´ erique introduite dans le mod` ele semble ˆ etre r´ ealiste pour simuler le ph´ enom` ene pr´ epond´ erant lors d’une op´ eration de d´ ecapage. Nous

Programme des enseignements – Syst` emes d’information et conception d’entrepˆ ots de donn´ ees – Les principes et la d´ emarche du Data Mining (fouille de donn´ ees)

Objectifs : Maˆıtriser les structures de base de l’informatique (tableaux, listes, files, piles) et les op´ erations ´ el´ ementaires sur ces structures et introduction au

J’observe toutefois (Figure 13.3) ` a la fin du mod` ele la formation d’une seconde paire de zones cisaillantes du cˆ ot´ e retro du mod` ele, ce qui laisse penser que la

Le seuil de satisfaction est le seuil au del` a duquel l’acteur est satisfait alors que la satisfaction est le niveau de satisfaction fi- nale de l’acteur ` a l’issue de la