• Aucun résultat trouvé

Génétique statistique

N/A
N/A
Protected

Academic year: 2021

Partager "Génétique statistique"

Copied!
39
0
0

Texte intégral

(1)

HAL Id: hal-02788119

https://hal.inrae.fr/hal-02788119

Submitted on 5 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Génétique statistique

Simon Boitard, Willy Rodríguez

To cite this version:

Simon Boitard, Willy Rodríguez. Génétique statistique. Master. Master (Master Bioinformatique et

Biologie des Systèmes), 2017. �hal-02788119�

(2)

Coalescence : principe et bases th´ eoriques

Simon Boitard

INRA, GenPhySE, Toulouse

M2 BBS, Atelier G´ en´ etique Statistique, 2017-2018

1 / 29

(3)

G´ en´ etique des populations

Reconstruction de l’histoire ´ evolutive ` a une ´ echelle de temps courte (intra-esp` ece) ` a partir de donn´ ees g´ enomiques.

2 / 29

(4)

G´ en´ etique des populations

Reconstruction de l’histoire ´ evolutive ` a une ´ echelle de temps courte (intra-esp` ece) ` a partir de donn´ ees g´ enomiques.

2 / 29

(5)

G´ en´ etique des populations

Reconstruction de l’histoire ´ evolutive ` a une ´ echelle de temps courte (intra-esp` ece) ` a partir de donn´ ees g´ enomiques.

2 / 29

(6)

Le coalescent

Mod` ele math´ ematique permettant de d´ ecrire / simuler la g´ en´ ealogie d’un ´ echantillon de s´ equences d’ADN (ou individus haplo¨ıdes).

Outil pour comprendre l’influence du processus ´ evolutif sur la diversit´ e g´ en´ etique.

On remonte le temps au lieu de le descendre.

Article fondateur de Kingman en 1982, tr` es utilis´ e depuis.

3 / 29

(7)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 29

(8)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 29

(9)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 29

(10)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 29

(11)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 29

(12)

Mod` ele de Wright-Fisher pour un locus sans recombinaison

4 / 29

(13)

G´ en´ ealogie et taille efficace

5 / 29

(14)

G´ en´ ealogie et taille efficace

5 / 29

(15)

Plan du cours

1 Mod` ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ ee

4 Mod` ele avec recombinaison

5 Conclusions

6 / 29

(16)

Plan du cours

1 Mod` ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ ee

4 Mod` ele avec recombinaison

5 Conclusions

7 / 29

(17)

Temps de coalescence

Proba qu’il n’y ait pas de coalescence ` a une g´ en´ eration donn´ ee q N (n) =

n−1

Y

i =1

(1 − i

N ) = 1 − n(n − 1)

2N + O ( 1 N 2 ) T n N suit une loi g´ eom´ etrique

P(T n N > t) = (q N (n)) t Changement d’´ echelle τ = N t

P (T n N > Nτ ) = (q N (n)) ≈ (1 − n(n − 1)

2N ) → e

n(n−1)2

τ quand N → +∞.

→ T n N tend vers T n , de loi exponentielle de param` etre n(n−1) 2 .

8 / 29

(18)

Ev` enements de coalescence

La proba que trois individus ou plus coalescent ` a la mˆ eme g´ en´ eration est en O( N 1

2

)

→ n´ egligeable quand N → +∞.

En pratique, une coalescence consiste toujours ` a regrouper exactement deux lign´ ees.

9 / 29

(19)

Esp´ erance du TMRCA

T MRCA =

n

X

k=2

T k

E [T MRCA ] =

n

X

k=2

E [T k ]

=

n

X

k=2

2 k(k − 1)

= 2

n

X

k=2

( 1 k − 1 − 1

k )

= 2(1 − 1 n ) ≈ 2

10 / 29

(20)

Mutations

Proba µ de mutation par site et par m´ eiose.

M (t) nombre de mutations pour une branche de longueur t = Nτ et un locus de taille L.

E[M (t)] = µLN τ = θ 2 Lτ en posant θ = 2Nµ.

M (τ ) loi de Poisson d’intensit´ e θ 2 Lτ .

On peut choisir ensuite le mod` ele qu’on veut pour d´ ecrire ce qui se passe quand une mutation se produit.

11 / 29

(21)

Mutations

12 / 29

(22)

Mutations

12 / 29

(23)

Infinite site model

13 / 29

(24)

Simulation

1 Pour k allant de n ` a 2 :

1 Simuler une loi exponentielle T

k

de param` etre

k(k2−1)

.

2 Choisir uniform´ ement celui des

k(k−1)2

couples d’haplotypes qui coalesce.

2 Placer les mutations ind´ ependamment sur chaque branche selon un processus de Poisson d’intensit´ e θ 2 L.

Beaucoup plus rapide que de simuler la population en forward!

14 / 29

(25)

Population diplo¨ıde

N taille de la population, 2N all` eles.

Remplacer N par 2N dans tout ce qui pr´ ec` ede.

En particulier : unit´ e de temps 2N g´ en´ erations, θ = 4Nµ.

15 / 29

(26)

Plan du cours

1 Mod` ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ ee

4 Mod` ele avec recombinaison

5 Conclusions

16 / 29

(27)

Principe

La taille de la population change selon une fonction d´ eterministe du temps :

Croissance exponentielle : N(t ) = N

0

∗ e

−αt

, α > 0 D´ ecroissance exponentielle : N(t) = N

0

∗ e

αt

, α > 0 D´ ecroissance lin´ eaire : N(t ) = N

0

+ αt , α > 0

Goulot d’´ etranglement (”bottleneck”) : N(t) = N

0

si t < t

, N

1

si t ≥ t

La probabilit´ e de coalescence d´ epend de la taille de population et donc varie au cours du temps.

L’unit´ e de temps est τ = N t

0

. En un temps τ , on a ` a peu pr` es:

T n (τ ) ∼ N(τ ) N 0

exp( n(n − 1)

2 )

17 / 29

(28)

Simulation (approch´ ee)

τ = 0

1 Pour k allant de n ` a 2 :

1 Simuler une loi exponentielle T

k

de param` etre

k(k2−1)

.

2 T

k

= T

k

N(τ)N

0

.

3 τ = τ + T

k

.

4 Choisir uniform´ ement celui des

k(k−1)2

couples d’haplotypes qui coalesce.

2 Placer les mutations ind´ ependamment sur chaque branche selon un processus de Poisson d’intensit´ e θ 2 L.

18 / 29

(29)

Application

Population croissante → temps de coalescence plus longs en bas de l’arbre → plus de fr´ equences all´ eliques extrˆ emes.

Population d´ ecroissante → temps de coalescence plus longs en haut de l’arbre → plus de fr´ equences all´ eliques interm´ ediaires.

19 / 29

(30)

Plan du cours

1 Mod` ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ ee

4 Mod` ele avec recombinaison

5 Conclusions

20 / 29

(31)

Principe

Pour chaque noeud de l’arbre, une ´ etiquette indique sa population d’origine.

Coalescences intra population. Par ex, pour deux pops 1 et 2, 2 ´ ev` enements possibles : coalescence dans 1 et coalescence dans 2.

Taille relative des pops importante car d´ etermine la vitesse des

´

ev` enements.

Si migrations entre populations avec une proba par g´ en´ eration en O ( N 1 ), ´ ev` enements ”migration de 1 vers 2” et ”migration de 2 vers 1” possibles.

21 / 29

(32)

Exemple

22 / 29

(33)

Plan du cours

1 Mod` ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ ee

4 Mod` ele avec recombinaison

5 Conclusions

23 / 29

(34)

Principe

Un haplotype cr´ e´ e par recombinaison n’a plus un seul mais deux parents.

En remontant dans le temps, une branche peut donc se diviser en deux. Cela se produit avec une proba c par g´ en´ eration, c taux de recombinaison entre les locus.

A l’´ echelle τ = N t , et en posant ρ = 2Nc, le temps au bout duquel une branche se divise en deux suit une loi exponentielle de param` etre ρ 2 .

La g´ en´ ealogie joite des deux locus est appell´ ee ”Ancestral Recombination Graph”. On peut en d´ eduire les arbres de coalescence marginaux pour chacun des locus (qui sont corr´ el´ es).

24 / 29

(35)

Exemple

25 / 29

(36)

Simulation

k = n. Tant que k > 1 :

1 Simuler U , une loi exponentielle de param` etre k(k−1) 2 .

2 Simuler V , une loi exponentielle de param` etre 2 .

3 Si U ≤ V , choisir au hasard celui des

k(k2−1)

couples d’haplotypes qui coalesce.

Si U > V , choisir au hasard celle des k lign´ ees qui se s´ epare.

Remarque : le stade k = 1 finit toujours par ˆ etre atteint, mais cela peut ˆ etre long.

26 / 29

(37)

Plan du cours

1 Mod` ele de base : une population de taille constante, un locus sans recombinaison

2 Population de taille variable au cours du temps

3 Population structur´ ee

4 Mod` ele avec recombinaison

5 Conclusions

27 / 29

(38)

Le coalescent en g´ en´ etique des populations

Mod` ele th´ eorique permettant de faire le lien entre des donn´ ees g´ en´ etiques observ´ ees et des mod` eles d´ emographiques.

Outil de simulation tr` es performant.

Logiciels de simulation : ms, msprime, scrm . . .

En pratique, tous les aspects du mod` eles (d´ emographie, structure, recombinaison) sont m´ elang´ es.

28 / 29

(39)

Quelques refs

Simon Tavar´ e (2001), Ancestral inference in molecular biology. Ecole de Probabilit´ es de Saint-Flour.

Handbook of statistical genetics, Wiley. Chapitres 22.6, 25, 26, 27.3.

29 / 29

Références

Documents relatifs

A Berlin, j’ai retrouvé le lieu d’une précédente enquête sur des concerts de musique turque (l’Atelier des Cultures, à Kreuzberg), lu et écouté les annonces relatives à

On observe que lorsque la capacité augmente les temps de charge et de décharge sont plus longs et lorsque la capacité diminue les temps diminuent.. 4)a) Ci-contre le graphe de u C

[r]

Par exemple, au lieu d’´ecrire sur le terminal les termes de la s´equence, vous les copiez dans un tableau auxiliaire, puis vous parcourez ce tableau auxiliaire en ordre inverse

Et parce qu’on doit commencer par en rire, par se regarder franchement et se trouver aussi quand même tout à fait comique jusque dans nos paniques ; pour tenir et arriver à

- Si l’on étudie population par population, on note que la fréquence des allèles varie d’une population à l’autre de façon importante, mais l’ensemble des populations

*Source : sondage Ifop réalisé en mai 2018 pour l’Agence française pour la

Les relations entre les facteurs de risque liés au style de vie des enfants et la vitesse de propagation de l’onde de pouls (VPOP) à l’âge adulte ont été analysées chez 1622