• Aucun résultat trouvé

Génétique des populations: Dérive, migration, extinction et F-statistiques

N/A
N/A
Protected

Academic year: 2022

Partager "Génétique des populations: Dérive, migration, extinction et F-statistiques"

Copied!
163
0
0

Texte intégral

(1)

Génétique des populations:

Dérive, migration, extinction et F-statistiques

Module ENS 2009

Raphaël Leblois, leblois@mnhn.fr

Maitre de conférence Muséum National d'Histoire Naturelle,

UMR7205 : Origine, Structure et Evolution de la biodiversité

(2)

Les mécanismes de l’évolution

•  Pour expliquer les mécanismes responsables des changements évolutifs, il faut développer une modélisation mathématique de l’évolution.

Grâce aux modèles, on peut prédire la vitesse des changements dans une population, et

comprendre comment ces changements

dépendent des divers facteurs qui agissent dans

les populations.

(3)

Les mécanismes de l’évolution

Ronald A Fisher (1890-1962) Sewall Wright (1889-1988) John BS Haldane (1892-1964)

•  Les mathématiques de l’évolution ont

commencé à être développés dans les

années 1920-1930

(4)

La génétique des populations

•  Décrire les génotypes, estimer leur fréquence et celle des allèles, déterminer leur distribution au sein des individus, des populations, et entre les populations

•  Prédire et comprendre l’évolution des

fréquences des gènes dans les populations sous l’effet de différents facteurs, ou « forces

évolutives »

(5)

La génétique des populations

•  Théorique : nécessaire pour tester des hypothèses, ou des modèles verbaux, et produire de nouvelles

hypothèses

•  Expérimentale : consiste à tester des modèles et leurs hypothèses dans des conditions contrôlées

•  Empirique : description de la distribution du

polymorphisme dans des populations naturelles,

inférence de l’histoire (démographique et adaptative) des

populations naturelles

(6)

•  A l’intérieur même des individus

•  Entre individus

Zea mais Cepea nemoralis

Répartition de la variabilité génétique

(7)

•  Peu de polymorphisme au sein des mares, mais une forte différenciation entre mares

Marsilea strigosa

Variation entre sous-populations

Répartition de la variabilité génétique

(8)

Variation entre populations

•  17 000 polymorphismes (SNPs ou indels) issus de l’analyse de 876 séquences obtenues parmi 96 individus (44 000 000 pb)

Arabidopsis thaliana

Répartition de la variabilité génétique

(9)

Quelques définitions

•  Gène : copie d'une information génétique, portée par une séquence de nucléotides.

•  Locus : emplacement d'un gène sur un chromosome

•  Allèle (ou état allélique) : classe de gènes homologues (au même locus) tous équivalents. Deux gènes sont dans le même état allélique si l'information qu'ils portent est codée par la même séquence d'ADN ou s'ils sont la copie exacte d'un ancêtre commun.

Un individu diploïde possède donc deux gènes homologues

à un locus (son génotype) et ces gènes peuvent avoir le

même état allélique (individu/génotype homozygote) ou

non (individu/génotype hétérozygote)

(10)

Qu’est-ce qu’un marqueur ?

•  On utilise des marqueurs génétiques pour analyser de façon empirique la distribution du polymorphisme, à l’intérieur des individus, des populations, entre

populations…

•  Un marqueur génétique « idéal » doit :

 Avoir un déterminisme simple et connu

(ex: mendélien)

 Être polymorphe

 Être co-dominant

 Être neutre vis-à-vis de la sélection naturelle

(si l’on s’intéresse a la démographie uniquement)

(11)

Les marqueurs génétiques

•  Allozymes / Isozymes = Marqueurs enzymatiques (électrophorèse sur gel d’amidon, d’acrylamide)

•  Marqueurs microsatellites (répétitions en

tandem de courts motifs de base (ex.: …

AGAGAGAGAGAG…), dispersés dans

les génomes

(12)

Les marqueurs génétiques

•  RFLPs : Restriction Fragment Length Polymorphisms

•  RAPDs : Randomly Amplified Polymorphic DNAs

•  AFLPs : Amplified Fragment Length Polymorphisms

•  SNPs : Single Nucleotide Polymorphisms

(13)

SNPs

(single nucleotide polymorphism)

•  Hybridation Allèle Spécifique

•  Extension d’amorce (mini-séquençage)

•  Ligation Allèle Spécifique

•  …

(14)

Les marqueurs génétiques

•  Projet HapMap : bâtir une carte haplotypique du génome humain pour décrire la distribution du polymorphisme sur l’ensemble du génome

2002-2009 : plus de 25 millions de SNPs ont déjà été génotypés dans 11 populations humaines.

(15)

F-statistiques et génétique de populations

•  Génétique des populations =

–  Comprendre et prédire l'effet des différentes forces évolutives (mutation, dérive , migration, sélection) sur l'évolution des

fréquences des gènes dans le temps et l'espace

–  Pour cela, on utilise la modélisation mathématique de l'évolution au sein des populations

•  Les F-statistiques sont des outils simple et puisant souvent utilisés dans les modèles de génétique des populations et par extension dans l'analyses des

données de polymorphisme

(16)

Considérons un locus bi-allélique (A / a) dans population isolée de N individus haploïdes (et donc N gènes).

Les fréquences génotypiques sont égales aux fréquences alléliques, et définies à un moment t comme :

• p[t]=D[t]=Fréq(A)=NA/N • q[t]=H[t]=Fréq(a)= Na/N On peut vérifier que l'on a bien D[t] + H[t] = p[t] + q[t] = 1

Rappel :

Fréquences alléliques et génotypiques dans une

population panmictique haploïde

(17)

Rappel :

Fréquences alléliques et génotypiques dans une population panmictique diploïde

Dans population de N individus diploïde (donc 2N gènes).

Les fréquences génotypiques sont définies à un moment t comme :

• D[t]=Fréq(AA)=NAA/N • H[t]=Fréq(Aa)= NAa/N • R[t]=Fréq(aa)= Naa/N On peut vérifier que l'on a bien D[t] + H[t] + R[t] = 1

Et les fréquences alléliques :

• p[t]=(2NAA+Naa) /2N=D[t]+H[t]/2 • q[t]=(2Naa+Naa) /2N=R[t]+H[t]/2 et on a bien p[t] + q[t]= D[t] + H[t] + R[t] = 1

(18)

Quelles sont les fréquences génotypiques à la génération suivante?

On suppose :

  Croisement au hasard des gamètes (panmixie)

  Absence de mutation

  Absence de sélection

  Et une population de grande taille (infinie)

Rappel :

Evolution des fréquences alléliques et

génotypiques dans une population diploïde

(19)

Hypothèses: panmixie, pas de mutation, pas de sélection, population de taille infinie

Rappel :

Evolution des fréquences alléliques et

génotypiques dans une population diploïde

Appariement

Méiose Stade

Diploïde

(2N) Stade

Haploïde (N)

D[t] H[t] H[t]

AA Aa aa

p[t]

q[t]

p[t]

q[t]

•  En l’absence de sélection et de mutation, les fréquences

alléliques parmi les gamètes sont égales aux fréquences

alléliques parmi les

adultes qui les ont

produits

(20)

Hypothèses: panmixie, pas de mutation, pas de sélection, population de taille infinie

Rappel :

Evolution des fréquences alléliques et

génotypiques dans une population diploïde

•  Appariement au

hasard des gamètes

•  Proportions de Hardy-Weinberg

AA D[t+1] = p[t]2

Aa H[t+1] = 2 p[t] q[t]

aa R[t+1] = q[t]2

A p[t]

a q[t]

A p[t]

AA p[t]2

Aa p[t]q[t]

a q[t]

aA q[t]p[t]

aa q[t]2 Gamètes femelles

Gamètes mâles

(21)

Conclusions :

•  les proportions de Hardy-Weinberg (fréquences génotypiques à l'équilibre en fonction des fréquences alléliques, p², 2pq, q²) sont atteintes en une génération pour une espèce diploïde

De plus

p[t+1] = D[t+1] + H[t+1]/2 = p[t]2 + p[t]q[t] = p[t] ( p[t] + q[t] ) = p[t]

q[t+1] = R[t+1] + H[t+1]/2 = q[t]2 + p[t]q[t] = q[t] ( q[t] + p[t] ) = q[t]

• 

les fréquences alléliques sont constantes au cours du temps

Rappel :

Evolution des fréquences alléliques et

génotypiques dans une population diploïde

Loi de Hardy-Weinberg

(22)

Mais ceci n'est valable que sous les hypothèses de la loi de HW :

  population panmictique (croisement entre individus au hasard)

  générations non chevauchantes (tous les individus participant à la reproduction appartiennent à la même génération)

  population isolée (aucun gène introduit par des individus migrants)

  population de taille infinie

  pas de mutation

  pas de sélection

Ces hypothèses rarement vérifiées en populations naturelles

Rappel :

Evolution des fréquences alléliques et

génotypiques dans une population diploïde

Loi de Hardy-Weinberg

(23)

•  Pour un locus bi-allélique A, a :

Attendu Observé

AA Np2 N1

Aa 2Npq N2

aa Nq2 N3

On calcule une statistique X, qui mesure l’écart entre

l’attendu et l’observé, qui suit un Chi2 à 1 d.d.l. (nombre de génotypes possibles – nombre d’allèles) :

X =

(

effectif attendueffectif observé

)

2

effectif attendu

génotypes

Rappel :

Loi de Hardy-Weinberg

Test de conformité à HW

(24)

En autofécondation totale :

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du régime de reproduction

•  Chacun des H[t]

individus hétérozygotes a 50% d’individus

hétérozygotes dans sa descendance

A a

A AA Aa

a aA aa

Gamètes femelles

Gamètes mâles

AA D[t]

Aa H[t]

aa R[t]

(25)

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du régime de reproduction

Après une génération :

On a donc :

•  D[t+1] = D[t] + H[t] / 4

•  H[t+1] = H[t] / 2

•  R[t+1] = R[t] + H[t] / 4

•  Comment évoluent les fréquences alléliques ?

AA 100% AA

Aa 25% AA, 50% Aa, 25% aa aa 100% aa

(26)

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du régime de reproduction

•  Évolution des fréquences alléliques

Les fréquences alléliques restent constantes

p[t+1] = D[t+1] + H[t+1] / 2 = D[t] + H[t] / 4 + H[t] / 4 = D[t] + H[t] / 2

= p[t]

q[t+1] = D[t+1] + H[t+1] / 2 = D[t] + H[t] / 2 = q[t]

Comment évoluent les fréquences génotypiques ?

(27)

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du régime de reproduction

Puisque

•  D[t+1] = D[t] + H[t] / 4

•  H[t+1] = H[t] / 2

•  R[t+1] = R[t] + H[t] / 4

On a donc H[t] = H[t-1] / 2 = H[t-2] / 22 = … = H[0] / 2t

•  H[t] tend vers 0 (plus d’hétérozygotes : tous les individus sont homozygotes)

•  p = D[0] + H[0] / 2 = D[t] + H[t] / 2, d’où D[t] = p - H[t] / 2

•  et donc D[t] et R[t] tendent vers p et q, respectivement

(28)

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du régime de reproduction

•  Au bout d’un temps suffisamment long

AA p Aa 0 aa q

(29)

En autofécondation partielle

(chaque individus produit un taux s de

descendants en autofécondation et (1 - s) en allofécondation)

, on s'attend à un déficit en hétérozygote par rapport aux proportions d'Hardy-

Weinberg :

On définit F

IS

tel que H

obs

= 2pq ( 1-F

IS

) → F

IS

= 1 – H

obs

/ 2pq

Or on a p = D + H/2 et q = R + H/2 → D = p² + pqF

IS

et R = q² +pqF

IS

Les fréquences génotypiques de la population sont donc

AA p²+pqF

IS

Aa 2pq(1-F

IS

)

aa q²+pqF

IS

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du

régime de reproduction

(30)

En autofécondation partielle (chaque individus produit des

descendant en autofécondation avec un taux s et le reste (1 - s) en allofécondation) :

Quel que soit le FIS :

p = D + H/2 = p² + pqF

IS

+ pq(1-F

IS

) = p² + pq = p q = R + H/2 = q² + pqF

IS

+ pq(1-F

IS

) = q² + pq = q

Les fréquences alléliques sont toujours constantes au cours du temps

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du

régime de reproduction

(31)

•  L’effet de la consanguinité du régime de reproduction est de modifier la composition génotypique de la

population, mais pas de faire varier les fréquences alléliques, en l’absence de toute autre force évolutive

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du

régime de reproduction

(32)

En autofécondation partielle : quel est la relation entre le F

IS

et le taux d'autofécondation s?

Comment évoluent les fréquences génotypiques en fonction de s ?

•  D[t+1] = s D[t] + s H[t] / 4 + (1 - s) p[t]

2

• 

•  H[t+1] = s H[t] / 2 + (1 - s) 2p[t]q[t]

• 

•  R[t+1] = s R[t] + s H[t] / 4 + (1 - s) q[t]

2

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du

régime de reproduction

(33)

En autofécondation partielle : quel est la relation entre le F

IS

et le taux d'autofécondation s?

A l’équilibre

H = s H / 2 + (1 - s) 2pq H = 2pq (1 – s) / (1 - s / 2)

Or on a défini F

IS

tel que : H

obs

= 2 pq (1 – F

IS

) D’où :

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du

régime de reproduction

(34)

En autofécondation partielle : quel est la relation entre le F

IS

et le taux d'autofécondation s?

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du régime de reproduction

Si s = 0 (panmixie) F

IS

= 0

Si s = 1 (autogamie complète) F

IS

= 1

(35)

•  Le F

IS

mesure l'écart à la panmixie (déficit d'hétérozygote) dû à la consanguinité du régime de reproduction au sein d'une

population

•  On peut déduire de la valeur du F

IS

le taux d'autofécondation moyen de la population :

Ecarts à Hardy Weinberg

Evolution des fréquences génotypiques : effet du

régime de reproduction

(36)

Il existe 4 "forces évolutives" qui agissent en interactions et font évoluer les fréquences alléliques et génotypiques en populations naturelles :

  la mutation

  la dérive génétique (variations stochastiques des

fréquences alléliques dues aux effets d'échantillonnages)

  la migration (ou flux de gènes)

  la sélection naturelle

Evolution des fréquences alléliques dans les

population naturelles

(37)

Il existe 4 "forces évolutives" qui agissent en interactions et font évoluer les fréquences alléliques et génotypiques en populations naturelles :

  la mutation

  la dérive génétique (variations stochastiques des

fréquences alléliques dues aux effets d'échantillonnages)

  la migration (ou flux de gènes)

  la sélection naturelle

Evolution des fréquences alléliques dans les

population naturelles

(38)

La mutation

•  La mutation est la source fondamentale de nouvelle variation génétique

•  La mutation, c’est la modification spontanée d’un état allélique en un autre, par :

–  Substitutions nucléotidiques –  Délétions

–  Insertion

–  Inversions chromosomiques

–  Translocations chromosomiques

(39)

•  Il existe des différences importantes du taux de

mutation entre organismes (mais aussi entre gènes)

Espèce Taille du génome (pb)

Taux de mutation par pb et par réplication

Taux de mutation par génome et par

réplication

Escherichia coli 4.6×106 5.4×10-10 0.0025

Bactériophage λ 4.9×104 7.7×10-8 0.0038

Caenorhabditis elegans 8.0×107 2.3×10-10 0.018

Souris 2.7×109 1.8×10-10 0.49

Homme 3.2×109 5.0×10-11 0.16

D’après Drake et al. 1998

La mutation

(40)

•  Le taux de mutation peut aussi dépendre de l’allèle considéré.

Par exemple, chez la souris, pour les gènes impliqués dans la couleur du pelage :

Les mutations qui touchent l’expression de la fonction sauvage

(mutations ‘avant’ ou forward) sont souvent plus fréquentes que les mutations qui restaurent la fonction sauvage (mutations ‘arrière’ ou backward)

11.2×10-6 par locus et par gamète (type sauvage vers type mutant)

2.5×10-6 par locus et par gamète (type mutant vers type sauvage)

La mutation

(41)

•  Taux de mutation de A vers a : µ

•  Taux de mutation de a vers A : ν

•  Si p[t] est la fréquence de A au temps t, alors à la

génération suivante, après la méiose, en l’absence de sélection :

•  p[t+1] = (1 - µ)p[t] + ν q[t]

•  q[t+1] = (1 - ν)q[t] + µ p[t]

•  A l’équilibre ?

La mutation

(42)

•  Taux de mutation de A vers a : µ

•  Taux de mutation de a vers A : ν

•  Si p[t] est la fréquence de A au temps t, alors à la

génération suivante, après la méiose, en l’absence de sélection :

•  p[t+1] = (1 - µ)p[t] + ν q[t]

•  q[t+1] = (1 - ν)q[t] + µ p[t]

•  A l’équilibre :

La mutation

(43)

•  p = 0 et p = 1 ne sont pas des valeurs d’équilibre. La fixation n’est pas stable quand il y a des mutations…

•  Mais quel est le taux d’approche de l’équilibre ?

La mutation

(44)

•  La fréquence d’équilibre est atteinte (seulement) au taux de (µ + ν)

La mutation

(45)

•  Quelle est la fréquence d’équilibre lorsque µ = ν = 10-6 ?

0,5

La mutation

(46)

•  Quelle est la fréquence d’équilibre lorsque µ = ν = 10-6 ➡ 0.5

•  Mais si on part de la fréquence initiale p[0] = 0 alors, après 10 000, 100 000 générations, on a:

p[10 000] = 0.0099 p[100 000] = 0.0906

•  Combien de générations faut-il pour atteindre 90% de la valeur d’équilibre ?

La mutation

(47)

•  Quelle est la fréquence d’équilibre lorsque µ = ν = 10-6 ➡ 0.5

•  Mais si on part de la fréquence initiale p[0] = 0 alors, après 10 000, 100 000 générations, on a:

p[10 000] = 0.0099 p[100 000] = 0.0906

•  Combien de générations faut-il pour atteindre 90% de la valeur d’équilibre ?

  1.15×106 générations !!

•  Il faut donc environ 1 / µ générations pour que la population soit proche de l’équilibre (environs 15 à 30 000 000 d’années chez l’homme !)

La mutation

(48)

•  C’est une force de faible intensité (les évènements arrivent sur une échelle de temps bien différente par rapport à la migration, la dérive, la sélection)

•  C’est la seule source de variation, mais le devenir des mutations va dépendre des autres forces évolutives

•  Les choses sont différentes si l’on considère que les caractères sont déterminés par beaucoup de gènes à des locus différents (génétique quantitative, la semaine prochaine…)

La mutation

(49)

Il existe 4 "forces évolutives" qui agissent en interactions et font évoluer les fréquences alléliques en populations naturelles :

  la mutation

  la dérive génétique (variations stochastiques des

fréquences alléliques dues aux effets d'échantillonnages)

  la migration (ou flux de gènes)

  la sélection naturelle

Evolution des fréquences alléliques en populations

naturelles

(50)

Évolution en populations finies

•  On a supposé que les populations ont une taille infinie

•  Or les populations naturelles sont rarement de taille infinie...

Tympanuchus cupido Tétra des prairies

Illinois

(51)

Évolution en populations finies

•  On a supposé que les populations ont une taille infinie : par exemple on a supposé que les fréquences alléliques chez les descendants étaient exactement égales à celles des parents en l’absence de mutation et de migration (modèle déterministe)

•  Or dans les populations de taille finie, les fréquences peuvent varier d’une génération à l’autre simplement sous l’effet du hasard (modèle stochastique)

•  On appelle cette variation de fréquence aléatoire due à l’effet d’échantillonnage dans une population de taille finie la dérive génétique

(52)

Évolution en populations finies

•  De la même façon que dans une population de taille finie et constante chaque individu (asexué) ne donne pas exactement un descendant et un seul, chaque gène ne contribue pas par une copie et une seule à la composition génétique de la

génération suivante, mais par un nombre variable de copies qui suit une loi de probabilité d’espérance égale à un.

Ronald A Fisher Sewall Wright

Le modèle de

Wright-Fisher

(53)

Le modèle de Wright-Fisher

•  Une population de taille

constante, dans laquelle les individus se reproduisent une unique fois et au même moment (générations non chevauchantes)

•  Chaque gène à une

génération est la copie d’un gène de la génération

précédente

(54)

Le modèle de Wright-Fisher

•  En l’absence de mutation et de sélection, les fréquences

alléliques dérivent (augmentent et diminuent) inévitablement jusqu’à la fixation d’un allèle

•  La dérive conduit donc à la perte de variation génétique à l’intérieur des populations

(55)

La dérive

•  Au bout de 50 générations, toutes les populations sont fixées pour un allèle

•  Évolution des

fréquences alléliques dans 6 populations de N = 10 individus

(56)

La dérive

•  Au bout de 50 générations, aucune des populations n’est fixée pour un allèle

•  Évolution des

fréquences alléliques dans 6 populations de N = 100 individus

(57)

La dérive

•  Les fréquences alléliques fluctuent d’autant plus que les populations sont de petite taille

•  Des populations « filles » issues d’une même population

« mère » divergent de façon indépendante. La variance augmente au fil du temps

N = 100 individus N = 10 individus

(58)

Le modèle de Wright-Fisher

•  On considère une population haploïde, isolée de taille N

•  On considère un locus où 2 allèles (A et a) ségrégent. On note p[t] la fréquence de A et q[t] = (1 – p[t]) la fréquence de a au temps t

•  Il n’y a pas de mutation

•  Chaque génération, chaque individu produit un grand nombre de gamètes, en espérance le même pour tous (neutralité

sélective)

•  On tire N gamètes pour constituer la génération suivante (tirage dans une urne gamétique de taille infinie)

(59)

Le modèle de Wright-Fisher

•  Au temps (t+1), on réalise donc un tirage de N gènes avec remise dans une urne gamétique de taille infinie constituée d’allèles A en fréquence p[t] et d’allèles a en fréquence q[t]

•  Pour un tirage (disons celui correspondant à l’individu i), on définit la variable aléatoire indicatrice Xi [t+1]telle que :

•  Selon les hypothèses du modèle, Xi suit une loi de Bernouilli de paramètre p[t], et :

(60)

Le modèle de Wright-Fisher

•  Pour N tirages, on définit la variable aléatoire X[t+1] qui donne le nombre de copies de A, c’est-à-dire :

•  Quelles sont l’espérance et la variance de cette variable aléatoire ? (on fera l’hypothèse que les tirages sont indépendants)

(61)

Le modèle de Wright-Fisher

•  Pour N tirages, on définit la variable aléatoire X[t+1] qui donne le nombre de copies de A, c’est-à-dire :

•  L’espérance de cette variable aléatoire est donnée par :

•  Et sa variance (puisque les tirages sont indépendants) :

(62)

Le modèle de Wright-Fisher

•  X[t+1] suit donc une loi Binomiale, de paramètres N et p[t] = X[t] / N

•  Soit Y[t+1] = X[t+1] / N = p[t+1], quelles sont l’espérance et la variance de la fréquence de A à la génération (t+1) ?

(63)

Le modèle de Wright-Fisher

•  X[t+1] suit donc une loi Binomiale, de paramètres N et p[t] = X[t] / N

•  Soit Y[t+1] = X[t+1] / N = p[t+1], la fréquence de A à la génération (t +1), on a :

•  En espérance, la fréquence ne change pas d’une génération à l’autre, mais la variance est d’autant plus grande que N est petit

(64)

Le modèle de Wright-Fisher

•  La variance représente la variation de la fréquence allélique de A à la génération suivante, si l'on répétait l'expérience un grand nombre de fois à partir d'une même population constituée

initialement de A et a en fréquences p et q

•  Au bout d’un grand nombre de générations, chaque population va nécessairement fixer un allèle A ou a (p = 0 et p = 1 sont des

états absorbants)

•  Mais si l’on considère un nombre infini de populations isolées, p populations vont fixer A, et (1 - p) populations vont fixer a. Dans ce cas, la fréquence totale de A reste p

(65)

Évolution en populations finies

•  107 populations de

drosophiles, chacune ayant été fondée avec 16 individus hétérozygotes pour la

mutation ‘brown eye’ (bw75)

Les conséquences de la dérive : expérience de Buri (1956)

(66)

Évolution en populations finies

•  Au fil du temps, la variation à l’intérieur des populations diminue

•  La différenciation entre populations augmente

•  Ceci s’exprime par une diminution de la proportion d’hétérozygotes au niveau global (effet Wahlund)

(67)

Évolution en populations finies

•  Le modèle avec 2N = 32 prédit moins de populations fixées que ce qui est observé au bout de 19 générations. Ceci parce que la

variance du succès reproducteur est environ 70% plus élevé que ce qui est supposé dans le modèle de Wright-Fisher.

(68)

Dérive et consanguinité

•  La perte de variation due à la dérive entraîne une augmentation de l’identité entre gènes (de façon ultime tous les gènes d’une population finie sont des copies d’un même gène ancêtre ; ils sont tous identiques par descendance ; la population est

entièrement consanguine)

•  On peut mesurer la perte de variation à l’intérieur d’une population par le coefficient de consanguinité

•  Le coefficient de consanguinité (F), ou homozygotie, est la probabilité que deux gènes tirés au hasard sont des copies du même gène ancêtre

(69)

Dérive et consanguinité

t

t + 1

Deux gènes descendant d’un même parent

Deux gènes descendant de parents distincts

Dans une population diploïde, quelle est la valeur de F ?

(70)

Dérive et consanguinité

t

t + 1

Deux gènes descendant d’un même parent

Deux gènes descendant de parents distincts

1/(2N) 1

[1-1/(2N)]

F[t]

Probabilité de l’évènement : Probabilité d’identité :

(71)

Dérive et consanguinité

•  Par récurrence, on obtient :

•  F[t] tend vers 1 lorsque t tend vers l’infini. La population tend à l’identité totale (fixation d’un allèle particulier). En l’absence de mutation, tous les gènes sont des copies identiques d’un gène ancêtre : identité par descendance

(72)

Dérive et consanguinité

•  La population tend d’autant plus vite vers l’identité (homozygotie) qu’elle est de petite taille

N = 20 N = 40 N = 60 N = 80 N = 100 N = 200

N = 500 N = 1000

(73)

•  Puisque l’homozygotie augmente, l’hétérozygotie diminue.

•  On définit l’hétérozygotie attendue (H) comme la probabilité que deux gènes tirés au hasard dans la population soient différents allèles

•  A l’équilibre :

•  Ce ne sont que des espérances !

Dérive et consanguinité

N = 1000

N = 100 N = 10

(74)

La coalescence

Regarder le processus de dérive en « remontant le temps » jusqu’à l’ancêtre commun d’un échantillon de gènes : à voir mardi 29 octobre

(75)

Effectif efficace

•  On définit la taille efficace (notée Ne) d’une population comme étant la taille d’une population « idéale » de Wright-Fisher où la dérive génétique aurait la même intensité (*) que dans la

population (ou bien le modèle de population) qui nous intéresse

•  (*) même taux de dérive, même augmentation de consanguinité, même augmentation de variance de fréquences alléliques entre populations, etc.

(76)

•  Ne ne représente donc le nombre d'individus reproducteurs de la population que dans le cas d’une population de Wright-Fisher, où un gène en particulier transmet un nombre de copies de lui-même tiré dans une loi binomiale de moyenne 1 et de variance (1 – 1/2N)

•  De quel(s) facteur(s) dépend la taille efficace ?

Effectif efficace

(77)

•  Sexe-ratio déséquilibrée Nm ≠ Nf (autosomes) :

•  Quelle est la probabilité de 2 gènes pris au hasard soient identiques?

•  Apres chaque événement de reproduction

•  1/4 (1/4) des paires de gènes proviennent de mâles (femelles), avec une probabilité 1/Nm (1/Nf) viennent d’un(e) même mâle (femelle), et ont une probabilité 1/2 de coalescer

Effectif efficace : sexe-ratio

(78)

•  Taille efficace des autosomes avec un sexe-ratio déséquilibrée Nm

≠ Nf , N= Nm + Nf (autosomes) :

•  Quelle est la probabilité de 2 gènes pris au hasard aient le même gène parent?

•  Ils doivent appartenir a 2 individus différents (sinon ils viennent d’un male et d’une femelle)

•  Prob = (N-1)/N

•  Parmi les paires de gènes appartenant à 2 individus différents, ¼ de ces paires proviennent de 2 gènes parents présents chez un male à la génération précédente,

¼ à des femelles, le reste provient d’un male et d’une femelle.

•  Prob = (N-1)/N*(1/4 + 1/4)

•  Ils ont ensuite les probabilités respectives 1/Nm et 1/Nf de provenir d’un même individus parmi les males et femelles respectivement.

•  Prob = (N-1)/N*(1/(4Nm) + 1/(4Nf))

•  Et enfin une probabilité ½ d’avoir le même gène parent :

•  Prob = (N-1)/N*(1/(8Nm) + 1/(8Nf))

•  En considérant N suffisamment grand, on a donc Prob = 1/8 *(Nm + Nf)/NmNf

Effectif efficace : sexe-ratio

(79)

•  Par analogie avec la consanguinité dans une population de Wright- Fisher donnée par 1/(2N), on définie la taille efficace d’une

population avec un sexe-ratio déséquilibrée comme le double de la moyenne harmonique des tailles de population de chaque sexe :

•  Exemple numérique : si Nm = 100 et Nf = 250, Ne = ? et Ne / N ?

Effectif efficace : sexe-ratio

(80)

•  Sexe-ratio déséquilibrée (double de la moyenne harmonique) :

•  Exemple numérique : si Nm = 100 et Nf = 250, Ne = 285, Ne / N = 0.81

Effectif efficace : sexe-ratio

(81)

•  Sur le chromosome X, (transmis des mères à leurs enfants et des pères à leurs filles) Ne est égale à :

•  1/9 (4/9) des paires de gènes proviennent de mâles (femelles), avec une probabilité 1/Nm (1/Nf) viennent d’un(e) même mâle

(femelle), et ont une probabilité 1 (1/2) de coalescer chez les mâles (femelles)

•  Si le sexe-ratio est équilibré, la taille efficace sur le chromosome X est égale à 3 /4 de celle sur les autosomes

Chromosomes sexuels : X

(82)

•  Sur le chromosome Y, (transmis des pères à leurs fils) Ne est égale à :

•  4 fois plus faible que sur les autosomes pour un sexe-ratio équilibré

Chromosomes sexuels : Y

(83)

•  Ne dépend du nombre d’adultes reproducteurs mais aussi de la variance du nombre de descendants :

•  La variance du succès reproducteur implique que certains individus ont plus de descendants et d’autres moins. Donc il y a une plus

forte probabilité que des descendants aient le même parent…

•  Pour des diploïdes :

•  La variance du nombre de descendants diminue donc la taille efficace

Succès reproducteur

(84)

Fluctuations démographiques

Effectifs du lynx canadien et du lièvre (basés sur le nombre de fourrures importées par la Hudson Bay Company)

Histoire démographique de l’Egypte, marquée par les invasions et la peste

(85)

•  Si l’on considère que N = N(t) fluctue d’une génération à l’autre, alors à chaque génération la diversité décline ainsi :

•  Sur T générations, on a :

•  S. Wright (1938) a défini implicitement une taille efficace telle que ce facteur soit égal à :

•  Si bien que la taille efficace peut être approximée par la moyenne harmonique des N(t) :

Fluctuations démographiques

(86)

Otarie à fourrure australe (Rosa de Oliveira et al. 2006)

Fluctuations démographiques

Après El Niño (1999) : 8 223 individus (3 215 femelles, 337 mâles)

Avant El Niño (1996-97) : 24 481 individus (10 720 femelles, 2 903 mâles)

Quelles sont les tailles efficaces dans chacun des cas, et globalement ?

(87)

Otarie à fourrure australe (Rosa de Oliveira et al. 2006)

Fluctuations démographiques

Après El Niño (1999) : 1 220 Avant El Niño (1996-97) : 9 138

Globalement : 1 076

(88)

Effectif efficace

Le génome des orangs-outans marqué par leur effondrement démographique(*) (Goossens et al. 2006)

(*) goulet d’étranglement, bottleneck

Paramètre important, notamment en génétique de la conservation

(89)

Quand la génétique révèle la démographie…

(90)

Effets fondateurs

Ces réduction d’effectif efficace se traduisent par des « effets fondateurs », qui font que les populations nouvellement établies portent une fraction de la

variabilité génétique de la population ancestrale.

On peut envisager un effet fondateur dans deux situations : goulet d’étranglement

(« bottleneck »)

Colonisations successives

(91)

Effets fondateurs

Après un goulot d’étranglement nA

Diminue plus vite que He car les allèles rares sont éliminés les premiers.

nA = 7 He = 0.75

nA = 4 He = 0.70

(92)

Distance à l’Afrique (Addis Abeba)

Effets fondateurs

L’hétérozygotie diminue en s’éloignant de l’Afrique (Prugnolle et al. 2005)

(93)

A partir d’un modèle de colonisations successives (Liu et al. 2006)…

… on retrouve les résultats observés sur les données réelles :

Effets fondateurs

(94)

Dérive et mutation

•  Mais la perte de diversité génétique due à la dérive peut être compensée par l’arrivée de nouvelles mutations

•  2 gènes tirés au hasard ne sont pas identiques par

descendance si l’un des deux (ou les deux) mute(nt) vers un nouvel état allélique

•  A l’équilibre :

(95)

Dérive et mutation

•  Puisque :

•  On a :

•  Que l’on écrit aussi, en posant θ=4Nµ :

(96)

Dérive et mutation

•  En espérance, la dérive et la mutation maintiennent un niveau de variation intermédiaire à l’équilibre.

•  Mais chaque mutation qui apparaît peut être fixée ultimement par dérive…

•  Il y a donc un renouvellement constant des allèles

(97)

La théorie neutraliste

•  Soit une population diploïde de taille N

•  Soit un taux de mutation récurrent µ

•  On a donc 2Nµ nouvelles mutations qui apparaissent par génération

•  Chaque nouvelle mutation neutre a une fréquence initiale de 1/2N, donc une probabilité de fixation de 1/2N

•  Par génération on a donc K = 2Nµ / 2N = µ mutations qui se fixeront (taux de substitution nucléotidique)

•  En moyenne le temps de fixation est de t = 4Ne générations (approximations de diffusion)

(98)

La théorie neutraliste

•  Toutes les 1/µ générations, apparaît une mutation destinée à se fixer : les taux d’évolution sont constants

(99)

L’horloge moléculaire

Prédiction : le nombre de substitutions (mutations) dans le génome augmente linéairement avec le temps

Motoo Kimura

(100)

L’horloge moléculaire

•  En comparant les gènes de l’α-globine chez des vertébrés, Motoo Kimura (1983) a montré que le nombre de différences (substitutions nucléotidiques) entre paires d’espèces vérifie cette prédiction

Le nombre de mutations qui séparent deux séquences fournit ainsi une mesure du temps depuis lequel elles divergent (Kimura 1983)

(101)

L’horloge moléculaire

Mais : l’horloge avance à un rythme différent selon les gènes, ou selon la nature des sites (taux de mutations différents, ou contraintes fonctionnelles)

(Dickerson 1971) (Données : BRCA 1)

(102)

Il existe 4 "forces évolutives" qui agissent en interactions et font évoluer les fréquences alléliques en populations naturelles :

  la mutation

  la dérive génétique (variations stochastiques des

fréquences alléliques dues aux effets d'échantillonnages)

  la migration (ou flux de gènes)

  la sélection naturelle

Evolution des fréquences alléliques en populations

naturelles

(103)

La migration

L’échange d’individus (ou de gamètes) entre sous populations

permet les flux de gènes…

(104)

La migration

•  Le modèle en îles (ou modèle de l’archipel) considère que la migration s’effectue entre toutes les sous-

populations (dèmes) d’une population subdivisée.

•  Ce modèle n’est pas spatialisé : tous les dèmes

échangent des migrants au même taux, quelle soit leur

« position »

populations de taille N

migration, m

(105)

La migration

Pool génique

m m

m

(1 – m)

(1 – m)

(1 – m)

Si l’on part de p[0], au bout de t générations :

•  Si le nombre de dèmes est suffisamment grand (infini), la fréquence des allèles parmi les migrants est

constante.

(106)

La migration

•  En l’absence d’autres forces évolutives, la migration homogénéise complètement les fréquences alléliques entre dèmes.

•  Évolution des fréquences au cours du temps dans cinq dèmes qui échangent des migrants au taux m = 0.1 par génération

•  Avec p[0]=0, combien de générations faut-il pour atteindre 90% de la valeur d’équilibre ? 22 (1.15×106 pour la mutation !)

Si l’on ne considère que de la mutation !

(107)

La migration

•  C’est une force de plus forte intensité que la mutation

•  La migration homogénéise les fréquences alléliques entre populations

•  Le modèle de migration (la façon dont les individus se déplacent dans l’espace, la dispersion « en groupe » ou solitaire, etc.)

influence beaucoup la distribution spatiale du polymorphisme

(108)

Fréquences observées .

pAA = 9 / 16 = 0.5625 pAA = 1 / 16 = 0.0625 pAa = 6 / 16 = 0.375 pAa = 6 / 16 = 0.375 paa = 1 / 16 = 0.0625 paa = 9 / 16 = 0.5625

Fréquences attendues .

pAA = 0.75² = 0.5625 pAA = 0.25² = 0.0625

pAa = 2*0.75*0.25 = 0.375 pAa = 2*0.75*0.25 = 0.375 paa = 0.25² = 0.0625 paa = 0.75² = 0.5625

Mélanges de population panmictiques : l'effet wahlund (Rappel)

AA Aa

Aa Aa

AA

AA Aa

AA

aa Aa AA AA

Aa Aa AA AA AA

pA=0.75 pa=0.25

aa Aa

Aa Aa

aa

aa Aa

aa aa

aa Aa AA

Aa Aa aa aa aa

pA=0.25 pa=0.75

Pop1 (HW) Pop2 (HW)

(109)

Fréquences observées pAA = 10 / 32 = 0.3125

pAa = 12 / 32 = 0.375 paa = 10 / 32 = 0.3125

Fréquences attendues pAA = 0.5² = 0.25

pAa = 2*0.5*0.5 = 0.5 paa = 0.5² = 0. 25

Mélanges de population panmictiques : l'effet wahlund (Rappel)

AA Aa

Aa Aa

AA

AA Aa

AA

aa Aa AA AA

Aa Aa AA AA AA

aa Aa

Aa Aa

aa

aa Aa

aa aa

aa Aa AA

Aa Aa aa aa aa

pA=0.5 pa=0.5

Analyse des 2 population regroupées

On observe un déficit d'hétérozygote (et donc un excés d'homozygote) par rapport à l'équilibre de Hardy-Weinberg : c'est l'effet Walhund (1923)

Un mélange de population (sous-populations)

panmictiques n'est pas une population panmictique à cause de l'effet de la structuration et des flux de

gènes (migration entre populations) limités

(110)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

Considérons n populations panmictiques et un locus bi-allélique avec Fréq[A]=p

i

, et Fréq[a]=q

i

dans chaque population i

les fréquences génotypiques dans chaque population sont à l'équilibre de Hardy-Weinberg :

Et en moyenne sur l'ensemble des populations :

AA pi2

Aa 2piqi

aa qi2

AA E(pi2) Aa E(2piqi) aa E(qi2)

(111)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

Soit p=E(p

i

)= , si la population totale était panmictique on observerait sur l'ensemble des populations:

mais la fréquence d'hétérozygote réellement observée (H

o

) est:

H

o

= E( 2p

i

q

i

) = 2 * E( p

i

- p

i

² ) = 2 * E( p

i

) – 2 * E( p

i

² )

= 2p – 2 * ( Var(p) + p² ) car Var(p) = E(p

i

²) - E(p

i

)² = E(p

i

²) - p

i

²

= 2pq – 2 * Var( p ) = 2pq ( 1 – 2Var(p)/2pq)

AA p2

Aa 2pq

aa q2

(112)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

Si la population totale était panmictique on observerait sur l'ensemble des populations:

mais la fréquence d'hétérozygote réellement observée (H

o

) est:

H

o

= 2pq ( 1 – 2Var(p)/2pq)

On note F

ST

= Var( p ) / pq , où Var(p) est la variance de p entre population, on a alors

H

o

= E( 2p

i

q

i

) = 2pq( 1 – F

ST

)

AA p2

Aa 2pq

aa q2

(113)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

On observe donc la structure génotypique suivante, correspondant a Hardy-Weinberg généralisé à un ensemble de populations

panmictiques :

• Fréq[AA] = E(p

i

²) = p² - pq*F

ST

• Fréq[Aa] = E(2p

i

q

i

) = pq(1 - F

ST

) • Fréq[aa] = E(q

i

²) = q² - pq*F

ST

F

ST

peut donc être perçu comme le déficit en hétérozygote du aux échanges limités par flux de gènes/migration entre différentes

populations (i.e. l'écart a la panmixie entre les populations), c'est

l'effet wahlund

(114)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

F

ST

= Var(p)/pq = 1 – H

o

/H

e

où H

o

est l'hétérozygotie observée et H

e

l'hétérozygotie attendue si l'on avait une seule population

On note que pq est la variance maximale des fréquence entre

population (Var

max

(p)) obtenue si toute les populations sont fixées.

On a alors p populations fixés pour A et q populations fixées pour a, d'où Var(p) = E(p

i

²) - E(p

i

)² = p*1

2

+ 0 - p² = p(1 - p) = pq

F

ST

est donc la variance des fréquences alléliques entre

populations, standardisées par la variance maximale

(115)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

On note aussi que pq est la variance totale (sur l'ensemble de toutes les populations) des fréquence alléliques (Var

tot

(p)

obtenue quand on regroupe les populations). On a alors p allèles A et q allèles a, d'où Var

tot

(p) = p*1

2

+ 0 - p² = pq (Bernoulli)

F

ST

est donc aussi la proportion de la variance totale qui se

trouve entre populations (analyse de variance)

(116)

Formalisation de l'analyse de populations

subdivisées (i.e. structurées)

(117)

Formalisation de l'analyse de populations subdivisées (i.e. structurées)

Considérons maintenant n populations ayant un régime de reproduction non

panmictique (i.e. partiellement consanguin, FIS>0), la structure génotypique d'une population est toujours données par :

AA p

i

²+p

i

q

i

F

IS i

Aa 2p

i

q

i

(1-F

IS i

)

aa q

i

²+p

i

q

i

F

IS i

Et sur toutes l'ensemble des populations, on observe :

AA E[ p

i

²+p

i

q

i

F

IS i

] Aa E[ 2p

i

q

i

(1-F

IS i

) ]

aa E[ q

i

²+p

i

q

i

F

IS i

]

Références

Documents relatifs

Organisation de la diversité génétique: Application du principe de Hardy-Weinberg et écarts à la panmixie 4?. Mécanismes évolutifs: Les sources de

D'autre part cette méthode n'est valable, pour estimer la variance additive, que si les variances de dominance et d ’épistasic sont faibles (011 obtient ainsi de

perdu la région riche en acides ami- nés « basiques » interagissant avec la tubuline, la région de liaison avec EB1, une nouvelle protéine de fonc- tion encore inconnue [6] et,

tion sont souvent dans cette situation du fait d’un.. manque à gagner économique par rapport

Lorsqu’une sous partie de la population se sépare de la population initiale de taille beaucoup plus vaste, lors d’une migration pour coloniser un nouveau milieu par exemple, la

Dans un premier temps, nous avons utilisé cette méthode pour étudier les relations entre la structure génétique de populations amérindiennes, la géographie et les langues.. À

Dans la section 4, nous proposons un modèle pour analyser la structure des popu- lations dans un contexte spatial, et en particulier détecter les régions de l’aire de

Dans la seconde partie de la th`ese, nous nous sommes int´eress´es au d´eveloppement de mod`eles statistiques pour d´etecter l’adaptation locale au sein des g´enomes d’une