4.3 Influence de la s´ election sur les marqueurs
4.3.1 Un mod` ele de divergence d’une paire de populations
Dans cette partie, je m’efforcerai de montrer que certaines propri´et´es des
mesures de divergence de paires de populations peuvent ˆetre utiles pour
iden-tifier des locus pour lesquels la distribution de la variation g´en´etique s’´eloigne
de l’attendu th´eorique dans le cas neutre. Je vais donc maintenant pr´esenter
un mod`ele d’´evolution neutre des fr´equences all´eliques au cours du processus
de divergence de deux populations. La description de ce mod`ele fait
large-ment appel `a la notion de coalescence de g`enes dont j’ai pr´esent´e quelques
aspects importants en § 2.1.2.
Hypoth`eses du mod`ele
On consid`ere deux populations compos´ees de N
1et N
2individus
ha-plo¨ıdes, qui ont pour origine une population unique de taille N
0dont elles se
sont s´epar´eesτ g´en´erations dans le pass´e. Ces deux populations ont ´echang´e
ou ´echangent ´eventuellement encore des individus, depuis le moment de leur
divergence et le moment pr´esent. Avant la divergence, la population unique
n’est pas n´ecessairement `a l’´equilibre entre les forces ´evolutives que sont la
mutation et la d´erive. Au contraire, on consid`ere que cette population peut
avoir travers´e un goulot d’´etranglement
19,τ
0g´en´erations avant le temps pr´
e-sent (o`u τ
0> τ). Avant cet ´ev´enement, cependant, la population ancestrale
est consid´er´ee comme ´etant `a l’´equilibre entre les forces ´evolutives de
muta-tion et de d´erive. On consid`ere un cycle de vie annuel strict (les g´en´erations
ne se chevauchent pas) et les appariements se font au hasard. Les nouvelles
mutations apparaissent `a un tauxµ, selon un mod`ele `a nombre infini d’all`eles.
La figure 4.8 illustre ce mod`ele.
On note Q
w,ila probabilit´e que deux g`enes pris au hasard dans la
popu-lation i soient identiques par descendance et Q
a, la probabilit´e qu’un g`ene
´echantillonn´e dans la population 1 soit identique `a un g`ene ´echantillonn´e dans
la population 2. De fa¸con g´en´erique, on noteraQ
hla probabilit´e d’identit´e de
n’importe quelle paire de g`enes, avech = (w, i) quand les deux g`enes sont pris
dans la population i et h =a quand un g`ene est pris dans 1 et l’autre g`ene
est pris dans 2. Il est possible (voir § 2.1.2) d’exprimer Q
hen fonction des
temps moyens de coalescence (Slatkin1991). En reprenant l’approximation
en temps continu de Hudson (1990), on obtient
Qh =
Z
∞0
γ
tc
h(t)dt (4.21)
o`u c
h(t) est la probabilit´e de coalescence `at pour une paire de g`enes de type
h, etγ = (1−µ)
2. Or lestemps d’attente entre les ´ev´enements de coalescence
dans une population de tailleN
isont distribu´es selon une loi exponentielle de
moyenne N
i. La probabilit´e d’identit´e pour n’importe quelle paire de g`enes
19Ce terme, traduit de l’anglaisbottleneck, signifie qu’une population a subi une
dans la populationi peut donc s’´ecrire
Q
w,i=
Z
τ 0γ
tN
ie
−t/Nidt+ (1−C
i)Q
0(4.22)
o`u Q
0est la probabilit´e d’identit´e entre deux g`enes dans la population
an-cestrale au temps τ avant la divergence, et (1− C
i) = γ
τ· e
−τ /Niest la
probabilit´e que les deux g`enes n’aient ni coalesc´e, ni mut´e dans la ii`eme
po-pulation, dans l’intervalle de temps 0 < t 6 τ. Le premier terme du second
membre de l’´equation (4.22) est la probabilit´e que les deux g`enes aient
coa-lesc´e dans l’intervalle de temps 0 < t6τ et n’aient pas mut´e dans ce mˆeme
intervalle de temps. En reprenant l’´equation (4.21), la probabilit´e d’identit´e
de deux g`enes ´echantillonn´es au hasard dans la population ancestrale avant
la divergence au temps τ est donn´ee par
Q
0=
Z
τ0 τγ
t−τN
0e
−(t−τ)/N0dt+ (1−C
0)
Z
∞ τ0γ
t−τ0Ne e
−(t−τ0)/Nedt (4.23)
o`u (1−C
0) =γ
τ0−τ·e
−(τ0−τ)/N0est la probabilit´e que deux g`enes ne
coales-cent pas et ne mutent pas dans l’intervalle de tempsτ < t 6 τ
0. Le premier
terme du second membre de l’´equation (4.23) int`egre tous les ´ev´enements de
coalescence qui se produisent dans l’intervalle de temps (τ < t6τ
0). Durant
cette p´eriode, les temps de coalescence sont distribu´es selon une loi
expo-nentielle de moyenneN
0. Le dernier terme du second membre de l’´equation
(4.23) int`egre tous les ´ev´enements de coalescence qui se produisent dans la
population ancestrale, `a l’´equilibre entre les forces de mutation et de d´erive.
Ce dernier terme donne donc la probabilit´e d’identit´e de deux g`enes dans
une population stationnaire de taille N
e, soit 1/(1 +θ), o`u θ = 2N
eµ. Ces
int´egrales peuvent ˆetre facilement r´esolues pour de faibles taux de mutation,
c’est-`a-dire dans le cas o`u γ
t≈e
−2µt. La solution de l’´equation (4.22) est
Q
w,i≈ 1
θ
i+ 1
1−e
−Ti(θi+1)+ e
−Ti(θi+1)·Q
0(4.24)
o`u θ
i= 2N
iµ et T
i= τ /N
i. La valeur de Q
0est donn´ee par la solution de
l’´equation (4.23), soit
Q
0≈ 1
θ
0+ 1
1−e
−T0(θ0+1)+ e
−T0(θ0+1)1
θ+ 1
(4.25)
o`u θ
0= 2N
0µ et T
0= (τ
0−τ)/N
0. Dans l’hypoth`ese o`u les flux de g`enes
entre les populations sont nuls apr`es la divergence, un g`ene de la population
1 est identique `a un g`ene de la population 2 uniquement s’ils sont chacun des
copies d’un unique ancˆetre commun avant la divergence et qu’ils n’ont pas
mut´e, soit
Q
a=γ
τQ
0(4.26)
Comment mesurer la divergence de deux populations dans un tel mod`ele ? Il
est possible de d´efinir le param`etre
F
i= Q
w,i−Q
a1−Qa (4.27)
Dans un mod`ele o`u les deux populations en divergence ont la mˆeme taille
(N
1=N
2=N), alors (F
1+F
2)/2 d´efinit la corr´elation intra-classe des
pro-babilit´es d’identit´e par descendance des paires de g`enes prises `a l’int´erieur des
populations, relativement aux paires de g`enes prises entre populations
(c’est-`
a-dire le param`etreF
ST). Or, comme nous l’avons vu pr´ec´edemment (§2.1.3),
les propri´et´es des corr´elations intra-classes pour les probabilit´es d’identit´e par
descendance (CockerhametWeir1987) peuvent ˆetre d´eduites des propri´
e-t´es des corr´elations intra-classes pour les probabilit´es d’identit´e par ´etat, dans
la limite des faibles taux de mutation (Rousset 1996, 2001b). En effet, les
rapports des probabilit´es d’identit´e de la forme de l’´equation (4.27) donnent
la mˆeme limite, pour des faibles taux de mutation, quel que soit le mod`ele
de mutation consid´er´e (mod`ele `a nombre infini ou `a nombre fini d’all`eles)
(Rousset 1996, 1997, 2001b). Si l’on n´eglige les mutations (cette
approxi-mation ´etant raisonnable sur des temps de divergence courts), d’apr`es les
´equations (4.22) et (4.26) Q
atend vers Q
0et Q
w,i≈ C
i(1−Q
0) +Q
0. Par
cons´equent,
Fi ≈1−e
−Ti(4.28)
Lorsque les deux populations ont la mˆeme taille N
1= N
2= N, il est int´
e-ressant de constater que l’´equation (4.28) donne un r´esultat bien connu, `a
savoir que F
1= F
2= F ≈ 1−e
−τ /N(voir, par exemple, Reynolds et al.
1983). On fait g´en´eralement r´ef´erence au param`etreT
icomme la« longueur
de branche»de la population i. Le r´esultat important qui justifie le mod`ele
d´ecrit par les ´equations (4.21-4.28) vient du fait que, dans la limite des faibles
taux de mutation, les param`etres F
1etF
2ne d´ependent pas des param`etres
de nuisanceθ ouT
0(voir la note 27 au bas de la page 56 pour une d´efinition
de ce qu’est un param`etre de nuisance). Par cons´equent, un estimateur des
longueurs de branches Tb
ipeut ˆetre construit comme
b
T
i=−ln(1−Fb
i) (4.29)
o`u Fb
iest un estimateur de F
i, construit de la mˆeme mani`ere que (2.13) soit,
en fonction des fr´equences all´eliques p
iudans la populationi,
b
F
i= Qb
w,i−Qb
a1−Qab =
P
k u=1[pb
iu(n
ipb
iu−1)/(n
i−1)−pb
1upb
2u]
1−P
k u=1(pb
1upb
2u) (4.30)
Analyse du mod`ele
Des simulations stochastiques ont ´et´e r´ealis´ees afin de d´eterminer la
va-riance d’´echantillonnage des estimateurs (4.30) dans le mod`ele d´ecrit dans le
§ 4.3.1. Un algorithme standard de simulation du processus de coalescence
a ´et´e utilis´e (voir, par exemple, Hudson 1990). Cet algorithme permet de
construire une g´en´ealogie de n
1+n
2g`enes dans le mod`ele de divergence de
populations. Les longueurs de branches (c’est-`a-dire les temps s´eparant deux
´ev´enements de coalescence successifs) sont tir´ees dans une loi exponentielle
dont la moyenne d´epend de la taille de la population et du nombre de g`enes
T
0= 0.01
T
0= 0.1
T
0= 1
θ = 1 θ = 5 θ = 10
F
1F
2 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1Figure 4.9:Distribution totale des valeurs de Fb
1etFb
2dans un
mo-d`ele de divergence de deux populations. Ces distributions ont ´et´e
cal-cul´ees pour une large gamme de valeurs des param`etres de nuisance
θ = 2N
eµet T
0. T
i=τ /N
iest ´egal `a 0.10 pour les deux populations
en divergence (avec τ = 50 et N
1=N
2= 500), soit F
i≈0.0953 (la
vraie valeur de Fi est indiqu´ee par les lignes pointill´ees. Pour tous
les jeux de param`etres, µ= 10
−4,N
0= 1000, et n
i= 100. La r´egion
gris´ee repr´esente 95% des valeurs simul´ees.
pr´esents dans le pas de temps consid´er´e. Enfin les mutations sont ajout´ees,
ind´ependamment, le long de la g´en´ealogie ainsi obtenue.
La figure 4.9 montre les distributions attendues de Fb
1et Fb
2pour diff´
e-rentes combinaisons de valeurs des param`etres θ et T
0, pour des longueurs
de branche « r´eelles» (simul´ees) T
1=T
2= 0.1 (soit F
1=F
2≈ 0.0953). La
distribution totale des estimateurs Fb
1et Fb
2est figur´ee en gris.
Sur la figure 4.10 est repr´esent´ee, en gris, la distribution de Fb
1et Fb
2T
0= 0.01
T
0= 0.1
T
0= 1
θ = 1 θ = 5 θ = 10
F
1F
2 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1 -1 0 1Figure 4.10: Distribution conditionnelle des valeurs deFb
1etFb
2dans
un mod`ele de divergence de deux populations. Ces distributions ont
´et´e calcul´ees pour une large gamme de valeurs des param`etres de
nuisance θ = 2N
eµet T
0, conditionnellement `a la pr´esence dek = 4
all`eles dans l’´echantillon total. Voir la figure 4.9 pour des l´egendes
suppl´ementaires.
(n
1+n
2). Les figures 4.9 et 4.10 montrent que la distribution conjointe
non-conditionnelle de Fb
1et Fb
2d´epend fortement des param`etres de nuisance du
mod`ele (ici, θetT
0), bien que la moyenne de cette distribution n’en d´epende
a priori pas, d’apr`es l’´equation (4.28). En effet, pour de faibles valeurs de T
0la distribution conjointe devient plus ´etroite `a mesure que θ augmente. Pour
de grandes valeurs deθ, en revanche, la distribution devient plus ´etal´ee `a
me-sure queT
0augmente. Dans les deux cas, le niveau de variation qui subsiste
avant la divergence des populations est le facteur important qui d´etermine la
forme de la distribution conjointe. Pour des faibles valeurs deθ et de grandes
valeurs deT
0, les lign´ees de g`enes coalescent rapidement avant la divergence,
et le nombre d’´etats all´eliques distincts qui peuvent ˆetre maintenus apr`es la
divergence des populations est faible. Dans ce cas, la variance des
estima-teurs est grande comme l’illustre la figure 4.9. En revanche, la distribution
conjointe conditionn´ee `a la pr´esence d’au moins 4 all`eles dans l’´echantillon
total, apr`es la divergence (en gris fonc´e sur la figure 4.10) semble d´ependre
beaucoup moins des valeurs des param`etres de nuisance du mod`ele. Pour
une paire de valeurs des param`etres F
1et F
2, on peut donc construire une
estimation de la distribution th´eorique des estimateurs de ces param`etres,
conditionn´ee au nombre d’all`eles dans l’´echantillon, qui ne d´epende pas (ou
peu) des param`etres non estimables du mod`ele (tels que les taux de mutation,
l’intensit´e d’un ´eventuel goulot d’´etranglement, la taille efficace de la
popu-lation ancestrale). Ce r´esultat nous permet donc de proposer une m´ethode
pour tester l’homog´en´eit´e des patrons de diff´erenciation g´en´etique parmi un
ensemble de marqueurs g´en´etiques.
4.3.2 Une nouvelle m´ethode pour d´etecter des
mar-queurs r´epondant `a la s´election
La m´ethode propos´ee s’appuie sur la comparaison par paires (i, j) d’´
echan-tillons provenant de populations distinctes, dont les individus ont ´et´e g´
enoty-p´es pour un nombre important de marqueurs. La m´ethode peut ˆetre r´esum´ee
ainsi
(i) Pour chaque locus l, les statistiques Fb
ilet Fb
jlsont calcul´ees, d’apr`es
l’´equation (4.30).
(ii) Les param`etres F
ietF
jsont estim´es par les statistiques Fb
ietFb
j. Ces
statistiques sont obtenues en calculant les moyennes sur tous les locus
des estimateurs monolocus calcul´es en (i) pond´er´ees respectivement par
les diversit´es g´en´etiques estim´ees `a chaque locus (1−Qb
il) et (1−Qb
jl)
(voirWeir etCockerham1984, pour un estimateur multilocus
sem-blable deFST). Ceci revient `a d´efinir la statistique multilocusFb
icomme
le rapport de la somme sur tous les locus des valeurs du num´erateur de
l’´equation (4.30) sur la somme des valeurs du d´enominateur de cette
´equation.
(iii) Les longueurs de branches T
iet T
jsont estim´ees d’apr`es l’´equation
(4.29). La distribution conjointe des statistiques Fb
iet Fb
jest alors
ob-tenue en g´en´erant 10000 simulations ind´ependantes du processus de
coalescence d´efini par les valeurs estim´eesTb
ietTb
jet pour un ensemble
donn´e de valeurs des param`etres de nuisance du mod`ele. Ces 10000
simulations sont r´e-it´er´ees pour d’autres ensembles de valeurs des
pa-ram`etres de nuisance (mais pour les mˆemes valeurs de T
iet T
j). Ces
ensembles de valeurs sont choisis pour couvrir une large gamme de
va-leurs des param`etres de nuisance qui permettent de g´en´erer des jeux
de donn´ees simul´es dans lesquels le nombre d’all`eles obtenus est proche
du nombre d’all`eles observ´e dans le jeu de donn´ees initial. Les tailles
d’´echantillons simul´ees sont choisies pour ˆetre repr´esentatives des tailles
d’´echantillons du jeu de donn´ees initial.
(iv) Pour chacune de ces distributions attendues deFb
ietFb
j, toutes les
dis-tributions conditionnelles au nombre k d’´etats all´eliques dans l’´
echan-tillon total (n
i+n
j) sont construites (pourk= 2,3, . . .). Une« zone de
confiance» est alors construite, qui contient 95% des donn´ees g´en´er´ees
par simulation.
(v) Pour chaque valeur du nombre d’all`eles dans l’´echantillon total, on
superpose `a la r´egion de confiance construite en (iv) les points dont
les coordonn´ees sont les valeurs estim´ees Fb
1et Fb
2calcul´ees en (i). Si
les marqueurs g´en´etiques utilis´es se comportent comme des marqueurs
neutres vis-`a-vis de toute forme de s´election directe ou indirecte, on
s’attend `a ce que 95% des points se placent `a l’int´erieur de la r´egion de
confiance d´efinie en (iv).
Un exemple d’application
Cette m´ethode a ´et´e appliqu´ee `a un jeu de donn´ees de polymorphisme
en-zymatique chez l’esp`ece Drosophila simulans dans des populations africaines
et europ´eennes (Choudhary et al.1992;Singhet al.1987). Ce jeu de
don-n´ees consiste en des donn´ees de fr´equences all´eliques `a 43 locus polymorphes
(parmi 111 locus allozymiques g´enotyp´es), pour cinq populations (France,
-1 0 1 -1 0 1 -1 0 1 -1 0 1
A. B.
C. D.
F
1F
2 Ca-3 GPTFigure 4.11:Valeurs de Fb
1et Fb
2estim´ees pour 43 locus du jeu de
donn´ees de Drosophila simulans dans la comparaison impliquant les
populations de France (n= 55) et de Tunisie (n = 52). Les paires de
valeurs par locus sont repr´esent´ees chacune par un point. Les valeurs
moyennes sont repr´esent´ees par une ligne pointill´ee (Fb
1= 0.0064 et
b
F
2= 0.0617). La r´egion gris´ee repr´esente la densit´e de probabilit´e
o`u se trouvent 95% des donn´ees simul´ees pour ces valeurs de
para-m`etres. Chacun des graphes repr´esente une distribution conditionn´ee
au nombre d’all`eles dans l’´echantillon total. A. k = 2. B. k = 3. C.
k = 4. D. k= 5.
Congo, Le Cap, Seychelles, Tunisie) maintenues au laboratoire sous la forme
de lign´ees isofemelles
20. Les tailles d’´echantillons haplo¨ıdes varient den = 26
`
a n= 55.
La figure 4.11 montre le r´esultat de l’analyse conjointe de la
popula-20Les lign´ees iso-femelles sont construites en ´echantillonnant des femelles sur le terrain,
puis en maintenant leur descendance au laboratoire par des croisements r´ep´et´es entre
fr`eres et sœurs. Au bout de quelques g´en´erations, les lign´ees sont consid´er´ees comme ´etant
tion fran¸caise et de la population tunisienne. Les estimateurs multilocus des
param`etres F
1(France) et F
2(Tunisie) sont ´egaux `a 0.0064 et 0.0617,
res-pectivement (ces valeurs sont indiqu´ees par les lignes pointill´ees). Toutes les
paires de valeurs possibles de θ et T
0ont ´et´e choisies avec θ = 1, 5 ou 10
et pour T
0= 0.01, 0.1 ou 1. Pour chaque ensemble de valeurs de θ et T
0,
10000 simulations du processus de coalescence ont ´et´e r´ealis´ees. Chaque
dis-tribution repose donc sur 90000 simulations ind´ependantes du processus de
coalescence. On retrouve la plupart des points (chaque point correspondant `a
un locus) `a l’int´erieur de la limite impos´ee par la distribution des valeurs des
estimateurs deF
1etF
2dans un mod`ele neutre de divergence de populations.
Pourtant, si l’on consid`ere la distribution conjointe des locus pour lesquels
au moins trois all`eles sont pr´esents dans l’´echantillon total (figure 4.11C-D),
on remarque que quatre locus sont clairement `a l’ext´erieur de la limite
im-pos´ee par la distribution des valeurs de Fb
1et Fb
2dans le cas neutre
21. On
distinguera deux cas.
(i) Le premier cas concerne des locus dont l’une des valeurs mesur´ees Fb
1ou Fb
2est ´egale `a un (et donc les points correspondant `a ces locus se
trouvent sur les bords des diagrammes : voir la figure 4.11B). Cette
situation correspond au cas o`u un all`ele est fix´e dans l’une des
po-pulations. Or de l´eg`eres variations dans les valeurs des param`etres de
nuisance peuvent changer la proportion de locus pour lesquels un
al-l`ele est fix´e dans une des deux populations. Il est donc possible de
trouver des valeurs de param`etres telles que les locus indiqu´es dans la
figure 4.11B se retrouvent finalement `a l’int´erieur de la limite impos´ee
par la distribution des valeurs deFb
1etFb
2dans le cas neutre.
(ii) Le second cas concerne, dans notre exemple, les locus qui codent pour la
glutamate pyruvate transaminase (GPT) et l’anhydrase carbonique-3
(Ca-3), c’est-`a-dire des locus que l’on retrouve clairement en dehors de
la limite de la « zone de confiance»`a 95% d´efinie par la distribution
des valeurs de Fb
1et Fb
2obtenues dans un mod`ele strictement neutre
(figures 4.11C et 4.11D).
21Avec 43 locus, on s’attend `a ce que 0.05×43≈2 locus se retrouvent, par hasard, en
Mais revenons sur le point (ii). Car si les locus qui codent pour la
glu-tamate pyruvate transaminase ou bien pour l’anhydrase carbonique-3 sont
bien `a l’ext´erieur de la zone de confiance dans certaines comparaisons par
paire impliquant la population fran¸caise (comme ici dans la comparaison
France-Tunisie, voir la figure 4.11), ces locus se placent au bord de la zone de
confiance `a 95% dans d’autres comparaisons par paire impliquant la
popula-tion fran¸caise. De plus, si l’on consid`ere la r´egion de confiance `a 99% plutˆot
que celle `a 95%, ces mˆemes locus ne sont plus `a l’ext´erieur de la r´egion d´efinie
par la distribution des valeurs des estimateurs de F
1et F
2dans un mod`ele
neutre de divergence de populations.
22. Or l’on s’attend `a ce qu’un locus,
s’il a ´et´e ou est toujours sous l’effet de la s´election dans une population en
particulier isol´ee des autres populations depuis leur divergence, soit d´etect´e
en dehors de la zone de confiance d´efinie par le mod`ele neutre dans toutes, ou
la plupart, des comparaisons par paire incluant cette population. Ainsi, dans
l’analyse compl`ete de ce jeu de donn´ees (non pr´esent´ee ici) le locus codant
pour l’isocitrate deshydrogenase-1 (d´etect´e dans trois des quatre
comparai-sons par paire incluant la population des Seychelles) ainsi que 6 autres locus
(d´etect´es dans des comparaisons uniques) qui ont r´epondu positivement au
test ne devraient pas ˆetre retenus comme des locus potentiellement soumis `a
l’action de la s´election.
En revanche, dans toutes les comparaisons par paire impliquant la
popu-lation du Congo, deux locus codant respectivement pour la prot´eine larvaire
10 (Pt-10) et la phosphoglucomutase (PGM) ont ´et´e d´etect´es comme ´etant
`
a l’ext´erieur de la densit´e de probabilit´e o`u se trouvent 95% des donn´ees
simul´ees pour les valeurs de param`etres correspondant aux temps de
diver-gence mesur´es pour la population du Congo, par rapport `a toutes les autres.
Dans toutes les comparaisons par paire incluant la population du Congo, en
effet, les estimateurs des longueurs de branche pour ces deux locus donnent
des valeurs plus grandes pour la population congolaise, par rapport `a tous
les autres locus (figure 4.12)
23. Ceci sugg`ere que la variabilit´e g´en´etique est
22En d’autres termes, cela signifie qu’il existe des valeurs des param`etres de nuisance
pour lesquelles ces locus ne se distinguent pas de locus simul´es dans un mod`ele neutre.
23La seule exception notable concerne le locus codant pour la prot´eine larvaire 10 dans