• Aucun résultat trouvé

1.3 L’œuf et la poule

2.1.3 Les F -statistiques

Nous avons vu pr´ec´edemment que pour d´ecrire un mod`ele de population

structur´ee en sous-populations, il fallait d´efinir des probabilit´es d’identit´es

de paires de g`enes pris `a diff´erents niveaux hi´erarchiques. Ceci est vrai pour

n’importe quel type de structure (voir, par exemple, Ronfort et al. 1998;

Rousset 1999b; Slatkin et Voelm 1991). Il est en effet toujours possible

de d´efinir des classes de g`enes de telle sorte que le mod`ele est enti`erement

d´ecrit par les probabilit´es d’identit´e de paires de g`enes tir´es `a l’int´erieur de

ces classes et par les probabilit´es d’identit´e de paires de g`enes tir´es dans

des classes distinctes. Dans l’exemple pr´ec´edent, c’est-`a-dire dans le mod`ele

d´efini par le syst`eme d’´equations (2.3), j’ai distingu´e les paires de g`enes prises

`

a l’int´erieur des individus, des paires de g`enes prises dans une mˆeme

sous-population et des paires de g`enes prises dans des sous-populations distinctes.

Ces trois cat´egories de paires de g`enes d´efinissent donc les diff´erentes classes

dans le mod`ele pr´ec´edent.

Dans ce contexte, on peut d´efinir des corr´elations des ´etats all´eliques pour

les g`enes pris `a l’int´erieur d’une classe par rapport aux g`enes pris dans des

classes distinctes, c’est-`a-dire des corr´elations g´en´etiques intra-classes (

Co-ckerhametWeir1987;Rousset1996). Si les probabilit´es d’identit´e

consi-d´er´ees sont des probabilit´es d’identit´e par ´etat, ces corr´elations sont mieux

connues sous le nom deF-statistiques (Wright1951). Ainsi, les fameux

pa-ram`etres F

IS

, F

ST

et F

IT

introduits dans la litt´erature par Wright (1951)

sont-ils d´efinis par

F

IS

= Q

0

−Q

1

1−Q

1

F

ST

= Q

1

−Q

2

1−Q

2

(2.11)

F

IT

= Q

0

−Q

2

1−Q

2

fa¸con plus« g´en´erique», on note

FIJ = (QI−QJ)/(1−QJ) (2.12)

la corr´elation des g`enes dans la classe I (identiques par ´etat avec la

proba-bilit´e Q

I

), relativement aux g`enes de la classeJ (identiques par ´etat avec la

probabilit´e QJ).

Depuis Wright (1943, 1951) la d´efinition, et donc l’estimation, des F

-statistiques ont fait l’objet d’un vaste d´ebat dans la litt´erature (

Chakra-bortyet Danker-Hopfe1991;Excoffier 2001; Rousset 2001b;Weir

et Cockerham 1984). Wright (1951) a d´efini les F-statistiques comme

des corr´elations g´en´etiques

11

. Les d´efinitions de Wright (1951) ne sont

va-lables que pour des locus bi-all´eliques (c’est `a dire des locus dont les g`enes ne

peuvent ˆetre que dans deux ´etats all´eliques). Nei (1973, 1977, 1986) et Nei

et Chesser (1983) ont ´etendu ces d´efinitions au cas, plus g´en´eral, o`u l’on

trouve plus de deux all`eles `a un locus. Le probl`eme inh´erent aux d´efinitions

deNei(1973, 1977) tient essentiellement au fait qu’il ne consid`ere pas

expli-citement un mod`ele d’´evolution des fr´equences all´eliques (Nagylaki 1998).

Ceci a pour cons´equence que si l’on consid`ere que les fr´equences all´eliques

va-rient al´eatoirement dans une population sous l’effet de forces ´evolutives telles

que la mutation, la d´erive g´en´etique ou bien la migration, les indices de Nei

(1973, 1977) sont des variables al´eatoires

12

. Du point de vue des inf´erences

que l’on peut faire `a partir de ces indices, ou bien de l’´etude de mod`eles th´

eo-riques de diff´erenciation des populations, les d´efinitions de Nei(1973, 1977)

souffrent donc de leur d´ependance aux fr´equences des all`eles et des g´enotypes

dans la population consid´er´ee (voir, par exemple, Nagylaki1989, 1998).

Une toute autre approche a ´et´e d´evelopp´ee parCockerham(1969, 1973).

Elle repose sur l’analyse d’un mod`ele lin´eaire dans lequel la fr´equence d’un

g`ene est d´etermin´ee par son esp´erance dans la population totale ainsi que par

des effets al´eatoires (d’esp´erances nulles) inh´erents aux processus de

muta-11« The correlation between gametes that unite to form an individual relative to the

gametes of the total population will be represented byFIT [. . .]»(Wright1969, p. 294).

12C’est-`a-dire des quantit´es qui prennent diff´erentes valeurs selon une loi de probabilit´e

tion, de d´erive et de dispersion. Ces effets al´eatoires se d´ecomposent en

com-posantes intra-individuelles, inter-individuelles au sein des sous-populations,

et inter-individuelles entre sous-populations distinctes (Cockerham 1969,

1973). Dans ce cadre th´eorique (celui de l’ANOVA), les F-statistiques de

Wright(1943, 1951) s’expriment en fonction de composantes de la variance,

et sont donc bien d´efinis comme des param`etres d’un mod`ele statistique

13

.

S’il permet d’exprimer les F-statistiques dans le cadre d’un mod`ele o`u

les fr´equences all´eliques observ´ees (desvariables al´eatoires) sont des r´

ealisa-tions d’un processus stochastique dont on cherche `a estimer les param`etres,

ce formalisme souffre toutefois d’un probl`eme de construction. Comme le

reconnaissait en effet d´ej`a Cockerham (1969), les « composantes de la

variance» ainsi d´efinies peuvent prendre des valeurs n´egatives (voir

Cha-kraborty et Danker-Hopfe 1991; Excoffier 2001; Rousset 2001b).

CockerhametWeir(1987) ont tent´e de surmonter cette difficult´e en

ajou-tant un niveau hi´erarchique suppl´ementaire `a leur analyse (Cockerham et

Weir 1987, 1993). R´ecemment, Rousset (2001b) a montr´e que la d´

ecom-position de la variance totale dans le mod`ele lin´eaire consid´er´e par

Cocke-rham(1969, 1973) n’´etait pas une somme de variances classique, si bien que

les « composantes de la variance » d´evelopp´ees dans Cockerham (1969,

1973),Weir etCockerham(1984) etCockerham etWeir(1987, 1993)

sont en r´ealit´e des fonctions de covariances des fr´equences g´en´etiques (voir

´egalement Excoffier 2001). Cette confusion a pour origine l’hypoth`ese

faite a priori par Cockerham (1969, 1973) que les effets al´eatoires

intra-individuels, inter-individuels au sein des sous-populations et inter-individuels

entre sous-populations distinctes ne sont pas corr´el´es entre sous-populations,

entre individus au sein des sous-populations ou entre g`enes au sein des

indi-vidus.

Le point important de ces d´eveloppements est qu’une d´ecomposition de la

variance totale du mod`ele lin´eaire consid´er´e par Cockerham (1969, 1973)

conduit naturellement `a l’expression des F-statistiques en termes de

proba-bilit´es d’identit´es par ´etat, c’est-`a-dire dans les termes de l’´equation (2.12)

13

Long (1986) a propos´e un d´eveloppement multivari´e de ce mod`ele pour le cas

(Ronfort et al.1998; Rousset 2001b).

Estimation

´

Ecrire les F-statistiques en termes de probabilit´es d’identit´e par ´etat,

c’est-`a-dire dans les termes de l’´equation (2.12) permet ´egalement de proposer

une statistique de la forme

b

F

IJ

= (Qb

I

−Qb

J

)/(1−Qb

J

) (2.13)

pour estimer le param`etre F

IJ

.Rousset(2001b) montre que les estimateurs

de la forme (2.13) sont exactement identiques `a ceux de Weir et

Cocke-rham (1984) (voir ´egalement Weir 1996).

La construction d’intervalles de confiance `a partir des estimateurs de

mo-ment des F-statistiques se fait le plus souvent grˆace `a des techniques de

r´e-´echantillonnage.Weir (1996) recommande l’utilisation dubootstrap

14

sur

les locus. L’hypoth`ese sous-jacente est que chaque locus apporte une

infor-mation ind´ependante de tous les autres ce qui, en toute rigueur, implique

l’absence de liaison g´en´etique et un r´egime de reproduction panmictique.

Au cours de ce travail (voir, par exemple, les annexes G et H), j’ai plus

particuli`erement utilis´e la m´ethode analytique ABC

15

deDiCiccioetEfron

(1996). Cette m´ethode est une approximation analytique d’un algorithme

16

qui permet de calculer un intervalle de confiance `a partir d’une distribution

bootstrap. L’avantage de la technique ABC est que l’on calcule

analytique-ment, par une approximation, les bornes de l’intervalle de confiance. Par

cons´equent, aucun r´e-´echantillonnage n’est n´ecessaire, ce qui permet de r´

e-duire de fa¸con importante le temps de calcul.

14La technique du bootstrap consiste `a r´ealiser beaucoup de nouveaux ´echantillons `a

partir du jeu de donn´ees de d´epart, en r´ealisant, pour chaque nouvel ´echantillon, un tirage

avec remise dans le jeu de donn´ees initial.

15Terme traduit de l’anglais,approximate bootstrap confidence interval.

Valeurs `a l’´equilibre

On peut calculer les valeurs `a l’´equilibre des F-statistiques d´efinies en

(2.11) dans le mod`ele en ˆıles fini (§ 2.1.2). A partir des solutions du syst`eme

d’´equations (2.6), on obtient

FIS = σaγ

2−σaγ (2.14)

et

F

ST

= γd

γd+N(2−σaγ)(1−γd) (2.15)

o`u σ=s−1/N,d =a−b et, comme pr´ec´edemment,γ = (1−µ)

2

. (voir, par

exemple, Rousset 1996). Il faut bien garder `a l’esprit que le mod`ele d´ecrit

dans le § 2.1.2 donne les probabilit´es d’identit´e par descendance (mod`ele `a

nombre infini d’all`eles). Toutefois, les valeurs `a l’´equilibre desF-statistiques

ne d´ependent pas du mod`ele de mutation, tant que les taux de mutation sont

faibles (Rousset1996). Pour des taux de mutation faibles, l’´equation (2.15)

se r´eduit `a

F

ST

1

1 + 4N m[n/(n−1)]

2

(2.16)

(Crow etAoki 1984; Slatkin 1991).

Les F-statistiques ont fait et font encore l’objet d’une litt´erature tr`es

abondante. Il existe deux raisons `a cela. La premi`ere est que certains

pa-ram`etres « d´emographiques» des populations (comme par exemple leur

taille, le nombre d’immigrants moyen par g´en´eration) peuvent ˆetre

expri-m´es en fonction de F

ST

(voir, par exemple, Slatkin 1987; Waples 1989).

D’apr`es l’´equation (2.16) en effet, et si l’on consid`ere que le nombre de

sous-populations est grand, on peut ´ecrireN m= (1/F

ST

−1)/4. L’estimation du

« nombre efficace d’immigrants par g´en´eration»N ma ´et´e largement utilis´ee

pour d´ecrire la structure des populations naturelles, bien que les conditions

d’application de cette formule (li´ees aux hypoth`eses peu r´ealistes du mod`ele

`

Mc-Cauley1999). La seconde raison est que lesF-statistiques apparaissent ´

ega-lement dans des mod`eles d’adaptation des populations structur´ees, comme

la th´eorie des paysages adaptatifs

17

de Wright (1931, 1977) (voir aussi

Hartl et Clark 1989, p. 323-326). Enfin, les F-statistiques apparaissent

dans les mod`eles de s´election de parent`ele en populations subdivis´es (voir,

par exemple, Gandonet Rousset 1999; Rousset etBilliard 2000).

F-statistiques et temps de coalescence

D’apr`es la d´efinition des probabilit´es d’identit´e donn´ee par l’´equation (2.7)

et la d´efinition des F-statistiques (´equation 2.11) on peut exprimer les F

IJ

en fonction des temps moyens de coalescence pour diff´erentes paires de g`enes

lim

µ→0

F

IJ

= TJ −TI

T

J

(2.17)

(Slatkin1991;SlatkinetVoelm1991) o`uT

I

=P

t=1

t·C

I

(t) est le temps

moyen de coalescence de paires de g`enes dans la classe I

18

. On peut donc

comprendre les propri´et´es desF-statistiques `a travers l’´etude des probabilit´es

de coalescence de paires de g`enes ´echantillonn´ees dans diff´erentes classes. On

se souvient que la figure 2.2 montrait que la distribution des probabilit´es de

coalescence dans une classe de g`enes [par exemple C

1

(t)] ´etait proportionnelle

`

a la distribution des probabilit´es de coalescence dans une classe de g`enes

moins apparent´es [par exempleC

2

(t)] pour des temps anciens. En revanche,

dans la p´eriode des temps tr`es r´ecents les deux distributions n’´etaient pas

proportionnelles l’une `a l’autre. Cela signifie que la surface couverte par la

distribution C

0

(t) peut ˆetre d´ecompos´ee en la somme de la surface couverte

par la distribution C

1

(t) et d’une surface initiale (repr´esent´ee par la r´egion

gris-clair dans la figure 2.3). Cette surface initiale repr´esente une« masse de

probabilit´e», queRousset(1996, 2001b) a montr´e ˆetre ´equivalente `aF

IS

. De

17Cette th´eorie est connue an anglais sous le nom deshifting balance theory.

18On note que l’´equation (2.7) implique queQI = 1−2µTI+O(µ2). Par cons´equent,

lim µ→0 QI−QJ 1−QJ = limµ→0 1−2µTI −(1−2µTJ) 1−(1−2µTJ) = TJ−TI TJ

Générations

Probabilités de coalescence

1

C (t)

0

C (t)

2

C (t)

10 10

2

10

3

10

4

10

5

10

6

10

-8

10

-6

10

-4

10

-2

10 10

2

10

3

10

4

10

5

10

6

10

-8

10

-6

10

-4

10

-2

Figure 2.3: F-statistiques et distribution des probabilit´es de

coales-cence. Les surfaces gris´ees repr´esentent les « masses de probabilit´es

initiales» d´efinies dans le texte. La surface gris-claire repr´esente une

masse de probabilit´e dont la valeur est F

IS

. De la mˆeme mani`ere, la

surface gris-fonc´e repr´esente une masse de probabilit´e dont la valeur

estF

ST

. Voir la l´egende de la figure 2.2 Rousset (d’apr`es 1996)

.

la mˆeme mani`ere,F

ST

est ´equivalent `a la masse de probabilit´e repr´esent´ee par

la r´egion gris-fonc´e entre les distributionsC

1

(t) et C

2

(t) (figure 2.3). D’apr`es

cette figure, on voit bien que F

IS

ne d´epend que des ´ev´enements r´ecents de

coalescence (de l’ordre de dix g´en´erations, pour les valeurs des param`etres

de la figure 2.3). Ce param`etre est donc tr`es peu influenc´e par la mutation

(Rousset 1996). F

ST

, quant `a lui, d´epend des diff´erences des probabilit´es

de coalescence C

1

(t) et C

2

(t) sur une p´eriode de temps plus longue, et donc

pour des temps plus anciens. Ce param`etre sera donc d’autant plus sensible

`

a la mutation, que cette p´eriode de temps sera longue (c’est-`a-dire pour de

faibles taux de migration dans un mod`ele en ˆıles, par exemple) (Rousset

2001b).

J’ai pr´esent´e ici un ensemble de d´efinitions, d’hypoth`eses et de r´esultats

qui ont servi de base `a mon travail (voir les annexes E, F, G, H, I, J).

Pour-tant, si ces travaux ont pour point de d´epart les r´esultats pr´esent´es pr´ec´

e-demment, je me suis exerc´e `a ´etendre ces mod`eles classiques `a des situations

plus complexes en ajoutant tout d’abord `a la structure spatiale un niveau

de structuration des individus en classes (sexe, ˆage), en analysant ensuite la

structure g´en´etique des populations `a plus d’un locus.