D´ efinitions

2.2 Structure en classes d’individus

2.3.1 D´ efinitions

Lorsque les croisements se font localement au hasard, dans un mod`ele `a

nombre d’ˆıles infini, seules trois probabilités d’identité sont nécessaires pour

décrire l’ensemble des équations de transition des probabilités d’identité à

deux locus (_Whitlocket al.1993). Dans la suite de ce chapitre, j’utiliserai le

termehaplotype pour décrire un ensemble de deux gènes échantillonnés dans

un seul individu `a deux locus distincts, qui provient d’un mˆeme et unique

gamète à la génération précédente. On notera que les deux locus ne sont pas

nécessairement localisés sur le même chromosome. φ

_RM

est d´efini comme la

probabilit´e que deux haplotypes tir´es au hasard dans une population soient

identiques aux deux locus

²³

. γ

_RM

est la probabilit´e que, lorsque l’on tire

trois haplotypes au hasard, deux soient identiques au premier locus, tandis

que le troisi`eme haplotype est identique `a l’un des deux autres haplotypes

au second locus. δRM est la probabilit´e que, parmi quatre haplotypes, deux

soient identiques au premier locus, tandis que les deux autres sont identiques

au second locus. Ces différentes probabilités d’identité sont schématiquement

23L’indiceRM vaut pourRandom Mating qui signifie que les croisements se font

repr´esent´ees sur la figure 2.11.

En quoi ces trois probabilités d’identité sont-elles nécessaires pour d´

e-crire l’ensemble des relations d’identité de deux paires de gènes à deux

lo-cus distincts ? Prenons, par exemple, la probabilit´eφRM. Avec la probabilit´e

(1− m)

(1− 1/N) une paire d’haplotypes ´echantillonn´ee dans une

sous-population est issue de parents distincts à la génération précédente. Mais ces

deux haplotypes peuvent ˆetre tous les deux de type recombinant

ou bien

tous les deux de type parental

, ou bien encore l’un peut ˆetre de type

recom-binant et l’autre de type parental. Ceci implique que le nombre d’haplotypes

`

a considérer à la génération précédente est de 4, 2 ou 3, respectivement.

Par conséquent, ces haplotypes sont identiques avec une probabilité égale à

[(1−r)

φ

_RM

+ 2r(1−r)γ

_RM

+r

δ

_RM

]. Avec la probabilit´e (1−m)

/N une

paire d’haplotypes ´echantillonn´ee dans une sous-population est issue d’un

unique parent à la génération précédente. Ces deux haplotypes sont tous les

deux de type recombinant ou tous les deux de type parental en proportion

[(1−r)

+r

]. Dans les deux cas, les haplotypes échantillonnés (c’est-à-dire

les gam`etes produits par le parent) peuvent ˆetre deux copies d’un seul

haplo-type ou bien d’haplohaplo-types distincts et sont donc identiques avec la probabilit´e

(φ

_RM

+1)/2. Avec la probabilit´e [2r(1−r)], en revanche, l’un des deux

haplo-types ´echantillonn´es est de type recombinant et l’autre est de type parental.

Ils sont donc n´ecessairement des copies distinctes des haplotypes parentaux

et ne peuvent être identiques qu’à un locus, avec la probabilitéQRM. Le

rai-sonnement peut être poursuivi pour écrire les équations de récurrence pour

les probabilit´es γ

_RM

etδ

_RM

.

Autof´econdation partielle

Lorsque les croisements ne se font pas au hasard, par exemple chez des

espèces dio¨ıques ou bien des espèces qui s’autofécondent, ces trois probabilités

d’identité ne suffisent pas à décrire complètement l’ensemble des relations

24On dit d’un haplotype qu’il est de typerecombinant s’il est le produit de la

recombi-naison des deux haplotypes du parent dont il est issu.

25On dit d’un haplotype qu’il est de type parental s’il est la copie de l’un des deux

δ δ3 δ4 δ0 δ00

φ φ

₀

γ γ

₃

γ

₀

Figure 2.12:Définition des probabilités d’identité à deux locus pour

un r´egime de reproduction mixte. Les lignes verticales repr´esentent

les haplotypes échantillonnés, où les locus sont figurés par un cercle

noir. Les individus sont repr´esent´es par un rectangle. Le symbole ≡

définit l’identité entre paires de gènes homologues.

d’identité entre paires de gènes à deux locus. En d’autres termes, cela signifie

que chacune de ces probabilités d’identité prend une valeur différente, selon

qu’elle est ´evalu´ee parmi des paires, des triplets ou bien des quadruplets

d’individus (_Weir et al. 1980; _Weir et _Cockerham 1969; _Weir et _Hill

1980b). Les dix probabilités d’identité à deux locus qui sont nécessaires et

suffisantes pour d´ecrire l’ensemble des relations d’identit´e entre paires de

gènes à deux locus sont représentées schématiquement dans la figure 2.12.

Je n’en d´etaillerai ici qu’une partie. φ, γ etδ correspondent exactement aux

probabilit´esφ

_RM

,γ

_RM

etδ

_RM

d´efinies plus haut, lorsque les haplotypes sont

´echantillonn´es dans des paires d’individus. δ

₄

est la probabilit´e que, parmi

quatre haplotypes ´echantillonn´es dans quatre individus distincts, deux soient

identiques au premier locus, tandis que les deux autres soient identiques au

second locus.

Il n’est pas possible en pratique, à partir des seules données génotypiques,

d’estimer chacune de ces probabilit´es d’identit´e. La raison en est que l’on ne

distingue en général pas les cas où les gènes à deux locus sont en phase, ou

bien enrépulsion. On dit en général de deux gènes pris à deux locus distincts

dans un mˆeme individu qu’ils sont en phase si les deux locus sont

position-nés sur le même chromosome. On étendra ici cette définition au cas où deux

gènes, échantillonnés dans un individu à deux locus distincts, appartiennent

`

a un unique haplotype (c’est-à-dire sont hérités d’un seul parent). De même

on dira ici que deux gènes, échantillonnés dans un individu à deux locus

distincts, sont en r´epulsion s’ils proviennent de gam`etes parentaux distincts.

Par exemple, lorsque deux individus portent des all`eles identiques `a deux

locus distincts, il n’est en général pas possible de déterminer si les allèles

d’un mˆeme individu proviennent d’un seul gam`ete parental ou de deux. En

d’autres termes, il n’est pas possible de d´eterminer si les probabilit´es

d’iden-tité sont de type φ, γ ouδ. Par conséquent, nous avons défini la probabilité

d’identité composite Φ comme étant la probabilité qu’à deux locus, les gènes

´echantillonn´es dans deux individus distincts soient identiques. Deux paires

de gènes échantillonnées à deux locus distincts peuvent être portées par 2,

3 ou 4 haplotypes. Ces trois cas correspondent aux probabilit´es d’identit´e

φ, γ ou δ (voir la figure 2.12). Lorsque l’on ´echantillonne toutes les paires

possibles de g`enes `a deux locus distincts, ces trois « configurations»sont en

proportion 1/4, 1/2 et 1/4, respectivement. Par cons´equent,

Φ = ^φ^{+ 2}^γ⁺^δ

4 ^(2.30)

Le déséquilibre d’identité

Ohta (1980) a défini une mesure d’association génétique à plusieurs

sites dans des séquences de protéines. Cette mesure est définie comme

l’ex-cès d’identité conjointe à deux sites, par rapport à l’attendu sous

l’hypo-thèse d’indépendance des probabilités d’identité à deux sites. Cette quantité

est équivalente à la covariance des probabilités de non-identité à deux

lo-cus (_Avery et _Hill 1979; _Hedrick 1987). Nous avons d´efini une mesure

analogue, que l’on nommera « déséquilibre d’identité», noté η

, comme la

différence entre la probabilité conjointe d’identité à deux locus (entre deux

in-dividus de la même sous-population) et le produit des probabilités d’identité

`

a chacun de ces locus soit, pour deux locus i etj

(voir l’annexe E). Cette quantité, qui peut être définie comme la covariance

des probabilités d’identité entre locus, est une fonction simple des probabilités

d’identité à deux locus. Il s’agit donc bien d’un paramètre, lui même

fonc-tion de certains paramètres du modèle de populations subdivisées (nombre

d’individus, taux de migration) mais ´egalement du mod`ele de mutation. Une

définition alternative du déséquilibre d’identité nous est donnée par

η

_S,ij⁰

= ^Φ

^ij

−δ

4ij

(1−Q

₂_i

)(1−Q

₂_j

) ^(2.32)

(voir, par exemple, _Hedrick 1987; _Ohta 1980; _Takahata 1982). Nous

verrons par la suite l’intérêt d’une telle définition.

Relation au d´es´equilibre de liaison

Si l’on noteP

_v^u

la fréquence des gamètes qui portent l’allèle uau premier

locus et l’all`elev au second locus, ainsi queP

etP

les fr´equences des all`eles

u et v au premier et au second locus, respectivement, alors le d´es´equilibre

de liaison est d´efini par D

=P

−P

·P

. Ainsi, le d´es´equilibre de liaison

entre deux locus est défini comme l’excès des gamètes portant les allèles u

et v par rapport `a ce que l’on attend sous l’hypoth`ese que l’association des

all`eles aux diff´erents locus se fait au hasard.

Le déséquilibre de liaison E(D) entre des locus neutres tend vers zéro

dans des populations de taille infinie (_Bennett 1954) ou bien de taille

fi-nie (_Hill et _Robertson 1966), quel que soit le nombre de locus consid´er´e

(_Hill1974a) et le r´egime de reproduction (_Bennettet_Binet1956; _Weir

et _Cockerham 1973). Dans les populations subdivisées, le déséquilibre de

liaison ne peut exister que de fa¸con transitoire (_Nei 1973; _Slatkin 1975)

et finit par disparaˆıtre (_Nei 1973;_Ohta 1982a,b). En revanche, bien que le

déséquilibre de liaison converge vers la valeur zéro dans tout modèle neutre

la variance du déséquilibre de liaison entre les lignées qui ségrègent peut être

tr`es grande, en particulier dans les populations de petite taille (_Hill 1974b;

Hill et _Robertson 1968; _Ohta et _Kimura 1969; _Sved 1968; _Weir et

ecom-0.01 0.1 1 10 100

0

0.01

0.02

0.03

0.04

0.05 Nr

Déséquilibre d'identité

η (2 allèles)

η (5 allèles)

η (10 allèles)

η' (KAM et IAM)

et η (IAM)

Figure 2.13: Déséquilibre d’identité attendu sous différents modèle

de mutation. Les croisements se font au hasard dans chaque

sous-population (s = 1/N). Noter l’´echelle logarithmique en abscisses.

µ= 10

⁻⁶

, N = 200 et N m = 1. L’intensit´e de la recombinaison est

donn´ee par la valeur du produit N r.

pos´ee pour tenir compte de la structure d’une population subdivis´ee (_Ohta

1982a,b). Ces diff´erentes composantes peuvent s’exprimer en fonction des

probabilités d’identité à deux locus simultanément (_Tachida et

Cocke-rham1986), telles que celles définies dans la figure 2.12. Ainsi, le déséquilibre

d’identité défini par les équations (2.31) ou (2.32) est une mesure analogue à

la variance du d´es´equilibre de liaisonE(D

).

Dans le document Génétique des populations subdivisées : théorie et applications (Page 71-76)

2.2 Structure en classes d’individus

2.3.1 D´ efinitions

Lorsque les croisements se font localement au hasard, dans un mod`ele `a

nombre d’ˆıles infini, seules trois probabilités d’identité sont nécessaires pour

décrire l’ensemble des équations de transition des probabilités d’identité à

deux locus (Whitlocket al.1993). Dans la suite de ce chapitre, j’utiliserai le

termehaplotype pour décrire un ensemble de deux gènes échantillonnés dans

un seul individu `a deux locus distincts, qui provient d’un mˆeme et unique

gamète à la génération précédente. On notera que les deux locus ne sont pas

nécessairement localisés sur le même chromosome. φ

est d´efini comme la

probabilit´e que deux haplotypes tir´es au hasard dans une population soient

identiques aux deux locus

. γ

est la probabilit´e que, lorsque l’on tire

trois haplotypes au hasard, deux soient identiques au premier locus, tandis

que le troisi`eme haplotype est identique `a l’un des deux autres haplotypes

au second locus. δRM est la probabilit´e que, parmi quatre haplotypes, deux

soient identiques au premier locus, tandis que les deux autres sont identiques

au second locus. Ces différentes probabilités d’identité sont schématiquement

repr´esent´ees sur la figure 2.11.

En quoi ces trois probabilités d’identité sont-elles nécessaires pour d´

e-crire l’ensemble des relations d’identité de deux paires de gènes à deux

lo-cus distincts ? Prenons, par exemple, la probabilit´eφRM. Avec la probabilit´e

(1− m)

(1− 1/N) une paire d’haplotypes ´echantillonn´ee dans une

sous-population est issue de parents distincts à la génération précédente. Mais ces

deux haplotypes peuvent ˆetre tous les deux de type recombinant

ou bien

tous les deux de type parental

, ou bien encore l’un peut ˆetre de type

recom-binant et l’autre de type parental. Ceci implique que le nombre d’haplotypes

`

a considérer à la génération précédente est de 4, 2 ou 3, respectivement.

Par conséquent, ces haplotypes sont identiques avec une probabilité égale à

[(1−r)

φ

+ 2r(1−r)γ

+r

δ

]. Avec la probabilit´e (1−m)

/N une

paire d’haplotypes ´echantillonn´ee dans une sous-population est issue d’un

unique parent à la génération précédente. Ces deux haplotypes sont tous les

deux de type recombinant ou tous les deux de type parental en proportion

[(1−r)

+r

]. Dans les deux cas, les haplotypes échantillonnés (c’est-à-dire

les gam`etes produits par le parent) peuvent ˆetre deux copies d’un seul

haplo-type ou bien d’haplohaplo-types distincts et sont donc identiques avec la probabilit´e

(φ

+1)/2. Avec la probabilit´e [2r(1−r)], en revanche, l’un des deux

haplo-types ´echantillonn´es est de type recombinant et l’autre est de type parental.

Ils sont donc n´ecessairement des copies distinctes des haplotypes parentaux

et ne peuvent être identiques qu’à un locus, avec la probabilitéQRM. Le

rai-sonnement peut être poursuivi pour écrire les équations de récurrence pour

les probabilit´es γ

etδ

.

Autof´econdation partielle

Lorsque les croisements ne se font pas au hasard, par exemple chez des

espèces dio¨ıques ou bien des espèces qui s’autofécondent, ces trois probabilités

d’identité ne suffisent pas à décrire complètement l’ensemble des relations

δ δ3 δ4 δ0 δ00

φ φ

γ γ

γ

Figure 2.12:Définition des probabilités d’identité à deux locus pour

un r´egime de reproduction mixte. Les lignes verticales repr´esentent

les haplotypes échantillonnés, où les locus sont figurés par un cercle

noir. Les individus sont repr´esent´es par un rectangle. Le symbole ≡

définit l’identité entre paires de gènes homologues.

d’identité entre paires de gènes à deux locus. En d’autres termes, cela signifie

que chacune de ces probabilités d’identité prend une valeur différente, selon

qu’elle est ´evalu´ee parmi des paires, des triplets ou bien des quadruplets

d’individus (Weir et al. 1980; Weir et Cockerham 1969; Weir et Hill

1980b). Les dix probabilités d’identité à deux locus qui sont nécessaires et

suffisantes pour d´ecrire l’ensemble des relations d’identit´e entre paires de

gènes à deux locus sont représentées schématiquement dans la figure 2.12.

deux locus (_Whitlocket al.1993). Dans la suite de ce chapitre, j’utiliserai le

d’individus (_Weir et al. 1980; _Weir et _Cockerham 1969; _Weir et _Hill

Φ = ^φ^{+ 2}^γ⁺^δ

4 ^(2.30)

lo-cus (_Avery et _Hill 1979; _Hedrick 1987). Nous avons d´efini une mesure

= ^Φ

) ^(2.32)

(voir, par exemple, _Hedrick 1987; _Ohta 1980; _Takahata 1982). Nous