• Aucun résultat trouvé

tilocus ?

Dans cette section, je pr´esente deux structures probabilistes qui permettent de d´ecrire l’occurrence des g´enotypes de chaque individu `a l’int´erieur d’une population. Par r´ef´erence

Figure 3.6 – Description de l’algorithme de Gibbs permettant de simuler une configuration de classes selon le mod`ele de Potts

`a une d´emarche de mod´elisation hi´erarchique, cela correspond `a la formalisation du mod`ele

des observations Y|Z, θ dans le cas o`u Z = c et θ = (f, K).

La variabilit´e g´en´etique est un ph´enom`ene complexe car elle est li´ee `a l’interaction de nombreux facteurs biologiques (mutations de g`enes, migrations d’individus....) et al´eatoires (d´erive g´en´etique...). Ainsi, la mod´elisation des propri´et´es g´en´etiques d’une population pousse g´en´eralement le biologiste `a recourir `a des hypoth`eses simples.

Une premi`ere hypoth`ese, commune aux deux structures probabilistes ci-apr`es, est de consid´erer que, dans une population, il n’y a pas de d´es´equilibres de liaison entre loci. Un d´es´equilibre de liaison se produit lorsque deux all`eles correspondant `a deux locus distincts d’un mˆeme chromosome sont plus fr´equemment associ´es sur une mˆeme branche que ne le voudrait le hasard. D’un point de vue statistique, supposer qu’il n’y a pas de d´es´equilibre de liaison entre loci revient simplement `a supposer l’ind´ependance des g´enotypes en chaque locus de chaque individu :

[yi|ci = k, fk,.,.] = L

Y

l=1

[yi,l|ci = k, fk,l,.] ∀i ∈ {1, ..., n} (3.3.3)

Cette hypoth`ese est raisonnable d`es lors que les loci consid´er´es sont physiquement ´eloign´es sur les chromosomes. Les ours bruns de Scandinavie et les individus du jeu de donn´ees humains HGDP-CEPH ont ´et´e g´enotyp´es au niveau de microsatellites (cf section 1.1.1). Ces marqueurs g´en´etiques ont la propri´et´e d’ˆetre dispers´es sur tout le g´enome. Dans ce cas, il est donc raisonnable de supposer l’absence de d´es´equilibres de liaison entre loci.

pattern spatial Hypoth`ese biologique Hypoth`ese statistique Mod`ele [Z|θ] θ Z

al´eatoire r´epartition al´eatoire uniformit´e loi uniforme K c

et ind´ependante ind´ependance sur [[1,K]]

des individus

barri`eres populations isol´ees chaque population tessellation K m

g´en´etiques par des barri`eres occupe un territoire de Vorono¨ı λ c

aux flux ´ecologiques/humaines issu de l’union color´ee u

de g`enes de polygones

(fronti`eres rectilignes)

clines variation g´eographique d´ependances spatiales champ al´eatoire K, ψ c

continue des fr´equences locales entre markovien :

all´eliques individus Potts-Dirichlet

Tableau 3.1 –A chaque hypoth`ese biologique son mod`ele statistique

3.3.1

Le mod`ele classique : la loi de Hardy-Weinberg

Pour simplifier la mod´elisation de la variabilit´e g´en´etique `a l’int´erieur d’une population, les biologistes font g´en´eralement les hypoth`eses de r´ef´erence suivantes :

1. la population est panmictique c’est-`a-dire que les couples se forment al´eatoirement (panmixie) et ind´ependamment des g´enotypes et des liens de parent´e.

2. La population est ”infinie” afin de minimiser les variations d’´echantillonnage 3. il n’y a ni migration, ni s´election, ni mutation (pas de perte/gain d’all`ele)

4. Les g´en´erations successives sont discr`etes (pas de croisement entre g´en´erations diff´erentes) Sous de telles hypoth`eses, une population est dite `a l’´equilibre de Hardy-Weinberg (encore appel´e ´equilibre panmictique). La diversit´e g´en´etique de la population se maintient et doit tendre vers un ´equilibre stable de la distribution g´enotypique (Stern, 1943).

L’´equilibre de Hardy-Weinberg suppose que les deux all`eles observ´es en un locus soient statistiquement ind´ependants. Etant donn´e un individu de la population k et les fr´equences all´eliques au locus l fk,l,., la probabilit´e d’observer le g´enotype yil = (αil, βil) est donn´ee par

la loi multinˆomiale (ou loi de Hardy-Weinberg en g´en´etique des populations) de param`etres fk,l,. : [yil|ci = k, fk,l,.] = ( fk,l,α2 l i si α l i = βil 2fk,l,αl ifk,l,βli sinon (3.3.4)

3.3.2

Un mod`ele bivari´e pour tenir compte des d´ependances

all´eliques en situation de consanguinit´e

Dans les populations naturelles, divers ´ecarts `a l’´equilibre de Hardy-Weinberg peuvent subvenir. Des ´ecarts `a la panmixie (hypoth`ese 1) apparaissent dans les populations dans lesquelles les unions entre apparent´es sont pratiqu´ees ou pour lesquelles le mode naturel de reproduction impose ce type d’union (ex : autof´econdation). Ces ´ecarts apparaissent aussi dans les populations dont les effectifs de reproducteurs sont limit´es (i.e., popula- tions subdivis´ees). C’est pourquoi nous proposons un mod`ele alternatif d’occurrence des g´enotypes qui tienne compte de l’existence possible d’unions consanguines dans chaque population.

Une union est dite consanguine lorsqu’elle concerne deux individus partageant des liens de parent´e. A titre d’exemple, l’arbre g´en´ealogique de la figure 3.7 montre que Zo´e est le fruit de l’union consanguine d’Ir`ene et Jules qui partagent pour ancˆetre commun Am´ed´ee.

Figure 3.7 – Un exemple d’union consanguine : Ir`ene et Jules ont pour ancˆetre commun Am´ed´ee La consanguinit´e a pour cons´equence d’augmenter la fr´equence des g´enotypes homozy- gotes et de diminuer celle des h´et´erozygotes. Un g´enotype est dit homozygote lorsqu’il est compos´e de deux all`eles identiques. Un g´enotype est dit h´et´ezygote lorsqu’il est compos´e de deux all`eles diff´erentes. Ainsi, mod´eliser un tel ph´enom`ene suppose de sp´ecifier une structure de covariation positive entre all`eles.

A chaque population k (k=1,2,..,K) est associ´e un coefficient de consanguinit´e φk qui

repr´esente la probabilit´e pour que deux g`enes soient identiques par descendance c’est-`a- dire copi´es d’un mˆeme g`ene ancestral. φk est donc `a valeurs dans [0, 1]. Etant donn´e un

individu de la population k, les fr´equences all´eliques fk,l,. au locus l et le coefficient de

consanguinit´e φk, la probabilit´e d’observer le g´enotype yil = (αli, βil) est :

[yil|ci = k, φk, fk,l,.] = ( fk,l,α2 l i + φkfk,l,α l i(1− fk,l,αli) si α l i = βil 2fk,l,αl ifk,l,βil(1− φk) sinon (3.3.5) Avec ce mod`ele d’occurrence, la fr´equences des homozygotes est sup´erieure et la fr´equences des h´et´erozygotes est inf´erieure `a ce que suppose la loi de Hardy-Weinberg (cf equation 3.3.4).

Si φk = 0, on retrouve le mod`ele d’occurrence des g´enotypes donn´e par la loi de

Hardy-Weinberg.

Si φk= 1 alors il n’y a que des g´enotypes homozygotes :

[yli|ci = k, φk, fk,l,.] = 0 si αli 6= βil