R EVUE DE STATISTIQUE APPLIQUÉE
M ARIE -H ÉLÈNE C AZES
Simulation de l’évolution génétique d’une population humaine
Revue de statistique appliquée, tome 26, n
o3 (1978), p. 71-85
<http://www.numdam.org/item?id=RSA_1978__26_3_71_0>
© Société française de statistique, 1978, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
71
SIMULATION DE L’ÉVOLUTION GÉNÉTIQUE
D’UNE POPULATION HUMAINE
Marie-Hélène
CAZESInstitut National d’Etudes
Démographiques,
ParisRESUME
L"’effectif
génétique"
d’une population est leparamètre
qui caractérise la fraction active de cette population en ce qui concerne sa reproduction ; il est lié à la vitesse d’évolution du taux deconsanguinité
de la population, et se trouve très difficilement mesurable sur une popu- lation naturelle. Sa connaissance demeure cependant nécessaire à toute étudegénétique.
Cette étude cherche à mesurer, par une simulation de l’évolution d’une population humaine de faible effectif, isolée sur elle-même, la valeur de son effectif
génétique
Ne.Les résultats fournissent une estimation de Ne, en moyenne
égale
au tiers de l’effectif recensé, cependant la variance de cet effectif est très importante, ce qui amène à rester très prudent pour toute estimation;INTRODUCTION
Dans toute étude de
populations - qu’elles
soienthumaines,
animales ouvégétales -
l’un despremiers impératifs
est de définir cettepopulation
et notam-ment d’en connaître l’effectif. Ce
paramètre démographique
bien connu, leplus
commun
peut-être,
est lepremier
que l’on cherche à mesurer.Pour le Généticien des
Populations qui
s’intéresse non pas auxindividus,
mais aux
gènes
dont ils sontl’expression,
ceparamètre démographique
de la taille de lapopulation
liée à son recensement, se traduit en terme d’effectifgénétique.
Que
faut-il entendre par là ? Unepopulation
est définie par son"patrimoine géné- tique",
c’est-à-dire l’ensemble de sesgènes.
En un locusdonné, chaque
individupossède
2gènes homologues,
l’unprovenant
de sonpère,
l’autre de sa mère. Pour caractérisergénétiquement
unepopulation -
et notre propos s’attachera ici à despopulations
de faibles tailles(effectif
de 1 àquelques
centaines auplus) -
on cherche à mesurer le
rythme auquel
cettepopulation, isolée,
tend vers unehomogénéisation,
c’est-à-dire uneconsanguinité
totale. Si lesmariages
ne se concluentqu’à
l’intérieur de cettepopulation,
et si lesmigrations
sontexclues,
si onnéglige
de
plus
Intervention de mutations ou de processussélectifs,
laprobabilité
pour que les 2gènes
d’un individu soient laréplique
d’un mêmegène
ancêtre(c’est
cequi
définit son coefficient deconsanguinité),
croît avec lesgénérations.
A lalimite,
tous les
gènes
de lapopulation
deviendraientidentiques.
La vitesse d’évolutionRevue de Statistique Appliquée, 1978, vol. XXVI, n° 3
Mots-clés: Simulation
Génétique, Consanguinité, Modèle,
"EffectifGénétique",
de ce taux de
consanguinité
de lapopulation
est caractérisée par son "effectifgénétique".
Celui-cireprésente
la fractiongénétiquement
active de lapopulation,
c’est-à-dire l’ensemble des
couples procréateurs participant
au renouvellement de l’effectif.Dans la
plupart
des modèlesthéoriques qui
tententd’expliquer
le processus de la transmissiongénétique
au cours desgénérations,
l’effectifgénétique
inter-vient ; son évaluation est nécessaire pour
pouvoir
avancer dansl’analyse.
Sur desétudes concrètes de
population,
on nepeut
vérifier lajustesse
de ces modèlesqu’en
introduisant dans les calculs la valeur de ce
paramètre.
Devant ceproblème prati-
que, le
généticien
demeure sansréponse :
comment mesurer sur unepopulation
naturelle l’effectif
génétique,
sachant que ce dernier est fonction d’un nombre considérable deparamètres démographiques
ougénétiques ?
Toute
approche théorique
nécessite la construction d’un modèle où bon nombre de conditions oud’hypothèses
sontposées
afin que le modèle soitopé-
ratoire. Mais ces situations "idéales"
simplifient
à l’extrême lephénomène
réelqui
est en cause, celui de l’évolutiondémographique
d’unepopulation
au coursdes
âges,
et restent trèséloignées
de la réalité.La
présente
étude tente derépondre
à ceproblème
en utilisant la ressourcede l’ordinateur.
L’évolution
génétique
d’unepopulation,
c’est-à-dire l’évolution de la fré- quence des différentsgènes
au cours desgénérations peut
être considérée comme un processusstochastique.
C’est ce processus que nous avons simulé sur ordinateur.En suivant alors l’accroissement du taux de
consanguinité
àchaque génération,
il estpossible
d’en déduire la valeur de l’effectifgénétique correspondant.
1 - Le modèle de la simulation
1-1. Le modèle
adopté
est conçu pour unepopulation
humaine : on se donne audépart
unepopulation
divisée en 2sous-populations
masculine etféminine,
carac-térisées par une
pyramide d’âge proche
de la structured’équilibre (les
effectifsde chacune des 20 tranches
d’âge
sontproportionnels
aux taux de survie définispour chacune des tranches
d’âge).
Chaque
individu est caractérisé par son numérod’identification,
son sexe,son
âge,
son étatmatrimonial,
et sa structuregénétique
matérialisée par les deuxgènes qui
lui sont affectés. Dans lagénération initiale,
tous lesgènes
sont consi-dérés comme
distincts,
tous les individus sontsupposés hétérozygotes (leurs
2gènes portent
des numérosdifférents).
Les
paramètres démographiques
nécessaires : taux denatalité,
defécondité,
de
mortalité, probabilités
demariage
en fonction del’âge
et du sexe sontégale-
ment introduits en données.
Le
principe
itératif est le suivant : àchaque cycle
recouvrant une tranched’âge
de 5 ans, ons’interroge
sur lesnaissances,
lesmariages
et les mortsqui
inter-viennent. A la fin du
cycle,
lapyramide d’âge
estactualisée,
diminuée de l’ensemble des morts,augmentée
de l’ensemble des naissances advenues lors ducycle.
Lenombre d’individus
consanguins, ayant
leurs deuxgènes identiques,
fournit letaux moyen de
consanguinité
de lapopulation.
L’effectifgénétique
est mesurésur la base de ce taux, suivant la formule de Malécot établie à
partir
de la relationde récurrence
qui
relie les taux deconsanguinité
degénérations
successives. Si l’effectif est constant,l’équation
s’écrit :où
a désigne
le coefficient deconsanguinité
de lapopulation
à lagénération
g etNe,
l’effectifgénétique,
à cette mêmegénération.
1.2.
Nuptialité
En ce
qui
concernefécondité-nuptialité,
nous nous sommes basés sur la seulepopulation
féminine pourlaquelle
la vie féconde se limite à lapériode
entre 15 et50 ans.
Chaque
femme ne se mariequ’une fois,
à moins que sonconjoint
ne meureet
qu’elle
se retrouve alorscataloguée
comme célibataire. Dans cetteéventualité,
le taux denuptialité
diminuant avecl’âge
àpartir
de 30 ans, laprobabilité
d’unremariage
reste engénéral
relativement faible.Le choix de son
époux
est effectué en 2étapes,
afin d’éviter lestrop grandes disparités d’âge
dans la constitution descouples :
- on tire au sort
l’âge
de l’homme en fonction de celui de la femme. Si celle- ci est dans la tranched’âge K,
son mari pourra être dans la tranched’âge K-1, K, K+ 1,
K+2 selon une loi deprobabilité
liée à chacune des 4possibilités.
Uneexception :
pour les femmesd’âge K==15-19
ans, le choix d’un marid’âge
K-1est
exclu ;
- dans un second
temps,
le mari est choisiparmi
les célibataires de cette tranched’âge.
1.3. Fécondité
Pour la
natalité,
on a considéré que le nombre d’enfants nés par fratrie suivaitapproximativement
une loi de Poisson.Aussi,
àchaque itération, lorsqu’une
femmed’âge
K estmariée,
on tirele nombre d’enfants
qu’elle
aura au cours des 5 ans à venir suivant une loi de Poisson deparamètre Fx(K),
taux de fécondité affecté à la tranched’âge
K.Les différents taux de fécondité sont
ajustés
de sorte que leur somme, sur lapériode
20
féconde de la vie d’une
femme L. Fx(K)
soitégale
à la moyenne du nombrek 1
d’enfants que l’on souhaite affecter par famille. Cette méthode
s’appuie
sur le faitque la somme de n lois de Poisson de
paramètre XI... ,
y03BBi, ... 03BBn
est elle-mêmeune loi de Poisson de
paramètre (ÀI
+ ...+ 03BBi
... +Àn).
Avec ce
modèle,
si la somme des taux estégale
parexemple
à2, 3,
toutes les femmes mariées dèsl’âge
de 15-19 ans auront un nombre d’enfantsqui
leur aurontété affectés suivant une loi de Poisson de
paramètre
maximal03BB1 + À2
+...+Xn
=2,3.
L’inconvénient du modèleapparaît lorsqu’une
femme se marie tard :plus
son
âge
estavancé, plus
on lui affecte des enfants selon une loi de Poisson dont leparamètre
est inférieur à2,3 (ce qui
est le cas dans untype
depopulation
où lerégime
de fécondité estnaturel).
Ce biaispeut
êtrecompensé
enaugmentant
légèrement
la moyenne du nombre d’enfants par famille.Un second inconvénient du modèle réside dans le fait
qu’il
ne tient pas comp- te de la variabilité des taux de fécondité en fonction del’âge
aumariage.
Laprise
en
compte
de ce facteur nécessiterait un modèleplus sophistiqué qui,
pour l’ob-jectif visé,
neprésente qu’un
intérêt secondaire. Eneffet,
larépartition
des nais-sances au cours de la vie d’une femme
compte
peu ; cequi importe
c’est le nombre d’enfantsqu’elle
aura et lesgènes qu’ils
aurontempruntés
à leursparents.
II - LE PROGRAMME
Le déroulement détaillé de la simulation est le suivant :
2.1. - Les Données
1)
Lecture des taux de survie masculins etféminins,
àl’âge K,
parrapport
au
temps to, notés respectivement shk, sfk. (La
Mortalité en France - J. Vallin - Cahier Inedn° 63)
Calcul des taux de survie masculins et féminins à
l’âge
K sachantqu’on
était vivant à
l’âge
K-1.2)
Lecture des taux de féconditégénérale,
par tranchesd’âge
decinq
ans.(Démographie Statistique -
R. Pressat - p.102, génération 1931),
fec
nombre
de naissancesprovenant
des femmesd’âge
Knombre total de femmes
d’âge
K3)
Lecture des taux denuptialité féminine,
par tranchesd’âge
de 5 ans.(Principes d’Analyse.
Cours de l’LD.UJP. - R.Pressat,
p.27)
PROMA
(K)
:probabilité
de se marier àl’âge K,
sachantqu’on
était céli- bataire àl’âge
K-1.4)
Lecture desPRO(L),
de L = 1 à 4 :somme cumulée de J = K - 1
à J = K - 2 + L,
desprobabilités
pour une femmed’âge
K de se marier avec un homme de la tranched’âge
J.5)
Affectation desâges
à l’ensemble des individus : AGH(I) :
classed’âge
du ième hommeAGF
(I) :
classed’âge
de la ième femme.2.2. - L’Initialisation
1)
Modification des taux de féconditéfec(K),
telle queFx (K)
= PARAMK
où PARAM est le nombre moyen d’enfants par famille.
2)
Détermination des célibataires et descouples
constitués dans lapopulation
initiale.
3)
Affectation desparents
aux enfants de lapopulation
initiale(jusqu’à l’âge
devingt ans), parmi
lescouples précédemment
constitués.Tirage
ausort,
et affectation desgènes
auxenfants,
choisisparmi
les 4gènes parentaux
Entrée dans le
cycle
2.3. -
Nuptialité
Examen individuel sur
chaque
femme :- si elle est
mariée,
on passe autirage
desenfants ;
- si elle est
célibataire,
on tire au sort si elle se marie :2022
lorsqu’elle
ne se marie pas, on considère la femmesuivante ;
w
lorsqu’elle
semarie,
ondésigne son mari par tirage
au sort en deuxtemps :
a) Tirage
de la tranched’âge
àlaquelle
ilappartient
en fonction desprobabilités
cumuléesPRO(L) ;
b) Tirage
au hasard dumari, parmi
les hommes célibataires de cette tranched’âge.
2.4. - Natalité
On tire le nombre d’enfants de la
femme,
suivant la loi de Poisson de para- mètre Fx(K).
Pour
chaque
enfant :tirage
de son sexe(sexe-ratio
=105/205
=probabilité
d’un
garçon), tirage
de sa "survie" en fonction des taux SLVH(1) (ou
SLVF(1) ) ;
s’il
vit, tirage
de ses 2gènes parmi
les 4gènes parentaux,
etenregistrement
de saconsanguinité
ou non.2.5. - Mortalité.
Pour
chaque individu,
untirage
au sort décide de sa mort en fonction des taux de survie masculins et fémininsSLVH(K), SLVF(K).
2.6. - Calcul du taux de
consanguinité
de lapopulation
nombre d’enfants et d’adultes
consanguins
effectif total de la
population
2.7. - Mesure de
l’effectif génétique,
àpartir
del’équation (1) :
2.8. -
Histogramme
desgènes,
et calcul desfréquences géniques
2.9. - Détermination de la nouvelle
pyramide d’âge
Retour à pour le
cycle
suivant.La simulation ainsi conçue n’a pu
répondre
à notre attente car les fluctuations de l’effectif d’uncycle
à l’autre étaient trèsvariables ; plus
ou moinsrapidement
la
population
évoluait soit versl’extinction,
soit vers uneexpansion démographique trop
forte ettrop
brutale. Cette instabilitéqui
est unepropriété classique
desprocessus
Markoviens,
étaitprévisible ; cependant,
nous avons étésurpris
par lagrande
sensibilité duphénomène qui
ne nouspermettait
pas d’observer un effectif stablependant
une duréesuffisante,
condition nécessaire à la mesure de l’effectifgénétique (cf. Figure 1).
Figure 1 - Evolution de l’effectif de la population,
pour différentes valeurs du nombre moyen d’enfants par famille (PARAM varie de 2.5 à 3.0)
LECTURE
NATALITE
Organigramme de la simulation.
Il fallut donc contraindre le modèle en
prévoyant
unajustement
à la finde
chaque
itérationqui
ramenait l’effectif à la valeurconstante adoptée
audépart.
Cet
ajustement
a été réalisé en veillant à ne pas modifierl’équilibre démographique
de la
population ;
à ceteffet,
s’ils’agit
parexemple
d’une personne à faire mourir,on commence par tirer la tranche
d’âge
àlaquelle
elleappartient,
en affectantà
chaque
tranched’âge
K uneprobabilité proportionnelle
auproduit
de l’effectifde cette tranche
d’âge,
par laprobabilité
de décès liée à cette tranched’âge (1-
pro- babilité desurvie,
cad 1 - SLVH(K)).
Puis on tire au hasard une personne dans cette tranched’âge.
L’organigramme
final de la simulation est donné dans les pagesprécédentes.
HI. - LES RESULTATS
La
figure
2 fournit lareprésentation
simultanée du taux deconsanguinité
de la
population,
a, et celle de l’effectifgénétique qui
luicorrespond, Ne,
pourune
simulation-type :
- les 2
parties
extrêmes de lacourbe,
fortement instables en cequi
concernela valeur de
Ne, correspondent
d’unepart
à la lenteur del’apparition
despremiers homozygotes,
et d’autrepart,
àl’homogénéisation finale ;
- la
partie médiane, plus
stable etplus lisible,
fournit la zone d’évolution de Ne àprendre
en considération.Quarante
simulations ont été effectuées sur despopulations
de 200 indi- vidus.Figure 2 : Evolution du taux de consanguinité moyen a et de l’effectif
génétique
correspondant, Ne pour une simulationparticulière
Les résultats sont rassemblés sous la forme d’un tableau où
figurent
la moyen-ne des coefficients a, la moyenne des effectifs
génétiques
Ne, calculées sur les 40 simulationseffectuées,
en despoints
fixesdonnés,
dutemps,
ainsi que leurs variances et leursécarts-type respectifs.
Ainsi,
àl’itération
100(représentant
500 ansécoulés,
soit environ16 géné- rations),
l’effectifgénétique
moyen, calculé sur 40 simulations est donné par :cad
et la variance de l’effectif
génétique
par :TI y a eu
cependant quelques
difficultés à calculer une variance de Ne va-lable,
surtout dans les dernièresitérations,
car lamajeure partie
des simulationsayant
alors atteintl’homogénéisation,
la variance mesurée sur un nombre infime de valeurs n’avaitplus guère
de sens.C’est
pourquoi
nous avonségalement
calculé Ne par une autreméthode,
en utilisant les taux observés de
consanguinité.
L’effet
génétique
moyenestimé,
pour l’itération 100 parexemple,
est alorsdonné par :
où
De
même,
la variance de Ne a été calculée àpartir
de la variance de a enutilisant la relation :
avec
Les résultats de ces calculs sont
reportés
dans la troisièmepartie
du tableau 1.Les effectifs
génétiques
moyens calculés par les deuxprocédés explicités
ci-dessus fournissent
approximativement
des mesures du même ordre. Ils sontdavantage
en accord pour les valeurs médianes entre les itérations 1.100 à1.600, correspondant
à lapériode
où les conditions nécessitées par la formule de Malécot sont le mieux vérifiées.Pour les valeurs
extrêmes,
en début et en find’évolution,
l’effectifgénétique
estimé à
partir
de la valeur moyenne de aprésente également
une variance moindre.Les
généticiens emploient
souvent, pour estimer Ne une correctionempi- rique, qui multiplie
l’effectif observé par un facteur de1/3.
Les résultats de cetteétude montrent que la valeur moyenne de Ne recouvre l’intervalle de 58 à 84
individus,
sur l’ensemble des 2000itérations,
cequi équivaut
à unrapport
de Nesur l’effectif total de
0,29
à0,42.
Lerapport
de 0.33 habituellement utilisé est donc inclus dans cetintervalle,
mais le tableau montreégalement l’importance
de la
dispersion
de a, et de Ne dans lapartie
médiane des simulations. La valeur moyenne deNe,
observée sur l’ensemble dessimulations,
se trouve liée à unevariance considérable. Cette
dispersion
est bien mise en évidence par les histo- grammes dessimulations,
établis àpartir
des taux deconsanguinité,
pour diffé- rentesépoques données,
dans letemps.
Cettereprésentation permet
de visualiserrapidement
l’ensemble des résultats et l’évolution despopulations
dans letemps.
Un tableau
simplifié
des résultatsprésente
la moyenne des coefficients et des effectifsgénétiques
Ne tirés du tableau1,
pourcinq époques
fixes dans letemps,
en leur faisantcorrespondre
l’intervalleregroupant
90%
des observations(ie :
en éliminant les 2 valeurs lesplus
faibles et les 2 valeurs lesplus fortes,
obte-nues sur les 40
simulations) :
Ce tableau montre la difficulté
d’interprétation
des résultats :Au bout de 5.000 ans, soit environ 170
générations,
unepopulation
for-mée en permanence de 200 personnes a en moyenne un coefficient de consan-
guinité
de 0.676(effectif génétique égal
à85). Mais,
sur 40populations ayant
par
hypothèse
les mêmescomportements
et les mêmes contraintes demilieu, cinq
auront un coefficientcompris
entre0,3
et0,4,
et 12 un coefficientcompris
entre 0.9 et
1, parmi lesquelles
dix d’entre elles auront atteint la fixation. En d’autres termes, les effectifsgénétiques
de cespopulations,
dont la moyenne est de85,
seront nuls pourcertaines,
etdépasseront
180 pour d’autres.Cette étude confirme la valeur moyenne de l’effectif
génétique égale
au1/3
de l’effectifrecensé,
mais le résultatimportant
réside dans la variation consi- dérable de cet effectif d’unepopulation
à l’autre.Le programme de simulation est conçu pour être étendu à n locus
(non plus,
2gènes
parindividus,
mais 2ngènes).
Nous
comptons également poursuivre
l’étude en testant l’influence d’un facteur sélectif lié à la structuregénétique
desindividus,
etagissant
au niveaude la fécondité.
BIBLIOGRAPHIE
[1 ] CAZES
M.H. 2014 Paramètresdémographiques
etEffectif génétique -
Thèsede 3ème
cycle,
Université Pierre et MarieCurie,
1976.[2] JACQUARD
A. 2014 The Genetic Structureof Populations. 2014 Springer-Verlag 2014
New
York,
1974 -[3]
MALECOTG.,
1966 2014 Probabilités etHérédité, PUF, INED,
Paris.[4]
PRESSAT R. 2014Principes d’analyse. 2014
Coursd’analyse démographique
del’I.D.U.P.