B. PO UJARDIE U J. MALLARD
INRA Station d Amélioration
génétique
des animaux BP 27 31326 Castanet Tolosan Cedex*
INRA-ENSA Laboratoire de
Génétique
Animale65 rue de Saint Brieuc 35000 Rennes
Les bases de la génétique quantitative
Les méthodes d’estimation de l’héritabilité et des
corrélations génétiques
Résumé.
Poursélectionner, il
est nécessaire de connaître les valeurs de certainsparamètres énétiques
tels que les héritabilités et les corrélationsgénétiques.
Leur estimation directe nepeut
se!aire puisque
le déterminismegénétique
des caractèresd’importance économique
estinfiniment trop complexe
pour que l’onpuisse observer
les valeursgénétiques
additives.Il est par contre
possible
d’observer les covariances entre des individusapparentés,
dues auxfractions
de
génome qu’ils possèdent
en commun. Onpeut
alors calculer àpartir
de cesparamètres statistiques
les
paramètres génétiques
recherchés.Les estimateurs utilisés pour obtenir ces covariances entre
apparentés
sontcomplexes.
Ils doiventporter
sur des
populations
de trèsgrande taille,
et doncréparties
sur une aire vaste ethétérogène.
Deplus,
lesdispositifs
ainsi réalisés nepeuvent
êtreorthogonaux.
Les méthodesemployées
n’ont pas depropriétés
statistiques permettant
de conclure à l’absoluesuprématie
de l’une parrapport
aux autres. Leur miseen oeuvre nécessite des
procédures numériques compliquées, gourmandes
de ressourcesinformatiques.
Mais,
au bout ducompte,
les valeurs estimées donnentsatisfaction
au sélectionneur.Pourquoi estimer
cesparamètres
Nous sommes
placés
entre deux mondes bien diffé- rents.Celui, imaginaire
etconceptuel,
de lagéné- tique quantitative permet
de décrire la transmission héréditaire de caractères dont ledéterminisme, géné- tique
etenvironnemental,
a été décrit.Celui,
bienréel,
despopulations
animales chezlesquelles
on sou-haite améliorer la moyenne de certains caractères que l’on sait
présenter
uneimportance économique,
mais dont on est loin de connaître le déterminisme
génétique.
C’est dans le
premier
que l’onpeut
définir sanséquivoque
la valeurgénétique
additive d’un individu pour un caractère donné.Rappelons
que cette valeur est ainsi construite que la descendance d’un individuaura en
espérance
(= en moyenne sur tous les descen- dantspossibles
issus de tous lesaccouplements
pos- sibles pour cet individu etrépartis
dans toutes lesconditions
possibles
du milieu) la moitié de cette valeur additive.On
conçoit
aisément que c’est dans le second quece
paramètre
a un intérêtopérationnel
considérable.Retenir comme
reproducteur
celuiqui
a laplus
gran- de valeurgénétique
additive rend maximales les chances d’avoir une descendance laplus productive possible.
Malheureusement,
les caractèreséconomiquement
intéressants sont extrêmement
synthétiques :
lacroissance,
la viabilitéembryonnaire,
laqualité
de laviande,
etc. Les métabolismesqui
assurent leurexpression
sont extraordinairementcomplexes,
inter-connectés et
globalement régulés,
mettant enjeu
unnombre de
gènes inconnus,
mais sans doute trèsgrand, interagissant
entre eux. La belle modélisation du fonctionnement dupetit opéron
lactose de E.Coli,
réalisée par
Chevalet,
illustre bien lacomplexité
duproblème.
Il faut donc renoncer au rêve d’observer les valeursgénétiques
additives vraies dans unepopula-
tion
réelle,
faute depouvoir
ne serait-cequ’écrire
ledéterminisme
génétique
sousjacent.
Neparlons
pas de son éventuel traitement.Faute de
pouvoir
les calculer exactement, noussommes contraints d’en rechercher des valeurs appro-
chées,
que nousappellerons
des index de sélection. Ils’agit
d’utiliser des mesures effectuées sur les indivi- dus constituant lapopulation
pour réaliser unepré-
diction de cette valeur. Nous avons vu dans l’article de Mallard
qu’il
étaitpossible
deprédire
une valeurA
inconnue,
par une mesure Cstatistiquement liée,
à condition que l’on connaisse les différents moments d’ordre 2 de la distributionconjointe
de ces deuxvariables
(pour
lacompréhension
de cettephrase,
se reporter au texte de Mallard).La mise en oeuvre de l’indexation suppose ainsi que l’on connaisse toute une série de variances et de
covariances,
et enparticulier
lesparamètres géné- tiques évoqués
dans les articles de Minvielle et Ollivier. Lesplus importants
sont les héritabilités des caractères et les corrélationsgénétiques qui
leslient,
mais les variances de dominance etd’épistasie
sont
également nécessaires,
surtoutquand
on s’inté-resse au résultat du croisement entre
populations.
Ces
statistiques
sont bien évidemmentinconnues,
de sortequ’il
faut se débrouiller pour en obtenir unordre de
grandeur
aussi &dquo;ressemblant&dquo; quepossible.
En termes
plus orthodoxes,
il faut les estimer.Nous
prendrons l’exemple
de<JA 2 ,
variancegéné- tique additive, qui
constitue le numérateur de l’héri- tabilité (h2= <JA2/( <JA2 + <JD2 + <J,2+ <JE2))pour exploiter
ladémarche
conceptuelle qui
conduit à son estimation.1 / Principe de l’estimation
1.1 / Paramètres génétiques
et
covariances
entreapparentés
Les valeurs
génétiques
A ont été créées dans l’uni-vers
théorique
de lagénétique quantitative.
Personnene
peut
setarguer
d’en avoir observé une dans la réa- lité : l’estimation directe de sa variance n’est pas pos- sible. Par contre, Minvielle a démontré que, sous cer- taineshypothèses génétiques,
les covariances entre certainstypes d’apparentés
étaient des fonctionssimples -
linéaires - des diverses variancesgéné- tiques. Rappelons
enparticulier
que :La notation
CovPF,
condensé de covariance entreun
père
et unfils, représentant
la covariance entre lamesure d’un caractère chez un individu et la mesure
du même caractère réalisé chez son fils.
DF, F,
MFreprésentent respectivement
descouples
de demi-frères,
de frères et mère-fille.Il est donc
équivalent
d’estimer les variancesgéné- tiques
ou les covariances entreapparentés :
0! = 2 CovPF = 2 CovMF = 4 CovDF 6D
22 2 (CovF - CovDF) (1)
1.2
/ Principe de l’estimation
Les
populations
animales réelles sont structurées par un réseau très densed’apparentements.
Toutindividu a un
père,
il est bien rarequ’il
n’ait pas - surtout chez lesespèces polytoques -
desfrères,
desdemi-frères,
etc. Onpeut
donc sanspeine
extraire de lapopulation
ungrand
nombre decouples d’apparen-
tés d’un
type
donné. Sur lafigure 1,
onpeut
voir lenuage des
points représentant
les valeursconjointes
des mesures des
couples père-fils
dans unepopula-
tion. CovPF
exprime l’aplatissement
du nuage depoints
(voir l’article de Mallard). Ces données renfer- ment donc toute l’information suffisante pour réaliserune estimation de ce
paramètre
(nous discuterons dans lapartie
suivante desproblèmes statistiques posés).
Admettons que nous
disposions
de l’estimation de diverses covariances entreapparentés
dans unepopulation
réelle. Si nous supposons que le détermi- nismegénétique
du caractère considéré est exacte- ment celui dont ledéveloppement
a conduit aux for-mules
(1),
nous en déduisons les estimations desparamètres génétiques
dont nous avons besoin. C’est à ce niveau que se réalise lajonction
entre lesmodèles
théoriques
et la réalité despopulations
ani-males.
1.3 / Retour
surles hypothèses sousjacentes
Il reste bien sûr en suspens le Si. Nous avons sou-
ligné
dans l’introductionqu’il
est bien peuréaliste,
tant les modèles les
plus complexes
degénétique quantitative paraissent simplistes
face à la réalitébiologique.
Mais ces formules (1) vont de surcroîtnous
permettre
deporter
unjugement
sur le bienfondé de cette
hypothèse.
On y lit parexemple
que CovPF = CovMF = 2 CovDFSi les estimations de ces
quatre
termes sontproches,
on en conclura que cettehypothèse,
pour aussi irréalistequ’elle soit,
rendcompte
defaçon
satisfaisante de la réalité observée. La
première éga-
lité par
exemple indique
que le fait de n’avoir inclus que desgènes
autosomaux dans le modèle est aposte-
riori
acceptable.
De même, lacomparaison
de CovF et2CovDF permettra de porter un certain
jugement
surl’importance
des effets de dominance(a&dquo; z ,
DFrepré-
sente des demi-frères
ayant
une mère en commun).En
définitive,
lapratique
de la sélection adepuis longtemps
tranché. Toute la sélection est basée surl’acceptation
deshypothèses
de lagénétique quanti-
tative.
Or,
cette sélection est efficace et les simula- tions montrentqu’il
y aurait peu à gagner - en effica- cité de la sélection - à utiliser des modèlesplus
com-plexes,
conduisant à desdéveloppements
extrême-ment lourds.
Cela ne veut bien sûr pas dire que, dans la
réalité,
les 105gènes
d’unorganisme
additionnent des effetsinfinitésimaux,
lesphénomènes
d’interaction entre loci restantnégligeables.
On sait bien que c’est faux.Mais
globalement,
sur unplan statistique,
la résul-tante de l’extrême
complexité biologique
est peu diffé- rente - à l’intérieur d’unepopulation
donnée - desconséquences
du modèlepolygénique.
Cette
approximation
est un peu de même nature que l’assimilation d’une courbequelconque
à sa tan- gente auvoisinage
dupoint
detangence.
En un autrepoint,
uneapproximation
linéaire pourraégalement
être
définie,
mais latangente
sera différente. Demême,
on retrouvera desphénomènes
d’interaction - dominance etépistasie - quand
on s’intéressera àplu-
sieurs
populations,
notamment au travers du croise-ment (voir l’article de Brun). )..
2 / Les problèmes statistiques posés
Nous venons de démontrer
qu’il
&dquo;suffit&dquo; d’estimer des covariances entreapparentés.
Prenons le casd’une covariance
père-fils.
Troisproblèmes
d’ordrestatistique
seconjuguent
pour rendre inextricable ce&dquo;il suffit&dquo; : la
précision
desestimations,
la non indé-pendance
desdonnées,
ledéséquilibre.
2.1 / Précision des estimateurs
Appelons
N le nombred’objets
utilisables pour estimer dans lapopulation
leparamètre statistique
recherché. Ce sera par
exemple
le nombre de mesuresréalisées si l’on désire connaître la variance ou le nombre de
couples représentés
sur lafigure
1 pour estimer CovPF.N est forcément
fini,
de sorte que l’estimation tirée de cet échantillon limité estimparfaite.
Si nousjouons
àpile
ou face - avec unepièce
nontruquée -
laprobabilité
depile
est de1/2 ;
mais si nous effectuonsseulement N = 9
lancers,
lepourcentage
de cas oùpile apparaît
n’est pas de 1/2 exactement. Noussavons bien par contre que si N devient très
grand,
une valeur différente de 1/2 nous fera
suspecter
l’hon-nêteté de la
pièce
ou du lanceur.De
même, imaginons
que, sur lafigure 1,
nousayons retrouvé un
couple père-fils -
noté A - oubliédans la
population.
Sonreport
va diminuerl’aplatis-
sement du nuage et donc l’estimation de la covarian-
ce. B aurait eu l’effet inverse.
Cette incertitude sur
l’estimation,
liée à un échan-tillon de taille
limitée,
est bien connuequand
ils’agit
de l’estimation d’une moyenne. Nous allons la maté- rialiser par
l’exemple
suivant. Nousdisposons
d’unepopulation
infinie danslaquelle l’histogramme
d’unemesure est centrée sur 10 et a un écart
type
de 10 (elle est deplus supposée
normale dans ce cas). Nousextrayons
un échantillon de taille limitée (N = 40) d’individusindépendants
et estimons moyenne et variance. Nous trouverons des valeurs différentes de 10.Recommençons
avec un autre échantillon de même taille : le hasard dans la constitution de cenouvel échantillon donnera des valeurs différentes.
Sur la
figure
2 ont étéreportés
deuxpetits segments qui
renferment toutes les valeurs trouvées commeestimation de la moyenne et de la variance. Plus exactement, ce
segment
renferme 95 % de toutes cesestimations : on a continué de considérer que 5 % constituent une
quantité
de casnégligeable
en statis-tique,
de sortequ’on
assimile 95 % et &dquo;toutes les valeurs&dquo;. Lalongueur
de cessegments porte
le nom d’intervalle de confiance des estimations de la moyen-ne et de la variance. Plus N est
grand, plus
ils sontpetits.
L’intervalle de confiance d’une moyenne est une notion
qui
nous est familière. On voit sur cetexemple
que pour N = 40 il est raisonnablement réduit (tout
expérimentateur
raisonnable s’estimera bien doté sichaque
case élémentaire de sondispositif
atteint cet effectif). Par contre cetexemple
montre que les moments d’ordre 2 sontbeaucoup plus
difficiles à estimer. Il faudraitplus
de 400 données pour que l’intervalle de confiance de 6atteigne
la taille de celui de la moyenne de 40 données.Cela se
comprend
intuitivement : créons le nuage de lafigure
1 en accumulant un à un despoints
sup-plémentaires :
on voitrapidement
se dessiner unemasse
centrale,
où laplupart
des nouveauxpoints
s’accumule. Il est aisé de déterminer &dquo;à l’oeil&dquo; une
valeur centrale
qui
trèsrapidement
se stabilise.Quelques points éloignés
de ce centreapparaissent
detemps
entemps,
constituant un halo. Les moments d’ordre 2 chiffrent l’étendue de ce halo. Onconçoit qu’il
faudradisposer
d’un contourprécis
pourcela,
donc de
beaucoup
depoints
dans cette zone floue. Orjustement,
ce sont des cas raresqui
amènent despoints
dans ces parages.En résumé, pour obtenir des estimations pas trop
imprécises
des variances et des covariances entreapparentés,
il faudradisposer
d’un nombre derépéti-
tions considérable. Par
exemple,
il faudra sur lafigu-
re 1
plusieurs
centaines decouples père-fils
pour obtenir une valeuracceptable
de CovPF. Et enfait,
on recherche des effectifs de
plusieurs
milliers.Rappelons
enfin que héritabilités et corrélationsgénétiques
sont desrapports,
les incertitudes d’esti- mation sur les numérateurs et dénominateurs secumulant pour rendre leurs estimations encore
plus imprécises.
L’estimation des
paramètres génétiques
nécessitedonc l’accumulation d’un
jeu
trèsimportant
de don-nées donc de gros fichiers et une grosse
puissance
decalcul.
2.2 / La
nonindépendance des données
Pour estimer la variance dans le cas illustré par lafigure 2,
nous avons utilisé unestimateur,
c’est-à-direune
formule,
encore relativement bien connue où Y,représente
une sommation sur l’ensemble de l’échan-tillon,
x la mesure réalisée surchaque
individu.Dans les cas très
simples
où tous lesobjets
utiliséspour l’estimation (individus si on estime une varian-
ce,
couples
de données pour les covariances) sontindépendants
entre eux, cette formules’impose
comme la meilleure
possible parmi
tous les estima-teurs
(quadratiques) imaginables.
Elle procure des estimations de varianceminimum,
c’est-à-dire unelongueur
aussipetite
quepossible
à l’intervalle de confiance(le segment
cd de lafigure
2). Cet estima-teur est non
biaisé,
c’est-à-dire que la vraie valeur sesitue exactement au milieu du segment. En d’autres termes, les incertitudes liées à
l’échantillonnage
d’ungroupe limité
d’objets jouent également
dans les deuxsens
(remarque :
cettepropriété
de non biaisparaît
en
général
secondaire à l’utilisateur mais revêt unegrande importance
aux yeux de lastatistique
clas-sique... peut
être parcequ’elle
est la contrainte laplus
facile àprendre
encompte
dans la construction des estimateurs).Malheureusement cette condition
d’indépendance
des données n’est
jamais respectée.
N’avons-nous pas dit que lespopulations
animales étaient structurées par des liens deparenté ?
Si un individudispose
d’ungénome exceptionnel
et doncexprime
un niveau inté- ressant ducaractère,
sonfrère, qui possède
la moitiéde ses
gènes,
a de fortes chances d’être lui aussi doté de bonnesperformances.
Ces mesures de ces deuxindividus
apparentés
ne sont pasindépendantes puisque
la connaissance de la valeur de l’un donnedéjà
une idée de ce que sera la valeur de l’autre. N’a- t-on pas créé les formules &dquo;telpère
telfils&dquo;,
&dquo;se res-sembler comme des frères&dquo; ou &dquo;comme des
jumeaux&dquo; ?
Le milieu
d’exploitation
des animaux crée lui aussison
petit
réseau dedépendance
entre les données.Reprenons l’exemple
de lafigure
2 etimaginons
queles 40
objets
d’un échantillon soient divisés arbitrai- rement en 2 sous-groupes de 20. Chacun de ces lots est élevé dans deux bâtiments différents. Autant lepremier
estluxueux,
autant le second estfroid,
ven- teux,sale, placé
en bordure d’autoroute. Tout indivi- du de ce deuxième lot aura desperformances
trèsinférieures. La variance au sein de l’échantillon s’est
vue
augmentée
parl’application
de ces deux traite-ments
différents ;
onparle
d’un &dquo;effet bâtiment&dquo;.Or,
duparagraphe
2.1 nous avons retenu la néces- sité dedisposer
d’effectifsconsidérables, qu’il
est par- ticulièrementutopique d’imaginer
élever dans des milieuxrigoureusement identiques.
Lesbovins,
parexemple,
sontrépartis
dans unepoussière d’élevages,
les
poulets regroupés
en cases différentes selon leur date denaissance,
etc.La formule (2) est donc
particulièrement inadaptée
à son usage en
génétique quantitative.
Illustrons cela par unexemple :
pour estimer une variancegéné- tique additive,
nousdisposons
de deuxjumeaux
(leurgénome
estpratiquement identique).
La formule 2intégrera
les deux informationsindépendantes
(deuxdegrés
de liberté). Enfait,
iln’y
aqu’une
seule valeurgénétique (répétée
deux fois) : le calcul d’une variance n’a aucun sens. La formule utilisée aurait dû tenircompte
d’un coefficient deparenté
de 1/2 entre cesjumeaux
pour ne les considérer commeporteurs
que d’une seule information (donc ne leur donnerqu’un degré
de liberté collectivement).Pour résoudre cette
difficulté,
nous allons décrire les données par un modèle et utiliser les estimationsqui
lui sontadaptés.
Ecrire un modèle
signifie exprimer
toutes lesdépendances, qu’elles
soient dues au milieu ou à lagénétique,
dechaque
individu avec tous les autres :l’individu A est frère de B et C et non
apparenté
à D.Par contre, il a été élevé dans le même bâtiment que C et D mais pas B. Cette
description
par le menudevient vite
inextricable,
de sorte que l’on utilise unesorte de
langage
codé nommé modèle linéaire.On constitue des
sous-populations
d’individus par- faitementhomogènes quant
aux relations existantentre les individus. Nommons-les cases élémentaires.
A l’intérieur d’une case, les individus ne sont pas
identiques,
leur variationpermettant
de chiffrer la variance résiduelle. On réalise ensuite des regroupe- ments de ces cases en ensemblesplus
vastes homo-gènes quant
à leurs relations entre eux. On continuejusqu’à
ce que toutes les relations aient été décrites.Supposons
parexemple qu’en aviculture,
deux familles A et B issues de deux mères différentes soientréparties
dans deux bâtiments différents X et Y. Lapartie
de famille A élevée dans X (AX) est une case élémentaire. De même queAY,
BX et BY. Al’intérieur de AX tous les individus sont
frères,
élevés dans un même milieu. Les cases AX et AY sont reliées par le fait que tous les individus ont la même mère : on ditqu’ils partagent
le même niveau du fac-teur mère. AX et BY
partagent
le mêmebâtiment,
c’est-à-dire ont le même niveau du facteur bâtiment.
On utilise enfin une
équation symbolique
pour décrire toutes ces relations. C’est le modèle strictosensu. On écrira : U
AX Jules = Effet mère A + Effet bâtiment X +
Résiduelle de Jules
On décrit ainsi la valeur U de l’individu
Jules,
des-cendant de la mère A et
placé
dans le bâtimentX,
comme la somme des effets des facteurs que nous avons identifié. Deux
individus,
Jules et Arthur par-tageant
le même bâtiment X verrontapparaître
danscette
équation
la même valeur de l’effet bâtimentX,
ce
qui
matérialise ladépendance
de ces deux don-nées. A
l’opposé,
les résiduelles de deux individusappartenant
à la même case AX différerontpartielle-
ment du fait que leur résiduelle est différente.
Pour
finir,
on écritplus prosaïquement l’équation
ci-dessus avec un
jeu
d’indices.Il;
jk * m + M
; + B j + Z;
jk
où i
et j
nomment les niveaux des différents fac-teurs,
mère etbâtiment,
et k numérote les individus intra case.ijk
= 115représenterait
ainsiJules,
le5ème descendant de la 1ère mère (A)
placé
dans lepremier
bâtiment (X). Et on résume cette écriture endisant que les données sont
organisées
selon un dis-positif
factoriel croisant les effets des facteurs mère (2 niveaux) et bâtiment (2 niveaux).Ayant
ainsi décrit la structuration desdonnées,
ilne reste
plus qu’à choisir, parmi
toutes les formules (on se limite à la classe des estimationsquadra- tiques) incorporant
l’ensemble desdonnées,
cellequi
est la mieux
adaptée
à l’estimation duparamètre
recherchécompte
tenu de cetteprésentation particu-
hère des données.
Il est facile d’écrire la forme la
plus générale
desfonctions
quadratiques
des données. Osons le faire pour l’estimation de la covariancepère-fils :
Yp’AYp où YP
’ et YFsont les listes de toutes les mesures réalisées des
pères
et des fils et A un tableau de valeurs numé-riques
comprenant autant delignes
et de colonnesqu’il
y a decouples père-fils.
Pour unjeu
de valeursremplissant A,
on obtient l’une des fonctionsquadra- tiques possibles
des données. On voit à l’évidencequ’il
y en abeaucoup :
N’ si N est le nombre decouples père
fils... soit 106 pour un effectif raison- nable de 1 000couples !
Il est encore facile d’écrire les
équations qui
per-mettent de rechercher la valeur de A donnant le meilleur estimateur. On demandera que cet estima- teur soit non
biaisé,
de variance minimum.Finalement il est facile de trouver la formule donnant la valeur Ao recherchée. C’est l’affaire de
quelques lignes
de calcul matriciel.Il faut à ce
point distinguer
deux cas, selon que ledispositif
est&dquo;orthogonal&dquo;
ou non.Imaginons
que danschaque
cellule élémentaire dumodèle,
l’effectifd’individus soit
égal
etqu’il
y ait autant de niveaux d’un facteur croisé dans chacun des niveaux de l’autre. Cedispositif
est ditéquilibré
ou&dquo;orthogonal&dquo;.
Dans ce cas, les formules
qui
donnent la valeur Ao sontparticulièrement simples
(disonsplutôt
que l’onpeut
en trouver d’infinimentpires).
Elles ont étédéveloppées
pour chacun destypes
de modèles que l’onpeut
rencontrer et desparamètres statistiques
dont on souhaite l’estimation. Les programmes cor-
respondants
sont aisément accessibles dans lesgrandes bibliothèques statistiques
(SAS...). ).Hélas,
ce casidyllique
ne se rencontre pas engéné- tique.
2.3 / Le
casdes dispositifs
non
orthogonaux
Dans certains cas, le
déséquilibre peut
être peuimportant.
Un individuqui
meurt dans une case élé-mentaire de 40
n’oblige
pas à bouleverser la forme del’estimateur,
c’est-à-dire la valeur de Ao. On va donc utiliser les mêmestypes
deformules,
tout en sachantque, si les estimateurs restent non
biaisés,
leurvariance n’est
plus
tout à fait minimum.Par contre, dans le cas où la moitié de certaines
cases
disparaît,
ou certaines autres entières ne sontpas
réalisées,
la médiocrité de ces estimateurs devientinsupportable.
Cela seproduit
très facilementquand
les effectifs N sontpetits,
c’est-à-dire chez les animaux peuprolifiques
(famillesd’apparentés
réduites) et de grosse taille (effectifs réduits des uni- tés deproduction).
Si N =2,
un seulpetit
mort divisepar 2
l’effectif ;
et avec un peu demalchance,
la caseentière
disparaît.
On est alors amené à rechercher directement la valeur de Au. En écriture
matricielle,
elle n’est pasplus compliquée.
Mais onn’y
retrouveplus
dans leurdéveloppement
lessimplifications qu’apportait l’équi-
libre. Les calculs deviennent
rapidement
irréalisables (avec uneprécision numérique acceptable)
directe-ment sur les ordinateurs pourtant
puissants
dontnous
disposons.
On a recours à desprocédures
derésolutions itératives
qui posent
desproblèmes
deprécision
et detemps
de calcul entrelesquels
on doittrouver des
compromis.
Mais le
plus
extraordinaire est que ces formules conduisant à la valeur de Ao contiennent la vraie valeur duparamètre
que l’on cherche à estimer.Comprenons
nous bien : nousdisposons
des données de lafigure
1 pour estimer leparamètre
CovPF. Ellessont
réparties
dans undispositif
nonorthogonal.
Nous recherchons la formule Y,’AY,
qui
permettra d’utiliser cescouples
de donnéespère-fils
pour réali-ser la meilleure estimation du
paramètre
CovPF. Et le calcul nous dit &dquo;dis-moiquelle
est la valeur de CovPF etje
te dirai alorsquelle
est la meilleureforme de A&dquo;. C’est le serpent
qui
se mord la queue.Il n’existe
plus
dans ce cas d’estimateuroptimal
mais seulement des localement
optimaux.
Achaque
valeur des vrais
paramètres
(ceux que l’on cherche à estimer)correspond
un estimateuradapté.
Comme la vraie valeur est par essence
inconnue,
on fournira au calcul un ordre de
grandeur
bâti à par- tir de donnéesbibliographiques,
d’estimations réali- sées dans des conditionscomparables
faites sur despopulations
du même genre. On utilise souvent des estimations réalisées lors degénérations
antérieures.L’expérience
et des simulations montrent que l’écart àl’optimalité
ainsi introduit restenégligeable
tant que l’erreur n’est pas trop
importante.
On peuten
général
setromper
dusimple
au double sans quela variance de l’estimateur
n’augmente plus
que dequelques
pourcents. On dit que cette méthode est très robuste.On est tout de suite tenté par l’itération de cette méthode : en
injectant
une valeurgrossièrement approchée,
on a bâti un estimateur presqueoptimal qui
fournit une valeurestimée, plus proche
vraisem-blablement de la vraie valeur. On va recommencer le même calcul en
injectant
cettepremière
estimationcomme idée a
priori.
On doit
pouvoir comprendre
intinctivement que le A ainsi construitdépend
des données YP’ et Yp et donc que Y,’AYF n’estplus
unesimple
fonction qua-dratique
des données. De sorte que dès lapremière itération,
l’estimationperd
toutes lespropriétés
donton l’avait dotées : il n’est
plus
niquadratique,
ni nonbiaisé,
ni de variance minimum.Il a par contre la
propriété
de converger (même sithéoriquement
des statisticiensgrincheux
s’irritentde cette
aptitude
non démontréethéoriquement).
C’est-à-dire
qu’après
un nombre réduitd’itérations,
l’estimation devientquasiment égale
à l’idée apriori injectée.
C’est une situation intinctivement satisfai- sante pourl’utilisateur,
maisqui
n’aguère
de pro-priétés statistiques.
On a pu par contre démontrer que ce
point
station-naire est
identique
à celui issu d’une autre école depensée
del’estimation,
très différente de celle des moindres carrés (on a recherché une variance mini-mum de l’estimateur) : celle du maximum de vrai- semblance. C’est démontré. Cela laisse le statisticien
perplexe.
Nous nedévelopperons
pas cesconcepts
tropéloignés
de notresujet.
Nous l’avons cité pour montrer que lesstatistiques
restent un monde mal maîtrisé sur ses confinspuisqu’en
réalisant desopé-
rations peu licites (l’itération) à
partir
d’une certaineconceptualisation,
on enrejoint
une autre, radicale-ment différente et
qui
lui a étélongtemps
farouche-ment
opposée.
2.4 / Le déséquilibre
C’est dans la structuration par le réseau des appa- rentements que le comble du
déséquilibre
est atteint.En
première approximation,
les ancêtres communs,ne remontent pas à
plus
de une ou deuxgénérations.
Le nombre
d’apparentements
est limité(frères, père- fils,
cousins...). Mais dans lesfaits,
on rencontrera des 1/2 cousins à la mode deBretagne
et autres liensde
parenté trops complexes
pour seulementporter
unnom.
Dans ces
conditions,
le nombred’apparentements
devient
prohibitif,
et on ne pourra estimer toutes les covariances entreapparentés.
D’autrepart,
uncouple d’apparentés
d’untype
donné ne seraplus représenté
que par un effectif très réduit. Si par
exemple,
sur1000
couples père-fils,
la moitié est issue de la mêmemère (fils issus d’un
accouplement mère-fils),
uneautre
partie
est enplus
1/2 oncle-neveu ...etc, il reste-ra très peu de
couples
vraimentpère-fils.
Pas assezen tout cas pour une estimation correcte.
On doit
adopter
alors une modélisation totalementdifférente ;
maisqui
a l’inconvénient d’introduirebeaucoup plus
tôt le modèle de lagénétique quantita-
tive dans la modélisation
statistique.
Toute relation de
parenté
entre deux individuspeut
êtreparfaitement
décrite au niveau d’un locuspar un
jeu
de 15paramètres,
les coefficients d’identi- té (ce nombre devientgigantesque quand
on s’intéres-se à
plusieurs
loci). Dans les cas où les individus nesont pas
consanguins (la pratique
delélevage
évite aumaximum
l’accouplement d’apparentés
tropproches),
on
peut
se contenter d’un seul coefficient : le coeffi- cient deparenté. Si,
deplus,
on suppose que le carac-tère étudié a un déterminisme
génétique purement
additif (variances de dominance etd’épistasie nulles),
les covariances
CovApp
entre deux animaux liés parune
parenté 4$App quelconque
s’écriventCovApp
= 2<î ’ App
6A2Si l’on admet toutes ces
hypothèses génétiques
avant d’écrire le modèle
statistique
décrivant les don-nées,
ongardera
l’écritureclassique
pourexpliciter
laprésence
d’effets du milieu. Mais la structure deparenté
sera décrite par la seule matrice deparenté
(tableau incluant tous les coefficients deparenté
dechaque
individu avec tous les autres).Chaque
indivi-du constitue de ce fait une cellule élémentaire à lui tout
seul,
et cette matrice décrit toutes les liaisons.Les
problèmes statistiques
et calculatoiresposés
par cette autre
conception
ne sont nipires
ni diffé-rents en nature que ceux
déjà évoqués.
La seule diffé-rence est
qu’on
n’obtient pas des estimations des covariances entreapparentés,
mais les valeursqu’elles
auraient si leshypothèses génétiques
admises (1
locus,
pas deconsanguinité,
additivitépure)
étaientrespectées.
Al’inverse,
cela évite denégliger
au niveau du modèle toutes sortesd’appa-
rentements mineurs
qui
viendraient partrop compli-
quer une modélisation
classique.
Conclusion
Dans la
réalité,
lesdispositifs
destinés à l’estima-tion de
paramètres statistiques
sontcomplexes.
Ilsportent obligatoirement
sur des effectifsimportants,
de sorte que l’on ne
peut
réduirel’hétérogénéité
dumilieu où ils sont
implantés. Enfin,
il n’est pas pos-sible,
même en triant un sous-ensemble desdonnées,
d’obtenir un
dispositif orthogonal.
Les estimateurs les
plus généraux adaptés
à cescas
complexes
sontthéoriquement
connusdepuis
unquart
de siècle. Ils sontpourtant
bien déconcertants : ils ne sont que localementoptimaux,
cequi
conduit àitérer leur calcul.... mais en
perdant
leurspropriétés d’optimalité,
et en en retrouvant d’autres bien diffé- rentes. Les valeurs ainsi obtenues sontcependant
considérées par les utilisateurs comme d’excellentes
estimations,
lesplus dignes
de confiance.Enfin,
les calculs(que
nous avons escamotés) deces estimateurs sont extrêmement lourds. La résolu- tion directe suppose l’inversion de matrices
ayant
autant de
lignes
et de colonnesqu’il
y a d’individus (N) dans lapopulation.
Et nous avons ditqu’il
y en avaitobligatoirement beaucoup.
Enpratique,
on doitrecourir à des solutions
numériques,
très souvent ité-ratives, qui
cherchent à réaliser uncompromis
entretemps
decalcul,
volume de mémoireutilisée, préci-
sion
numérique.
C’est encore, et sans doute pourlongtemps malgré
lafantastique augmentation
depuissance
desordinateurs,
un domaine de recherche ouvert oùbeaucoup
reste à faire.Malgré
toute cettepanoplie statistique
et informa-tique, malgré
des tailles depopulations qui
attei-gnent parfois plusieurs millions,
les estimateurs des moments d’ordre 2 des loci restentimprécis.
Il n’estpas rare que l’intervalle de confiance d’une héritabili- té
atteigne
10 % de sa valeur. On en verra desexemples
dans les articles suivants.L’usage
montrecependant
que cetteprécision
estsuffisante. Les
paramètres génétiques
que l’on calcu- le àpartir
des covariances entreapparentés
obser-vées et estimées permettent le calcul d’index remar-