HAL Id: hal-02713922
https://hal.inrae.fr/hal-02713922
Submitted on 1 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
L’évaluation des reproducteurs. Le modèle sous-jacent à l’estimation des valeurs génétiques
Didier Boichard, Bernard Bonaiti, Anne Barbat, Michèle Briend
To cite this version:
Didier Boichard, Bernard Bonaiti, Anne Barbat, Michèle Briend. L’évaluation des reproducteurs. Le modèle sous-jacent à l’estimation des valeurs génétiques. Productions animales, Institut National de la Recherche Agronomique, 1992, 1992, pp.185-195. �hal-02713922�
D. BOICHARD, B.
BONAÏTI,
Anne BARBAT Michèle BRIENDINRA Station de Génétique Quantitatiue et Appliquée 78352 Jouy-en-Josas Cedex
L’évaluation des reproducteurs
Le modèle sous-jacent à
l’évaluation des valeurs
génétiques
Résumé.
La valeurgénétique
additive peut êtreprédite
en modélisant d’une part lesperformances,
d’autre part le déterminisme
génétique
des caractères. Lesperformances
sontdécomposées
eneffets génétiques,
eneffets
de milieuidentifiés
et en une résiduelle du modèle, constituée demultiples effets
génétiques
ou de milieu nonidentifiés
et non maîtrisés. Si le déterminisme du caractère estpolygénique additif,
la corrélation entre les valeursgénétiques
de deux individus estproportionnelle
à leurcoefficaent
de parenté. Toutel’information (performances, facteurs
de variation, relations deparenté)
est combinée en un système
d’équations
unique qui ermet d’estimer simultanément leseffets génétiques
et leseffets
de milieu.L’adoption
d’unmodèle "animal"p ermet
de combiner toute cetteinformation
defaçon optimale
et deprendre
en comptel’effet
de la sélection et desaccouplements
nonau hasard dans la
population.
Grâce à la structure de l’inverse de la matrice de parentés, le modèleanimal
fournit
des équations trèssimples, facilitant l’explication
et ladiffusion de
son principe : uneffet
de milieu est estimé par une moyenne deperformances ajustées ;
l’index d’un individu combine troisinformations,
sur ascendance, surdescendance
et surperformances
propres. Le modèle estsouple
et peut
facilement
êtremodifié
pourprendre
en compte des situationscomplexes.
L’évaluationgénétique
est bien sûr un outil de sélection mais, compte tenu de ses
propriétés,
représente aussi un outilpuissant
de
diagnostic
et deprévision.
La performance d’un individu (ou valeur phénoty- pique) est déterminée par des effets génétiques et des
effets de milieu. La part d’origine génétique peut elle-
même être décomposée en une part dûe aux effets additifs individuels de chaque gène, dite valeur géné- tique additive, et une composante liée aux interac- tions entre gènes au même locus (dominance) et entre locus (épistasie). Seule la valeur génétique additive
se transmet d’une génération à l’autre, tandis que les interactions sont recréées aléatoirement à chaque génération. Dans un programme de sélection intra
population, on cherche donc à augmenter la valeur génétique additive, en retenant comme reproducteurs
à chaque génération les individus à valeur génétique
additive la plus élevée.
Toutefois, la valeur génétique additive n’est pas
une donnée observable. L’évaluation génétique, ou
"indexation", a pour objectif d’estimer au mieux la
valeur génétique des animaux reproducteurs poten- tiels. Elle est donc un outil primordial d’aide à la
sélection puisqu’elle fournit en pratique le critère
optimal pour réaliser le choix des reproducteurs. Elle permet aussi de mesurer a posteriori l’efficacité des programmes de sélection. Cet article vise à présenter
les principes de l’évaluation des reproducteurs dans
le cadre particulier des caractères laitiers.
1
/ Le modèle de description
des données
L’évaluation génétique laitière découle directe- ment du modèle génétique et statistique de descrip-
tion des données, présenté par Ducrocq (1992), et en
constitue une application importante. Elle repose sur deux types d’informations : d’une part les perfor-
mances laitières, d’autre part les généalogies. Ces
informations sont disponibles grâce à une gestion organisée de l’information et à un système d’identifi- cation des animaux fiable et permanent : depuis la loi
de l’élevage de 1966, tous les bovins ont un numéro
permanent et unique à 10 caractères.
Les performances (quantité de lait produite le jour
du contrôle, taux butyreux et taux protéique) sont
mesurées mensuellement sur les animaux inscrits au
Contrôle laitier, qui constituent la base de sélection.
Actuellement, 2,5 millions de vaches sont au contrôle
laitier, soit près de la moitié du cheptel français.
Ces données brutes ne sont pas analysées directe-
ment. La première étape vise à définir les caractères à analyser. Les productions par lactation sont calcu- lées à partir des contrôles mensuels pour 5 caractères : les quantités de lait, de matière grasse, de matière protéique, le taux butyreux et le taux pro-
téique. La production par lactation n’est connue exac-
tement que lorsque la lactation est terminée.
Toutefois, on peut l’extrapoler avec une précision rai-
sonnable pour les lactations en cours. Les produc-
tions extrapolées sont donc aussi analysées, permet-
tant une évaluation des animaux plus précoce.
L’évaluation consiste ensuite à décomposer la per- formance observée en un effet génétique et des effets
de milieu. On considère en général trois types d’effets de milieu :
- ceux dont on connait à la fois la cause et l’ampli-
tude. Les performances sont alors corrigées a priori
pour ces effets. Par exemple, les performances dépen-
dant de la durée de la lactation, sont standardisées pour une durée de 305 jours. Les animaux adultes produisant plus que les primipares, les productions
sont exprimées en équivalent-adulte.
- ceux dont on a identifié la cause mais dont on ne
connait pas l’amplitude. L’effet doit alors être estimé dans le modèle d’analyse. Par exemple, on sait que le troupeau est un facteur influençant les performances,
mais on ne connait pas a priori l’effet d’un troupeau particulier.
- ceux qu’on ne maîrise pas du tout. Ils constituent l’erreur du modèle, qu’on cherche à minimiser.
Il est important de remarquer que les effets que l’on estime sont en général supposés additifs : ils affectent de façon identique toutes les performances, quels que soient leurs niveaux. Par contre, les effets
connus a priori peuvent être corrigés de façon additi-
ve ou multiplicative, et ce choix n’est pas neutre. Par
une correction multiplicative, on change à la fois le niveau et la variabilité des performances. En pra-
tique, les corrections a priori sont généralement mul- tiplicatives, de façon à homogénéiser la variabilité des performances, tandis que le modèle d’analyse vise
ensuite à en corriger le niveau de façon additive.
Ainsi, les lactations de primipares sont transformées
en équivalent adulte par un coefficient de 1,3. Leur
niveau comme leur variabilité sont donc augmentés de 30 %.
Après cette standardisation préliminaire, chaque performance est ensuite décomposée dans le modèle
d’analyse en au minimum trois différentes compo- santes additives :
Yikl = mk + ai + eikl (1)
* Yikl est la lème performance de l’animal i, réalisée dans les conditions de milieu k,
* m
k est la somme des effets de milieu identifiés aux-
quels est soumise la performance. Elle inclut au mini-
mum la moyenne de la population p. Elle inclut géné-
ralement d’autres effets enregistrés et connus pour influencer la production. Dans le cas des bovins lai- tiers, le principal effet pris en compte est celui du troupeau, qui résume l’ensemble des conditions (cli- mat, région, niveau technique, alimentation, condi-
tions sanitaires, horaires de traites...) auxquelles
sont soumises toutes les vaches d’un même troupeau.
Un autre effet important est celui de l’année, tradui-
sant les variations climatiques et économiques. Du
fait de la forte interaction entre ces deux facteurs, on les combine en une entité synthétique, le troupeau- année, qui constitue la cellule de base pour la compa- raison des performances. Le numéro de lactation est
aussi inclus dans le modèle. Il est intéressant de noter qu’il est donc pris en compte deux fois : d’abord lors des ajustements préliminaires multiplicatifs a priori, en vue d’homogénéiser la variance génétique
entre performances de différentes lactations ; ensuite
dans le modèle, de façon additive, en vue d’ajuster
pour les différences de niveau. La production varie
aussi en fonction du mois de mise bas : en France, les lactations initiées en automne sont généralement plus productives que celles commencées en été. La
production augmente avec l’âge à la mise bas (en pre- mière lactation) et avec l’intervalle entre vêlages (pour les lactations suivantes) qui sont donc égale-
ment pris en compte. Ces quatre derniers facteurs pouvant varier selon les conditions, ils sont donc
considérés intra année et intra région. Ce modèle complexe contraste avec celui de nombreux autres pays, où les corrections a priori sont souvent plus importantes et raffinées et le modèle d’analyse au
contraire beaucoup plus simple.
A ce stade de la définition du modèle, dépendant
d’une analyse zootechnique préliminaire, il est crucial
de prendre en compte tous les facteurs affectant les
performances et, si possible, seulement eux. Si un
facteur n’est pas pris en compte, cet oubli sera en général à l’origine de biais dans l’évaluation et donc d’un mauvais classement des animaux. Inversement,
la prise en compte dans le modèle de facteurs inutiles est à éviter. D’une part, cela diminue le nombre de données auxquelles la performance est comparée et,
par conséquent, la précision de l’évaluation. D’autre part, les risques de disconnexion du dispositif aug- mentent, c’est-à-dire les risques de ne pas pouvoir
estimer tous les paramètres du modèle. A titre
d’exemple, imaginons un troupeau complètement
isolé génétiquement du reste de la population, n’utili-
sant aucun reproducteur de l’extérieur, et n’en ven- dant aucun. Il n’est alors pas possible de dissocier le niveau génétique moyen de ce troupeau de son niveau de conduite. Le niveau génétique de ce troupeau, par
rapport au reste de la population, n’est pas estimable et le dispositif n’est pas connecté. Ducrocq (1992) pré-
sente plus de détails sur cet aspect de définition du modèle.
&dquo;,
a, est la valeur génétique additive de l’animal i. Elle est toujours une valeur relative, exprimée en dévia-
tion à la population , c’est-à-dire aux autres indivi- dus. Par exemple, on ne peut pas dire que le potentiel
d’une vache est de 8000 kg de lait, mais seulement qu’il est à +500 kg au-dessus de la moyenne de la
population. Contrairement aux effets de milieu, on a
une certaine connaissance a priori de la distribution des effets génétiques. Parce que la valeur génétique
est supposée être la somme des petits effets d’un
grand nombre de gènes, sa distribution est normale.
Comme elle ne représente qu’une déviation à la popu-
lation, sa distribution a une espérance arbitraire- ment fixée à 0. Par définition de la valeur génétique additive, un parent transmet en espérance la moitié de sa valeur à son produit. Il en résulte une structure
de covariance (c’est-à-dire des relations statistiques)
entre les valeurs génétiques additives d’individus apparentés, proportionnelle au coefficient de parenté.
Enfin, dans une population non sélectionnée et non
consanguine, la distribution des valeurs génétiques
additives a pour variance 6a=, représentant seulement
une fraction, dite héritabilité h! de la variance phéno- typique des performances 6z. En résumé, la distribu- tion du vecteur a des effets ai peut être notée N(0, A (5!’ ), où A est la matrice de parenté de la population.
Le terme (p,q) de A est égal au coefficient de parenté
entre les individus p et q. Ce qui signifie que pour deux individus p et q, la corrélation entre leurs valeurs génétiques a,, et a!, est égale au coefficient de parenté entre p et q.
* e,,, est la résiduelle du modèle et englobe tout ce que le modèle ne peut pas expliquer, c’est-à-dire des effets de milieu non systématiques, l’erreur de mesure de la performance, la valeur génétique non additive... On
peut la comparer à un bruit de fond, que l’on souhaite le plus faible possible. Comme précédemment, elle est supposée être la somme de nombreux petits effets de
sorte que sa distribution est supposée normale, indé- pendante de celle de a et d’espérance nulle. Les
erreurs sont de plus supposées indépendantes les
unes des autres. Dans le cas le plus simple, elles sont supposées de même variance a,.2. En résumé, la distri- bution du vecteur e des erreurs est notée N(0, 1 cr}), 1
étant la matrice identité.
Soulignons dans ce qui précède que deux types d’effets apparaissent dans le modèle. Certains, les effets de milieu, sont dit &dquo;fixés&dquo;. Il n’est pas fait
d’hypothèse sur leur distribution et leur estimation
ne dépend que des données. Ainsi, par exemple, l’effet
d’un troupeau est estimé par la moyenne des perfor-
mances réalisées dans ce troupeau, corrigées pour les différences génétiques et les autres effets de milieu (mois, âge...). Au contraire, la valeur génétique est dite &dquo;aléatoire&dquo;, car on fait des hypothèses sur sa dis-
tribution. Son estimation n’est pas seulement fonc- tion des données, mais aussi de la connaissance de la valeur génétique a priori, découlant de ces hypo-
thèses. Ainsi, la valeur génétique d’un animal n’est pas estimée simplement par la moyenne y. des perfor-
mances réalisées par cet animal et corrigées pour les effets de milieu. Elle est obtenue en combinant l’information &dquo;performances&dquo; et l’information a priori.
Qu’est-ce que l’information a priori ? Nous revien- drons sur ce concept mais considérons un exemple simple pour fixer les idées. Soit un animal i, de père p et de mère m. Supposons que p et m soient évalués par ailleurs, et âp et âm sont leurs index respectifs.
Avant même que i ne réalise des performances, on a
une première estimation de a,, basée sur l’information
parentale : par définition, chaque parent a transmis
en espérance la moitié de sa valeur génétique à i et â, = â., = 1/2 (âp + âj constitue donc l’information a
priori. Lorsque i réalise une performance, cette infor-
mation supplémentaire ne remplace pas l’information
a priori, elle la complète, et cette information supplé-
mentaire est combinée avec l’information a priori,
avec les poids appropriés p&dquo; et p,, tels que p, + p, = 1 : ai p! y,+ p&dquo; â:,
2
/ Le modèle génétique
Les systèmes d’évaluation les plus modernes
actuellement reposent sur un modèle génétique très précis, dit &dquo;modèle animal&dquo;. Du fait de son importan-
ce, cette notion, déjà développée par Ducrocq (1992),
est reprise ici sous un angle historique.
Un parent transmettant la moitié de ses gènes, il
transmet en espérance la moitié de sa valeur géné- tique à son produit. Cependant, en raison des aléas de méiose liés au tirage au hasard des chromosomes transmis et aux recombinaisons, une partie de ce qui
est transmis ne peut pas être prédit à partir de la
valeur des parents et varie de façon aléatoire d’un gamète à l’autre. La valeur génétique d’un individu i peut donc s’écrire en fonction de celle de ses parents p et m:
où !; est l’aléa de méiose, indépendant de la valeur des parents (et donc de la sélection), d’espérance
nulle et de variance 1/2 6:!‘ dans une population non consanguine.
La formule (2) permet de présenter simplement
différents modèles et leurs relations. Historiquement,
l’évaluation génétique a été mise en place en même temps que le développement des programmes de sélection fondés sur l’insémination artificielle, en vue
d’évaluer les mâles mis en testage sur descendance.
L’individu évalué est donc le père, tandis que les per- formances sont réalisées par ses filles. Le modèle considéré est dit modèle père. L’individu évalué n’est pas celui qui réalise la performance. Le modèle s’écrit de la façon suivante :
Les composantes de la mère (1/2 a,,,) et de l’aléa de méiose 0, dans la valeur de i, qui n’apparaissent pas
dans (3), sont donc inclus dans la résiduelle, qui est
donc égale à
Les hypothèses, explicites ou implicites, d’un tel
modèle sont nombreuses. Les résiduelles sont suppo- sées indépendantes entre elles et indépendantes des
valeurs génétiques des pères. Pour que cette hypothè-
se soit respectée, les mâles sont donc supposés accou- plés à un échantillon aléatoire et non sélectionné de
femelles, qui n’ont qu’une fille chacune. Dans le modèle père, les femelles n’existent pas en tant que
telles, et les apparentements entre femelles ne peu- vent donc pas être pris en compte. Le modèle père peut considérer les apparentements entre mâles [Var(a) = A o,!]. Dans ce cas, l’index d’un mâle com-
bine la performance moyenne de ses filles Je et la
valeur des autres mâles apparentés. Simplification supplémentaire, les parentés entre mâles peuvent
être ignorées [Var(a) = Ia&dquo;l]. Dans ce cas, les mâles sont tous indépendants les uns des autres et reçoi-
vent tous la même valeur a priori : 0. Leur index
s’écrit donc :
Le modèle père a pour avantage d’être relative- ment facile à résoudre, puisque le nombre d’incon-
nues du système d’équations est limité au nombre de
mâles et d’effets de milieu. Mais il a plusieurs incon-
vénients majeurs. D’abord, il ne fournit aucune éva-
luation des autres individus et en particulier des
vaches candidates pour procréer la nouvelle généra-
tion de mâles. Or il s’agit d’une phase très importante
du programme. Ensuite, il est de moins en moins valide au fur et à mesure que le programme de sélec- tion est plus efficace et que les hypothèses sur lequel
il repose sont moins respectées. Le niveau des mères n’est pas constant dans le temps ni entre troupeaux.
Les accouplements n’ont pas lieu au hasard mais au
contraire sont systématiquement raisonnés (homoga-
mie). En pratique, le modèle père n’est valide que lors de la mise en place d’un programme.
Plusieurs autres modèles, plus précis et reposant
sur des hypothèses moins restrictives et moins nom-
breuses, ont été envisagés. Pour chacun, le principe
est le même : compléter le modèle par de nouveaux
paramètres à estimer, et ainsi réduire l’importance
de la résiduelle. Le modèle le plus précis, et utilisé actuellement, est le modèle animal. La valeur géné- tique introduite dans le modèle d’analyse est celle de
l’animal réalisant la performance.
La résiduelle, qui ne contient plus aucune compo- sante génétique additive, a donc une variance mini- male. Un tel modèle fournit des estimations de valeurs génétiques qui, sous certaines conditions sur
lesquelles nous reviendrons, sont insensibles à l’évo- lution de la variabilité génétique, à la sélection et à
l’homogamie. Toutes les parentés sont prises en compte, c’est-à-dire que l’index d’un individu combine l’information de tous ses apparentés, qui peuvent être
très nombreux. En revanche, le nombre d’équations à résoudre, toujours supérieur au nombre d’animaux évalués, est généralement très élevé.
3 / Introduction
auxnotations
matricielles ; modèle à effets
fixés
Pour une présentation rigoureuse, il est indispen-
sable d’utiliser les notations matricielles. Nous rappe- lons ici, sans les démontrer, les quelques notions
essentielles pour la suite. Considérons le modèle très
simple suivant, à un facteur m où Yu est la jème per- formance réalisée dans le milieu i :
y,, = ni, + e,
j (5)
Le facteur m comptant k modalités, ce modèle peut
se réécrire :
y,, = 0 ni, +... 1 mi...+ 0 ni, + eij (6)
Une ligne de ce type peut être écrite pour chaque performance, soit n lignes au total. Ce tableau de n
lignes se réécrit sous forme matricielle :
y=Xm + e (7)
avec y le vecteur colonne des n performances (connues), e le vecteur colonne des n erreurs (incon-
nues, à minimiser), m le vecteur colonne des k effets inconnus (à estimer), X une matrice n x k, connue, dite matrice d’incidence. Chaque ligne de X corres- pond à une performance. Elle est constituée des coef- ficients 0 et 1 affectant les effets dans la formule (6).
X est illustrée dans l’exemple suivant, où 4 perfor-
mances (y, = 10, y, = 11, y3 = 13, Y4 = 14) sont expli- quées par un facteur à deux niveaux (ni, et mz). yi et
Y2
sont soumis à mitandis que Yl et Y4 sont soumis à
ni,. On peut alors écrire les 4 équations :
ou, selon (7), de façon équivalente sous forme matri- cielle, avec
Le modèle est d’autant plus précis que l’erreur e
est plus réduite. L’estimation de m est donc obtenue
en minimisant e, ou plus exactement la somme des carrés des erreurs, soit e’e. En annulant la dérivée de e’e par rapport à m, on obtient la solution suivante, dite solution des moindres carrés :
m = (X’X)°
X’y
(8)X’ signifie transposée de X. Son élément (ij) est l’élé-
ment (j,i) de X. (X’X)&dquo; signifie inverse généralisée de
X’X. Développons cette expression (8) :
X’X est une matrice contenant l’effectif de données dans chaque combinaison i x j de facteurs : il y a deux données affectées par m,, deux données affectées par
m! et aucune donnée affectée à la fois par mi et par m,. De même,
X’y est donc la somme des performances par niveau de facteur. m est alors estimé par :
Dans ce cas très simple, l’estimation des moindres carrés de m est la moyenne des données par niveau de facteur. La précision de cette estimation est don- née par l’inverse de la variance d’erreur. La variance d’erreur d’une moyenne est la variance résiduelle divisée par l’effectif, soit dans le cas présent a,.2/2.
Cette expression est retrouvée et généralisée de façon
matricielle : :-- - ----.---- ----.
Ces principaux résultats vont être utilisés dans la
partie suivante.
4
/ La combinaison des différentes informations
__
Il existe plusieurs méthodes pour présenter com-
ment les différentes informations sont combinées entre elles pour obtenir un index. Elles sont toutes
assez complexes. Celle que nous avons choisie est la
plus intuitive. Le modèle général (1) peut être écrit
sous forme matricielle :
avec y le vecteur des n performances, m le vecteur
des nm niveaux de facteurs de milieu, a le vecteur des
n
a valeurs génétiques, X la matrice de dimension (n, n,,,), constituée de 0 et de 1, le terme (p,q) étant égal à
1 si la performance p est soumise au niveau de fac- teur q, Z la matrice de dimension (n, n!), constituée de 0 et de 1, le terme (p,q) étant égal à 1 si la perfor-
mance p est soumise à l’effet a,, et e le vecteur des n
résiduelles.
4.1 / Effets
génétiques
Dans un premier temps, on suppose pour simpli-
fier la présentation que les effets de milieu sont
connus. Comme les effets génétiques sont des effets