• Aucun résultat trouvé

L'évaluation des reproducteurs. Le modèle sous-jacent à l'estimation des valeurs génétiques

N/A
N/A
Protected

Academic year: 2021

Partager "L'évaluation des reproducteurs. Le modèle sous-jacent à l'estimation des valeurs génétiques"

Copied!
12
0
0

Texte intégral

(1)

HAL Id: hal-02713922

https://hal.inrae.fr/hal-02713922

Submitted on 1 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

L’évaluation des reproducteurs. Le modèle sous-jacent à l’estimation des valeurs génétiques

Didier Boichard, Bernard Bonaiti, Anne Barbat, Michèle Briend

To cite this version:

Didier Boichard, Bernard Bonaiti, Anne Barbat, Michèle Briend. L’évaluation des reproducteurs. Le modèle sous-jacent à l’estimation des valeurs génétiques. Productions animales, Institut National de la Recherche Agronomique, 1992, 1992, pp.185-195. �hal-02713922�

(2)

D. BOICHARD, B.

BONAÏTI,

Anne BARBAT Michèle BRIEND

INRA Station de Génétique Quantitatiue et Appliquée 78352 Jouy-en-Josas Cedex

L’évaluation des reproducteurs

Le modèle sous-jacent à

l’évaluation des valeurs

génétiques

Résumé.

La valeur

génétique

additive peut être

prédite

en modélisant d’une part les

performances,

d’autre part le déterminisme

génétique

des caractères. Les

performances

sont

décomposées

en

effets génétiques,

en

effets

de milieu

identifiés

et en une résiduelle du modèle, constituée de

multiples effets

génétiques

ou de milieu non

identifiés

et non maîtrisés. Si le déterminisme du caractère est

polygénique additif,

la corrélation entre les valeurs

génétiques

de deux individus est

proportionnelle

à leur

coefficaent

de parenté. Toute

l’information (performances, facteurs

de variation, relations de

parenté)

est combinée en un système

d’équations

unique qui ermet d’estimer simultanément les

effets génétiques

et les

effets

de milieu.

L’adoption

d’un

modèle "animal"p ermet

de combiner toute cette

information

de

façon optimale

et de

prendre

en compte

l’effet

de la sélection et des

accouplements

non

au hasard dans la

population.

Grâce à la structure de l’inverse de la matrice de parentés, le modèle

animal

fournit

des équations très

simples, facilitant l’explication

et la

diffusion de

son principe : un

effet

de milieu est estimé par une moyenne de

performances ajustées ;

l’index d’un individu combine trois

informations,

sur ascendance, sur

descendance

et sur

performances

propres. Le modèle est

souple

et peut

facilement

être

modifié

pour

prendre

en compte des situations

complexes.

L’évaluation

génétique

est bien sûr un outil de sélection mais, compte tenu de ses

propriétés,

représente aussi un outil

puissant

de

diagnostic

et de

prévision.

La performance d’un individu (ou valeur phénoty- pique) est déterminée par des effets génétiques et des

effets de milieu. La part d’origine génétique peut elle-

même être décomposée en une part dûe aux effets additifs individuels de chaque gène, dite valeur géné- tique additive, et une composante liée aux interac- tions entre gènes au même locus (dominance) et entre locus (épistasie). Seule la valeur génétique additive

se transmet d’une génération à l’autre, tandis que les interactions sont recréées aléatoirement à chaque génération. Dans un programme de sélection intra

population, on cherche donc à augmenter la valeur génétique additive, en retenant comme reproducteurs

à chaque génération les individus à valeur génétique

additive la plus élevée.

Toutefois, la valeur génétique additive n’est pas

une donnée observable. L’évaluation génétique, ou

"indexation", a pour objectif d’estimer au mieux la

valeur génétique des animaux reproducteurs poten- tiels. Elle est donc un outil primordial d’aide à la

sélection puisqu’elle fournit en pratique le critère

optimal pour réaliser le choix des reproducteurs. Elle permet aussi de mesurer a posteriori l’efficacité des programmes de sélection. Cet article vise à présenter

les principes de l’évaluation des reproducteurs dans

le cadre particulier des caractères laitiers.

1

/ Le modèle de description

des données

L’évaluation génétique laitière découle directe- ment du modèle génétique et statistique de descrip-

tion des données, présenté par Ducrocq (1992), et en

constitue une application importante. Elle repose sur deux types d’informations : d’une part les perfor-

mances laitières, d’autre part les généalogies. Ces

informations sont disponibles grâce à une gestion organisée de l’information et à un système d’identifi- cation des animaux fiable et permanent : depuis la loi

de l’élevage de 1966, tous les bovins ont un numéro

permanent et unique à 10 caractères.

Les performances (quantité de lait produite le jour

du contrôle, taux butyreux et taux protéique) sont

mesurées mensuellement sur les animaux inscrits au

Contrôle laitier, qui constituent la base de sélection.

Actuellement, 2,5 millions de vaches sont au contrôle

laitier, soit près de la moitié du cheptel français.

Ces données brutes ne sont pas analysées directe-

ment. La première étape vise à définir les caractères à analyser. Les productions par lactation sont calcu- lées à partir des contrôles mensuels pour 5 caractères : les quantités de lait, de matière grasse, de matière protéique, le taux butyreux et le taux pro-

téique. La production par lactation n’est connue exac-

tement que lorsque la lactation est terminée.

Toutefois, on peut l’extrapoler avec une précision rai-

(3)

sonnable pour les lactations en cours. Les produc-

tions extrapolées sont donc aussi analysées, permet-

tant une évaluation des animaux plus précoce.

L’évaluation consiste ensuite à décomposer la per- formance observée en un effet génétique et des effets

de milieu. On considère en général trois types d’effets de milieu :

- ceux dont on connait à la fois la cause et l’ampli-

tude. Les performances sont alors corrigées a priori

pour ces effets. Par exemple, les performances dépen-

dant de la durée de la lactation, sont standardisées pour une durée de 305 jours. Les animaux adultes produisant plus que les primipares, les productions

sont exprimées en équivalent-adulte.

- ceux dont on a identifié la cause mais dont on ne

connait pas l’amplitude. L’effet doit alors être estimé dans le modèle d’analyse. Par exemple, on sait que le troupeau est un facteur influençant les performances,

mais on ne connait pas a priori l’effet d’un troupeau particulier.

- ceux qu’on ne maîrise pas du tout. Ils constituent l’erreur du modèle, qu’on cherche à minimiser.

Il est important de remarquer que les effets que l’on estime sont en général supposés additifs : ils affectent de façon identique toutes les performances, quels que soient leurs niveaux. Par contre, les effets

connus a priori peuvent être corrigés de façon additi-

ve ou multiplicative, et ce choix n’est pas neutre. Par

une correction multiplicative, on change à la fois le niveau et la variabilité des performances. En pra-

tique, les corrections a priori sont généralement mul- tiplicatives, de façon à homogénéiser la variabilité des performances, tandis que le modèle d’analyse vise

ensuite à en corriger le niveau de façon additive.

Ainsi, les lactations de primipares sont transformées

en équivalent adulte par un coefficient de 1,3. Leur

niveau comme leur variabilité sont donc augmentés de 30 %.

Après cette standardisation préliminaire, chaque performance est ensuite décomposée dans le modèle

d’analyse en au minimum trois différentes compo- santes additives :

Yikl = mk + ai + eikl (1)

* Yikl est la lème performance de l’animal i, réalisée dans les conditions de milieu k,

* m

k est la somme des effets de milieu identifiés aux-

quels est soumise la performance. Elle inclut au mini-

mum la moyenne de la population p. Elle inclut géné-

ralement d’autres effets enregistrés et connus pour influencer la production. Dans le cas des bovins lai- tiers, le principal effet pris en compte est celui du troupeau, qui résume l’ensemble des conditions (cli- mat, région, niveau technique, alimentation, condi-

tions sanitaires, horaires de traites...) auxquelles

sont soumises toutes les vaches d’un même troupeau.

Un autre effet important est celui de l’année, tradui-

sant les variations climatiques et économiques. Du

fait de la forte interaction entre ces deux facteurs, on les combine en une entité synthétique, le troupeau- année, qui constitue la cellule de base pour la compa- raison des performances. Le numéro de lactation est

aussi inclus dans le modèle. Il est intéressant de noter qu’il est donc pris en compte deux fois : d’abord lors des ajustements préliminaires multiplicatifs a priori, en vue d’homogénéiser la variance génétique

entre performances de différentes lactations ; ensuite

dans le modèle, de façon additive, en vue d’ajuster

pour les différences de niveau. La production varie

aussi en fonction du mois de mise bas : en France, les lactations initiées en automne sont généralement plus productives que celles commencées en été. La

production augmente avec l’âge à la mise bas (en pre- mière lactation) et avec l’intervalle entre vêlages (pour les lactations suivantes) qui sont donc égale-

ment pris en compte. Ces quatre derniers facteurs pouvant varier selon les conditions, ils sont donc

considérés intra année et intra région. Ce modèle complexe contraste avec celui de nombreux autres pays, les corrections a priori sont souvent plus importantes et raffinées et le modèle d’analyse au

contraire beaucoup plus simple.

A ce stade de la définition du modèle, dépendant

d’une analyse zootechnique préliminaire, il est crucial

de prendre en compte tous les facteurs affectant les

performances et, si possible, seulement eux. Si un

facteur n’est pas pris en compte, cet oubli sera en général à l’origine de biais dans l’évaluation et donc d’un mauvais classement des animaux. Inversement,

la prise en compte dans le modèle de facteurs inutiles est à éviter. D’une part, cela diminue le nombre de données auxquelles la performance est comparée et,

par conséquent, la précision de l’évaluation. D’autre part, les risques de disconnexion du dispositif aug- mentent, c’est-à-dire les risques de ne pas pouvoir

estimer tous les paramètres du modèle. A titre

d’exemple, imaginons un troupeau complètement

isolé génétiquement du reste de la population, n’utili-

sant aucun reproducteur de l’extérieur, et n’en ven- dant aucun. Il n’est alors pas possible de dissocier le niveau génétique moyen de ce troupeau de son niveau de conduite. Le niveau génétique de ce troupeau, par

rapport au reste de la population, n’est pas estimable et le dispositif n’est pas connecté. Ducrocq (1992) pré-

sente plus de détails sur cet aspect de définition du modèle.

&dquo;,

a, est la valeur génétique additive de l’animal i. Elle est toujours une valeur relative, exprimée en dévia-

tion à la population , c’est-à-dire aux autres indivi- dus. Par exemple, on ne peut pas dire que le potentiel

d’une vache est de 8000 kg de lait, mais seulement qu’il est à +500 kg au-dessus de la moyenne de la

population. Contrairement aux effets de milieu, on a

une certaine connaissance a priori de la distribution des effets génétiques. Parce que la valeur génétique

est supposée être la somme des petits effets d’un

grand nombre de gènes, sa distribution est normale.

Comme elle ne représente qu’une déviation à la popu-

lation, sa distribution a une espérance arbitraire- ment fixée à 0. Par définition de la valeur génétique additive, un parent transmet en espérance la moitié de sa valeur à son produit. Il en résulte une structure

de covariance (c’est-à-dire des relations statistiques)

entre les valeurs génétiques additives d’individus apparentés, proportionnelle au coefficient de parenté.

Enfin, dans une population non sélectionnée et non

consanguine, la distribution des valeurs génétiques

additives a pour variance 6a=, représentant seulement

une fraction, dite héritabilité h! de la variance phéno- typique des performances 6z. En résumé, la distribu- tion du vecteur a des effets ai peut être notée N(0, A (5!’ ), où A est la matrice de parenté de la population.

Le terme (p,q) de A est égal au coefficient de parenté

entre les individus p et q. Ce qui signifie que pour deux individus p et q, la corrélation entre leurs valeurs génétiques a,, et a!, est égale au coefficient de parenté entre p et q.

(4)

* e,,, est la résiduelle du modèle et englobe tout ce que le modèle ne peut pas expliquer, c’est-à-dire des effets de milieu non systématiques, l’erreur de mesure de la performance, la valeur génétique non additive... On

peut la comparer à un bruit de fond, que l’on souhaite le plus faible possible. Comme précédemment, elle est supposée être la somme de nombreux petits effets de

sorte que sa distribution est supposée normale, indé- pendante de celle de a et d’espérance nulle. Les

erreurs sont de plus supposées indépendantes les

unes des autres. Dans le cas le plus simple, elles sont supposées de même variance a,.2. En résumé, la distri- bution du vecteur e des erreurs est notée N(0, 1 cr}), 1

étant la matrice identité.

Soulignons dans ce qui précède que deux types d’effets apparaissent dans le modèle. Certains, les effets de milieu, sont dit &dquo;fixés&dquo;. Il n’est pas fait

d’hypothèse sur leur distribution et leur estimation

ne dépend que des données. Ainsi, par exemple, l’effet

d’un troupeau est estimé par la moyenne des perfor-

mances réalisées dans ce troupeau, corrigées pour les différences génétiques et les autres effets de milieu (mois, âge...). Au contraire, la valeur génétique est dite &dquo;aléatoire&dquo;, car on fait des hypothèses sur sa dis-

tribution. Son estimation n’est pas seulement fonc- tion des données, mais aussi de la connaissance de la valeur génétique a priori, découlant de ces hypo-

thèses. Ainsi, la valeur génétique d’un animal n’est pas estimée simplement par la moyenne y. des perfor-

mances réalisées par cet animal et corrigées pour les effets de milieu. Elle est obtenue en combinant l’information &dquo;performances&dquo; et l’information a priori.

Qu’est-ce que l’information a priori ? Nous revien- drons sur ce concept mais considérons un exemple simple pour fixer les idées. Soit un animal i, de père p et de mère m. Supposons que p et m soient évalués par ailleurs, et âp et âm sont leurs index respectifs.

Avant même que i ne réalise des performances, on a

une première estimation de a,, basée sur l’information

parentale : par définition, chaque parent a transmis

en espérance la moitié de sa valeur génétique à i et â, = â., = 1/2 (âp + âj constitue donc l’information a

priori. Lorsque i réalise une performance, cette infor-

mation supplémentaire ne remplace pas l’information

a priori, elle la complète, et cette information supplé-

mentaire est combinée avec l’information a priori,

avec les poids appropriés p&dquo; et p,, tels que p, + p, = 1 : ai p! y,+ p&dquo; â:,

2

/ Le modèle génétique

Les systèmes d’évaluation les plus modernes

actuellement reposent sur un modèle génétique très précis, dit &dquo;modèle animal&dquo;. Du fait de son importan-

ce, cette notion, déjà développée par Ducrocq (1992),

est reprise ici sous un angle historique.

Un parent transmettant la moitié de ses gènes, il

transmet en espérance la moitié de sa valeur géné- tique à son produit. Cependant, en raison des aléas de méiose liés au tirage au hasard des chromosomes transmis et aux recombinaisons, une partie de ce qui

est transmis ne peut pas être prédit à partir de la

valeur des parents et varie de façon aléatoire d’un gamète à l’autre. La valeur génétique d’un individu i peut donc s’écrire en fonction de celle de ses parents p et m:

!; est l’aléa de méiose, indépendant de la valeur des parents (et donc de la sélection), d’espérance

nulle et de variance 1/2 6:!‘ dans une population non consanguine.

La formule (2) permet de présenter simplement

différents modèles et leurs relations. Historiquement,

l’évaluation génétique a été mise en place en même temps que le développement des programmes de sélection fondés sur l’insémination artificielle, en vue

d’évaluer les mâles mis en testage sur descendance.

L’individu évalué est donc le père, tandis que les per- formances sont réalisées par ses filles. Le modèle considéré est dit modèle père. L’individu évalué n’est pas celui qui réalise la performance. Le modèle s’écrit de la façon suivante :

Les composantes de la mère (1/2 a,,,) et de l’aléa de méiose 0, dans la valeur de i, qui n’apparaissent pas

dans (3), sont donc inclus dans la résiduelle, qui est

donc égale à

Les hypothèses, explicites ou implicites, d’un tel

modèle sont nombreuses. Les résiduelles sont suppo- sées indépendantes entre elles et indépendantes des

valeurs génétiques des pères. Pour que cette hypothè-

se soit respectée, les mâles sont donc supposés accou- plés à un échantillon aléatoire et non sélectionné de

femelles, qui n’ont qu’une fille chacune. Dans le modèle père, les femelles n’existent pas en tant que

telles, et les apparentements entre femelles ne peu- vent donc pas être pris en compte. Le modèle père peut considérer les apparentements entre mâles [Var(a) = A o,!]. Dans ce cas, l’index d’un mâle com-

bine la performance moyenne de ses filles Je et la

valeur des autres mâles apparentés. Simplification supplémentaire, les parentés entre mâles peuvent

être ignorées [Var(a) = Ia&dquo;l]. Dans ce cas, les mâles sont tous indépendants les uns des autres et reçoi-

vent tous la même valeur a priori : 0. Leur index

s’écrit donc :

Le modèle père a pour avantage d’être relative- ment facile à résoudre, puisque le nombre d’incon-

nues du système d’équations est limité au nombre de

mâles et d’effets de milieu. Mais il a plusieurs incon-

vénients majeurs. D’abord, il ne fournit aucune éva-

luation des autres individus et en particulier des

vaches candidates pour procréer la nouvelle généra-

tion de mâles. Or il s’agit d’une phase très importante

du programme. Ensuite, il est de moins en moins valide au fur et à mesure que le programme de sélec- tion est plus efficace et que les hypothèses sur lequel

il repose sont moins respectées. Le niveau des mères n’est pas constant dans le temps ni entre troupeaux.

Les accouplements n’ont pas lieu au hasard mais au

contraire sont systématiquement raisonnés (homoga-

mie). En pratique, le modèle père n’est valide que lors de la mise en place d’un programme.

Plusieurs autres modèles, plus précis et reposant

sur des hypothèses moins restrictives et moins nom-

breuses, ont été envisagés. Pour chacun, le principe

est le même : compléter le modèle par de nouveaux

paramètres à estimer, et ainsi réduire l’importance

de la résiduelle. Le modèle le plus précis, et utilisé actuellement, est le modèle animal. La valeur géné- tique introduite dans le modèle d’analyse est celle de

l’animal réalisant la performance.

(5)

La résiduelle, qui ne contient plus aucune compo- sante génétique additive, a donc une variance mini- male. Un tel modèle fournit des estimations de valeurs génétiques qui, sous certaines conditions sur

lesquelles nous reviendrons, sont insensibles à l’évo- lution de la variabilité génétique, à la sélection et à

l’homogamie. Toutes les parentés sont prises en compte, c’est-à-dire que l’index d’un individu combine l’information de tous ses apparentés, qui peuvent être

très nombreux. En revanche, le nombre d’équations à résoudre, toujours supérieur au nombre d’animaux évalués, est généralement très élevé.

3 / Introduction

aux

notations

matricielles ; modèle à effets

fixés

Pour une présentation rigoureuse, il est indispen-

sable d’utiliser les notations matricielles. Nous rappe- lons ici, sans les démontrer, les quelques notions

essentielles pour la suite. Considérons le modèle très

simple suivant, à un facteur m Yu est la jème per- formance réalisée dans le milieu i :

y,, = ni, + e,

j (5)

Le facteur m comptant k modalités, ce modèle peut

se réécrire :

y,, = 0 ni, +... 1 mi...+ 0 ni, + eij (6)

Une ligne de ce type peut être écrite pour chaque performance, soit n lignes au total. Ce tableau de n

lignes se réécrit sous forme matricielle :

y=Xm + e (7)

avec y le vecteur colonne des n performances (connues), e le vecteur colonne des n erreurs (incon-

nues, à minimiser), m le vecteur colonne des k effets inconnus (à estimer), X une matrice n x k, connue, dite matrice d’incidence. Chaque ligne de X corres- pond à une performance. Elle est constituée des coef- ficients 0 et 1 affectant les effets dans la formule (6).

X est illustrée dans l’exemple suivant, où 4 perfor-

mances (y, = 10, y, = 11, y3 = 13, Y4 = 14) sont expli- quées par un facteur à deux niveaux (ni, et mz). yi et

Y2

sont soumis à mitandis que Yl et Y4 sont soumis à

ni,. On peut alors écrire les 4 équations :

ou, selon (7), de façon équivalente sous forme matri- cielle, avec

Le modèle est d’autant plus précis que l’erreur e

est plus réduite. L’estimation de m est donc obtenue

en minimisant e, ou plus exactement la somme des carrés des erreurs, soit e’e. En annulant la dérivée de e’e par rapport à m, on obtient la solution suivante, dite solution des moindres carrés :

m = (X’X)°

X’y

(8)

X’ signifie transposée de X. Son élément (ij) est l’élé-

ment (j,i) de X. (X’X)&dquo; signifie inverse généralisée de

X’X. Développons cette expression (8) :

X’X est une matrice contenant l’effectif de données dans chaque combinaison i x j de facteurs : il y a deux données affectées par m,, deux données affectées par

m! et aucune donnée affectée à la fois par mi et par m,. De même,

X’y est donc la somme des performances par niveau de facteur. m est alors estimé par :

Dans ce cas très simple, l’estimation des moindres carrés de m est la moyenne des données par niveau de facteur. La précision de cette estimation est don- née par l’inverse de la variance d’erreur. La variance d’erreur d’une moyenne est la variance résiduelle divisée par l’effectif, soit dans le cas présent a,.2/2.

Cette expression est retrouvée et généralisée de façon

matricielle : :-- - ----.---- ----.

Ces principaux résultats vont être utilisés dans la

partie suivante.

4

/ La combinaison des différentes informations

__

Il existe plusieurs méthodes pour présenter com-

ment les différentes informations sont combinées entre elles pour obtenir un index. Elles sont toutes

assez complexes. Celle que nous avons choisie est la

plus intuitive. Le modèle général (1) peut être écrit

sous forme matricielle :

avec y le vecteur des n performances, m le vecteur

des nm niveaux de facteurs de milieu, a le vecteur des

n

a valeurs génétiques, X la matrice de dimension (n, n,,,), constituée de 0 et de 1, le terme (p,q) étant égal à

1 si la performance p est soumise au niveau de fac- teur q, Z la matrice de dimension (n, n!), constituée de 0 et de 1, le terme (p,q) étant égal à 1 si la perfor-

mance p est soumise à l’effet a,, et e le vecteur des n

résiduelles.

4.1 / Effets

génétiques

Dans un premier temps, on suppose pour simpli-

fier la présentation que les effets de milieu sont

connus. Comme les effets génétiques sont des effets

Références

Documents relatifs

L’une  des  modalités  de  sélection  envisagées  dans  les  lignées 

Les corrélations obtenues entre les valeurs génétiques estimées aux Etats-Unis et les performances moyennes des filles des mêmes taureaux en France n’excluent pas

solved using results obtained in the section for unknown fixed effects and known variance components, taking a at the modal values of the posterior density of

Le modèle animal par rapport au modèle père semble le plus approprié pour estimer les paramètres génétiques, dû à l’écart de l’erreur type entre les deux

CONSTITUTION DE LA BASE DE REFERENCE Les valeurs génétiques sont exprimées en écart à une base de référence constituée de la population de base ou des reproducteurs déjà

Les connexions entre pays peuvent btre de trois natures diffbrentes. 1) Des taureaux sont utilisks dans deux pays, successivement (le premier pays teste le taureau puis l'uti-

Pour toutes les variables, les differences entre races n'ont pa$ CtC significatives mais les hCritabilitCs et les repktabilites estin~Ces ont CtC plus faibles en race

L'ttude des relations enue les valeurs gtnt- tiques obtenues par les taureaux des races Charolaise, Limousine et Blonde d'Aquitaine Cvaluts dans les deux systkmes avec des normes