• Aucun résultat trouvé

H. Leclerc1,2† et V. Ducrocq1

1

INRA, UR337, Station de Génétique Quantitative et Appliquée. 78352 Jouy-en-Josas

2

Institut de l’Elevage, Département de Génétique, INRA-SGQA, 78352 Jouy-en-Josas Courriel : helene.leclerc@jouy.inra.fr

Résumé

Le développement des évaluations génétiques des caractères de production laitière basées sur les données de contrôles élémentaires constitue un défi en termes informatiques. En effet, d’une part le nombre de paramètres des modèles employés est généralement élevé afin de modéliser finement la production sous forme de courbes fonction du stade de lactation et d’autre part le nombre de données à traiter peut atteindre dans certains pays plusieurs centaines de millions d’enregistrements. Pour répondre à ces contraintes, une des approches proposées consiste à utiliser des modèles de contrôles élémentaires de rang réduit. A travers cette étude, nous avons cherché à quantifier l’impact de tels modèles sur les valeurs estimées des différents effets aléatoires du modèle. Pour réduire le rang des matrices des effets aléatoires, deux approches ont été testées : l’une basée sur la décomposition de la matrice de corrélation et l’autre basée sur la matrice de covariance. Les corrélations obtenues entre les valeurs estimées avec un modèle de référence et les valeurs estimées avec un modèle de rang réduit étant proches ou supérieures à 0.99, elles permettent d’envisager sereinement l’utilisation d’un modèle de contrôles élémentaires de rang réduit pour la réalisation de l’évaluation génétique. Quant au choix de l’approche de réduction du rang, les résultats obtenus mettent clairement en avant les avantages de l’approche basée sur la matrice de covariance, surtout dans le cas de l’effet d’environnement permanent. Les corrélations obtenues pour cet effet varient de façon plus ou moins importante suivant l’approche employée.

Cet article n’a pas vocation d’être soumis dans l’état actuel mais constitue une base de travail pour des études

Introduction

Les caractères de production laitière occupent une place primordiale dans le choix des animaux reproducteurs. L’évaluation génétique sur les caractères laitiers reposait jusqu’il y a peu sur la production cumulée en 305 jours. Depuis le début des années 2000, la majeure partie des grands pays laitiers se sont orientés vers les modèles dits de contrôles élémentaires (TDM pour Test-Day Model) qui valorisent pleinement l’ensemble des informations recueillies au cours de la lactation de l’animal (Schaeffer et al., 2000 ; De Roos et al., 2001 ; Reinhardt et al, 2002 ; Lidauer et al., 2006). Ces modèles présentent de nombreux intérêts. Ils permettent notamment de prendre en compte les effets d’environnement spécifiques du jour du contrôle, de modéliser la plupart des effets fixes et aléatoires sous forme de courbes dont la trajectoire varie suivant le stade de lactation. Cependant, ces modèles dépendent d’une part d’un nombre élevé de paramètres et d’autre part nécessitent d’analyser un nombre de données environ dix fois supérieur aux modèles basés sur les données de lactation. Les aspects calculatoires tels que les besoins en mémoire et les temps de calcul constituent donc un enjeu majeur du développement des modèles « contrôles élémentaires ».

Dans les modèles de régression aléatoire (RR-TDM pour Random Regression-TDM), les effets aléatoires tels que l’effet génétique et l’effet d’environnement sont modélisés sous forme de courbes. L’impact de ces effets sur la performance peut ainsi varier suivant le stade de lactation. Même si les modèles « contrôles élémentaires » diffèrent suivant les pays, les effets aléatoires sont généralement modélisés à l’aide de 3 paramètres par lactation, permettant de tenir compte de l’évolution de la structure des variances et covariances au cours de la lactation. C’est notamment le cas du modèle unicaractère allemand (Reinhardt et al, 2002), où l’effet génétique et l’effet d’environnement permanent dépendent de 9 paramètres chacun. C’est également le cas au Canada, où les quatre caractères (quantité de lait, quantité de matière grasse (MG), quantité de matière protéique (MP) et score de cellules somatiques) pour chacune des lactations sont évalués conjointement ce qui nécessite l’estimation de 36 effets génétiques par animal et 36 effets d’environnement permanent par vache ayant des contrôles enregistrés. Face au défi calculatoire que représentent de tels modèles, certains chercheurs ont proposé de recourir à des modèles RR-TDM de rang réduit (Wiggans and Goddard, 1997 ; Van der Werf et al., 1998, Misztal et al., 2000). Ces modèles découlent des approches dites de composantes principales (PC), techniques largement utilisées pour réduire la dimension par extraction et sélection des caractéristiques principales des données. Les analyses en composantes principales reposent sur le calcul des valeurs propres et vecteurs

appelés composantes principales, sont des fonctions linéaires ne dépendant plus directement des variables initiales. Les valeurs propres correspondantes mesurent la part de variation expliquée par chacun des effets associés à ces vecteurs propres. Ainsi, la composante n explique le maximum de la variation restée sans explication dans les composantes 1 à n-1. Souvent, les dernières composantes contribuent peu à la variabilité des données et peuvent être exclues de l’analyse sans réel impact sur les résultats. Le principal intérêt est de réduire ainsi les besoins en mémoire et les temps de calcul. Par exemple, dans une étude sur une évaluation TDM multicaractères où chaque mois de lactation est considéré comme un caractère distinct, Wiggans et Goddard (1997) proposent de réduire le rang d’une matrice de (co)variance génétique de 60 caractères (3 caractères laitiers : (Lait, MG et MP) ; 1ère lactation vs lactations suivantes ; 10 périodes mensuelles de lactation) à 6 caractères combinés. Dans le modèle d’évaluation génétique sur les contrôles élémentaires testés en Finlande, Lidauer et al. (2003) conservent parmi les 12 coefficients de l’effet génétique et les 9 coefficients de l’effet d’environnement permanent les 6 valeurs propres les plus importantes pour chacun des effets, expliquant respectivement 96% et 97% de la variance. Les corrélations entre valeurs génétiques estimées avec un modèle de plein rang et un modèle de rang réduit sont supérieures à 0.995 aussi bien pour les taureaux que pour les jeunes vaches. Ces résultats prometteurs ouvrent des perspectives pour contourner les limites calculatoires liées au développement d’une évaluation génétique sur les contrôles élémentaires dans les pays où la population compte par exemple plus de 10 millions d’animaux à évaluer comme c’est le cas en France. Ces approches calculatoires ont également été proposées dans le cadre des évaluations internationales afin de rendre possible la mise en œuvre d’évaluations multicaractères (Sullivan and Wilton, 2001 ; Liu et al., 2004), notamment pour permettre la prise en compte des différentes informations issues des modèles « contrôles élémentaires ». Dans un contexte où les contraintes calculatoires limitent actuellement la mise en œuvre de l’évaluation génétique sur les contrôles élémentaire en France, le premier objectif de cette étude était de quantifier l’impact d’une réduction du rang des matrices des différents effets aléatoires sur les solutions estimées. Pour cela, nous avons évalué les conséquences d’une réduction d’un tiers de la dimension des matrices sur l’évaluation génétique, en l’occurrence sur d’une part les index élémentaires des régressions aléatoires et d’autre part leur combinaison en une valeur globale. Deux approchesde réduction du rang des matrices ont été testées, l’une portant sur les matrices de corrélation (COR) et l’autre sur les matrices de covariance (COV). Le second objectif de cette étude était donc de déterminer l’approche la plus adaptée pour effectuer cette réduction.

Matériels et Méthodes