• Aucun résultat trouvé

SOMMAIRE du Chapitre

Partie 2.4 Le modèle « contrôles élémentaires » pressenti en France

1. Modélisation des données longitudinales

1.1. Les différents modèles contrôles élémentaires (TDM)

1.1.2. Les modèles avec régression aléatoire (RR-TDM)

Schaeffer et Dekkers (1994) ont étendu le modèle FR-TDM pour permettre d’ajuster spécifiquement la trajectoire de la courbe de lactation à l’animal en incluant une régression aléatoire sur l’effet génétique. La courbe de lactation de l’animal est ainsi définie à partir de deux séries de régressions sur le stade de lactation : une régression fixe décrivant la forme générale de la courbe de lactation en fonction du groupe de référence (par exemple région, âge au vêlage, saison de vêlage) et une régression aléatoire décrivant la déviation par rapport à la courbe de référence liée à l’effet génétique. Ceci permet d’avoir une modulation du niveau et de la forme de la courbe de lactation dépendant de l’animal, ce qui offre la possibilité d’évaluer génétiquement la persistance d’une lactation. La régression aléatoire permet aussi de structurer la variance entre observations.

L’utilisation des modèles de régression aléatoire (RR pour Random Regression) avait été proposée par Henderson Jr (1982). Les premiers modèles RR utilisaient des covariables fortement corrélées entre elles ce qui ralentissait la convergence vers les solutions du modèle mixte. Malgré cela, les résultats obtenus étaient prometteurs (Schaeffer and Dekkers, 1994). Pour remédier à cette difficulté, de nombreux travaux ont été consacrés à l’étude de la modélisation des courbes et aux covariables utilisées, éléments essentiels des modèles contrôles élémentaires. Ainsi, les effets modélisés sous forme de courbes, qu’ils soient fixes ou aléatoires, peuvent l’être à partir de courbes paramétriques (Guo and Swalve, 1997), de polynômes orthogonaux tels que les polynômes de Legendre (Brotherstone et al., 2000), de courbes non paramétriques, semi-paramétriques telles que les splines cubiques (White et al., 1999) ou toutes autres fonctions telles que celles décrites dans la partie 2.1. Même s’il n’est nullement nécessaire de modéliser les différents effets fixes et aléatoires avec des fonctions similaires, il s’avère que la modélisation des formes de courbes de lactation à partir des fonctions les plus simples, dépendant directement du stade de lactation, a quasiment été abandonnée au profit des polynômes orthogonaux. Outre l’avantage de ne faire aucune hypothèse sur la forme des courbes, ces derniers présentent en effet des corrélations entre coefficients de régressions plus faibles et les matrices de covariance estimées tendent à être plus stables vis-à-vis des différents fichiers utilisés pour les estimer.

Schaeffer et Dekkers (1994) recommandent l’inclusion d’un effet d’environnement permanent sous forme de régression aléatoire pour permettre de tenir compte des corrélations des effets non génétiques propres à l’animal entre les différents contrôles d’une même lactation, voire entre les différentes lactations. Jamrozik et al. (1997b) vont encore plus loin en mentionnant la possibilité d’inclure une régression fixe ou aléatoire sur l’effet troupeau – année pour tenir compte des effets liés à la conduite du troupeau sur la forme de la courbe de lactation des vaches du troupeau.

Concernant l’ordre des polynômes nécessaire à l’ajustement du modèle de régression aléatoire, Pool et al. (2000) ont montré que l’effet génétique additif nécessitait un ordre inférieur à celui de l’environnement permanent. Cependant des études sont nécessaires pour déterminer l’ordre optimum des régressions expliquant la plus grande part de la variation entre les observations. En 2004, Schaeffer expliquait que les travaux en cours sur le modèle Canadien concernaient cet aspect.

Pour les contrôles journaliers chez les bovins laitiers, la performance est de plus en plus classiquement décrite comme :

1 1 1 0 0 0 g p n r n r n f j i n t i n i n t i n i j k t k n t k n i j k t n n n y H T D    gp e        

 (2.33)

yi j k t est le contrôle journalier de l’animal i, à un stade de lactation t, avec un effet

troupeau j et appartenant au groupe de référence k,

j

H T D est l’effet fixe troupeau – jour de contrôle j

k n t

 est le nième des nf paramètres de la courbe des effets fixes correspondant au groupe de référence k de l’animal i pour un stade de lactation t,

k n

 sont le nième coefficient de la régression fixe du groupe de référence k,

i n t

 est le nième des nrg paramètres de la courbe des effets génétiques de l’animal i pour un stade de lactation t,

i n

g est le nième effet génétique transmissible de l’animal i,

i n t

 est le nième des nrp paramètres de la courbe des effets d’environnement permanent de l’animal i pour un stade de lactation t,

i n

p est le nième effet d’environnement permanent de l’animal i,

i j k t

e est la valeur résiduelle de la performance de l’animal i, obtenue au stade de lactation t, avec un effet troupeau j et appartenant au groupe de référence k. Sous forme matricielle, la performance est écrite comme précédemment :

y = X b + Z a + W p + e (2.34)

où : y est le vecteur des observations élémentaires,

b est le vecteur des effets fixes comprenant l’effet Troupeau – Jour de contrôle et les

coefficients de régression fixes,

a est désormais le vecteur des coefficients des régressions aléatoires des effets

génétiques additives de l’ensemble des animaux,

p est le vecteur des coefficients des régressions aléatoires des effets d’environnement

permanent des animaux avec performance,

e est le vecteur des résiduelles, distribuées suivant une loi normale de moyenne nulle, X, Z et W sont les matrices d’incidence qui relient les observations aux effets fixés et

aléatoires qui les ont influencées, avec           a p e ~ N 0 ,V où

             A G 0 0 V 0 I P 0 0 0 R

G est une matrice ayant une dimension égale à nrg et P égale à nrp. Les équations du modèle mixte s’écrivent alors :

ˆ ˆ ˆ                            ' -1 ' -1 ' -1 ' -1 ' -1 ' -1 -1 -1 ' -1 ' -1 ' -1 ' -1 ' -1 -1 ' -1 X R X X R Z X R W b X R y Z R X Z R Z A G Z R W a Z R y p W R X W R ZQ W R W I P W R y (2.35)

La modélisation de l’effet génétique et potentiellement d’autres effets aléatoires tels que l’environnement permanent dans un modèle RR entraîne des besoins calculatoires en forte hausse par rapport à un modèle FR-TDM. Certains chercheurs se sont interrogés sur la pertinence de modéliser la valeur génétique sous forme d’une courbe plutôt que par une constante, comme c’est le cas dans un modèle FR-TDM. Olori (1997) cité par Swalve (2000) estime qu’il n’y a pas (ou peu) de variation individuelle, un terme constant expliquant à lui seul 93% de la variabilité génétique. Au contraire, Van der Werf et al. (1998) estiment que la part de variation de la seule persistance est de 11%, et nécessite donc une prise en compte à travers un modèle RR-TDM. La question sous-jacente à cette interrogation concerne le nombre de paramètres à estimer, qui dépend largement de la complexité du modèle.

Kirkpatrick et al. (1990) ont présenté une méthode générale pour l’analyse génétique de données répétées, mesurées sur une échelle continue telle que le temps ou l’âge. Cette méthode repose sur la notion de fonction de covariance et est particulièrement adaptée aux caractères ayant des changements continus comme les données de croissance, ou la production laitière journalière (Kirkpatrick et al., 1994). Le nombre de mesures décrivant ces caractères peut être conçu comme étant de dimension infinie. La structure de covariance d’un caractère ayant une dimension infinie est, dans ce type de modèle, définie comme une fonction du temps. Par conséquent, la fonction de covariance est un équivalent de dimension infinie d’une matrice de covariance pour un nombre donné d’enregistrements recueillis au cours du temps à différents âges. Cette méthode s’appuie sur l’utilisation de polynômes orthogonaux tels que les polynômes de Legendre pour estimer les fonctions de covariance à partir des matrices de covariance observées. A travers le travail d’extension de cette méthode à l’estimation directe des fonctions de covariance à partir des données avec une méthode REML (Restricted Maximum Likelihood : maximum de vraisemblance restreinte), Meyer et Hill (1997) ainsi que Van der Werf et al. (1998) ont montré que cette méthode était équivalente aux modèles RR-TDM lorsque que ces méthodes utilisaient des modélisations similaires (polynôme de Legendre du même ordre).

Un élément ennuyeux dans les modèles RR utilisant les polynômes de Legendre est leur tendance en début et fin de lactation à donner lieu à des estimations de variances génétiques très supérieures (ou très inférieures) à celles du milieu de la lactation, aussi appelé « effets de bord ». Les héritabilités résultantes sont donc plus élevées sur ces périodes. Pour répondre à cette limite, une des propositions consiste à utiliser des splines. Certains ont proposé d’utiliser un modèle multicaractères, où chaque période de 30 jours est considéré comme un caractère différent, à la place de polynômes de Legendre (Rekaya et al., 1999). Cependant, dans un modèle multicaractères, le nombre de paramètre est vite très important.

Un autre aspect portant préjudice aux modèles contrôles élémentaires est l’instabilité des valeurs génétiques estimées dans le temps. En effet, l’importance des différences obtenues entre les valeurs génétiques estimées par lactation accrédite l’hypothèse selon laquelle les différentes lactations constituent des caractères distincts (Schaeffer et al., 2000). Cependant la prise en compte de cette information dans le modèle, même si elle est le reflet de la réalité

biologique, entraîne des variations d’index importantes lors de la prise en compte de nouvelles données dans le modèle, notamment à l’arrivée des 2èmes puis des 3èmes lactations. Dans le modèle RR, les corrélations génétiques entre contrôles sont inférieures à 1 grâce à la modélisation de(s) l’effet(s) aléatoires sous forme de courbes. Comme nous l’avons évoqué précédemment, les différentes observations peuvent être considérées comme des caractères distincts où les corrélations entre les différents contrôles sont prises en compte, et sont donc similaires à des modèles multicaractères. D’ailleurs, un modèle RR où la fonction modélisant la production dans le temps aurait un nombre de paramètres strictement équivalent au nombre de contrôles serait équivalent à un modèle multicaractères. Meyer et al. (1991), Jensen et al. (1997), Rekaya et al., (1999) ont employé la méthodologie multicaractères pour analyser les corrélations entre les différents contrôles d’une lactation, et entre lactations. Ainsi, 3 lactations de 305 jours chacune peuvent donner lieu à 915 caractères distincts soit plus de 400 000 corrélations à estimer. L’intérêt de cette méthode, qui est de ne pas imposer de structure de covariance entre les contrôles, est largement annihilé par les besoins liés à l’estimation des nombreux paramètres. Même en réduisant la définition des caractères à une donnée mensuelle, les paramètres estimés ne sont pas toujours très stables. Elle est donc peu adaptée à la situation et par conséquent pas utilisée en tant que telle. Dans les TDM, le terme multicaractères, lorsqu’il est employé, est généralement réservé aux modèles permettant l’analyse simultanée de plusieurs caractères tels que le lait, les matières grasse et protéique et les comptages leucocytaires.