• Aucun résultat trouvé

Comparaison des méthodes de sélection génomique 1 Prise en compte des EDC dans les modèles

Chapitre 2 Modélisation et propriétés des approches statistiques

2.5 Comparaison des méthodes de sélection génomique 1 Prise en compte des EDC dans les modèles

Les données phénotypiques utilisées dans les études d’évaluation génomique des bovins laitiers sont transformées en DYD. À chaque DYD, et donc à chaque animal, est associé un poids, appelé EDC. Il représente la fiabilité du DYD : il est fortement lié au nombre de filles de chaque taureau et donc à la quantité d’information disponible. Le fait d’associer un EDC différent pour chaque animal revient à considérer un modèle à variances hétérogènes. En supposant que les observations sont centrées, le modèle de régression s’écrit sous la forme suivante : y = Xg + e où g est le vecteur des effets aléatoires des SNP d’éléments gj et tels que

~ 0, et e est le vecteur des effets résiduels tel que ~ 0, (VanRaden et Wiggans, 1991). Pour obtenir des variances résiduelles homogènes tout en conservant un modèle équivalent, il est nécessaire de multiplier yi et la ième ligne de la matrice d’incidence X par :

√ √ avec ~ 0, .

Le vecteur des observations y et la matrice d’incidence des SNP sont affectés par les EDC, quelque soit la méthode de régression étudiée. Nous verrons dans le chapitre 4, que la prise en compte des EDC dans les méthodes d’évaluation génomique a un impact sur la qualité des résultats.

2.5.2 Capacités prédictives des méthodes

Pour comparer les capacités prédictives des différentes méthodes testées, des critères de validation ont été choisis. Le critère le plus répandu dans les études

d’évaluation génomique est la corrélation ρ entre les DYD observés ( ) et prédits ( ) des animaux de l’ensemble de validation. Ce coefficient est égal au rapport de leur covariance , et du produit non nul de leurs écarts types et :

, ,

Le coefficient de corrélation est compris entre -1 et 1. Il est égal à 1 dans le cas où l'une des variables est une fonction affine croissante de l'autre variable et -1 dans le cas où la fonction affine est décroissante. Les valeurs intermédiaires renseignent sur le degré de dépendance linéaire entre les deux variables. Plus le coefficient est proche des valeurs extrêmes -1 et 1, plus la corrélation entre les variables est forte. Une corrélation égale à 0 signifie que les variables sont linéairement indépendantes. Cette corrélation est calculée par validation croisée car deux ensembles de données différents sont utilisés : un pour établir les équations de prédiction (ensemble d’apprentissage) et le deuxième pour calculer le critère de corrélation (ensemble de validation). Elle donne une appréciation de la précision des évaluations génomiques produites. Les EDC sont pris en compte dans le calcul de la corrélation en utilisant la formule suivante :

,

, ² ∑ ²

où ∑ , et ∑ .

Dans le cadre de coopérations européennes menées par Interbull, un autre critère de validation des estimations génomiques est la pente de la régression des DYD observés des animaux de l’ensemble de validation sur les prédictions génomiques. Nous nous sommes donc aussi intéressés à ce critère de validation. La droite de la régression linéaire des sur les est calculée par la méthode des moindres carrés selon le modèle :

Le coefficient b représente la pente de la droite de régression et correspond au rapport entre la covariance de et et la variance de :

,

Dans la régression des sur les , les EDC sont pris en compte de la même façon que dans l’établissement des équations de prédiction. La valeur de la pente doit être la plus proche possible de 1, selon les recommandations du comité Interbull de mars 2011. On peut ainsi construire pour chaque coefficient de régression b un intervalle de confiance à 95%, égal à ± 1,96 fois l’erreur standard (quantile au seuil de confiance α=95% de la loi de Student).

2.5.3 Le test de Hotelling-Williams

L’égalité entre les corrélations obtenues à partir des différentes méthodes a été testée en appliquant le test de Hotelling-Williams (Van Sickle, 2003). Il est utilisé pour comparer deux corrélations dépendantes, partageant une variable (dans notre cas, les DYD observés sur la population de validation). L’hypothèse nulle correspond à l’égalité entre les deux corrélations considérées. Si on note le vecteur des DYD prédits à partir de la méthode A, le vecteur des DYD prédits à partir de la méthode B et DYDobs le vecteur des DYD observés dans la population de validation alors :

, , , , ,

et

, ,

La statistique du test de Hotelling-Williams s’écrit :

, , 1 1 ,

2 13 | | ̅² 1 ,

Sous l’hypothèse nulle, la statistique de test suit une loi de Student à n-3 degrés de liberté. Les corrélations obtenues par les différentes méthodes sont comparées deux à deux, au seuil de significativité de 5%.

Cinq méthodes (Elastic Net, PLS, sparse PLS, BayesCπ et LASSO bayésien) ont donc été choisies pour leurs propriétés statistiques et leur fiabilité dans le cadre du projet AMASGEN. Les résultats des méthodes PLS, sparse PLS, BayesCπ et LASSO bayésien, seront présentés dans la suite de ce manuscrit. Une partie de mon travail de thèse, pour les régressions PLS et sparse PLS, a été d’adapter et de modifier le programme R du package mixOmics (Lê Cao et al., 2009) pour l’application de ces méthodes aux données bovines laitières françaises. Pour les méthodes BayesCπ et LASSO bayésien, j’ai dû apprendre à maitriser le logiciel GS3 (Legarra et al., 2011) et préparer les fichiers d’entrée. Les évaluations BLUP, GBLUP et Elastic Net ont été réalisées par les autres membres du projet AMASGEN. L’efficacité de ces méthodes sera vérifiée en les comparant aux deux méthodes d’évaluation animale les plus répandues : le BLUP sur pedigree et le GBLUP. Le chapitre suivant présente les données issues des deux races de bovins laitiers français sur lesquelles ont été appliquées ces méthodologies.

Chapitre 3 Deux populations de référence de bovins laitiers