• Aucun résultat trouvé

Application des méthodes de régression PLS et sparse PLS aux données bovines laitières françaises : la race Montbéliarde

A comparison of partial least squares (PLS) and sparse PLS regressions in genomic selection in French dairy cattle

RESULTS AND DISCUSSION

4.3 Application des méthodes de régression PLS et sparse PLS aux données bovines laitières françaises : la race Montbéliarde

Un autre jeu de données mais avec des effectifs plus réduits a ensuite été analysé. Comme mentionné dans la littérature et dans le chapitre 1, les performances des méthodes d’évaluation génomique reposent, en grande partie, sur la taille de la population de référence. Les méthodes PLS et sparse PLS ont donc été

évaluées sur des données bovines laitières de la race Montbéliarde afin de confirmer ou d’infirmer les conclusions obtenues en race Holstein. En race Montbéliarde, la population d’apprentissage A regroupe 950 taureaux et la population de validation rassemble les 222 plus jeunes taureaux génotypés et phénotypés.

Comme pour la Holstein, la première étape des études méthodologiques sur les données Montbéliarde a été de paramétrer les méthodes. Pour cela, les EDC ont été pris en compte dans l’établissement des équations de prédiction et dans la phase de validation comme expliqué dans le chapitre 2. Le nombre de variables latentes construites en PLS et sparse PLS a été choisi de manière à maximiser la corrélation pondérée par les EDC entre DYD prédits et DYD observés dans l’ensemble de validation. Pour choisir le nombre de variables latentes, le critère Q² (voir chapitre 2) a également été considéré. Sur les données de janvier 2009, pour les caractères Lait et TB, pour la régression PLS et la sparse PLS, ce critère nous a conduit à conserver un modèle à une seule dimension donc avec un pouvoir prédictif très faible. Le critère RMSEP (erreur de prédiction moyenne) par validation croisée (tirage au sort de dix échantillons de l’ensemble d’apprentissage) a aussi été testé mais les résultats obtenus basés sur ce critère et ceux obtenus en calculant la corrélation entre les DYD prédits et observés de l’ensemble d’apprentissage aboutissent à un même nombre de variables latentes à introduire dans le modèle final. Ainsi, la maximisation de la corrélation pondérée entre DYD observés et prédits dans l’ensemble de validation est apparue comme étant la meilleure stratégie pour le choix du nombre de variables latentes H des méthodes PLS et sparse PLS car plus rapide que la validation croisée.

Une fois le nombre de dimensions H fixé pour chaque caractère, le nombre de SNP sélectionnés par dimension en sparse PLS a été fixé par validation croisée. Le tableau 4.5 présente les valeurs de la moyenne de l’erreur de prédiction (RMSEP) obtenues pour les différentes sparse PLS testées et pour la régression PLS à H fixé.

Les valeurs RMSEP sont similaires d’une sparse PLS à l’autre ; les différences apparaissent aux troisièmes chiffres après la virgule. La sparse PLS pour laquelle la valeur du RMSEP est la meilleure (c'est-à-dire la plus petite), est présentée en gras dans le tableau. Pour les caractères lait, MG et MP, le modèle optimal est celui qui conserve 10% des SNP sur chacune des variables latentes ; pour les caractères de taux TB et TP, c’est celui avec 3% des SNP et pour la fertilité,

le meilleur modèle est celui retenant 5% des SNP. On remarque que sur les données Montbéliarde, pour des caractères de même héritabilité, le même pourcentage de SNP par dimension est choisi en sparse PLS. La régression PLS conduit à des erreurs de prédiction légèrement inférieures pour trois caractères : l’erreur est de 0,69 en PLS et 0,76 et 0,71 en moyenne en sparse PLS pour le TB et le TP respectivement et pour la fertilité elle est de 0,70 pour la régression PLS mais de 0,79 en moyenne en sparse PLS. Ainsi, le critère RMSEP permettant de définir le pourcentage de SNP à conserver par variable latente n’est pas optimal pour l’analyse de données génomiques. En effet, que ce soit sur les données Holstein (voir article 1) ou Montbéliarde, le critère RMSEP varie très peu entre les différentes sparse PLS considérées.

Tableau 4.5 : Valeurs RMSEP pour la régression PLS et pour chaque sparse PLS testée selon le pourcentage de SNP conservés sur chaque dimension

Sparse PLS PLS % de SNP sélectionnés par dimension 0,2 0,4 0,6 0,8 1 2 3 4 5 10 100 Lait 0,23 0,22 0,22 0,21 0,21 0,21 0,23 0,21 0,22 0,21 0,21 MG 0,22 0,22 0,21 0,21 0,21 0,21 0,21 0,21 0,21 0,21 0,20 MP 0,20 0,21 0,20 0,21 0,22 0,21 0,20 0,20 0,20 0,19 0,18 TB 0,80 0,79 0,76 0,73 0,79 0,72 0,72 0,79 0,76 0,74 0,69 TP 0,72 0,76 0,77 0,77 0,76 0,74 0,71 0,75 0,75 0,72 0,69 Fer 0,84 0,84 0,82 0,80 0,80 0,75 0,78 0,75 0,74 0,77 0,70

Il semble très difficile de fixer les deux paramètres (% de SNP sélectionnées par variable latente et nombre de variables latentes à introduire dans le modèle) de la sparse PLS, indépendamment l’un de l’autre. En effet, si on augmente le nombre de dimensions en fixant le nombre de SNP par dimension ou si on augmente le nombre de SNP sélectionné sur un nombre fixe de dimensions, on obtiendra une fiabilité des modèles semblable. Finalement, la corrélation entre DYD prédits et DYD observés dans l’ensemble d’apprentissage pour le nombre de dimensions (pour la

régression PLS et sparse PLS), et la RMSEP pour le nombre de SNP (pour la sparse PLS) ont été choisies afin d’automatiser la construction des modèles.

Les modèles optimaux de régression PLS et sparse PLS ont ensuite été appliqués sur l’ensemble de validation afin d’estimer la capacité prédictive des méthodes. Les résultats présentés dans le tableau 4.6 montrent qu’il n’y a pas de différence significative entre les deux méthodes en termes de corrélation (confirmé par le test de Hotelling-Williams). La pente de régression est plus proche de 1 pour la régression PLS que pour la sparse PLS sur tous les caractères. La sparse PLS réalise une sélection de variables assez faible sur les caractères de production (plus de 70% de SNP conservés sur le lait, le MG et le MP et plus de 35% pour le TB et le TP) dû au nombre élevé de dimensions conservées dans les modèles (de 20 à 35 variables latentes selon le caractère).

Tableau 4.6 : Corrélations (ρ) et pentes de régression (b) entre DYD observés et DYD estimés à partir d’un modèle PLS ou sparse PLS à H dimensions

Lait MG MP TB TP Fer PLS ρ 0,44 0,50 0,46 0,54 0,43 0,43 b 0,64 0,79 0,70 0,98 0,65 1,79 H 39 37 35 24 49 7 sPLS ρ 0,38 0,47 0,41 0,56 0,35 0,43 b 0,63 0,75 0,59 0,81 0,49 2,27 H 24 35 33 20 28 2 Nb SNP 28 837 30 389 30 212 14 447 16 822 3 808

Pour avoir une idée plus précise de la capacité prédictive des modèles de prédiction, il aurait été intéressant de disposer de trois ensembles de données différents. Un premier ensemble scindé en deux sous-populations : une population d’apprentissage et une population de validation pour étalonner les modèles afin d’établir les équations de prédiction. Et un second ensemble de test, indépendant, permettant d’évaluer la qualité prédictive des modèles établis. Cependant, dans le cadre des évaluations génomiques, on cherche à évaluer de jeunes taureaux à partir de leurs données génomiques et des informations de parenté de leurs ascendants et

collatéraux. Cette pratique statistique n’est donc pas applicable ni judicieuse dans ce contexte.

Le nombre de dimensions est très élevé quel que soit la méthode utilisée, pour les cinq caractères de production ce qui pourrait traduire, si on s’en réfère aux résultats en race Holstein, un trop fort impact des EDC sur la modélisation. La même démarche que celle décrite pour l’étude des données Holstein a alors été suivie. La distribution des EDC (résultats non montrés) est très semblable à celle obtenue en race Holstein : un groupe de taureaux se détache des autres par leurs forts EDC.

Dans un premier temps, une étude sans EDC a été réalisée et a apporté les mêmes conclusions que pour la race Holstein : entre A avec EDC et A sans EDC, les résultats mesurant la capacité prédictive des modèles sont proches mais la complexité des modèles est moindre dans l’étude sans EDC ce qui implique des graphes des coefficients VIP plus clairs et une meilleure sélection des SNP par sparse PLS (résultats non montrés).

Puis deux nouveaux groupes d’apprentissage ont été créés selon la valeur des EDC des taureaux. Pour la race Montbéliarde, le seuil choisi pour créer les groupes A+ (groupe de taureaux ayant de forts EDC) et A- (groupe de taureaux ayant des EDC plus homogènes) est de 40 pour l’analyse du caractère lait (40 pour les matières MG et MP, 25 pour les taux TB et TP et 100 pour la fertilité). L’ensemble A+ compte environ 140 taureaux et l’ensemble A- en compte environ 810.

Tableau 4.7 : Corrélations pondérée (ρ) et pentes de régression (b) entre DYD observés dans l’ensemble de validation et DYD prédits à partir d’un modèle PLS à H dimensions construit à partir de l’ensemble des données A ou A- en race Montbéliarde

PLS A A- ρ b H ρ b H Lait 0,44 0,64 39 0,31 0,42 16 MG 0,50 0,79 37 0,32 0,47 12 MP 0,46 0,70 35 0,39 0,53 13 TB 0,58 0,98 24 0,40 0,87 8 TP 0,43 0,65 49 0,37 0,62 13 Fer 0,43 1,79 7 0,42 4,22 1

En prenant en compte les EDC pour l’établissement des équations de prédiction et pour la validation des modèles sur l’ensemble V, si on utilise l’ensemble A- comme ensemble d’apprentissage au lieu de l’ensemble A, on réduit très fortement (de plus de la moitié pour lait et MP, et de plus d’un tiers pour MG, TB, TP et fertilité) le nombre de dimensions du modèle (tableau 4.7). Les graphes des coefficients VIP pour la régression PLS et la sparse PLS (non montrés) sur A et sur A- ne mettent en avant certaines zones du génome que sur A-, les graphes obtenus sur A étant très brouillés et semblables à la Holstein sur A. Cependant, et contrairement aux résultats obtenus en race Holstein, l’utilisation d’un groupe réduit de taureaux selon leur EDC impacte la capacité prédictive des modèles : les corrélations et les pentes sont significativement moins bonnes sur l’ensemble de données A- que sur l’ensemble complet A. Le fait de réduire autant la taille de la population de référence diminue fortement la précision des DYD prédits. Ainsi, d’autres valeurs de seuil pourront être testées afin de sélectionner au mieux les taureaux trop influents avant de pouvoir conclure quant à l’impact des EDC en race Montbéliarde.

4.4 Comparaison des régressions PLS et sparse PLS au BLUP et au