• Aucun résultat trouvé

Partie II Analyse de données réelles

4.5 Compléments sur les QTL détectés

4.5.4 Discussion

Différences des résultats entre P1 et P2 L’apport des 58 individus supplémentaires dans P2 ne contredit pas l’existence de 63% des QTL détectés dans P1 avec le test Armitage et 41% des QTL avec SNPMixed. Ces pourcentages sont relativement faibles et semblent signifier la présence de plusieurs faux positifs. Une posible explication pourrait être que le seuil choisit n’est pas assez fort. En effet, le seuil P < 5.10−5 est équivalent à un seuil de Bonferroni qui suppose 1000 tests indépendants sur l’ensemble du génome, soit environ 1 SNP sur 40 et donc une distance moyenne entre deux tests indépendants de 2Mb. Le DL chez les TF s’étend sur des longues distances mais on peut raisonnablement supposé qu’au dela de 0.5Mb (ou le r2 vaut 0.11), les tests sont proches d’être indépendants. Le seuil correspondant à cette valeur aurait été de −log10(P ) = 4.90. Néanmoins, les pourcentages de QTL confirmés pour ce seuil sont également faibles. Une autre explication réside

4.5. Compléments sur les QTL détectés 195

dans le fait qu’une grande majorité des QTL détectés dans P1 l’ont été dans une tranche de valeurs comprises entre 4.30 et 4.90 (en −log10(P )). De ce fait, tout apport de nouveaux individus peut facilement faire passer ces valeurs en dessous du seuil (de même dans le sens inverse). Même si l’on observe des différences importantes entre le nombre de QTL détectés sous P1 et sous P2, l’allure des courbes (non présentée ici) reste identique (la corrélation moyenne entre les Pvaleurs sous P1 et sous P2 pour une méthode et un modèle particulier est égale à 0.9).

Mesure globale de l’OC : quantitative ou binaire ? Les résultats des caractères globaux pour la méthode SNPMixed ont été obtenus pour la mesure quantitative LSG et la mesure binaire Total. En terme de détection de QTL, 4 QTL ont été détectés pour chacune des mesures dont 3 étaient localisés parfaitement au même SNP (sous P2). Un QTL pour chacune des mesures n’est donc pas commun aux deux caractères. Si on regarde de près ces QTL, un QTL sur ECA 13 est détecté pour LSG avec une valeur de 4.48 (en −log10(P )) et un QTL sur ECA 16 est détecté pour Total avec une valeur de 4.49. La valeur associée au QTL sur ECA 13 pour le caractère Total était de 2.85 et celle associée au QTL sur ECA 16 pour le caractère LSG était de 4.08. Il semble donc que la tendance soit bien la même entre ces deux caractères. D’ailleurs, on peut noter que la corrélation entre les Pvaleurs de ces caractères est de 0.84 sous P1 et P2 (proche de la valeur des corrélations phénotypiques observée entre ces caractères qui était de 0.87). Il est donc difficile de conclure sur le meilleur choix à faire entre ces mesures.

Problèmes d’estimation avec HaploIBD L’estimation des variances des effets aléatoires des clusters d’haplotypes avec HaploIBD donne parfois des résultats aberrants. Ce problème est du à la présence de clusters d’haplotypes de très faible effectif et est amplifié par le coté discret du caractère analysé. En effet, en considérant les effets comme aléatoires, chaque niveau (cluster) a un poids équivalent dans le calcul de la variance, même si il est très peu fréquent dans la population. Si l’estimation de cet effet a une valeur extrême, elle a un poids considérable dans le calcul de la variance. Avec un caractère continu, il y a peu de chance que cet effet ait une valeur extrême. Alors que ceci est possible avec un caractère binaire analysé comme une variable gaussienne comme c’est le cas avec HaploIBD. Prenons le cas du caractère "Autres" pour lequel on a observé ces variances aberrantes. La fréquence des chevaux atteints est 13%, donc le caractère a une variance phénotypique de 0.113 et un l’écart type phénotypique est 0.336. Ce qui veut dire que la différence de performance entre un cheval sain et atteint représente près de 3 écart types. Avec une variable continue normale, une performance a 3 écart type n’est observée que dans 0.3% des cas, ici il y en a 13%. Pour peu qu’un cheval atteint constitue un cluster à lui seul, l’estimation de l’effet de ce cluster va être extrême et gonfler artificiellement la variance. C’est ce qu’on a obtenu par deux fois pour la variable "Autres" (sur les chomosomes 13 et 15). Le problème, même moins visible, doit être récurrent dans toutes les analyses des variables binaires avec les clusters peu fréquents. Il faudrait donc améliorer la méthode d’analyse soit en ne permettant pas la présence de clusters rares soit en traitant correctement les valeurs binaires. Cependant, avec un modèle à seuil, l’EM classiquement utilisé pour le REML ne converge pas vers les vraies valeurs pour un modèle polygénique animal et qu’il faudrait sans doute recourir à un GIBBS sampling.

QTL à fort intérêt Certains des QTL détectés le sont par un signal fort et cohérent entre les méthodes. Ainsi, le QTL du chromosome ECA 3 entre 105 et 110 Mb parait être la région la plus prometteuse pour une cartographie plus fine puisque toutes les méthodes le détectent, et de plus sur

plusieurs caractères : Jarret, Cisaillement et Total. La section suivante décrit de près cette région. D’autres régions sur ECA 13 pour l’OC du boulet, 14 pour l’OC du jarret, 15 pour l’OC ailleurs que sur le boulet et le jarret et 15 pour l’OC de type Cisaillement demanderaient également à être vues de plus près.