• Aucun résultat trouvé

Les phases de préparation des données de génotypage 1 Contrôle de qualité des données génomiques

Les technologies utilisées pour le génotypage des SNP ont été développées de façon importante mais comme toutes données, les données de génotypage peuvent présenter des erreurs ou des valeurs manquantes. Il est alors indispensable de procéder à un ensemble de contrôles sur les données afin que cela ne perturbe pas les estimations des valeurs génomiques.

L’équilibre d’Hardy-Weinberg. La théorie de l’équilibre d’Hardy-Weinberg (noté

HWE) a été proposée indépendamment par Hardy (1908) et Weinberg (1908). Elle stipule que les fréquences des allèles et du génotype d’un locus restent constantes de générations en générations (d’où la notion d’équilibre) si les hypothèses suivantes sont respectées :

– La population est de taille infinie (ou une population de taille assez importante pour que la loi des grands nombres s’applique).

– Les espèces étudiées sont diploïdes et à reproduction sexuée. – Il n’y a pas de migration.

– Il n’y a pas de sélection. – Il n’y a pas de mutation.

– Le régime de reproduction est panmictique (les gamètes s’associent au hasard, ou les couples se forment aléatoirement)

– Les fréquences alléliques des mâles et des femelles sont identiques.

Pour représenter une situation d’équilibre d’Hardy-Weinberg, prenons le cas d’un SNP A possédant 2 allèles, notés A1 et A2, de fréquences respectives p et q avec p + q = 1. Les fréquences génotypiques doivent être : f(A1A1) = p2, f(A1A2) = 2pq et f(A2A2) = q2. Il existe plusieurs tests permettant de voir si on dévie de l’équilibre d’Hardy-Weinberg. Le plus simple est le test de Pearson (plus connu sous le nom de ”test du khi2”) dont la distribution sous l’hypothèse nulle suit asymptotiquement une loi de . Le test de Pearson n’est pas optimal lorsque la fréquence d’un des génotypes présents est faible. Dans ces conditions, il est préférable d’utiliser un test exact de Fisher. On trouve facilement, dans la littérature, d’autres tests exacts comme ceux de Wigginton et al. (2005) ou Guo et Thompson (1992). Il est important

d’écarter des analyses génomiques les SNP qui ne répondent pas aux conditions d’équilibre d’Hardy-Weinberg pour éviter des marqueurs techniquement difficiles à typer.

Call Freq et Call Rate. On vient de voir que le test de HWE permet de détecter

certaines erreurs de génotypage. Cependant, il ne permet pas de les corriger ou d’imputer les génotypes manquants, dus à une mauvaise séparation entre les « clusters » prédéfinis de la puce, qui permettent d’affilier chaque individu à un génotype. En général, un premier filtrage consiste à supprimer les SNP dont le pourcentage d’individus génotypés avec succès est inférieur à un seuil généralement fixé autour de 80% (il s’agit du call freq).

De même, un individu dont le pourcentage de génotypes manquants sur l’ensemble des marqueurs est trop important (en général supérieur à 2%) est supprimé des futures analyses (il s’agit du call rate). Le call rate d’un individu i représente le taux de données manquantes sur son génotype et est calculé de la façon suivante. Soit ntypi le nombre d’allèles renseignés pour l’animal i, nsnp le nombre de SNP disponibles sur la puce et snp_nontypi le nombre de SNP non typés pour l’animal i alors le call rate de l’animal i s’écrit :

2

La fréquence de l’allèle mineur. La fréquence moyenne de l’allèle rare de chaque

SNP est supérieure à 20% chez la plupart des races bos taurus. Cependant de nombreux SNP sont très peu polymorphes et ne sont donc pas suffisamment informatifs pour apporter un gain de précision aux modèles prédictifs. De nombreux auteurs imposent un seuil minimal pour la fréquence de l’allèle mineur afin d’éliminer ces SNP. Les valeurs les plus couramment utilisées sont 1%, 3% et 5%.

Ces différentes phases d’élimination des données génotypiques « à problème » sont très importantes car ces marqueurs pourraient avoir un impact négatif sur le phasage ou l'imputation des génotypes manquants. Les fichiers de pedigree sont aussi soigneusement vérifiés. Les erreurs liées à l’enregistrement des pedigrees sont, en général, de l’ordre de 3%. Les inversions de prélèvements d’ADN

ou d’enregistrement des animaux font que le pourcentage d’incompatibilité des données génomiques peut atteindre 5%. Il faut donc supprimer de la population de référence ces animaux car s'ils présentent des phénotypes extrêmes, cela pourrait influer sur la qualité des modèles établis et donc sur les prédictions génomiques des animaux candidats.

1.2.2 Imputation des génotypes manquants

Après ces différentes étapes de contrôle de la qualité des données, il peut encore rester des individus avec des données incomplètes. Restreindre les analyses aux seules données complètes pourrait porter la population de référence à une taille trop réduite pour mener à une bonne modélisation génomique. Pour remplacer les génotypes manquants, une solution basique serait d’utiliser la moyenne des génotypes observés ou le génotype le plus probable. Mais cela modifierait le déséquilibre de liaison avec les marqueurs proches et conduirait ainsi à des biais ou à une perte de puissance du modèle. L’idée est plutôt de remplacer les génotypes manquants par une valeur prédite basée sur les génotypes observés aux SNP voisins. En général, les méthodes existantes, par maximum de vraisemblance ou bayésiennes, permettent d’affecter une valeur aux génotypes manquants et de reconstruire les phases simultanément.

Il y a encore peu de temps, les méthodes les plus populaires d’imputation de données étaient dans les logiciels PHASE (Stephens et al., 2001), fastPHASE (Scheet et Stephens, 2006) et IMPUTE (Marchini et al., 2006). D’autres stratégies existent comme celles basées sur des méthodes de classification où le génotype manquant est copié des autres individus qui ont les mêmes génotypes aux marqueurs voisins, ou des méthodes de régression comme celle de Souverein et al. (2006) qui modélisent les génotypes manquants comme une fonction de génotypes d’autres marqueurs et de phénotypes dans une régression logistique polytomique.

De multiples méthodes et logiciels permettant d’inférer les phases haplotypiques se sont développés autour de ces trois types d’approches. Le logiciel le plus connu, PHASE (Stephens et al., 2001), utilise une approche bayésienne où la probabilité a priori est calculée à partir de la théorie de la coalescence. Ce logiciel donne des estimations précises (Marchini et al., 2006) mais il est très couteux en temps de calcul. Plus récemment, les logiciels fastPHASE (Scheet et Stephens,

2006) et BEAGLE (Browning et Browning, 2007) ont été créés à partir des chaînes de Markov cachées (HMM) et de l’algorithme EM (Expectation-Maximization ; Dempster et al., 1977). Ils donnent une précision aussi bonne que PHASE tout en étant plus rapides. Browning (2008) propose une revue des différentes méthodes existantes sur ce sujet.

Généralement, en population animale, les individus sont apparentés et les génotypes des pères et des descendants sont disponibles. Dans ce contexte, les méthodes de phasage citées précédemment ne sont pas optimales. Il existe des méthodes qui prennent en compte la partie transmission d’haplotypes entre parents et descendants et qui, de plus, utilisent le déséquilibre de liaison. On trouve parmi celles-ci DualPHASE et DagPHASE (Druet et Georges, 2010) qui sont basées sur fastPHASE et BEAGLE. Enfin, l’étude comparative de Browning (2008) montre la supériorité des logiciels fastPHASE et BEAGLE à la fois sur le taux d’erreur dans l’imputation de données génomiques manquantes mais aussi sur leur rapidité d’exécution.