Partie 1 Etude des gènes candidats et des régions identifiées par les études GWAS dans les
1.2. Matériel et méthodes
1.2.3. c. Données génétiques obtenues par imputation
L’imputation est une technique d’inférence des génotypes manquants d’un ou de
plusieurs SNP en utilisant : les informations génétiques de ces SNP ; les échantillons
d’haplotypes de populations de référence (telles que HapMap ou 1000 génomes), et les
génotypes obtenus sur les SNP voisins dans l’échantillon. L’imputation permet d’augmenter la
couverture génétique dans l’ échantillon étudié et ainsi permettre de caractériser plus
finement des régions chromosomiques d’intérêt ; elle permet également de combiner les
données générées sur des puces différentes et de faciliter les méta-analyses (Marchini &
Howie 2010).
Principe et méthodologie de l’imputation
Dans un échantillon de données de personnes apparentées, les haplotypes des
individus sont liés les uns aux autres sur des séquences d’ADN plus ou moins longues du fait
de l’identité par descendance. Les méthodes d’imputation sont basées sur l’identification des
haplotypes dans ces régions partagées entre les individus de l’échantillon d’étude et les
individus de la population de référence pour prédire les génotypes manquants. Le principe de
l’imputation est représenté sur la figure ci-dessous (Figure 4).
Figure 4: Principe de l’imputation ; figure tirée de l’article de Marchini et al, Nature Genetic, 2010
(Marchini & Howie 2010). a) l’échantillon d’étude représente la base de donnée génétique intérêt avec
46
des génotypes manquants, b) set d’halotype de la population de référence, c) haplotype de la
population d’étude est estimé à partir de l’échantillon d’étude selon la même mosaïque que celle de
la population de référence, d) l’haplotype de référence est utilisé pour imputer les allèles manquants
dans l’échantillon d’étude et créer ainsi des génotypes (rouge foncé).
Plusieurs logiciels d’imputations ont été proposés comme MACH (Li et al. 2009), BEAGLE
et IMPUTE2 (Howie et al. 2009) ; ces logiciels utilisent les méthodes principalement basées sur
des chaines de Markov cachées développées pour la modélisation des déséquilibres de
liaisons et des taux de recombinaisons. Le génotype manquant 𝐺
𝑖𝑗du SNP i chez un individu j
est prédit à partir d’un modèle probabiliste qui s’exprime comme suit :
𝑃
𝑖𝑗𝑘= Pr(𝐺
𝑖𝑗= 𝑘) , 𝑘 ∊ {0,1,2}, ∑ 𝑃
𝑖𝑗𝑘= 1
𝑗