• Aucun résultat trouvé

Partie 1 Etude des gènes candidats et des régions identifiées par les études GWAS dans les

1.2. Matériel et méthodes

1.2.3. c. Données génétiques obtenues par imputation

L’imputation est une technique d’inférence des génotypes manquants d’un ou de

plusieurs SNP en utilisant : les informations génétiques de ces SNP ; les échantillons

d’haplotypes de populations de référence (telles que HapMap ou 1000 génomes), et les

génotypes obtenus sur les SNP voisins dans l’échantillon. L’imputation permet d’augmenter la

couverture génétique dans l’ échantillon étudié et ainsi permettre de caractériser plus

finement des régions chromosomiques d’intérêt ; elle permet également de combiner les

données générées sur des puces différentes et de faciliter les méta-analyses (Marchini &

Howie 2010).

Principe et méthodologie de l’imputation

Dans un échantillon de données de personnes apparentées, les haplotypes des

individus sont liés les uns aux autres sur des séquences d’ADN plus ou moins longues du fait

de l’identité par descendance. Les méthodes d’imputation sont basées sur l’identification des

haplotypes dans ces régions partagées entre les individus de l’échantillon d’étude et les

individus de la population de référence pour prédire les génotypes manquants. Le principe de

l’imputation est représenté sur la figure ci-dessous (Figure 4).

Figure 4: Principe de l’imputation ; figure tirée de l’article de Marchini et al, Nature Genetic, 2010

(Marchini & Howie 2010). a) l’échantillon d’étude représente la base de donnée génétique intérêt avec

46

des génotypes manquants, b) set d’halotype de la population de référence, c) haplotype de la

population d’étude est estimé à partir de l’échantillon d’étude selon la même mosaïque que celle de

la population de référence, d) l’haplotype de référence est utilisé pour imputer les allèles manquants

dans l’échantillon d’étude et créer ainsi des génotypes (rouge foncé).

Plusieurs logiciels d’imputations ont été proposés comme MACH (Li et al. 2009), BEAGLE

et IMPUTE2 (Howie et al. 2009) ; ces logiciels utilisent les méthodes principalement basées sur

des chaines de Markov cachées développées pour la modélisation des déséquilibres de

liaisons et des taux de recombinaisons. Le génotype manquant 𝐺

𝑖𝑗

du SNP i chez un individu j

est prédit à partir d’un modèle probabiliste qui s’exprime comme suit :

𝑃

𝑖𝑗𝑘

= Pr(𝐺

𝑖𝑗

= 𝑘) , 𝑘 ∊ {0,1,2}, ∑ 𝑃

𝑖𝑗𝑘

= 1

𝑗

K représente le nombre de copies des deux allèles de chaque SNP codés en 0 et 1. Le génotype

final prédit pour le SNP i chez l’individu j est donné par l’estimation du nombre de copie de

l’allèle de référence comme suit :

𝐷

𝑖𝑗

= 2 × 𝑃

𝑖𝑗2

+ 1 × 𝑃

𝑖𝑗1

+ 0 × 𝑃

𝑖𝑗0

Les valeurs 𝐷

𝑖𝑗

sont appelées « doses alléliques » et sont comprises entre 0 et 2. Une mesure

de l’évaluation de la certitude de l’imputation est donnée après imputation par les logiciels.

Elle correspond au rapport de la variance des probabilités de génotypes obtenues à

l’imputation sur la variance des génotypes attendues sous l’équilibre d’Hardy Weinberg et

varie entre 0 et 1. Cet indicateur est en général utilisé pour le contrôle qualité des génotypes

imputés. Par exemple, pour le logiciel IMPUTE2, il est appelé « INFO ».

Pour le fine-mapping des loci 9q22 et 14q13, nous avons imputé les SNP non génotypés

dans chacune des régions en utilisant le logiciel IMPUTE2 avec comme panel de référence, les

génotypes de toutes les populations du projet 1000 génomes (« 1000 genomes integrated

phase 1 version 3 released September 2013 »). Le panel cosmopolitain est recommandé car il

permet au logiciel d’utiliser le panel de référence le plus adapté pour chaque individu

permettant ainsi d’améliorer la précision de l’imputation (Howie et al. 2011), et est

particulièrement recommandée pour l’imputation dans une population non référencée

47

L’imputation a porté sur un intervalle de 70 kb dans le locus 9q22 entre rs965513 et

FOXE1 (bornes 100,55x10

6

– 100,65x10

6

; build37) et sur un intervalle de 400kb dans le locus

14q13 entre PTCSC3 et NKX2-1 (bornes 36,6x10

6

– 37,0x10

6

; build37). Seuls les SNP ayant une

MAF>0,02 dans les populations de référence étaient imputés. Nous avons effectué

l’imputation séparément chez les européens et mélanésiens et sur chaque locus.

Contrôle qualité de l’imputation

Le contrôle qualité était stratifié sur l’origine ethnique comme l’imputation. Pour

évaluer la qualité de l’imputation, nous avons estimé la concordance entre les génotypes

prédit par l’imputation et les génotypes réels. Pour ce faire, nous avons masqué les génotypes

de SNP pris au hasard, soit 2 SNP dans le locus 9q22 et 4 SNP dans le locus 14q13 et imputé

ces génotypes dans notre échantillon. Nous avons ensuite estimé le taux de concordance de

l’imputation pour chacun des SNP par le rapport de la somme des génotypes correctement

prédit sur la somme des génotypes initiaux. Un génotype était considéré comme

correctement prédit lorsque la probabilité à postériori de l’imputation pour le SNP i chez un

individu j (𝑃

𝑖𝑗

) était >0.90. Pour les 6 SNP, le taux de concordance était >90% dans les deux

populations d’études.

Après imputation, nous avons obtenu 70 SNP supplémentaires dans la région 9q22 et

514 SNP supplémentaires dans la région 14q13.

Nous avons ensuite effectué un contrôle qualité post-imputation qui consistait à

supprimer les SNP dont le score de qualité d’imputation était inférieur à 0.70 (score info<0.7).

Cela correspondait pour le locus 9q22, à 12 SNP chez les européens et 8 SNP chez les

mélanésiens ; et pour le locus 14q13, à 35 SNP chez les européens et 49 SNP chez les

mélanésiens. Nous avons également vérifié le respect de l’équilibre d’HW pour tous les SNP

imputés par un test de chi2 à 2 ddl. Pour la correction sur le nombre de tests effectués, nous

avons appliqué la méthode de Bonferroni sur la base de 115 tests indépendants estimés par

le logiciel GEC sur l’ensemble des 724 SNP imputés et génotypés (M.-X. Li et al. 2012) ; la

méthode d’estimation du nombre de test indépendant est décrite dans l’annexe 1. Le seuil de

significativité considéré après prise en compte de tests multiples était de 4,4x10

-4

; tous les

SNP respectaient l’équilibre d’HW.

48

- pour les locus 9q22 : 58 SNP dans la population européenne et 62 SNP dans la

population mélanésienne

- pour le locus 14q13 : 479 SNP dans la population européenne et 465 SNP dans la

population mélanésienne

Synthèse des données génétiques

Au final, les analyses de cette partie de ma thèse portent sur :

- 36 SNP candidats génotypés chez 508 cas et 626 témoins d’origine européenne et chez

156 cas et 112 témoins d’origine mélanésienne.

- Le nombre de copies de GSTM1 et GSTT1 disponible chez 573 cas et 584 témoins

d’origine européenne et chez 156 cas et 115 témoins d’origine mélanésienne.

- Les SNP génotypés et imputés dans les loci 9q22 et 14q13 pour le fine mapping de ces

régions chez les sujets d’origine européenne (508 cas et 626 témoins) et mélanésienne

(156 cas et 112 témoins), soit :

 69 SNP dans la population européenne et 75 SNP dans la population

mélanésienne pour le locus 9q22.

 525 SNP dans la population européenne et 511 SNP dans population

49