• Aucun résultat trouvé

4 Modèle logistique mixte pour la correction de la structure de populations dans les GWAS

4.1 Adéquation des méthodes existantes pour l’analyse des données du Sud Bénin

4.1.1 Methodes

Evaluation de l’erreur de type I

L’erreur de type I a été évaluée pour la régression logistique (LR), le MLM et GMMAT, en simulant un phénotype binaire sous l’hypothèse d’absence d’effet des génotypes. Nous avons considéré une hétérogénéité de prévalence équivalente à celles de l’étude de Chen et al. (Chen et al., 2016), avec

une prévalence de 0,30 dans la strate avec un risque plus élevé (cohorte d’Allada) et une prévalence de 0,05 dans la seconde (cohorte de Tori-Bossito). Le trait binaire a été simulé avec un modèle de régression logistique mixte. Pour un individu i, la probabilité d’être malade a été calculée par :

𝑙𝑙𝑙𝑙𝑙𝑙𝑖𝑖𝑡𝑡 𝑃𝑃(𝑌𝑌𝑖𝑖 = 1) = 𝛼𝛼0+ 𝛼𝛼1𝑍𝑍𝑖𝑖+ 𝑢𝑢𝑖𝑖 (1)

avec

- 𝑍𝑍𝑖𝑖 = 1 si l’individu appartient à la cohorte avec un risque plus élevé ou 𝑍𝑍𝑖𝑖 = 0 sinon - 𝑢𝑢𝑖𝑖 l’effet aléatoire associé à l’individuel i ; le vecteur 𝑢𝑢 = (𝑢𝑢1⋯ 𝑢𝑢𝑛𝑛) suit une loi 𝑁𝑁(0, 𝜏𝜏K),

avec K la matrice GRM, correspondant à un effet polygénique

Les coefficients 𝛼𝛼0 et 𝛼𝛼1ont été définis de manière à obtenir des prévalences de 0,30 et 0,05 dans les deux cohortes sans tenir compte des effets aléatoires (𝛼𝛼0 = 𝑙𝑙𝑙𝑙𝑙𝑙𝑖𝑖𝑡𝑡 (0.05) et 𝛼𝛼1= 𝑙𝑙𝑙𝑙𝑙𝑙𝑖𝑖𝑡𝑡 (0.30) − 𝑙𝑙𝑙𝑙𝑙𝑙𝑖𝑖𝑡𝑡 (0.05)). Les effets aléatoires ont été simulés avec 𝜏𝜏 = 1.

Une fois le phénotype obtenu, l’association a été testée avec les SNPs de la puce HumanOmni5 ayant une MAF supérieure à 5% (n=1 847 505 SNPs), avec les différentes méthodes. Les analyses ont été réalisées dans un premier temps sans inclure de PCs dans les modèles puis en incluant les 10 premières PCs en effets fixes.

Le Q-Q plot stratifié

Nous avons utilisé le Q-Q plot stratifié tel que défini par Chen et al. pour évaluer l’erreur de type I avec les différentes méthodes testées. Ce Q-Q plot implique de définir deux strates a priori. Dans leur étude, les deux strates indexées par 𝑖𝑖 = 0 ou 𝑖𝑖 = 1 ont été définies en fonction de la prévalence de la maladie, 𝑖𝑖 = 1 correspondant à la population avec un risque plus élevé et 𝑖𝑖 = 0 aux autres populations. Trois catégories de SNPs sont ensuite définies en fonction du rapport de la variance des génotypes entre les deux strates. Soit G le génotype au SNP considéré, sous l’hypothèse de panmixie à l’intérieur des strates, la variance du génotype dans la strate i est égale à 𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖(𝐺𝐺) = 2𝑝𝑝𝑖𝑖𝑞𝑞𝑖𝑖, avec 𝑝𝑝𝑖𝑖

et 𝑞𝑞𝑖𝑖 les fréquences des allèles du SNP. Les catégories sont définies de la façon suivante en fonction de 𝑣𝑣(𝐺𝐺) = 𝑣𝑣𝑣𝑣𝑣𝑣1(𝐺𝐺)/𝑣𝑣𝑣𝑣𝑣𝑣0(𝐺𝐺) et d’un seuil th = 0.8 :

- SNPs avec 𝑣𝑣(𝐺𝐺) < 𝑡𝑡ℎ (catégorie 1)

- SNPs avec 𝑡𝑡ℎ ≤ 𝑣𝑣(𝐺𝐺) < 1/𝑡𝑡ℎ (catégorie 2) - SNPs avec 1/𝑡𝑡ℎ ≤ 𝑣𝑣(𝐺𝐺) (catégorie 3)

L’extension du Q-Q plot stratifié

Nous avons ensuite proposé une extension de cette méthode permettant de diagnostiquer une correction incomplète de la structure de population, non plus à partir de l’information dans les deux strates (une variable binaire codé 0 ou 1) mais à partir d’une variable quantitative quelle qu’elle soit, dont les valeurs sont comprises dans l’intervalle [0,1]. Soit 𝐺𝐺 ∈ {0,1,2}𝑛𝑛 le vecteur des génotypes, Z un vecteur de taille n dont les éléments sont inclus dans [0,1] et 𝟏𝟏 un vecteur de uns, on peut poser :

𝑞𝑞1=12 𝑍𝑍𝑍𝑍𝐺𝐺𝟏𝟏 et 𝑞𝑞0=12 (𝟏𝟏−𝑍𝑍)(𝟏𝟏−𝑍𝑍)𝐺𝐺𝟏𝟏

Ces quantités correspondent aux fréquences alléliques dans les deux strates lorsque Z est la variable indicatrice de l’appartenance aux strates. On pose ensuite 𝑝𝑝𝑖𝑖 = 1 − 𝑞𝑞𝑖𝑖 et 𝑣𝑣(𝐺𝐺) = (2𝑝𝑝1𝑞𝑞1)/(2𝑝𝑝0𝑞𝑞0). Les catégories de SNPs sont ensuite définies de la même manière. Le point important de cette extension est qu’elle permet d’utiliser les coordonnées des individus sur les premières PCs de l’ACP en l’absence d’information sur les strates ou lorsque plus de deux strates sont observées dans l’échantillon. Un diagnostic peut ainsi être réalisé à partir de l’information de chaque PC, prise individuellement, une fois les valeurs rapportées dans un intervalle de [0,1].

4.1.2 Résultats

Evaluation de l’erreur de type I

La Figure 4.1 présente les Q-Q plots stratifiés pour l’analyse d’un phénotype simulé avec une

différence importante de prévalence entre les strates (prévalences de 0.05 et 0.30 dans les cohortes de Tori-Bossito et d’Allada respectivement) avec les différents modèles : régression logistique (LR), régression logistique mixte (MLR, test du score de Chen et al.) et modèle linéaire mixte (MLM). Les catégories de SNPs correspondent à celles définies par Chen et al. : les SNPs de la catégorie 1 (11,4%) ont des MAFs sensiblement inférieures dans la strate à plus haut risque (cohorte de d’Allada), les

SNPs de la catégorie 2 (77,6%) des MAFs similaires dans les deux strates et les SNPs de la catégories 3 (11,0%) des MAFs sensiblement plus élevées dans la strate à plus haut risque.

Figure 4.1 Q-Q plots stratifiés en absence d’effet des génotypes dans la cohorte du Sud Bénin

LR, régression logistique ; MLR, régression logistique mixte utilisant le test du score ; MLM, modèle linéaire mixte. Les catégories de SNPs correspondent à celles définies dans Chen et al. (2016). En vignette figure le Q-Q plot non stratifié correspondant

Lorsqu'aucune PC n'est incluse (première ligne de la figure), une inflation de la statistique est observée pour la LR (𝜆𝜆 = 1,182). Sur la base du Q-Q plot non stratifié (en miniature), les deux méthodes MLM et MLR paraissent corriger la structure de la population; cependant, le Q-Q plot stratifié montre une inflation de la statistique pour les SNP dans les catégories 1 et 3 pour les deux modèles associé à une déflation de la statistique pour les SNPs de catégorie 1 dans le cas du MLM.

Lorsque 10 PCs sont incluses dans les modèles (deuxième ligne de la figure), cette différence de comportement entre les catégories de SNPs persiste pour le MLM mais la correction est adéquate pour toutes les catégories de SNPs pour la LR et la MLR.

Extension du Q-Q plot stratifié

Nous avons comparé les Q-Q plots stratifiés obtenus avec l’information sur les deux strates, tels que proposés par Chen et al., avec ceux obtenus avec les coordonnées des individus sur les premières PC à partir de la méthode proposée. La Figure 4.2 montre les Q-Q plots pour les analyses avec un MLM et une MLR incluant 10 PCs pour les données de la GWAS (analyse sous l’hypothèse nulle de la section 4.2.1). Des différences entre les Q-Q plots peuvent être observées, cependant les deux Q-Q plots stratifiés conduisent à la même conclusion, c’est-à-dire une correction adéquate dans le cas de la MLR et une inflation/déflation des p-valeurs dans le cas du MLM.

Une comparaison similaire a été réalisés pour la cohorte simulée de 10 000 individus (Figure supplémentaire 2 de l’article 2). Pour cette cohorte qui présente une structure de population plus complexe, l’inadéquation du MLM peut être diagnostiquée à partir des données de la première PC mais également à partir des données de la deuxième PC.

Figure 4.2 Q-Q plots stratifiés obtenus à partir de deux strates (à gauche) et à partir des coordonnées de la première PC (à droite) pour les simulations basées sur les données de la GWAS

4.2 Méthodes proposées pour l’estimation des effets des SNPs