• Aucun résultat trouvé

3 Etude d’association génome entier sur les formes simples de paludisme

3.1 Les modèles mixtes

Un modèle mixte est un modèle incluant à la fois des effets fixes et des effets aléatoires. Les facteurs à effets fixes correspondent à des variables dont les effets sont des paramètres à estimer dans le modèle. Ces effets sont estimés au niveau de la population. Ils sont dits « fixes » car identiques d’un individu à l’autre pour un niveau donné de la variable. Ils interviennent dans l’estimation de la moyenne du modèle. Pour les facteurs à effets aléatoires, on ne s’intéresse pas, en général, aux estimations de ces effets (tirés aléatoirement dans une loi normale) mais on cherche à prendre en compte leur variance dans le modèle. Les effets aléatoires permettent notamment de modéliser un

grand nombre d’effets, par exemple dans le cas de données mesurées de manière répétée, des effets propres à chaque individu. Les différents paramètres de variance à estimer dans le modèle (variances des erreurs du modèle, variances des facteurs à effets aléatoires) sont regroupés sous le terme de composantes de la variance.

Les techniques standards de régression (régression linaire, régression logistique, etc.) supposent que les données soient indépendantes et identiquement distribuées. Lorsque les données présentent une structure de corrélation, l’introduction d’un effet aléatoire va permettre de prendre en compte cette corrélation dans le modèle. Dans le cas de l’exemple ci-dessus, la prise en compte de la corrélation entre les mesures répétées chez un même individu se fait via l’introduction d’effets aléatoires individuels. Cette corrélation peut avoir plusieurs autres origines : l’emboîtement des données (par exemple dans une étude avec des individus inclus dans plusieurs centres hospitaliers) ou encore dans les études génétiques, la présence d’individus apparentés dans l’échantillon. Nous présentons, ci-dessous, les deux modèles mixtes utilisés dans le cadre de cette étude.

3.1.1 Le modèle linaire mixte pour la prise en compte de la structure de population

Le modèle linéaire mixte est actuellement la méthode de référence pour corriger la structure de population dans les études d’association car elle permet de corriger à la fois la stratification de population et l’apparentement entre les individus, ces deux situations induisant une inflation de la statistique de test et l’obtention de faux positifs.

Si l’on considère Y, un phénotype quantitatif mesuré sur n individus, X la matrice des covariables sur lesquelles on souhaite ajuster le modèle, G le génotype du SNP testé, le modèle peut s’écrire :

𝑌𝑌𝑖𝑖 = 𝑋𝑋𝑖𝑖𝛽𝛽 + 𝐺𝐺𝑖𝑖𝛾𝛾 + 𝑢𝑢𝑖𝑖+ 𝜀𝜀

avec :

- 𝛽𝛽et γ des effets fixes. 𝛽𝛽 est le vecteur des effets associés aux covariables et γ l’effet du SNP que l’on cherche à estimer

- 𝑋𝑋𝑖𝑖 le vecteur des covariables pour l’individu i,

- ui l’effet aléatoire associé à l’individu i ; le vecteur 𝑢𝑢 = (𝑢𝑢1⋯ 𝑢𝑢𝑛𝑛) suit une loi 𝑁𝑁(0, 𝜏𝜏K) - 𝜀𝜀 le terme d’erreur aléatoire, 𝜀𝜀 ∼ 𝑁𝑁(0, 𝜎𝜎2𝐼𝐼𝑛𝑛)

Lorsque l’échantillon inclut des individus avec des relations de parenté proches, l’utilisation d’un modèle mixte est assez intuitive, les données génétiques n’étant plus indépendantes. Leur corrélation va dépendre du lien de parenté existant entre les individus, et plus précisément de la quantité de gènes qu’ils ont en commun. Le modèle mixte prend en compte la corrélation entre les données en mettant des effets aléatoires individuels qui ont une structure de variance-covariance qui dépend d’une matrice K, des relations de parenté entre les individus deux à deux. Les relations de parenté peuvent être estimées soit à partir de la reconstitution des généalogies dans les familles, alors 𝐾𝐾𝑖𝑖𝑖𝑖= 2𝜑𝜑𝑖𝑖𝑖𝑖 où 𝜑𝜑𝑖𝑖𝑖𝑖 correspondant au coefficient de parenté estimé entre les individus i et j, soit lorsque les données sont disponibles sur l’ensemble du génome, par la matrice GRM définie dans la section 2.2.2.

La stratification de population, tout comme l’apparentement, fait intervenir des corrélations génétiques entre les individus. En effet, la stratification de population implique la présence de plusieurs populations ou sous-populations distinctes dans un échantillon, et les individus appartenant à une même sous-population peuvent être vus comme un ensemble d’individus partageant un même ancêtre commun et ayant des caractéristiques génétiques communes (Astle and Balding, 2009).

Les estimations obtenues par la GRM englobent l’ensemble des corrélations génétiques existant entre les individus. Aussi lorsque l’on introduit dans le modèle un effet aléatoire qui dépend de la GRM, celui-ci permet de prendre en compte les deux types de structure. Ce modèle parait particulièrement adapté à notre étude, l’échantillon présentant à la fois une sous-structure de population et un certain degré d’apparentement entre les individus.

3.1.2 Le modèle de Cox mixte

Le modèle de Cox mixte, encore appelé modèle de fragilité (frailty model en anglais) est une extension du modèle de Cox adaptée à l’analyse des données de survie corrélées telles que les données d’événements récurrents. Le terme de fragilité fait référence au fait qu’indépendamment des variables incluses dans le modèle, certains individus vont présenter un risque plus élevé et sont donc plus fragiles.

Le modèle de Cox permet d’exprimer le risque instantané de survenue de l’événement, qui s’écrit : 𝜆𝜆𝑖𝑖(𝑡𝑡) = 𝜆𝜆0(𝑡𝑡)𝑒𝑒𝑋𝑋𝑖𝑖,𝑡𝑡𝛽𝛽,

avec :

- 𝛽𝛽 le vecteur des effets associés aux covariables

- 𝑋𝑋𝑖𝑖,𝑡𝑡 le vecteur des covariables, pouvant inclure des variables dépendantes du temps, pour l’individu i

- 𝜆𝜆0(𝑡𝑡) la fonction de risque de base, qui correspond au risque instantané de l’évènement lorsque l’ensemble des covariables sont nulles ou que 𝑋𝑋𝛽𝛽 = 0.

Dans le cas de l’analyse d’événements récurrents, la corrélation entre les événements est prise en compte par l’ajout d’un effet aléatoire individuel. Le risque instantané de survenue de l’événement estimé par le modèle de Cox mixte peut s’écrire (Therneau & Grambsch, 2000):

𝜆𝜆𝑖𝑖(𝑡𝑡) = 𝜆𝜆0(𝑡𝑡)𝑒𝑒𝑋𝑋𝑖𝑖,𝑡𝑡𝛽𝛽+𝑢𝑢𝑖𝑖 (1)

avec :

- 𝛽𝛽 le vecteur des effets fixes associé aux covariables

- 𝑋𝑋𝑖𝑖,𝑡𝑡 le vecteur des covariables, pouvant inclure des variables dépendantes du temps, pour l’individu i

- 𝜆𝜆0(𝑡𝑡) la fonction de risque de base

- ui l’effet aléatoire associé à l’individu i ; le vecteur 𝑢𝑢 = (𝑢𝑢1⋯ 𝑢𝑢𝑛𝑛) suit une loi 𝑁𝑁(0, 𝜎𝜎2𝐼𝐼𝑛𝑛)

Dans ce modèle, les effets aléatoires individuels sont tirés dans une loi normale et sont indépendants les uns des autres.

Dans notre étude, afin de prendre en compte la structure de population, le modèle le plus adapté pour tester l’association avec la récurrence des infections palustres est un modèle de Cox mixte incluant des effets aléatoires individuels qui ne sont plus indépendants mais dont la structure dépend de la matrice GRM.

𝜆𝜆𝑖𝑖(𝑡𝑡) = 𝜆𝜆0(𝑡𝑡)𝑒𝑒𝑋𝑋𝑖𝑖,𝑡𝑡𝛽𝛽+𝐺𝐺𝑖𝑖𝛾𝛾+𝑢𝑢𝑖𝑖 (2)

avec :

- γ l’effet du SNP que l’on cherche à estimer

- 𝑢𝑢𝑖𝑖 l’effet aléatoire associé à l’individu i ; le vecteur 𝑢𝑢 = (𝑢𝑢1⋯ 𝑢𝑢𝑛𝑛) suit une loi 𝑁𝑁(0, 𝜏𝜏𝐾𝐾𝑛𝑛) 3.1.3 Stratégie d’analyse en deux étapes de la GWAS

Le modèle de Cox mixte (2) ne pouvant pas être appliqué sur l’ensemble du génome du fait du temps de calcul, l’étude d’association a été réalisée en deux étapes, permettant d’obtenir rapidement une approximation du modèle. Dans une première étape, un modèle de Cox mixte tel que défini en (1) avec des effets aléatoires individuels indépendants a été utilisé pour estimer les effets des facteurs environnementaux et des facteurs individuels autres que génétiques, sur le risque de survenue des infections. Pour définir les variables à inclure dans le modèle, nous avons utilisé une procédure pas à pas descendante et conservé dans le modèle final uniquement les variables avec une p < 0.05. Ce modèle nous permet ensuite d’obtenir le « Best Linear Unbiased Predictor » (BLUP) 𝑢𝑢^ de 𝑢𝑢, qui correspond à différents risques individuels (ou fragilité individuelle) une fois les covariables prises en compte. Dans la seconde étape, l’association a été testée avec les SNPs avec un modèle mixte linéaire, pour corriger pour la structure de population, en considérant comme variable à expliquer la fragilité individuelle 𝑢𝑢^ obtenue dans le premier modèle :

𝑢𝑢^𝑖𝑖 = 𝐺𝐺𝑖𝑖𝛾𝛾 + 𝑣𝑣𝑖𝑖+ 𝜀𝜀

avec 𝑣𝑣𝑖𝑖 l’effet aléatoire associé à l’individu i, dont la structure de variance-covariance dépend de K, la matrice GRM.

La même stratégie d’analyse a été appliquée dans les analyses de découverte et de réplication. La seule différence est que pour l’analyse de réplication, seuls les SNPs trouvés associés avec une p-valeur < 10-5 dans la première cohorte ont été testés.

Ensuite, pour les régions présentant un signal d’association fort (p-valeurs aux alentours du seuil de signification dans la cohorte de découverte et/ou p-valeurs <0.05 dans la cohorte de réplication), les données ont été réanalysées en une seule étape avec le modèle de Cox mixte (2) afin de contrôler la qualité de l’approximation. Les mêmes facteurs non génétiques que dans la première étape

d’ajustement sur les covariables ont été inclus dans le modèle.

L’ensemble des analyses statistiques ont été réalisées avec le logiciel R (R Core Team, 2017), avec le paquet gaston (Perdry & Dandine-Roulland, 2018) pour les tests d’association sur l’ensemble du génome et avec le paquet coxme (Terry M. Therneau, 2018) pour le modèle de Cox mixte.