Construction des scores polygéniques et imputation

Tel que mentionné dans le chapitre 2de ce mémoire, le score de risque polygénique est considéré comme l’indicateur de risque génétique des deux troubles étudiés dans ce travail. De ce fait, nous consacrons cette partie du mémoire à définir ce concept ainsi que son contexte, présenter sa méthode de calcul en détaillant toutes les étapes de sa construction.

3.3.1 Contexte et définition du score de risque polygénique : PRS

Nombreuses sont les variantes génétiques, spécifiquement les polymorphismes de nucléo- tide simple, notées SNP, identifiées, par plusieurs études d’association pangénomique GWAS,

comme associées à une multitude de phénotypes ainsi que de traits complexes et maladies (Eicher et al. (2015), Manolio (2009)). L’effet d’un SNP, considéré individuellement, peut être trop faible pour passer un test de signification rigoureux (Yang et al. (2010)) et a, par conséquent, à lui seul, un pouvoir prédictif, d’un trait donné, limité. Toutefois, tou- jours selon Yang et al. (2010), en évaluant les effets de tous les SNP simultanément, une grande partie de l’héritabilité peut être expliquée et la prédiction phénotypique est meilleure. L’idée d’agrégation des effets de l’ensemble des variantes en question s’avère donc pertinente et c’est dans cette même logique que le score de risque polygénique est construit. En effet, il est défini comme l’agrégation des effets, estimés de toutes les variantes inférieures à un seuil de valeur-p, à l’échelle du génome, pondérés par les tailles d’effet d’allèle correspondantes à partir de données statistiques sommaires du GWAS (Rosenberg et al. (2019),Choi et al.

(2018) et Pasaniuc and Price (2017)).

Mathématiquement, il peut être représenté par le biais de la relation suivante :

PRS = N X i=1 log (RC_i) × n_i (3.1) avec :

• _{N est nombre de SNPs utilisés pour le calcul du score polygénique,} • _RC

i est le rapport de cote de l’allèle de référence pour le SNP i avec la maladie en question,

• _n

i est la fréquence de l’allèle de référence pour le SNP i chez un individu donné.

3.3.2 Interprétation du score de risque polygénique

La force d’association entre un allèle de référence d’un SNP donné et la maladie étudiée est mesurée par le biais du rapport de cote entre les deux. Ainsi trois cas de figures se présentent :

• _{Cas 1 : Pas d’association entre l’allèle du SNP considéré et le trait ou maladie en ques-} tion :

Si l’allèle d’un SNP n’est pas associé au trait étudié, le rapport de cote sera d’une valeur aux alentours de 1, RC ∼1, donc le log du rapport sera à son tour d’une valeur près de 0, log(RC) ∼0, ainsi le SNP en question ne va pratiquement apporter nulle modifica- tion au niveau de la valeur du score de risque polygénique. Il est à noter que ce cas de figure est peu susceptible de se produire quand on sélectionne les SNPs à un seuil de signification statistique de 5% voire de 10%.

• _{Cas 2 : Une association négative entre l’allèle du SNP en question et le trait ou maladie} étudiés :

rapport sera donc négatif, log(RC) < 0, ainsi la valeur du score de risque polygénique va diminuer.

• _{Cas 3 : Une association positive entre l’allèle du SNP et le trait ou maladie étudiés :} Le rapport de cote sera, dans ce cas, d’une valeur supérieure à 1, RC > 1, et le log du rapport sera à son tour d’une valeur positive, log(RC) > 0, par conséquent la valeur du score de risque polygénique va augmenter.

Sur ce, on peut conclure qu’un sujet atteint par la maladie étudiée aura, en principe, un score de risque polygénique relativement plus élevé comparativement à un non-atteint.

Techniquement, le calcul du score de risque polygénique requiert une multitude d’étapes. Avant d’amorcer la présentation de l’intégrité du processus de construction de ce score, il semble pertinent d’introduire deux notions fondamentales en génétique, qui y sont liées. Il s’agit du déséquilibre de liaison et l’élagage.

Déséquilibre de liaison : LD

Le déséquilibre de liaison, noté conventionnellement LD pour Linkage Disequilibrium, correspond à une mesure de corrélation entre deux allèles à deux locus différents. On évoque ce concept en présence d’une association non-aléatoire entre les deux, en termes de raisonnement probabiliste, lorsque la probabilité d’observer ce couple d’allèles du chromosome en question n’est pas égale au produit des probabilités d’observer ces deux allèles individuellement. Il est à noter que le déséquilibre de liaison peut englober non seulement la relation entre deux allèles à deux locus mais encore celle entre plusieurs loci. Il peut donc être considéré comme un indicateur des forces génétiques structurant un génome (Slatkin (2008)). Mentionnons qu’il est fondamental dans les études de GWAS car il permet l’identification des marqueurs génétiques marquant les variantes causales réelles (Joiret et al.(2019)). En effet, la présence d’un déséquilibre de liaison élevé dans une région donnée, nous indique que, pour capter la variation au sein de cette région, nous avons besoin d’uniquement un sous-ensemble de SNPs de cette portion du génome tel qu’il soit en équilibre de liaison. Il nous suffit donc de préserver un des sous-ensembles satisfaisant cette condition. Dans ce sens, le processus de retrait des autres : les SNPs en déséquilibre de liaison avec le sous-ensemble retenu, est appelé l’élagage.

Le processus d’élagage

Tel qu’introduit précédemment, le processus d’élagage consiste au retrait de SNPs en déséquilibre de liaison. En effet, il s’effectue selon un critère, à savoir celui d’inflation de variance, noté VIF pour variance inflation factor, classiquement utilisé en statistique pour traiter la question de multicolinéarité, tel qu’un VIF avec une valeur supérieure à un certain

seuil indique la présence d’une corrélation entre les deux facteurs en question : SNPs considé- rés, en particulier ici. Notons que ceci est effectué de façon itérative jusqu’à ce qu’on obtienne un sous-ensemble de SNPs dont le déséquilibre de liaison n’excède pas un certain seuil de corrélation.

3.3.3 Étapes de construction de scores polygéniques du trouble bipolaire (BD) et de la schizophrénie (SZ)

Processus d’élagage pour les scores polygéniques du trouble bipolaire (BD)

Nous avons été amenés, en particulier, à effectuer d’abord le processus d’élagage avant de pouvoir calculer les scores polygéniques du trouble bipolaire (BD). Pour ce, nous avons utilisé le fichier contenant les statistiques de l’ensemble des SNPs du génome. La GWAS du BP du Ruderfer et al. (2018), nommée « BDvsCont.sumstats » a été utilisée à cet effet. Certaines étapes nous ont été indispensables, en guise de préparation du fichier en question, avant de pouvoir entamer le processus en utilisant le fichier final, que nous avons nommé « BDvsCON T _f ichier_chri_sorted1_f i_modif ie.txt » avec (i = 1, ...22). L’ensemble des étapes effetuées sur le fichier initial sont présentées intégralement dans l’annexe B.1. À titre d’illustration, nous avons opté pour présenter un extrait aléatoire de la sortie du fichier final obtenu pour le chromosome 9 : « BDvsCON T _f ichier_chr9_sorted1_f i_modif ie.txt » en annexeB.2. Il est à noter que nous avons procédé, par la suite, avec le logiciel plink sur le système Linux, afin d’effectuer l’élagage pour chacun des fichiers construits, et ce en utilisant la syntaxe présentée intégralement en annexe B.3.

Après avoir effectué le processus en question, nous obtenons finalement les 22 fichiers suivants :

BP _Clumped_correctement_chri.clumped, (i = 1, ...22). Nous nous en servons afin d’en

créer un, utilisé principalement, par la suite, dans la construction des scores polygéniques du trouble bipolaire. Un traitement particulier a été effectué pour l’ensemble des fichiers obtenus. Il consiste principalement à éliminer d’abord les chromosomes manquants ainsi que les SN P s redondants des fichiers en question et en les combinant par la suite pour avoir le fichier final dont la forme peut être illustrée par l’extrait présenté en annexeB.4. Il est à noter que l’extrait choisi pour le trouble bipolaire, à ce stade, correspond à celui contenant le sous-ensemble des SNPs figurant sur le B.2 et conservés après le processus finalement.

Calcul des scores polygéniques du trouble bipolaire (BD) et de la schizophrénie (SZ)

Les scores polygéniques du trouble bipolaire et schizophrénie ont été calculés au seuil de 0.10, soit un seuil permettant une meilleure prédiction du risque calculé dans le cadre des échantillons indépendants. Avant d’entamer techniquement le calcul des scores en question,

il a été nécessaire d’effectuer d’abord le nettoyage du fichier d’alignement map et du fichier

bim et ce, en en éliminant les SNPs trialléliques. Cette étape, à elle seule, soit le traitement

des SNPs trialléliques, a nécessité tout un calcul. Nous avons opté à le présenter commenté intégralement en détails en annexe G. Finalement, le nombre de SNPs obtenus dans chaque PRS au seuil de 0.10 est de 33488 et 59464 pour la schizophrénie et le trouble bipolaire, respectivement. Notons que le seuil en question est celui correspondant à la valeur P , figurant sur les fichiers utilisés, tel que présenté en annexe B.2 etB.4.

3.4 Conclusion du chapitre

Ce chapitre a été principalement consacré à l’aspect génétique de notre travail, parti- culièrement, les scores polygéniques de la schizophrénie et trouble bipolaire, étant un facteur de risque des deux troubles en question. Il traite essentiellement le volet théorique ainsi que technique de la construction des présents scores, en intégrant exhaustivement les étapes indispensables du processus en question.

Chapitre 4

Étude de simulation : Identifiabilité

du modèle JLCM

4.1 Introduction du chapitre

Le présent chapitre a pour objectif central d’évaluer la performance du modèle conjoint à classes latentes (JLCM) présenté théoriquement dans le chapitre 1, et techniquement dans le présent chapitre. Nous étudions, en particulier, la question d’identifiabilité, discutée par

Proust-Lima et al. (2014) et démontrée par le biais de simulation dans cette étude, et ce, en s’intéressant à la fois à l’appartenance aux classes latentes à partir du modèle logistique ainsi qu’aux coefficients de régression de celui longitudinal. Dans le dessein de répondre à cette question, nous proposons une étude de simulation englobant deux scénarios présentés en détails en outre des devis de simulation dans la section 4.2de ce chapitre. La section4.3sera dédiée, à son tour, à la présentation et l’analyse des principaux résultats de cette étude. Les conclusions seront, finalement, résumées dans la section4.4de ce même chapitre. Mentionnons que l’ensemble des notations utilisées le long de ce chapitre, demeurent les mêmes que celles présentées dans le chapitre 1.

Dans le document Prédiction de troubles psychiatriques à partir des trajectoires neuro-développementales et des déterminants génétiques chez les enfants génétiquement à risque (Page 38-43)