• Aucun résultat trouvé

Prédiction de troubles psychiatriques à partir des trajectoires neuro-développementales et des déterminants génétiques chez les enfants génétiquement à risque

N/A
N/A
Protected

Academic year: 2021

Partager "Prédiction de troubles psychiatriques à partir des trajectoires neuro-développementales et des déterminants génétiques chez les enfants génétiquement à risque"

Copied!
143
0
0

Texte intégral

(1)

Prédiction de troubles psychiatriques à partir des

trajectoires neuro-développementales et des

déterminants génétiques chez les enfants

génétiquement à risque

Mémoire

Chaymae Yousfi

Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)

(2)

Résumé

La schizophrénie et le trouble bipolaire sont les troubles psychiatriques majeurs pesant co-lossalement en termes économique, social ainsi qu’humain, menant généralement à une mar-ginalisation de la population affectée, notamment en absence d’intervention psychosociale et familiale. Ce mémoire se consacre à l’étude et prédiction de ces troubles à partir des trajec-toires neuro-développementales et des déterminants génétiques, du sexe et du trauma chez les enfants génétiquement à risque étant nés d’un parent affecté par ces maladies. Il s’inscrit dans le cadre de développer un outil prédictif impliquant des scores de risque génétique et des indicateurs de risque, pouvant être utile spécifiquement dans le cadre des cliniques de soins primaires en permettant essentiellement de distinguer la progéniture la plus à risque de celle à faible risque de transition ultérieure vers les troubles en question. Le recours aux modèles mixtes linéaires à classes latentes (JLCM) a permis la modélisation conjointe mul-tivariée de l’évolution dans le temps des indicateurs de quatre domaines cognitifs, à savoir mémoire épisodique, mémoire de travail, vitesse de traitement et fonction exécutive ainsi que de l’événement clinique du diagnostic de la schizophrénie ou du trouble bipolaire pour l’étude d’un échantillon de 67 enfants de la population de l’Est du Québec à stratifier et ce, après avoir présenté leur fondement mathématique théoriquement et examiné leur identifiabilité empiriquement.

(3)

Abstract

Schizophrenia and bipolar disorder are major psychiatric disorders weighing colossally in economic, social and human terms, generally leading to the marginalization of the affected population, mainly in the absence of psychosocial and family therapies. This thesis is devoted to study and predict the development of these psychiatric disorders using neuro-developmental trajectories and genetic determinants for children at genetic risk of schizophrenia (SZ) and bipolar disorder (BP), i.e. those who are born to a parent affected by these illnesses. The main aim is to develop a predictive tool involving genetic risk scores and risk indicators, which may be useful in the intervention in the primary care clinic to distinguish the most offspring at risk of later transition to these disorders among the high-risk childen born to a parent affected. The use of joint latent class mixed modeling (JLCM) of time-to-event and the evolution over time of several longitudinal outcomes, while taking into account the confounding variables effects was necessary for the study of a sample of 67 children from the population of Eastern Quebec to be stratified, after having presented theoretically their mathematical basis and examined empirically their identifiability.

(4)

Table des matières

Résumé ii

Abstract iii

Table des matières iv

Liste des tableaux vii

Liste des figures viii

Avant-propos xi

Introduction 1

0.1 Objectifs du mémoire . . . 1

0.2 Structure du mémoire . . . 2

1 Modélisation conjointe de marqueurs longitudinaux et de la survenue d’un événement 3 1.1 Introduction du chapitre . . . 3

1.2 Modélisation unidimensionnelle des données longitudinales. . . 4

1.2.1 Modélisation des données longitudinales homogènes . . . 4

1.2.2 Modélisation des données longitudinales hétérogènes . . . 5

1.3 Modélisation multidimensionnelle des données longitudinales . . . 9

1.3.1 Modélisation des données longitudinales homogènes avec un proces-sus latent . . . 10

1.3.2 Modélisation des données longitudinales hétérogènes avec un pro-cessus latent . . . 12

1.4 Modélisation paramétrique des données de survie . . . 12

1.5 Modélisation conjointe à classes latentes . . . 14

1.6 Conclusion du chapitre . . . 16

2 Trajectoire de risque de la schizophrénie et des troubles bipolaires 17 2.1 Introduction du chapitre . . . 17

2.2 La schizophrénie . . . 17

2.3 Les troubles bipolaires . . . 18

2.4 Les facteurs de risque de la schizophrénie et des troubles bipolaires . . . 19

2.4.1 Le facteur génétique . . . 19

(5)

2.4.3 Les facteurs environnementaux : Stress et traumatismes psychiques 21

2.4.4 Intéractions gène-environnement : (G × E) . . . 21

2.4.5 Trajectoires de risque de la schizophrénie et du trouble bipolaire . . 22

2.5 Conclusion du chapitre . . . 22

3 Méthodologie en génétique 23 3.1 Introduction du chapitre . . . 23

3.2 Quelques rappels et notions de base en génétique . . . 23

3.3 Construction des scores polygéniques et imputation. . . 26

3.3.1 Contexte et définition du score de risque polygénique : PRS . . . 26

3.3.2 Interprétation du score de risque polygénique . . . 27

3.3.3 Étapes de construction de scores polygéniques du trouble bipolaire (BD) et de la schizophrénie (SZ) . . . 29

3.4 Conclusion du chapitre . . . 30

4 Étude de simulation : Identifiabilité du modèle JLCM 31 4.1 Introduction du chapitre . . . 31

4.2 Étude de simulation . . . 31

4.2.1 Choix du nombre de classes latentes à considérer dans l’étude de simulation . . . 31

4.2.2 Nombre d’observations prises par sujet dans cette étude de simulation 32 4.2.3 Devis de simulation . . . 32

4.2.4 Scénarios de simulation . . . 33

4.2.5 Scénario 2 . . . 36

4.3 Résultats de l’étude de simulation . . . 39

4.3.1 Identifiabilité du modèle longitudinal : Effets de la variable sexe dans les deux classes latentes du premier scénario. . . 39

4.3.2 Identifiabilité du modèle d’appartenance aux classes latentes : Effets de la variable sexe sur l’appartenance aux classes latentes pour les deux scénarios . . . 42

4.4 Conclusion du chapitre . . . 44

5 Étude de prédiction de la schizophrénie et des troubles bipolaires chez les enfants à risque 45 5.1 Introduction du chapitre . . . 45

5.2 Présentation des données réelles et quelques statistiques . . . 45

5.2.1 Courbe de Kaplan-Meier des âges d’apparition de la maladie chez les sujets étudiés . . . 47

5.3 Modélisation conjointe : Approche multidimensionnelle . . . 48

5.3.1 Ajustement des modèles statistiques . . . 50

5.3.2 Problème de convergence et pistes exploitées à titre de résolution . . 51

5.3.3 Présentation des résultats . . . 53

5.3.4 Résultats des modèles et leurs interprétations . . . 57

5.4 Classification a postériori selon la classe latente . . . 61

5.5 Prédiction du risque d’une conversion ultérieure vers le trouble psychiatrique 62 5.6 Validation de la performance du modèle à l’aide d’une mesure externe : GAF 65 5.6.1 Définition du GAF . . . 65

(6)

5.6.2 Corrélation entre le GAF et les probabilités prédites du risque de

développer l’un deux troubles mentaux étudiés . . . 66

5.6.3 Pire GAF enregistré pour chaque sujet . . . 67

5.7 Conclusion du chapitre . . . 68

Discussion et Conclusion 70 Bibliographie 73 A Modèle MML et transformation Beta 78 A.1 Présentation du modèle linéaire mixte multivarié avec m variables réponses 78 A.2 Modélisation des marqueurs longitudinaux : Transformation Beta . . . 79

A.3 Présentation mathématique de la distribution de Weibull. . . 80

B Élagage et imputation 82 B.1 Présentation des étapes de préparation du fichier servant à l’élagage . . . . 82

B.2 Extrait représentatif du fichier final à utiliser pour le processus d’élagage . 82 B.3 Syntaxe adoptée pour effectuer l’élagage des fichiers construits . . . 84

B.4 Extrait du fichier final après le processus d’élagage . . . 84

C Modèle de survie 86 C.1 Présentation de l’estimation de la fonction de survie par la méthode de Kaplan-Meier . . . 86

C.1.1 Estimation de la fonction de survie en absence de données censurées 86 C.1.2 Estimation de la fonction de survie en présence de données censurées 87 C.1.3 Les intervalles de confiance au seuil de (1-α)100% pour la fonction de survie S(t) . . . 87

D Modèles ajustés avec les données de notre échantillon d’étude 89 D.1 Légende illustrant la définition des acronymes des modèles statistiques sur le tableau synthétique 5.4 . . . 89

D.2 Présentation de l’ajustement et résultats des modèles choisis. . . 91

D.2.1 Modèle (1) : {sexe, tr_cont, sexe :tr_cont} . . . 91

D.2.2 Modèle (2) : {Complet}\{sexe :tr_di} . . . 94

D.2.3 Modèle : {Complet}-Option RandomY=FALSE. . . 97

E Risques cumulatifs des deux modèles choisis 102 E.1 Risques cumulatifs individuels calculés à l’âge de 22 ans, 36 ans respectivement 102 E.1.1 Modèle (1) : {sexe :tr_cont} . . . 102

E.1.2 Modèle (2) : {Complet}\{sexe :tr_di} . . . 105

F Programme R utilisé pour les simulations 108 F.1 Simulations . . . 108

F.1.1 Scénario 1 : . . . 108

F.1.2 Scénario 2 : . . . 114

(7)

Liste des tableaux

4.1 Tableau de probabilités conjointes et marginales . . . 37 5.1 Tableau des caractéristiques de l’échantillon étudié de la sous-population des

enfants génétiquement à haut risque (EHR) . . . 46 5.2 Fréquence des visites par sujet . . . 46 5.3 Tableau descriptif de la survie à l’apparition des deux troubles : SZ ou BP, des

sujets étudiés avec les intervalles de confiance construits au seuil de 95% . . . 48 5.4 Présentation des principaux résultats des modèles ajustés . . . 54 5.5 Tableau des résultats sommaires des AICcmJ LCM obtenus en ajustant les modèles

présentés à une/deux classes latentes sans effet aléatoire propre aux marqueurs

étudiés . . . 57 5.6 Tableau croisée des deux modèles choisis . . . 65 5.7 Tableau des estimations de la corrélation entre la variable GAF des deux

vi-sites : GAF1 et GAF2 respectivement et le risque cumulatif à l’âge de 36 ans :

F36 . . . 66

B.1 Extrait du fichier « BDvsCON T _f ichier_chr9_sorted1_f i_modif ie.txt » . 83 B.2 Extrait du fichier final : « nature.clumped » . . . 85 D.1 Clé indiquant la signification des acronymes des modèles présentés sur le

ta-bleau 5.4 . . . 90 E.1 Tableau illustrant la classe de risque a posteriori pour chaque sujet étudié ainsi

que leurs risques cumulatifs de développer l’un des deux troubles menteux en question à l’âge de 22 ans, 36 ans respectivement obtenus à l’aide de

l’ajuste-ment du modèle (1) : {sexe :tr_cont} . . . 104 E.2 Tableau illustrant la classe de risque a posteriori pour chaque sujet étudié ainsi

que leurs risques cumulatifs de développer l’un des deux troubles menteux en question à l’âge de 22 ans, 36 ans respectivement obtenus à l’aide de

(8)

Liste des figures

3.1 Une portion du génome humain : chaque chromosome contenant plusieurs gènes constitués d’ADN. Source : National Library of Medicine (US). Handbook : Help Me Understand Genetics. Bethesda (MD) : US National Library of

Me-decine. Available from :https://ghr.nlm.nih.gov/primer/basics/gene. . . 24 3.2 Les 22 paires de chromosomes homologues humains alignés par taille et les

deux chromosomes sexuels, X et Y. Source : National Library of Medicine (US). Handbook : Help Me Understand Genetics. Bethesda (MD) : US National Library of Medecine. Available from :https://ghr.nlm.nih.gov/handbook/

basics/howmanychromosomes . . . 24 3.3 Illustration simplifiée de la structure de l’ADN, comprenant en particulier les

quatre bases de nucléotides constituant les paires de bases. Source : Terese Winslow LLC, Medical And Scientific Illustration. Available from : https:

//www.teresewinslow.com/cellular-scientific . . . 26 4.1 Le design simplifié des deux scénarios de simulation de données . . . 33 4.2 La représentation graphique des deux distributions échantillonales des deux

effets dans chacune des classes latentes . . . 42 5.1 Courbe de Kaplan-Meier des âges d’apparition de la maladie chez les sujets

étudiés . . . 47 5.2 Visualiation graphique des quatre domaines cognitifs étudiés pour l’ensemble

des sujets étudiés . . . 50 5.3 Les distributions d’appartenance individuelles à la première classe latente pour

chaque modèle des deux choisis : {Sexe, tr_cont, sexe :tr_cont} et {Complet*}\{sexe :tr_di} 62 5.4 Distribution de risques cumulatifs à l’âge de 22 ans et 36 ans respectivement par

classe de risque obtenu par les deux modèles, (1) : {sexe, tr_cont, sexe :tr_cont}

et (2) : {Complet*}\{sexe :tr_di} respectivement . . . 64 5.5 Les distributions des corrélations du GAF enregistré aux deux visites avec le

risque de développer l’un des deux troubles étudiés, obtenues à l’aide des deux

modèles choisis : (1). {Sexe, tr_cont} et (2). {Complet*}\{sexe :tr_di} . . . . 67 5.6 Les distributions du pire GAF enregisté pour chaque sujet modèlisé par les

(9)

Je dédie ce travail à ma petite famille,

mes parents et mes soeurs.

(10)

"L’intelligence est l’aphrodisiaque ultime"

(11)

Avant-propos

Rédiger ce mémoire de maîtrise n’était une tâche si infime pour moi, elle requérait amplement de concentration, implication et surtout soutien et orientation, et ce, le long de plusieurs mois durant lesquels j’ai vécu des moments pleins d’enthousiasme, de confiance et de dépassement de soi comme d’autres difficiles régnés par une désespérance et anxiété. Je profite de ces quelques lignes pour remercier toutes les personnes qui ont contribué, de loin ou de près, à la réalisation de ce travail.

Je tiens tout d’abord à remercier beaucoup mon directeur de recherche, Monsieur Alexandre Bureau, directeur du programme de biostatistique et professeur au département de médecine sociale et préventive à la faculté de médecine de l’Université Laval, pour son indispensable soutien et aide tout au long de la réalisation de ce projet et pour sa grande implication dans chaque étape de ce travail, allant de la recherche aux conférences et rédac-tion de ce mémoire. Il s’est toujours montré disponible, enthousiaste et réceptif à toute idée bien qu’elle soit si minuscule. J’ai beaucoup apprécié la marge d’autonomie qu’il m’accordée et notamment sa confiance en moi lors des deux conférences que j’ai données dans le cadre de ce projet, à savoir celle du congrès R Québec 2019 et celle de la 8ième Réunion Annuelle Canadienne sur la Génétique Humaine et Statistique (RACGHS) à Montebello en été 2019. Finalement, je profite du présent mémoire pour exprimer mes sincères remerciements pour vous Monsieur, pour votre soutien et accompagnement, lorsque je passais par des moments si difficiles en début d’hiver 2019. Votre attention et encouragement, durant cette phase bien particulière, étaient si significatifs pour moi. Vous avez faites preuve d’humanité, je vous en serai toujours reconnaissante. Je vous en remercie d’ailleurs énormément !

D’autres personnes ont également participé à ce projet, s’inscrivant dans le cadre du Pro-gramme de subvention Catalyseur, d’abord Monsieur Michel Maziade, psychiatre, directeur du centre de neuro-médecine personnalisée et du neurodéveloppement de l’enfant (CNPN) et professeur de psychiatrie à la faculté de médecine de l’Université Laval, Madame Elsa Gil-bert, neuropsychologue et coordinatrice scientifique de projets, Monsieur Thomas Paccalet, coordonnateur scientifique de projets au centre de recherche CERVO et Madame Isabelle

(12)

St-Amour, coordonnatrice scientifique de projets au sein du même centre de recherche. Je tiens à exprimer ma gratitude envers eux et à leur adresser un grand merci pour leur implication le long de ce projet. Je tiens finalement à remercier toute l’équipe du Centre de recherche Brain Research Center CERVO.

Mes remerciements vont aussi à l’Université Laval de m’avoir octroyée une bourse d’Ex-cellence à la maîtrise pour les étudiants internationaux, ainsi qu’aux autorités marocaines et québécoises de m’avoir octroyée une bourse d’exemption des droits de scolarité supplémen-taires dans le cadre de l’Entente de coopération en matière d’éducation et de formation entre le Gouvernement du Royaume du Maroc et le Gouvernement du Québec et finalement à mon directeur de recherche, Alexandre Bureau, de m’avoir octroyée une bourse des études supérieures du Programme de subvention Catalyseur, finançant mes travaux de recherche de maîtrise.

En finissant, je voudrais bien sûr remercier énormément les membres de ma famille, mes parents et mes sœurs, de m’avoir soutenue et encouragée pour toutes les décisions que j’ai prises tout le long de mon parcours scolaire, de se dévouer corps et âme pour mon bien-être. Un merci à toi maman pour ta tendresse et ton amour inconditionnel et un grand merci particulier à toi mon papa, pour tout ce que tu as fait pour moi. C’est grâce à toi que je suis ce que je suis maintenant. Merci de vouloir toujours garantir un milieu si épanouissant et chaleureux pour notre famille !

(13)

Introduction

Les troubles psychiatriques majeurs, essentiellement la schizophrénie et le trouble bi-polaire, touchent une proportion non-négligeable de la population canadienne, notamment québécoise. Les troubles en question ont de multiples répercussions sur divers plans, à savoir celui individuel, familial ainsi que communautaire, sur une multitude de domaines, notam-ment celui social ainsi qu’économique. En dépit du développenotam-ment éminent de la science, il n’existe présentement de traitement intégralement efficace. Nous nous sommes intéressés à étudier l’évolution de ces troubles à partir des trajectoires neuro-développementales et des déterminants génétiques chez une sous-population bien particulière, à savoir celle des enfants génétiquement à risque de troubles psychiatriques majeurs : schizophrénie (SZ) et trouble bipolaire (BP), étant nés d’un parent atteint par l’une des deux maladies en question. Notre intérêt pour la présente sous-population s’ensuit essentiellement du risque encouru, estimé de 15 à 20 fois de plus que celui du reste de la population. Dès l’enfance, des indicateurs de risque sont plausiblement présents, notamment des déficits cognitifs avec des troubles du comportement et développementaux, tout en s’accumulant avec une détérioration plus dense et grave de la trajectoire neuro-développementale au fil du temps avant une transition vers les troubles étudiés (Maziade et al. (2009) et Paccalet et al. (2016)). Une distinction des enfants, les plus à risque d’une transition ultérieure vers les troubles de ceux à faible risque, est plausible pour notre population d’intérêt (Maziade (2017)). Afin de s’y rendre, nous devons avoir recours à des modèles analytiques prédictifs multivariés améliorés et appropriés au contexte présent, permettant la stratification de notre population en fonction du risque d’une conversion ultérieure. Nous avons ainsi opté pour les modèles mixtes linéaires à classes latentes (JLCM) développés par Proust-Lima et al. (2014), pour répondre à la présente question de recherche.

0.1 Objectifs du mémoire

L’objectif ultime de cette étude est de développer un outil pratique d’une portée future pertinente en guise de prévention ainsi que d’orientation des interventions précoces auprès de la population touchée par les deux troubles étudiés. Des sous-objectifs ont été dérivés de

(14)

la présente question de recherche. Il s’agit principalement de la compréhension des modèles mixtes linéaires à classes latentes dans notre propre contexte d’étude avec l’examen de leur identifiabilité ainsi que le choix du meilleur modèle statistique combinant les facteurs de risque présentés précédemment.

0.2 Structure du mémoire

Le présent mémoire est divisé en fonction des sous-objectifs énoncés précédemment. D’abord, le chapitre 1 approfondit les fondements théoriques détaillés des modèles mixtes linéaires à classes latentes. Ensuite, le chapitre2identifie les facteurs ainsi que les trajectoires de risque des deux troubles étudiés. Le chapitre 3 a pour but d’examiner l’identifiabilité des modèles d’analyse. Finalement, le chapitre 4 intègre une analyse détaillée de l’ensemble des modèles ajustés pour notre échantillon d’étude, la prédiction des risques futurs de dévelop-per l’un des deux troubles psychiatriques majeurs en question ainsi qu’une validation de la performance de nos prédictions.

(15)

Chapitre 1

Modélisation conjointe de

marqueurs longitudinaux et de la

survenue d’un événement

1.1 Introduction du chapitre

Ce chapitre a pour objectif de présenter le modèle conjoint à classes latentes (JLCM : Joint Latent Class Model) permettant d’analyser conjointement plusieurs marqueurs longitu-dinaux et la survenue d’un événement clinique. Nous commençons dans un premier temps par décrire le modèle pour l’analyse des données longitudinales issues d’une population ayant un profil d’évolution commun (données homogènes), puis celui permettant d’analyser les données provenant d’une population pouvant être stratifiée en plusieurs sous-populations ayant cha-cune son propre profil d’évolution différent des autres (données hétérogènes). Nous présentons ensuite une approche pour étudier plusieurs marqueurs quantitatifs longitudinaux à la fois ; mesurant tous une même quantité sous-jacente qui est leur facteur commun : le processus latent, dans le cas d’une population homogène ainsi qu’hétérogène. Nous exposons par la suite le modèle de survie permettant d’étudier la survenue d’un événement clinique au cours du temps : modèle de survie paramétrique à risques proportionnels. Enfin, nous présentons le modèle JLCM, introduit et développé par Proust-Lima et al. (2014) en combinant les deux modèles exposés précédemment.

(16)

1.2 Modélisation unidimensionnelle des données

longitudinales

1.2.1 Modélisation des données longitudinales homogènes

Le modèle linéaire standard est fondamental pour la modélisation et l’étude des effets d’un ensemble de variables exogènes sur une variable endogène. Ce dernier stipule la non-corrélation des observations. Or, cette hypothèse n’est pas toujours vérifiée, notamment en présence de données longitudinales, ce qui le rend inadéquat dans une multitude de situations. D’où le recours au modèle linéaire mixte, introduit par Laird et Ware (1982), également appelé modèle linéaire à effets mixtes, où la corrélation présente dans les données est capturée par des effets aléatoires.

Étant une extention du modèle linéaire classique, le modèle linéaire à effets mixtes, peut être considéré pour une étude longitudinale d’une population composée de N individus où chaque individu génère ni observations longitudinales (i = 1, ...N ) de la forme :

(Yi(tij), Xi(tij)1, ..., Xi(tij)k, ..., Xi(tij)q)> avec :

Y

i(tij) étant la mesure de la variable d’intérêt au temps d’observation tij(j = 1, ..., ni), • X

i(tij) étant le vecteur (q + 1) × 1 de covariables éventuellement dépendantes du temps associé aux effets fixes considérés au temps de la jième mesure, tel que :

Xi(tij) = (1, Xi(tij)1, ..., Xi(tij)k, ..., Xi(tij)q)> où (k = 0, ..., q). Le modèle s’écrit comme suit :

Yi(tij) = Zi(tij)>ui+ Xi(tij)>β + i(tij), 1 ≤ i ≤ N, 1 ≤ j ≤ ni; (1.1) La version du modèle linéaire à effets mixtes présentée ci-dessus, à savoir l’équation1.1, ainsi que les notations qui lui y sont associées, sont celles adoptées par Proust-Lima et al.

(2014). avec :

u

i étant le vecteur (p + 1) × 1 des effets aléatoires où ui ∼ N (µ, B),Z

i(tij) étant le vecteur (p + 1) × 1 de covariables éventuellement dépendantes du temps associé aux effets aléatoires considérés au temps de la jième mesure, tel que :

(17)

β étant le vecteur (q + 1) × 1 des effets fixes associé au vecteur des covariables X i(tij), • 

i = (i(ti1), ..., i(tij), ..., i(tini)) ∼ N (0, Σi) le vecteur ni×1 des termes d’erreur.

En pratique, les modèles linéaires à effets mixtes les plus courants sont ceux les plus simples, à savoir le modèle linéaire mixte avec seulement une ordonnée à l’origine, soit p = 1 et celui mixte avec une ordonnée aléatoire ainsi qu’une pente aléatoire pour le temps, soit p = 2.

Nous présentons ici le premier modèle, à savoir celui avec uniquement une ordonnée à l’origine aléatoire.

En effet, en prenant :

(

ui= γ0i,

Zi(tij) = 1 Le modèle peut donc être présenté comme suit :

Yi(tij) = γ0i+ Xi(tij)>β + i(tij), 1 ≤ i ≤ N, 1 ≤ j ≤ ni; (1.2) Nombre d’observations assurant l’identifiabilité du modèle linéaire mixte avec une ordonnée à l’origine aléatoire

Pour le présent modèle et par souci d’identifiabilité, chaque sujet doit être observé au moins deux fois. En effet, pour identifier tous les paramètres de variance-covariance, le nombre de paramètres à estimer doit être au plus égal au degré de liberté dans la matrice de variance-covariance. Dans le présent cas, on a deux paramètres à estimer : la variance de l’ordonnée à l’origine et la variance résiduelle. On aura ainsi besoin d’au moins deux ob-servations par sujet (ni = 2) pour avoir une matrice de variance-covariance de taille 2 × 2 avec comme degrés de liberté : les deux variances des deux temps de mesure et leur covariance.

Le deuxième modèle : modèle mixte linéaire avec une ordonnée à l’origine et pente aléatoires sera présenté ultérieurement. En effet, il sera utilisé dans le cadre de notre étude de simulation au chapitre 4.

1.2.2 Modélisation des données longitudinales hétérogènes

Bien que les modèles linéaires mixtes standards soient amplement utilisés pour les études longitudinales, tenant compte de la corrélation présente dans les données, ils stipulent que

(18)

la population étudiée est homogène, il existe donc maintes situations où le recours à ceux-ci n’est pas approprié pour répondre à la question de recherche.

L’hypothèse stipulée est ainsi violée en présence d’hétérogénéité d’une population pouvant être subdivisée en sous-groupes latents homogènes de sujets. Ce cas est fréquemment rencontré dans les études médicales, à titre illustratif, celles étudiant la probabilité de développer une certaine maladie et où les sujets appartenant à un sous-groupe donné partagent le même risque.

Dans le présent contexte, les modèles linéaires mixtes à classes latentes se tournent en un recours possible pour étudier la population en question.

Dans le cadre de ces modèles, on suppose que la population des sujets est subdivisée en un nombre fini de sous-groupes homogènes latents et que chaque sujet de la population a une certaine probabilité d’appartenir à chacune des classes considérées.

Il est à noter encore qu’on fait appel aux modèles de regression linéaires généralisés à l’intérieur de ces modèles. En effet,la modélisation de l’appartenance aux classes latentes passe par le biais du modèle de régression logistique multinomiale, rappelons donc ce que sont les modèles de regression polytomique ou multinomiale.

La régression logistique multinomiale

On a souvent recours à la régression logistique, lorsqu’on cherche à modéliser la probabi-lité d’observer un événement d’intérêt étant la réalisation d’une variable réponse catégorique. Dans ce sens, on utilise celle binomiale pour les variables endogènes dichotomiques et encore celle multinomiale dans le cas des variables ayant plus de deux catégories.

La fonction du lien canonique pour les modèles de régression logistique est celle du logit, cou-ramment utilisée, simplifiant majoritairement ainsi l’interprétation des coefficients du modèle, principalement celle de la cote par rapport à la catégorie de référence choisie.

En effet, en régression logistique, binomiale ou polytomique, on choisit toujours une modalité de base ou de référence, une modalité à laquelle on compare les autres modalités lors de l’in-terprétation.

Soit Y une variable endogène, ayant k modalités et soient le vecteur des q variables explica-tives X = (1, X1, X2, ..., Xq).

Le modèle de régression logistique multinomial, étant une généralisation du modèle binomial, peut être présenté par la formule suivante :

Pour une modalité l(1, ..., G) de Y donnée, on a que :

ln(πl πG

) = XTζl (1.3)

(19)

ζ

l est le vecteur des coefficients associé au vecteur des covariables X pour la modalité l. Une autre écriture plausible du modèle est :

πl= exp(XTζl) PG h=1exp(XTζh) (1.4) En effet, on a : πl = πG× exp(XTζl) ⇒ PG l=1πl=PGl=1πG× exp(XTζl) ⇒ 1 = πG×PG h=1exp(XTζh) ⇒ πG = PG 1 h=1exp(X Tζ h) d’où l’équation 1.4 Interprétation

Par souci de simplification d’interprétation du modèle, on se contentera d’une variable catégorique dichotomique : G=2. La variable endogène Y prend donc comme valeur 0 ou 1, elle est ainsi de type Bernoulli.

Notons πi : la probabilité d’observer l’événement d’intérêt, Y = 1, chez l’individu i de la population, (i = 1, ..., N ), sachant l’ensemble des variables explicatives (X1, X2, ..., Xq). Ainsi et en ayant recours au lien canonique, celui logit, la cote du modèle pour le sujet i est

πi

1−πi.

Encore et concernant toujours la cote, l’augmentation d’une des variables explicatives conti-nues, xm, (m = 1, ..., q) d’une unité multiplie par exp(ζm) sa cote.

En effet, on a : πi(xim) 1−πi(xim) = exp(x Tζ) = exp(Pq k=0xik× ζk) = exp(ζ0+ xi1× ζ1+ ... + xim× ζm+ ... + xiq× ζq) πi(xim+1) 1−πi(xim+1) = exp(ζ0+ xi1× ζ1+ ... + (xim+ 1) × ζm+ ... + xiq× ζq) = exp(ζ0+ xi1× ζ1+ ... + xim× ζm+ ... + xiq× ζq+ ζm) = exp(ζ0+ xi1× ζ1+ ... + xim× ζm+ ... + xiq× ζq)exp(ζm) ⇒ πi(xim+1) 1−πi(xim+1) = πi(xim) 1−πi(xim)exp(ζm)

On a considéré une variable explicative continue à titre illustratif seulement. En effet, l’inter-prétation demeure principalement la même pour une variable dichotomique.

Toujours et encore concernant la cote, une propriété très intéressante de la régression logis-tique est qu’elle permet d’estimer le rapport des cotes, permettant à son tour de donner une idée sur la force ainsi que le sens de l’association entre la variable explicative considérée et la variable endogène.

(20)

Modélisation de l’appartenance aux classes latentes

En particulier, dans le cadre de la modélisation des données longitudinales hétérogènes, tel que souligné au début de cette section, l’appartenance aux classes latentes est modélisée à son tour par une regression logistique multinomiale.

En effet, pour une population de N sujets pouvant être regroupée en un nombre fini de classes latentes homogènes : G.

Afin de modéliser l’appartenance d’un sujet i, (i = 1, ..., N ) à une classe latente donnée g, on peut définir la variable catégorique latente ci tel que :

ci = g si i ∈ g

Ainsi, le sujet i a une probabilité, notée πig, d’appartenir à la classe latente g représentée par le biais d’un modèle de régression logistique multinomiale avec q covariables Xki, k = (1, ..., q), tel que : πig = p(ci= g/Xi) = exp(XiTζg) PG l=1exp(XiTζl) (1.5)

La probabilité peut donc également être écrite sous la forme suivante :

πig = p(ci = g/Xi) = exp(ζ0g+ Xi(q)Tζ1g) PG l=1exp(ζ0l+ Xi(q)Tζ1l) (1.6) avec : • ζ

0g est l’ordonnée à l’origine pour la classe g,

ζ

1g = (ζ1g(1), ..., ζ (q)

1g ) est le vecteur des paramètres spécifiques à la classe g associé au

vecteur Xi(q) = (Xi1, Xi2, ..., Xiq).

Notons que par souci d’identifiabilité du modèle, on suppose que :

(

ζ0G = 0

ζ1G = 0

Finalement, à l’intérieur de chaque classe latente g, la modélisation de la variable réponse se fait parfaitement par le biais du modèle de la régression linéaire à effets mixtes, présenté dans la section 2.1.1, tel que pour une classe donnée g, on a que :

Yi(tij)/ci=g = Zi(tij)

>

uig+ Xi(tij)>βg+ i(tij) (1.7) avec :

(21)

u

ig = ui/ci=g étant le vecteur p × 1 des effets aléatoires pour la classe latente g où :

uig ∼ N (µg, Bg) et ui ∼PGg=1πigN (µg, Bg), πig la probabilité pour l’individu i d’ap-partenir à la classe g tel que défini précédemment.

Il est à noter que Bg est la matrice de variance-covariance des effets aléatoires pouvant être commune entre toutes les classes latentes ou spécifique à chacune d’entre elles, dans ce cas, elle peut s’écrire sous la forme : Bg = ωg2B, avec B une matrice non-structurée, Notons encore que par souci d’identifiabilité et limiter le nombre de paramètres du mo-dèle, on suppose que ωG = 1,



i = (i(ti1), ..., i(tij), ..., i(tini) ∼ N (0, Σi), est le vecteur ni× 1 des termes d’erreur.

Σi : la matrice de variance-covariance des erreurs qu’elles soient homoscédastiques et in-dépendantes ou qu’elles comprennent un processus de corrélation tel qu’un mouvement brownien ou un processus autorégressif.

β

g étant le vecteur (q + 1) × 1 des effets fixes propres à la classe latente g,

Il est à noter encore que pour des fins d’identifiabilité, on suppose qu’il n’y a pas de chevauchement entre les deux vecteurs : Xi(tij) et Zi(tij).

1.3 Modélisation multidimensionnelle des données

longitudinales

Tel que présenté au début de la section 1.2, en présence des données longitudinales ho-mogènes, on a souvent recours au modèle de régression linéaire à effets mixtes pour modéliser une seule variable réponse à l’aide d’un vecteur prédicteur de variables exogènes. Toutefois, le champ d’application de ce modèle est restreint à une seule variable réponse. En effet, dans le même contexte : présence de données longitudinales homogènes, en cherchant à modéliser plusieurs variables réponses conjointement à l’aide d’un ensemble commun de variables pré-dictives composant le vecteur prédicteur, il faut prendre en considération la corrélation entre l’ensemble des variables endogènes. Ceci est fait afin de minimiser les erreurs de prédiction des variables en question et avoir une bonne précision du modèle estimé. Dans ce sens, on utilise le modèle de régression linéaire à effets mixtes multivarié permettant effectivement d’exploiter la structure de dépendence entre les variables réponses. Notons que le recours au modèle univarié pour modéliser chacune des variables endogènes séparément, demeure une technique simple et populaire bien qu’elle ignore l’information commune entre l’ensemble des variables considérées.

Il est à noter encore que ce modèle est conventionnellement utilisé lorsque les variables ré-ponses sont directement observées. Or, dans ce mémoire, nous nous sommes intéressés

(22)

prin-cipalement à étudier le cas des variables latentes : variables indirectement observées. Sur ce et comme le modèle de régression linéaire à effets mixtes multivarié n’a pas été utilisé dans le présent travail, nous avons donc opté pour le présenter en annexeA.2 à titre explicatif.

Les marqueurs longitudinaux

Dans certaines études, notamment celles épidémiologiques, la variable d’intérêt peut ne pas être directement observée, il s’agit donc d’une quantité latente, pouvant être constituée d’une ou de plusieurs dimensions et mesurée donc à son tour par une ou plusieurs échelles : il s’agit des marqueurs de la maladie étudiée.

Cecile Proust-Lima l’illustre bien, dans son article Proust et al. (2006), avec l’étude du vieillissement cognitif. En effet, dans le cadre de cette même étude, on s’intéresse à la cogni-tion qui est une mesure latente, constituée de plusieurs dimensions : la mémoire, le langage, l’attention, l’abstraction et les fonctions exécutives et mesurée simultanément par un certain nombre de marqueurs de cette maladie : les tests psychométriques.

Le processus latent

Dans le contexte d’un phénomène dynamique quelconque, un processus latent peut être défini pour le caractériser. En effet, ce dernier évolue dans un temps continu et est mesuré par le biais d’un seul marqueur ou de plusieurs mesurant tous la même quantité sous-jacente qui leur est un facteur commun. Il est à noter qu’on en a recours principalement pour prédire le phénomène en question à travers l’étude de l’évolution de ce même processus.

Toujours, et à titre illustratif, on se réfère à l’article de Proust-Lima (Proust et al.(2006)), où elle présente le processus cognitif latent, tel qu’évoqué en neuropsychologie, mesuré par trois tests psychométriques, à savoir, The Mini Mental State Examination (MMSE), The Ben-ton Visual Retention Test (BVRT) et The Isaacs Set Test (IST), permettant principalement d’expliquer le phénomène en question : le déclin cognitif et la démence chez la population des personnes âgées.

1.3.1 Modélisation des données longitudinales homogènes avec un processus latent

Présentation du modèle à processus latent pour les données homogènes

En présence de plusieurs marqueurs décrivant un même processus latent, l’évolution de ce dernier au sein de la population considérée, peut être décrite et représentée, selon Proust-Lima et al. (2009), par un modèle de régression mixte linéaire. En effet, l’évolution de ce

(23)

même processus, étant le facteur commun de l’ensemble des marqueurs considérés, pour un individu donné i de la population (i=1,...,N), en temps continu, noté Λi(t) = (Λi(t))t≥0 est comme suit :

Λi(t) = Z(t)Tui+ Xi(t)Tβ, t ≥ 0 (1.8) Il est à noter que la définition de l’ensemble des vecteurs Z, u, X et β demeure la même que celle présentée dans les sections précédentes.

Notons encore que la modélisation du processus latent, (Λi(t)))t≥0, peut inclure un processus Brownien, en outre des deux autres termes de l’équation précédente, tel que présenté dans l’article Proust et al. (2006). Nous nous sommes contentés dans ce travail de présenter la modélisation la plus simple du processus sans faire appel au processus Brownien.

Lien entre le processus latent et les marqueurs longitudinaux

Tel que cité précédemment, l’ensemble des marqueurs considérés décrit et mesure la même quantité sous-jacente : le processus latent. Ces marqueurs peuvent plausiblement avoir diverses formes, y compris celles non-gaussiennes. Dans ce sens et afin d’assurer une certaine flexibilité, Proust-Lima et al. (2009) ont proposé la transformation Beta comme fonction de lien entre le processus latent et l’ensemble des marqueurs longitudinaux. Dans le présent travail, nous avons opté pour une fonction de lien linéaire entre les deux par souci de sim-plification. Nous allons donc présenter dans ce qui suit la version du modèle utilisée dans ce travail , à savoir celle linéaire. Toutefois, la version générale du modèle faisant appel à la transformation Beta sera présentée en annexe A.2 à titre illustratif puisqu’elle engendre plus de situations plausibles. Dans ce cadre-ci, pour un sujet donné i (i = 1, . . . , N ) et un marqueur k (k = 1, . . . , K), on a nik mesures répétées du marqueur en question, k. À chaque occasion j (j = 1, . . . , nik), une mesure du marqueur yijk au temps tijk est prise et est liée linéairemenet au processus latent Λi(tijk) tel que :

yijk = Λi(tijk) + αik+ ijk (1.9) Avec :

α

ik est l’ordonnée à l’origine aléatoire spécifique au sujet et au marqueur, suivant la loi normale tel que : αik∼ N

 0, σ2α k  , • 

ijk sont les termes d’erreur considérés indépendants, ils suivent la loi gaussienne tel que : ijk ∼ N0, σ2

k



(24)

1.3.2 Modélisation des données longitudinales hétérogènes avec un processus latent

Présentation du modèle à processus latent pour les données hétérogènes

Dans la section précédente, 1.3.1, nous avons présenté la modélisation du processus latent en présence de plusieurs marqueurs longitudinaux le décrivant au sein d’une popu-lation homogène. Cette fois-ci, nous nous intéressons plutôt à la faire pour une popupopu-lation hétérogene, toute chose égale par ailleurs. Comme on est en présence des données hétéro-gènes, la modélisation de l’évolution du processus est faite au sein de chacune des classes latentes de la population considérée séparément. Selon Proust-Lima et al.(2009), elle est faite par le biais du modèle de régression linéaire mixte pour chacune des classes considérées. Ainsi, pour un individu donné i appartenant à une classe donnée g, cette évolution, notée

Λi(t)|ci=g = (Λi(t)|ci=g)t≥0, peut être décrite en temps continu comme suit : Λi(t)|c

i=g= Z(t) Tu

ig+ xi(t)Tβg, t ≥ 0 (1.10) Où la notation pour les vecteurs Z, ug, X et βg demeure la même que celle des sections précédentes.

Lien entre processus latent et marqueurs longitudinaux

Exactement et tel que présenté dans la section1.3.1, les marqueurs longitudinaux sont supposés encore linéairement liés au processus latent. En effet, pour un sujet donné i (i = 1, ..., N ) appartenant à une classe donnée g (g = 1, ..., G) et un marqueur k (k = 1, ..., K), on a nik mesures répétées du marqueur en question, k. À chaque occasion j (j = 1, ..., nik), chaque mesure du marqueur yijk au sein de la classe g au temps tijk est comme suit :

yijk= Λi(tijk) |ci=g+ αik+ ijk (1.11)

Avec : • Λ

i(tijk) |ci=g, αikg, ijk représentent les mêmes paramètres, pour un individu donné i

au sein d’une classe donnée g, que ceux des sections précédentes.

1.4 Modélisation paramétrique des données de survie

Souvent, en épidémiologie, on s’intéresse aux mesures d’incidence des maladies ou aux mesures d’association et donc à quantifier le lien entre une exposition et le risque de la maladie en question pour des fins de prévention.

(25)

En particulier, comme l’issue d’intérêt dans les analyses de survie est principalement le temps avant la survenue de l’événement d’intérêt, on essaye donc de modéliser le risque de la sur-venue de cet événement au cours du temps et c’est dans ce sens qu’on a recours à un des modèles de survie.

Le modèle de survie à risques proportionnels demeure celui qui est largement utilisé dans les études pour répondre à cette question, permettant notamment d’étudier la survenue de l’évé-nement d’intérêt de manière dynamique : la modélisation de l’évolution du risque au cours du temps.

Il est à noter que même le modèle de régression logistique répond partiellement à notre besoin. En effet, il permet à son tour de prédire l’événement clinique mais uniquement à un temps donné : la modélisation ne peut donc être dynamique. Encore et étant donné que l’estimation se fait pour des sujets qui ont été tous observés au même temps considéré, des biais sur les estimations des paramètres par la suite sont plausibles.

Notons que le délai de la survenue de l’événement Ti∗ n’est pas nécessairement observé pour l’ensemble des sujets de notre étude. En effet, il se peut que pour certains, l’événement ne se produise pas au cours de la période générale du suivi, notamment en cas d’abandon ou perte de vue des participants en question. On parle donc de censure à droite pour un sujet n’ayant pas subi l’événement à la fin de sa fenêtre d’observation.

Comme la présence de la censure est plausible, on définit la variable binaire Ei de la façon suivante :

Ei =

(

1 si le sujet i a subi l’événement dans son intervalle d’observation

0 sinon. (1.12)

Notons encore Ci le temps de censure .

On définit finalement le délai de la survie observé, noté Ti, par :

Ti = min(Ti∗, Ci)

Présentation du modèle de survie à risques proportionnels

Étant donné le présent contexte, on considère la fonction de risque stratifiée sur les classes latentes définie selonProust-Lima et al.(2014), comme suit pour une classe latente

g, :

λi(t|ci= g; ζg, δg) = λ0g(t; ζg) eXi(t) Tδ

g (1.13)

(26)

X

i(t) est le vecteur r × 1 des variables explicatives associé au vecteur de paramètres δg correspondant à son tour à la classe g.

λ

0g(t; ζg) est la fonction de risque de base spécifique à la classe latente g : risque instan-tané de l’événement spécifique à la classe g dans les modalités de référence des variables explicatives.

La fonction de survie associée au risque présenté ci-dessus peut être présentée comme suit :

S(t|ci= g, Xi; ζq, δg) = exp  −Rt 0λ (u|ci = g, Xi; ζg, δg) du  = S0g(t; ζg)exp(Xiδg) (1.14) Avec : • S 0g(t; ζg) = exp  −Rt 0λ0g(u; ζg) 

: la fonction de survie spécifique à la classe g dans les modalités de référence des variables explicatives.

Le modèle adopté, modèle de survie à risques proportionnels modélisé par la loi de Weibull, présenté en annexe, étant parmi les lois simples définies par peu de paramètres, permet une modélisation paramétrique du temps avant la survenue de l’événement d’intérêt.

Mentionnant encore que dans ce sens, Proust-Lima propose dans son article Proust-Lima et al. (2009) un autre modèle : modèle semi-paramétrique basé sur les fonctions splines et la fonction de vraisemblance pénalisée. Ce dernier est plus souple mais avec plus de complexité numérique.

1.5 Modélisation conjointe à classes latentes

Par souci de simplification, nous présentons dans ce mémoire, le modèle conjoint à classes latentes pour uniquement un seul marqueur longitudinal et l’événement d’intérêt. La méthodologie demeure la même pour plus d’un marqueur, c’est-à-dire pour plusieurs mar-queurs à la fois.

L’hypothèse centrale du modèle conjoint à classes latentes est l’indépendance conditionnelle du marqueur longitudinal considéré et de l’événement d’intérêt (Proust-Lima et al. (2014)). En effet, le seul lien entre les distributions des deux variables, soit celle de l’évolution du mar-queur et celle du temps avant la survenue de l’événement, est la variable discrète de classes latentes.

(27)

comme suit :

f (Yi, Ti) =

X

g

f (Yi, Ti|ci= g) f (ci = g) (1.15) Par indépendance conditionnelle de Yi et Ti, on a que :

f (Yi, Ti|ci = g) = f (Yi|ci= g) f (Ti|ci = g) (1.16) En remplaçant 1.16 dans l’équation1.15, on trouve que :

f (Yi, Ti) =

X

g

f (Yi|ci = g) f (Ti|ci= g) f (ci = g) (1.17) Comme f (ci = g) = πig, on peut finalement écrire :

f (Yi, Ti) = X g πigf (Yi|ci= g) f (Ti|ci = g) (1.18) Avec : • f (Y

i|ci = g) , f (Ti|ci = g) sont les fonctions de densité du marqueur en question et de l’événement conditionnellement à la classe latente respectivement.

π

ig est la probabilité d’appartenance à la classe g (g = 1, ..., G) pour le sujet i (i = 1, ..., G) tel que définie précédemment.

La contribution de chaque sujet donné i de la population à la vraisemblance est la somme de ses contributions spécifiques à chacune des classes considérées. La vraisemblance, étant à son tour le produit de toutes les contributions de tous les sujets de la population, elle peut donc s’écrire comme suit :

L (θG) = N Y i=1 G X g=1 πigf (Yi|ci = g; θG) f (Ti|ci = g; θG) (1.19) La log-vraisemblance, notée L(θG) peut donc finalement s’écrire selon Proust-Lima et al. (2014) comme suit : L(θG) =PNi=1log( PG g=1πigf (Yi|ci= g; θG) f (Ti|ci= g; θG)) =PN i=1log  PG g=1πigf (Yi|ci = g; θG) λi(Ti|ci = g; θG)EiSi(Ti|ci= g; θG)  (1.20) Avec : • θ

G est le vecteur comprenant tous les paramètres du modèle conjoint à classes latentes considéré avec G classes.

λ

i(Ti|ci = g; θG) est le risque instantané défini dans la section de la présentation du modèle de survie,1.4.

(28)

S

i(Ti|ci= g; θG) est la fonction de survie qui lui est associée. • f (Y

i|ci = g; θG) est la fonction de densité du marqueur longitudinal en question spéci-fique à la classe g.

E

i est la variable binaire représentant la survenue de l’événement, tel que défini dans

1.12.

1.6 Conclusion du chapitre

De la revue présentée dans le présent chapitre, le modèle conjoint à classes latentes (JLCM) semble être un modèle intéressant en termes de modélisation conjointe de l’évolu-tion d’un marqueur longitudinal et d’un événement clinique donné. D’abord, de point de vue technique, il nous permet de tracer le profil et la courbe de survie propre à chaque classe considérée, et ainsi avoir une interprétation simple des résultats obtenus. Ensuite, de point de vue estimation, le modèle a dans la majorité des cas, une fonction de vraisemblance ayant une forme analytique. En outre, comme la variable latente partagée est une variable discrète, la forme de la log-vraisemblance du modèle est une somme sur les classes latentes, facili-tant considérablement donc son calcul comparativement au cas d’une intégrale. Finalement, par rapport au fondement théorique du modèle, il stipule une unique hypothèse centrale : l’indépendance conditionnelle du marqueur en question et le risque de la survenue de l’évé-nement clinique à l’intérieur d’une classe latente, permettant de décrire les observations sans hypothèses spécifiques a priori (Proust-Lima et al. (2014)).

(29)

Chapitre 2

Trajectoire de risque de la

schizophrénie et des troubles

bipolaires

2.1 Introduction du chapitre

Ce chapitre concerne essentiellement la présentation des trajectoires de risque de deux troubles du cerveau, à savoir le trouble bipolaire et la schizophrénie. Pour cela, nous com-mençons dans un premier temps par une mise en contexte englobant la définition de chacune des deux maladies, la présentation de quelques statistiques des deux au Canada et enfin l’ex-position du lien existant entre elles. Ensuite, nous présentons les différents facteurs de risque plausibles des deux troubles. Enfin et suite à la matière présentée dans les trois premières sections de ce même chapitre, nous parvenons finalement à introduire le point prééminent du chapitre, celui des trajectoires de risque des deux maladies en question. Notons que l’in-térêt majeur de l’introduction et la définition des deux troubles du cerveau : schizophrénie et trouble bipolaire dans le présent chapitre, s’ensuit essentiellement de la nature de la po-pulation de nos données réelles qui est, en effet, une popo-pulation génétiquement à risque de développer l’un des deux troubles.

2.2 La schizophrénie

Selon le DSM-V : Manuel diagnostique et statistique des troubles mentaux, le trouble du spectre de la schizophrénie engendre une multitude de troubles dont la schizophrénie en fait partie, ayant souvent toutes des anomalies communes : des idées délirantes, des halluci-nations, un discours désorganisé, un comportement grossièrement désorganisé ou catatonique

(30)

et des symptômes négatifs.

En particulier, la schizophrénie peut à son tour être définie selon Lalonde and Grunberg

(1988) comme un trouble psychotique : trouble mental caractérisé par une altération pro-fonde de la personnalité et des fonctions intellectuelles, et tel que le sujet n’en reconnaît pas le caractère morbide.

Il n’existe pas de test de laboratoire permettant de la diagnostiquer, le seul diagnostic dis-ponible est fondé sur l’observation clinique. En effet, elle est souvent diagnostiquée à la suite d’épisodes aigus de psychose, définie ci-dessous, en présence d’au moins deux des cinq symp-tômes du DSM-V cités ci-dessus, qui sont à leur tour associés à une dégradation du fonction-nement social, professionnel ou les deux à la fois. Selon le rapport sur les maladies mentales au Canada rédigé par leComité de rédaction sur les maladies mentales au Canadaet publié par Santé Canada à Ottawa en 2002, la prévalence de cette maladie dans la population est aux alentours de 1%.

Il est à noter qu’il existe deux catégories majeures de symptômes de la schizophrénie : les symptômes positifs et ceux négatifs. D’abord, pour les symptômes positifs, appelés aussi symptômes productifs1, ils correspondent principalement aux hallucinations, aux idées dé-lirantes, au comportement bizarre et au trouble de la pensée formelle. Encore, pour ceux négatifs, appelés également déficitaires, renvoyant à une diminution de la capacité habituelle à accomplir des tâches, ils se rapportent généralement à la pauvreté affective, le repli sur soi, l’apathie, l’anhédonie et l’amenuisement de la communication verbale.

La psychose

La psychose est identifiée comme étant une perte de contact avec la réalité, comprenant un ensemble de symptômes indiquant souvent la présence d’une parmi une multitude de maladies mentales sous-jacentes, en particulier la schizophrénie et le trouble bipolaire. Cette déconnexion de la réalité peut comprendre du délire, des hallucinations, des pensées étranges et des comportements bizarroïdes.

2.3 Les troubles bipolaires

Le trouble bipolaire dont l’appellation classique est « psychose maniacodépressive » fait partie, selon le rapport national des maladies mentales, des troubles de l’humeur.

En effet, il peut être défini comme étant une maladie entraînant principalement des dérègle-ments de l’humeur se manifestant par un épisode de dépression, de manie ou un épisode mixte (manie et dépression).

Les phases de manie sont majoritairement caractérisées par un état d’excitation exagérée,

(31)

d’une intensité variable, pouvant s’entrecouper de périodes de stabilité et se traduisant par des pensées rapides, de l’agitation psychomotrice, d’une énergie débordante ainsi que d’une recrudescence de l’activité au niveau d’une multitude de plans, à savoir celui social, profes-sionnel ou scolaire.

Il est à noter que des idées délirantes et des hallucinations sont plausibles suite à cet état. Selon l’enquête sur la santé dans les collectivités canadiennes – Santé mentale, 2012, la pré-valence de ces troubles dans la population de 15 ans et plus au Canada, est aux alentours de 2.8%.

Notons encore que, selon l’Institut Douglas, Institut Universitaire en Santé Mentale, les pre-miers symptômes se déclenchent entre l’âge de 15 et 25 ans, ainsi que des symptômes plus graves sont plausibles de se manifester au fil du temps, habituellement vers l’âge de trente ans.

Le lien entre la schizophrénie et les troubles bipolaires

Partageant certains déficits et symptômes similaires, la schizophrénie et le trouble bi-polaire sont souvent étudiés à la fois.

Il est parfois possible d’observer la présence des deux maladies au sein d’une même famille, on soupçonne ainsi de l’existence de gènes communs aux deux présentes maladies mentales.

2.4 Les facteurs de risque de la schizophrénie et des troubles

bipolaires

2.4.1 Le facteur génétique

L’architecture de la schizophrénie et du trouble bipolaire est d’une complexité énorme. Des études d’association pangénomique (GWAS : Genome-Wide Association Study), effec-tuées pour but d’identifier les causes génétiques, en ayant recours à des simplifications de structures de ces troubles, ont démontré que le risque d’être affecté par l’un des présents troubles est de nature hautement polygénique (Ripke et al. (2014)). Par ailleurs, l’héritabi-lité est estimée de 70% à 90% pour la schizophrénie et de 60% à 80% pour le trouble bipolaire (Nöthen et al.(2010)). Dans ce sens, l’étude menée parRuderfer et al.(2018) a permis d’identifier un total de 114 loci comme significatifs à l’échelle du génome impliquant des voies neuronales partagées entre les deux troubles en question. La particularité de cette étude est la découverte de certains loci spécifiques distinguant le trouble bipolaire et la schizophrénie. Le Schizophrenia Working Group ont, à leur tour, pu identifier 108 loci, grâce aux études de GWAS de la schizophrénie, comme y étant fortement associés (Ripke et al. (2014)).

(32)

Il est à noter que le locus est défini comme étant l’emplacement d’un gène ou marqueur génétique sur un chromosome donné.

Bien qu’il ait un progrès non-négligeable de la recherche génétique, uniquement 3.4% de la variance des profils de risque y a été expliquée. Ainsi et vu le faible pourcentage de la variance expliquée par ces loci, il s’avère qu’il demeure encore des variantes non-définies affectant le risque des présents troubles.

Score de risque polygénique

Vu le caractère héréditaire de la schizophrénie et du trouble bipolaire, on combine l’ensemble des marqueurs génétiques, pour obtenir au final, deux scores par individu, chacun correspondant à un des deux troubles. Il s’agit du score de risque polygénique (PRS : Polygenic Risk Score), noté PRS-SZ et PRS-BD pour la schizophrénie et pour le trouble bipolaire, respectivement. Sa méthode de calcul sera présentée ultérieurement dans le chapitre 3 de ce mémoire. À ce stade et dans ce sens, Gianfrancesco et al. (2019) parle en particulier du PRS-SZ et montre qu’une augmentation de ce score, induit généralement une augmentation du risque du trouble en question.

2.4.2 Le sexe du sujet

En examinant la littérature publiée au cours de plusieurs années, on trouve que le sexe d’un sujet donné est considéré comme facteur pouvant plausiblement avoir un effet sur le risque de développer un trouble psychiatrique particulier. Dans ce sens, les observations cli-niques montrent, de même, que les hommes et les femmes sont différents sur une multitude de plans notamment les symptômes, la prévalence ainsi que les réponses au traitement de divers troubles psychiatriques, y compris la schizophrénie (Li et al. (2016))

Castle and Murray (1991) affirment, à leur tour, que les personnes atteintes par la schizo-phrénie du sexe masculin sont plus susceptibles que leurs homologues féminines de manifester une forme plus grave de la maladie, caractérisée par un début précoce et présentant des ano-malies structurelles du cerveau. Étant donné cette dissimilitude entre les deux sexes, présentée dans la littérature, Aleman et al. (2003) ont opté pour quantifier cette différence par le biais d’une méta-analyse réalisée sur le log du rapport de risque à l’aide d’un modèle à effets aléatoires pour établir un rapport de cotes hommes-femmes de l’incidence de cette maladie psychiatrique. Les résultats de cette étude ont montré qu’effectivement, il existe une différence entre les deux sexes au niveau du risque de développer ce trouble-ci : bien que plusieurs ratios aient été présentés dans cet article selon la mesure d’effet prise, une seule conclusion a été faite, celle d’une différence significative du risque selon le sexe tel que le risque est plus élevé chez les hommes et ce pour toutes les mesures d’effet considérées dans l’étude en question. Finalement et en termes d’explication de cette distinction,Castle and Murray (1991)

(33)

sti-pulent que cette différence observée entre les deux sexes peut plausiblement être justifiée par le biais du nombre de schizophrènes masculins, ayant une forme de schizophrénie dûe à une anomalie neurodéveloppementale, qui est plus grand que celui féminin.

Quant au trouble bipolaire, Arnold(2003),Rasgon et al.(2005) ainsi queD’Mello and McNeil (1990) affirment tous que la présentation et l’évolution clinique du trouble en ques-tion diffèrent entre les femmes et les hommes. Dans ce sens,Williams and McInnis(2019) soutiennent, à leur tour, que le présent trouble est vécu différemment entre les deux sexes. En termes de prévalence, (D’Mello and McNeil (1990)) avancent que la différence du taux de la maladie entre les hommes et les femmes est souvent significative. Notons que certaines divergences ont été rapportées dans la littérature, notamment sur le plan d’âge d’apparition du trouble. En effet, Kawa et al. (2005) ont mené une étude dont les résultats montrent l’absence, en général, d’une différence significative entre les deux sexes en termes de symp-tômes, âge d’apparition du trouble ainsi que le nombre d’épisodes d’humeur vécus. Alors que

Arnold (2003) avancent que l’apparition du trouble bipolaire a tendance à être plus tardive chez les femmes que chez les hommes.

2.4.3 Les facteurs environnementaux : Stress et traumatismes psychiques Selon Gianfrancesco et al. (2019), la modulation du développement cérébral et la neurochimie d’un individu peuvent être modifiées par le stress et les traumatismes psychiques au cours de sa vie. En effet, un chevauchement important entre les symptômes psychotiques et les traumatismes psychiques a été démontré dans des études récentes : un traumatisme psychique peut contribuer à la psychose ou être lui-même en réponse à l’expérience de la psy-chose. En particulier et selon Read et al. (2005) etSpauwen et al. (2006), l’exposition de la personne dès son jeune âge : enfance ou adolescence, à certains événements particuliers, a été toujours liée au développement de la psychose à son âge adulte. Il est à noter que ces événements peuvent comprendre la perte d’un parent, l’intimidation de la personne en ques-tion de la part des autres ou des abus sexuels. Cette exposiques-tion infantile est même considérée comme déclencheur potentiel de la pathogenèse de la psychose, selonTikka et al. (2013) et

Falukozi and Addington (2012). Finalement, et en terme de prévention, comme il s’agit d’un facteur qui n’est pas génétique, les expériences traumatiques vécues durant l’enfance ou l’adolescence sont ainsi considérées selon Gianfrancesco et al. (2019), comme les facteurs de risque, qui peuvent être les plus contrôlés et donc évités.

2.4.4 Intéractions gène-environnement : (G × E)

L’environnement de la personne peut potentiellement moduler son neuro-développement, en ayant des effets sur son risque de divers problèmes de santé mentale. En particulier, le risque de la maladie de la schizophrénie est susceptible d’être influencé par des interactions

(34)

gène-environnement : (G × E). Ceci est principalement insinué par la présence de la grande majorité des polymorphismes mono-nucléotidiques (SNP) du GWAS de la schizophrénie dans l’ADN non-codant (Gianfrancesco et al. (2019)) et que notre génome non-codant, repré-sentant plus de 98% de génome humain, répond fonctionnellement à notre environnement à tous les niveaux (Quinn et al. (2019)).

2.4.5 Trajectoires de risque de la schizophrénie et du trouble bipolaire Les trajectoires neuro-développementales sont définies comme des schémas de dévelop-pement longitudinal capturés par des caractéristiques comportementales tel que la fonction motrice et le language de la personne (Nishimura et al. (2016)).

Gianfrancesco et al. (2019) affirment que le traumatisme infantile peut altérer le déve-loppement du cerveau d’un enfant. En effet, il peut entraîner des changements structurels au niveau de ce dernier, affectant ainsi sa réponse et le comportement de la personne en question ultérieurement. Encore, l’exposition au traumatisme par la suite : à l’adolescence ou/et à l’âge adulte, peut influer à son tour, sur la réponse biologique et comportementale de l’individu modulant ainsi son risque de psychose et sa trajectoire de risque. Dans ce sens, les auteurs du même article, Gianfrancesco et al. (2019), illustrent ceci par le biais d’un modèle appelé : modèle traumagène de la psychose. Ce dernier suppose que les expériences traumatiques vécues par la personne au début de sa vie, combinées au risque génétique, ont un potentiel important de modifier la trajectoire du développement cérébral de la personne en question.

En particulier, comme les présents troubles sont généralement précédés de dysfonctionne-ments dès l’enfance dans de multiples domaines cognitifs (Dickson et al. (2012)), et que des trajectoires plausiblement distinctes sont suivies par domaine cognitif (Dickson et al.

(2018)), il s’avère pertinent d’étudier les trajectoires développementales du fonctionnement cognitif de l’enfance à l’adolescence pour chaque domaine cognitif isolément. Il est à noter que dans le présent mémoire, on modélisera une seule trajectoire cognitive par un processus latent, défini précédemment.

2.5 Conclusion du chapitre

Nous avons présenté théoriquement, dans ce chapitre, les deux troubles du cerveau : schizophrénie et trouble bipolaire. Nous avons également mis l’accent, dans ce chapitre, sur les différents facteurs de risque des deux maladies en question, à savoir le facteur génétique, le sexe du sujet et les facteurs environnementaux notamment le traumatisme. En outre, nous avons démontré leurs effets sur les trajectoires de risque des deux troubles. Ces facteurs-ci ont été tous pris en considération lors de l’analyse de nos données dans le chapitre 5.

(35)

Chapitre 3

Méthodologie en génétique

3.1 Introduction du chapitre

Dans ce mémoire, nous avons eu recours à une multitude de notions en génétique. Ainsi et à titre introductif, nous tentons, dans un premier temps, de faire un survol des préceptes et concepts fondamentaux de cette science. Notamment ceux en lien avec le présent travail. Nous présentons, ensuite, le détail théorique ainsi qu’empirique de la construction du score de risque génétique, évoqué précédemment dans la section traitant les facteurs de risque des troubles étudiés, 2.4.1, du chapitre 2.

3.2 Quelques rappels et notions de base en génétique

La génétique est la science ayant principalement pour objectif l’identification de facteurs de risque d’un trait ou d’une maladie donnée : les gènes qui y sont plausiblement associés. On étudie ainsi le mécanisme de l’hérédité : transmission des caractères, notamment des parents à leurs enfants. Nombreuses sont les caractéristiques déterminées génétiquement, par le biais du génome, étant le patrimoine génétique de chaque être vivant. Il contient l’ensemble du code génétique de la personne et est composé de certaines entités appelées chromosomes. Chaque chromosome contient une partie de notre ADN et peut être modélisé par une chaîne de caractères constituée de quatre lettres d’alphabet traduisant les quatre molécules le com-posant, à savoir A, T, C et G pour Adénine, Thymine, Cytosine et Guanine. Dans ce sens, il est à noter que le nombre de chromosomes dépend de l’espèce en question elle-même : nous nous intéressons, dans cette étude, à l’espèce humaine qui, à moins de souffrir de triso-mie, elle possède 22 paires de chromosomes homologues et une paire de chromosomes sexuels. Ainsi, tout individu a, en principe, un total de 46 chromosomes. On désigne par allèle une orthographe ou une forme donnée du gène et par locus une position du génome. L’ensemble des deux allèles d’un individu sur les deux copies d’ADN constitue son génotype. Notons que

(36)

Figure 3.1 – Une portion du génome humain : chaque chromosome contenant plusieurs gènes constitués d’ADN. Source : National Library of Medicine (US). Handbook : Help Me Understand Genetics. Bethesda (MD) : US National Library of Medecine. Available from : https://ghr.nlm.nih.gov/primer/basics/gene

Figure 3.2 – Les 22 paires de chromosomes homologues humains alignés par taille et les deux chromosomes sexuels, X et Y. Source : National Library of Medicine (US). Handbook : Help Me Understand Genetics. Bethesda (MD) : US National Library of Medecine. Available from : https://ghr.nlm.nih.gov/handbook/basics/howmanychromosomes

Figure

Figure 3.2 – Les 22 paires de chromosomes homologues humains alignés par taille et les deux chromosomes sexuels, X et Y
Figure 3.3 – Illustration simplifiée de la structure de l’ADN, comprenant en particulier les quatre bases de nucléotides constituant les paires de bases
Figure 4.1 – Le design simplifié des deux scénarios de simulation de données 4.2.4 Scénarios de simulation
Table 4.1 – Tableau de probabilités conjointes et marginales
+7

Références

Documents relatifs

Nous avons vu au paragraphe 2 que les variables de « satisfaction » semblaient mesurer une même attitude, d’où l’idée de l’existence d’une variable latente

La première partie de cette thèse a pour principal but de developer une métho- dologie d’estimation par maximum de vraisemblance, constituant une alternative efficace aux

Cette recherche vise donc à vérifier , à l'aide de la théorie des classes latentes , à quel modèle d'échelonnement (échelle graduée , à crédit partiel, de

Introduite principalement par Lazarsfeld vers 1950, l’analyse en classes latentes est considérée comme l’équivalent de l’analyse factorielle dans le cas

Algorithme EM r´ egularis´ e, Mod` eles Lin´ eaires G´ en´ eralis´ es Mixtes, Effet al´ eatoire autocorr´ el´ e, Donn´ ees de

Considered are the conditional estimator from the joint model (JM-cond), the estimators from cause-specific landmark models using a two-stage or naive approach (2s-LM-PH

Au départ et pour simplifier, l'hypothèse d'additivité des effets génétiques et du milieu est supposée, les corrélations génétiques entre répétitions d'un caractère

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des