• Aucun résultat trouvé

Pour nos analyses longitudinales, nous avons choisi d’utiliser les modèles mixtes et leur extension en classes latentes. Alors que le modèle mixte permet d’analyser des données répétées sur une population donnée, et de faire émerger un profil moyen ou trajectoire moyenne pour l’ensemble de notre population, il n’est pas rare en pratique qu’une hétérogénéité de la population soit suspectée. Dans les études médicales, les populations sont le plus souvent hétérogènes. Il est donc possible de voir émerger des structures de groupes latents pouvant être reliées à un comportement, ou une maladie. Parmi certaines études nous pouvons citer en exemple : les trajectoires d’incapacités précédant le décès (Gill, Gahbauer, Han, & Allore, 2010), les trajectoires de consommation d’alcool chez les jeunes (Muthén & Shedden, 1999), le déclin cognitif chez les personnes âgées (Proust-Lima, Dartigues, & Jacqmin-Gadda, 2011; Proust!Lima, Dartigues, & Jacqmin!Gadda, 2016) ou encore la progression du cancer de la prostate après la fin des traitements (Proust-Lima & Taylor, 2009).

Les objectifs de ces modèles sont :

(i)! de décrire des trajectoires développementales d’un processus psychologique (ou biologique) au cours du temps (au niveau de la population),

(ii)! d’évaluer les prédicteurs (variables) d’une trajectoire développementale donnée (au niveau de la population) et

Les modèles mixtes à classes latentes ont l’avantage de :

(i)! de prendre en compte les corrélations intra-sujet comme extension des modèles mixtes précédemment définis

(ii)! de prendre en compte l’hétérogénéité inter-sujet par le biais des classes latentes (iii)! d’obtenir des estimations tant au niveau de la population qu’au niveau de

l’individu

1.1.!

Notions mathématiques

Tout comme pour le modèle mixte classique, les données nécessaires sont les mesures répétées d’un marqueur (Y), choisi comme variable d’intérêt, collecté au cours du temps (t) pour chaque sujet i d’un échantillon de N sujets (i=1, …,N). Dans notre cas, le marqueur est la fatigue, évaluée toutes les deux semaines sur une période maximale de six mois. Dans la suite, Yij sera la mesure du marqueur Y pour le sujet i à la répétition j (j=1,…, ni) et tij sera le temps depuis le début de l’étude correspondant.

Le modèle mixte à classes latentes a été défini initialement par Verbeke et Lesaffre (1996) et Muthén et Shedden (1999). Le principe est de supposer qu’il existe un nombre fini G de sous-populations, ces sous-populations homogènes définissant G classes latentes. Chaque sujet appartient à une seule classe latente, qui se traduit par la variable latente discrète ci valant

g si le sujet i appartient à la classe g. La probabilité d’appartenance aux classes latentes est

généralement définie par un modèle logistique multinomial en fonction de variables explicatives X1i : indépendantes du temps

πig = P (ci = g X1i) = e

0g+ "#$%&$'

(G eξ0l+ "#$% &$)

l=1

(1)

Pour que le modèle soit identifiable, on suppose ξ0G = 0 et ξ1G = 0, la classe G devenant

ainsi la classe de référence. Il est fréquent de ne pas inclure de variables explicatives pour prédire l’appartenance aux classes. Dans ce cas, eξ0g

(G eξ0l

l=1 définit la probabilité marginale de la

La trajectoire de la variable réponse est ensuite définie de façon spécifique à chaque classe latente par un modèle mixte (voir annexe J, p.337). Si le sujet i appartient à la classe g, le modèle pour la distribution [ Yijci = g ] est défini par :

Yij = *+,-. / 0 *1,-. γg 02,-.3, 0 4,- (2)

Les vecteurs X2ij et X3ij incluent respectivement toutes les variables explicatives

(incluant possiblement le temps) qui sont associées à Y de manière commune au travers des classes.

1.2.!

Choix du nombre de classes

Les différents paramètres du modèle linéaire mixte à classes latentes sont le plus souvent estimés par le maximum de vraisemblance (Muthén & Shedden, 1999; Proust & Jacqmin- Gadda, 2005; Verbeke & Lesaffre, 1996).

L’estimation des paramètres par maximum de vraisemblance se fait à nombre de classes latentes G fixé. Le nombre optimal de classes est soit connu par avance soit déterminé a

posteriori à partir d’un faisceau de critères statistiques et cliniques. Parmi les critères

statistiques, le plus utilisé est le « critère d’information bayésien » (BIC) qui pénalise la vraisemblance du modèle par sa complexité28. Pour des petites tailles d’échantillon, une version

corrigée existe, le SABIC (présenté plus bas, lors du « choix du nombre de trajectoires »). Le choix de G (nombre de classes latentes) se fera toujours de la même façon et l’ensemble de ces spécifications est implémenté au logiciel R dans le Package lcmm (Proust-Lima, Philipps, & Liquet, 2017) pour réaliser l’ensemble des analyses statistiques.

1.3.!

Précautions

Les modèles mixtes à classes latentes tels que présentés au-dessus sont adaptés pour des marqueurs Gaussiens et des études dans lesquelles les données manquantes sont aléatoires (c’est à dire qu’elles sont entièrement expliquées par les données observées). Des extensions des modèles mixtes à classes latentes ont été proposées pour traiter des marqueurs non Gaussiens29

et la survenue d’un événement informatif tronquant le suivi du marqueur (comme le décès par exemple (Proust-Lima, Dartigues, & Jacqmin-Gadda, 2016).

Enfin, les analyses en classes latentes permettent également l’analyse de modèles conjoints, qui modélisent simultanément un risque d’évènement par un modèle de survie. Ces modèles sont pertinents dans le cas de population clinique tels que les patients atteints de cancer, car la survenue d’un décès (risque d’événement) en cours d’étude, et son association avec l’évolution de la fatigue, sont des aspects intéressants à étudier. De plus, le décès d’un sujet en cours de suivi provoque l’arrêt de la collecte de ses données de fatigue. Puisque le décès et le niveau de fatigue sont liés (la fatigue augmente à l’approche du décès), ces valeurs manquantes ne sont pas aléatoires. Ce type de données manquantes est appelé données manquantes informatives. Le modèle mixte n’est pas robuste à ces données manquantes et les trajectoires seraient biaisées. Pour obtenir des estimations non biaisées, il est alors indispensable de modéliser conjointement le risque de décès et l’évolution de la fatigue.

29 Dans les cas où la variable d’intérêt se suivrait pas une distribution gaussienne, les données seront