Synthèse de la méthode d'analyse - : Méthodologie 2.1 Participants et procédure

Chapitre II : Méthodologie 2.1 Participants et procédure

2.3 Synthèse de la méthode d'analyse

2.3.1 Données manquantes

Des analyses préliminaires laissant croire que le nombre de données manquantes pouvait représenter un obstacle à la généralisation des résultats et affecter le degré de puissance statistique de nos analyses, une méthode d'imputation permettant d'estimer les données manquantes a donc été employée. L'algorithme espérance-maximisation (EM) de Dempster et al. (1977) a été utilisé à l'aide du logiciel d'analyse statistique SAS. Cette méthode itérative produit des estimations de maximum de vraisemblance en deux étapes : l'estimation et la maximisation. La première étape consiste à déterminer la meilleure valeur possible pour remplacer la donnée manquante à partir d'un modèle de régression avec le reste des variables à imputer comme variables indépendantes. La deuxième étape utilise les résultats obtenus à l'étape d'estimation et maximise les paramètres estimés. Ces étapes sont répétées afin d'obtenir une convergence selon un seuil prédéfini.

2.3.2 Méthodes retenues pour les analyses

2.3.2.1 Portrait général de l'épuisement scolaire des étudiants de première année en médecine

Premièrement, à titre d'analyse préliminaire, un examen des fluctuations des variables de l'épuisement scolaire dans le temps (Tl, T2 et T3) a été fait sur l'ensemble de l'échantillon. Dans ce type d'analyse, l'homogénéité du groupe est assumée comme dans plusieurs études sur la santé psychologique des étudiants (voir Bail, & Bax, 2002; Dyrbye, et al., 2006; Rosal, étal., 1997).

2.3.2.2 Analyses de trajectoires

Afin de dégager l'hétérogénéité des groupes et de surmonter les limites associées à l'homogénéité du groupe, des analyses de trajectoires ont été effectuées à l'aide de la procédure TRAJ de SAS version 9.2 selon le modèle de Jones, Nagin et Roeder (2001). Cette approche groupale qualifiée de semi-paramétrique (semiparametric group-based approach) est conçue pour cibler des sous-groupes de participants qui montrent différents niveaux de la variable à l'étude (dans le contexte de l'étude, « épuisement émotionnel » et « cynisme ») et permet d'observer les patterns pour chaque sous-groupe. Ainsi, avec ce type de méthode, il est possible d'estimer le nombre optimal de groupes hétérogènes dans

le modèle, de comprendre la forme de leurs trajectoires, de voir si les trajectoires sont significatives et de décider quel modèle est le plus approprié à partir du Bayesian Information Criterion (BIC). Le BIC est calculé comme suit : - 21og(L) + log(n)*k, où L est le modèle de maximum de vraisemblance, n est la taille de l'échantillon et k le nombre de paramètres dans le modèle (Nagin, 1999). Il n'y a pas de règles précises quant à l'interprétation du BIC, mais le meilleur modèle est celui qui présente une valeur du BIC maximale. Il est à noter que la valeur du BIC est négative, alors la plus petite valeur négative du BIC détermine le modèle optimal.

Pour chaque participant, l'analyse de trajectoire calcule la probabilité d'appartenir à chacun des groupes à partir d'une observation de patron longitudinale (Nagin, 1999). Le groupe d'appartenance du participant est déterminé par le plus haut taux de probabilité d'appartenir à un groupe. Un bon modèle est obtenu avec des probabilités de .70 à .80 ou plus.

2.3.2.3 Analyses de régression logistique

À partir des groupes obtenus à la suite des analyses de trajectoires, des analyses de régression logistique ont été utilisées. Une régression logistique est une méthode statistique ayant pour objectif de produire un modèle permettant de prédire l'appartenance à un sous- groupe plutôt qu'à un autre (dans ce cas, les sous-groupes « épuisement émotionnel » et « cynisme ») à partir d'une série de variables explicatives continues ou catégorielles. Le choix des variables à inclure pour cette analyse s'appuie sur les hypothèses de départ. Il existe plusieurs méthodes de régression logistique. La méthode privilégiée dans cette étude est celle de Bursac et al. (2008), qui est inspirée de celle de Hosmer et Lemeshow (2000). En fait, l'algorithme qu'ils proposent pour la sélection des variables, contrairement aux procédures les plus communes (Backward, Forward et Stepwise), permet une sélection des variables (inclues dans le modèle) à toutes les étapes du processus de modélisation. La particularité de cet algorithme vient du fait qu'il tient compte de l'effet confondant que certaines variables peuvent avoir, permettant ainsi l'élaboration d'un meilleur modèle. Ces variables peuvent ne pas avoir de relation avec la variable dépendante, mais peuvent influencer l'effet d'un ou de plusieurs prédicteurs sur la variable dépendante. Il est donc possible d'avoir dans le modèle final des variables explicatives dont le lien est non significatif.

Dans ce type de régression, il est important de respecter un ratio entre les variables à inclure dans le modèle et le nombre de participants. Selon Howell (2008), un ratio de 10 sujets pour une variable serait acceptable pour les études en sciences humaines. Dans notre étude, ce ratio est respecté à ± 2 sujets puisqu'il y a 198 sujets pour 19 variables.

Avant de faire le choix des modèles finaux, il est important de déterminer les paramètres d'estimation sur lesquels s'appuyer. Dans l'idée d'améliorer les chances de rétention des variables confondantes, Bursac et al. (2008) recommandent une variation des paramètres d'estimation sur les valeurs confondantes de 15 % et un seuil de réinclusion situé entre . 1 et .15. Pour notre étude, lorsque ces critères étaient respectés, le modèle n'était pas acceptable. Alors, le modèle acceptable se rapprochant le plus de ces critères comporte une variation des paramètres d'estimation de 20 % et un seuil de réinclusion de .1.

Afin de reconnaître le modèle de régression finale le plus approprié, il est important de surveiller trois indices statistiques : le R2 de Nagelkerke, le C et le khi-deux de Hosmer et

Lomeshow. Le R de Nagelkerke est un coefficient de détermination généralisé qui est compris entre 0 et 1 et qui peut être interprété comme la proportion de la variation expliquée par le modèle (Nagelkerke, 1992). Le C permet de vérifier la force du pouvoir de prédiction et de discrimination du modèle, c'est-à-dire, selon les critères utilisés, si les observations appartiennent à un groupe plutôt qu'à l'autre. Si le C est égal à .5, le modèle est non discriminatoire. S'il se situe entre .6 et .8, le modèle est acceptable. Un C situé entre .8 et .9 correspond à un modèle excellent et un C plus grand que .9 signifie que le modèle est remarquable. Le dernier critère à prendre en considération pour que le modèle soit acceptable est le khi-deux de Hosmer et Lomeshow. Afin d'indiquer que le modèle s'ajuste bien aux données, il faut que la statistique du khi-deux soit non significative (p > .05).

Lorsque le modèle approprié est trouvé, chaque variable doit être évaluée à son tour afin de vérifier sa valeur statistique. L'interprétation débute par la vérification du khi-deux de Wald pour chaque variable. Lorsque la variable est significative (p < .05), il est possible d'interpréter le coefficient de régression (6) et le Odds ratio afin de comprendre comment se comporte la variable dans le groupe d'appartenance. Le coefficient de régression (B) permet d'estimer sur quel groupe la variable produit un effet prédictif et sa force. Le Odds

ratio est désigné comme un rapport des chances permettant de mesurer le degré de dépendance entre les variables.

Chapitre III : Résultats

Le présent chapitre présente les résultats des analyses en lien avec les hypothèses émises dans la section 1.4. Tout d'abord, la représentativité de l'échantillon et les biais associés à la désirabilité sociale sont vérifiés. Ensuite, des analyses faisant état du portrait général du sentiment d'épuisement scolaire sont effectuées. Aussi, les analyses de trajectoire permettront, quant à elles, de faire état du portrait plus spécifique du sentiment d'épuisement scolaire en dégageant les différents profils (hétérogénéité du groupe). Finalement, des analyses de régression logistique vont nous aider à comprendre ce qui caractérise les profils (sous-groupes) trouvés.

Dans le document L'épuisement scolaire des étudiants en médecine : le rôle de la motivation, de la demande psychologique, du soutien à l'autonomie et de la personnalité (Page 55-59)