• Aucun résultat trouvé

ordinale pour l’analyse du changement

5.1 Modèles longitudinaux

Les données longitudinales en sciences sociales sont devenues ces dernières an-nées de plus en plus accessibles, d’un côté grâce à la multiplication des enquêtes de panel ou des enquêtes rétrospectives, et de l’autre grâce au développement de

méthodes toujours plus efficaces pour les traiter. Outre le fait qu’elles permettent le test empirique des hypothèses à la base du paradigme du parcours de vie, les données longitudinales présentent, en terme de possibilités d’analyse, de nombreux avantages. Hedeker et Mermelstein (2000) mettent par exemple en évidence quatre principaux avantages de l’utilisation de données longitudinales dans le cadre d’une analyse statistique.

Premièrement, même si cela semble évident, les données longitudinales sont le seul moyen d’estimer l’évolution de variables d’intérêt au cours du temps. Ces variables d’intérêt ne se limitent pas à des variables quantitatives mais peuvent également être des variables catégorielles nominales ou ordinales. Dans le cas de variables catégorielles dichotomiques ou nominales, c’est l’évolution de la probabi-lité de se trouver dans une catégorie par rapport à la probabiprobabi-lité de se trouver dans une autre catégorie qui est prédite. Dans le cas des variables catégorielles ordinales, c’est l’évolution la probabilité de se trouver dans une catégorie particulière ou infé-rieure par rapport à la probabilité de se trouver dans une catégorie supéinfé-rieure qui est prédite.

Deuxièmement, contrairement aux analyses en deux vagues qui sont souvent utilisées pour étudier le changement (Johnson, 2005), les analyses qui prennent en compte plus de deux vagues permettent d’identifier des relations plus complexes qu’une relation linéaire entre le temps et la variable d’intérêt. Avec seulement deux points dans le temps, il n’est pas possible de tester autre chose qu’un changement linéaire dans le temps.

Troisièmement, l’inclusion de variables qui varient dans le temps permet de prendre en compte la dynamique des trajectoires individuelles, ce qui est indispen-sable dans le cadre d’une étude se plaçant dans le paradigme du parcours de vie.

Ceci rend possible des analyses qui prennent en compte le caractère dynamique de variables telles que le revenu ou le statut social et, à nouveau, d’estimer de manière plus précise leur effet qu’en se basant sur des données transversales.

Ceci nous amène au dernier avantage à mentionner : les modèles de régression qui se basent sur des données longitudinales permettent de produire des estima-tions plus fiables car celles-ci se basent sur plus d’information individuelle qu’avec des données transversales. Ceci permet entre autres d’éviter de se focaliser sur un moment unique qui pourrait ne pas être représentatif des autres moments que l’in-dividu a vécus. Nous ajouterons que dans le cadre d’un paradigme tel que celui des parcours de vie, la plupart des concepts ne sont réellement pertinents que si l’on dispose de données longitudinales. Celles-ci sont en effet indispensables losqu’on souhaite opérationnaliser les effets d’âge, de période et de cohortes qui forment somme toute la base d’une approche quantitative des parcours de vie. D’autres effets plus complexes, comme les effets cumulés ou les effets de la temporalité des événements, nécessitent également d’avoir à disposition des données longitudinales, si possibles à plus de deux moments.

Nous avons déjà discuté dans les chapitres précédents du fait que le terme gé-nérique de données longitudinales recouvre plusieurs types de données. Dans ce chapitre, nous appelons « données longitudinales » des données individuelles récol-tées à plusieurs reprises. Ce type de données répérécol-tées est par exemple différent des données issues d’enquêtes rétrospectives car elles sont le résultat d’une succession d’observations des mêmes individus. Grâce à ce type de données, nous avons à

disposition des informations sur des aspects des parcours de vie qu’il est parfois difficile d’acquérira posteriorià l’aide d’enquêtes rétrospectives. Les trajectoires de santé physique, de santé mentale ou de revenu sont de bons exemples de trajectoires difficiles à reconstruire par les individus après de nombreuses années.

5.1.1 Types de modèles

D’un point de vue méthodologique, l’utilisation de données longitudinales du type données de panel impose de prendre en compte le fait que chaque individu est observé à plusieurs reprises et que, par conséquent, les observations d’un individu ne sont pas indépendantes entre elles. Par exemple, dans le cas d’une échelle de satisfaction, la non-indépendance des observations se caractérise par le fait que chaque individu peut avoir une appréciation différente de l’échelle en question, et également par le fait que la satisfaction au temps t ne peut pas être considérée comme totalement indépendante de la satisfaction au tempst−1.

Les modèles de régression qui permettent de prendre en compte cette non-indépendance portent des noms différents suivant le domaine d’application. On retiendra principalement les termes d’analyses de données de panel (panel data analysis) en économétrie, de régression avec effets mixtes (mixed effects regres-sion) en psychologie ou en écologie, d’analyses multi-niveau (multi-level analy-sis) ou de modèles hiérarchiques (hierarchical models) en sciences sociales. L’idée principale derrière toutes ces méthodes est de permettre de prendre en compte la non-indépendance des observations en ajoutant un ou plusieurs termes aléatoires (random effect) par niveau. Cette non-indépendance peut être due, comme dans notre exemple, à la non-indépendance des observations pour un individu, mais aussi au fait que des individus font partie d’un groupe dont l’effet n’est pas modélisé.

Les développements dans ce type de modèles proviennent en grande partie des études sur les écoles (Aitkin et Longford, 1986) : on s’interroge dans ces travaux sur les performances scolaires d’écoliers, tout en sachant que la classe et l’école auxquelles ils appartiennent ont un effet sur leur niveau moyen et leur progression.

Le rôle des effets aléatoires est alors de contrôler ces effets de classe et d’école ; les traiter comme des paramètres aléatoire permet de faire de l’inférence sur toute la population des écoles et des classes, car on considère que l’on travaille sur un échantillon de cette population. Ce terme aléatoire peut aussi être considéré comme un terme d’erreur agissant à un niveau particulier et représentant l’hétérogénéité non-observée. Etant donné qu’il s’agit d’un terme d’erreur, on s’intéresse davantage à la variance de sa distribution qui s’interprète comme une variance entre les unités d’un niveau. Lorsque des modèles avec effets aléatoires sont appliqués à des don-nées longitudinales, ceux-ci se nomment souvent des modèles de croissance (growth curve models). Ils sont en général utilisés pour analyser le changement à travers le temps d’une variable dépendante quantitative (Singer et Willett, 2003), mais comme nous le verrons plus loin, ils se prêtent également à l’analyse de variables dépendantes catégorielles.

Le lien entre la notion de niveau, comme les classes et les écoles, et les données longitudinales est fait en considérant que les observations pour un individu font partie d’un niveau supérieur, qui est l’individu. Ainsi, les observations forment le premier niveau des données qui est emboîté dans un deuxième niveau constitué

des individus. Si y représente la variable à expliquer par le modèle, on lui ajoute généralement deux indices, un t pour le temps et un i pour l’individu. Chaque observationyitest ainsi faite à un momenttpour un individui. L’avantage de cette notation est qu’il est ensuite très facile d’ajouter des niveaux, par exemple celui du ménagej : de cette manière, une observationytij correspond à une observation faite au temps t, de l’individuifaisant partie du ménagej.

5.1.2 Effets aléatoires

Dans les modèles de croissance, on utilise en général deux types d’effets aléa-toires. Le premier type est une « constante aléatoire » (random intercept) ; cet effet représente l’hétérogénéité non-observée du niveau de départ de la réponse. Dans le cas d’un modèle de croissance, la variance d’une constante aléatoire placée au ni-veau de l’individu représente la variation inter-individuelle de l’ordonnée à l’origine de la courbe de croissance. Il s’agit d’un moyen de permettre à chaque individu d’avoir un « point de départ » différent. Si l’on ajoute un facteur individuel, comme le sexe, qui explique une partie des différences de point de départ entre individus, on verra cette variance diminuer. Cela signifie qu’on a expliqué une partie de l’hé-térogénéité non-observée entre les points de départ des individus par une variable supplémentaire.

Le deuxième type d’effet aléatoire est appelé « coefficient aléatoire » ou « pente aléatoire » et représente l’hétérogénéité non-observée relative à l’effet d’une variable particulière. L’ajout d’un coefficient aléatoire qui multiplie la variable mesurant le temps dans un modèle de croissance permet de définir qu’en plus d’une pente fixe et moyenne pour tout le monde, chaque individu a une pente individuelle.

L’intérêt de ce type d’effet aléatoire n’est pas d’estimer précisément la constante ou la pente de chaque individu, ce qui serait plutôt le rôle d’un effet fixe indivi-duel, mais de s’intéresser à la variance de cette perturbation. La variance d’un effet aléatoire individuel est une représentation de la variance inter-individuelle ; la ré-duction de cette variance lors de l’ajout d’un effet individuel fixe donne ainsi une indication sur le pouvoir explicatif de cet effet sur les différences entre individus, de la même manière que la réduction de la variance d’un terme d’erreur simple nous indique que nous réduisons l’hétérogénéité non-observée.