• Aucun résultat trouvé

ordinale pour l’analyse du changement

5.2 Modèles de régression ordinale

5.2.4 Prise en compte du temps

Comme nous l’avons mentionné plus haut, les mesures répétées nécessitent l’in-troduction d’un effet aléatoire partagé par les observations d’un même individu afin de prendre en compte la non-indépendance des observations. En effet, étant donné qu’un individu peut être interrogé à plusieurs reprises, les observations pour un individu ont plus de chances d’être proches que les observations de deux in-dividus différents. Ces observations ont tendance à être corrélées (Agresti, 2002) et ne peuvent donc pas être considérées comme indépendantes. Les effets aléa-toires permettent de tenir compte de cette dépendance à l’intérieur d’un groupe (ici, le groupe étant un individu) en captant les variations dues au groupe plutôt qu’aux observations. Si cette propriété des données longitudinales répétées n’est pas respectée, la procédure d’estimation du modèle produira des erreurs standards fausses, ce qui peut entraîner une mauvaise interprétation de la significativité des paramètres (Agresti, 2002).

Jusqu’à présent, les modèles présentés faisaient partie de la famille des GLM (generalized linear models). Avec l’introduction d’effets aléatoires, on entre dans le domaine des GLMM (generalized linear mixed models), ou modèles de régres-sion linéaire généralisés à effets mixtes. Les effets sont dits mixtes car ces modèles peuvent contenir à la fois des effets fixes, qui ne varient pas par groupe, et des effetsaléatoires, qui varient par groupe. Dans le cas de modèles longitudinaux, ce type de modèle est souvent appelé « modèles de courbe de croissance » (growth curve models) ou « modèles multi-niveaux pour l’analyse du changement » (Singer et Willett, 2003).

Dans un modèle GLMM, l’introduction d’un effet aléatoire correspond à l’in-troduction d’un deuxième niveau dans la formulation multi-niveau. Dans le cas de données longitudinales, le premier niveau correspond aux observations, indicées part, tandis que le deuxième niveau correspond aux individus, indicés pari. Nous

nous inspirons ici de la spécification proposée par Skrondal et Rabe-Hesketh (2004) pour un modèle linéaire généralisé avec une variable dépendante ordinale.

Nous commençons par un modèle ne contenant qu’un seul terme aléatoire, en l’occurrence une constante aléatoire (random intercept). Cette fois, la variable y est indicée en fonction de l’individuiau tempst:

P r(yitc |xit, ζi) =Fc−(β0xit+ζi)) (5.11) L’effet aléatoire est considéré comme étant distribué normalement (ζiN(0, σ2)).

On remarque ici que le nouveau terme ζi a un indice i car, contrairement aux β qui sont des effets fixes, il varie par individu. Etant donné qu’il ne multiplie aucune variable explicative, ce genre d’effet aléatoire est considéré comme une

« constante » aléatoire (random intercept). Dans le cadre d’un modèle de courbe de croissance, l’effet aléatoire sur la constante représente la différence entre le point de départ moyen et le point de départ propre à chaque individu. Ceci implique que la variance de ce terme aléatoire représente la dispersion des individus autour du point de départ, autrement dit la variation inter-individuelle du point de départ.

Dans un modèle de régression longitudinale, la relation de la variable dépen-dante au temps est spécifiée par l’introduction d’une variable explicative représen-tant le temps (comme l’âge). Cette variable varie, évidemment, avec le temps mais ne varie pas forcément entre les individus. En effet, suivant le type de données que l’on a à disposition, il est possible que tous les individus soient mesurés au même âge. Un autre exemple serait que, à partir de données de panel, on s’intéresse à l’évolution d’une variable dépendante par vague plutôt que par âge individuel ; dans ce cas, tous les individus sont interrogés à la même vague, et l’effet du temps est un effet de période plutôt qu’un effet d’âge. Certains types de modèles, comme les mo-dèles de croissance latente, s’utilisent plus facilement lorsque la variable de temps ne varie pas par individu (nous verrons plus en détails ce type de modèles dans le chapitre 8). En revanche, les modèles de courbe de croissance s’en accommodent sans problème particulier.

Comme nous le disions plus haut, l’analyse du changement à travers le temps de la variable dépendante nécessite l’introduction d’une variable indépendante re-présentant le temps. Le plus souvent, cette variable varie à la fois avec le temps et avec les individus. Il existe également des variables indépendantes qui varient par individu mais pas avec le temps ; c’est le cas par exemple du sexe de l’individu.

L’exemple suivant spécifie un modèle dans lequel la variable réponseyitvarie selon l’âge et le sexe de l’individu. Le sexe est ici représenté par une variable « femme », la catégorie de référence est donc « homme ».

P r(yitc|âgeit,femmei, ζi) =F(θc−(β1âgeit+ζi))

ζiN1femmei, σ2) (5.12) Dans cet exemple, on spécifie un effet aléatoireζi suivant une loi normale centrée en α1·femmei avec une variance σ2. Cet effet aléatoire permet de spécifier un

« point de départ » différent pour chaque individu. Le fait de centrer la distribu-tion de la constante aléatoire par individu sur les variables qui ne varient que par individu, et pas par observation, se nommehierarchical centering (Browne, 2009).

Le hierarchical centering n’a pas d’influence sur les estimations des coefficients, mais peut parfois faciliter l’écriture ou même l’estimation dans le cas d’analyses bayésiennes (voir chapitre 7). Ainsi, l’estimation du modèle précédent donnerait les mêmes résultats qu’un modèle non-centré du type :

P r(yitc|âgeit,femmei, ζi) =g−1c−(β1âgeit+α1femmei+ζi))

ζiN(0, σ2) (5.13)

Il est également possible de spécifier une pente aléatoire (random slope). N’im-porte laquelle des variables explicatives peut être multipliée par un effet aléatoire.

Dans le cas d’un modèle de courbe de croissance, c’est en premier lieu la pente de l’âge que l’on fera varier par individu afin de prendre en compte une variabilité de l’effet de l’âge (cf. équation 5.14). Pour éviter toute confusion entre les indices représentant les individus (i), le temps (t) et l’indice identifiant les différents ef-fets aléatoires, l’effet aléatoire sur une constante (random intercept) sera désormais écritζi(int)et l’effet aléatoire sur la pente (random slope) sera désigné parζi(s); leur variance sera respectivementσ2(int)et σ2(s).

P r(yitc|âgeit,femmei, ζi(int), ζi(s)) = g−1c−(β1âgeit+ζi(int)+ζi(s)âgeit))

ζ1iN1femmei, σ2(int))

ζ2iN(0, σ2(s)) (5.14)

La matrice de variance-covariance entre les effets aléatoires est spécifiée de la manière suivante, afin d’autoriser une corrélation entre la constante aléatoire et la pente aléatoire :

Ω =

σ2(int) σ(s;int) σ(int;s) σ2(s)

On obtient ainsi les informations sur les variances inter-individuelles de la constante aléatoire (σ2(int)) et de la pente aléatoire (σ2(s)), ainsi que la covariance entre les deux effets aléatoires (σ(int;s)=σ(s;int)). Pour obtenir la corrélation entre les effets aléatoires, il suffit alors de standardiser la covariance de la manière suivante :

ρ(int;s)= σ(int;s)

σ(int)·σ(s) (5.15)

L’introduction d’autres variables indépendantes variant dans le temps, en plus de la variable qui définit le temps, se fait dans la même équation. Etant donné que les effets aléatoires de la constante et de la pente ne varient pas dans le temps mais par individu, il n’est pas possible de centrer ces effets sur le coefficient d’une variable variant dans le temps sans perdre son caractère longitudinal. Dans l’exemple de ce chapitre, l’introduction d’une variable marit indiquant à chaque période t si l’individu est marié ou non se noterait de la manière suivante :

P r(yitc|âgeit,femmei,marit, ζi(int), ζi(s)) = g−1c−(β1âgeit+β2marit+ζi(int)+ζi(s)âgeit))

ζi(int)N1femmei, σ2(int))

ζi(s)N(0, σ2(s)) (5.16)

Notons ici que nous nous intéressons à l’effetmoyendu fait d’être marié au cours de la trajectoire. Nous aurions également pu nous intéresser à l’effet spécifique du mariage pour chaque périodet, et par conséquent estimer autant de paramètresβ2t

que de périodes, pour autant que le nombre de périodes ne soit pas trop grand. Ce type d’effets est par exemple utile lorsque l’on cherche à isoler des effets de période.

Ecriture multi-niveaux

La représentation d’un modèle de courbe de croissance sous la forme d’un mo-dèle multi-niveaux permet de les spécifier également dans des logiciels dédiés aux analyses multi-niveaux comme MLwiN ou HLM. Comme nous l’avons déjà men-tionné, un modèle de courbe de croissance est équivalent à un modèle multi-niveaux dans lequel le premier niveau correspond aux observations qui varient dans le temps et qui sont emboîtées dans un deuxième niveau qui correspond à l’individu. Le mo-dèle spécifié dans l’équation 5.16 peut alors être spécifié de la manière suivante (nous omettons désormais de préciser par souci de concision qu’il s’agit de la pro-babilité conditionnelle aux effets aléatoires et aux variables indépendantes) :

P r(yitc) = g−1c−(γi(int)+γi(s)âgeit+β2marit) γi(int) = α1femmei+ζi(int)

γi(s) = β1+ζi(s) (5.17)

Cette fois, la constante aléatoire n’est plus centrée enα1femmeimais en 0, tout comme la pente aléatoire :

ζi(int)N(0, σ2(int)) ζi(s)N(0, σ2(s))

On remarque que l’équation 5.17 ne contient pas de constante, comme c’est habituellement le cas pour un modèle de régression multi-niveau, car elle est rem-placée par les paramètres de seuilθc. La similarité avec la formulation de l’équation 5.16 est surtout visible lorsqu’on remplaceγ1i etγ2i dans l’équation 5.17 :

P r(yitc) =g−1c−(α1femmei+β1âgeit+β2marit+ζi(int)+ζi(s)âgeit) (5.18)