• Aucun résultat trouvé

9.2 L’utilisation des SEM et des MEM

9.2.2 SEM

Les SEM sont des modèles de plus en plus utilisés en sciences sociales et humaines. Ils ont été développés originellement grâce aux travaux de Jöreskog (1969, 1970) pour examiner simultanément les relations linéaire entre plusieurs variables indépendantes et plusieurs variables dépendantes. Puis leur utilisation s’est étendue à la validation de construit, aux données longitudinales, etc. On dénote dès lors deux principales applications des SEM : l’utilisation de SEM comme “méthodes descriptives”

ayant pour but de mesurer des variables et les “méthodes explicatives” testant les relations entre plusieurs variables (Roussel et al., 2002). Les méthodes descriptives englobent l’analyse confirmatoire, les tests de validité interne (validité convergente et divergente), la validité nomologique, la fiabilité interne. Ces méthodes utilisent une analyse factorielle confirmatoire pour estimer les facteurs communs (la variable latente) et les facteurs spécifiques (propres à chaque question), réduisant ainsi l’erreur de mesure. D’un autre côté, les méthodes explicatives englobent les analyses causales transversales et longitudinales, les analyses multi-groupes et les analyses multi-niveaux. Ces dernières permettent d’analyser simultanément plusieurs variables observées ou latentes, explicatives ou à expliquer ou la possibilité de modéliser des termes d’erreurs ou de travailler avec des données plus complexes (données non-balancées, données auto-corrélées, etc). De manière générale, la démarche méthodologique des SEM est confirmatoire et cherche à tester une théorie, un groupe d’hypothèses.

Les modèles à équations structurelles peuvent contenir des variables manifestes et des variables dites latentes. Les variables manifestes sont toutes les variables directement mesurées. Le terme de

2. Modèle hiérarchique ou modèle multi-niveaux hiérarchique ou modèle à effets mixtes avec effets aléatoires emboîtés.

variable latente est défini par Skrondal et Rabe-Hesketh (2004) comme une variable aléatoire dont les réalisations ne sont pas observées. Cette dernière représente les “vrais scores” d’une variable continue mesurée avec erreur pouvant s’écrire yi =ηi+i. Le vrai score est définit comme la valeur attendue d’une variable ou d’un item mesuré pour un sujet avec ηi = E(yi). Lorsque la variable latente est mesurée par plusieurs items, l’équation devient : yij =ηi+ij. Si nous prenons, une variable latente mesurée à l’aide de trois items, nous obtenons la représentation graphique par un “path diagramm”

tel que celui de la figure 9.1 . Par convention, les ronds représentent les variables latentes, les carrés les variables observées (manifestes), les flèches unidirectionnelles représentent les relations linéaires et les flèches bi-directionnelles représentent les variances ou les covariances en fonction que les deux extrémités sont sur une même forme ou sur deux formes. Lorsque nous souhaitons modéliser un concept, comme par exemple la satisfaction au travail, chaque variable manifeste n’est pas forcément représentée à part égale dans le concept, ce qui peut se modéliser par des poids différents nommés loadings ou saturation, et représentés par λj. Finalement, ij représente la part unique (uniqueness) de la variable manifeste. Ainsi,yij =λjηi+ij.

Figure9.1 – Path diagramme d’une variable latente mesurée à l’aide de trois items

yi3

yi1 yi2

εi1 εi2 εi3

η

j

En résumé les modèles multi-niveaux (MMN) ont été créés pour modéliser la structure de dé-pendance des différents éléments pour l’analyse d’une unique variable dépendante et les modèles à équations structurelles (SEM) pour pouvoir tester les relations linéaires de plusieurs variables dé-pendantes ou/et pour l’analyse confirmatoire de construit. Ces deux types de modélisation ont des utilisations différentes, mais il est possible de trouver des similitudes entre ces deux types de modé-lisation. La question est de savoir si tous les MMN peuvent trouver un équivalent en SEM ou si ce n’est la cas que pour certaines modélisations. Question à laquelle nous allons essayer d’apporter une réponse dans la section suivante.

9.3 Les multi-niveaux : de simples modèles à équations structu-relles ?

Une question qui revient souvent dans la littérature (p. ex. : Curran, 2003 ; Bauer, 2003) est de savoir si les modèles multi-niveaux sont des SEM. Pour les cas de multi-niveaux hiérarchiques (MMN) à deux niveaux avec des mesures répétées3, il est en effet possible d’écrire le MMN en SEM (cf.

également Curran (2003) et de Bauer (2003)). Mais est-ce que tous les MMN ont un équivalent en

3. Par mesures répétées nous entendons aussi bien une mesure prise plusieurs fois dans le temps pour un même sujet que la mesure de plusieurs questions mesurant le même construit par sujet comme c’est le cas pour des échelles. C’est ce dernier point qui nous intéressera.

SEM ? Pour répondre à cette question nous allons, dans un premier temps, montrer la correspondance d’un modèle MMN en SEM. Dans un deuxième temps, nous allons faire le chemin inverse en écrivant un SEM et en essayant de trouver son équivalent en MMN. Puis dans un troisième temps, nous reviendrons sur un exemple traditionnel en MMN, les enfants emboîtés dans des classes.

9.3.1 Du MMN au SEM

Reprenons l’exemple de la satisfaction au travail mesurée à l’aide de trois items. Dans un premier temps, nous aimerions tester une variable de niveau 2 sujet (N2su) comme par exemple l’estime de soi ou les conflits de rôle. En MMN, nous estimons le modèle suivant :Yij =β0+βN2suXN2sui+bi+ij avec i le niveau sujet et j le niveau de la mesure. Dans ce modèle, nous estimons une moyenne de satisfaction au travail β0, une pente βN2su pour XN2sui, une variance sujet biN(0, σ2bsu) et une variance résiduelleijN(0, σ2). La figure 9.2 correspond à la représentation du MMN en SEM. En SEM, le modèle s’écrit de la façon suivante :

Figure 9.2 – Modèle hiérarchique en SEM : VI N2 sujet

yi3

yi1 1

VI N2su

yi2 βN2su

β0

1 1 1

σ2ε

Satisfaction au travail

σ2su

σ2ε σ2ε

( Yij =λjηi+ij ηi =µ+βX1+δi

Yij =λj∗(µ+βXi+δi) +ij

En contraignant les λj du SEM à être égaux à 1 (i.e. correspond à des mesures parallèles avec chaque item ayant le même poids comme c’est le cas dans un MMN) et les variances des mesures à être égales (ijN(0, σ2j) correspondant à aux uniqueness égales dans le SEM), nous obtenons une équation en SEM identique à celle du MMN avec µ=β0, βXi =βN2suXN2sui,δi =bi etij =ij.

Yij =µ+βXi+δi+ij

Pour tester une variable de niveau 2 item (N2it) d’un modèle croisé dans un MMN, nous estimons le modèle suivant : Yij = β0 +βN2itXN2itj +bi+ij, dont la représentation graphique en SEM est

définie par la figure 9.3. Pour une variable de niveau N2it, chaque item a une unique valeur pour tous les sujets dénommés par it1, it2 et it3 (le poids it1 correspond à la valeur de la variableXN2it pour le premier item, it2 à celui du deuxième item et it3 à celui du troisième item). La variance de ce facteur latent est égale à zéro et la covariance entre ce facteur latent et la satisfaction au travail est nulle car une variable de variance nulle ne peut pas avoir une covariance autre que nulle.

Figure9.3 – Modèle hiérarchique en SEM : VI N2 item

yi3

yi1 yi2

1 1 1 it1

it2 it3

β0 βN2it

Satisfaction au travail

0 0

VI N2it 1

σ2ε σ2ε σ2ε

σ2su

Pour tester une variable de niveau 1 “pure” (ce qui correspond à une mesure différente par sujet et par item, Xij) (N1) d’un modèle croisé dans un MMN, nous estimons le modèle suivant : Yij = β0+βN1XN1ij +bi+ij, dont la représentation graphique en SEM est définie par la figure 9.4.

Il est important de noter que dans le MMN ni la moyenne des VI, ni les covariances entre VI ne sont estimées dans le modèle contrairement aux SEMs.

Ainsi, il est possible d’écrire un MMN avec des mesures répétées en SEM. Ce MMN peut être vu comme un SEM contraint. Notons tout de même qu’avec beaucoup de variables explicatives, cela devient très compliqué à gérer. De plus, il n’est pas possible de tester des variances égales à zéro dans tous les logiciels.

9.3.2 Du SEM au MMN

Les modèles croisés présentés dans la chapitre précédent sont définis de la manière suivante : Yij =βXi+bj+bi+ijbj correspond à l’effet aléatoire de l’item modélisé commebjN(0, σ2bit).

Pour être au plus proche de ce modèle en utilisant un MMN, l’effet item peut être traité comme un effet fixe, ce qui donnerait l’équation suivante :Yij =βXi+κj+bi+ijκj est un effet fixe item qui serait modélisé par une série de variables muettes qui codent tous les items sauf un. Ceci signifie que le modèle inclut beaucoup plus de paramètres pour pouvoir estimer une moyenne par item. Dans un modèle SEM cela se traduirait par l’équation ci-dessous :

( Yijνj =λjηi+ij ηi =µ+βxi+δi avecλj = 1 et les variances des ij contraintes à être égales.

Figure 9.4 – Modèle hiérarchique en SEM : VI N1

yi3

yi1 yi2

β0

1 1 1

Satisfaction au travail

yi3

yi1 yi2

βN1 βN1

βN1

1

σ2ε

σ2ε σ2ε

σ2su

Nous avons vu que le MMN à deux niveaux avec mesures répétées est un SEM contraint avec deux types de contraintes : une sur les loadings et l’autre sur les uniqueness. Est-ce que le modèle SEM est plus général que le MMN ou est-ce qu’il existe un MMN correspondant au SEM non contraint ? Pour cela nous allons reprendre le système d’équations ci-dessus. Ces dernières peuvent être décomposées en trois parties :

νj+λjµ éléments liés à l’item λjβXi+λjδi éléments liés au sujet

ij élément résiduel

Cette fois, il s’agit de partir des équations du SEM pour définir un MMN équivalent ou aussi proche que possible. En introduisant dans l’équation du MMN, l’information concernant l’item Xjit (en effet principal avec le premier item comme référence) en plus de Xi, ainsi que l’interaction entre item et la variable sujet, cela donne :

yij =β0+w2xit2j +w3xit3j +θ2xit2j xi+θ3xit3j xi+γxi+bi+ij avec biN(0;λ2jση2)

ijN(0;σ2j)

Si nous écrivons cette équation séparément pour chaque item, cela donne :

yi1 =β0+γx+bi+i1 item1 yi2 =β0+w2+θ2xi+γx+bi+i2 item2 yi3 =β0+w3+θ3xi+γx+bi+i3 item3

Pour le modèle SEM, il n’est pas possible d’estimer une moyenne par item plus la moyenne du facteur latent, donc nous allons enlever la moyenne du premier item et nous obtenons le système d’équations suivant :

yi1= 1∗µ+ 1∗βXi+δi) +i1 item1 yi2=ν2+λ2µ+λ2βXi+λ2δi+i2 item2 yi3=ν3+λ3µ+λ3βXi+λ3δi+i3 item3

Pour la partie fixe des modèles, les paramètres du niveau item et ceux du niveau sujet sont équivalents pour les deux modèles :

SEM M M N nb de paramètres estimés

niveau sujet β, λ2β, λ3β γ, θ2, θ3 3

niveau item µ, ν2, ν3, λ2µ, λ3µ β0, w2, w3 3 (λdéjà estimé)

Pour la partie aléatoire des modèles, pour que les deux modèles soient équivalents, nous avons les paramètres suivants :

SEM M M N

niveau sujet δi, λ2δi, λ3δi, bi

avec λjδiN(0;σδ2) biN(0;λ2jσ2η) niveau résiduel i1, i2, i3 i1, i2, i3

Au vu de la table ci-dessus, pour que les deux modèles soient équivalents, la variance debi dépend d’un paramètre estimé dans le modèle :λ. Nous avons le même nombre de paramètres dans les deux modèles, mais en terme de paramétrisation, ce n’est pas équivalent, le MMN devenant non linéaire car la variance des sujets doit dépendre des estimations des effets fixes. Ces deux modèles ne sont pas équivalents avec l’impossibilité d’écrire ce SEM en MMN ni ce MMN en SEM. Au vu de cet exemple les MMN ne sont pas forcément de simples SEM.

9.3.3 Des enfants dans des classes

Nous avons vu jusqu’ici la correspondance des modèles MMN avec deux niveaux emboîtés avec des mesures répétées en SEM contraint et la correspondance partielle des SEM (pour une VD et des mesures répétées) non contraint en MMN. Sur la base de ces résultats, nous allons nous intéresser à l’exemple classique des MMN des enfants dans les classes. Nous ne sommes plus dans la situation de mesures répétées emboîtées dans les sujets. Dans ce nouvel exemple, les mesures (les enfants) diffèrent d’une classe à l’autre.

Comme précédemment, nous aimerions savoir s’il est possible de trouver un modèle SEM équivalent au MMN de l’exemple des enfants emboîtés dans les classes et cela pour différents types de variables.

Pour tester une variable de niveau N2, c’est-à-dire une variable au niveau de la classe, cela ne dépendra pas des mesures de N1. Et l’estimation des paramètres du N2 du SEM sera équivalente à ceux du MMN.

Pour tester une variable au niveau des enfants comme par exemple le sexe, l’ordre des enfants dans les classes sera important pour l’estimation d’un modèle dans le cas de SEM. Bauer (2003) propose d’ordonner et de regrouper les enfants dans les classes de sorte à ce que chaque variable manifeste (carré) contienne un enfant avec le même sexe. Ainsi, l’ordre des filles entre les filles d’une même classe est interchangeable et l’ordre des garçons au sein des garçons d’une même classe est interchangeable.

Comme dans le SEM rien ne permet de faire la distinction entre deux garçons d’une même classe, le modèle testé ne peut plus être comparé au modèle saturé comme c’est usuellement le cas, mais à un modèle saturé contraint (Bauer, 2003, p.144) de la manière suivante : même variance pour les filles, même covariance entre les mesures des filles, même variance pour les garçons et même covariance entre les mesures des garçons.

Dans le cas d’un design non balancé, c’est-à-dire avec un nombre de filles et de garçons différent par classe, il faudra “balancer” artificiellement le design en créant des données manquantes (missing) : par exemple, si dans une classe, il y a 4 filles et 4 garçons et dans une autre seulement 2 et 2, alors

il faudra créer 2 colonnes de missing pour les filles de la deuxième classe et deux colonnes de missing pour les garçons de la deuxième classe. Avec cette modification, Bauer (2003) affirme que les tests seront identiques.

Dans un cas complètement balancé, avec le même nombre de filles et de garçons par classe, nous obtenons les mêmes résultats que pour un MMN. Dans le cas où le design est très asymétrique, un grand nombre de données seront considérées comme manquantes liées au design et ne correspondant pas aux données. En utilisant le FIML (full information maximum likelihood) implémenté dans de nombreux logiciels SEM, Bauer (2003) dit que les résultats seront analytiquement égaux. Ce “truc”

permettant de tester une variable de niveau item en SEM fonctionne bien, comme nous l’avons dit, dans le cas balancé. Mais comment faire, si nous sommes intéressés au sexe et à la couleur des yeux ou à d’autres variables nominales ? Dans ce cas, il faudrait trier les enfants en fonction du sexe et en fonction de la couleur de leur yeux (et en fonction des autres variables), voire même rajouter des colonnes de données manquantes, ce que Curran (2003) décrit comme une gestion des données cauchemardesque (p.565) dont le processus peut engendrer facilement des erreurs.

Nous avons vu jusqu’ici qu’il était possible d’estimer le modèle MMN des enfants dans les classes en SEM pour des variables au niveau de la classe et des variables nominales au niveau du sujet. Pour des variables continues au niveau du sujet comme l’âge, les résultats vont dépendre de l’ordre dans lequel les enfants seront ordonnés dans les classes. Bauer (2003) explique que dans ce cas il n’est plus possible de travailler directement sur la matrice de variance covariance, mais qu’il faut écrire les équations du modèles pour chaque mesure et en procédant de la sorte nous devrions obtenir les mêmes résultats que pour une MMN.

En résumé au vu de l’article de Bauer, l’exemple des enfants dans les classes pourrait être modélisé par les SEM. Mais est-ce le cas pour l’exemple où nous rajouter un effet croisé, le voisinage ? Skrondal et Rabe-Hesketh (2004) dans leur chapitre sur les “Classical latent variable models” présentent le modèle à effets mixtes avec effets aléatoires et mentionne le “truc” proposé par Goldstein (1999) qui consiste à créer un faux niveau 3 qui correspond au niveau croisé. C’est cette même astuce qui était utilisée par certains utilisateurs de MMN pour analyser des données croisées. Dans le cas où le niveau croisé est constitué de peu de mesure, les auteurs affirment que la création de ce faux niveau permet d’estimer un SEM. Par contre, lorsque le nombre de mesures augmente, il n’est plus possible d’estimer le modèle de manière traditionnelle, mais il faut avoir recours à des techniques de types MCMC. Par contre, ils n’expliquent pas plus en détail comment représenter ce type de modèle ni comment les estimer. Ce sont les uniques auteurs à notre connaissance qui mentionnent les modèles croisés en tant que SEM.

Malgré le fait que Skrondal et Rabe-Hesketh (2004) parlent des modèles croisés sous le titre des modèles à variables latentes classiques, il manque des preuves claires pour pouvoir dire que c’est bien le cas. Notons encore qu’ils proposent d’ajouter un troisième niveau, bien qu’ils présentent aux pages 57-58, les MMN à trois niveaux comme encore une fois des “Classical latent variable models”, les informations à disposition ne sont pas suffisantes pour se faire une idée de l’applicabilité de ces modèles en SEM.

9.3.4 Limite dans l’utilisation des SEM pour estimer des MMN

Curran (2003) dans son article montre comment il est possible d’estimer certains MMN à l’aide de SEM et il termine par une liste de limitation. La première, déjà mentionnée plus haut, est le cauchemar lié à la gestion des données pour qu’elles aient le format nécessaire à l’estimation du MMN, comme le fait d’ordonner les mesures en fonction des variables explicatives et les risques d’erreurs lors du reformatage de la base de données, c’est pourquoi il conseille de ne pas utiliser les SEM lorsque le but est uniquement de tester un MMN. Le choix du SEM doit se faire si le MMN ne permet pas de tester certains éléments tels que plusieurs variables dépendantes. La deuxième limitation concerne l’interprétation des modèles MMN estimés en SEM. Il faut identifier correctement les paramètres

estimés et leur interprétation. Par exemple, la moyenne estimée pour la variable de N2it dans le SEM correspond à un coefficient de régression dans le MMN et le régresseur entre la VI de N2su et le facteur latent item dans le SEM correspond au coefficient de régression pour une variable d’interaction entre une variable de N2su et une variable de N2it du MMN (cf. section suivante).

9.4 Généralisabilité, mais mesures parallèles ou mesures non paral-lèle mais non généralisables

Nous avons vu que les MMN ne sont pas toujours des SEM. Les modèles à effets mixtes avec effets aléatoires croisés (MEM) ont quant à eux la particularité d’avoir un deuxième effet aléatoire (item) qui est croisé (par opposition à emboîté) au sujet. Nous partons du postulat que cette effet ne peut pas (ou du moins, dans les connaissances actuelles) être modélisé à l’aide de SEM.

Le point fort des SEM en plus de pouvoir tester plusieurs variables dépendantes est de ne pas traiter les différentes mesures d’une échelle comme des mesures parallèles en permettant d’estimer des “poids”

différents pour chaque items. DeShon et Morris (2002) relèvent en effet que les méthodes d’analyses statistiques usuellement utilisées en psychologie “assume that alternate forms, such as items, scales, raters, and time periods, are parallel measures of a construct” et rajoutent que ceci “is a remarkably restrictive assumption and is almost never met in practice” (DeShon, 2002, p.194).

Nous avons vu qu’il était possible d’estimer des poids différents pour les différentes mesures de la variable dépendante dans un modèle multi-niveaux, mais pour cela, il fallait introduire les items dans le modèle, ce qui aurait pour conséquences de ne plus permettre l’estimation de variables de N1 et de N2it.

Le point fort des MEM, en plus de pouvoir prendre en compte la structure de dépendance des dif-férents niveaux, est de permettre de généraliser aussi bien à la population des sujets qu’à la population des items mesurant un même construit.

Nous avons vu dans le chapitre précédent (ainsi que dans la littérature) que si le niveau des items existait et qu’il n’était pas modélisé, nous augmentions le seuil nominal d’erreur de type I. Nous pouvons alors nous demander quelles sont les conséquences sur l’inférence de définir les mesures comme des mesures parallèles alors qu’elles ne le sont pas.

A partir de cette réflexion, nous avons voulu tester l’impact de la non estimation de l’effet aléatoire

A partir de cette réflexion, nous avons voulu tester l’impact de la non estimation de l’effet aléatoire