• Aucun résultat trouvé

9.4 Généralisabilité ou mesures non parallèle

9.4.2 Modèles estimés

Une fois les données simulées, nous avons choisi de tester 5 modèles pour chaque jeu de données.

Le premier modèle est une régression linéaire multiple où nous avons agrégé à l’aide d’une moyenne lesyij de sorte à avoir un score pour la variable dépendante par sujet. Comme nous l’avons mentionné précédemment, dans le cas de la régression linéaire, il n’est possible que de tester des variables de niveau 2 sujet. Mais nous voulions, dans un premier temps, savoir l’impact d’agréger des données lorsque qu’il ne s’agissait pas de données parallèles (loadings différents).

Puis nous avons défini trois modèles SEM : le modèle “usuellement” testé en SEM, le modèle

“devant être usuellement testé” et finalement le modèle MEM testé en SEM. Ces trois modèles sont présentés en détail ci-après. Le cinquième modèle correspond à l’estimation du modèle avec une MEM.

Modèle 1

Dans le premier modèle bien que les données aient été générées avec des variables de chaque niveau, nous n’avons estimé que le facteur latent et la variable de niveau 2 sujets en SEM en laissant libre tous les paramètres. L’estimation est faite uniquement à partir de la matrice de variance-covariance des données, ce qui signifie que nous ne modélisons pas les moyennes. Puis nous avons testé l’inférence lorsque nous rajoutions la variable de N2su n’ayant pas été utilisée pour la génération desyij (cf. Figure 9.6), ainsi que lorsque nous rajoutons la variable de N2it n’ayant pas été utilisée pour la génération desyij (cf Figure 9.7).

Figure 9.6 – Modèle 1 : Modèle usuellement estimé en SEM : VI N2 sujet

yi3

yi1 yi2

Satisfaction au travail VIg

N2su

VIt N2su

Figure 9.7 – Modèle 1 : Modèle usuellement estimé en SEM : VI N2 item

yi3

yi1 yi2

Satisfaction au travail VI N2su

VI N2it

Modèle 2

Dans le modèle 1, nous avons estimé le modèle à partir de la matrice de variance-covariance des données. En procédant de la sorte, nous faisons comme si la moyenne empirique du facteur latent (ou les moyennes empiriques des items (modèles équivalents)) était égale à son (leur) espérance. Pour voir l’impact de ce postulat, nous avons choisi de tester un deuxième modèle, estimé cette fois à partir des données brutes en estimant une moyenne pour chaque variable manifeste (modèle équivalent à estimer une moyenne pour le facteur latent). Pour ce modèle, nous ne testerons l’inférence que pour les variables de niveau 2 sujet (cf Figure 9.8) vu que l’estimation des moyennes des variables manifestes est colinéaire avec la variable de niveau 2 item.

Figure 9.8 – Modèle 2 : Estimation de la moyenne des items

yi3

y

i1

y

i2

Satisfaction au travail VIg

N2su

VIt N2su

1

Modèle 3

Les variables testées dans le modèle 3 correspondent aux variables utilisées dans la génération des yij plus la variable pour laquelle nous aimerions connaître la qualité de l’inférence : une variable explicative de N2su, une variable explicative de N2it, une variable explicative de N1 “pure” et une variable explicative de N1 “inter”, variable d’interaction entre les deux niveaux 2. Ce modèle a été testé à l’aide de SEM et à l’aide de MEM.

Pour le test de la qualité de l’inférence d’une variable de N2su, nous testons le SEM représenté dans la figure 9.9 et le MEM suivant :yij =β0+β1xN12su+β2xN1 2it+β3xN1 1+β4xN2 2su+bi+bj+ij.

Figure9.9 – Modèle 3 : Modèle complet estimé : test pour une VI N2 sujet

VI N2it

yi3 yi1

VI N1i3 VI N1i2 pure

VI N1i1 pure pure VIg

N2su

VIt N2su

Satisfaction au travail

yi2

1

Pour le test de la qualité de l’inférence d’une variable de N2it, nous testons le SEM représenté dans la figure 9.10 et le MEM suivant :yij =β0+β1xN1 2su+β2xN12it+β3xN1 1+β4xN22it+bi+bj+ij. Pour le test de la qualité de l’inférence d’une variable de N1 “pur”, nous testons le SEM représenté dans la figure 9.11 et le MEM suivant :yij =β0+β1xN1 2su+β2xN12it+β3xN1 1+β4xN21+bi+bj+ij. Pour le test de la qualité de l’inférence d’une variable de N1 inter, nous testons le SEM représenté dans la figure 9.12 et le MEM suivant :yij =β0+β1xN1 2su+β2xN12it+β3xN1 1+β4xN21+bi+bj+ij. 9.4.3 Résultats et Discussion

VI N2 sujet

Régression La variable de niveau 2 sujet a pu être testée aussi bien à l’aide de la RLM, du SEM que du MEM. Dans la figure 9.13 est représenté le pourcentage de fois que l’hypothèse nulleH0 :βxN2su = 0 a été rejetée par condition de simulation. Pour que l’inférence des modèles utilisés soit correcte, il faudrait rejeter environ 5% du temps cette hypothèse nulle (correspondant à la ligne rouge). En effet, cette variable n’est pas une variable qui a généréyij, donc nous n’aimerions pas que le paramètre lié à cette variable soit significativement différent de zéro. Usuellement nous fixons le seuil nominal à 5%, ce qui signifie que nous acceptons de nous tromper 5% du temps (comme présenté dans le chapitre précédent), c’est-à-dire que sur 100 tests nous acceptons qu’environ 5 tests soient significativement différents de 0.

Figure9.10 – Modèle 3 : Modèle complet estimé : test pour une VI N2 item

VIgN2it

yi3

yi1

VI N1i3

VI N1i2 pure VI N1i1 pure

pure VI N2su

Satisfaction

au travail VItN2it

yi2 1

Contrairement à ce que nous attendions (ce qui était également le cas dans le chapitre précédent), la régression a un taux d’erreur de type I autour des 5%. Nous pensions que le fait d’agréger des différentes mesures alors qu’elles n’avaient pas le même poids factoriel aurait modifié la nature de y et par conséquent pour le loading différent de 1 (L.Dif) nous aurions une inférence incorrecte. Notons tout de même que parfois la régression est un peu conservatrice, notamment lorsque les variables explicatives sont asymétriques (VI assym.)6.

Ce résultat mériterait d’être creusé pour voir jusqu’à quel point l’inférence de la régression reste correcte : est-ce qu’une asymétrie dans la partie résiduelle pourrait avoir un impact ? est-ce qu’une plus forte asymétrie des variables indépendantes serait un problème ? etc. En effet, dans la pratique de nombreux chercheurs travaillent à partir d’échelles qu’ils agrègent. Bien souvent une simple moyenne est utilisée pour obtenir les scores composites, alors même que ces échelles ont été validées à l’aide d’analyse factorielle où les différents loadings ne sont pas équivalents. Pour utiliser correctement les échelles validées, nous devrions travailler à partir des scores factoriels des échelles et non de simples moyennes ou sommes. Mais ces simulations sembleraient montrer que cette incartade aux bonnes procédures n’a pas trop de conséquences. “Semblerait” car en effet nous avons agrégé uniquement la variable dépendante. Qu’en est-il lorsque nous multiplions les agrégations. Il serait intéressant de simuler des données avec plusieurs variables explicatives au niveau 2 sujet avec des loadings différents par échelle, puis de les agréger et de voir si l’inférence de la régression est toujours aussi correcte. Si cela était le cas et que nous sommes uniquement intéressés à des variables de niveau 2 sujet, alors l’agrégation et l’utilisation de la RLM seraient une solution adaptée.

Dans la figure 9.13 est également représenté le pourcentage de rejet de l’hypothèse nulle pour le SEM du modèle 3 et le MEM. Les deux modèles ont un taux d’erreur de type I supérieur au 5%

accepté. Notons tout de même que le SEM à un taux d’erreur légèrement supérieur au MEM, alors

6. Concernant la précision des simulations, nous pouvons considérer une différence de 3% comme significative, car sous H0 la significativité pour chaque jeu simulé suit une Bernouilli Ber(0.05). L’intervalle de confiance à 95% pour le pourcentage de résultat significatif sera donc 5% +/1.96SD(erreur) avecSD(erreur) =p

1/n 0.05

0.95, où n est le nombre de simulation. Si n est égal à 1’000, sd=0.0069, nous pouvons considérer une différence de 2.70% comme significative, soit environ 3%, on peut dire qu’on a des différences significatives.

Figure 9.11 – Modèle 3 : Modèle complet estimé : test pour une VI N1 “pure”

VI N2it

yi3 yi1

VI N2su

Vit N1i2 pure VIt

N1i1 pure

VItN1i3

pure VIgN1i3

VIgN1i2 pure VIgN1i1 pure

pure

yi2 Satisfaction

au travail

1

même que le modèle a été généré sous un SEM et que l’ajout de la variance item étant orthogonal à l’effet sujet, l’inférence des variables de niveau sujet ne devrait pas trop être influencée. Probablement, si nous augmentions le nombre de sujet (ici nous avons fait les simulations uniquement avec 20 sujets), les taux d’erreur de type I du SEM et du MEM devraient s’approcher du 5% comme c’était le cas dans les simulations du chapitre précédent pour le MEM.

Peut-être que l’augmentation du nombre de sujet pour tester un SEM permettrait d’améliorer le taux d’erreur de type I pour une variable de niveau sujet ou peut-être que ce taux est plutôt lié au nombre de mesure composant le facteur latent. En effet, dans la figure 9.13, nous pouvons voir que lorsque nous augmentons le nombre d’items de 4 à 8, le taux d’erreur de type I du SEM diminue. Dans le SEM, le paramètre de la variable de N2su testée est multiplié par les loadings (Yij =λj∗(µ+βXi+δi) +ij), ce qui devrait influencer son inférence.

Un point intéressant à noter concernant les SEM est que malgré le fait que ces modèles permettent d’estimer des loadings et des uniqueness différents, l’inférence n’est pas de même qualité en fonction du type de loadings et du type de variances résiduelles. En effet, nous pouvons voir une certaine fluctuation des taux d’erreur de type I en fonction du type de loadings et de uniqueness (homoscédastique et les trois formes d’hétéroscédasticité).

Notons finalement que le taux d’erreur de type I du SEM appliqué auyordinal est inférieur à celui du SEM appliqué auy continu.

Les modèles SEM Dans la figure 9.14, nous avons représenté le taux d’erreur de type I pour une variable de N2su pour les trois modèles SEM estimés, ainsi que le modèle MEM. De manière générale, le MEM à un taux d’erreur de type I inférieur ou égal aux modèles SEM.

En fonction que nous ayons estimé toutes les variables du modèle (modèle 3), la moyenne des variables manifestes en plus des variables de N2su (modèle 2) ou que nous avons estimé les variables de N2su à partir de la matrice de variance-covariance (modèle 1), nous avons des différences de taux

Figure 9.12 – Modèle 3 : Modèle complet estimé : test pour une VI N1, interaction des variables de N2 sujet et item

Satisfaction

au travail VI N2it

yi3

yi1

VI N1i3

VI N1i2 pure VI N1i1 pure

pure VI N2su

yi2 1

d’erreur de type I. Une des question que nous voulions tester était de savoir si le fait d’utiliser la moyenne empirique pour l’espérance (modèle 1) au lieu d’estimer ces moyennes (modèle 2) avait un impact sur l’inférence. Le taux d’erreur de type I du modèle 1 est légèrement inférieur au modèle 2.

Le modèle 3 quant à lui a la plus mauvaise inférence lorsque y est continu. Lorsque y est ordinal le taux d’erreur de type I diminue.

VI N2 item

Dans la figure 9.15 se trouvent le taux d’erreur de type I pour l’estimation de variable de N2it.

Dans le cas de l’estimation à l’aide de MEM, le taux d’erreur de type I est plus ou moins stable en fonction des caractéristiques des simulations et diminue avec le nombre d’items.

Pour les SEM, le taux d’erreur est énorme. Probablement, comme dans le cas des MMN vu dans le chapitre précédent, l’information de la variance item n’étant pas modélisée, le modèle utilise l’infor-mation de la variable N2it pour compenser ce manque, d’où un taux d’erreur de type I si élevé (cela est valable pour le modèle 1 et le modèle 3).

Dans le modèle 3, lorsque les variables explicatives (VI) sont asymétriques, le taux d’erreur de type I diffère fortement par rapport aux données où les VI sont distribuées normalement. L’inférence semble meilleure, mais c’est probablement que le modèle n’arrive pas à comprendre ce qui se passe, une sorte d’accumulation des erreurs. Ce même phénomène semble se produire également lorsque y est ordinal et cela pour les deux modèles SEM.

Modèle 3

Dans la figure 9.16 se trouve le taux d’erreur de type I pour y continu et 4 items dans l’estimation du SEM et du MEM. Dans le modèle 3, nous avons choisi de tester quatre types de variable : une variable de N2su, une variable de N2it et deux variables de N1 : “pure” et “d’interaction”. La figure 9.17 contient les mêmes informations pour y ordinal et 4 items, la figure 9.18 pour y continu et 8 items

et finalement, la figure 9.19 pour y ordinal et 8 items.

VI N2su Comme nous l’avons vu précédemment, l’inférence pour les variables de N2su pour le SEM et le MEM est assez proche, mais le MEM à une inférence plus proche du 5%. La différence diminue avec l’augmentation du nombre d’items.

VI N2it Pour l’inférence pour les variables de N2it, nous avons vu que le MEM s’améliore avec l’augmentation du nombre d’items. Par contre le SEM ne comprend pas du tout ce qui se passe dans les données.

VI N1 inter Pour les variable de niveau 1 “inter”, le taux d’erreur de type I pour le SEM est proche des 5% et s’en approche plus fortement avec l’augmentation du nombre d’items. Pour le MEM, lorsque les loadings sont proches de 1 (L.Eg), le taux d’erreur de type I à 5% et ait meilleure que le SEM dans le cas de 4 items et équivalent au SEM pour 8 items. Par contre, dès que les loadings sont différents, ce taux augmente fortement. Il n’est pas étonnant que pour des loadings proches de 1 le MEM ait une inférence correcte vu que la génération des données correspond à un MEM. Lorsque les loadings deviennent différents les uns de autres, cela se répercute sur la variable de N1 “inter” qui est une interaction de la variable de N2it et de la variable de N2su. Cette dernière dans la génération des données est multipliée par les loadings. Dans ce cas, le MEM n’arrive pas à combler l’absence de l’information sur les données non parallèles.

VI N1 pure Pour les variables de niveau 1 “pure” et y continu, lorsque les VI sont distribuées normalement (VI sym), l’inférence du MEM est légèrement meilleure que celle du SEM. Par contre lorsque les VI ont une distribution asymétrique, l’inférence du SEM se détériore et d’autant plus que le nombre d’item augmente. Lorsquey est ordinal, l’inférence des MEM est légèrement meilleure que celle des SEM, sans différence en fonction de la distribution des VI.

Dans cette partie, nous voulions savoir si dans le cas de données contenant à la fois un effet aléatoire item et des mesures non parallèles, quel serait l’impact sur l’inférence de 1) ne pas modéliser les mesures non parallèles comme c’est le cas dans les MEM et de 2) ne pas modéliser la variance item comme c’est le cas dans les SEM. En d’autres termes qu’est-ce qui est moins grave en terme d’inférence : généraliser aux items, mais avoir des mesures parallèle ou avoir des mesures non parallèle mais ne pas pouvoir généraliser aux items ? Pour cela nous avons testé quatre types de variables : VI N2su, N2it, N1 “pure” et N1 “inter”.

De manière générale, au vu de ces simulations et pour les caractéristiques testées, il semblerait que l’inférence du MEM soit meilleure que celle du SEM à l’exception de l’inférence pour des variables de N1 “inter” lorsque les loadings sont différents. Ces simulations ne sont qu’un début d’exploration. Il faudrait tester les propriétés des SEM et des MEM comme nous l’avons fait dans le chapitre précédent pour les MEM, tester une plus grande variété de caractéristiques (nombre de sujets et d’items plus larges, rapport de variance résiduelle et item différent, etc.). Mais il faudrait avant cela essayer de com-prendre plus en détail comment le SEM utilise les différentes sources d’information à disposition dans les données pour estimer le modèle et comprendre pourquoi il se trompe si souvent dans l’inférence, ainsi, que le MEM dans le cas de variables d’interaction entre les niveaux 2.

Un autre point en faveur des MEM est le nombre de problèmes rencontrés dans l’estimation des SEM. Deux messages d’attention étaient retourné par l’estimation des modèles entre 3% et 37% du temps en fonction des caractéristiques des simulations pour y continu et entre 13% et 46% du temps pour y ordinal :

– “In model ’model_tested’ NPSOL returned a non-zero status code 1. The final iterate satisfies the optimality conditions to the accuracy requested, but the sequence of iterates has not yet

converged. NPSOL was terminated because no further improvement could be made in the merit function (Mx status GREEN).”

– “In model ’model_tested’ NPSOL returned a non-zero status code 6. The model does not satisfy the first-order optimality conditions to the required accuracy, and no improved point for the merit function could be found during the final linesearch (Mx status RED)”

Le plus surprenant est que les pourcentages les plus élevés de retour de ce type de messages est lorsque nous testons des variables de N2su où nous nous serions attendu à ce que les SEM n’aient pas de problèmes pour l’estimation (37% pour un maximum de 25% pour le test de variables de N2it et de N1). Pour les MEM, moins de 5% du temps de tels messages étaient retournés. Une raison pouvant expliquer les problèmes d’estimation dans les SEM est le nombre de paramètres à estimer.

En effet, les SEM estiment beaucoup plus de paramètres que les MEM comme toutes les variances et covariances des variables exogènes, ainsi que leur moyenne. Si cette explication est la raison des problèmes d’estimation, le pourcentage élevé de messages d’attention pour les variables de N2su est d’autant plus étrange, car dans ces modèles, il y a beaucoup moins de covariances estimées.

Pour ces simulations, nous n’avons pas pris en compte les messages d’attention pour le calcul du taux d’erreur de type I. Il serait intéressant et important de refaire ce travail en matchant les résultats des MEM et des SEM avec les messages d’attention et vérifier si en prenant uniquement les estimations sans ces messages, les conclusions faites ci-dessus sont toujours identiques.

Une bonne échelle de mesure validée devrait avoir des loadings assez proches. Si cela était le cas, alors ne pas modéliser l’effet aléatoire item semblerait avoir plus de conséquences que l’inférence que hétéroscédasticité ou des loadings légèrement différents de 1. De plus, une fois les études publiées, elles sont souvent reprises dans des méta-analyses afin de résumer l’avancée dans un champ. Si différentes échelles ont été utilisées pour mesurer le même construit et que l’effet aléatoire item n’a pas été modélisé, alors le fait de mettre ensemble ces études risques d’aboutir à des conclusions erronées dues à un taux d’erreur de type I trop élevé dans les études initiales. Notons tout de même que cela semblerait être vrai uniquement lorsque nous souhaitons tester des variables de niveau 1 ou de niveau 2 item au vu des résultats de la RLM et des SEM pour les variables de N2su.

En plus d’analyser l’inférence des différents modèles discutés, nous nous sommes intéressés à leur puissance. Comme nous l’avons déjà mentionné dans le chapitre précédent pour pouvoir comparer la puissance de différents modèles, il faut que leur taux d’erreur de type I soit identique, ce qui n’est jamais le cas excepté lorsque nous testons des variables de N2su dans le modèle 3. Dans ce cas, le MEM a une puissance légèrement supérieure à celle des SEM.

Figure 9.13 – Taux d’erreur de type I pour un alpha attendu à 5% pour une variable de N2su testé à l’aide d’une régression, de SEM et de MMN.

% d

L. EgL. DifL. EgL. DifL. EgL. DifL. EgL. DifL. EgL. DifL. EgL. DifL. EgL. DifL. EgL. Dif VI sym.VI assym.VI sym.VI assym.VI sym.VI assym.VI sym.VI assym. y continuy ordinaly continuy ordinal 4 items8 items

510

15

20 MEM SEM Régression

Figure 9.14 – Taux d’erreur de type I pour un alpha attendu à 5% pour une variable de N2su testé

Figure 9.14 – Taux d’erreur de type I pour un alpha attendu à 5% pour une variable de N2su testé