• Aucun résultat trouvé

6.4 Objectifs de la thèse

7.1.2 Ne pas agréger les données

Afin de ne pas perdre l’information concernant la variabilité intra-individuelle et éviter les éventuels problèmes mentionnés ci-dessus, deux outils plus récents s’offrent à nous : les modèles multi-niveaux et les modèles à équations structurelles.

Mais avant d’aller plus loin, nous devons nous poser la question des besoins du chercheur, et en particulier du chercheur en RH. Lorsqu’il va mener une étude, il voudra tout d’abord que ces résultats ne soient pas dépendants des personnes interrogées. En d’autres termes, s’il avait interviewé d’autres personnes provenant de sa population d’intérêt, il aimerait retrouver les mêmes résultats. Ceci est possible aussi bien avec la régression qu’avec les modèles multi-niveaux hiérarchiques et les modèles à équations structurelles.

Maintenant, si notre chercheur est intéressé à analyser la satisfaction au travail, il va devoir choi-sir une échelle opérationnalisant son concept. Comme nous l’avons vu précédemment, il existe une multitude d’échelles de satisfaction au travail disponibles dans la littérature et qui, pour la plupart, devraient mesurer quelque chose de similaire. Dans ce cas, si notre chercheur décide de choisir les faces de Kunin et qu’il trouve que cette satisfaction est liée à l’affectivité positive, il aimerait probablement que son résultat ne soit pas dépendant du choix de son échelle (pour autant qu’elles mesurent toutes le même construit). C’est également l’idée des méta-analyses qui réunissent des études sur le même construit et cela même si il n’a pas été mesuré de la même manière. Pour cela, il faut prendre en compte la variabilité entre les diverses mesures de satisfaction. Ceci n’est pas possible avec les trois modèles cités précédemment.

Mais alors quel modèle choisir ? En psycholinguistique, un problème similaire s’est posé. Les cher-cheurs dans ce champ ne travaillent pas avec des échelles, mais avec des mots. Ils choisissent certains mots avec certaines caractéristiques, mais il existe d’autres mots avec les mêmes caractéristiques qui auraient tout aussi bien pu être utilisés pour l’étude. Une fois les données récoltées, ils les analysent à l’aide d’ANOVAs. En 1973, H. H. Clark (1973) explique qu’en fonction de l’analyse que nous ef-fectuons, nous ne pouvons pas généraliser les résultats d’une recherche effectuée par exemple sur 20 mots à toute la population des mots. En effet, une analyse classique revient à implicitement accepter le postulat que ces 20 mots choisis constituent la population complète des mots auxquels nous voulons généraliser nos résultats (p.336). Pour bien comprendre, rappelons que dans toute ANOVA, les sujets sont traités comme effet dit aléatoire (par opposition à des effets fixes). En procédant de la sorte, cela permet de généraliser les résultats à la population des sujets et non pas uniquement aux sujets ayant participé à l’étude. Concernant les mots, nous pourrions modéliser une moyenne par mot de sorte à savoir si certains mots sont plus difficiles que d’autres. Ceci correspondrait à traiter les mots comme un effet fixe. En prenant les mots comme effet fixe au lieu d’effet aléatoire, cela aura pour conséquence d’augmenter le nombre d’erreur de type I, c’est-à-dire de rejeter l’hypothèse nulle qui dit que les moyennes sont égales bien qu’il n’y ait pas assez d’évidence pour le faire. Cela n’aura pas ou peu d’impact sur l’estimation des paramètres, mais par contre les tests statistiques seront influencés.

H. H. Clark (1973) a proposé d’utiliser le quasi F ratio (ou F’) qui teste correctement l’hypothèse du chercheur, mais avec une distribution approximativement connue (distribution F). Cette technique est une très bonne alternative, mais supporte malheureusement très mal les données manquantes (Baayen et al., 2008 ; Renaud & Ghisletta, 2011) et surtout, étant donné que c’est une généralisation de l’ANOVA, elle ne permet pas de tester des covariées ce qui nous intéresse en premier lieu en RH.

Suite à l’article de H. H. Clark (1973), en psycholinguistique il est implicitement accepté qu’il faille traiter les mots (items) comme un effet aléatoire (i.e. : modéliser la variabilité des items). Malheureu-sement, son article n’a pas été compris correctement dans son ensemble. En effet, les chercheurs, tout en citant Clark, font une analyse pouvant engendrer un taux d’erreur de type I supérieur à 5%. La technique est la suivante : les données vont être analysées deux fois : 1) les données sont agrégées au niveau du sujet et analysées à l’aide d’une ANOVA (également appelé F1) (le sujet est traité comme un effet aléatoire permettant de généraliser les résultats à la population des sujets) et 2) les données sont agrégées au niveau du mot et analysées à l’aide d’une ANOVA (F2) (le mot est traité comme un effet aléatoire permettant de généraliser les résultats à la population des mots). L’idée est que si F1 est significatif, les résultats seraient les mêmes pour un autre échantillon de sujet (c’est-à-dire généralisables aux sujets) et si F2 est significatif, alors si on donnait aux mêmes sujets une autre liste de mot, les résultats seraient les mêmes (c’est-à-dire généralisables aux mots). Pour être généralisables aux sujets et aux mots, il faudrait que F1 et F2 soient significatifs et il serait attendu dans un cas balancé, que F’ lui aussi soit significatif. Ce que Clark a montré, c’est que ce n’est pas forcément le cas.

Et si F1 et F2 sont tous deux significatifs, cela ne garantira pas que les résultats soient généralisables aux sujets et aux mots simultanément, c’est-à-dire que le même résultat sera obtenu en présentant d’autres mots à d’autres sujets.

Trente ans plus tard, plusieurs auteurs (Baayen et al., 2008 ; Renaud & Ghisletta, 2011 ; Lachaud

& Renaud, 2011) sont revenus sur ce que Clark avait écrit, sur ce qui était fait en pratique et sur les conséquences. Renaud et Ghisletta (2011), Lachaud et Renaud (2011) et Baayen et al. (2008) ont comparé à l’aide de simulations plusieurs modèles et ont trouvé que la méthode du F’ est la meilleure pour le taux d’erreur de type I. Dans les trois études, il était proche du 5% attendu et contrairement à ce que certains ont pu penser, il n’est pas trop conservateur (Lachaud & Renaud, 2011). Mais comme mentionné précédemment, il faut que les données soient balancées, ce qui n’est malheureusement pas souvent le cas et surtout il n’est pas possible de tester des covariées.

Il existe un autre outil statistique développé récemment qui permet de généraliser les résultats à la fois aux sujets et aux mots. Il s’agit de modèles à effets mixtes avec effets aléatoires croisés (ici sujet et mot). Ces modèles sont des modèles multi-niveaux, mais tous les niveaux ne sont pas emboîtés.

Dans la littérature en psycholinguistique, il a été discuté si les mots étaient emboîtés dans les sujets, ou si les items étaient croisés avec les sujets. Certains chercheurs considèrent que le lexique mental est différent d’un individu à l’autre et donc que chaque sujet perçoit les mots d’une manière personnelle.

Dans ce cas, ils considèrent que les mots sont emboîtés dans les individus et non croisés. Dans le cas, où nous considérons que chaque sujet voit la même liste de mots, alors il semble adéquat de traiter les items comme étant croisés aux sujets (Baayen et al., 2008 ; Raaijmakers et al., 1999). Dans le cas d’échelle, il semble plus difficile de justifier les questions comme emboîtées dans les individus. En effet, chaque sujet peut interpréter chaque question à sa manière, mais il est difficile de soutenir la thèse que la même question vue par les différents sujets correspond à des questions différentes.

Les modèles à effets mixtes avec effets aléatoires croisés ont été testés en comparaison à F1+F2, à F’

(Renaud & Ghisletta, 2011) et également aux multi-niveaux (modèle multi-niveaux avec uniquement des effets aléatoires emboîtés, MMN) qui ne prennent pas en compte l’effet aléatoire des mots (Baayen et al., 2008).

Renaud et Ghisletta (2011) ont, sur des échantillons variant entre 10 et 25 sujets et 4 et 25 items, trouvé que F1+F2 était très libérale avec jusqu’à 62% d’erreur de type I sous certaines conditions. Le taux d’erreur de type I pour F’, sous des conditions extrêmes, peut descendre jusqu’à 3.2% ce qui est un peu conservateur, mais en général ce taux est proche des 5% attendu. Le taux d’erreur de type I des modèles multi-niveaux avec effets aléatoires croisés se situe entre 2.9% et 6.3% lorsque les paramètres sont estimés à l’aide du maximum de vraisemblance et que les p-valeurs sont obtenues à l’aide d’un rapport de vraisemblance (nous reviendrons sur ces termes dans le chapitre suivant).

Baayen et al. (2008), quant à eux, sur la base également de simulations pour 8 sujets et 8 mots sous l’hypothèse nulle pour un alpha de 5%, ont trouvé 31.0% d’erreur de type I lorsqu’un modèle multi-niveaux avec uniquement sujet aléatoire était utilisé et 8.8% lorsque sujet et mot étaient considérés comme aléatoires. Si le nombre de sujets et d’items augmentent, le taux d’erreur de type I diminue, passant à 23.8% pour MMN avec sujet aléatoire et à 5.5% pour un modèle avec sujet et mot aléatoires.

Ceci montre l’importance de prendre en compte les mots comme facteurs aléatoires.

Les modèles à effets mixtes avec effets aléatoires croisés ont un taux d’erreur de type I légèrement supérieur à 5%, mais ils semblent une bonne alternative au F’ lorsqu’il y a des données manquantes ou des covariées.

Revenons à notre chercheur en RH. S’il veut pouvoir faire une étude sur la satisfaction au travail (la VD) et que les résultats ne soient pas spécifiques ni à son échantillon de sujet, ni à l’échelle choisie, alors il devrait utiliser des modèles à effets mixtes avec effets aléatoires. Dans son cas, ce sont les sujets et les questions de l’échelle qui seront traités comme aléatoires.

Dans un premier temps (dans le chapitre 8), dans une perspective de généralisabilité, nous aime-rions comparer la régression linéaire multiple, les modèles multi-niveaux et les modèles à effets mixtes avec effets aléatoires croisés. Pour cela, nous allons étudier le taux d’erreur de type I lorsque l’effet aléatoire des questions (items) n’est pas pris en compte dans la modélisation et cela dans les conditions d’application des modèles, ainsi que lorsque ces dernières ne sont pas respectées.

Dans un deuxième temps (dans le chapitre 9) et toujours dans une perspective de généralisabilité, nous aimerions comparer les modèles à effets mixtes avec effets aléatoires croisés à un autre modèle mentionné précédemment : les modèles à équations structurelles. Ces derniers ont la particularité notamment de permettre de considérer les différentes mesures d’une échelle comme des mesures non parallèles, ce qui n’est pas possible dans le cas des modèles à effets mixtes. Dans le cas de ces deux modèles, nous aimerions savoir dans le cas de données contenant à la fois un effet item et à la fois des mesures non parallèles, quel élément aura le plus d’impact sur le taux d’erreur de type I.

The impact of the choice of the

statistical model on inference for item scales : an application to job

satisfaction and Monte Carlo simulations

Ce chapitre constitue un article qui est en révision.

8.1 Abstract

The main purpose of this study is to present a different method to analyze job satisfaction item’s scale : the mixed effects models (MEM) (with crossed random effects). Firstly we will present some statistical tools available to analyze job satisfaction and their appropriateness. Today the MEM were found to be the only method able to generalize simultaneously the results to different samples and to different questionnaires while measuring the same concept. Secondly, we will present three simulation studies in order to evaluate the real type I error rate level and the power of linear regression, multilevel and MEM when the structure of the data is complex and close to actual item scales. The design of the simulation was carried out under different settings to investigate the impact on the quality of inference.

The novelty of these simulation studies is to simulate models close to the ones used in research with many correlated IVs and which are not necessarily normally distributed ; and not only models based on a simple design with one IV.