• Aucun résultat trouvé

Étude 1 : Fonctionnement différentiel des items

6. Analyses de données

6.1. Étude 1 : Fonctionnement différentiel des items

Dans l’étude du fonctionnement différentiel des items, l’objectif est de détecter la présence ou non d’items biaisés pour un groupe d’individus selon leur appartenance à un sexe ou à un milieu socio-économique. Un item biaisé compromet la validité de l’interprétation du score du test. Comme la réussite ou l’échec de l’item n’est pas expliqué par la propriété mentale évaluée par le test, un item biaisé ne contribue pas à estimer le niveau du sujet sur ladite propriété mentale (ou le trait latent). Dans le cas d’un biais, le comportement de l’item (probabilité de réussir ou d’échec) varie d’un groupe d’individus à l’autre (p. ex., entre les garçons et les filles), et non en fonction de l’habileté du sujet sur le trait latent évalué par le test. Les analyses de cette première étude portent sur les items des différents subtests du WISC-IV. Nous allons exposer plus en détail la démarche dans ce qui suit.

Les données des protocoles WISC-IV sont rentrées item par item pour chacun des onze subtests administrés. Cependant, les deux épreuves de l’Indice de Mémoire de Travail (IMT) et les deux épreuves de l’Indice de Vitesse de Traitement (IVT) n’ont pas été analysées. Pour la mémoire, il est théoriquement peu justifié de supposer la possibilité d’un biais à l’encontre d’un groupe sur les items proposés par les subtests de l’IMT. Pour les subtests de l’IVT, il n’est pas possible d’ajuster un modèle de réponses à l’item. S’agissant de tâches simples à réaliser le plus vite possible, tous les items de Code ou de Symboles sont réussis par tous. C’est le manque de temps ou des erreurs d’inattention qui empêchent de les compléter. Tous les items doivent donc avoir la même difficulté et la même discrimination qu’ils soient au début ou à la fin du subtest.

Comme nous n’avons pas administré tous les items des subtests de l’IVT, il est aberrant d’estimer des paramètres d’item (difficulté, discrimination) sur nos données. En effet, les estimations de la difficulté et de la discrimination seront faussées à cause des items non complétés à cause de la fin du temps imparti. Ainsi, seuls 7 subtests sont a priori

adéquats pour une modélisation par un modèle de mesure tiré des modèles de réponses à l’item, à savoir Cubes, Similitudes, Identification de concepts, Vocabulaire, Matrices, Compréhension et Complètement d’images.

Le choix du modèle de réponse à l’item pour la modalisation est fonction des caractéristiques des données à disposition. Les subtests du WISC-IV sont supposés évaluer une dimension. De plus, les items des subtests analysés n’ont pas été construits pour avoir une discrimination identique. Comme le modèle à un paramètre de Rasch contraint le paramètre de discrimination à une valeur identique pour tous les items, il n’est pas le plus adéquat pour les données des subtests du WISC-IV. Toutefois, du fait de sa simplicité, le modèle de Rash a été utilisé par les concepteurs du WISC-IV. Pour notre part, nous optons pour un modèle unidimensionnel de réponse à l’item à deux paramètres librement estimés, soit le modèle unidimensionnel logistique à deux paramètres (2 PL) défini par Birnbaum (1968, 1969). Le modèle de Birnbaum est fréquemment utilisé pour le cas de variables à échelle catégorielle et à cotation dichotomiques. À partir du modèle 2 PL de Birnbaum, Samejima (1970, 1997) propose une généralisation pour le cas des items à cotation polytomique, soit le modèle gradué de Samejima. Le modèle gradué est adapté même pour un nombre variable de catégories parmi les items d’un même subtest. Par exemple, dans l’épreuve Cubes, les points obtenus varient soit de 0, 1 ou 2 points, soit 0 ou 4 points, soit de 0, 4, 5, 6 ou 7 points selon les items. Le modèle gradué de Samejima est fréquemment utilisé pour le cas de variables à échelle ordinale et à cotation polytomique. Ainsi, nous appliquons le modèle 2 PL aux items à cotation dichotomique des subtests Identification de concepts, Matrices et Complètement d’images, tandis que le modèle gradué de Samejima est appliqué aux items à cotation polytomique des subtests Cubes, Similitudes, Vocabulaire et Compréhension. catégorielles, l’estimateur WLSMV est plus robuste que l’estimateur de la méthode du maximum de vraisemblance (maximum likelihood ; ML). Pour une comparaison plus approfondie et plus technique entre les estimateurs WLSMV et ML, nous renvoyons à la lecture de T. A. Brown (2015), Muthén, du Toit et Spisic (1997) ou Yu (2002).

Les estimations des paramètres d’item (difficulté et discrimination) et de l’échelle d’habileté du trait latent θ sont facilitées si les données s’ajustent bien au modèle unidimensionnel postulé pour l’application des modèles 2 PL et gradué de Samejima. Généralement, l’ajustement des données à un modèle faiblit lorsqu’il y a des items de variance nulle ou très faible, car ces items-ci ne contribuent pas à donner de l’information ni pour l’estimation de leurs paramètres (p. ex., difficulté, discrimination) ni pour l’estimation de l’échelle du trait latent θ. Un item sans variance est réussi ou échoué par tous les individus quel que soit leur habileté sur le trait latent θ.

L’ajustement des données à un modèle faiblit également lorsqu’il y a un certain nombre de données contradictoires. Ces dernières rendent instables les estimations entre la probabilité de réussir l’item pour un individu possédant un certain degré d’habileté et les paramètres de l’item. Sur un échantillon très important, l’estimation d’un modèle tend à être moins sensible aux données incohérentes et à mieux se stabiliser puisqu’il y a alors assez d’informations pour aider à l’estimation. La grande limitation à l’utilisation des MRI vient de la nécessite d’un très large échantillon et cela d’autant plus qu’il y a de paramètres librement estimés.

Les analyses réalisées par le logiciel Mplus 7.2 de Muthén & Muthén permettent de tester le fonctionnement différentiel des items (FDI) selon l’approche des modèles Multiples Indicateurs et Multiples Causes (MIMIC : multiple-indicators multiple-causes).

Dans cette approche, une variable latente est évaluée par plusieurs indicateurs et est expliquée par plusieurs autres variables (Woods, 2009 pour en savoir plus sur l’approche). Nous rappelons qu’un FDI apparaît lorsque les individus issus de différents groupes (p. ex., ethnique, sexe) avec une même habileté sur le trait latent n’ont pas la même probabilité de réussir un même item. La notion de fonctionnement différentiel des items (ou biais) est liée à la notion d’invariance. Si des individus issus de différents groupes avec une même habileté sur le trait latent ont la même probabilité de réussir un même item, alors on suppose l’invariance (ou l’équivalence) du score et des comparaisons entre les individus sont alors possibles. On relève deux types de fonctionnement différentiel des items : (1) le FDI uniforme qui survient uniformément tout au long de l’échelle du trait latent et (2) le FDI non uniforme qui ne survient pas uniformément tout au long de l’échelle du trait latent. Par exemple, un FDI peut apparaître entre le groupe des filles et des garçons seulement pour de individus de très faible ou de très élevée habileté sur le trait latent (FDI non uniforme). La version que nous avons de Mplus 7.2 ne permet que la détection d’un FDI uniforme.