• Aucun résultat trouvé

2. Considérations psychométriques dans l’évaluation psychologique

2.1. Modèle de mesure en psychométrie

2.1.2. Modèles de Réponse à l’Item

2.1.2.9. Conditions d’application des MRI

À la différence de la théorie classique, les MRI modélisent « la relation entre la probabilité pour un sujet de réussir un item (et non plus la fréquence de réussite dans un groupe) et sa position sur une variable latente (et non plus son score sur une variable observable) » (Huteau & Lautrey, 2003, p. 87). Pour estimer de tels modèles, cela exige un échantillon de sujets et d’items d’un test très importants. Avec un paramètre librement estimé, le modèle de Rasch est le plus commode au niveau du critère du nombre de données suffisantes. En effet, ce modèle nécessite une taille d’échantillon entre 100-200 sujets et une longueur de test habituel. Pour les modèles à deux paramètres, il faudrait disposer d’un test avec une longueur d’au moins 30 items et 500 sujets (Hulin, Lissak, & Drasgow, 1982). Quant aux modèles à trois paramètres, il s’agit de disposer d’un test avec une longueur d’au moins 50 items et de 1000 sujets (Hulin et al., 1982). Le nombre d’items d’un test peut difficilement être augmenté, en revanche, il y a un peu plus de souplesse pour augmenter le nombre de sujets dans une recherche. Pour des analyses à l’aide des MRI, cela demande donc de recruter un nombre très important de sujets afin d’aider à l’estimation des paramètres.

Hormis les critères pratiques de taille d’échantillon et d’items du test, au niveau du cadre théorique, les MRI sont applicables lorsque trois conditions sont satisfaites : la propriété d’invariance ainsi que deux concepts étroitement liés, la propriété d’indépendance locale et la propriété d’unidimensionnalité. Les hypothèses d’indépendance locale et d’unidimensionnalité ne sont pas propres à la théorie de réponse à l’item, mais relèvent plus largement de l’utilisation même des tests.

Théoriquement, un test regroupe un ensemble d’items qui contribuent à évaluer une seule propriété mentale et qui ne devraient pas se biaiser les uns les autres. En

préambule à toutes analyses dans le cadre de la théorie de réponse à l’item, il s’agit donc de s’assurer de l’adéquation du contexte d’application.

La propriété d’invariance postule que les estimations liées aux items (paramètres de difficulté, de discrimination, etc.) et aux individus (niveau d’habileté sur la propriété mentale évaluée) sont indépendantes de l’échantillon particulier d’individus ou de l’échantillon d’items à partir duquel elles sont réalisées. En fait, « la propriété d’invariance est principalement ce qui permet à la TRI d’étaler sa supériorité par rapport aux autres propositions de modélisation, comme la théorie classique des tests ou la théorie de la généralisabilité » (Bertrand & Blais, 2004, p. 187). Nous avons déjà mentionné le problème de dépendance circulaire dans la théorie classique. En effet, l’estimation des indices (p-indice, d-indice, coefficient de fidélité, etc.) est dépendante à la fois de la distribution des habiletés dans un échantillon particulier et du set d’items d’un test qui sont utilisés pour les estimer. Ainsi, la généralisation des résultats à d’autres échantillons n’est pas de facto et doit être soutenue par une étude sur chaque échantillon. Dans les MRI, « les estimations du ou des paramètres associés aux items sont indépendantes du groupe de sujets qui est la cible de l’opération de mesure et les estimations du ou des paramètres associés aux sujets sont indépendantes du groupe d’items inclus dans l’opération de mesure » (Bertrand & Blais, 2004, p. 183). La Figure 27 (p. 108) illustre la propriété d’invariance qu’assurent les MRI. Dans cette figure est représentée la distribution des habiletés de deux groupes de sujets (groupe 1 et groupe 2). Les individus du groupe 1 sont en moyenne moins habiles que les individus du groupe 2. Malgré la différence entre la performance moyenne des deux groupes, le modèle de réponse à l’item donne une seule et même CCI pour l’item i. Ainsi, les individus possédant une même habileté sur le trait latent ont la même probabilité de réussir l’item quelque soit les caractéristiques du groupe dont ils sont issus.

Figure 27. Courbe caractéristique de l’item i et distributions d’habileté de deux groupes (1 et 2).

Source : Hambleton et al. (Hambleton et al., 1991, p. 8).

Chaque item d’un test est conçu pour ne pas apporter d’information qui orienterait le sujet sur la réponse à un autre item. Il s’agit de la condition d’indépendance locale des items. Selon cette condition, la performance (réussite ou échec) sur un item d’un test n’influence pas la performance sur les autres items du test.

Seul le trait latent évalué (niveau d’habileté sur la propriété mentale) explique la performance de l’individu sur les items du test. Sur le plan statistique, cela signifie que les corrélations entre les réponses aux items d’un test sont nulles pour une valeur de trait latent fixée comme le soulignent Lord et Novick :

La performance d’un individu dépend du seul trait si, étant donné la valeur observée pour ce trait, rien d’autre ne peut contribuer à nous informer sur la performance au test. Le trait latent est le seul facteur important et, lorsque la position de l’individu sur l’échelle de ce trait latent est connue, le comportement est aléatoire, au sens de l’indépendance statistique. (1968, cités par Bertrand &

Blais, 2004, pp. 201–202)

Ainsi, le respect de la condition d’indépendance locale des items assure la validité des estimations liées aux individus (échelle des thêta).

En étroit lien avec l’indépendance locale, l’unidimensionnalité est l’un des postulats importants sur lesquels reposent les MRI, ainsi que le fondement de l’utilisation des tests. Pourtant, rares sont les situations réelles de testing qui produisent des données en accord avec ce présupposé. Relevons d’abord qu’il n’y a pas de

véritable définition opérationnelle et concrète du terme d’unidimensionnalité ni de consensus sur les méthodes pour évaluer sa présence ou son absence dans un ensemble d’items (Hambleton & Rovinelli, 1986; Hattie, 1985; McDonald, 1981). On définit un ensemble d’items comme étant unidimensionnel dès lors que ceux-ci contribuent à évaluer une seule et même dimension (propriété mentale, attribut psychologique) qui sous-tend la performance du sujet au test. Cette définition plutôt générale entretient une certaine confusion dans le choix de méthodes appropriées pour l’évaluation de l’unidimensionnalité. Par exemple, certains commettent l’erreur d’interpréter l’alpha de Cronbach comme un bon indice de l’unidimensionnalité d’un test. Or le calcul d’un alpha de Cronbach présuppose l’unidimensionnalité des items pour être pertinent. Il s’agit d’un coefficient qui évalue le degré de covariation entre les items d’un test. Des items unidimensionnels conduisent à une valeur élevée pour l’alpha de Cronbach, toutefois, une valeur élevée de ce coefficient ne garantit pas l’unidimensionnalité des items. Selon Hattie (1985) :

Alpha can be high even if there is no general factor since (1) it is influenced by the number of items and parallel repetitions of items, (2) it is increases as the number of factors pertaining to each item incrases, and (3) it decreass moderately as the item communalities increase. (p. 158)

Hattie dénombre plus d’une trentaine d’indices utiliser pour évaluer l’unidimensionnalité, qu’il regroupe sous cinq catégories de méthodes : (1) basées sur les patterns de réponse (p. ex., indice d’homogénéité de Loevinger), (2) sur la fidélité (p.

ex., alpha de Cronbach ou Kuder-Richardson 20), (3) sur l’analyse en composantes principales (p. ex., part de variance expliquée par la première composante, nombre de valeurs propres >1), (4) sur les analyses factorielles (p. ex., indice omega, analyse factorielle non linéaire) et (5) sur les modèles en traits latents (1985, pp. 141–142, Table 1). Les techniques des analyses factorielles non linéaires, sont parmi les plus recommandées comme le suggère McDonald :

It is reasonable to assert that a set of n tests or a set of n binary items is unidemensionnal if and only if it fits a non-linear factor model with one common factor. (1981, pp. 104–105)

Implicitement exigée pour l’utilisation des tests, l’unidimensionnalité est très importante dans la clinique. En effet, l’interprétation qui est réalisée sur un test repose sur la propriété mentale que le test est censé évaluer (c.-à-d. sur la variance pertinente).

Si les items du test évaluent plusieurs traits, plusieurs habiletés, l’interprétation d’un test et la mise en relation des résultats à différents tests deviennent très délicates, voire

divinatoires. En effet, comment déterminer à quelles propriétés mentales, le sujet a eu recours, et dans quelle mesure chacune a contribué au score ? Si le test n’est pas unidimensionnel, obtenir des scores identiques au test ne reflèterait pas nécessairement une même habileté pour deux individus.

Dans le sens strict, aucun test ne peut prétendre à la propriété d’unidimensionnalité. Nous l’avons mentionné, les parts de variance d’un score de test se répartissent en variance pertinente (ce qu’est censé évaluer le test), mais aussi en variance non pertinente (ce qui intervient dans la performance, mais qui n‘entre pas dans l’interprétation de base du test) et en variance d’erreur (ce qui affecte aléatoirement la mesure). Évidemment, on cherche à construire des tests qui maximalisent la part de variance pertinente, toutefois, il est impossible de réduire à zéro les parts de variance non pertinente et d’erreur. Jusqu’à un certain point, il y aura toujours plusieurs éléments en jeu qui contribuent à la performance sur un test.

Face à la complexité des situations réelles qui ne permettent pas d’éliminer la variance non pertinente et l’erreur de mesure, un assouplissement de l’hypothèse d’unidimensionnalité est accepté si on identifie une dimension dominante qui explique la performance et les réponses au test (Bertrand & Blais, 2004; Frenette et al., 2007). De plus, des auteurs préconisent, au lieu de se demander : « est-ce qu’un test est unidimensionnel ou non ? », de reformuler la question ainsi : « est-ce qu’il y a des critères de décision qui nous permet de déterminer à quel degré un ensemble d’items est proche de l’unidimensionnalité ? » (Hattie, 1985). Les analyses sur les données récoltées évaluent une unidimensionnalité sur un plan statistique ; le psychologue et les concepteurs des tests doivent réfléchir à leur position théorique pour évaluer l’unidimensionnalité aussi sur un plan conceptuel. Par exemple, un test de raisonnement arithmétique évalue-t-il une ou plusieurs dimensions ?

Les conditions d’application des MRI ne sont pas nombreuses ni plus exigeantes que la théorie classique. Toutefois, au vu d’une demande moins importante en taille d’échantillon et en longueur de test, les méthodes développées par la TCT sont les plus usuelles en comparaison des MRI. Dans le cadre du présent travail, les MRI sont utilisés pour l’étude du fonctionnement différentiel des items. Cette analyse est en lien avec les préoccupations autour de la validité de l’évaluation et, plus spécifiquement, de son équité pour tous les individus. Nous développerons sur l’équité de l’évaluation dans la dernière partie du présent chapitre. Avant cela, un rappel des qualités métrologiques recherchées pour un test permettra d’expliciter le sens de ces notions qui parsèment de façon récurrente le présent travail. La validité est un des concepts centraux en

psychométrie, néanmoins dans le présent travail, elle ne sera que brièvement abordée.

Quant à la fidélité, elle fera l’objet d’un chapitre à part étant notre sujet principal.