Méthodes d’estimation de la fidélité - Fidélité des scores d’un test

3. Fidélité des scores d’un test

3.2. Méthodes d’estimation de la fidélité

Dans le cadre de la théorie classique des tests, plusieurs procédures sont décrites pour l’estimation de la fidélité en fonction de la source d’erreur prise en compte. (a) Le même test est administré à deux reprises aux mêmes sujets dans un intervalle de temps court ou long (fidélité par la méthode test-retest). (b) On administre deux formes parallèles d’un test aux mêmes sujets dans un laps de temps plus ou moins court (fidélité par la méthode des formes parallèles avec/sans délai). (c) La cotation d’un test est effectuée par au moins deux évaluateurs (fidélité par la méthode interjuges). (d) On administre un test à des sujets, puis on partitionne l’ensemble des

13 Les scores vrais à chaque test parallèle sont égaux, puisque le score vrai d’un même sujet à deux tests parallèles est théoriquement identique.

items en deux parties (fidélité par la méthode bissection) ou (e) on partitionne le test en autant de parties qu’il y a d’items (fidélité par la méthode des covariances). Le Tableau 2 résume les différentes sources de variance d’erreur dont tient compte chaque méthode d’estimation.

Tableau 2

Sources de variance d’erreur selon la méthode d’estimation de la fidélité (selon Anastasi, 1994)

Variance d’erreur Méthode

d’estimation Type de coefficient Setting Échantillonnage

temporel Test-retest Stabilité 2 passations avec les

mêmes individus qui

Les méthodes d’estimation de la fidélité des scores apportent des informations différentes les unes des autres. En fonction des objectifs du test, certaines méthodes sont plus appropriées. Par exemple, s’agissant d’un test qui porte sur des traits ou des comportements stables, il est important d’évaluer la fidélité des scores dans le temps. À cause du coût, le choix des fidélités à estimer se limite souvent aux méthodes qui demandent un test et une passation. Nous verrons par la suite que ces méthodes ne permettent pas à proprement parlé l’estimation de la fidélité des scores. Dans une étude sur la fréquence d’utilisation de chaque méthode, Hogan, Benjamin et Brezinski (2000) consultent un registre qui recense des informations sur 2'078 tests apparus dans 37 revues scientifiques (en psychologie, science de l’éducation ou sociologie) entre 1991 et 1995. Le registre fournit des informations sur le nom du test, ce qu’il évalue, le

nombre et le format des items, le temps de passation et des données psychométriques.

Hogan, Benjamin et Brezinski constituent leur échantillon en intégrant de manière systématique tous les trois tests dans la liste, sélectionnant ainsi un total de 696 tests pour leur étude. Ils relèvent que, pour la majorité des 696 tests étudiés, un seul type de fidélité (75 %) est reporté. Moins fréquent est de reporter deux types d’estimation de la fidélité (17 %), trois et plus (2 %) ou aucun (6 %). En regardant en détail le type de méthode, l’alpha de Cronbach triomphe loin devant, étant reporté pour plus de 66 % des tests de l’étude, tandis que le coefficient test-retest n’est fourni que pour 19 % des tests et le coefficient split-half pour 4.1 % des tests. Plus généralement, les auteurs notent un certain manque de clarté dans les articles sur la méthode d’estimation utilisée. Les articles énoncent des termes génériques tels que « coefficient de fidélité » ou « coefficient de consistance interne » sans autre précision sur la méthode d’estimation. De plus, peu d’études renseignent de manière détaillée sur les caractéristiques de l’échantillon sur lequel l’estimation de la fidélité est réalisée. Nous l’avons déjà souligné, la fidélité des scores est relative à la composition de l’échantillon testé, il est donc important de le décrire.

3.2.1. M

ÉTHODE TEST

-

RETEST

La procédure test-retest consiste à administrer un même test à deux reprises aux mêmes sujets après un certain délai de temps. L’intervalle de temps entre les deux passations peut être court (quelques jours) ou long (plusieurs années). On calcule un coefficient de fidélité entre les scores obtenus au test (temps 1) et au retest (temps 2) par chaque sujet. Ce coefficient, appelé coefficient de stabilité¹⁴ ou coefficient test-retest, renseigne sur la stabilité des différences interindividuelles dans le temps. Parmi les variables qui peuvent fluctuer au cours du temps, il y a par exemple, l’état physique et mental du sujet, les conditions de passation ou l’influence imputable à l’examinateur.

Une faible corrélation entre le score au test et au retest signale que « l’effet du passage du temps s’ajoutera à l’erreur de mesure » (Laveault & Grégoire, 2014, p. 114). En outre, elle doit également questionner sur l’hypothèse de stabilité conférée à la propriété mentale évaluée par le test.

L’application de cette méthode rencontre des limites, puisqu’elle suppose l’absence d’effet d’apprentissage, de souvenirs liés à la première passation ou de

14 Pour des intervalles de moins de deux mois entre les deux passations, certains parlent d’un coefficient de confiance (Bernaud, 2014).

changement important dans la propriété mentale évaluée (p. ex., un apprentissage différentiel entre temps). D’après Duff et al. (2011), l’effet d’apprentissage se définit comme une amélioration des performances dans les tests cognitifs à la suite de l’exposition répétée d’un même matériel de test. Induit par la répétition du test, et non par une réelle augmentation du niveau d’habileté, l’effet d’apprentissage est considéré comme une source d’erreur, d’autant qu’il peut masquer ou minimiser un déclin cognitif. Il s’observe de façon marquée sur des intervalles test-retest courts (quelques jours à quelques mois). Dans des travaux qui comparent des groupes contrôle et clinique (Cooper, Lacritz, Weiner, Rosenberg, & Cullum, 2004; Duff et al., 2008; Duff, Westervelt, McCaffrey, & Haase, 2001), il est intéressant de relever la présence d’un effet d’apprentissage chez les sujets sains, tandis que chez les sujets patients, l’effet d’apprentissage est moins prononcé, voire absent. La présence d’un effet du retest peut conduire à la violation du postulat d’indépendance entre l’erreur et le score vrai¹⁵. Par exemple dans le cas où les sujets les plus forts à la première passation sont ceux qui, au moment de la seconde passation, se rappellent le mieux des questions posées ou de la stratégie opportune à appliquer.

Contrairement à l’effet d’apprentissage et autres fluctuations attribuables à un état temporaire du sujet ou au fruit du hasard, un changement réel dans la propriété mentale ne fait pas partie des sources d’erreur de la mesure. Il révèle chez l’individu une différence ancrée du niveau d’habileté (p. ex., un changement développemental, un apprentissage). Par exemple lors d’une remédiation mise en place, on s’attend à ce que l’intervention conduise à un changement entre le pré-test et le post-test. Lorsqu’un changement de performances s’observe entre deux passations d’un même test, il est important de discerner entre l’effet d’apprentissage et un changement réel, même si la distinction est peu aisée.

Avec la méthode test-retest se pose la question de la durée du délai. En général, elle est à déterminer en regard des tâches du test, des changements développementaux de la population étudiée et du temps estimé suffisant pour limiter les influences de l’expérience d’une première passation. En cas d’un intervalle trop

d’apprentissage. La durée de l’intervalle test-retest est déterminée pour être assez longue afin d’estomper l’effet d’apprentissage, mais pas trop pour ne pas risquer une sous-estimation de la fidélité à cause d’un réel changement.

Dans les tests cognitifs qui nous intéressent tout particulièrement, des études montrent que les tâches impliquant des habiletés de compréhension-connaissance présentent une meilleure stabilité des scores que les tâches impliquant du raisonnement fluide et de la résolution de problème (Calamia, Markon, & Tranel, 2012;

Dikmen, Heaton, Grant, & Temkin, 1999; Schwartzman, Gold, Andres, Arbuckle, &

Chaikelson, 1987). De même, pour des intervalles de 3 à 6 mois, les gains à la seconde passation tendent à être plus importants pour les épreuves simples de vitesse de traitement que pour les épreuves verbales de vocabulaire ou de culture générale (Calamia et al., 2012; Estevis, Basso, & Combs, 2012).

3.2.2. M

ÉTHODE DES FORMES PARALLÈLES IMMÉDIATES

/

DIFFÉRÉES

La méthode des formes parallèles (ou des formes équivalentes) consiste à administrer deux versions similaires d’un même test (forme A et forme B) aux mêmes individus. Lors de la première passation, une moitié de l’échantillon passe la forme A, tandis que l’autre moitié passe la forme B, et inversement lors de la seconde passation (principe de l’ordre contrebalancé). Bien que composées d’items différents, les deux formes du test doivent être équivalentes quant à leur nombre d’items, à leur consigne, à leur contenu, à l’étendue de leur niveau de difficulté, etc. L’intervalle entre les deux passations est très court – généralement à la suite – pour la procédure immédiate, et de quelques jours à plusieurs semaines pour la procédure avec délai.

La corrélation dans cette méthode examine la relation entre les scores obtenus par chaque sujet aux deux versions du test. Pour la méthode sans délai, on contrôle uniquement les fluctuations dues à l’échantillonnage des items, et le coefficient calculé est appelé coefficient d’équivalence. Une faible corrélation traduit un manque de parallélisme (ou un faible degré d’équivalence) entre les deux formes. Pour la méthode avec délai, le coefficient de fidélité s’appelle plus précisément coefficient d’équivalence et de stabilité. Les formes parallèles différées sont considérées comme la meilleure méthode d’estimation de la fidélité (Dickes et al., 1994). L’estimation de la fidélité au moyen de cette procédure produit des valeurs de coefficients plus faibles comparativement aux autres méthodes, puisqu’on « cumule les erreurs aléatoires de

mesure imputables aux différences d’échantillonnage des items entre les deux tests parallèles et les erreurs aléatoires de mesure imputables à l’effet du temps » (Laveault

& Grégoire, 2014, p. 117).

Lorsqu’on doit évaluer régulièrement un sujet avec un même instrument, l’utilisation de la forme parallèle du test atténue l’effet d’apprentissage (sans néanmoins l’éliminer). Cependant, très peu de tests disposent de formes parallèles. En soi, il est déjà difficile et couteux de concevoir un bon test, alors deux !

3.2.3. M

ÉTHODE DE BISSECTION

La méthode de bissection (ou appelée aussi méthode des moitiés, méthode du partage ou méthode du split-half) consiste à diviser les items d’un test en deux parties égales (p. ex., items pairs vs items impairs, la première moitié d’items vs la seconde moitié d’items). Les deux parties s’apparentent à deux formes équivalentes/parallèles d’un même test. À partir d’une seule passation d’un seul test, on peut alors calculer deux scores totaux ; un score total pour chacune des parties. La corrélation entre les scores totaux des deux parties renseigne sur la consistance interne (ou la cohérence interne) du test entier. Le coefficient calculé est appelé coefficient split-half (ou de consistance interne). Il est élevé si les deux parties du test sont consistantes, c’est-à-dire si les items des deux parties contribuent dans le même sens à l’évaluation de la propriété mentale.

La méthode de bissection est facile à mettre en œuvre, seulement elle ne permet pas d’estimer la fidélité dans le sens de la reproductibilité des scores. En effet, il n’y a pas de mesures répétées dans le temps ; il s’agit d’individus testés à un seul moment de temps. De plus, la méthode porte sur la fidélité des scores totaux de deux moitiés d’un test, et non sur celle du score total d’un test entier. C’est la fidélité au niveau du score total au test qui nous intéresse. Davantage qu’une estimation de la fidélité, cette méthode sert donc à se prononcer sur le degré d’uniformité et de cohérence des parties constituant le test. Il s’agit donc d’une méthode d’évaluation de la consistance interne des items du test, et non de la fidélité au sens de la répétabilité et de la stabilité des mesures comme nous l’avons définie. Toutefois, plus un test possède des items consistants, plus il tend à être fidèle.

Plus on recueille un large échantillon des comportements de l’individu, plus l’évaluation que nous en faisons est fidèle. On comprend alors que la réduction du

nombre d’items sous-estime la fidélité par rapport à la fidélité estimée sur davantage d’items. L’estimation de la consistance interne par deux moitiés de test sous-estime donc la fidélité du test entier. On doit corriger cette sous-estimation avec par exemple, la correction de Spearman-Brown (W. Brown, 1910; Spearman, 1910).

𝑟𝑥𝑥′= 2𝑟_𝐴𝐵

1 + 𝑟𝐴𝐵 (15)

Où rxx’ représente le coefficient de consistance interne attendu du test entier et rAB est le coefficient de corrélation entre les deux moitiés du test. Lorsque les deux moitiés du test ne forment pas des tests strictement parallèles et qu’elles présentent une forte différence de variances, la correction de Rulon (1939) est alors préférée.

3.2.4. M

ÉTHODE DES COVARIANCES

Une autre méthode d’estimation de la fidélité au moyen d’une seule passation et d’une seule version d’un test est réalisée avec la méthode des covariances. Il s’agit de partitionner le test en autant de parties que de nombre d’items qui le composent. Tous les items sont analysés deux à deux. En revanche, on tient compte de la performance du sujet sur chacun des items du test, et non sur deux moitiés séparées comme dans la méthode de bissection. Plus la covariation entre les pairs d’item est élevée, meilleure est la consistance de l’ensemble des items du test. Des items consistants sont des items qui contribuent d’une façon cohérente (ou dans le même sens) à l’évaluation de la propriété mentale. À nouveau, avec cette méthode, il s’agit de l’évaluation de la consistance interne des items d’un test davantage que de l’évaluation de la fidélité du score au test.

Pour cette méthode, on peut calculer un coefficient à partir des formules développées par Kuder et Richardson (1937), ou plus usuellement le coefficient alpha de Cronbach (Cronbach, 1951), qui notons-le, « repose sur un postulat fort que chaque item est parallèle aux autres (même degré de difficulté, même variance) » (Laveault &

Grégoire, 2014, p. 120). Ce qui est rarement évalué au préalable. Nous l’avons déjà mentionné, l’alpha de Cronbach est utilisé à tort comme un indicateur de l’unidimensionnalité des items, alors que l’application de l’alpha de Cronbach présuppose l’unidimensionnalité.

3.2.5. M

ÉTHODE INTERJUGES

La fidélité interjuges (ou intercorrecteurs) examine les variations aléatoires entre les évaluateurs/ cotateurs d’un test. On demande à des juges de coter de façon indépendante un même protocole et on regarde ensuite au moyen des corrélations quel(s) score(s) présente(nt) une concordance élevée. Si la corrélation entre les évaluateurs est bonne, cela signale une équivalence interjuges. On parle également de fidélité interobservateurs s’il s’agit d’observer un comportement à l’aide d’une grille par exemple. L’information donnée par cette évaluation permet, d’une part de savoir si les critères de cotation ont besoin d’être affinés et, d’autre part, de connaître le degré d’objectivité dans les scores calculés. Sans surprise, les épreuves impliquant de formuler une appréciation ou une inférence pour coter les réponses du sujet révèlent plus particulièrement de la variance interexaminateurs (p. ex., des tests de compréhension verbale, les tests projectifs, tests de créativité).

Notons que nous présentons la méthode interjuges, car les ouvrages de psychométrie l’intègrent dans les méthodes d’estimation de la fidélité. Néanmoins, cette méthode n’estime pas la fidélité telle que nous l’avons définie au début du présent chapitre. Cette méthode évalue un degré de consensus entre les cotateurs et ne porte aucunement sur les différences interindividuelles sur ce qu’évalue le test. Le coefficient d’équivalence interjuges ne rend donc pas compte de la part de variance des scores vrais dans la variance totale des scores observés.

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 134-141)