Facteurs influençant sur l’estimation de la fidélité

3. Fidélité des scores d’un test

3.3. Interprétation de la fidélité des scores d’un test

3.3.1. Facteurs influençant sur l’estimation de la fidélité

méthode des corrélations. En tant que coefficient de corrélation, le coefficient de fidélité est influencé par les facteurs qui agissent sur la corrélation (p. ex., l’étendue des scores dans l’échantillon). À ces facteurs s’ajoutent d’autres en lien avec l’instrument de mesure (p. ex., longueur du test, difficulté des items). Nous allons développer ces facteurs afin de souligner à nouveau que l’interprétation de la fidélité ne porte pas uniquement sur la valeur d’un coefficient, mais qu’elle demande une réflexion plus large autour de la méthode d’estimation.

3.3.1.1. Étendue des différences interindividuelle

Comme on le sait, la corrélation est affectée par la variabilité au sein de l’échantillon. En effet, elle rend compte de la relation linéaire entre la variation réciproque (c.-à-d. covariation) de deux variables manifestes. Pour cela, elle nécessite un certain degré de dispersion sur chacune des variables. Dans la population générale, l’étendue des scores observés est relativement large. En revanche, dans un échantillon, il peut arriver que les individus sélectionnés forment un groupe plus homogène (en âge, en niveau de g, etc.) que la population générale dont ils sont issus. Il s’agit d’une situation de restriction des scores, et donc de réduction des différences interindividuelles sur le test. Dans ce cas, les scores des individus de l’échantillon se concentrent sur une zone plus restreinte que l’étendue possible qu’on aurait observé sur la population générale. L’homogénéité au sein des scores observés gomme les différences d’habileté entre les individus, affaiblissant la fidélité qui est alors sous-estimée. Il peut également arriver le cas inverse : l’échantillon est plus hétérogène que la population générale. Dans ce cas-là, la fidélité est surestimée. Pour expliciter les effets de l’homogénéité ou de l’hétérogénéité d’un échantillon sur le coefficient de fidélité, nous allons détailler chacun des deux cas de figure avec la situation de l’évaluation de la fidélité par une procédure test-retest.

Dans la procédure test-retest, la corrélation entre les performances à la première passation et à la seconde passation renseigne sur la stabilité du classement des individus aux deux passations. En effet, plus les individus occupent un rang similaire aux deux passations, plus la corrélation est élevée. À cause des erreurs de mesures qui entachent forcément le score observé au test, les individus n’obtiennent pas

exactement les mêmes scores aux deux passations, mais cela ne conduit pas forcément à un changement de position dans leur groupe. Prenons d’abord le cas le plus fréquent : un échantillon trop homogène (p. ex., composé des meilleurs élèves d’une classe). Dans cette situation, une petite variation dans les performances des individus peut les faire bouger dans le classement et complètement changer l’ordre des individus d’une passation à l’autre. Le coefficient test-retest calculé est alors plus faible que si les individus montraient une plus grande différenciation. Si notre échantillon est trop hétérogène, la distance entre les niveaux de performances des individus est très éloignée. Une variation – même importante – des performances d’une passation à l’autre ne conduit pas à un changement de place dans le classement ; la corrélation entre les deux mesures apparaît alors très élevée. Dans un échantillon trop hétérogène, le coefficient de fidélité est donc surestimé. On tend à conclure que le test est fidèle, alors que, d’une passation à l’autre, un même individu peut avoir des performances très éloignées. Sauf que comme les individus sont trop différents les uns des autres, les importantes variations de performances n’amènent pas forcément à un changement de rangs. La plupart des individus gardent leur place dans le classement ; la corrélation apparaît alors plus élevée que si les individus montraient une différenciation moins importante.

L’échantillon d’étalonnage/de standardisation d’un test est constitué pour être représentatif de la population à qui s’adresse le test. Il est généralement d’une taille importante et présente une étendue des scores observés la plus large possible. C’est à partir de cet échantillon que les normes du test sont établies. Pour les études de fidélité, l’échantillon est souvent constitué d’un nombre moindre d’individus ou d’individus relativement homogènes (p. ex., les étudiants de psychologie). Pour corriger la variabilité dans l’échantillon d’étude par rapport à la variabilité dans l’échantillon de standardisation, une formule est proposée par Magnusson (1967), appelée la correction de Magnusson qui s’énonce comme suit :

𝑟_𝑈𝑈′= 1 −𝑠𝑋2(1 − 𝑟𝑋𝑋′)

𝑠_𝑈² (16)

Où le coefficient corrigépour l’échantillon d’étude (𝑟_𝑈𝑈′)tient ainsi compte de la variance de l’échantillon de standardisation (𝑠_𝑋²), du coefficient de fidélité de l’échantillon de standardisation(𝑟_𝑋𝑋′) et de la variance de l’échantillon d’étude (𝑠_𝑈²).

Nous appliquerons la correction de Magnusson sur les coefficients test-retest de notre étude afin de corriger toute éventuelle restriction des différences interindividuelles par rapport à l’échantillon de standardisation de l’adaptation en français du WISC-IV.

3.3.1.2. Longueur du test

Le nombre d’items influe directement sur la précision de la mesure. De même que, pour un coefficient de corrélation, l’estimation des caractéristiques de la population générale est d’autant plus précise que le sous-échantillon tiré est grand, le coefficient de fidélité des scores d’un test augmente à mesure que le test comporte d’items évaluant le même attribut. En effet, « la somme des erreurs aléatoires de mesure devrait tendre vers zéro lorsqu’un grand nombre d’items est utilisé » (Laveault

& Grégoire, 2014, p. 126).

Afin de calculer l’influence du nombre d’items sur le coefficient de fidélité, la formule de Spearman-Brown¹⁶ qu’on applique pour corriger la sous-estimation du coefficient split half peut être généraliser de la manière suivante :

𝑟_𝑥𝑥′ = 𝑘𝑟𝑗𝑗′

1 + (𝑘 − 1)𝑟_𝑗𝑗′ (17)

Où rxx’ représente le coefficient de fidélité attendu du test modifié, k est le facteur d’allongement du test (p. ex., k = 2 dans le cas de la méthode de bissection) et rjj’ est le coefficient de fidélité initial du test. Ainsi, on peut calculer le coefficient de fidélité attendu d’un test sur lequel on aurait ajouté ou supprimé une proportion k d’items parallèles aux autres items du test. Si nous voulions savoir la proportion d’items (de même difficulté et de même contenu) à rajouter pour augmenter jusqu’au degré de fidélité visé, on peut également isoler k dans la formule (17) et obtenir l’équation suivante :

𝑘 =𝑟_𝑥𝑥′(1 − 𝑟_𝑗𝑗′)

𝑟𝑗𝑗′(1 − 𝑟𝑥𝑥′) (18)

3.3.1.3. Difficulté d’un test

Lorsqu’un test est trop facile ou trop difficile, la distribution des scores sur le test ne suit plus une distribution normale (c.-à-d. symétrique de part et d’autre de la moyenne, voir Figure 32, p. 141). Les résultats sur le test vont se décaler vers les scores maximaux du test et entraîner une distribution asymétrique négative dans la situation d’un test trop facile (voir Figure 32a). À l’inverse, les résultats sur le test vont se décaler vers les scores minimaux du test et entraîner une distribution asymétrique positive dans

16 Voir Équation (15), p. 132.

la situation d’un test trop difficile (voir Figure 32c). Dans les cas de distributions asymétriques, la corrélation de Bravais-Pearson ne peut plus atteindre sa valeur maximale de 1, même théoriquement. Le coefficient de fidélité se voit donc affaibli si la difficulté du test est trop basse ou trop élevée pour l’échantillon qui sert à son estimation.

Figure 32. Distributions asymétrique négative (32a), normale (32b) et asymétrique positive (32c).

Source : WikiStat (https://www.tns-ilres.com/cms/Home/WikiStat/Asymetrie-et-aplatissement).

Nous venons de voir les facteurs qui influencent la valeur du coefficient de fidélité, soit en la surestimant soit en la sous-estimant. Avant même de s’intéresser à la valeur du coefficient, le travail d’interprétation débute en appréciant les possibles influences desdits facteurs ainsi que de la méthode d’estimation utilisée. De plus, nous rappelons que la fidélité est établie à la fois pour les scores d’un test et pour l’échantillon sur lequel elle a été estimée. Sans étude, on ne peut pas généraliser une donnée de fidélité à d’autres échantillons et d’autres contextes d’évaluation. Dans la suite, nous allons nous pencher sur l’interprétation à donner aux valeurs des coefficients de fidélité.

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 142-145)