• Aucun résultat trouvé

3. Fidélité des scores d’un test

3.3. Interprétation de la fidélité des scores d’un test

3.3.2. Seuils pour les coefficients de fidélité

À la lecture des données psychométriques d’un manuel de test, le clinicien s’interroge forcément sur l’interprétation à donner à telle ou telle valeur d’un coefficient de fidélité. Certains seuils sont proposés dans la littérature pour guider l’interprétation, néanmoins, ils ne doivent pas être considérés comme des standards absolus. En effet, il s’agit davantage de repères, puisque ces valeurs seuils varient légèrement d’un auteur à l’autre. Les auteurs s’accordent sur une recommandation : la

Asymétrie négative Normale Asymétrie positive

détermination d’un seuil de fidélité dépend du contexte de l’évaluation et de l’utilisation qui est faite des résultats (Abell, Springer, & Kamata, 2009; Nunnally &

Bernstein, 2010; Salvia, Ysseldyke, & Bolt, 2012; Thorndike & Thorndike-Christ, 2010).

Des auteurs comme Cicchetti (1994) et, Murphy et Davidshofer (2001) donnent des lignes directrices, à prendre à titre indicatif. Pour eux, un coefficient de fidélité inférieur à .60 est à considérer comme insuffisant. Il est faible si avoisinant .70, modérément recommandées (Wasserman & Bracken, 2013). Nunnally et Bernstein suggèrent au moins des valeurs de .90, voire .95, lorsqu’il s’agit de décisions à fort enjeu pour l’individu (p. ex., diagnostic, placement spécialisé, sélection dans un programme personnalisé).

Comme le psychologue doit apprécier selon les situations le seuil acceptable, il est important de comprendre le sens d’une valeur de coefficient de fidélité. Pour aider à l’interprétation, on peut traduire la fidélité en proportion de variance vraie. Par exemple, un coefficient de fidélité de .80 indique que 80 % de la variabilité dans les scores observés au test est expliquée par de la variance vraie sur la propriété mentale évaluée par le test. Autrement dit, 80 % des différences interindividuelles mises en évidence par le test sont attribuables à de « vraies » différences entre les individus sur ce qu’évalue le test. En outre, on déduit que 20 % de la variabilité dans les scores observés au test est expliquée par de la variance d’erreur. Selon la situation en jeu, accepter un risque d’erreur de 20 % (soit 1 chance sur 5 de se tromper) peut être inacceptable. Même si de prime abord un coefficient de fidélité de .80 peut paraître élevé, il n’est parfois pas raisonnable de prendre une décision sur la base des uniques résultats d’un tel test.

Étant un coefficient de corrélation, le coefficient de fidélité peut aussi se traduire en terme de changement de rang des individus dans un groupe. Dans cette perspective, on peut se demander quelle est la probabilité d’un changement de position associée à un coefficient de fidélité. Reprenons la situation présentée par Thorndike et Hagen (1977) ; l’ensemble des résultats sont reportés dans le Tableau 3 (p. 143). Il s’agit d’une situation d’évaluation de deux sujets A et B à qui l'on administre un même test à deux reprises. Lors de la première passation de test, l’individu A obtient un score qui le situe

au rang percentile de 75 (soit parmi les 25 % des meilleures performances sur le test) et l’individu B, quant à lui, obtient un score qui le situe dans le percentile 50 (soit parmi les performances moyennes sur le test). Quelle est la probabilité que A et B interchangent leur position si l'on répète la mesure ?

Tableau 3

Pourcentage de fois où un renversement de position entre A et B se produit à la suite d'une mesure répétée pour des scores initialement au rang percentile 75 et 50 (R. M.

Thorndike & Hagen, 1977, p. 93)

Pourcentage de renversement de position suite à une mesure répétée du test

Coefficient de

fidélité Score d’un

individu Moyenne des scores

d’un groupe de 25 Moyenne des scores d’un groupe de 100 interchangent leur position lors de la seconde passation. Si le test a une fidélité de .70, la probabilité d’un changement de rang entre A et B serait de 27.1 %. Pour une fidélité de .80, la probabilité d’un renversement de position est de 19.7 % et finalement, la probabilité est de 2.2 % pour une valeur de fidélité de .95.

Thorndike et Hagen (1977) montrent également que les probabilités d’un renversement de position entre les rangs percentiles 50 et 75 sur un groupe de 25 individus et sur un groupe de 100 individus. Par exemple, A est une classe de 25 élèves qui présentent des performances se situant en moyenne au rang percentile de 75, tandis que B est une classe de 25 élèves qui présentent des performances se situant en moyenne au rang percentile de 50. Quelle est la probabilité que les performances moyennes de la classe A et de la classe B permutent leur position si l'on répète la mesure ? Pour un coefficient nul, la probabilité demeure de 50 % de chance d’un renversement de position. En revanche, avec un coefficient de .70, la probabilité devient

très faible à 0.1 % de chance. Plus les conclusions portent sur un groupe nombreux, plus la sécurité dans ces conclusions augmente rapidement avec le coefficient de fidélité. Cela souligne l’importance d’apporter des résultats non seulement sur la fidélité au niveau du groupe, mais également sur la fidélité au niveau de l’individu. Thorndike et Hagen concluent ainsi :

A test with relatively low reliability will permit us to make useful studies of and draw accurate conclusions about groups, especially groups of substantial size, but quite high reliability is required if we are to speak with confidence about individuals.

(1977, p. 94)

Dans une étude sur la relation entre la fidélité des scores d’un test et la prise de décision, Charter et Feldt (2001) examinent différents niveaux de fidélité et comparent les pourcentages d’individus ayant été correctement identifiés comme ayant besoin d’une prise en charge clinique (vrais positifs) ou n’ayant pas besoin d’une prise en charge (vrais négatifs) ainsi que les pourcentages des individus qui sont identifiés à tort comme ayant besoin d’un traitement (faux positifs) ou identifiés à tort comme n’ayant pas besoin d’un traitement (faux négatifs). Charter et Feldt (2001) présentent deux situations : un test A avec une fidélité de .90 et un test B avec une fidélité de .70. Les deux tests A et B ont une moyenne de 100 et un écart type de 20. Pour déterminer si l’individu a besoin d’un traitement, le critère est qu’il obtient des performances inférieures à 74. Ce cut-off à 74 correspond à -1.3 écart type de la distribution du test (c.-à-d. 100 - 74 = 26 => 26/20 = 1.3). Les scores au test inférieurs à 74 situe l’individu parmi les 10 % les plus faibles dans la population. Selon une distribution normale bivariée, Charter et Feldt (2001) montrent que si le score du test a une fidélité parfaite de 1, on trouverait 10 % de vrais positifs (ceux correctement identifiés comme ayant besoin d’une prise en charge clinique), 90 % de vrais négatifs (ceux correctement identifiés comme n’ayant pas besoin d’une prise en charge), 0 % de faux positifs (ceux identifiés à tort comme ayant besoin d’un traitement) et 0 % de faux négatifs (ceux identifiés à tort comme n’ayant pas besoin d’un traitement). Dans ce cas idéal de fidélité parfaite, le test permettrait de prendre 100 % de décisions correctes. Pour la situation du test A qui a une fidélité de .90, il y a 7.8 % de vrais positifs, 87.8 % de vrais négatifs, 2.2 % de faux positifs et 2.2 % de faux négatifs. Dans ce cas, 4.4 % des décisions sur la base de ce test sont incorrectes (soit 2.2 % de faux positifs + 2.2 % de faux négatifs). Pour des situations plus fréquentes comme celle du test B qui a une fidélité de .70, il y a 6 % de vrais positifs, 86 % de vrais négatifs, 4 % de faux positifs et 4 % de faux négatifs. Dans ce cas, 8 % des décisions sont incorrectes (soit 4 % de faux

positifs + 4 % de faux négatifs). Sans surprise, le risque d’erreur sur les décisions augmente avec la diminution de la fidélité du score du test.

Charter et Feldt (2001) montrent également une relation en lien avec le choix du cut-off. Dans le premier exemple, le cut-off pour décider de la nécessité d’une prise en charge est défini aux performances de 74 et inférieures, ce qui représentent les 10 % des performances les plus faibles pour des scores du test de moyenne 100 et d’écart type 20. Généralement, on définit les seuils des performances faibles à -1 écart type (ce qui en représente les 15.9 % des performances les plus faibles), -1.5 écart type (ce qui en représente les 6.7 % des performances les plus faibles) ou -2 écarts types en dessous de la moyenne (ce qui en représente les 2.3 % des performances les plus faibles). En nous référant aux propriétés de la distribution normale, si le test a une fidélité du score parfaite (r = 1), nous trouverions donc des pourcentages de vrais positifs de 15.9 % pour un cut-off à -1 écart type, de 6.7 % pour un cut-off à -1.5 écart type et de 2.3 % pour un cut-off à -2 écarts types, ce qui correspondraient à chaque fois à 100 % de prises décisions correctes pour le test. Nous avons vu précédemment que la diminution de la fidélité des scores du test augmente le risque de se tromper (faux positif et faux négatif). Charter et Feldt (2001) montrent que le choix du cut-off influence aussi la probabilité de se tromper. Si le cut-off est proche de la moyenne, le pourcentage de chance de prendre une décision correcte est plus élevé que pour un cut-off plus éloigné de la moyenne. Charter et Feldt (2001) donnent l’exemple d’un test qui a une fidélité de .80. Pour un cut-off à -1 écart type, il y a 72 % des 15.9 % qui ont besoin de traitement qui le recevront effectivement au lieu de 100 % des 15.9 % avec une fidélité parfaite (r = 1). Pour un cut-off à -1.5 écart type, il y a 65 % des 6.7 % qui ont besoin de traitement qui le recevront effectivement au lieu de 100 % des 6.7 % avec une fidélité parfaite. Enfin, si on choisit un cut-off à -2 écarts types, il y a 57 % des 2.3 % qui ont besoin de traitement qui le recevront effectivement au lieu de 100 % des 2.3 % avec une fidélité parfaite. Ainsi, « when the reliability is held constant a cut-off score close to the mean is more efficient (higher correct classifications) than a cut-off farther from the mean » (Charter & Feldt, 2001, p. 533). En conclusion, les résultats de Charter et Feldt (2001) conduisent à une valeur de fidélité de .98 ou plus si on souhaite s’assurer de 90 % de décisions correctes pour les individus en nécessité de traitement quel que soit le cut-off. Avec des fidélités inférieures à .98, il faut tenir compte à la fois de la fidélité et du cut-off choisi pour évaluer le risque d’erreur. La méthode proposée par Charter et Feldt (2001) illustre la difficulté de l’interprétation des données psychométriques,

lorsqu’on souhaite les utiliser pour des cas individuels. Bien conscients de la complexité, ils constatent :

If test score interpretation were a science we would not need highly trained experts for the job; a monkey with the ability to recognize numbers and enter them into a computer could do it. (Charter & Feldt, 2001, p. 536)

L’utilisation d’un coefficient de fidélité ne repose pas sur l’application de critère-seuil. Il y a toujours une réflexion sur la méthode qui a permis son estimation, sur l’échantillon étudié et sur les enjeux du contexte d’utilisation du test. Outre la difficulté à interpréter un coefficient de fidélité, il peut aussi être mal aisé de le mettre en relation avec le score au test d’un individu particulier. En effet, le coefficient de fidélité n’est pas immédiatement parlant pour le clinicien face au score observé d’un sujet à un test. Pour répondre aux besoins d’une interprétation des scores individuels, l’erreur type de mesure s’utilise pour construire un intervalle de confiance autour du score observé.

Nous allons expliciter ces deux concepts dans ce qui suit.