Stabilité à long terme du WISC-IV - Fidélité

3. Fidélité des scores d’un test

3.4. Fidélité – stabilité des scores

3.4.4. Stabilité à long terme du WISC-IV

Étant donné les décisions qui peuvent découler des résultats des tests d’intelligence, la nécessité d’explorer la stabilité à long terme de leurs scores est admise, cependant, le risque de mortalité expérimentale et le coût élevé n’encouragent pas à entamer une étude longitudinale. À notre connaissance, peu d’études ont estimé la stabilité à long terme des scores du WISC-IV, voire aucune pour l’adaptation française. Dans la littérature, on peut s’appuyer sur trois études : Lander (2010), Watkins

& Smith (2013) et Bartoi et al. (Bartoi et al., 2015).

Les travaux de Lander (2010) sont menés sur un échantillon de 131 enfants américains (75 garçons et 56 filles) présentant des troubles des apprentissages. À la première passation, l’âge des enfants varie de 6 à 13 ans, avec un âge moyen de 8.28 ans (écart type non renseigné). À la seconde passation, l’âge des enfants varie de 8 à 16 ans, avec un âge moyen de 11.17 ans (écart type non renseigné). L’intervalle test-retest moyen est de 2.89 ans (écart type non renseigné). Les performances moyennes des indices varient de 84.94 (QIT) à 90.4 (IVT) lors de la première passation, et de 84.39 (QIT) à 88.83 (IRP) lors de la seconde passation. Étant donné leurs difficultés d’apprentissage, leurs performances sont en moyennes plus faibles que celles des enfants tout-venant de l’échantillon de standardisation. La comparaison de moyennes entre les deux passations ne montre aucune différence statistiquement significative pour les indices, sauf pour l’Indice de Vitesse de Traitement. La moyenne de l’IVT l’échantillon de standardisation. La réduction de l’étendue des scores possibles dans cet échantillon peut conduire à une sous-estimation des coefficients de fidélité. Pour l’analyse des performances au niveau individuel, Lander examine le pourcentage d’enfants présentant des performances comprises dans un intervalle construit au moyen de l’erreur type de mesure (ETM). En vertu des propriétés de la distribution normale, 68 % des performances sont théoriquement incluses dans un intervalle de ±1

ETM, 95 % des performances sont théoriquement incluses dans un intervalle de ±2 ETM, et 99 % des performances sont théoriquement incluses dans un intervalle de ±3 ETM.

Communément, on utilise dans la littérature l’intervalle de ±2 ETM. Pour l’adaptation américaine, le Tableau 4.3 dans le WISC-IV Technical and Interpretive Manual renseigne sur les valeurs des ETM de chaque subtest et indice (Wechsler, 2003, p. 38). Connaissant la valeur de l’ETM de l’indice, on peut définir les bornes d’un intervalle. Par exemple, prenons un enfant qui a la première passation obtient un QIT de 100. Sachant que l’ETM du QIT est de 2.68 points pour l’adaptation américaine, l’intervalle à ±2 ETM donne ±5.36 points. Si à la seconde passation, l’enfant obtient un QIT compris dans l’intervalle [94.64 ; 105.36], alors ses performances sont considérées comme stables.

Lander présente les résultats du pourcentage d’enfants dont les performances sont comprises dans les intervalles de ±1 ETM, ±2 ETM et ±3 ETM entre les deux passations (voir Tableau 6, p. 164). Nous pouvons voir que le pourcentage d’enfants présentant des performances incluses dans l’intervalle de ±1 ETM entre les deux passations varie de 52 % (IMT) à 60 % (QIT et ICV). Pour l’intervalle de ±2 ETM, 70 % (IMT), 73 % (IRP et IVT) et 78 % (QIT et ICV) d’enfants présentent des performances variant à l’intérieur de cet intervalle entre le test et le retest. Enfin, le pourcentage d’enfants présentant des performances comprises dans l’intervalle le plus large de ±3 ETM entre les deux passations varie de 85 % (QIT) à 91 % (ICV). Aucun indice n’approche les proportions théoriquement attendues de 68 %, 95 % et 99 % pour les intervalles de ±1 ETM, ±2 ETM et ±3 ETM respectivement. Ces résultats montrent qu’il y a un pourcentage plus important d’individus qui voient leur performance varier au-delà de ce qui est théoriquement attendu à cause de l’erreur de mesure. Lander présente également les résultats d’une évaluation de la stabilité catégorielle pour le QIT. En fonction de l’étendue des QI Totaux dans l’échantillon, cinq catégories sont définies : extrêmement faible (≤ 69), limite (70-79), moyen faible (80-89), dans la moyenne (90-109) et moyen fort (110-119). Dans les 131 enfants de l’échantillon, les résultats montrent que 57 % (soit 75 enfants) sont restés dans la même catégorie descriptive à la première et à la seconde passation. Parmi les 43 % qui changent de catégorie (soit 56 enfants), l’écrasante majorité a soit descendu soit monté d’une catégorie. Moins de 1 % des enfants changent de deux catégories. Pour la catégorie dans la moyenne (QIT entre 90-109), il y a 41 enfants à la première passation. À la seconde passation, 25 enfants (soit 61 %) sont restés dans cette catégorie, 15 enfants (soit 36.6 %) sont descendus dans la catégorie des performances moyennes faibles (80-89), et 1 enfant (soit 2.4 %) est descendu de deux catégories dans les performances limites (70-79). Pour la catégorie moyen faible (QIT entre 80-89), il y a 45 enfants à la première passation. À la seconde

passation, 30 enfants (soit 66.7 %) sont restés dans cette catégorie, 6 enfants (soit 13.3 %) ont monté dans la catégorie dans la moyenne, 8 enfants (soit 17.8 %) sont descendus dans la catégorie des performances limites, et 1 enfant (soit 2.2 %) est descendu de deux catégories dans les performances extrêmement faibles. Pour la catégorie limite (QIT entre 70-79), il y a 39 enfants à la première passation. À la seconde passation, 19 enfants (soit 48.7 %) sont restés dans cette catégorie, 14 enfants (soit 35.9 %) sont montés dans la catégorie moyen faible, 5 enfants (soit 12.8 %) sont descendus dans la catégorie des performances extrêmement faibles, et 1 enfant (soit 2.6 %) est monté de deux catégories dans les performances dans la moyenne. Pour la catégorie extrêmement faible (QIT <69), il y a 5 enfants à la première passation. À la seconde passation, 1 enfant (soit 20 %) est resté dans cette catégorie, 4 enfants (soit 80 %) sont montés dans la catégorie limite.

Dans les travaux de Watkins et Smith (2013), l’échantillon comprend 344 enfants (66 % de garçons) présentant des troubles des apprentissages, des retards mentaux ou des troubles émotionnels. L’âge moyen est de 8.74 ans (écart type = 1.57 an) à la première passation, et de 11.6 ans (écart type = 1.69 an) à la seconde passation.

L’intervalle test-retest moyen est de 2.84 ans (écart type = 0.75 an). Les performances moyennes des indices varient de 84.27 (IMT) à 95.55 (IRP) lors de la première passation, et de 88.10 (IMT) à 95.92 (IRP) lors de la seconde passation. Pour comparer les moyennes entre les deux passations, des t-tests pour échantillons appariés sont réalisés.

La comparaison de moyennes entre les deux passations ne montre aucune différence statistiquement significative pour les indices. Seuls les subtests Cubes, Similitudes et Code diffèrent de manière statistiquement significative entre la première et la seconde passation. Cependant, la taille d’effet associée aux différences de moyenne est négligeable à petite. Ces résultats rejoignent ceux de Lander (2010). Si nous regardons les coefficients de stabilité, des différences sont à relever par rapport à l’étude de Lander (2010). En effet, Watkins et Smith trouvent des coefficients de stabilité corrigés supérieurs à .70 pour tous les indices, sauf l’IVT (voir Tableau 5, p. 162). Le QI Total présente le coefficient de stabilité le plus élevé (r = .84). À l’instar des autres recherches, les coefficients de stabilité des subtests se révèlent moins élevés que ceux des indices auxquels ils contribuent (voir Tableau 5, p. 162). Au niveau individuel, Watkins et Smith observent qu’entre les deux passations, plus de 70 % des enfants présentent des performances comprises entre ±9 points pour le QIT et l’ICV ; et respectivement 61 %, 63 % et 56 % pour l’IRP, l’IMT et l’IVT (voir Tableau 6, p. 164).

La troisième étude est conduite par Bartoi et al. (2015). L'échantillon est constitué de 51 enfants âgés de 8 à 16 ans (69 % de garçons) qui sont référés pour une évaluation psychoéducationnelle. Au terme de la passation initiale, plusieurs diagnostics sont posés (TDA/H, trouble des apprentissages, retard mental, trouble anxieux, etc.). Il est à noter qu’à plus ou moins fort degré, tous les enfants de cette étude présentent des problèmes d’attention. L'intervalle test-retest moyen est de 1.84 an (écart type = 0.50 an). Les performances moyennes des indices varient de 90.10 (IVT) à 98.08 (ICV) lors de la première passation, et de 89.31 (IVT) à 98.10 (ICV) lors de la seconde passation. Aucun t-tests n’est rapporté, néanmoins les auteurs déclarent qu’il n’y a pas de changement significatif dans les scores au cours du temps. Les coefficients de stabilité non corrigés sont autour de .80 pour tous les indices, excepté pour l’IMT et l’IVT (voir Tableau 5, p. 162). L’analyse des variations individuelles montre qu’entre les deux passations, 78.4 % des enfants ont des performances comprises dans un intervalle de ±9 points pour le QIT (voir Tableau 6, p. 164). De même 68.6 %, 56.9 %, 54.9 et 54.9 % des enfants ont des différences de performances entre les deux passations inférieures ou égales à 9 points pour l’ICV, l’IRP, l’IMT et l’IVT (voir Tableau 6, p. 164).

Ces résultats au niveau intra-individuel sont proches de ceux de Watkins et Smith (2013) et indiquent des variations importantes dans les performances d’un individu d’une passation à l’autre. Pour le QIT, quatre enfants sur cinq voient leurs performances augmenter ou diminuer de plus de 9 points entre deux passations.

Tableau 5

Coefficients test-retest, différences de moyennes et d de Cohen pour trois études sur la stabilité à long terme du WISC-IV

Lander (2010) IRP = Indice de Raisonnement Perceptif ; IMT = Indice de Mémoire de Travail ; IVT = Indice de Vitesse de Traitement ; QIT= QI Total.

* p < .05 .

Dans l’ensemble des études à court et à long terme que nous venons de présenter, nous pouvons relever que le coefficient de corrélation du QI Total est le plus élevé et qu’il exprime généralement une stabilité différentielle suffisante pour des décisions au niveau du groupe (c.-à-d. ≥ .70). Toutefois, si on se tient au critère de .90 pour les décisions au niveau de l’individu, il n’est atteint dans aucune des recherches.

En outre, on peut relever le focus sur les coefficients de stabilité (stabilité différentielle) comme indicateur privilégié de la stabilité des scores. En effet, les résultats au niveau intra-individuel sont moins fréquemment rapportés. Pour notre part, il s’agit pourtant du niveau le plus important dans une utilisation clinique d’un test d’intelligence tel que le WISC-IV. Les décisions à l’aide du WISC-IV sont sur des cas individuels, il est nécessaire de mieux documenter sur différents groupes d’individus (cliniques et non cliniques) afin que le clinicien puisse évaluer les limites des résultats pour tel individu.

Les résultats des recherches présentées soulignent bien le fait que les informations sur la stabilité absolue ou différentielle ne renseignent pas sur la stabilité au niveau intra-individuel, et inversement. Ces trois types d’évaluation de la stabilité devraient toujours être évalués de concert afin d’éclairer au mieux sur l’utilisation et l’interprétation des scores d’un test.

Tableau 6

Pourcentage de différences individuelles sur les indices du WISC-IV incluses dans un intervalle de points entre les deux passations

Ryan et al.

(2010)

±5 points

Lander (2010) Watkins &

Smith (2013)

±9 points

Bartoi et al.

(2015)

±1 ETM ±2 ETM ±3 ETM ±5 points ±9 points

ICV - 61.0 78.0 91.0 71.0 41.2 68.6

IRP - 57.0 73.0 88.0 61.0 27.2 56.9

IMT - 52.0 70.0 86.0 63.0 25.5 54.9

IVT - 57.0 73.0 88.0 56.0 29.4 54.9

QIT 58.1 61.0 78.0 85.0 75.0 51.0 78.4

Note. ETM = erreur type de mesure ; ICV = Indice de Compréhension Verbale ; IRP = Indice de Raisonnement Perceptif ; IMT = Indice de Mémoire de Travail ; IVT = Indice de Vitesse de Traitement ; QIT= QI Total.

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 163-169)