Fonctionnement différentiel des items du WISC-IV

4. Problématique

4.1. Fonctionnement différentiel des items du WISC-IV

Selon la demande d’un bilan psychologique, le psychologue peut recourir à des tests cognitifs – tels que les populaires Échelles de Wechsler – pour aider aux diagnostics et orienter les interventions. Étant donné les enjeux inhérents à de telles décisions, il est important de s’assurer que les différences observées sur les scores d’un test cognitif traduisent bel et bien des différences interindividuelles dans le fonctionnement intellectuel des individus, et non des différences liées à d’autres caractéristiques (p. ex., ethnie, âge, sexe, milieu socio-économique). Dans l’évaluation de la validité de l’interprétation des scores, la détection des biais répond à la préoccupation d’équité dans l’évaluation psychologique. Pour l’adaptation française du WISC-IV (Wechsler, 2005b), les enfants français et belges sont le public visé. Le repérage d’éventuels items biaisés est réalisé avec une version préexpérimentation du WISC-IV sur un échantillon de 220 enfants issus de régions françaises et un échantillon de 125 enfants belges. À l’issue de la comparaison entre ces deux échantillons, seuls les items possédant les qualités métriques requises sont sélectionnés pour la version définitive. À noter qu’aucune analyse n’a donc été réalisée pour vérifier l’équité pour une population suisse francophone. Il s’agit d’un manquement que nous ne pouvons

hélas pas remédier. N’ayant pas accès aux données de l’échantillon de standardisation du WISC-IV, nous ne pouvons pas réaliser des analyses de comparaisons entre notre échantillon d’enfants suisses francophones et les enfants français de l’échantillon de standardisation.

L’objectif de notre première étude est d’évaluer si les items des subtests du WISC-IV se comportent de la même manière pour tous les individus qui ont la même habileté sur le trait latent évalué. L’échantillon étant constitué d’enfants suisses francophones, la détection d’un fonctionnement différentiel des items s’est portée sur les variables âge, sexe et statut économique. L’impact du statut socio-économique combiné des deux parents sur les performances intellectuelles de l’enfant est bien connu, en revanche, l’influence de chaque parent est rarement examinée de manière distincte. Nos analyses examineront la part de variance expliquée par la profession de chaque parent. Par ailleurs, des recherches montrent que différents niveaux d’habileté s’observent selon le sexe, notamment dans les tâches visuospatiales et verbales. Généralement, les garçons obtiennent des scores plus élevés en rotations mentales (Voyer, Voyer, & Bryden, 1995), tandis que les filles montrent de meilleures performances sur les tâches verbales (Hyde & Linn, 1988). Dans la première étude sur le fonctionnement différentiel des items du WISC-IV, nous examinerons ce qu’il en est des items biaisés pour un échantillon d’enfants suisses francophones. Plus précisément, nous déterminerons les proportions de variances expliquées par l’âge, le sexe et le statut socio-économique des parents, ainsi que le fonctionnement différentiel des items.

Compte tenu des analyses menées par les concepteurs du WISC-IV, nous posons comme hypothèse sur le fonctionnement différentiel du WISC-IV qu’il n’y a pas d’items biaisés pour l’âge, le sexe ou le statut socio-économique.

4.2. S TABILITÉ À LONG TERME DU WISC-IV

L’utilité d’un test réside dans sa propension à mettre en lumière des différences interindividuelles sur la propriété mentale évaluée. Les différences entre les individus ne peuvent être interprétées comme des différences sur la propriété mentale que si le test présent des qualités psychométriques (homogénéité, sensibilité, fidélité, validité). En tant que reflet de la précision, de la consistance et de la stabilité des scores, la fidélité est l’une des propriétés importantes à évaluer dans un test. En effet, si les résultats d’un

test traduisent le fonctionnement psychologique de l’individu, ceux-ci doivent être suffisamment fidèles et reproductibles dans le temps afin d’arriver à des interprétations comparables d’une passation à l’autre. La stabilité des scores sera évaluée aussi bien au niveau interindividuel qu’intra-individuelle. Le niveau intra-individuel est souvent moins présenté dans les études longitudinales sur la stabilité des scores d’un test. Pourtant, il est particulièrement pertinent avec la pratique clinique des tests dans une évaluation psychologique. Notre seconde étude explore donc la question de la stabilité des scores du WISC-IV sous plusieurs angles : (1) la stabilité absolue, (2) la stabilité différentielle, (3) la stabilité intra-individuelle absolue, (4) la stabilité catégorielle et (5) la stabilité des forces et faiblesses.

Pour la stabilité absolue, il s’agit de tester la différence de moyennes entre la première et la seconde passation pour l’échantillon total. Nous déterminons ainsi, au niveau du groupe et par comparaisons de moyennes (t-tests pour échantillons appariés), si les moyennes de la première et la seconde passation sont équivalentes. Les études longitudinales sur les tests cognitifs montrent que les tâches impliquant des habiletés de compréhension-connaissance présentent une meilleure stabilité des scores que les tâches impliquant du raisonnement fluide et de la résolution de problème (Calamia et al., 2012; Dikmen et al., 1999; Schwartzman et al., 1987). Sur des intervalles à court terme (3 à 6 mois), les gains à la seconde passation tendent à être plus importants pour les épreuves simples de vitesse de traitement que pour les épreuves verbales de vocabulaire ou de culture générale (Calamia et al., 2012; Estevis et al., 2012).

Dans les études sur le WISC-IV avec un intervalle inférieur à une année (court terme), des effets d’apprentissage s’observent pour les échantillons d’enfants tout-venant. Les effets d’apprentissage sont plus prononcés pour l’IRP et l’IVT que pour l’IMT et l’ICV (Ryan et al., 2010; Wechsler, 2005b). En outre, les gains dus à l’effet d’apprentissage sont plus importants pour les enfants âgés de 6-7 ans à la passation initiale et ensuite les gains diminuent avec l’âge à la première passation (Flanagan & Kaufman, 2009).

Avec des délais test-retest courts, les enfants tout-venant avec les meilleures performances bénéficient davantage d’une seconde passation du WISC-IV que les enfants les moins performants (Ryan et al., 2010). Dans leurs travaux sur le WISC-III administré à deux reprises à un échantillon clinique, Canivez et Watkins (1999, 2001) constatent qu’on n’observe plus, ou de très faible effet d’apprentissage lorsque les deux passations sont séparées par un intervalle supérieur à une année. Avec le WISC-IV et des intervalles supérieurs à 1 an (long terme), les études sur des échantillons cliniques ne montrent pas de différences de moyennes significatives dues à un effet

d’apprentissage pour les indices entre les deux passations (Lander, 2010; Watkins &

Smith, 2013). Lander (2010) relève une différence de moyennes pour l’IVT, qui diminue significativement à la seconde passation. Cependant, la taille d’effet est négligeable. À notre connaissance, il n’y aucune étude sur la stabilité absolue à long terme d’un groupe d’enfants tout-venant pour l’adaptation en français du WISC-IV.

Compte tenu des résultats des différentes études, nous posons comme hypothèses sur la stabilité absolue à long terme des scores du WISC-IV qu’on peut relever des effets d’apprentissage au-delà d’un an, mais que ceux-ci sont négligeables à petits. Les effets d’apprentissage s’observent de façon plus prononcée sur les scores des indices IRP et IVT que sur ceux de l’ICV et de l’IMT. Sur la lecture CHC, Gf, Gv et Gs présentent plus d’effets d’apprentissage que Gc et Gwm.

Pour la stabilité différentielle, il s’agit de calculer le coefficient de corrélation test-retest. Nous déterminons ainsi si l’ordre des individus est similaire entre les deux passations. La stabilité différentielle est souvent référée pour l’évaluation de la stabilité des scores d’un test. Sur les études de stabilité à court terme des scores du WISC-IV dans un échantillon non clinique, les coefficients test-retest varient autour de .80 pour les indices, voire .90 pour le QI Total (Ryan et al., 2010; Wechsler, 2003, 2005b). Sur des études de stabilité à long terme du WISC-IV, les échantillons sont cliniques et américains. Les coefficients de stabilité varient autour de .60 - .70. L’IVT et l’IMT présentent des coefficients non seulement moins élevés que l’ICV et l’IRP, mais également inférieurs à .70 (Bartoi et al., 2015; Lander, 2010; Watkins & Smith, 2013).

Quant au QI Total, il présente le coefficient de stabilité le plus élevé de tous les indices (Bartoi et al., 2015; Lander, 2010; Watkins & Smith, 2013). Les études montrent que les coefficients de stabilité des subtests sont moins élevés que ceux des notes composites auxquelles ils contribuent (Bartoi et al., 2015; Lander, 2010; Ryan et al., 2010; Watkins &

Smith, 2013; Wechsler, 2003, 2005b).

Compte tenu des résultats des différentes études, nous posons comme hypothèses sur la stabilité différentielle à long terme des scores du WISC-IV que les coefficients de stabilités des indices IMT, IVT et ICC sont plus faibles que ceux de l’ICV, l’IRP et l’IAG. Le coefficient de stabilité du QIT est plus élevé que ceux des quatre indices qui le composent et doit s’élever autour de .80. Sur la lecture CHC, Gc, Gf, Gv présentent un coefficient de fidélité plus élevé que Gwm et Gs.

Pour la stabilité intra-individuelle absolue, il s’agit d’évaluer les différences des performances individuelles entre la première et la seconde passation. Nous déterminons ainsi le pourcentage d’enfants qui présentent des performances stables

entre les deux passations. Nous entendons par stables des performances pour les deux passations comprises dans un intervalle défini. Nous utilisons l’intervalle de deux erreurs types de mesure (±2 ETM), souvent choisi dans la littérature. Pour les scores WISC-IV, l’évaluation de la stabilité intra-individuelle à long terme n’est réalisée que sur des échantillons cliniques d’enfants américains. Le QIT présente le pourcentage le plus élevé (autour de 75 %) d’enfants qui gardent des performances stables (soit à ±2 ETM soit à ± 9 points) entre les deux passations (Bartoi et al., 2015; Lander, 2010; Watkins &

Smith, 2013).

Compte tenu des résultats des différentes études, nous posons comme hypothèses sur la stabilité intra-individuelle absolue à long terme des scores du WISC-IV que le QIT doit présenter des performances stables (à ±2 ETM) pour plus de 70 % des enfants. Plus sensibles à un effet d’apprentissage, les indices IRP et IVT doivent présenter les moins de performances stables (à ±2 ETM) entre les deux passations.

Généralement, le psychologue communique les résultats au WISC-IV en présentant les forces et les faiblesses du sujet non seulement par rapport à son groupe de référence (comparaison normative), mais également par rapport à lui-même (comparaison ipsative). En effet, les domaines cognitifs identifiés comme force et/ou faiblesse de l’enfant par rapport aux autres enfants de son âge (forces et faiblesses normatives) et par rapport à lui-même (forces et faiblesses personnelles) vont permettre au psychologue d’élaborer des pistes d’intervention. Le niveau ipsatif montre que malgré des performances faibles par rapport aux autres enfants de son groupe d’âge, le sujet peut néanmoins posséder des atouts personnels sur lesquels on peut s’appuyer pour la prise en charge. Une lecture généralement utilisée dans la clinique est celle des catégories de description qualitative qui aide le psychologue à donner du sens à l’interprétation d’un score numérique qui peut parfois être peu parlant pour situer la performance. Étant donné l’importance pour la clinique, nous explorons donc également la stabilité des forces et des faiblesses personnelles. La stabilité des forces et des faiblesses normatives est renseignée dans les résultats de la stabilité catégorielle.

Pour la stabilité catégorielle, il s’agit de voir quel pourcentage d’enfants reste dans la même catégorie descriptive d’une passation à l’autre. Trois classifications sont comparées. La classification traditionnelle en sept catégories : très faible (≤ 69), limite (70-79), moyen faible (80-89), moyen (90-109), moyen fort (110-119), supérieur (120-129), et très supérieur (≥ 130). La classification des performances en trois catégories : faible (≤ 84), dans la moyenne (85-115), et élevé (≥ 116). Cette classification correspond à la lecture normative des faiblesse, moyenne et force de l’enfant par rapport à son

groupe d’âge. Enfin, la classification en cinq catégories : extrémité inférieure (≤ 69), moyen faible (70-84), dans la moyenne (85-115), moyen fort (116-130), et extrémité supérieure (≥ 131). Lander (2010) présente les résultats d’une évaluation de la stabilité catégorielle pour le QI Total. Cinq catégories sont définies : extrêmement faible (≤ 69), limite (70-79), moyen faible (80-89), dans la moyenne (90-109) et moyen fort (110-119).

Dans un échantillon de 131 enfants ayant des difficultés d’apprentissage, les résultats montrent que 57 % des enfants sont restés dans la même catégorie descriptive à la première et à la seconde passation. Parmi les 56 enfants (soit 43 %) qui changent de catégorie, l’écrasante majorité a soit descendu soit monté d’une catégorie.

Sur la base d’un nombre limité d’études, nous posons comme hypothèse sur la stabilité catégorielle à long terme des scores du WISC-IV que les enfants qui changent de catégorie descriptive, vont monter ou descendre d’une seule catégorie à la seconde passation.

Pour la stabilité des forces et des faiblesses personnelles, il s’agit d’abord de déterminer si un indice est une force, une moyenne ou une faiblesse personnelle. Pour cela, on calcule à partir de la moyenne des quatre indices (ICV, IRP, IMT et IVT) un niveau de performance moyen pour chaque enfant (indice moyen). Ensuite, chaque indice est comparé à l’indice moyen de l’enfant pour voir s’il est éloigné au-delà d’un certain seuil de l’indice moyen. Un indice qui dévie vers une performance inférieure à l’indice moyen est une faiblesse personnelle. S’il dévie vers une performance supérieure à l’indice moyen, on parle de force personnelle. Enfin, s’il ne dévie pas au-delà du seuil, il s’agit d’une moyenne personnelle.

Nous ne pouvons pas nous appuyer sur les résultats de précédentes études, à notre connaissance aucune n’a porté sur cette question. Nous posons une hypothèse de stabilité des forces et des faiblesses personnelles à long terme des scores du WISC-IV. En effet, en l’absence d’intervention, les forces et les faiblesses identifiées au sein d’un profil du WISC-IV sont supposées être relativement stables dans le temps.

M ÉTHODE

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 169-177)