Validité - Considérations psychométriques dans l’évaluation psychologique

2. Considérations psychométriques dans l’évaluation psychologique

2.5. Validité

Considérée comme le concept le plus fondamental et le plus important de la psychométrie, la validité de l’interprétation des scores d’un test représente le grand défi des concepteurs de tests comme en témoigne Kelly (1927) : « the establishment of the fact that a given test is valid for specifically named purpose is at present one of the most, if not in fact the most, difficult of the problems confronting the test deviser » (pp.

30-31). Dans sa définition la plus classique, le concept de validité renvoie au « degree to which a test or examination measures what it purports to measure » (Ruch, 1924, cité par P. E. Newton, 2012, p. 3). La validité renseigne sur ce que le test évalue et dans quelle mesure cette évaluation permet d’interpréter les différences interindividuelles dans les scores comme des différences réelles sur la propriété mentale censée être évaluée par le test. L’évaluation de la validité ne repose pas sur une seule analyse, mais combine les analyses provenant de différentes sources. Chaque résultat qui contribue à

définir la validité de l’interprétation des scores d’un test est une preuve de validité. On recourt à une démarche tant quantitative (p. ex., analyses statistiques) que qualitative (p.

ex., évaluation écrite sur les items par des experts) pour obtenir une preuve de validité.

Une preuve de validité apportée par une étude sur un échantillon ne peut pas être automatique généralisée à d’autres contextes d’utilisation du test et à d’autres populations. En effet, « la validité d’un test doit être établie empiriquement pour chacun des usages auxquels le test est destiné » (Anastasi, 1994, p. 131). Par exemple, lorsqu’un test est adapté dans une autre langue, on ne peut pas s’appuyer sur ce qui a été démontré dans les recherches de validation de la version d’origine. Étant donné la proximité des termes, définissons ce qui distingue la validité de la validation.

Le concept de validité renvoie à une propriété. La validité renseigne dans quelle mesure le test évalue de façon appropriée ce qu’il est censé évaluer ainsi que dans quelle mesure les inférences à partir des résultats au test sont pertinentes. Dans le présent travail, notre définition de la validité est en termes de proportion de la variance pertinente dans la variance totale des scores observés¹¹. Pour rappel, le score d’un test peut se décomposer en variance pertinente (la propriété mentale qu’il évalue et sur laquelle porte l’interprétation), en variance non pertinente (tout ce qu’il évalue d’autre, qui n’est pas la propriété mentale sur laquelle porte l’interprétation du test) et en variance d’erreur. La proportion de la variance pertinente se rapporte à la validité, tandis que la proportion de la variance pertinente et de la variance non pertinente se rapportent à la fidélité.

Quant au concept de validation, il renvoie à une activité de développement de méthodes et d’accumulation de preuves empiriques de validité de l’évaluation pour un test et pour telle finalité ou tel contexte d’utilisation. La validation d’un test est un long processus d’enrichissement des données empiriques de validité. Les études de validation sont notamment guidées par l’exploration des différentes inférences liées à l’utilisation des tests psychologiques. Du recueil de la réponse sur un item de test à la décision d’intervention, on réalise quatre types d’inférences d’après Kane (2006). La première inférence se réalise dans le passage d’une réponse ou d’un comportement sur des items à un nombre de points, qui sont ensuite transformés en un score standardisé (scoring inferences). L’interprétation du score total au test en termes de propriété mentale constitue la deuxième inférence (generalisation inferences). Le score total au test est considéré comme une estimation du niveau d’habileté du sujet sur la propriété mentale qu’évalue le test. À partir d’un échantillon de réponses/comportements sur des

11 Voir section 2.1.1.1, p. 73.

items, on calcule un score total qu’on traduit comme un indicateur du fonctionnement de l’individu sur une propriété mentale, qui n’est en fait pas directement observée. À partir de l’estimation du niveau de fonctionnement sur la propriété mentale évaluée, une troisième inférence réalise une extrapolation sur des difficultés ou des forces dans des activités associées dans différentes sphères (p. ex., scolaire, professionnelle, sociale) de l’individu (extrapolation inferences). La quatrième et dernière inférence apparaît dans les utilisations ou les interprétations qui dépassent ce que permet le test (decision rules inferences). Bien souvent les concepteurs de tests sont peu clairs sur les limites de leur test et laissent la responsabilité aux utilisateurs d’évaluer le bon usage du test.

Toutes ces inférences, sur lesquelles repose l’utilisation d’un test, soulignent l’importance d’apporter des preuves de validité.

Pour certains auteurs (p. ex., Messick), un test n’est pas valide ou non dans l’absolue ; mais il présente un certain degré de validité par rapport à une utilisation spécifique. Selon cette position, il s’agit d’un abus de langage de parler de « validité d’un test ». La validité est une propriété de l’interprétation des scores du test, et non du test lui-même. En effet, « on ne valide [pas] un instrument de mesure mais les mesures qu’il permet d’obtenir . . ., celles-ci dépendent non seulement des caractéristiques de l’instrument, mais aussi des caractéristiques des sujets auxquels cet instrument est appliqué et du contexte dans lequel il est utilisé » (Dickes et al., 1994, p. 49). Pour d’autres auteurs (p. ex., Borsboom), il s’agit bien de parler de la validité d’un test. Pour ces auteurs, le score du test est déterminé par la propriété mentale évaluée par le test (modèle réflectif). La propriété mentale évaluée – et qui existe – est à l’origine du score sur le test, et donc les variations dans la propriété mentale amènent à des différences dans les scores au test. Ainsi, « validity is a property of tests: a valid test can convey the effect of variation in the attribute one intends to measure » (Borsboom, Mellenbergh, &

van Heerden, 2004, p. 1067). Pour d’autres auteurs encore (p. ex., Newton), la validité porte sur l’ensemble de la procédure d’évaluation qui amène à une prise de décision (property of assessment-baseddescision-making procedure, P. E. Newton, 2012, p. 18).

Il ne s’agit pas uniquement de déterminer si les interprétations des scores du test sont valides ou non, mais si l’instrument choisi et son utilisation dans l’évaluation réalisée sont appropriés. Entre les tenants de ces trois conceptions de la validité, le débat est actuellement en cours et alimente en fait des discussions passées. En effet, si l'on retrace l’histoire des discussions sur la validité, on s’aperçoit que le concept connaît régulièrement une redéfinition. Bien qu’intéressante, un historique complet de l’évolution du concept de validité dépasse le cadre du présent travail (lire p. ex.,

Borsboom et al., 2004; Cronbach & Meehl, 1955; Kane, 2001; Messick, 1989; P. E.

Newton, 2012). Pour brièvement résumer, dans les premières définitions de la validité au début du 20e siècle, il s’agit d’une propriété du test : la validité examine dans quelle mesure un test évalue ce qu’il prétend évaluer. Par la suite, la relation entre le test et un critère est au centre de la validité. À travers la convergence des résultats sur le test et un critère, on cherche non seulement à montrer que le test évalue bien ce qu’il est censé évaluer (validité convergente), mais aussi à déterminer son pouvoir prédictif (validité prédictive). Au milieu du 20e siècle, les critiques grandissant sur les tests et leur utilisation insistent à davantage étayer leur validité. On cherche à évaluer la cohérence entre la structure interne du test et la théorie à laquelle il se réfère (validité de construit), la relation entre le contenu du test et la propriété mentale évaluée (validité de contenu) et toujours la relation du test avec d’autres variables (validité critérielle).

Les nombreux travaux élargissent le champ de la validité conduisant progressivement à un morcellement du concept en autant de types de validité que de méthodes de validation. Vers la fin des 50, un mouvement de réunification est amorcé. La validité devient un concept global sous lequel sont rassemblés différents arguments de validité pour l’interprétation d’un test. Les Standards for educational and psychological testing qui publient les dernières recommandations pour l’utilisation des tests, adoptent une approche basée sur les arguments de validité (argument-based approach). Ils relèvent cinq sources pour les preuves de validité : (a) les preuves de validité basées sur le contenu du test, (b) les preuves de validité basées sur la relation à d’autres variables, (c) les preuves de validité basées sur la structure interne du test, (d) les preuves de validité basées sur les processus de réponse et, (e) les preuves de validité basées sur les conséquences sociales de l’évaluation (pour une description détaillée voir Sireci &

Sukin, 2013). Suivant leur approche basée sur les arguments de validité, les Standards proposent la définition suivante :

A sound validity argument integrates various strands of evidence into a coherent account of the degree to which existing evidence and theory support the intended interpretation of test scores for specific uses. . . . Ultimately, the validity of an intended interpretation . . . relies on all the available evidence relevant to the technical quality of a testing system. This includes evidence of careful test construction; adequate score reliability; appropriate test administration and scoring;

accurate score scaling, equating, and standard setting; and careful attention to fairness for all examinees. (AERA et al., 1999, p. 17, cités par Sireci & Sukin, 2013) Dans cette définition, il est relevé l’importance de la fidélité des scores et de l’évaluation de l’équité dans les preuves de validité pour une interprétation pertinente

des scores d’un test. Nous reviendrons largement sur la fidélité des scores dans le chapitre suivant. Pour terminer les considérations psychométriques sur l’évaluation, nous allons discuter de l’équité et des biais dans les tests qui sont en lien avec l’étude du fonctionnement différentiel que nous avons menée sur les items du WISC-IV.

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 119-123)