Mesure vs évaluation - Tests en psychologie

1. Évaluation de l’intelligence

1.2. Tests en psychologie

1.2.3. Mesure vs évaluation

Pour Kant, philosophe allemand du 18^e siècle, la psychologie ne peut être considérée comme une science au même titre que les sciences naturelles, étant donné qu’aucune analyse mathématique n’est possible sur les grandeurs psychologiques. Un siècle plus tard, l’homme de science britannique Galton énonce la même idée :

« jusqu’à ce que les phénomènes d’une branche quelconque de connaissances aient été soumis à la mesure et au nombre, cette branche ne peut assumer le statut et la dignité d’une science » (cité par Pichot, 1999, p. 6). Un philosophe français du 20^e siècle, Henri Bergson affirme qu’« il faut tracer une ligne de démarcation bien nette entre la physique et la physiologie d’une part, la psychologie d’autre part. Avec la psychologie, nous abordons l’étude d’objets réfractaires à la mesure » (cité par Martin, 1997, p. 320).

Les déclarations de ces auteurs montrent que, dans l’histoire de la psychologie, la question de la mesure est étroitement liée à la revendication du statut de science.

Néanmoins, notre réflexion ne va pas se porter sur la légitimité de la psychologie en tant que science. De par la démarche et les méthodes scientifiques qu’elle adopte, la psychologie fait pour nous partie des sciences humaines. On peut évidemment discuter sur ce que nous englobons dans la psychologie et ce que sont les sciences humaines.

Mais pour ne pas digresser dans des discussions idéologiques, nous allons cibler notre réflexion sur la notion de mesure s’agissant des tests psychologiques. Ces derniers permettent-ils d’obtenir des mesures ?

Au cours du 20^e siècle, l’essor du développement de tests mentaux montre une volonté claire pour la mesure des propriétés mentales (notamment l’intelligence).

Cependant, la mesure telle que permise par un test psychologique n’est pas compatible avec la conception classique et dominante de la mesure en science. En effet, celle-ci

« repose sur la définition d’une unité de mesure et sur le “comptage du nombre de fois que cette unité est présente dans la grandeur à mesurer” ; . . . la mesure produite, c’est-à-dire le nombre, est la marque d’une caractéristique réaliste de la grandeur mesurée » (Martin, 1997, p. 279). Or, avec les grandeurs psychologiques, on n’arrive pas à définir une unité/quantité élémentaire qu’on pourrait additionner. Par exemple, si l'on pense aux échelles d’intelligence, que représenterait une unité d’intelligence ? On n’arrive pas non plus à définir une valeur nulle. Comment concevoir un zéro absolu d’activités et de productions intellectuelles chez un être humain vivant ? De fait, « le zéro de ces échelles correspond simplement à l’échec de l’item le plus facile, lequel représente une borne toujours arbitraire » (Grégoire, 2007a, p. 44). En outre, la définition classique de

la mesure repose aussi sur une « conception réaliste des caractéristiques mesurables des objets : les objets mesurés sont supposés posséder de “vraies mesures”, de “vraies magnitudes” (Martin, 1997). Or, les grandeurs psychologiques n’ont pas des propriétés directement accessibles. Les « mesures » que donne un test psychologique reflètent donc des quantités non divisibles et non observables. Elles sont également relatives, puisqu’elles rendent compte du positionnement de l’individu comparativement à un groupe d’autres individus placés dans la même situation.

Dans la conception paradigmatique de la mesure qui a cours au début du 20^e siècle, la plupart des scientifiques (y compris des psychologues) refusent de considérer les grandeurs psychologiques comme mesurables. En 1920, le physicien expérimentaliste Norman Robert Campbell (1880–1949) cherche à apporter une clarification entre les entités mesurables et les entités non mesurables. Il introduit la mesurées : l’associativité⁴, la commutativité⁵ et la propriété affirmant que 𝑎 + 1est plus grand que 𝑎. celle de Campbell qu’il généralise aux choses et aux événements. Si en surface, les deux définitions sont proches, dans la définition de Stevens, la propriété additive des mesures est volontairement passée à la trappe. En fait, Stevens modifie l’esprit de la conception de Campbell ; « les propriétés ne sont plus posées a priori puis testées empiriquement mais sont établies par l’expérience . . . ce sont les opérations de mesure qui permettent d’identifier les propriétés [de la mesure] » (Martin, 1997, p. 304). Pour attribuer des nombres aux choses, il n’est plus besoin que lesdites choses possèdent les

4 C’est-à-dire que : 𝑎 + (𝑏 + 𝑐) = (𝑎 + 𝑏) + 𝑐

5 C’est-à-dire que : 𝑎 + 𝑏 = 𝑏 + 𝑎

propriétés d’additivité. La conception stevenienne de la mesure porte sur : quelles sont les règles d’attribution des nombres aux choses ? Et « de la réponse à cette question dépendent non pas la possibilité de mesurer mais les propriétés de la mesure effectuée » (Martin, 1997, p. 305). Pour Stevens, il existe donc différentes règles de conversion et également différents types de mesure. Il propose alors une classification des types de mesure en fonction de leurs propriétés empiriques. Sa classification définit quatre types d’échelle : (1) échelle nominale, (2) échelle ordinale, (3) échelle d’intervalle et (4) échelle de rapport. Une échelle nominale comporte des catégories différentes les unes des autres que l’on labellise par un nom (p. ex., fille et garçon pour le sexe, nationalité, métier). Chaque observation doit entrer dans une seule des catégories définies par l’échelle. Il y a une relation d’équivalence (d’égalité) entre les observations incluses dans une même catégorie. En plus des propriétés de l’échelle nominale, une échelle ordinale comporte des catégories ordonnées (p. ex., échelle d’appréciation de Likert). En plus de la propriété d’ordre, une échelle d’intervalle rajoute la notion de distance entre les catégories (p. ex., les échelles de température Celsius, date). La différence entre 20°C et 21°C correspond au même intervalle qu’entre 35°C et 36°C.

Dans l’échelle d’intervalle, le zéro est situé de manière arbitraire. Par exemple, le zéro degré Celsius ne correspond pas à une absence de température. Finalement, une définition de la mesure a intégré la notion de représentation avant de s’élargir grâce à Stevens vers une redéfinition de la mesure qui accepte l’inaccessibilité directe aux grandeurs (comme pour les grandeurs psychologiques). La publication de l’article

« Mathematics, Measurement and Psychophysics » de 1951 dans lequel Stevens consolide théoriquement et empiriquement sa conception de la mesure, connaît une large et rapide diffusion dans la communauté scientifique. La définition usuelle en sciences physiques est alors perçue comme excessivement restrictive. Au sein de la psychologie, la conception stevenienne de la mesure et sa typologie des niveaux de mesure sont inscrites dans la méthodologie. Depuis Stevens, on trouve des définitions de la mesure plus « souples ». Par exemple, cette définition est proposée par l’International Encyclopedia of Social Science :

La mesure est généralement considérée comme étant toute procédure par laquelle des nombres sont attribués à des individus (au sens de personnes, d’objets ou d’évènements) selon certaines règles. Ces règles précisent les caractéristiques d’un attribut ou d’un aspect quantitatif d’une observation, et définissent dès lors une échelle. (1968, cité par Martin, 1997, pp. 324–325)

Après avoir resitué la contribution majeure de Stevens dans l’acceptation de la psychologie en tant que science, puisqu’elle permet des mesures quantitatives, nous allons soulever un débat qui divise actuellement la communauté des psychométriciens.

Un front minoritaire, porté notamment par l’épistémologue de la psychologie Joel Michell, conteste le caractère quantitatif d’un attribut psychologique. L’une des hypothèses qui sous-tendent les théories de mesure des tests et leur utilisation, est que les différences interindividuelles dans les scores d’un test traduisent des différences quantitatives sur la propriété mentale. Or selon Michell (1999, 2000, 2004), aucune donnée ne soutient cette hypothèse et il reproche aux psychométriciens de la postuler sans chercher à la vérifier. Illustrons l’hypothèse quantitativiste des tests en prenant l’exemple d’un test qui évalue la vitesse de traitement. D’après cette hypothèse, les différences de scores sur le test révèlent des différences interindividuelles dans la quantité d’information traitée. Les individus avec les plus hauts scores traitent quantitativement plus d’information que les individus avec des scores plus faibles. Cette lecture omet l’hypothèse que les individus puissent adopter différentes stratégies pour répondre à un item d’un test et que, de plus, un même individu puisse adopter plusieurs stratégies au cours de la passation du test. Si comme Michell, on suppose que les individus ne s’y prennent pas de la même manière pour répondre à un item. Les différences de scores au test peuvent traduire des différences de nature qualitative.

Dans l’exemple précédent du test de traitement d’information, ce n’est pas la quantité d’information que peuvent traiter les individus qui conduisent à des différences, mais la manière dont les individus traitent l’information. Dans cette seconde interprétation, les tests ne fournissent pas des mesures, mais une évaluation ou une estimation de la propriété mentale. Le score obtenu à un test ne traduit pas seulement de la quantité de la propriété mentale évaluée chez l’individu, mais tienne également compte de la qualité avec laquelle le sujet a fait appel à la propriété mentale.

Comme un test n’est pas une mesure pure de la propriété mentale qu’il infère à partir des réponses aux items et que les individus ne répondent pas forcément aux items avec la même stratégie, nous partageons la position qui consiste à préférer l’emploi des termes « évaluer » ou « évaluation » au lieu de « mesurer » ou « mesure ».

La critique virulente de Michell sur la conception quantitativiste des tests adoptée par

un pan des psychométriciens – qu’il assimile pour leur pratique imprudente à des astrologues – est une réflexion épistémologiste à garder en tête dans l’utilisation et l’interprétation des scores d’un test.

Un dernier terme reste à définir dans ce chapitre : l’intelligence. L’objectif peut paraître périlleux à atteindre tant il s’agit d’une entité tentaculaire. Cependant, gardons à l’esprit que, dans le présent travail, nous examinons l’intelligence dans la perspective méthodologique (théorique et appliquée) de sa mesure.

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 42-46)