• Aucun résultat trouvé

3. Fidélité des scores d’un test

3.3. Interprétation de la fidélité des scores d’un test

3.3.3. Erreur de mesure et intervalle de confiance

Nous l’avons bien compris, le score d’un test est d’autant plus fidèle qu’il s’agit d’une mesure peu entachée d’erreur de mesure. Les erreurs de mesure sont inévitables d’une passation à l’autre et leurs origines sont variées. On les définit comme toutes fluctuations aléatoires dans la mesure qui ne rendent pas compte de différences interindividuelles sur ce que le test prétend évaluer. Toutefois, rappelons que la théorie classique des tests (TCT) postule des distributions normales pour les scores observés et pour les erreurs de mesure lors de mesures répétées sur un même sujet et avec un même test. Cela signifie que si l'on fait passer le test un grand nombre de fois à un même individu, la distribution de ses scores observés est normale et a pour moyenne son score vrai. De même, la distribution des erreurs sur ces mesures répétées est supposée suivre la loi normale et avoir une moyenne qui tend vers zéro. Au niveau d’un échantillon, la TCT suppose que tous individus (quel que soit leur niveau d’habileté sur la propriété mentale évaluée) ont la même dispersion des erreurs pour un test particulier. À partir de ces postulats, on définit un écart type des erreurs pour l’échantillon, appelé erreur type de mesure. L’Équation (14)17 peut alors se dériver

17 Voir p. 126.

jusqu’à obtenir la formule de l’erreur type de mesure (standard error of measurement dans la littérature anglophone) :

𝑠𝑒2

𝑠𝑥2= 1 − 𝑟𝑥𝑥 (19)

𝑠𝑒2= 𝑠𝑥2(1 − 𝑟𝑥𝑥) d’où 𝑠𝑒𝑚 = 𝑠𝑥√1 − 𝑟𝑥𝑥 (20) L’erreur type de mesure (𝑠𝑒𝑚 ou ETM pour la notation française) est basée sur la métrique du score observé. Plus un test est fidèle (c.-à-d. 𝑟𝑥𝑥 proche de 1), « plus la variance des scores observés est due à la variance des scores vrais et non à des fluctuations du hasard » (Laveault & Grégoire, 2014, p. 112). Ainsi, plus le coefficient de fidélité 𝑟𝑥𝑥 est proche de 1, plus l’erreur type de mesure tend vers zéro et plus la variance dans les scores observés est expliquée par la variance des scores vrais (ou variance vraie). À l’inverse, plus le coefficient de fidélité 𝑟𝑥𝑥 est faible, plus l’erreur type de mesure tend vers la valeur de l’écart type de la distribution des scores observés.

Dans la situation extrême d’une fidélité nulle (𝑟𝑥𝑥′= 0), toute la variance dans les scores observés n’est alors que de la variance d’erreur.

Alors que le coefficient de fidélité informe sur la fidélité du score d’un test dans une perspective de comparaison interindividuel, l’utilité de l’ETM est plus parlante lorsqu’on s’intéresse au score d’un individu particulier. En effet, ce dernier peut s’interpréter comme une marge d’erreur autour du score observé et permet ainsi de construire un intervalle de confiance. L’utilisation d’un intervalle de confiance autour du score observé au test est une conséquence de la fidélité imparfaite des scores. Sachant que tout score observé est entaché d’erreur, le clinicien ne peut pas s’appuyer sur un score unique.

Illustrons l’utilisation de l’ETM et de l’intervalle de confiance par l’exemple d’un enfant qui a obtenu un score QI Total de 129 au WISC-IV. Tout d’abord, on introduit dans la formule de l’ETM18, le coefficient de fidélité fourni dans le manuel d’interprétation du WISC-IV19 et l’écart type de la distribution des scores QI. On obtient le calcul suivant : ETM = 15√1 − .94 = 3.67. L’erreur type de mesure autour du score observé est donc de ±3.67, soit un intervalle de confiance [125 ; 133]. Il s’agit ici d’un intervalle de confiance associé à une probabilité de 68 %. En effet, nous l’avons déjà dit, l’ETM représente l’écart type de la distribution théorique des erreurs liées à une mesure

18 Voir Équation (20), p. 143.

19 Voir Annexe F.

qu’on répèterait une infinité de fois sur un individu donné ; la distribution est présumée gaussienne. Théoriquement et en vertu des propriétés de la courbe normale, 68 % des scores observés d’un sujet doivent tomber dans l’intervalle de ±1 ETM autour de son score vrai. De même, théoriquement 95 % des scores observés doivent tomber dans l’intervalle de ±2 ETM autour de son score vrai et 99 % des scores observés doivent tomber dans l’intervalle de ±3 ETM autour de son score vrai. Comme le score vrai est inaccessible, l’ETM est appliqué sur le score observé. Pour construire un intervalle de confiance avec des probabilités telle que 90 %, 95 % ou 99 %, il faut multiplier l’ETM par la valeur critique de 𝑧 associée au niveau de confiance choisi, soit respectivement 1.645, 1.96 ou 2.58.

Du fait que l’ETM est appliqué sur le score observé, et non sur le score vrai, certaines précisions sont à relever. Reprenons l’exemple de notre enfant qui a un QI Total de 129. Si l'on répète la mesure, on s’attend à ce que 95 % de ses QIT observés se situent à l’intérieur de l’intervalle de ±2 ETM autour de son score vrai. Or, il nous est impossible de connaître le score vrai. La mesure effectuée par un test est un score observé, qui étant biaisé, ne corrèle pas parfaitement avec le score vrai (Laveault &

Grégoire, 2014 ; Nunnally & Bernstein, 2010). En effet, les scores des tests cognitifs n’échappent pas au phénomène statistique de la régression vers la moyenne. C’est en observant la taille d’enfants dont les parents sont plus grands ou plus petits que la moyenne que Galton découvre ce phénomène, qu’il appelle la loi de régression filiale (law of filial regression). Il remarque que les enfants de parents de grande taille sont souvent plus grands que la moyenne de la population, mais plus petits que leurs parents. À l’inverse, les enfants de parents de petite taille sont plus petits que la moyenne, mais plus grands que leurs parents. Plus généralement, le phénomène de régression vers la moyenne traduit une plus grande probabilité des scores extrêmes à se rapprocher de la moyenne plutôt qu’à s’en éloigner lors de mesures ultérieures. Pour tenir compte de ce biais, l’ETM est remplacée par l’erreur type d’estimation (ETE).

La particularité d’un intervalle de confiance construit avec l’ETE est d’être centré sur un score vrai estimé (𝑉𝑒𝑠𝑡) qu’on obtient par le calcul suivant :

𝐸𝑇𝐸 = 𝑟𝑥𝑥(√1 − 𝑟𝑥𝑥) = 𝑟𝑥𝑥(𝐸𝑇𝑀) (21)

𝑉𝑒𝑠𝑡 =𝑋 + 𝑟𝑥𝑥(𝑋 −𝑋) (22)

Où X est la moyenne théorique des scores observés, X est le score observé au test et 𝑟𝑥𝑥′.est le coefficient de fidélité. Notre QIT observé de 129 devient un QIT vrai estimé : 𝑉𝑒𝑠𝑡= 100 + .94(129 − 100) = 127.26. Pour un niveau de confiance de 95 %, l’ETE est de ±6.76 (soit . 94 × 3.67 = 3.45 => 3.45 × 1.96 = 6.76). Si on applique l’ETE calculé pour un niveau de confiance à 95 % au score vrai estimé, cela donne les bornes arrondies [120 ; 134] autour du QIT observé de 129. Étant centré sur le score vrai estimé (et non le score observé), l’intervalle de confiance calculé avec l’ETE est asymétrie par rapport au score observé lorsqu’il s’agit de scores éloignés de la moyenne. Pour des scores observés au-dessus de la moyenne (comme notre exemple), la borne gauche est plus large, tandis que la borne droite est plus large pour des scores observés en dessous de la moyenne. Par exemple, pour un QIT observé de 60, cela donne les bornes arrondies [55 ; 70] pour un niveau de confiance à 95 %. L’asymétrie sera d’autant plus marquée que les scores sont très éloignés de la moyenne et/ou que la fidélité diminue.

Même si la procédure qui tient compte du biais de régression vers la moyenne (c.-à-d. ETE) est plus rigoureuse que la procédure de l’erreur type de mesure (ETM), il demeure néanmoins certaines limites à l’utilisation des intervalles de confiance. L’une des limites est le postulat d’homoscédasticité selon lequel tous les individus (quel que soit leur niveau d’habileté sur la propriété mentale, quel que soit leur état au moment de la passation, etc.) sont touchés par une erreur de mesure de même ampleur. En effet, on applique la même erreur type de mesure (ETM ou ETE) sur chaque score observé, lorsqu’on calcule un intervalle de confiance. Ce postulat n’est pas forcément avéré ni réaliste pour tous les individus et dans toutes les situations. Rappelons que l’ajustement pour un éventuel manque d’homoscédasticité est, en revanche, possible dans le cadre de la théorie des modèles à l’item, puisqu’on peut calculer différentes erreurs types de mesure en fonction du niveau d’habileté sur la propriété mentale évaluée et des caractéristiques de l’item.

Une autre limite majeure est l’interprétation erronée qu’on prête aux intervalles de confiance. Si l'on reprend l’exemple de notre enfant avec un QIT de 129, on glisse souvent de l’interprétation correcte : « Si on répétait une infinité de fois la mesure, on s’attend à ce que 95 % de ses QIT observés se situent à l’intérieur de l’intervalle de

±6.76 autour de son score vrai » à l’énoncé erroné : « l’intervalle de confiance à 95 % autour de son score observé signifie qu’il y a 95 % de chances que son score vrai soit compris entre 120 et 134 ». Dans l’énoncé erroné, on cherche à probabiliser les valeurs possibles du paramètre (c.-à-d. le score vrai) à partir des données recueillies lors d’une seule mesure. Or, l’approche fréquentiste ne permet pas de se prononcer sur « the

probability that a particular, observed confidence interval contains the true value » (Morey, Hoekstra, Rouder, Lee, & Wagenmakers, 2015, p. 105). En effet, la probabilité fréquentiste – formalisée 𝑃(𝐷|𝐻) – porte sur les probabilités d’échantillonnage, conditionnelles au paramètre estimé (ici le score vrai). Une fois le score observé (c.-à-d.

l’événement réalisé), il n’y a plus aucune probabilité, sinon une probabilité soit de 1 (Lecoutre, 2005, p. 32). Ainsi, l’interprétation fréquentiste correcte d’un Intervalle de Confiance à 95 % (IC 95 %) s’énonce comme suit : « 95 % des intervalles calculés sur l’ensemble des échantillons possibles (tous ceux qu’il est possible de tirer) contiennent la vraie valeur » (Lecoutre, 2005, p. 93). Dit autrement, « si on répétait un grand nombre de fois l’expérience et si on notait à chaque fois l’intervalle ainsi trouvé, alors dans [X %]

des cas en moyenne, la vraie valeur . . . se trouverait dans l’intervalle » (D’Estampes, Garel, & Saint Pierre, 2003, p. 77). On peut donc assigner une probabilité sur la procédure d’échantillonnage par laquelle on estime les intervalles de confiance ( long-run repetition of the same experiment), mais on ne peut pas probabiliser sur un

Les interprétations erronées sur les intervalles de confiance sont largement diffusées dans les ouvrages de référence en psychométrie et au sein de la communauté scientifique. Morey et al. (2015) relèvent trois catégories d’erreurs dans l’interprétation des intervalles de confiance. Ils nomment la première : la Fundamental Confidence fallacy. Cette erreur fondamentale nous conduit à déclarer à tort que l’intervalle calculé à partir d’une unique mesure a une probabilité de X % de contenir le vrai score. Une fois le score observé obtenu (c.-à-d. l’événement réalisé), il n’y a plus réellement de probabilités. La probabilité que le score vrai soit d’être compris dans les limites d’un intervalle de confiance qui entoure un score observé au test est de 100 % (le score vrai

est dedans) ou 0 % (le score vrai n’est pas dedans). C’est avant d’obtenir le score observé au test qu’il y a une probabilité de X % que l’intervalle de confiance à calculer contient le score vrai. La deuxième erreur est nommée la Precision fallacy. Elle nous conduit à déclarer à tort que l’étendue de l’intervalle calculé est une indication du degré de précision du paramètre estimé. Plus l’intervalle de confiance calculé est étroit, plus on est proche de l’estimation du score vrai. Cela peut sembler une affirmation correcte puisque, plus la fidélité est élevée, plus l’intervalle de confiance calculé est petit. Sauf qu’à nouveau, nous ne pouvons pas savoir si le score vrai est à l’intérieur ou non de l’intervalle calculé. Si le score vrai est dans l’intervalle calculé, alors effectivement l’affirmation est correcte, en revanche, si le score vrai ne l’est pas dans l’intervalle calculé, l’affirmation est complètement erronée. Enfin, la troisième erreur est nommée la Likelihood fallacy. Cette dernière nous conduit à déclarer à tort qu’à l’intérieur de l’intervalle calculé se trouvent les valeurs les plus plausibles du score vrai.

Toujours pour la même raison, l’affirmation est incorrecte puisqu’on ne peut jamais savoir si le score vrai est ou non à l’intérieur de l’intervalle calculé à partir d’un unique score observé.

Si la confusion persévère dans l’esprit des utilisateurs des intervalles de confiance, la question était déjà débattue autrefois par les fondateurs des statistiques modernes, dont le célèbre mathématicien Jerzy Neyman (1894 – 1981) :

Consider now the case when a sample . . . is already drawn and the [confidence interval] given . . . . Can we say that in this particular case the probability of the true value of [the parameter] falling between [the limits] is equal to [X %]? The answer is obviously in the negative. The parameter . . . is an unknown constant and no probability statement concerning its value may be made. (Neyman, 1937, p. 349) Pour le théoricien Neyman, il n’y a aucune ambigüité. Le cadre des statistiques fréquentiste ne permet pas l’interprétation usuelle qu’on fait des intervalles de confiance autour d’un score observé.

Si les postulats fréquentistes ne coïncident pas avec l’interprétation intuitive qu’on désire attribuer à un intervalle de confiance spécifique, les inférences bayésiennes, en revanche, probabilisent explicitement les valeurs possibles du paramètre, une fois les données recueillies (Lecoutre, 2005). Au lieu de considérer les probabilités d’échantillonnage 𝑃(𝐷|𝐻) comme le fait les inférences fréquentistes, les inférences bayésiennes combinent l’information provenant de trois sources : (1) la probabilité de la croyance a priori (prior belief, souvent abrégé prior dans la littérature anglophone), (2) les données de l’expérience et (3) la probabilité de la croyance a

posteriori qui est une mise à jour des croyances initiales compte tenu des données recueillies. La croyance a priori (prior) reflète la probabilité d'un événement d’après les connaissances établies au sujet dudit événement par les études et des expériences antérieures. L’apport de nouvelles informations grâce aux données observées actualise cette croyance initiale qui devient une croyance a posteriori. Dans sa forme simple, le théorème de Bayes s’exprime comme suit :

𝑃(𝐻|𝐷) =𝑃(𝐻) × 𝑃(𝐷|𝐻)

𝑃(𝐷) (23)

Avec 𝑃(𝐻|𝐷) qui représente la probabilité a posteriori de l’hypothèse sachant les données, 𝑃(𝐻) représente la probabilité a priori de l’hypothèse, 𝑃(𝐷|𝐻) représente la fonction de vraisemblance de l’hypothèse et 𝑃(𝐷) est la probabilité a priori des données. L’approche bayésienne « exprime donc directement l’incertitude sur la vraie valeur . . . par des probabilités [𝑃(𝐻|𝐷)], conditionnelles aux données » (Lecoutre, 2005, p. 96). Tenant compte des données recueillies, l’approche bayésienne permet de choisir un intervalle au vu de l’échantillon particulier observé, qui est appelé intervalle de crédibilité. Contrairement à l’intervalle de confiance, l’intervalle de crédibilité nous permet de déclarer qu’il y a X % de chances que le score vrai soit compris entre les bornes de l’intervalle calculé à partir des données observées. En probabilisant sur le paramètre au vu des données, les inférences bayésiennes apportent une interprétation directe et naturelle aux intervalles de confiances. Nous en restons à ce bref survol, car un développement théorique, philosophique ou mathématique des statistiques bayésiennes dépasserait le cadre du présent travail.

Dans la pratique actuelle, il y a donc un télescopage entre les inférences fréquentistes dans lesquelles sont estimés les intervalles de confiance et les inférences bayésiennes dans lesquelles ils sont interprétées. Des auteurs expliquent ce non-sens comme « le produit d’une évolution complexe, au cours de laquelle les idées des fondateurs ont été en partie occultées et mélangées, ce qui a donné naissance à un mode de pensée ”hybride” qui, malgré la nature inconciliable de ses éléments, perdure » (Capel, Monod, & Müller, 1997, p. 133). En l’état des choses, nous rejoignons Laveault et Grégoire (2014), « l’avantage majeur à déterminer un intervalle de confiance autour de la note obtenue est de relativiser cette dernière note. Le praticien prend ainsi mieux conscience de la marge d’erreur que comporte la mesure recueillie » (p. 129). On ne peut donc pas formuler de probabilité sur l’inclusion du score vrai dans les limites d’un intervalle de confiance appliqué autour d’un score observé. Toutefois, l’étendue de

l’intervalle de confiance donne un ordre de grandeur sur l’erreur de mesure associée au score observé, et donc sur la fidélité du score.