Fonctionnement différentiel des items - Équité de l’évaluation

2. Considérations psychométriques dans l’évaluation psychologique

2.6. Équité de l’évaluation

2.6.3. Fonctionnement différentiel des items

L’analyse du fonctionnement différentiel des items (FDI, ou DIF dans la littérature anglophone pour differential item functioning) cherche à détecter les éventuels items biaisés d’un test. Elle n’est pas rattachée à un cadre de mesure, même si elle est souvent associée aux modèles de réponse à l’item (MRI). En fait, étant moins connoté, le terme de fonctionnement différentiel des items – introduit par Holland et Thayer (1988) – tend à remplacer le terme de biais. Toutefois, le terme de fonctionnement différentiel se réfère plus spécifiquement à des procédures statistiques qui déterminent le comportement des items entre des groupes distincts, tandis que le terme de biais renvoie aux différences entre groupes de manière plus générale qu’au seul niveau des items (Teresi & Jones, 2013). Pour nos analyses sur les items du WISC-IV, nous étudions une méthode de FDI fondée sur les modèles de réponse à l’item. La présentation qui suit se limite donc aux approches basées sur les MRI.

On repère d’éventuels items biaisés, lorsque les différences sur les items du test entre groupes différents ne sont pas constantes pour tous les items. À l’instar de Bertrand et Blais (2004), nous définissons deux critères pour déterminer qu’un item est biaisé envers un groupe : (a) deux individus d’habileté équivalente sur la propriété mentale évaluée par le test, mais issus de deux groupes distincts, n’ont pas la même probabilité de réussir un même item et (b) la différence de probabilité de réussir un même item dépend d’une autre variable que la propriété mentale évaluée par le test. À l’inverse, « un item est considéré comme non biaisé lorsque la probabilité de réussir cet item est la même pour tous les sujets de la population possédant la même aptitude, indépendamment de leur sous-groupe d’appartenance » (Osterlind, 1989 cité par Laveault & Grégoire, 2014, p. 231).

Nous n’entrerons pas dans les aspects techniques des méthodes d’analyse du fonctionnement différentiel ; notre présentation vise à la compréhension conceptuelle.

Dans les approches selon les modèles de l’item, un fonctionnement différentiel des items (FDI) apparaît lorsque les courbes caractéristiques des item (CCI) d’un test ne sont pas équivalentes pour tous les individus de deux groupes différents. La Figure 31 (p.

125) illustre la comparaison entre deux courbes caractéristiques d’un même item d’un test de mathématiques. Pour rappel, une CCI représente la probabilité de réussir l’item en fonction de l’habileté sur le trait latent. Sur la Figure 31 (p. 125), l’une des CCI provient d’un échantillon d’anglophones (trait plein), tandis que l’autre provient d’un échantillon de francophones (trait en pointillé). La version originale du test est adiminstrée à l’échantillon d’anglophones, tandis qu’une une adaptation en français est administrée à l’échantillon de francophones. On peut voir que la probabilité de réussir l’item pour un niveau de trait latent n’est pas la même dans les deux groupes. Par exemple, pour un niveau de trait latent θ = 0, la probabilité de réussir l’item est d’environ 70 % chez les francophones, alors qu’elle est d’environ 50 % pour les anglophones.

Figure 31. Courbe caractéristique d’un item pour le groupe de francophones (trait en pointillé) et pour le groupe d’anglophones (trait plein). Le point d’inflexion de la courbe est indiqué par

un point noir. Source : Bertrand et Blais (2004, p. 284).

Un FDI se définit donc comme une différence de probabilité de réussir un item pour des individus d’habileté égale, mais appartenant à des groupes distincts (Bertrand

& Blais, 2004). Dans le cas d’une absence de FDI, les CCI de chaque groupe sont proches, voire se superposent. Le FDI est donc « une notion statistique, une certaine valeur relative à une différence de probabilités » (Bertrand & Blais, 2004, p. 285). La présence d’un FDI satisfait le critère (a) de la définition d’un item biaisé. Pour satisfaire le critère (b), le FDI observé doit révéler que l’écart entre les probabilités de réussir l’item des deux groupes est signifiant par rapport à l’interprétation des scores du test.

De manière statistique, on peut déterminer une valeur seuil à partir de laquelle l’aire entre les deux CCI révèle un écart significatif. Mais ce n’est pas suffisant, il faut également une réflexion approfondie sur les données pour savoir si les différences de probabilités résultent d’une autre variable que celle évaluée par le test. Nous reprenons l’exemple de la Figure 31 pour expliciter notre propos. L’exemple porte sur un test de mathématiques en anglais qui a été adapté en français. Les items sont des problèmes de maths. Les CCI entre les deux groupes montrent un FDI pour l’item considéré. Selon une valeur seuil définie, l’écart entre les CCI est considéré assez important pour être significatif. Est-ce que l’item est biaisé ? On ne peut pas encore l’affirmer. Cela dépend encore de l’interprétation qu’on donne au score du test. Le français est une langue moins synthétique que l’anglais. Le passage de l’anglais au français peut conduire à un

allongement de l’énoncé des problèmes de maths. Si le score du test est interprété comme un indicateur de l’habileté en mathématiques, l’item est biaisé. Si en revanche, les compétences en lecture font partie des habiletés secondaires et légitimes évaluées par le test, alors l’item n’est pas biaisé. En effet, on peut argumenter que la réussite en mathématiques inclut de réussir sur des problèmes de maths, qui eux-mêmes demandent une certaine compétence en lecture. Dans l’adaptation en français, l’item évalue principalement les aptitudes mathématiques mais secondairement des aptitudes en lecture interviennent également, tandis que, dans la version anglaise, la demande en lecture pour le test est moindre.

La détection d’un biais ne repose donc pas que sur une analyse statistique, mais demande une réflexion contextuelle sur les données. De façon plus générale, les données psychométriques s’interprètent en tenant compte d’un cadre théorique, d’un contexte et des finalités de l’évaluation psychologique. Le prochain chapitre portera sur le sujet principal du présent travail : la fidélité des scores d’un test. Nous verrons que plusieurs facteurs liés à la méthode d’estimation de la fidélité, mais aussi liés aux calculs du risque peuvent intervenir dans l’interprétation d’un coefficient de fidélité d’un test.

Dans le document Stabilité à long terme des scores standards et CHC du WISC-IV : apports théoriques et cliniques (Page 127-131)