• Aucun résultat trouvé

4. Chapitre 4 : Structure du questionnaire cognitif générique analysé

5.3. Application de la modélisation Rasch pour l’analyse des propriétés

5.3.2. Analyse de la qualité de la modélisation

5.3.2.1. Vérification de l’ajustement des données aux exigences de la

Avant d’aborder cette tâche, un petit rappel s’impose. L’objectif de cette étude était l’analyse des propriétés psychométriques du questionnaire cognitif générique pour développer un questionnaire bref fiable et précis, le FaCE. Afin que ce questionnaire soit considéré comme une échelle de mesure proprement dite, il doit répondre aux exigences de la modélisation Rasch. Les points abordés jusqu’ici permettent de vérifier si les impératifs à l’utilisation de ce type de modélisation sont respectés. Afin de s’assurer d’être dans la bonne direction et que les objectifs de cette étude sont accomplis, il était impératif de vérifier l’ajustement des données obtenues à chaque étape des analyses.

La modélisation Rasch a permis de déterminer un score attendu d’une personne donnée à un item choisi. Ce score est celui qu’il est attendu d’observer si le questionnaire construit s’ajuste parfaitement au modèle Rasch. Évidemment, un ajustement parfait est impossible, car plusieurs facteurs peuvent influencer le score observé, contrairement au score théorique attendu. Certains de ces facteurs ont été cités dans les paragraphes précédents, tels que l’erreur standard et les facteurs qui l’influencent ou encore la multidimensionnalité.

L’objectif, ici, consistait à évaluer si les items choisis et les scores observés répondaient aux exigences de la modélisation Rasch. Le score attendu était déterminé grâce à la CCI et correspondait à la probabilité de réussite d’un sujet à un item donné. Cependant, certains sujets ne répondaient pas d’une façon qui est en accord avec la probabilité de réussite déterminée. Deux hypothèses pouvaient être posées, soit que le sujet avait une particularité qui l’a amené à répondre différemment de la réponse attendue, soit que l’item n’avait pas le pouvoir discriminatif attendu ou que cet item évaluait plusieurs dimensions.

Par conséquent, selon la méthodologie de la modélisation Rash, il est de rigueur d’identifier les sujets « atypiques » ou les items au « comportement » différent. Comme tous les items du questionnaire FaCE ont été transformés pour avoir une réponse formulée d’une façon dichotomique, les réponses d’un sujet donné à tous les items se présentaient en une série de « 0 » pour les items échoués

(difficiles), une série de « 1 » pour les items réussis (faciles) et une alternance de « 0 » et de « 1 » pour les items plus ou moins réussis (difficulté moyenne). De même, les réponses à un item par plusieurs sujets combinaient le même type de score. L’ordre de la combinaison de ces scores qui s’observe lors d’une situation où les réponses d’un sujet à une série d’items l’ajustent parfaitement au modèle Rasch est :

Item plus facile 1111011010101011100000 item plus difficile

Lorsque les réponses diffèrent des réponses attendues, l’ordre de la combinaison de score est différent.

Les « comportements » inattendus peuvent concerner une atypie dans les caractéristiques d’un sujet ou dans les caractéristiques d’un item. Ainsi, la combinaison de score peut avoir pour objectif, soit d’identifier les sujets aux réponses inattendues et les investiguer pour en trouver la raison. Soit d’identifier l’item mal ajusté et une cause probable liée à l’item ou à un biais externe.

Plusieurs situations peuvent être rencontrées concernant les réponses d’un sujet à plusieurs items: - Modèle de réponse idéal :

Item plus facile 1111011010101011100000 item plus difficile - Une mauvaise codification des items :

Item plus facile 0000000000111111111111 item plus difficile

Ici la codification des items est inversée, le « 1 » signifie échec au lieu de réussite et le « 0 » réussite au lieu d’échec. Une correction de la codification s’impose afin de ne pas être en contradiction avec le reste des concepts statistiques.

- Erreur d’inattention :

Item plus facile 0111111111100000000000 item plus difficile

Le sujet à fait une erreur parmi les item jugés faciles par rapport à sa capacité, il est possible d’en déduire qu’il s’agit ici d’une erreur d’inattention. Ce type de mauvais ajustement n’a pas d’impact sur la qualité des données.

- Devinette :

Item plus facile 1111111111100000000001 item plus difficile

Le sujet a répondu correctement à l’un des items qui sont jugés trop difficiles par rapport à sa capacité. Cette réponse inattendue peut être attribuée à la chance, ou que le sujet a répondu correctement par hasard. Ce type de mauvais ajustement n’a pas d’impact sur la qualité des données.

- Aptitude particulière antérieure :

Item plus facile 1111111111100011100000 item plus difficile

Le sujet a répondu correctement à une série d’items faisant partie des items jugés trop difficiles par rapport à sa capacité. Ici, il est possible d’en conclure que la série d’items en question correspond à

une aptitude particulière du sujet, une spécialité qui est en dehors de son aptitude générale. Ce type de mauvais ajustement n’a pas d’impact sur la qualité des données.

- Réponse aléatoire :

Item plus facile 1010101010101010101010 item plus difficile.

Aucun ordre logique en fonction de l’aptitude du sujet et de la difficulté des items ne peut être expliqué par la combinaison des réponses de ce sujet. Les réponses semblent aléatoires, des items difficiles ont été répondus correctement et des items faciles ont été échoués. L’hypothèse possible serait que le sujet a répondu d’une façon complètement aléatoire ou que le test ne l’intéressait pas. Ce type de mauvais ajustement n’a pas d’impact sur la qualité des données si très peu de sujets ont répondu de la même manière.

- Modèle de Guttman (modèle de mesure déterministe) : Item plus facile 1111111111100000000000 item plus difficile

C’est un mauvais ajustement, car le passage des items échoués aux items réussis est plus rapide que le modèle Rasch le prescrit, les résultats sont donc trop prévisibles (ce qui est appelé « hyper- ajustement » ou « Overfit »)

- Réponses influencées par un biais externe (tricherie, aide de l’examinateur, bruits..) :

Item plus facile 11111010101101101001010000 item plus difficile.

L’ordre des réponses de ce sujet semble correspondre au modèle idéal, sauf pour une série d’items où ses réponses deviennent inattendues sans toutefois suivre un nouveau modèle. Ce type de mauvais ajustement n’a pas d’impact sur la qualité des données si très peu de sujets ont répondu de la même manière. Il faudrait toutefois investiguer davantage afin d’identifier un potentiel biais de méthodologie.

Des situations similaires peuvent être rencontrées concernant les réponses de plusieurs sujets à un item:

- Erreur de syntaxe ou de formulation de l’item:

Personne la moins capable 0000000000111111111111 personne la plus capable Ce que la question de l’item demande n’est pas clair pour les sujets. Par exemple si la question est formulée à la forme négative, il ne serait pas clair si la réponse « oui » signifierait « d’accord » ou « pas d’accord ». Une correction de la codification s’impose afin de ne pas être en contradiction avec le reste du questionnaire.

- Biais de l’item par rapport à la sélection des sujets :

Personne la moins capable 1111111111100011100000 personne la plus capable Certains sujets semblent plus aptes à répondre que d’autres. Le sexe, l’âge ou l’ethnie peuvent être des raisons. Ce type de mauvais ajustement n’a pas d’impact sur la qualité des données.

- Influence d’une autre dimension:

Dans cette situation, il est impossible de prévoir les réponses aux items. Un facteur externe pourrait influencer la réponse aux questions, comme une autre dimension de l’item. L’item peut être considéré comme un item qui ne répond pas aux exigences de la modélisation Rasch et il serait possible de décider de le supprimer. (C’est ce qui est appelé « sous-ajustement » ou « Underfit »)

Une fois que les items ou sujets aux scores inattendus ont attiré notre attention. Comment décider s’il faut les exclure de notre modèle et si l’impact de leur score est assez important pour dégrader la qualité de notre mesure?

Des analyses d’investigation s’imposaient afin de guider la décision d’exclure ou non un item du modèle et d’apprécier si l’impact de son score était assez important pour dégrader la qualité de la mesure modélisée. Il s’agissait d’effectuer l’analyse de l’ajustement proprement dit au modèle Rasch. Ce qui est appelé en anglais l’analyse « Infit-Outfit». Cependant, même après toutes les analyses de ce type, le dernier mot quant au retrait ou à la conservation du sujet ou de l’item dans notre modèle revenait à la décision clinique et pratique de tolérer le mauvais ajustement au modèle. Les statistiques nous ont guidés, mais elles ne pouvaient pas «imposer» la décision. Il en est ainsi, car il est important d’apprécier les résultats des analyses statistiques afin de guider le sens des conclusions, mais il faut garder à l’esprit que l’objectif ultime est une application et une interprétation pratique qui ne peut être faite que par un jugement éclairé par des situations réelles d’application des conclusions.