• Aucun résultat trouvé

4. Chapitre 4 : Structure du questionnaire cognitif générique analysé

5.3. Application de la modélisation Rasch pour l’analyse des propriétés

5.3.2. Analyse de la qualité de la modélisation

5.3.2.2. Analyse des statistiques d’ajustement

5.3.2.2.1.

Corrélation des scores attendus et observés

Dans un modèle parfaitement ajusté, le score attendu est égal au score observé. Inutile de préciser qu’aucun modèle n’est parfait et que l’objectif, ici, était de s’approcher au maximum de cet idéal. Ce qu’il serait idéal de constater pour que le modèle soit considéré proche d’un ajustement parfait, c’est une différence minime de la probabilité de réussite d’un sujet à un item. Une différence de 5% (0,05) entre le score attendu et le score observé est fixée, par consensus, comme une valeur tolérée. Afin d’examiner la polarité des items, la corrélation entre les réponses aux items et l’aptitude des sujets a été explorée. Autrement dit, c’était la vérification d’un des concepts de base de la modélisation Rasch, plus l’item est difficile, plus la capacité cognitive d’une personne ayant répondu correctement est haute, et vice versa.

La corrélation bisériale ponctuelle, « point-measure correlation » en anglais, rapporte à quel point cette corrélation est avérée. Idéalement les chiffres doivent être largement positifs, ou dans le cas où un nombre est proche du zéro, une différence entre les mesures de corrélation observées et attendues doit être minime (maximum 0,05). Un point de mesure de corrélation négatif signifie que la réponse à l’item en question est en contradiction avec la direction de la mesure d’intérêt (la capacité cognitive). Une mauvaise corrélation pourrait être due à l’une des raisons de mauvais ajustements

citées dans la partie précédente (erreur d’inattention, tricherie, etc.). Pour investiguer davantage un item qui démontre une corrélation contradictoire, il a été utile d’avoir une vue d’ensemble de l’orientation de chaque item grâce à la carte des mesures empiriques des items (Annexe 3). De haut en bas les items sont classés en fonction de leur difficulté décroissante. Les séries de « 1 » et de « 0 » représentent les catégories de réponse possible à chaque item. L’espacement vertical des items correspond à l’espacement en unité Logit déterminé par la modélisation. L’ordre des « 1 » à droite et des « 0 » à gauche doit être respecté pour chaque item afin de certifier que la codification et les catégories de réponses de chaque item sont bien celles souhaitées et que la codification suit un ordre logique. L’espacement horizontal des « 1 » et des « 0 » est l’étendue de l’amélioration nécessaire de la capacité d’un sujet pour que la probabilité de réussite à l’item soit maximale. Ce qui veut dire que, plus cet espacement est important, plus les catégories échec (« 0 ») et réussite (« 1 ») sont éloignées. Dans ce cas, il aurait peut-être été pertinent d’ajouter une catégorie de réponse à l’item. De même que si l’espacement est minime, la discrimination entre réussite et échec n’est pas assez importante.

Une information importante, présentée dans cette carte, permettait de déterminer si le questionnaire est trop difficile pour la population cible. Il s’agit de l’appréciation de l’écart entre la moyenne des réponses observées (désignée par la lettre « M » sur l’axe des abscisses) et le score attendu moyen (Logit 0). Une échelle de mesure à but d’évaluation ne devrait pas avoir un écart de ses deux paramètres de plus de 1,5 Logit74-76 (80% de succès au test).

5.3.2.2.2.

Évaluation de l’ajustement (« Fit analysis »)

L’évaluation de l’ajustement des données au modèle Rasch consistait en l’interprétation des indices d’ajustement « Infit » et « Outfit ».

Afin de bien comprendre à quoi correspondent ces indices, il faut comprendre comment ils sont calculés et à quoi ils servent.

Ces indices quantifient l’ajustement des sujets et des items au modèle. Ce sont la somme des résidus standardisés des réponses de tous les sujets à un item, le « person-fit » et les réponses à tous les items par un sujet, le « item-fit ». L’ «Outfit » ou « Outlier-sensitive fit statistic » est la moyenne des carrés des résidus standardisés, il est très sensible aux réponses inattendues des sujets très éloignés de l’item. Plus simplement, les résidus étant la différence entre les scores calculés et ceux attendus pour un item donné. Un résidu standardisé est ajusté à la plage d’item composant l’échelle de mesure. Les résidus de chaque item sont élevés au carré afin d’éviter qu’ils s’annulent. La moyenne de ces résidus est calculée et c’est ce qui amène à la valeur du carré moyen de l’indice d’ajustement « Outfit ».

La valeur des carrés moyens de l’ « Outfit » quantifie l’éloignement des scores des sujets aux items des valeurs attendues selon le modèle Rasch. La valeur attendue en cas d’un ajustement parfait est égale à « 1 ». Afin d’évaluer si la valeur de cet éloignement du modèle attendu est significative, c’est- à-dire qu’elle a une influence statistiquement assez importante pour altérer la qualité de la modélisation, il faut examiner la statistique « ZSTD » OU « STanDardized as a Z-score »77, 78. Cette

statistique est la transformation de Wilson-Hilferty du carré moyen de l’indice d’ajustement. Elle teste l’hypothèse nulle que les données s’ajustent parfaitement au modèle. Si la valeur de cette statistique est comprise entre les valeurs +2 et –2 l’hypothèse nulle est acceptée et les données seront considérées ajustées au modèle. De la même façon, l’indice d’ajustement « Infit » est calculé (Infit est le diminutif de « Information-weighted fit statistic »). Le carré des résidus standardisés est multiplié par la variance du score attendu puis le résultat est divisé par la somme des variances des scores attendus. L’indice d’ajustement « Infit » est très sensible aux réponses inattendues situées très proche de l’item.

L’interprétation des indices d’ajustement a été faite, dans un premier temps, par l’appréciation de la quantité d’éloignement des réponses observées de celles attendues : les carrés moyens des indices « Infit » et « Outfit ».

Prenant l’exemple d’une situation où l’objectif est de composer une mélodie (dans le cas de ce projet, la composition d’une mélodie est une analogie de la construction de questionnaire cognitif. L’altération de cette mélodie correspond au mauvais ajustement des items du questionnaire au modèle Rasch), les indices d’ajustement permettent d’apprécier la qualité de cette mélodie tant au niveau des instruments et des accords qu’au niveau du volume du son. Lorsque la valeur des carrés moyens dépasse les valeurs tolérées 1 ± 0,5 (1 étant la valeur normale d’un ajustement parfait, 0,5 la marge d’erreur tolérée avant de considérer que la mélodie est altérée), plusieurs paliers sont possibles et chacun d’entre eux signifie une altération différente de la mélodie (ou de l’ajustement des items du questionnaire au modèle Rasch).

Si la valeur est comprise entre 1,5 et 0,5 : tout va bien la mélodie est proche de la perfection et il est grandement plaisant de l’écouter à n’en plus finir! Les items du questionnaire s’ajustent parfaitement au modèle Rasch et le questionnaire, les réponses observées sont quasi identiques à celles attendues.

Si la valeur est inférieure à 0,5 : la mélodie est toujours harmonieuse, mais le volume est au plus bas. Il est difficile d’entendre la mélodie, mais elle reste proche de ce qui est souhaité comme harmonie. C’est ce qui s’appelle l’ « hyper-ajustement » ou « Overfit ». Les scores augmentent plus rapidement que ce qui est prévu par le modèle. Ce cas de mauvais ajustement n’est pas considéré très altérant79,

car comme pour la mélodie, l’harmonie reste bonne. Les items du questionnaire dépassent l’ajustement prévu par le modèle Rasch, les réponses sont plus prévisibles qu’elles ne devraient.

Toutefois, Ce mauvais ajustement (sur ajustement) n’altère pas suffisamment la qualité du questionnaire pour être investiguer davantage en vue de les modifier ou de les supprimer.

Si la valeur est comprise entre 1,5 et 2 : plusieurs bruits externes viennent s’ajouter à la mélodie. Le résultat est une mélodie dont l’harmonie est différente de celle souhaitée. Le volume est bon, mais la mélodie est différente de celle prévue à cause des bruits ajoutés. C’est ce qui est appelé un « sous- ajustement » ou « Underfit ». Ce type de mauvais ajustement altère la mélodie, mais pas assez pour la dégrader. La mélodie composée ressemble à celle souhaitée et elle est encore audible, mais il n’est pas plaisant de l’écouter à n’en plus finir à cause des nuisances sonores qui se sont greffées. Dans ce cas les items sont moins ajustés au modèle Rasch que prévu. Les réponses aux items sont moins prévisibles qu’elles devraient. Certains facteurs peuvent influencer l’ajustement de ces items au modèle Rasch. Cependant, l’importance de mauvais ajustement (sous-ajustement) n’est pas assez importante pour altérer la qualité de la mesure. Ces items ne nécessiteraient une investigation plus approfondie en vue de les modifier ou de les supprimer du modèle seulement si ce mauvais ajustement et combiné à d’autres déviations statistiques de la modélisation Rasch.

Si la valeur est supérieure à 2 : c’est le cas le plus grave de mauvais ajustement. Dans ce cas la mélodie ne ressemble plus du tout à la mélodie composée. Des bruits surajoutés se sont greffés à la mélodie de base et ont un volume tellement haut qu’ils prennent le dessus et la mélodie n’est plus audible. La mélodie est complètement différente de celle souhaitée. De la même manière, une échelle de mesure se verrait altérée et sa qualité dégradée. Les items du questionnaire s’ajustent très mal au modèle Rasch. Les réponses ne sont pas prévisibles selon la modélisation Rasch, ce qui altère la qualité de l’échelle de mesure du questionnaire et nécessite une investigation approfondie afin d’apporter des modifications ou de les supprimer.

Une fois que le mauvais ajustement au modèle a été identifié et quantifié, il a fallu évaluer si cette quantité était significative au moyen de la statistique « ZSTD » tenant en compte que toute valeur qui n’était pas comprise entre +2 et -2 était suspecte demandant une évaluation plus approfondie afin d’établir si l’item ou le sujet en question méritait d’être exclu du modèle ou du moins d’examiner les raisons pour expliquer ces réponses très inattendues.