A NDRÉ F LIELLER
Méthodes d’étude de l’adéquation au modèle logistique à un paramètre (modèle de Rasch)
Mathématiques et sciences humaines, tome 127 (1994), p. 19-47
<http://www.numdam.org/item?id=MSH_1994__127__19_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1994, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
MÉTHODES D’ÉTUDE
DEL’ADÉQUATION
AUMODÈLE LOGISTIQUE
A UN
PARAMÈTRE (MODÈLE
DERASCH)
André FLIELLER*
RÉSUMÉ - Le modèle de Rasch, ou modèle logistique de réponse à l’item à un
paramètre,
constitue uneavancée
méthodologique
importante, mais l’étude del’adéquation
de données empiriques à ce modèle ne va passans
problème.
Après une brève présentation du modèle de Rasch, l’article discute certainsproblèmes
générauxrencontrés dans les études
d’adéquation.
Vingt-quatre testsd’adéquation,
graphiques et statistiques sont ensuite présentés et évalués. La nécessitéd’employer
plusieurs méthodes d’évaluation est soulignée dans la conclusion.SUMMARY - Methods of assessment of Rasch’s model-data fit : A review.
Studying
modeldata fit
is aproblem
while employing Rasch model (one-parameter item response model). Aftera
brief
presentation of the Rasch model, this article discutes some generalproblems
encountererd in the evaluation of item fit. Then 24 tests of item fit, both graphic and statistical, arepresented
and evaluated. Thenecessity of employing several methods of evaluation is enhanced in the conclusion.
Les modèles de
réponse
àl’item,
dont leplus
connu est le modèle deRasch,
constituent uneavancée
méthodologique importante, susceptible
d’intéresser les chercheurs de diverses sciencessociales,
notamment lapsychologie,
les sciences de l’éducation et lasociologie.
Trèsutilisés aux
États-Unis,
au Canada et dans divers payseuropéens,
tels que laGrande-Bretagne,
les
Pays-Bas
ou leDanemark,
ils demeurentlargement ignorés
des chercheursfrançais.
Cettesituation devrait évoluer favorablement sous l’effet de
plusieurs facteurs, parmi lesquels
l’intérêt
porté
parplusieurs équipes
de recherche à la mesureadaptative,
une desapplications privilégiées
de cesmodèles,
et, surtout, ledéveloppement
deslogiciels
pourmicro-ordinateurs, qui permettent
de mettre en oeuvre ces modèles defaçon beaucoup plus simple qu’il
y a une dizaine d’années.Cet article offre des
repères méthodologiques
au chercheur désireux d’utiliser le modèle de Rasch. Il est centré sur les méthodespermettant
d’évaluerl’adéquation
des données au modèle .Cette
évaluation, qui joue
un rôle central dans l’utilisationjudicieuse
dumodèle,
suscite en effet de nombreuses difficultés. L’information fournie par les manuels deslogiciels
étanttrop sommaire,
le chercheur se trouverenvoyé
à une littératurespécialisée
etéparse
dont la lecture lui faitrapidement
découvrir quechaque
méthode pose desproblèmes
dontbeaucoup
n’ont pasde solution véritablement satisfaisante. D’autre
part,
les testsd’adéquation proposent
des critères de décision que seule uneexpérience
suffisantepermet d’appliquer judicieusement.
Appliqués
aux mêmesdonnées,
ils conduisentparfois
à des conclusions contradictoires(on
entrouvera un
exemple
dansReiser, 1989) qui
laissent l’utilisateurdésemparé. L’adéquation
desdonnées au modèle pose des
problèmes particuliers
dans le cas du modèle de Rasch. Lasimplicité
de ce modèle a pourcontrepartie
desexigences
très fortesqui
ont peu de chances*ADEPS (URA CNRS 1167), Université de Nancy II, C.O. n° 26, F-54015 Nancy Cedex
d’être satisfaites en totalité. En
effet,
comme le fait observer Hambleton(1989,
p.173),
"theless restrictive the
assumptions,
the morelikely
a model fits the data to which it isapplied".
Lorsqu’on
étudie une échelle à l’aide du modèle deRasch,
on est amené à constater dans laplupart
des casqu’elle n’y
est pas conforme. Onpeut
certesespérer
que lasuppression
decertains items
permettrait
d’obtenir une meilleureadéquation.
Mais il reste à déterminerlesquels
et à décider si l’échelle obtenue est
acceptable
ou non, cequi
est souvent loin d’être évident.Ce sont ces difficultés
qui
nous ont conduit à proposer laprésente
revue dequestion.
Ellecomporte trois
parties.
Lapremière présente
le modèle. Cettepartie
donnequelques
détails surl’estimation des
paramètres
en raison du lienqui
unit cettequestion
et celle de l’évaluation del’adéquation.
La deuxièmepartie
examine lesproblèmes généraux
que l’on rencontrelorsqu’on
étudie
l’adéquation
des données au modèle. La troisième expose et évaluevingt-quatre
testsd’adéquation.
1. LE
MODÈLE
DE RASCH l.l.Objectif
du modèleLe modèle de Rasch
(1960/1980)
est une tentative pourrapprocher
les sciences sociales des sciencesphysiques
etbiologiques.
Selon l’auteur(1977),
la différence essentielle entre cesdeux
catégories
de sciences est ledegré d’objectivité
des mesures. Rasch entend«objectivité»
dans un sens
particulier qu’il
convient depréciser. L’objectivité
dont il estquestion
ne concernepas
l’indépendance
de l’observation parrapport
àl’observateur,
conditiongénéralement
satisfaite dans les sciences sociales.
L’objectivité
au sens de Rasch concernel’indépendance
dela mesure par
rapport
à l’instrument de mesure. Cette deuxième formed’objectivité, appelée objectivité spécifique
parRasch,
est atteinte dans les sciencesphysiques,
mais ne l’est pas habituellement dans les sciences sociales. Une mesurephysique,
telle que lalongueur
d’unobjet,
estindépendante
de l’instrumentqui permet
del’obtenir,
en ce sensqu’il
n’est pas besoin despécifier
l’instrument utilisé(double-mètre, règle graduée,
mètre decouturière, etc.).
Unegrande partie
des mesures effectuées dans les sciences sociales nepeuvent
au contraire êtreinterprétées
sans référence à l’instrumentemployé.
Parexemple,
lasignification
du scoreobtenu par un
sujet
dans un test lexicaldépend
del’épreuve utilisée ;
elle varie selon que lesquestions posées
sont difficiles ou élémentaires. Pour remédier à cetinconvénient,
on effectue habituellement une transformation du score brut destinée à situer la personne dans un groupe de référence. Mais ces mesures normativesdépendent
étroitement du groupe de référencechoisi,
de sorte que leproblème
n’est pasréglé,
mais seulementdéplacé.
La mesure desobjets
manquetout autant
d’objectivité
que celle des personnes. Comment parexemple
caractériser ledegré
dedifficulté d’un item ? La
fréquence
relative des réussites à l’item du test donne uneindication,
mais elle
dépend
à l’évidence du groupe surlaquelle
elle est calculée. La mesure d’un itemdépend
donc des personnesauxquelles
onl’applique
et la mesure d’une personnedépend
desitems ou, dans le cas des mesures
normatives,
du groupe de référence choisi.Le modèle de Rasch vise à surmonter ce double écueil. Il se propose de fournir des
mesures
objectives,
c’est-à-dire des mesures de personnesindépendantes
à la fois les unes desautres et des stimuli
utilisés,
et des mesures de stimuliindépendantes
des personnesauxquelles
on les
applique.
Avantd’exposer
cemodèle,
il nousparaît
utile d’enpréciser
lechamp d’application.
Le modèle été élaboré dans le contexte de la mesure descompétences cognitives.
Rasch
(1977) explique
que leproblème
del’objectivité
des mesures lui est apparu crucialquand
il a été
chargé
d’évaluer lescapacités
de lecture dejeunes
adultes. Laterminologie
utilisée(«compétence»
del’individu,
«difficulté» del’item) porte
la trace de cetteorigine. Cependant
les
problèmes
mentionnés ci-dessus sont desproblèmes généraux qui
nedépendent
ni dutype
d’instrument utilisé(questionnaire,
échelled’évaluation, test...),
ni dutype
deconcept
mesuré(attitude, utilité, aptitude...),
ni du domaineempirique
où la mesure estpratiquée.
Le modèle de Raschprésente
donc un intérêtgénéral
pour les sciences sociales. En s’en tenant à la littératurefrançaise
-au demeurant très limitée- onpeut
trouver desexemples d’application
à desquestions
aussi diverses que la mesure de la
pauvreté (Dickes, 1983),
de ladélinquance (Dickes
&Hausman, 1983),
descapacités
de raisonnement(Flieller, 1989)
ou de ladépression (Bonis, Féline,
Lebeaux &Simon, 1994).
1.2. Le modèle
Le modèle de Rasch concerne les items
dichotomiques
où les deuxréponses possibles,
codées1 et
0,
sont ordonnées. Les donnéesanalysables
à l’aide du modèle seprésentent
sous la formed’une matrice
(N
xk)
dont les cellulescorrespondent
auxréponses
de Nsujets
à k itemsdichotomiques.
Le modèle de Rasch est un modèle
probabiliste
deréponse
à l’item : ilexprime
la relationentre la
probabilité
d’uneréponse spécifiée (celle
codée1)
et la mesure dusujet
et de l’item dansune dimension
inobservable, appelée
dimensionlatente,
dont l’item est un indicateur. Le modèle suppose que laprobabilité
de laréponse
nedépend
que de deuxfacteurs,
l’unconcernant le
sujet,
l’autre l’item. Lepremier
facteur est la mesure dusujet
dans la dimensionlatente,
que l’onappelle compétence
dusujet (8),
maisqu’il
seraitpréférable d’appeler
avecAndrich
(1988,
p.25)
localisation dusujet
sur la dimension latente. Plus lacompétence
dusujet
est
élevée, plus
laprobabilité qu’il
fournisse laréponse
codée 1 est élevée. Le deuxième facteur de variation de laréponse
est la mesure de l’item dans la dimensionlatente, appelée
difficulté oulocalisation de l’item
(b) : plus
elle estélevée, plus
laprobabilité
que lesujet
donne laréponse
1est basse. La
probabilité
de laréponse
à l’item est une fonctionlogistique
de(8 - b),
fonctionchoisie en raison de sa croissance monotone, de son intervalle de variation et de sa
simplicité
relative.
Le modèle s’écrit :
où
Psi
est laprobabilité
que lesujet
s fournisse laréponse
codée 1 à l’itemi,
8 est la localisation de s, et b la localisation de i. On déduit de[ 1 ]
la valeur durapport
entrePsi
et sacomplémentaire Qsi :
qui
constitue une autre écriture du modèle.Pour un item
donné,
la courbereprésentative
dePsi
estappelée
courbecaractéristique de
l’item
(CCI).
Lepoint
d’inflexion de la courbe a pour coordonnées(b, 0,5).
Ilapparaît
ainsique la localisation de l’item
correspond
à la valeur de 8 pourlaquelle
l’itemapporte
le maximum d’information.1.3.
Hypothèses
du modèleLe modèle
implique
deuxhypothèses principales :
l’unidimensionnalité etl’indépendance
locale.
Selon
l’hypothèse
d’unidimentionnalité les items mesurent une même etunique
dimensionlatente. Le
concept
d’unidimensionnalitéappelle quelques
remarques. Enpremier
lieul’unidimensionnalité est relative à un niveau
d’observation,
en l’occurrence l’item. Elleexprime
l’existence d’une cohérence entre les
réponses
d’unsujet
confronté à des itemsdifférents,
cohérence que l’onexplique
par leconcept
mesuré. Mais comme le fait remarquerWhitely
(1980),
l’unidimensionnalité ainsi constatée n’est pas contradictoire avec l’existence de processus différentssous-jacents
auxréponses fournies, qu’une
observationplus
finepermettrait
dedistinguer.
En secondlieu,
l’unidimensionnalité des données n’estjamais
parfaite.
Ellen’est,
comme lesouligne
Reuchlin(1992), qu’une hypothèse
vérifiée à un certainniveau
d’approximation. L’hypothèse
estacceptée quand
les écarts des données parrapport
aumodèle peuvent être tenues pour aléatoires. En troisième
lieu,
unjugement
d’unidimensionnalitédépend
del’opérationnalisation choisie,
comme le fait bienapparaître
la revue de Hattie(1985).
Selon la deuxième
hypothèse
dumodèle,
laprobabilité
d’un vecteur(UI,
u2,...,uk)
deréponses
estégale
auproduit
des kprobabilités
deréponse
dusujet
aux items :où u est le vecteur de
réponses
et ui laréponse
dusujet
à l’item i(ui
= 1 ou ui =0).
Lacondition
d’indépendance
localeexige
donc que laréponse
d’unsujet
à un item ne soit pas affectée par lesréponses qu’il
a données aux items antérieurs. C’est unehypothèse
forte donton ne se
prive
pas de discuter le réalisme(v.g. Goldstein, 1980)
etqui
n’est d’ailleurs querarement testée. Elle constitue sans doute une des limites les
plus importantes
du modèle deRasch ;
mais cette réserves’applique
aux nombreux autres modèles de mesurequi
supposent,eux
aussi, l’indépendance
locale. Si cette condition estsatisfaite,
la corrélation entren’importe quelle paire
d’items est nullequand
on tient 8 constant ; la variable latente est donc la seulesource de covariation des
items,
cequi
veut dire en d’autres termes que l’échelle estunidimensionnelle.
Réciproquement,
si l’échelle estunidimensionnelle,
la variable latente constitue la seule source de covariation des items et la conditiond’indépendance
locale estsatisfaite. Bien
qu’il n’y
ait pas unanimité sur cepoint,
on peut donc considérer quel’indépendance
locale est uneopérationnalisation
de l’unidilnensionnalité( Gustafsson,1980 ; Hambleton, 1989 ;
Lord &Novick, 1968).
1.4.
Propriétés
du modèleL’échelle, qui
mesureconjointement
9 etb,
est une échelle d’intervalles dontl’origine
estindéterminée : comme on
peut
le vérifierfacilement, Psi
nechange
pas si l’onajoute
ouretranche une constante à 8 et à b. Il faut donc fixer
l’origine.
La solution laplus fréquente
consiste à standardiser le
paramètre
b.Une
propriété spécifique
du modèle de Rasch est que les items sont caractérisésuniquement
par leur localisation. Pour cette raison le modèle de Rasch estfréquemment appelé
modèle à un
paramètre (sous-entendu
«d’item»puisque
le modèlecomporte également
unparamètre
relatif ausujet).
Cettecaractéristique
constitue une différencecapitale
entre le modèlede Rasch et d’autres modèles
logistiques qui
admettent que les itemspuissent
varierégalement
par leur
discrimination, (c’est-à-dire
lapente
de leurtangente
aupoint
d’inflexion de laCCI, qui
reflète le
pouvoir
discriminant de l’item : la variation de laprobabilité
de laréponse
codée 1résultant d’une variation de 8 est d’autant
plus
forte que lapente
estforte).
Dans le modèle deRasch,
tous les items ont la même discrimination. Il s’ensuit que le modèle de Rasch est un modèlehiérarchique : (V 8)
sibi > bj,
alorsPsi> P,,
Le modèle de Raschs’apparente
ainsiau modèle de Guttman. j.
Le modèle de Rasch
s’apparente
AinsiLa
propriété
laplus remarquable
du modèle estl’objectivité
des mesuresqu’il
autorise.Cette
objectivité
se traduit par l’invariance desparamètres :
si une échelle estraschienne,
lamesure d’un
sujet
nedépend
pas du sous-ensemble d’items et,réciproquement,
la localisation de l’item nedépend
pas du sous-échantillon desujets.
L’invariance de la localisation dessujets
sur le trait latent a des
applications
intéressantes. Elle rendpossible
lacomparaison
de mesuresobtenues dans une étude
longitudinale
avec des instruments différents(sous
réserve bien sûr que leurs items forment une échelleraschienne).
Elle facilite aussigrandement
la mesureadaptative, qui
consiste à sélectionner dans unpool
d’items ceux les mieuxadaptés
ausujets,
ceci
permet
d’obtenir des mesuresplus précises
avec moins d’items que dans laprocédure classique,
où les mêmes items sont donnés à tous lessujets.
L’invariance de la localisation des itemspermet également
de détecter les itemsbiaisés,
cequi
constitue uneapplication
intéressante pour les
comparaisons
de groupes(nationalité,
classesociale,
sexe,etc.).
On ditqu’un
item est biaiséquand Psi
nedépend
pas seulement de la mesure de s dans la dimensionlatente,
maiségalement
du groupeauquel
ilappartient.
Ce fonctionnement différentiel de l’item(differential
itemfunctioning) peut
être détecté à l’aide du modèle de Rasch encomparant
la valeur de b dans les deux groupes : une variationsignificative
de b est indicatrice d’un biais.Insistons sur le fait que l’invariance des
paramètres
est unepropriété
dumodèle ;
pour que des donnéesempiriques
bénéficient de cettepropriété,
il fautqu’elles
soient conformes au modèle.1.5. Estimation des
paramètres
Un dernier
point
à considérer dans cetteprésentation
est l’estimation desparamètres
b et 8Un des
avantages
du modèle de Rasch parrapport
aux autres modèleslogistiques
est que le nombre deparamètres
à estimer y estplus
faible. D’unepart,
iln’y
aqu’un paramètre
à estimerpar item. D’autre
part,
on démontre que le score r dusujet
est unestatistique suffisante
pour l’estimation de8,
de sorte que lessujets ayant
le même score dans l’échelle ont la même mesuredans la dimension latente. Le nombre des
paramètres
à estimer passe ainsi de(k+N-1 )
à2(k-l),
N étant le nombre de
sujets
et k le nombre d’items 1La méthode d’estimation la
plus
courante est celle du maximum de vraisemblance. Ensupposant
la conditiond’indépendance
localesatisfaite,
la vraisemblance de la matrice desréponses
est :où us est le vecteur des
réponses
dusujet
s(i.e.
uneligne
de lamatrice),
0 est le vecteur des Nparamètres 8,
b est le vecteur des kparamètres b,
et oùPsi Qsiu
est laprobabilité
de laréponse
u dusujet
s à l’item i(probabilité égale
àPsi
si u = 1 et àQS;
si u =0).
La méthode consistant à estimer les
paramètres
en maximisant la fonction[4]
estappelée
méthode du maximum de vraisemblance
conjoint (JML : joint
maximumlikelihood).
Cetteméthode pose de sérieux
problèmes.
Laquestion
de savoir si le maximum est absolu ouseulement local est débattue. La non consistance des estimateurs obtenus par le JML est, en
revanche,
reconnue par tous les auteurs. Le JML conduit en effet à estimer simultanément desparamètres
structuraux(bi),
dont le nombre estfixe,
et desparamètres
incidents(8s),
dont lenombre
augmente
en mêmetemps
que le nombre desujets.
Or on montre que les estimateurs desparamètres
structuraux nepeuvent
être consistantsquand
ils sont estimés en mêmetemps
que desparamètres
incidents. Andersen(1973, a)
en a fourni la démonstration pour le modèle de Rasch. Le JML estcependant
utilisé dans des programmesrépandus,
tel BICAL.2Comme la non consistance des estimateurs des
paramètres
structuraux est due à laprésence
des
paramètres incidents,
onpeut
résoudre leproblème
en ne faisant pas intervenir la localisation dessujets
dans l’estimation de la localisation des items. C’estl’objectif
de laméthode du maximum de vraisemblance conditionnel
(CML :
conditional maximumlikelihood) proposée
par Andersen(1972).
Le score r dusujet
étant unestatistique
suffisante pour 8 il estpossible d’exprimer
la fonction de vraisemblance en fonction de. r. Laprobabilité
pour unsujet
s localisé en 6 de fournir un vecteur u de k
réponses
sachant que son score total est r estégale
au rapport entre la
probabilité
conditionnelle de u par rapport à 8 et de laprobabilité
conditionnelle de r par rapport à 8 :
1 Comme il est impossible d’estimer la compétence des sujets dont le score est nul ou parfait, il y a (k-1) scores possibles et donc 2(k-1) paramètres à estimer.
2 Wright, auteur de BICAL, a montré que le JML fournissait des estimations satisfaisantes lorsqu’on
introduisait un facteur de correction (Wright & Douglas, 1977).
On établit que
où ui est la
réponse
à l’itemi, bi
est la localisation de i et oùYr, appelé fonction symétrique
élémentaire d’ordre r, est défini ainsi :
1, symbolisant
la somme étendue auxCk
vecteurs deréponses possibles permettant
d’obtenir le score r.Ainsi,
en conditionnant P(u)
parrapport
à r, on élimine leparamètre
8. La fonctionde vraisemblance pour N
sujets
se déduit directement de[6] :
où r est le vecteur des N scores r des
sujets.
Cette fonction de vraisemblance ne fait pas intervenir lesparamètres incidents,
de sorte que les estimateurs desparamètres
structuraux(localisation
desitems)
sont consistants. Le CMLprésente l’avantage supplémentaire
sur leJML de
comporter
des testsd’adéquation
auxpropriétés statistiques
connues(Gustafsson3 1980, b). Cependant
le calcul des fonctionssymétriques
pose certainsproblèmes techniques.
La fonction
symétrique
d’ordre r est une sommecomportant Ck produits
de r termes. Dans uneéchelle de 60 items par
exemple
la fonctionsymétrique
d’ordre 30comporte plus
delu produits
de 30 termes. On est doncobligé
deplafonner
le nombre d’items. Lespremiers
programmes
(tel
celui deWright
&Douglas, 1977)
nepermettaient
pasd’analyser
des échelles deplus
de 15 items.L’algorithme
de Gustafsson(1980, a),
mis en oeuvre dans le programmePML,
apermis
de repousser cettelimite ;
dans la version actuelle de PML pour micro- ordinateur elle est fixée à 60 items. Cesproblèmes
de calculexpliquent pourquoi
la localisation dessujets, qu’on pourrait
enprincipe
estimer en conditionnantP(u)
parrapport
au score del’item,
est estimée en donnant auxparamètres bi
les valeursprécédemment
obtenues par le CML.L’estimation de la localisation des items par le CML est propre au modèle de Rasch. Dans les autres modèles
logistiques,
cette méthode d’estimation estimpossible,
parce que r n’est pasune
statistique
suffisante. On a donc recherché un autre moyen de s’affranchir desparamètres
incidents. Bock et Aitkin
(1981)
ontproposé
une méthodeappelée
méthode du maximum de vraisemblancemarginal (MML : marginal
maximumlikelihood).
Elle suppose de connaître la fonction de densité de 8. Enappelant g(8)
cette fonction etP(u 18)
laprobabilité
du vecteur(ul,u2,...,uk)
pour unsujet
localisé en 8 laprobabilité
dite«marginale»
de u est :Si la matrice de
réponses
des Nsujets comporte
v vecteurs distinctsreprésentés
f foischacun,
sa vraisemblance est :
Cette fonction ne fait pas intervenir les
paramètres
incidents. On trouvera dans l’article de Bocket Aitkin des
précisions techniques
sur la résolution deséquations
de vraisemblance. Thissen(1982)
montre sur unexemple
que les estimateurs obtenus par le MML et le CML sontproches.
Signalons
toutefois que le MMLexige
des effectifsplus importants
et destemps
de calculsplus longs
que le CML. Le MML est la méthode d’estimation utilisée par BILOG(Mislevy
&Bock,
1990), logiciel
trèsemployé
et fiable si l’on se réfère aux simulations de Yen(1987).
3 L’auteur considère même que la consistance présente un intérêt secondaire, dans la mesure où les estimateurs obtenus par le JML sont, après correction, proches de ceux obtenus par le CML.
Un des inconvénients du maximum de vraisemblance est
qu’il
ne permet pas d’estimer la localisation des items et dessujets
à scoreparfait
ou nul. Ces items auraient une difficulté infinimentgrande
oupetite
et cessujets
auraient unecompétence
infinimentgrande
oupetite,
cequi
n’aempiriquement
pas de sens. Pour éviter ceproblème
onsupprime
toutsimplement
lesitems et
sujets
à scoreparfait
ou nul. Mais cetteprocédure
a desconséquences pratiques fâcheuses ;
elleempêche
parexemple
le calcul de lacompétence
moyenne dessujets
del’échantillon initial. C’est une des raisons
qui
ontpoussé
Swaminathan et Gifford(1982)
àélaborer une
procédure
d’estimationbayésienne.
Pour le modèle deRasch,
l’intérêt d’uneprocédure bayésienne
concerne surtout l’estimation de la localisation dessujets4 ;
c’estd’ailleurs la
procédure
par défaut de BILOG.Supposons
que la localisation des items ait étéestimée,
par le MML parexemple,
et que l’on veuille estimer la localisation dessujets.
L’estimation
bayésienne
consiste à supposer que la distribution de 8 est connue apriori
et àexploiter
cette information dans laprocédure
d’estimation de 8. Le théorème deBayes permet
d’établir que la densité aposteriori
de 8 estégale
auproduit
de la fonction de vraisemblance de la matrice desréponses
et de la densité apriori
des N valeurs de 8 :formule que l’on
peut
écrire defaçon plus
concise ainsi :où 0
désigne
le vecteur des localisations dessujets,
et U la matrice desréponses
observées. La fonction de vraisemblanceL(U 1 8)
est donnée par la formule[4] ;
la seuledifférence,
maisimportante,
est queL(U)
n’est pas conditionnée par bpuisque
l’on connaît les valeurs desbi.
On suppose en
général
que 8 suit la loi normaleréduite ; f(8s)
est donc la densité de9 S
dans laloi normale réduite. Les estimateurs
bayésiens
de 8 sont les valeursqui
maximisentf(0
1U).
Le lecteur intéressé par le modèle de Rasch gagnera à
compléter
son information sur les diverses méthodes d’estimation desparamètres.
Il pourra sereporter
auxpublications originales
mentionnées et à l’excellente revue de
question
de Baker(1987).
Pour des informationscomplémentaires
sur le modèle deRasch,
onpeut
consulter les manuels de Andrich(1988)
et deWright
et Stone(1979),
ainsi quel’ouvrage
de Hambleton et Swaminathan(1985)
consacré auxmodèles de
réponse
à l’item.2.
PROBLÈMES GÉNÉRAUX RENCONTRES
DANS LESÉTUDES D’ADÉQUATION
Nous avons
regroupé
dans cettepartie
un certain nombre deproblèmes généraux posés
par l’évaluation del’adéquation
des données au modèle. Deux de cesproblèmes
sont liés aux testsd’adéquation
eux-mêmes. On se demande s’ils sont suffisamment sensibles à la multidimensionnalité éventuelle de l’échelle étudiée(§ 2.1 )
et on montre quel’utilisation,
souvent
nécessaire,
d’une distributionasymptotique
nuit àl’objectivité
de l’évaluation del’adéquation (§ 2.2).
Les troisproblèmes
suivantsdépendent davantage
des choixopérés
par le chercheur. Lepremier
est le niveaud’analyse :
l’échelle oul’item ;
lesavantages
et inconvénients dechaque
niveau sont discutés. Le deuxièmeproblème
concerne lasuppression
des items non
conformes, pratique
courante chez les chercheurs utilisant le modèle de Rasch maiscependant
discutable. Le troisièmeproblème, plus technique,
concerne le critère à utiliser pour effectuer unepartition
de l’échantillonlorsque
le testl’exige,
cequi
estfréquent.
L’habitude est d’effectuer une
partition
selon le score total dusujet,
mais elle est vivementcritiquée
par certains auteurs. Le sixièmeparagraphe
attire l’attention sur les contraintes que leslogiciels imposent
au chercheur. Le dernierparagraphe signale
les effets de l’estimation desparamètres
sur la mesure del’adéquation,
effets insuffisammentpris
encompte
engénéral.
4 Il en va différemment du modèle à deux paramètres où le
principal
intérêt de l’estimation bayésienne est decontraindre le paramètre de discrimination, à rester dans des limites acceptables.
2.1. Sensibilité des tests à la multidimensionnalité
Plusieurs auteurs ont mis en évidence l’insensibilité
possible
des testsd’adéquation
usuels à la violation de la condition d’unidimensionnalité définie ci-dessus(§ 1.3).
Goldstein(1980)
obtient un bon indice
global d’adéquation
pour un test demathématiques
alors que deux facteurscorrespondant
l’un aux itemsd’algèbre,
et l’autre aux items degéométrie,
sont trouvéspar ailleurs. Gustafsson et Lindblad
(1978,
cités parGustafsson, 1980)
obtiennent des résultats similaires avec unquestionnaire
dont le caractère multidimensionnel est établi dans une étudepréalable.
Van denWollenberg (1982, b,
p.126)
énonce un ensemble de conditionsqui, réunies,
sont suffisantes pour que la bidimensionnalité d’une échelle nepuisse
être détectée à l’aide des testsd’adéquation
courants : "When two Raschhomogeneous
tests haveequal
itemparameters
vectors and the traits follow the same distribution and when furthermore thesample
is
partitioned
on the basis of the raw score, then the concatenation of the two tests behaves Raschhomogeneously
in the sense that the itemparameter
estimates are, within chancelimits, equal
oversamples".
Sous les conditionsénoncées,
deux échelles raschiennes toutesdeux,
mais mesurant deux dimensions latentes différentes forment
donc, lorsqu’elles
sontréunies,
une échelle conforme au modèle de Rasch pour tous les tests
d’adéquation impliquant
unepartition
de l’échantillon sur la base du score total dessujets.
L’auteur montre à l’aide de données simulées que lesprédictions théoriques
sont vérifiéesempiriquement.
Le théorème devan den
Wollenberg,
dont on trouvera uneinterprétation géométrique
dans l’articlecité,
estplus important théoriquement
quepratiquement,
car les conditionsstipulées
ont peu de chances d’être satisfaites. Mais il prouve que des tests solidement fondés etjugés
par ailleurstrop puissants,
tels le testd’Andersen, peuvent
donner l’illusion d’une excellenteadéquation
aumodèle,
alors que l’échelleanalysée
estcomposée
d’items serapportant
à des dimensionsconceptuellement
distinctes. Les testsd’adéquation
lesplus
solides sont donc faillibles. Notons que le théorème se borne à définir un ensemble de conditions suffisantes pour que les tests échouent. Selon l’auteur il estpossible
que d’autres conditions aboutissent au même résultat.Il est donc recommandé de ne pas se fier
aveuglément
aux testd’adéquation
et de vérifier l’unidimensionnalité par d’autres méthodes. Des indicationstechniques peuvent
être trouvées dans Hambleton(1989)
et dans Hattie(1985).
Un inconvénient des méthodespréconisées
parces auteurs est
qu’elles
sont souvent lourdes à mettre en oeuvre. Onpeut
donc réserver leuremploi
aux cas où des raisonsthéoriques
amènent à douter de l’unidimensionnalité de l’échelle.Un contrôle est alors
indispensable.
Les réserves faites dans ce
paragraphe
invitent à un certaineprudence
mais ne doivent pas faire oublier que dans de nombreux cas la violation de l’unidimensionnalité est détectée par lestests
d’adéquation.
L’article de van denWollenberg comporte
d’ailleurs des simulationsqui
lemontrent.
2.2. La distribution des
statistiques d’adéquation
La distribution des
statistiques d’adéquation
n’est connue leplus
souvent que defaçon asymptotique.
Ceci entraîne unproblème
bien connu(v.g.
Hambleton &Swaminathan, 1985 ;
Traub & Lam
1985 ; Rogers & Hattie, 1987) :
pour estimer correctement laprobabilité
de lastatistique d’adéquation
il fautdisposer
d’un effectifimportant
desujets,
mais un tel effectifrisque
de rendretrop puissant
le test utilisé. Onpeut
remarquer avec Hambleton(1989) qu’il
existe toutefois deux cas
privilégiés
oùl’interprétation
des résultats obtenus est assez claire : celui oùl’adéquation
estbonne,
bien que l’effectif dessujets
soit élevé(N
>1000),
et celui oùl’adéquation
estmauvaise,
bien que l’effectif soit faible(N 300). Lorsque
l’effectif estimportant,
cequi
estsouhaitable,
la solution habituelle auproblème
de lasurpuissance
consisteà abaisser le seuil de
signification (0,001
est un seuilcourant).
Mais cette solutionempirique
comporte beaucoup d’inconvénients,
faute de norme fiable et consensuelle sur le seuil àadopter
en fonction du test
utilisé,
de la taille de l’échantillon et du nombre d’items. Le chercheur se voitexposé
aurisque
de choisir le seuil en fonction des résultatsqu’il
souhaiterait obtenir. Ledébutant manque totalement de
repères
pour choisir un seuil convenable. L’évaluation externed’une recherche est difficile en l’absence d’un critère
objectif
pourjuger
les décisionsprises
par l’auteur. Il serait à notre avis fort utile de déterminer au moyen de simulations les seuils les mieuxadaptés
à divers cas defigure.
Il arrive
parfois
que l’on connaisse la distribution exacte de lastatistique d’adéquation,
mais que l’on
préfère l’approcher
par une autre distributionqui simplifie
les calculs. Cetteapproximation
n’estlégitime
que si l’effectif dessujets
est suffisammentimportant.
Ce n’estgénéralement
pas le cas pour les testsultra-analytiques (cf. §
2.3ci-dessous), puisque l’analyse porte
sur des sous-échantillons à faibles effectifs. La distribution exacte doit êtrepréférée
à ladistribution
asymptotique
dans cetype
de test(Molenaar, 1983).
2.3. Le choix du niveau
d’analyse
L’adéquation
des données au modèlepeut
être étudiée soit au niveau del’échelle,
soit au niveau de l’item.Lorsqu’on
seplace
au niveau del’item,
onpeut
considérer soit l’échantillon dessujets
dans satotalité,
soit des sous-échantillonscorrespondant
à des niveaux decompétence
différents. Il existe donc trois niveaux
d’analyse possibles.
La littérature ne retient ordinairement que les deuxpremiers
et oppose les testsglobaux, portant
sur la totalité del’échelle,
aux testsanalytiques, portant
sur chacun desitems ;
noussuggérons d’appeler
«ultra-analytiques»
les méthodes(graphiques,
testsstatistiques) permettant
d’étudierl’adéquation
desdonnées au modèle par item et par groupe de
compétence. Remarquons
que la distinction entretests
globaux
et testsanalytiques
concernedavantage
les niveauxd’analyse
que les tests eux-mêmes,
car laplupart
des testsanalytiques permettent
d’obtenir par sommation une mesure del’adéquation globale.
Chaque
niveaud’analyse présente
sesavantages
et ses inconvénients et aucun ne devrait êtreprivilégié systématiquement. L’avantage
des testsglobaux
est leur caractèresynthétique.
Enrevanche,
ils sont souvent troppuissants
etbeaucoup
d’auteurs renoncent à lesemployer.
Cepoint
de vue se laisse discuter. Les conditions danslesquelles
les testsglobaux
sont troppuissants
ne sont pas bien connues et demanderaient à êtrepréciser
par des études de simulation. Enattendant,
il faut segarder d’invoquer trop
facilementl’argument
de lasurpuissance
de ces tests pourexpliquer
la non conformité des donnéesanalysées.
D’autrepart
leproblème
depuissance peut
être évité en utilisant les testsglobaux
de manièredescriptive.
Onpeut
ainsi étudier comment évoluel’adéquation
de l’échellequand
elle subit des modifications.Les tests
analytiques
sont trèsemployés
parcequ’ils permettent
d’identifier les items nonconformes. Mais leur utilisation est
problématique lorsqu’elle
est solidaire d’unepratique
consistant à
supprimer
les items non conformes sur la seule base des testsd’adéquation, stratégie
dont nous verrons les limites auprochain paragraphe. Quant
aux tests ultra-analytiques,
leur intérêt est depermettre
undiagnostic approfondi
del’adéquation
d’unitem,
dont des
exemples
sont donnés parHambleton,
Swaminathan etRogers ( 1991 )
et par Molenaar(1983).
Mais ils sontexposés
à des artefacts(effectif
insuffisant de certains groupes,multiplication
descomparaisons
augmentant fortement lerisque
d’erreurs depremière espèce)
etne sont pas
d’emploi
commode.2.4. L’élimination d’items non conformes.
Comme nous l’avons
indiqué
dans lapremière partie,
leshypothèses
du modèle de Rasch sontsi fortes
qu’elles
laissent engénéral
peud’espoir
d’obtenir d’emblée une échelle conforme aumodèle. Si l’on a de bonnes raisons de penser que cette
inadéquation
ne tient pas à des raisons fondamentales(échelle multidimensionnelle,
effetd’apprentissage
introduisant un lien dedépendance
entre lesréponses
auxitems,
discrimination des itemstrop variable, etc.),
ilparaît légitime
d’écarterquelques
itemsinadéquats
etd’analyser
à l’aide du même modèle la nouvelle échelle ainsi obtenue. Ceprocédé
est très usité par lespraticiens
du modèle de Rasch.Malheureusement
beaucoup
d’entre eux éliminentdrastiquement
de nombreux itemsjusqu’à
l’obtention d’une échelle