R EVUE DE STATISTIQUE APPLIQUÉE
J.-M. T RICOT
Y. L EPAGE
Tests de l’incertitude des observateurs dans une analyse de concordance sur une échelle nominale
Revue de statistique appliquée, tome 40, n
o3 (1992), p. 35-45
<http://www.numdam.org/item?id=RSA_1992__40_3_35_0>
© Société française de statistique, 1992, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
TESTS DE L’INCERTITUDE DES OBSERVATEURS
DANS UNE ANALYSE DE CONCORDANCE SUR
UNE ÉCHELLE NOMINALE
J.-M.
Tricot*,
Y.Lepage**
*
Groupe
d’études et de recherche enanalyse
des décisions (GERAD),HEC, Université de Montréal, 5255 ave Decelles, Montréal, Québec H3T 1 V6 (Canada).
**
Département
demathématiques
et destatistique,
Université de Montréal, 5620 rueDarlington,
CP 6128 Succ. A, Montréal,Québec
H3C 3J7 (Canada).RÉSUMÉ
La notion d’incertitude des observateurs est définie dans un contexte
d’analyse
deconcordance sur une échelle nominale. Cette incertitude est traduite sous forme
d’hypothèses
et testée, ensuite, à l’aide de tests
d’ajustement.
Les testsproposés
sont liés à une mesured’accord. Une
technique d’agrégation
sur lessujets
permet d’améliorer les conditions d’utilisation des tests.Mots-clés :
Statistique kappa,
Mesure d’accord, Accord interobservateur, Echelle nominale,Statistique
d’ordre, Testd’ajustement.
ABSTRACT
The concept of
uncertainty
ofmultiple
raters is defined in a context of agreementanalysis
on a nominal scale. Goodness-of-fit tests are used to test somehypothesis conceming uncertainty.
These tests are based on an agreement measure. Anagregation
ofsubjects
technicis
applied
in order to relax the conditions of utilisation of the tests.Key-words Kappa
statistic,Agreement
measure,Multiple
ratersreliability,
Nominal scale, Order statistics,Goodness-of-fit
test.1. Introduction
Plusieurs auteurs ont
présenté
et étudié des mesures de l’accord entre deux ouplusieurs
observateurs classant dessujets
sur une échellequalitative
nominale. Unepartie importante
de la littérature repose sur la mesurekappa
introduite par Cohen(1960, 1968).
On trouve dans Landis et Koch(1975a, 1975b)
une revue intéressante despremiers
travaux sur cesujet.
D’autres auteurs ont continué àexploiter
ceproblème
etcitons,
parexemple :
Huber(1977), Fleiss,
Nee et Landis(1979),
36 J. -M. TRICOT, Y LEPAGE
Kraemer
(1980),
Schouten(1982, 1986),
James(1983),
Zwick(1988),
Bloch etKraemer
(1989), Jolayemi (1990)
et Tricot(1991).
L’approche
de Cohen(1960, 1968)
consiste à utiliser la mesurekappa
nonseulement comme une
statistique descriptive
mais aussi comme base de tests pa-ramétriques
sur l’absence d’accord.Toutefois,
comme lesignalent
Bloch et Kraemer(1989),
cetteapproche peut entraîner,
dans certains cas, desproblèmes conceptuels puique
la mesurekappa
n’estime pastoujours explicitement
unparamètre
de po-pulation.
Dans le
présent travail,
l’idée de Cohen(1960)
estreprise
mais en modifiant la définition de l’absenced’accord,
et en sedégageant
de toute référenceparamétrique.
La
problématique
se situe alors dans un contexted’ajustement.
Deuxstatistiques
différentes sont
proposées,
chacunepouvant
être utilisée pour tester l’absence d’ac- cord deplusieurs
observateurs classant unsujet
donné sur une échellequalitative
nominale. Chacune des
statistiques
mène à unestatistique globale
servant à testerl’absence d’accord de
plusieurs
observateurs classantplusieurs sujets
sur l’échelleen
question.
Plus
précisément,
dans la section2,
on introduit leproblème
d’unpoint
devue
probabiliste,
et on établit la dualité dansl’analyse
entre accord et absenced’accord. La section 3
comprend
la formulationexplicite
del’hypothèse
del’absence d’accord sur un
sujet
ou sur un ensemble desujets,
comme uneincertitude des
observateurs ;
on introduit deuxstatistiques
basées sur unestatistique d’ajustement,
pour testerasymptotiquement
l’absence d’accord desobservateurs,
d’abord sur unsujet, puis
sur un ensemble desujets.
Dans la section4,
onprésente
deux nouvelles
statistiques
construites à l’aide d’une méthoded’agrégation
dessujets;
cesstatistiques permettent
d’améliorer les conditions d’utilisation des loisasymptotiques
servant aux testsd’hypothèses. Enfin,
dans la section5,
unexemple permet
d’illustrer les différentes méthodesproposées.
2. Le
problème
Soient un échantillon de n
sujets
et un échantillon de d observateurs extraitsrespectivement
d’unepopulation
desujets
et d’unepopulation
d’observateurs.On suppose que
chaque
observateur évalue chacun dessujets
selon une échellequalitative
nominalecomprenant
Lcatégories notées {1,..., L}.
Parconvention,
on
ajoute
lacatégorie
0 afin que, pourchaque sujet,
les d observateurs se distribuenttoujours
en au moins deux groupesreprésentant respectivement
unecatégorie
distincte.Ainsi,
dans le cas d’un accordparfait
réalisé sur lacatégorie k (1 k L),
onadmet, par convention,
que les observateurs se sont distribués en deux groupes d’effectifs d et 0 tels que d observateurs ont classé lesujet
dans lacatégorie k
et0,
dans lacatégorie
0. En fait lacatégorie
0 n’est utilisée que dans le cas de l’accordparfait.
Cette conventionpermet d’effectuer,
dans tous les cas,l’analyse
de concordance dans un contexte dedualité,
soit sousl’angle
de l’accord soit sousl’angle
de l’absence d’accord.Soient
S = {1,..., n}
l’ensemble dessujets
del’échantillon,
etSm(2
md),
le sous-ensemble de S tel que lessujets
deS,
ont été classés dans mcatégories
distinctes par les observateurs de la
population
d’observateurs. Pour i =1,
..., n, onsuppose que i E
Sml
et soitfil,
...,imi}
le sous-ensemble de{0,
...,LI
tel que ia été classé dans la
catégorie ij, j
=1, ... ,
mi, au moins une fois siij ~ {1,... L}
et 0 fois si
i j
= 0. Pour i =1, ...,
n,et j
=1, ...,
mi, ondésigne
parnijmi
> 0 le nombre d’observateursparmi
les d observateurs del’échantillon, qui
ont classé lesujet
i dans lacatégorie ij nijmi
> 0 siij appartient à {1,..., L}
et 0 siij =0;
on a
évidemment, nijmi
=d,
i -1,... n. Enfin,
pour i =1,..., n,
et pourj=l
j = 1,...,mi, Pi] ml désigne
laprobabilité
pour un observateur tiré aléatoirement de lapopulation d’observateurs,
de classer lesujet
i ESm,
dans lacatégorie ij ;
m2
on a
donc, 03A3pijmi = 1,
i ==1,...,
n. Un estimateur depij
m, est donné par :i = 1,...,n et j = 1,...,mi.
La formulation de certaines
hypothèses appropriées
concernant lespijmi lorsque
i =1,...,n et j - 1,...,mi, permet
de définir une nouvelle notion d’absence d’accord. Dans les deuxprochaines sections,
différentesstatistiques
seront
présentées
afind’analyser
ledegré
d’accord interobservateur àpartir
d’unsujet
ou d’un ensemble desujets.
3. La
statistique Q
D’un autre
point
de vue, pour i =1,..., n et j - 1, ... , mi,
laprobabilité pijmi peut
aussi êtreinterprétée
comme laprobabilité,
pour lesujet i,
d’êtreclassé dans la
catégorie ij.
Or on sait quel’entropie
del’expérience
consistantà classer le
sujet
i dans unecatégorie prise parmi
micatégories auquelles correspondent
les miprobabilités pijmi
est maximumlorsque pijmi = 1/mi.
Cette
entropie
mesure,d’après Yaglom
etYaglom (1969),
ledegré
d’incertitude del’expérience. Lorsqu’elle
est maximum lesujet
i est inclassable.Ainsi,
pour cesujet i,
i =1,...,
n, êtrequalifié
d’inclassable se traduit par le constat de l’incertitude des observateurs relativement ài,
c’est-à-dire que pourtout j appartenant à {1,..., mis,
pijmi = 1/mi.
On définit donc l’absence d’accord sur lesujet i,
i =1,
..., n, par l’incertitude des observateurs formulée au moyen de ces miégalités.
Cohen(1960)
ne
prend
pas la mêmeapproche puisque,
dans sonmodèle,
l’absence d’accordse traduit par
l’incapacité
des observateurs dedistinguer
lessujets
les uns desautres. Une incertitude sur la
spécificité
dessujets
estremplacée,
dans la nouvelleapproche,
par une incertitude dans l’évaluation dechaque sujet.
Cette nouvelle formulation de l’absence d’accord sur lesujet i, dépend
du nombre mi decatégories
utilisées pour classer
i,
i =1,...,
n. Dans cetteoptique,
l’accord est obtenulorsque
l’échelle nominale
permet
d’évaluerchaque sujet
d’une manière exacte, et parconséquent,
une mesure d’accord devient une mesure de la validité de l’échelle descatégories.
La vérification del’hypothèse
d’incertitude des observateurs sur unsujet,
se ramène à effectuer un testd’ajustement.
On s’écarte ainsi du contexte38 J.-M. TRICOT, Y. LEPAGE
paramétrique
usuelqui
peutprésenter
des inconvénientsconceptuels
comme lenotent Bloch et Kraemer
(1989).
Pour un
sujet
i ESmi,
on formule doncl’hypothèse
nulle suivante :H0i :
Pourtout j ~ {1,..., 1 mil, pijmi = 1 /mi
Cette
hypothèse
de l’incertitude des observateurs concernant lesujet
ipeut
être testée à l’aide den’importe quelle statistique d’ajustement
comme parexemple,
lastatistique
duX2
suivante :Pour des valeurs élevées de
Qi,
onrejette l’hypothèse
de l’incertitude ou de l’absence d’accord des observateurs. Commelorsque
d tend versl’infini, Qi
estdistribuée sous
Hoi
selon une loix2
à mi - 1degrés
de liberté(Kendall
etStuart, 1979),
lespoints critiques asymptotiques
du test basé surQi peuvent
facilement être déterminés. Cetteapproche
suppose donc un échantillon d’observateurs degrande
taille.On remarque que m étant fixé pour le
sujet i, Qi
est une fonction Schur-convexe des
ni, j - 1, ..., mi (Marshall
etOlkin, 1979) puisque Qi
est unem2
fonction linéaire de
n 2
Ainsi, Qi
est maximumlorsque
tous les nijmi valent 1 sauf unqui
vautd-mi+1,
pour le cas où mi >
2,
etlorsque
l’accord estparfait,
pour le cas où mi = 2. Lesvaleurs élevées de
Qi
sont, enfait,
associées à des situations d’accordqui
peuvent être considérées comme les meilleures.Afin de tester
globalement,
sur un ensemble desujets,
l’incertitude desobservateurs,
on considère laconjonction
desHoi,
c’est-à-direl’hypothèse Ho
=H01
/B ... /BHon. Lorsque
lesprocédures
d’évaluation dessujets
sontindépendantes
d’un
sujet
àl’autre,
lesstatistiques Qi
sontindépendantes,
et il est doncpossible
de tester
l’hypothèse Ho
à l’aide de lastatistique :
Pour des valeurs élevées de
Q,
onrejette l’hypothèse Ho.
Commelorsque
dn
tend vers
l’infini, Q
est alors distribuée sousHo
selon uneloi ~2 à L mi -
ndegrés
deliberté,
lespoints critiques asymptotiques
du test basé surQ peuvent
être aisément déterminés.n
Pour des valeurs de
mi - n
élevées(supérieures
à 30 conventionnelle-ment),
lastatistique
de FisherV2Q -
2mi -
2n - 1 ou celle de Wilson-Hilferty {(9Q/q)1/3 -
1 +2/q}/2/q,
où q =9
mi - 9n(Tassi, 1989),
i=l
procurent
des loisasymptotiquement normales,
centrées et réduiteslorsque d
tendvers l’infini. Les
points critiques asymptotiques
du test basé surQ peuvent
aussi être obtenus à l’aide d’une loinormale,
centrée et réduite.Les conditions
d’approximation
des lois desstatistiques Qi
etQ
sontdifficilement atteintes en
pratique puisque
la taille de l’échantillon des observateurs doit êtregrande.
Pourpallier
à ceproblème,
on introduit maintenant deux nouvellesstatistiques généralisant
lesprécédentes,
afin de tester l’incertitude des observateursavec un niveau
critique adéquat
pour toute valeur de d.4. La
statistique QT
Rappelons qu’à
toutsujet
i est associé un nombre mi decatégories
distinctesij j
=1,
..., mi,auxquelles correspondent
desprobabilités pijmi.
Il s’ensuit queQi
est une mesurepondérée
des écarts entre lesijmi
et laprobabilité théorique 1/mi,
i -1,
..., n. AinsiQi
nedépend
pas de laspécificité
descatégories ij
maisd’un ensemble de
probabilités
estiméesindépendant
de toutepermutation
sur cesprobabilités.
Lastatistique Qi
s’inscrit dans un contexted’analyse
de concordance tel quedéjà présenté
par Bloch et Kraemer(1989) lorsqu’il distinguent
les notions d’accord et d’association.D’une manière
générale,
soient s et s’ deuxsujets
dansSm
associés(de
par leurs classements dans descatégories distinctes) respectivement
aux deux sous-ensembles de
catégories {s1,..., sm}
pour s et1 s’, ... , s’m}
pour s’auxquels correspondent respectivement
deux distributions deprobabilités
données parpsjm
et
Ps’ m, j
=1,
..., m, oùpsjm (resp. ps’j m)
est laprobabilité
pour lesujet
s(resp.
s’)
d’être classé dans lacatégorie sj (resp. s’j).
Unecomparaison
de cesprobabilités
à
1 /m peut
être effectuéeglobalement
etindépendamment
de toutespécification
des
catégories,
encomparant
à1/m
une nouvelleprobabilité hjm, j
=1,
..., m,qui soit,
parexemple,
à distance euclidienne minimum des deuxprécédentes
pourune bonne
représentativité
de celles-ci. Pour cefaire,
on ordonnepréalablement
lesps 3 m (resp.
lesps’j 3 m)
de laplus petite
à laplus grande
cequi n’apporte
pas de restriction auproblème
en l’absence despécification
descatégories.
Lespsjm (resp.
les
ps’j m)
ordonnées sont renotéesps(j)m (resp.
ps’(j) m). L’équation
fondamentale del’analyse
de la variance(Scheffé, 1959)
montre que la valeur minimum de40 J. -M. TRICOT, Y. LEPAGE
m
03A3[(hjm-ps(j)m)2+(hjm-ps’ (j)m)2]
est atteinte pourhjm
=(ps
(j)m+ps’
(j)m)/2,
j=l
j
==1,...,
m, valeur que l’on retient donc pour unecomparaison
à1 / m.
D’un autrepoint
de vue, on effectue ainsi une moyenne dedistributions,
ensupprimant
leseffets de mode par
permutation préalable
desprobabilités
initiales(Titterington,
Smith et
Makov, 1985).
En
général, lorsque
n, = CardSm,
lacomparaison globale
de toutes lesprobabilités PSJm
pour s ESm,
à1/m,
est effectuée en faisant lacomparaison
de
fjm
=(1/nm) L PS(J)m
à1/m, pour j - 1, ... , m.
Si maintenantnSJm
est le nombre d’observateursqui
ont classé lesujet s
ESm
dans lacatégorie
s j , un estimateurhm
de laprobabilité théorique fjm
=(1/nm) L ps(j)m
est :sESrn
où
ns(1)m
...ns(m)m
sont lesstatistiques
d’ordre associées au vecteur(ns1m,..., nsmm).
La
quantité fjm représente
uneprobabilité
moyenne pour unsujet
deSm
d’être classé dans la
je catégorie
d’un ensemble de mcatégories
sansspécificité.
L’hypothèse
de l’incertitude des observateurs pour unsujet
deSm s’exprime
alorsde la
façon
suivante :Par
analogie
avec les tests deHoi précédents,
un test pourH, peut
être basésur la
statistique :
L’hypothèse Hm
estrejetée
pour desgrandes
valeurs deQ,T. Puisque
sousHm,
cette dernièrestatistique
suitasymptotiquement
une loiX2
à m - 1degrés
de liberté
lorsque nm d
tend versl’infini,
lespoints critiques asymptotiques
dutest
peuvent
facilement être déterminés. Il s’ensuit que pour tester laconjonction
H =
Hl
A ... AHm,
onpeut
utiliser lastatistique :
où M =
{m : Sm ~ ~}, l’ hypothèse
de l’incertitude des observateurs étantrejetée
pour de
grandes
valeurs deQT. L’indépendance
des différentes classes desujets
nous assure que, sous
l’hypothèse H,
lastatistique QT
suitasymptotiquement,
lorsque nmd
tend versl’infini,
pourchaque
m EM,
une loiX2
àL (m - 1)
mEM
degrés
deliberté ;
etainsi,
lespoints critiques asymptotiques
du test basé surQT peuvent
aisément être déterminés.Tout comme pour le test basé sur
Q,
lesstatistiques
de Fisher ou de Wilson-Hilferty peuvent
être utiliséeslorsque L nmd
>30,
pour déterminer lespoints critiques asymptotiques
du test del’hypothèse
H.Les conditions
d’approximation
de la loi deQT
sont meilleures que celles de la loi deQ puisque nmd
d. Lastatistique QT
tientcompte,
contrairement àQ,
d’une formed’agrégation
sur lessujets
et en ce sensQT généralise Q.
5.
Exemple
Fleiss
(1971) présente
unexemple qui
se réfère à des données médicales.Cet
exemple
a d’ailleurs étérepris
successivement par Landis et Koch(1977)
et Schouten
(1986). L’expérience
consiste àanalyser
l’accord entre 6psychiatres (d -
6observateurs) qui
ont classé 30sujets (n
=30)
selon une échelle à 5catégories : 1)
ladépression, 2)
les troubles de lapersonnalité, 3)
laschizophrénie, 4)
la névrose et5)
autre. Le Tableau 1présente
les différentes valeurs desnijmi
pour i =1, ..., 30.
Lescatégories
ont été notées de 1 à 5. Lacatégorie
0 a étéajoutée
selon la conventionprécisée
audébut,
pour le cas de l’accordparfait.
Comme d =
6,
la validité du test de l’incertitude des observateurs basé surQ
estsujette
à caution. Onreporte,
à titreindicatif,
dans le Tableau2,
les valeurs deQi
associées aux huitpremiers sujets
de l’échantillon.n
Puisque mi -
n - 38 > 30plutôt
que de calculerQ,
on calcule lesi=l
n
approximations
deFisher, 2Q - 2mi - 2n - 1
=2, 944
et de Wilson-Hilferty, {(9Q/q)1/3 -
1 +2/q}/2/q
=2,823.
Onrejette l’hypothèse
del’incertitude des observateurs au niveau de
signification
de0, 0016
dans lepremier
cas et de
0, 0024
dans le deuxième cas.D’autre
part,
concernantQT,
on obtient lesfréquences empiriques fjm
:h2
=0,227; 22
=0, 773 ; h3 == 0, 167 ; 23
=0, 271 ; 33
=0, 562.
A l’aide deces
valeurs,
onreporte
dans le Tableau 3suivant,
les différentesstatistiques QmT.
Pour le test basé sur
QT,
onrejette
donc aussil’hypothèse
de l’incertitude des observateurs mais à un seuil designification
inférieur à1/1000
et donc inférieurau
précédent.
42 J. -M. TRICOT, Y. LEPAGE
Tableau 1
Effectifs
des regroupements des observateurs pourchaque catégorie
etchaque sujet
Tableau 2
Les
statistiques
Qi associées aux sujets numérotés de 1 à 8Tableau 3
Les
statistiques QmT
du test de l’incertitude des observateurssur
chaque
sous-échantillonSm
6. Conclusion
La
présente approche permet
l’utilisation destatistiques d’ajustement
afin detester l’absence d’accord de
plusieurs
observateurs sur unsujet
ou sur un ensemblede
sujets.
Cetteapproche
est basée surl’analogie
entre incertitude des observateurs et absence de validité d’une échelle decatégories.
D’autresstatistiques d’ajustement peuvent
être aussi utilisées pour tester les différenteshypothèses.
Enfin,
les différentesstatistiques d’ajustement peuvent
éventuellement êtreadaptées
au cas où l’on considère unsystème
depondérations
sur lescatégories
et au cas multidimensionnel où les
sujets
sont classés simultanément surplusieurs
échelles de
catégories.
44 J.-M. TRICOT, Y LEPAGE
Remerciements : Ce travail a été
partiellement
subventionné par le Conseil National de Recherches en Sciences Naturelles et en Génie du Canada(subvention A-8555)
et par le Fond National Suisse de la Recherche
Scientifique.
Références
Bloch,
D.A. andKraemer,
H.C.(1989),
2 x 2Kappa
coefficients : measures ofagreement
orassociation,
Biometrics45,
269-287.Cohen,
J.(1960),
A coefficient ofagreement
for nominalscales,
Educ. andpsychol.
Measurement
20,
37-46.Cohen,
J.(1968), Weighted kappa :
nominal scaleagreement
withprovision
forscaled
disagreement
orpartial credit, Psychological
Bulletin70,
213-220.Fleiss,
J.L.(1971), Measuring
nominal scaleagreement
among many raters,Psychological
Bulletin76,
N°5,
378-382.Fleiss, J.L., Nee,
J.C.M. andLandis,
J.R.(1979), Large sample
variance ofkappa
in the case of different sets of raters,
Psychological
Bulletin86,
974-977.Huber,
L.(1977), Kappa revisited, Psychological
Bulletin84,
289-297.James,
I.R.(1983), Analysis
ofnonagreements
amongmultiple
raters, Biometrics39,
651-657.Jolayemi,
E.T.(1990),
On the measure of agreement between two raters, Biometri- cal Journal32,
87-93.Kendall,
J.R. andStuart,
A.(1979),
The AdvancedTheory of Statistics,
4thed., Griffin,
London.Kraemer,
H.C.(1980),
Extension of thekappa coefficient,
Biometrics36,
207-216.Landis,
J.R. andKoch,
G.G.(1975a),
A review of statistical methods in theanalysis
of data
arising
from observerreliability
studies(Part I),
Statistica Neerlandica29,
101-123.Landis,
J.R. andKoch,
G.G.(1975b),
A review of statistical methods in theanalysis
of data
arising
from observerreliability
studies(Part II),
Statistica Neerlandica29,
151-161.Landis,
J.R. andKoch,
G.G.(1977),
A one-way components of variance model forcategorical data,
Biometrics33,
671- 679.Marshall,
A.W. andOlkin,
I.(1979), Inequalities : Theory of Majorization
andIts
Applications,
Mathematics in Science andEngineering,
Vol143,
AcademicPress Inc., New York.
Scheffé,
H.(1959),
TheAnalysis of Variance,
JohnWiley,
New York.Schouten,
H.J.A.(1982), Measuring pairwise agreement
among many observers.II. Some
improvements
andadditions,
Biometrical Journal24,
N°5, 497-504.
Schouten,
H.J.A.(1986),
Nominal scale agreement amongobservers, Psychometri-
ka
51,
453-466.Tassi,
P.(1989),Méthodes Statistiques,
2eed., Economica,
Paris.Titterington, D., Smith,
A. andMakov,
U.(1985),
StatisticalAnalysis of
FiniteMixture