R EVUE DE STATISTIQUE APPLIQUÉE
A NNIE A STIÉ
Comparaisons par paires : recherche d’un classement ou d’un ensemble de classements des objets comparés
Revue de statistique appliquée, tome 21, n
o3 (1973), p. 51-63
<http://www.numdam.org/item?id=RSA_1973__21_3_51_0>
© Société française de statistique, 1973, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
COMPARAISONS PAR PAIRES : RECHERCHE D’UN CLASSEMENT OU D’UN ENSEMBLE DE CLASSEMENTS
DES OBJETS COMPARÉS (1)
Annie
ASTIÉ
Laboratoire de
Statistique,
Université Paul Sabatier TOULOUSE1 - INTRODUCTION
Les
applications
des méthodes decomparaisons
parpaires
sont nombreuseset variées. Citons les
problèmes exposés
par Doehlert dans(6)
etqui
lui ont étéproposés
par laCompagnie
du Pont de Nemours :La
qualité
et parconséquent
la valeur marchande de nombreuxproduits dépend
de l’attraitqu’ils
exercent sur les sens, -vue,toucher,
etgoût -
etplus généralement
despréférences esthétiques
des consommateurs. Pour mesu-rer ces réactions
subjectives,
les données sont souvent obtenues sous la forme decomparaisons d’objets. Quand
le but recherché est l’obtention d’une relation d’ordre sur l’ensemble desobjets,
il n’est pastoujours possible
de demander àun
juge
de classer l’ensemblecomplet
desproduits.
D’unepart,
certainsobjets, (par exemple
destapis),
sonttrop
volumineux pourqu’on puisse
lesprésenter
autrement que par
petits
groupes ; d’autrepart,
dans certainescomparaisons,
lesfacultés de discernement
s’émoussent, particulièrement
legoût
etl’odorat,
et làencore seulement un
petit
nombred’objets peut
êtreprésenté
à la fois.Les données seront donc collectées sous forme d’ordres sur des sous-
ensembles des
objets (plus précisément
sur despaires d’objets
dans les compa- raisons parpaires),
et leproblème
sera d’estimer un ordre sur l’ensemble com-plet
desobjets.
Si X
= {x1,...,xn} désigne
l’ensemble desobjets,
nous considérons iciqu’une comparaison
de lapaire {
xi ,xj}
est uneexpérience
à 2 issuespossibles (on
nepermet
pas leségalités) :
- xi est
préféré
àxj
avec laprobabilité 03C0ij
-
Xj
estpréféré
à xi avec laprobabilité 1Tji
où
03C0ij
+03C0ji
= 1.Nous pouvons alors considérer la relation binaire - que nous
appellerons
relation de
préférence sous-jacente
à X - définie par :(1) Article remis le 15/9/72 ; révisé le 2/11/72.
52
Si cette relation est
symétrique (c’est-à-dire
si on a à la fois xipréférable
àxj
etxj préférable
à xi pour tout(i , j)),
c’est que7TU - 2 pour tout (i , j),
c’est-à-dire que les réponses
sont données indifféremment l’une pour l’autre.
Le but d’une
expérience
decomparaisons
parpaires étant,
engénéral,
defaire
apparaître
une relation depréférence qui
soit un ordre surX,
leproblème
fondamental sera
d’essayer
de réfuterl’hypothèse
desymétrie
de la relation depréférence (03C0ij = 2 1 V (i , j)),
etparallèlement
d’estimer cette relation. Nousétudierons ici 2 modèles différents : le
premier
modèle conduit à l’estimation d’un classement desobjets, (qui
se déduit de l’estimation desparamètres 03C0ij).
En fait c’est l’estimation du
classement,
et non celle desparamètres, qui
nousintéresse. Le deuxième modèle conduit à l’estimation d’un ensemble de classe- ments
(ces
classements seront estimés directement et nonplus
àpartir
d’une esti- mation desparamètres
dumodèle).
Rappelons quelques définitions :
Une relation binaire R sur X est un sous-ensemble du
produit
cartésienXxX
- R est anti-réflexive si :
(x , x) ~ R ,~
x E X- R est
symétrique
si :(x , y) E
R -(y , x) E
R- R est
anti-symétrique
si :(x , y) ~ R , x 1=
y ~(y , x) ~
R- R est transitive si :
(x , y) E R , (y , z) ~ R , x f
z ~(x , z) E R
- R est
complète
si :(x , y) ~ R , x +y-(y x) E R
Lorsque
nousparlerons
de relationd’ordre,
ils’agira
de relation d’ordrestrict
(anti-réflexive, anti-symétrique
ettransitive) ;
si une relation d’ordre estcomplète,
c’est un ordretotal ;
sinon c’est un ordrepartiel.
On
appelle 1-graphe,
lareprésentation graphique
d’une relationbinaire ;
c’est-à-dire ungraphe
dont les sommets sont les éléments de X et les arcs unsous-ensemble R de X x
X ;
on note cegraphe (X , R).
II - POSITION DU PROBLEME
1)
Les données :L’expérience
consiste enmij comparaisons
de lapaire {xi , xj}
pour1
i j
n ; soit au total en m= 03A3 mij comparaisons
effectuéesindépen-
damment les unes des autres.
Le résultat de
l’expérience
serareprésenté
par ungraphe
orientéG =
(X , U)
oùU,
ensemble des arcs dugraphe,
est obtenu entraçant
un arc de xi versxj chaque
fois que xi estpréféré
àxj
dans unecomparaison.
Il y a doncmij
arcs entre xi etXj.
Exemple :
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
L’expérience
a donné les résultats suivants : Sur les 4comparaisons
de xi 1 et X2’ xi 1 a étépréféré
2 fois.Sur les 4
comparaisons
de x2 et x3, x2 a étépréféré
3fois ;
enfin,
dansl’unique comparaison
de xi et X3, x3 a étépréféré.
Ces résultats
peuvent également
êtrerepré-
sentés par une matrice carrée d’ordre n ,
Il aij 11 ,
appelée
matrice associée deG,
oùait
est le nom-bre d’arcs allant de xi vers
xj (aij
+aji
=mi ).
Dans
l’exemple
ci-dessus :On note n l’ensemble des
graphes
orientés G =(X , U)
dont le nombre d’arcs d’extrémités xi etxj
estmij , (| X 1 =
n ,1 U 1
=m)(*) ;
le résultat de l’ex-périence
est donc ungraphe
de n.Remarque :
Lesgraphes
de 03A9 sont des1-graphes (définis ci-dessus)
si et seule- lement si :mij 1 ,
v(i , j).
La loi de
probabilité
sur 03A9 sera fonction duparamètre
03C0 =(... , irii ... ) qui appartient à
un cube de côté 1 et de dimension|I| n(n - 1)
où
Les
comparaisons
étantsupposées indépendantes
enprobabilité,
on a unproduit
de lois binômiales :où ~aij~
est la matrice associée de G.- Pour
mis
>0,
l’estimation de03C0ij
par la méthode du maximum de vraisemblance est :- Si
mj
=0,
c’est-à-dire si lecouple {xi , xj}
n’est pascomparé,
nous con-viendrons
qu’une
relation depréférence peut
contenir aussi bien(xi , xj)
que1
(xj , xi) ;
et nous poseronsirij =2
(*) On note |E| le cardinal de l’ensemble E.
54
En
pratique,
on devra toutefois segarder
d’abuser de cette convention et on ne l’utilisera que si on a unpetit
nombre depaires qui
sontimpossibles
àcomparer.
Nous noterons fur
= (... , 1rij , ...)
le vecteur de dimensionn(n - 1):
Pour
reprendre
l’idée del’introduction,
nous dironsqu’une
relationbinaire anti-réflexive R sur X est une relation de
préférence
si pour toutNotons
Rn
etR03C0
les relations :Une relation binaire est alors une relation de
préférence
si et seulement si elle est contenue dansR03C0.
Nous noterons
R
etR
les relations définies par :2)
Lepremier
modèle(étudié
parThompson
etRemage
dans(13)) :
On admet l’existence d’un classement
sous-jacent
desobjets,
tel que, si xiprécède xj
dans ceclassement,
on a03C0ij 2. 1
Autrement
dit,
on admet l’existence d’une relation depréférence
sous- iacentequi
est un ordre total T sur X(c’est-à-dire,
il existe un ordre total T :TÇ R03C0).
Ce modèle
impose
une restriction del’espace paramètrique puisque
03C0 doitvérifier :
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
Le
paramètre 03C0
sera estimé par 1f(7r
est engénéral
différent defr), qui
cor-respond
au maximum de la vraisemblance surl’espace paramétrique
restreintpar la
condition(D.
3)
Le deuxième modèle :(étudié
dans(1)).
Reprenons l’exemple
de l’introduction : desproduits
sontprésentés
parpaires
à un consommateurqui
doitchaque
foisrépondre
à laquestion :
"Lequel
des deuxproduits préférez-vous ?
"Les
produits présentés
ont différentescaractéristiques -
parexemple
lacouleur,
la saveur,l’odeur,
... , - etinconsciemment,
la personneinterrogée peut
utiliser des critères de choix différents d’unecomparaison
à l’autre.On admet donc l’existence de
plusieurs
classementssous-jacents
desobjets,
c’est-à-direl’existence
deplusieurs
relations d’ordre totalsous-jacentes :
- A
chaque
k(1
kN),
est associée uneprobabilité
Pk que lesujet
se référe au critère
correspondant
à l’ordreTk(03A3
Pk = 1 etpk ~ 0
~k=1,
...,N).
-A
chaque couple d’objets{
xi,xj}
est associée uneprobabilité 03C0kij
que le su-jet préfère
xi àxj
s’il se réfère au critèreTk,
avec03C0kij > 1 2 si xi précède xj
dans
Remarquons
que si xiprécède xj
dans tous les critères(c’est-à-dire
si03C0kij
>1 2,1 1 1
On a donc 03C012
> 2, 03C023 > 2,
03C0132 ;
nous remarquonsdonc,
sur cetexemple,
que la restriction del’espace paramétrique , qui s’imposait
dansle
premier modèle,
n’estplus
nécessaire ici. Nous estimerons donc 03C0 par,
et56
R1T
parR1T
et nous donnerons une méthode pour estimer les relations d’ordre(estimation qui
ne sera pas déduite d’une estimation desparamètres 03C0kij).
III - LE PREMIER MODELE
1)
Estimation d’une relation d’ordre totalThompson
etRemage
dans( 13)
ontproposé
d’estimer 7rpar?
en maximi- sant la vraisemblance surl’espace paramétrique
restreint. L’ordre total sous-jacent
T sera alors estimé par T*(non
nécessairementunique)
vérifiant :En
fait,
ce n’est pas l’estimation duparamètre
1Tqui
nousintéresse,
mais seulement l’estimation de l’ordre total T. Nous avons donc établi dans(1)
une formule définissant directement T* :Nous avons
généralisé
dans(1)
unepropriété
de T* queThompson
etRemage
avaientdéjà
démontré dans le casparticulier
oùmij = 1~(i , j) :
T* est un ordre hamiltonien du
1-graphe complet G4? = (X , R).
où un ordre
total, correspondant
au classement desobjets : xk1 , xk2
, ... ,xkn ,
est
appelé
ordre hamiltonien deG = (X , R)
si(xki , xki+1)
ER)
i =1,...,
Pour allèger l’écriture, nous notons :
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
En
pratique,
pour déterminerT*,
on devra donc :1)
Déterminer tous les ordres hamiltoniens deG
2)
Calculer pour chacun de ces ordres hamiltoniensSi n est
grand,
ces calculs deviennent vite trèslongs,
il est alors intéressant d’utiliser la méthode deprogrammation dynamique proposée
par De Cani dans(5)
pour déterminer T* dans le cas oùmij
a la même valeur pour tout(i , j).
Remarque :
Associons augraphe
G =(X , U)
de 03A9le1-graphe G; = (X , R;)
dont
chaque
arc(xi , xj)
est valué par~ij (ij)
exemple
L’application qui
associe à G le1-graphe G
valué estbiunivoque, car
lafonction (ij)
est monotonesur 0 , 1 2]
etsur [1 2, 1].
Les données
peuvent
donc êtrereprésentées
par le1-graphe G = (X , R)
valué par les
~ij (ij ).
La
quantité 03A6( , T) = 03A3 ~ij (ij)
est la somme des valuationsdes arcs de
G qui figurent
dans l’ordre totalT,
on peut donc considérer cettequantité
comme une mesure deproximité
de T augraphe
valuéG.
T est alors"le
plus proche"
deG.
Remarquons
deplus
que :58
~ij (ij)
est d’autantplus grand
quemij
estgrand
et queij
est très diffé- 1rent de -.
2
Nous avons vu dans
( 1 )
que laquantité ~ij (îrij) peut
être considérée comme unequantité d’information apportée
par lesmij comparaisons
de lapaire
{xi , xj}, (et
ce résultatapparait
intuitivement cohérent avec la remarque que nous venons de faire sur les variations de~ij (ij )).
Laquantité 03A6( , T )
est alors une
quantité
d’information en faveur del’hypothèse
que T est une rela- tion depréférence (T~R03C0) ;
et T* est un ordre total en faveurduquel l’infor-
mation est maximum.
2)
Casparticulier mis =
1 pour tout(i , j) :
Test de Slater(12)
Pour
éprouver Ho : 03C0ij = 1 2 V(iJ),
nous utiliserons lastatistique
sup
03A6(03C0 , T)
et nousrejetterons Ho
pour lesgrandes
valeurs de cettestatistique.
Dans le cas où
mij =
1V (i, j),
il est facile de montrer que cette statis-tique
q estégale
g àn(n - 1) 2 - D,
où D =inf |U - T~U| est
leplus petit
nom-2
’
TEG
p p
bre d’arcs du
graphe
observé G =(X , U)
à inverser pour obtenir ungraphe
d’ordre total.
Nous aurons donc une
région critique
de la forme D u, où P[D u/H0]
a(a
étant le niveau dutest).
Nous retrouverons ainsi le test
proposé
par Slater dans(12).
Slater donne des tables de la distribution de D sousHo,
c’est-à-direP [D = d/H0], pour
Pour la détermination de D des
algorithmes
ont étéproposés
dans(11), (3)
et( 10).
IV - LE DEUXIEME MODELE
1)
Estimation d’un ensemble de relations d’ordre totalNous avons vu que, s’il existe N relations d’ordre total
sous-jacentes
àX, {Tk ;
k =1 ,
... ,N},
nous avons nécessairement :L’intersection d’une famille d’ordres totaux est un ordre
partiel,
queN
nous noterons
P,
d’où P= k Tk~R03C0
Nous estimerons ?r par
fr,
et parconséquent R03C0
parR.
Nous
procéderons
en 2étapes :
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
a)
estimation de P : l’estimation P* de P doit vérifier : P*~R.
Nous définirons P* par :
C’est-à-dire que nous
prendrons
pour P* l’ordrepartiel
contenu dansR qui
est "leplus proche"
dugraphe
valuéG (au
sens de la remarquepré- cédente).
P* n’est pas nécessairementunique.
b)
Estimationde {Tk ;
k =1 ,
...,N} :
P* étantdéterminé,
nous esti-merons
{Tk ;
k =1 ,
... ,N}
par{T*k ;
k =1 ,
... ,N*}
vérifiant :(2)
N* est laplus petite
valeur de N pourlaquelle
il existe une famille de N ordres totaux dont l’intersection est P*(N*
estappelé
la dimension deP*).
Nous avons démontré dans
(1)
que lafamille {T; ;
k =1 ,
... ,N*}
ainsi déterminée
(non
nécessairementunique)
estcomposée
d’ordres hamilto-niens de
G = (X , R).
En
pratique :
Les calculs se font en 3étapes a) b) c) : a)
on utilise les calculsdu § précédent :
- Détermination des ordres hamiltoniens de
G.
- Calcul pour
chaque
ordre hamiltonien Tde 03A6( , T).
b) L’application
del’algorithme
de Heuchenne(8)
augraphe (X , R)
dontchaque
arc(xi , Xj)
est valué par laquantité
strictementpositive Ou (ij)
per-met de déterminer les ordres
partiels
P*.c) Ducamp
propose dans(7)
une méthode pour déterminerparmi
lesordres totaux
prolongeant
un ordrepartiel
Pdonné,
les familles de cardinal minimum dont l’intersection est P(c’est-à-dire
les familles dont le cardinal est la dimension deP).
Nousappliquerons
cette méthode à l’ordrepartiel
P*et à l’ensemble des ordres hamiltoniens de
Gn
contenant P*.Pour
chaque
famille{Tk ;
k =1 ,
... ,N*}
ainsidéterminé,
nous calcule-rons
Les familles
{T*k ;
k = 1 , ... ,N*}
sont cellesqui
rendent maximum cettequantité.
Cas
particulier mij = 1,V (i ,j) :
Test de transitivitépartielle
Pour
éprouver Ho : 03C0ij = 2 V i
nous utiliserons la statistique
sup 03A6(, P)
et nousrejetterons H0
pour lesgrandes
valeurs de cettestatistique.
60
Lorsque m.. = 1, ~(i , j),
cettestatistique
estégale
à P Usup |P|=n(n-1) 2-0394;2
où il =
inf 1 U - P |
est leplus petit
nombre d’arcs dugraphe
observépcu
G =
(X , U)
àsupprimer
pour obtenir ungraphe
de relation d’ordre(partiel).
Nous avons donc une
région critique
de la forme il u où P[0394 u/H0 ]
Q!.Nous avons calculé dans
(1),
Plàn S/Ho ] pour
0 b5,
etnquelconque ;
nous avons tabulé ces résultats pour n 8
(tableau ci-dessous).
En
pratique :
Ce test sera utilisélorsque
nobjets
sontcomparés
parpaires,
à raison d’unecomparaison
et une seule pourchaque paire (mij = 1, V (i , j)) ;
c’est-à-dire
lorsque
le résultat del’expérience
estreprésenté
par ungraphe
orienté G =
(X , U) qui
a un arc et un seul entrechaque couple
de sommets.On utilise
l’algorithme
de Heuchenne(8)
pour déterminer "leplus grand"
or-dre
partiel
contenu dans legraphe G ;
c’est-à-dire l’ordrepartiel
P*(non
néces- sairementunique)
tel que : P* C Uet P* = sup 1 p I
On a alors la valeur observé de la
statistique
il= n(n - 1) 2 -
P*t.
Le ta- bleau ci-dessouspermet
de calculer larégion critique :
Remarque :
Nous avons vu que,
lorsque
nous avons estimé un ordrepartiel P*,
nousdéterminons une famille d’ordre
totaux {T*k ;
k =1,..., N*}
vérifiantN*
P*
k Tk*,
où N* est minimum etappelé
dimension de P*. Ces ordres totauxT*k
sontinterprétés
comme les classements desobjets
suivant différents critères de choix. Il est donc intéressant de connaître la dimension deP*, qui
se-ra le nombre de classements des
objets,
c’est-à-dire le nombre de critères de choix.Nous avons montré dans
(1)
que si 03945,
il existe un ordre P* de dimen- sion 2.Donc,
dans les limitesimposées
par nos calculsnumériques
pour le test, notre méthode conduit à l’estimation d’uncouple
d’ordres totaux.Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
V - EN
CONCLUSION,
nous essaierons de donner les idées concrètesqui
nous ont
guidé
dans cetravail,
et ceci en nous limitant au cas leplus simple
où
chaque paire
estcomparée
exactement une fois(mij = 1,V (i, j)).
Dansce cas, il est
d’usage
d’utiliser le classement par les scores, si= 03A3 aij(i =1,..., n), (méthode qui
a legrand avantage
de lasimplicité),
et d’utiliser le test de Ken- dall et Smith(9)
basé sur lastatistique E,
nombre decircuits
delongueur
3du
graphe (ce
nombre al’avantage
de se calculer aisément en fonction desExemple
1 :Les flèches non tracées vont de
gauche
à droite.On choisit le niveau a =
0,05
pour les tests.Le test de Slater n’est pas
significatif
et on n’admet pas l’existence d’un ordre totalsous-jacent.
Par contre le test de Kendall et Smith est
significatif,
onaccepte
donc le classement par les scoresqui
est :(1) (2,3,4) (5,6,7)
Ce résultat
apparait logique :
un classement sans ex-aequo(c’est-à-dire
unordre
total)
estinacceptable,
par contre un classement avec des ex-aequo estacceptable.
Un classement avec des ex-aequos étant un ordre
partiel particulier,
nousavons
pensé
poser leproblème
sous une formeplus générale :
existe-t-il un ordrepartiel
sur X ?(un
ordrepartiel
necorrespondant
pas nécessairement à unclassement avec des
égalités).
Exemple 2 :
G =(X , U)
Les flèches non tracées vont degauche
à droite.Au niveau a =
0,05,
le test de Slater n’est passignificatif,
onn’accepte
donc pas l’existence d’un ordre total.
Le test de Kendall et Smith n’est pas
significatif
nonplus
et onn’accepte
pas le classement par les scores
(1) (2) (3) (4 , 5 , 7) (6).
Test de transivité
partielle :
62
- L’utilisation de
l’algorithme
de Heuchenne donne un seul ordrepartiel
P* vérifiant :
(P*
est la fermeture transitive dugraphe représenté ci-dessous).
Au niveau a =
0,05,
larégion critique (déterminée
àpartir
de notre ta-bleau est il
4,
le test est doncsignificatif.
- Le calcul des ordres hamiltoniens de
G
= G et, pour chacun d’eux de03A6(, T) = |T~U |,
donne 11 ordres hamiltoniens :Remarquons
que, si le test de Slater avait étésignificatif,
on auraitaccepté
l’existence de l’un ou l’autre des deux ordres totaux
Tl
ouT2
.Dans l’ensemble
{T1 T2, ...,T11}
nous cherchons lescouples { T. Tjh
vérifiant : P* =
Ti~Tj :
seul lecouple {T1 , T2}
vérifieP* = T1~T2. (Si
on avait trouvé
plusieurs couples,
on aurait choisi ceuxqui
maximisentNous en concluons
qu’il
existe deux classements différents desobjets (correspondants
à deux critères dechoix) : Tl et T2.
C’estl’objet
7qui,
en occu-pant
un rang différent dans les deuxclassements,
introduit les circuits dugraphe.
Revue de Statistique Appliquée. 1973 - vol. XXI N° 3
BIBLIOGRAPHIE
[1] ASTIE,
A.(1971) -
Sur lesproblèmes
decomparaisons
parpaires.
Thèse de
3ème Cycle.
Laboratoire deStatistique.
Université Paul SABA- TIER. TOULOUSE.[2] BERGE,
C.( 1970) - Graphes
etHypergraphes.
Dunod.[3] BERMOND,
J.C.(1972) -
Ordres à distance minimum d’un tournoi etgraphes partiels
sans circuit maximaux.Mathématiques
et Sciences Hu-maines, n°
37.[4] DAVID,
H.A.(1971) 2014 Ranking
theplayers
in a round robin tournament.Review of the international statistical
institute,
39 :2,
137-147.[5] DE CANI,
J.(1969) -
Maximum likelihoodpaired comparison ranking by
linearprogramming. Biometrika,
56 :3,
537-545.[6] DOEHLERT,
D.H.(1962) - Estimating
rank orderby
triad reduction.Unpublished
thesis.University
of Delaware.[7]
DUCAMP(1966) -
Sur la dimension d’un ordrepartiel.
Journées d’étu- des de la théorie desgraphes.
Rome.[8] HEUCHENNE,
C.(1969) 2014
Sous-relations transitives maxima. Bulletin de la sociétéroyale
des sciences deLiège,
38 :9, 10 ;
435-449.[9]
KENDALLM.G. ;
SMITH B.(1940) -
On the method ofpaired
compa- risons.Biometrika, 31,
324-345.[10] PHILIPS,
J.P.N.(1969) -
A furtherprocedure
fordetermining
Slater’s iand all nearest