R EVUE DE STATISTIQUE APPLIQUÉE
C H . G ILLOT H. C AUSSINUS
Sur un modèle de comparaisons par paires avec une échelle de réponses à trois valeurs
Revue de statistique appliquée, tome 14, n
o3 (1966), p. 31-42
<
http://www.numdam.org/item?id=RSA_1966__14_3_31_0>
© Société française de statistique, 1966, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
31
SUR UN MODÈLE DE COMPARAISONS PAR PAIRES AVEC UNE ÉCHELLE DE RÉPONSES A TROIS VALEURS
Ch. GILLOT
etH. CAUSSINUS (laboratoire de Statistique Faculté des
Sciencesde TOULOUSE)
I - INT RODUCTION
Un certain nombre de modèles de
comparaisons
parpaires
fontappel
à une échelle deréponses
à deux valeurs.Ainsi,
lors de la compa- raison desobjets
A etB,
le"juge"
doitobligatoirement
donner lapré-
férence soit à
l’objet A,
soit àl’objet
B. Mr Vessereau aprésenté
cesmodèles dans un article récent de cette
revue(l).
Il a donné à cette occasion uneimportante bibliographie
que nous nereproduirons
pas ici.Dans la
pratique,
et sur la base d’un critère de choixdonné,
ilse
peut
que l’on ne sache pas discernerlequel,
de A ou deB, prévaut.
Si un tel fait se
produit,
etsi,
d’autrepart,
le cas"d’équivalence"
n’apas été
prévu,
onpeut
penser que l’un des deuxobjets,
sera classésupérieur
àl’autre,
auhasard.
II - PRESENTATION DU MODELE
Dans le modèle que nous exposons, nous avons introduit une échelle de
réponses
à troisvaleurs, qui
tientcompte
de ce cascritique.
On
conçoit
mieux l’utilité de cette dernière échelle si l’on raisonnenon pas sur des
objets
àclasser,
mais en termes decompétition
dejoueurs,
cequi
ne diminue pas lagénéralité
de cette étude(cf. David,
Tournaments and
paired comparaisons, Biometrika, 46).
On convient donc
qu’un
certain nombre dejoueurs
s’affrontent deux àdeux,
de tellefaçon qu’un joueur
donné rencontre tous ses adversaires . Pour la commodité ducalcul,
on considère n + 1joueurs (que
l’onappellera Cl , C2.... Cn+1),
cequi
donnen(n + 1) 2 parties
effecti-vement
jouées.
A l’issue de la confrontation
(Ci, Cj),
trois éventualitéspourront
se
produire :
1 / Ci
f a battuCj 2/ Ci
a battuC
i3/ Ci
etCi
ont faitpartie
nulle.(1) Les méthodes statistiques appliquées au test des caractères organoleptiques - Revue
de Statistique Appliquée 1965. Vol. XIII n° 3.
Revue de Statistique Appliquée 1966 - Vol. XIV - N 3
32 Hypothèse
nulleNous supposerons a
priori
que tous lesjoueurs
sont de mêmeforce,
ce
qui
conduit àécrire,
en notant"Ci
>Cj"
le fait queCi
batCjet
"Ci = Cj"
lapartie
nulle entreCi
etCj :
avec :
p et q liés par la relation :
Nous supposerons en outre que les résultats des rencontres entre un
joueur
donné et ses divers adversaires sontindépendants
entre eux.Cotation des résultats
La variable aléatoire
Xi j représente
le résultat de lapartie jouée
entre
Ci
etCj.
Nous avons
adopté
l’échelle de notes suivantes :- Si
Ci
estbattu,
ilreçoit
la note - 1(Xij 1).
- Si
Ci
faitpartie
nulle avecCj,
tous deux ont la note 0.(Xij = 0).
- Si
Ci
batCJ
,Ci reçoit
la note + 1.(Xij - + 1)
On remarque que,
quels
que soient i etj,
on a la relation :L’hypothèse
nulle s’écrit alors :On conviendra en outre que
Xii prend
la valeur zéro avec laprobabilité
1. Le"score"
dujoueur Ci
sera la variable aléatoire :Le tableau
(4).
rendcompte
des résultats de lacompétition
et duscore de
chaque joueur :
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
33
En tenant
compte
de(2),
on voit que la somme de tous les scoresXi
estnulle,
III - LOI DE PROBABILITE DU VECTEUR SCORE
On
appellera
vecteur score l’ensemble des scores des(n
+1 ) joueurs.
Le calcul de la loi deprobabilité
d’un vecteur scorepeut
s’ef-fectuer
par "remontée",
en calculant la loi deprobabilité marginale
duscore d’un
joueur unique puis
la loi deprobabilité conjointe
de deuxscores,
puis
detrois,
etc ...Loi de
probabilité
du score d’unjoueur
Notons que,
d’après
leshypothèses,
toutes les variables aléatoiresXi
ont mêmedistribution,
il suffira donc de considérer parexemple
La fonction
génératrice
desprobabilités
deXij
soitE(tx1j)
estq +
p(t
+t-1).
Les variables aléatoires
X1J
étantindépendantes, d’après
notrehypo- thèse,
la fonctiongénératrice
desprobabilités
deXt
est :soit :
Or,
on a aussi :(il
est évident queXi
estcompris
entre - n et +n).
En identifiant les coefficients des termes en
tX
dans(5)
et(6)
onobtient la loi de
probabilité
du scoreXi
dujoueur CI :
le
signe S
tindiquant
que la sommation doit s’effectuer sur les valeurs de kayant
mêmeparité
que x.Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
34
MOMENTS DE CETTE LOI DE PROBABILITE
et
puisque
les variables aléatoiresX1j
sontindépendantes :
LOI DE PROBABILITE CONJOINTE DES SCORES DE DEUX JOUEURS On considère les
joueurs Ci
etC2,
et l’on cherche à évaluerxi et x2 étant des entiers
compris
entre -n et +n.On
peut décomposer
les deuxpremières lignes
du tableau(4)
dela
façon
suivante :D’une
part
l’élémentX12, auquel
est associéd’après (2)
l’élémentX21.
D’autre
part,
les ensembles :Cette
façon
departager
lesXij présente l’avantage
de fournir des en-sembles de variables aléatoires
indépendantes
entreelles,
les scoresXl
etX2 n’étant
reliés que par l’intermédiaire deX12
etX2P
On
peut
donc obtenir aisément laprobabilité
cherchée :En
effet,
xétant
la valeur du scoreXi ,
siX12 prend
la valeurk,
laquantité Xi - X12 , qui
n’est autre que la somme des variables :Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
35
(encadrées
dans lapremière ligne
du tableauprécédent)
vaudra xi - k . Demême, x2
étant la valeur deX2’ puisque X21 = - X12 = -k,
laquantité X2 - X21 vaudra x2
+ k.On remarque que les
probabilités
dutype
sont de la forme
(7),
mais avec(n - 1) compétitions
au lieu de n.Introduisons la fonction n définie de la
façon
suivanteL’expression (10)
s’écritalors,
sous formeexplicite :
Le
signe 03A3’ ayant
la mêmesignification
que dans(7).
Corrélation entre 2 scores
En utilisant
l’indépendance
des variables telles que relationE(X12 X21) = - 2p :
le coefficient de corrélation entre
Xl
etX2
est donc :De
(11)
et(9)
on déduit la matrice ordre du vecteur score :des moments centrés du deuxième
est le
symbole
deKronecker) (13)
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
36 Généralisation
Loi de
probabilité marginale
des scores de troisjoueurs
L’expression
de cette loi se déduit de celle de la loiprécédente,
en
employant
unprocédé analogue
deséparation
des variables aléatoires . En considérant lesjoueurs Cl, C2
etC3,
on forme le tableau sui- vant :On effectue la
décomposition
suivante des scores :- Pour le
joueur CI :
d’unepart
l’élémentX13
, d’autrepart,
l’ensemble
(X12, X14, X15,
....Xi, n+1)
- Pour le
joueur C 2 :
d’unepart,
l’élémentX 23 ,
d’autrepart,
l’ensemble
(X21
,X24, X25,
...X2, 0+1).
- Pour le
joueur C3 :
l’ensemble(X31, X32), puis
l’ensemble(X34’ X35,
...,X3. n+1).
On obtient la
probabilité
cherchée :Le calcul de la
probabilité (14)
nécessite la connaissance de l’ex-pression
du troisième terme entre accolades. Ce terme estanalogue
àcelui donné par la relation
(10),
lequatrième
terme étantanalogue
àcelui donné par
(7).
On voit donc que le calcul de la
probabilité
d’un vecteur scorede
(n
+1) joueurs
pourra se faire par"remontée",
enpartant
de la loide
probabilité marginale
du score d’un seuljoueur (Cl ), puis
à l’aidede la loi de
probabilité
des scores de deuxjoueurs (C1
etC2), puis
detrois
joueurs ( C1 , C2
etC3),
en utilisantchaque
fois les résultatsprécé- dents, jusqu’à
ce que l’on ait atteint l’ensemble desjoueurs.
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
37
Voici à titre indicatif
l’expression développée
de la loi deproba-
bilité
conjointe
des scores dequatre joueurs parmi
un ensemble de(n
+1) joueurs (n 3).
Les fonctions TE
ayant
été définiesplus haut,
ainsi que lesigne
Cette
expression
n’est passimple :
dans lapratique,
on aura inté-rêt à
partir
de la formule suivante :et à utiliser les résultats obtenus pour 3
joueurs, lesquels
font eux-mêmes
appel
aux résultats obtenus pour 2joueurs.
TABLEAU
(A)
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
38
Le tableau
(A) donne,
pour un ensemble de 4joueurs,
lesproba-
bilités du vecteur score(XI X2 X3 X4)
ainsi que le nombre de vecteursscores
équiprobables.
(Tout
vecteur dont les"composantes"
se déduiraient de celles d’un vecteur donné par unepermutation
de cescomposantes
a la même pro- babilitéd’apparition
que le vecteurinitial).
En effet cela revient
simplement
àchanger
les numéros desjoueurs.
Il en résulte une
importante
économie de calcul.Il faut remarquer que tout ensemble de nombres
compris
entre - 3et + 3 et dont la somme est nulle ne forme pas
obligatoirement
un vecteurscore.
Par
exemple,
il n’est paspossible
d’avoir un vecteur tel que(- 3, - 3, 3, 3),
comme on pourra s’en rendrecompte
en écrivant le tableau des variablesXij.
IV - APPROXIMATION DES LOIS DE PROBABILITE
Théoriquement,
ce modèleprobabiliste permet
de connaître les pro- babilités des différents vecteurs scores pour un nombrequelconque
dejoueurs.
Maispratiquement,
le calcul estbeaucoup trop long.
On a donc cherché à
approcher
les lois deprobabilité marginales
des scores par une loi
plus
maniable.D’après
le théorème centrallimite,
onpeut approcher
la distri- bution deY -2 n-p
par la distribution normale réduite.Pour étudier la valeur de cette
approximation
pour un n donné on atracé, (figures I),
leshistogrammes correspondant
à la loi exacte et à la loiapprochée,
loi normale de moyenne nulle et de variance2np.
Les
figures
la et lbreprésentent :
- en trait
plein l’histogramme
de la loi exacte- en
pointillé l’histogramme
de la loi normaleN(0, 2np).
Sur la
figure
la(n
=6,
p =1/3),
le raccordement est assezbon,
avec des écarts inférieurs à0,
005.Sur la
figure
lb(n
=10,
p =0, 2),
ces écarts sont tous inférieurs aumillième.
On
peut
montrer aussi que la distributionconjointe
des scores de kjoueurs
estproche
de la distribution de k variables normalesindépen-
dantes si k est fixé et n tend vers l’infini
(dans
lapratique
k doit êtrepetit
devantn).
Mais ce résultat nepeut
évidemment pas êtregénéralisé
au cas de la distribution des scores de k
joueurs
si k estgrand
et enparticulier
si k = n.V - UTILISATION
PRATIQUE
Dans la
pratique
l’étudeprécédente peut
servir à réaliser un test del’hypothèse
nulleprésentée plus
haut contre l’alternativequ’un joueur
donné est
"plus fort"
que les autres : dans ces conditions son score aura tendance à êtreplus grand
que sousl’hypothèse
nulle. La distributionRevue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
39
40
des scores donnés ci-dessus
permet
de construire unerégion critique
de seuil donné pour ce test, si la
probabilité
q de match nul est connue .Cependant,
dans lapratique,
il n’en sera pasainsi,
et l’on devra se contenter d’estimer cetteprobabilité
àpartir
desdonnées,
la meilleure estimation de q étant où r est le nombre total departies
nulles
parmi
lesparties jouées.
On en déduit bien sûr l’esti- mation de p :VI - CAS DE s COMPETITIONS SUCCESSIVES INDEPENDANTES On considère maintenant le cas où une
compétition
dutype
décritplus
haut estrépétée
sfois,
les srépétitions
étantsupposées
stochasti-quement indépendantes.
Nous utiliserons les mêmes notations queprécé- demment,
enajoutant
l’indicesupérieur (k)
pour la kièmecompétition (k = 1, 2,
...,s).
Ainsi :est le vecteur score attaché à la kième
compétition.
Tous les vecteurs
X(k)
sontindépendants
enprobabilité
etidentiquement
distribués.Le score définitif
Si
dujoueur Ci
est :On notera S le vecteur
Nous nous bornerons ici à l’étude des résultats
asymptotiques lorsque
sdevient très
grand,
résultatsqui
sont trèssimples
et faciles à utiliser.Dans ce cas la distribution de :
tend vers la loi normale de matrice des moyennes nulle et de matrice des variances et
covariances 1.
calculéeplus
haut.Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
41 Posons :
La distribution
asymptotique
du vecteur D est normale de moyenne nulle de matrice des variances et covariancesOn vérifie facilement
que
a une valeur propre nulle et n valeurs propreségales
à un. Il existe donc une transformationorthogonale
telle que la matrice des variances de Y soit :
Dans ces conditions Y’Y suit
asymptotiquement
une loi dex2 à
ndegrés
de
liberté ;
il en sera de même de :puisque
YIY = D’C’CD = D’DDans la
pratique
p estinconnu,
maissi $
est un estimateurconvergent
de p, la distributionasymptotique
deIl est facile de vérifier
qu’un
bon estimateur de p sera :où T est le nombre total de
parties
non nulles dans lesparties jouées.
Un test de
l’hypothèse
nulle selonlaquelle
lesjoueurs
sont de forceségales
pourra être ainsi effectué àpartir
de :la
région critique
étant formée desgrandes
valeurs duX2.
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3
42 VII - CONCLUSION
Certains auteurs,
lorsqu’ils
sont enprésence d’expériences
decomparaisons
parpaires
oùfigurent
deségalités,
décident de classer arbitrairement unobjet
comme étantsupérieur
à l’autre pourpouvoir
continuer àemployer
le modèle à deuxcatégories.
L’emploi
d’un modèle à troiscatégories pourrait
alors sejustifier
dès que le nombre de cas où l’on n’a pas su discerner entre deux
objets
n’est paspetit
devant le nombre total decomparaisons effectuées.
Nous avons
présenté
un tel modèle et avons donnéquelques
indi-cations sur son étude. Ce modèle est
plus
lourd à manier que le modèleplus simple
oùl’équivalence
n’est pasconsidérée,
et nécessite en outre l’introduction d’unparamètre
inconnu même sousl’hypothèse
nulle.Cependant,
comme il a été vu dans la dernièrepartie,
il est pos - sible de trouver au moins des résultatsasymptotiques simples.
Revue de Statistique Appliquée 1966 - Vol. XIV - N’ 3