R EVUE DE STATISTIQUE APPLIQUÉE
A. V ESSEREAU
Les méthodes statistiques appliquées au test des caractères organoleptiques
Revue de statistique appliquée, tome 13, n
o3 (1965), p. 7-38
<
http://www.numdam.org/item?id=RSA_1965__13_3_7_0>
© Société française de statistique, 1965, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
7
LES MÉTHODES STATISTIQUES APPLIQUÉES AU TEST
DES CARACTÈRES ORGANOLEPTIQUES (1)
A. VESSEREAU
Professeur
à1"Institut de Statistique,
Universitéde
ParisSOMMAIRE
INTRODUCTION
I - GENERALITES SUR LES OBJECTIFS ET LES METHODES A - Les
objectifs ;
B - Les méthodes.
II - LES TESTS D’IDENTIFICATION
(OU
DEDIFFERENCE) :
A - Définition des
principaux
tests ; B -Comparaison
des tests ;C - Le modèle
mathématique
deBradley
et deUra ;
D - Identification au moyen de deux
critères ;
E - Généralisation des tests d’identification.III - LES TESTS DE CLASSEMENT ET DE PREFERENCE PAR PAIRES : A - La méthode de
Thurstone-Mosteller ;
B - La méthode de
Bliss ;
C - La méthode de
Bradley-Terry ;
D - La méthode de
Scheffe ;
E - La méthode de
Kendall ;
F -
Comparaison
des différentes méthodes.IV -
CLASSEMENT,
OU COTATION SIMULTANES DE PLUS DE DEUX PRODUITS :A - Méthode par cotation ; B - Méthode par classement.
V - COHERENCE ET HOMOGENEITE : A - Incohérence et
ordonnabilité ;
B -
Homogénéité.
CONCLUSION
(1) Conférence publiée dans les "Annales de la Nutrition et de l’Alimentation (1965
XIX N° 2). Reproduite avec l’autorisation du Centre National de la Recherche Scien- tifique.
Revue d. Statistique Appliquie. 1965 - Vol. XIII - N’ 3
8
INTRODUCTIONL’appréciation
directe des caractèresorganoleptiques
au moyen de tests exécutés par une ouplusieurs
personnes, soulève des difficultés bien connues. Sauf dans le cas decomparaisons
concernant desproduits
très
différents,
lejugement porté
par un mêmesujet peut
varier d’uneépreuve
àl’autre ;
d’unsujet
à l’autre lejugement peut
ne pas être lemême ;
à ces sources de variations"intra"
et"inter-sujets", s’ajoute
la variabilité propre aux
objets
mêmes soumis au test.L’intérêt des méthodes
statistiques
pourl’interprétation
des ré-sultats n’est
guère contesté ;
leur rôle dansl’organisation
desexpé-
riences n’est pas moins
important.
Les statisticiens serefusent,
àjuste titre,
àinterpréter
les résultatsd’expériences
dont ils n’ont pasétabli, conseillé,
ouapprouvé
leplan,
et cela pour deux raisons : uneexpé-
rience mal conçue
peut
êtreimpuissante
à révéler les différences que l’on cherche à mettre en évidence - cequi
estplus
grave, ellepeut
conduire à des conclusions tout à faiterronées ; l’exemple
leplus simple
concerne la
comparaison
de deux termes A etB,
où l’ordre deprésen-
tation
peut
influencer laréponse
au même titre que la"vraie différence"
entre A et B. Il va sans dire que, pour les situations les
plus
courantes, desplans simples peuvent
être exécutés etinterprétés
sansqu’il
soitbesoin d’avoir recours à un statisticien
qualifié :
mais s’écarter desprotocoles
d’exécution et desrègles d’interprétation
telsqu’ils
ont étéexactement
définis, présente
desrisques qu’il
faut éviter de courir.La
bibliographie
concernant les méthodesstatistiques applicables
ou
susceptibles
d’êtreappliquées
au test des caractèresorganoleptiques ,
surtout
d’origine anglo-américaine,
est trèsimportante.
Onpeut
y dis-tinguer :
- les articles
qui traitent,
d’unpoint
de vuethéorique,
deméthodes
générales
dont lechamp d’application
contient le domaine par- ticulierqui
nous concerne ici : on les trouvera notamment dans Biometrika, Annalsof
Hathematical Statistics, Journalof
American Statistical Associa- tion, Journalof
theRoyal
StatisticalSociety :
en fait il n’estguère
deméthode
statistique
dont l’utilisation pour les tests sensoriels nepuisse
être
envisagée ;
- les articles dans
lesquels
lapartie théorique, plus
ou moinsdéveloppée,
sert de base à desapplications concrètes ; beaucoup
de ceux-ci ont été
publiés
au cours des dix dernièresannées,
dansBiometrics
- enfin les
publications qui portent
sur dessujets particuliers,
que l’on trouvera notamment dans Food Research et Food
Technology.
L’interprétation statistique
a pour ambition d’étendre les résultats d’uneexpérience particulière
à un ensembleplus général :
ce sera l’en-semble des
répétitions
de la mêmeépreuve, susceptibles
d’être effec-Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
9
tuées,
dans les mêmesconditions,
par unsujet
ou un groupe desujets
- ou l’ensemble des résultats que l’on obtiendrait sur une
"population"
de
sujets
dont le groupe exécutantl’expérience
constitue un"échantillon"
valable. Mais cette
généralisation
nepeut
pas être faite aveccertitude ;
l’énoncé des conclusionscomporte
desrisques
d’erreur - celles-ci doi- vent être formulées en termesprobabilistes.
On
rappellera rapidement,
pour éviter d’avoir à y revenir par lasuite,
les deux moyensprincipaux
utilisés pourl’interprétation
statis-tique :
La not ion d’estimation et celle d’intervalle de
confiance.Les
résultatsexpérimentaux permettent
de calculer la valeur d’un -ou deplusieurs- paramètres
tels que :proportion
depréférences
pour l’un des termescomparés,
note moyenne attribuée à unproduit,
etc. Cette valeur numé-rique
constitue une estimation de la valeurthéorique qui
caractérise l’en- sembleauquel
les observations sont rattachées en tantqu’échantillon.
En même
temps
que l’estimation on calcule un intervalle deconfiance
attaché à celle-ci : intervalle telqu’on
ait unequasi
certitude de ne passe
tromper
en affirmantqu’il
contient la valeurthéorique.
Cette"quasi
certitude"
est mesurée par uneprobabilité (1 - a)
voisine de1,
que l’onappelle
le"niveau
deconfiance" (on prend
très souvent uneprobabilité égale
à0, 95,
ou"95
chances sur100").
Laprobabilité complémentaire (a),
parexemple 0,05 ("5
chances sur100")
est lerisque
d’erreur at-taché à l’intervalle de confiance.
La not ion de test
statistique.
Assez malencontreusement le même terme de"test" s’applique
àl’épreuve
des caractères sensoriels et àson
interprétation statistique.
On évitera les confusions enutilisant,
pource deuxième sens du même
mot, l’expression
de"test statistique",
ou"test d’hypothèse".
Le test
statistique prend
d’abord en considération unehypothèse Ho, appelée "hypothèse nulle", qui,
sommairementdite,
est que"les
résultatsexpérimentaux peuvent s’expliquer
par le seul fait duhasard".
Par
exemple, lorsque
deux boissons dont l’une estplus
sucrée que l’autre sontprésentées
à undégustateur, celui-ci,
s’il neperçoit
pas la dif-férence,
a une chance sur deux de les classer correctement.L’hypothèse Ho
est ici définie par laprobabilité p =1/2 ;
si une seuleépreuve
estfaite,
etquel qu’en
soit lerésultat,
iln’y
a pas de raison valable de larejeter.
Mais si danscinq épreuves indépendantes
ledégustateur
donnecinq
classementscorrects,
on est naturellement conduit àrejeter l’hypo- thèse,
et à conclure que la différence a été perçue ; eneffet,
dans lecas de classements
"au hasard",
l’évènement observé aurait moins de 5 chances sur 100 de seproduire (exactement ( 5’ ;
=312
=0, 03 ).
Au test
statistique
est donc attaché unpremier risque,
dit"risque
de lère
espèce", qui
est laprobabilité
derejeter l’hypothèse Ho
bienque celle-ci soit vraie. Dans
l’exemple précédent,
si l’on choisit pour cetteprobabilité
la valeur a =0, 05,
on est conduit à nerejeter l’hypo-
thèse que si
cinq
classementsindépendants
ont été corrects.Cependant,
en
adoptant
cetterègle,
il arrivera 3 fois sur 100 que des classementspurement
aléatoires feront conclure -à tort- que la différence a été perçue.On posera donc .
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
10 Risque
de lèreespèce :
Lorsque l’hypothèse Ho
n’est pasrejetée,
on dit que les résultatsne sont pas
"significatifs" ;
a est le"seuil
designification"
pourlequel
on
adopte souvent,
mais pasobligatoirement,
la valeur0,
05(5
chancessur
100)
ou, si a nepeut prendre
que des valeursdiscrètes,
la valeur immédiatement inférieure à0, 05.
Le fait que les résultats ne
permettent
pas derejeter
-au seuilde
signification
choisi-l’hypothèse Ho
ne prouve pas que celle-ci soit vraie.Reprenant l’exemple
des deux boissonssucrées,
considérons larègle
de décision suivante :Le
dégustateur
effectuecinq classements ;
si tous sont corrects,on
rejette l’hypothèse Ho (po - 1 - 5 ) ;
dans le cascontraire,
on ac-cepte
cettehypothèse.
Lerisque
de lèreespèce
est :Supposons
que ledégustateur
aitune "certaine sensibilité" qui
luipermette
de classer correctement les boissons en moyenne 6 fois sur 10.L’hypothèse
vraie n’est pasl’hypothèse Ho po - 5
maisl’hypo-
thèse
H1(P1 =6 10).
Conformément à larègle fixée, l’hypothèse Ho
sera
acceptée
si ledégustateur
nerépond
pas correctement dans les 5épreuves
-évènement dont laprobabilité
est 1-(6 10)5 = 0,92.
Ainsi il y a 92 chances sur 100 pour que la
règle adoptée
ne ré-vèle pas la sensibilité d’un
dégustateur
caractérisé par 6Pi = 10
Le
risque
de 2eespèce
associé àl’hypothèse
alternativepl
est :Le tableau
ci-après
donne les valeursde )3
associées à différentes valeurs de p.Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
11 D’une
façon générale
on posera :Risque
de 2èmeespèce.
P
= Pr.[accepter Ho/H vraie]
Alors que le
risque
de lèreespèce
a une valeur fixe choisie àl’avance,
lerisque
de 2eespèce dépend
de l’alternativeH ~ Ho.
Il dimi-nue au fur et à mesure que cette alternative
"s’éloigne"
del’hypothèse
nulle
Ho.
La relationentre P
et H(dans
le cas actuelentre 03B2
etp)
définit la
"fonction",
ou la"courbe d’efficacité"
du teststatistique,
c’est-à-dire en
fait,
de larègle
de décisionadoptée.
Laquantité 1 - P
est la"puissance"
du test pour l’alternative H. Pour unehypothèse Ho donnée ,
et un seuil de
signification
exégalement donné,
il y a intérêt à choisirun test
statistique
aussipuissant
quepossible
àl’égard
d’une alternativeHo
àlaquelle
on s’intéresseparticulièrement et,
si un tel testexiste,
le test"le plus puissant"
àl’égard
de toute alternative. La notion depuissance
du test intervient dans le choix d’unplan d’expérience ;
commela
puissance augmente
avec le nombred’épreuves (ou
derépétitions) l’adoption
d’unplan permettant
un testplus puissant
amène une économiedans le nombre
d’épreuves. L’ "efficacité relative"
de deuxplans Pl
etP2 peut
se définir comme lerapport nl/n2 (généralement exprimé
enp.
100)
des nombres derépétitions
pourlesquels (a,j3)
se trouvent avoir les mêmes valeurs.I - GENERALITES SUR LES OBJECTIFS ET LES METHODES A - Les
objectifs.
Dans le domaine des
applications pratiques,
lesprincipaux
pro- blèmesqui
seposent
sont les suivants :1/Le
contrôle dequalité.
Il
s’agit
de s’assurer que laqualité
d’unproduit
reste constante.Les
épreuves
auront donc pour but de rechercher si unedifférence
per-ceptible existe ;
elles serontgénéralement
exécutées par unpetit
nom-bre
"d’experts", auxquels
on demandera d’identifier unproduit présenté
sous forme
codée,
en mêmetemps
que leproduit
standard outémoin, également
codé.2/
Lesproblèmes
depréférence.
Ceux-ci se
posent
notamment lors de l’élaboration deproduits
nouveaux ; les tests de
comparaison
sontgénéralement
effectués en pre- mier lieu par desexperts qualifiés, puis
à un stade ultérieur par unpanel
de consommateursreprésentatif
dupublic auquel
on destine leproduit.
Il y a intérêt à ce que lesréponses puissent
êtreanalysées
enfonction de facteurs tels que
l’âge,
le sexe, larésidence,
lacatégorie socio-professionnelle,
etc.3/ L’analyse
desfacteurs susceptibles de modifier
lescaractéristiques
d’un produit.
Il
peut s’agir
du choix des matièrespremières,
desprocédés
defabrication et aussi du
conditionnement,
des conditions destockage,
etc.Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
12
Détection de différences et
problèmes
depréférences
serontgénéralement impliqués
dans de telles recherches.4/
La sélection et leperfectionnement
d’unjury d’experts.
La sensibilité aux
différences,
la constance desréponses,
serontles
points
essentiels à examiner.On trouvera des considérations intéressantes sur l’ensemble de ces
problèmes
dans R. A.Bradley [6]
et D. D. Mason and E. J. Koch[32] ;
sur le
problème particulier
des tests depréférence
dans C. I. Bliss[3]
et sur celui de la sélection et de l’entraînement des
experts
dans A. O.Mackey and P. Jones[31],
# G.Bennett,
B. M.Spahr
and M. L. Dodds[ 2 ],
M. G. Tarver and B. H. Ellis[ 38 ],
Vessereau[43 ].
Les recherches à caractère
plus théorique
concernent :5/
Lapossibilité
de situer sur une échellequantitative
lesréponses
à des intensités croissantes d’un même stimulus
(échelle d’intensité)
oules
préférences
àl’égard
de stimuli de naturequelconque (échelle
depréférences).
6/
Le choix d’une échelleunique
pour les intensités desquatre goûts
fondamentaux : N. T.Gridgeman [18].
7/
La mesure du seuil deperception
d’unstimulus ;
la distribution des seuils deperception
dans un groupe d’individus : E. K. Harris[ 22 ].
8/
Lacomparaison
de différentes méthodesobjectives
ousubjec-
tives : W. G.
Kauman,
J. W. Gottstein and D.Lantican[29],
D. E. W.Schumann and R. A.
Bradley [36], [37].
B - Les méthodes.
On
peut distinguer :
- celles
qui
ne font pasappel
à la notion de mesure ; dans cettecatégorie
entrent les tests de classement relatifs à deux ouplu-
sieurs
produits ;
- celles
qui obligent
lesujet
à formuler saréponse
sousforme d’une indication
numérique,
c’est-à-dire d’une"note"
mesurant ledegré
d’intensitéressenti,
ou ledegré
depréférence.
L’interprétation
despremières
repose essentiellement sur les pro-priétés
del’analyse combinatoire,
de la loi binomiale ou de la loi mul- tinomiale. Les secondes doivent faireappel
à un"modèle",
ou"distri-
butionthéorique",
tel que la loinormale ;
le modèle estappliqué
soitaux
réponses elles-mêmes,
soit à une variable calculée àpartir
des ré-ponses et dont on a des raisons de penser
qu’elle épouse
deplus près
le modèle
théorique.
Les méthodes faisant
appel
à la cotationpermettent
d’utiliser la théorie desplans d’expérience
et lestechniques d’interprétation
de1’"analyse
de lavariance" ;
mais ellesprêtent
àcritique,
tout modèle à prioripouvant
êtresuspecté
d’arbitraire. Les travaux deThurstone [39], [40], [41]
et de R. A.Bradley [7], [9], [10], [11]
sur lescomparaisons
par
paires,
ontpermis de jeter
unpont
entre les deux méthodes en in- troduisant dans lesproblèmes
de classement un modèlesous-jacent
dontRevue de Statique Appliquée. 1965 - Vol. XIII - N. 3
13
il est
possible
de tester la valeur. Enfait, l’interprétation
des mêmesrésultats
expérimentaux
par diverses méthodes conduitgénéralement
àdes conclusions très voisines : C. I.
Bliss,
M. L. Greenwood and E. S.White
[ 4],
J. E. Jackson and M. Fleckenstein[28].
On
peut
d’autrepart
classer lesexpériences
suivant que, dans une mêmeépreuve,
le nombre de termes différentsprésentés
à un mêmesujet
estégal
ousupérieur
à deux. Lescomparaisons
parpaires
ontl’avantage
d’êtreparticulièrement simples
-ellespermettent généralement
au
sujet
d’exercer dans les meilleures conditions ses facultés senso-rielles ;
le test"triangulaire" -largement
utilisé dans lesproblèmes
d’identification- est une variante dans
laquelle
l’un des deuxproduits
estreprésenté
deux fois.Le
problème
de la"cohérence"
desréponses
se poselorsqu’un
même
sujet
est invité à comparer deux à deuxplusieurs produits (com- paraisons
telles queAB, AC, BC).
Lesréponses
ne sont pas"cohérentes"
si elles sont telles que A
> B,
B >C,
C > A. D’autrepart, l’homogénéité
des
réponses
doit être examinéelorsque plusieurs sujets participent
auxépreuves.
Ces
problèmes, qui
seposent
notamment à un"jury"
dont la mis- sion est d’établir le classement d’un certain nombre deproduits
ont faitl’objet
d’étudesparticulièrement importantes
de M. G. Kendall[30].
Les méthodes
séquentielles
-méthodes danslesquelles
le nombred’épreuves
n’est pas fixé àl’avance,
celles-ci étantpoursuivies jusqu’à
ce que les résultats
permettent
de conclure avec desrisques
fixés à l’avance- ne semblent pas avoir faitl’objet
de nombreusesapplications
dans le domaine des tests
organoleptiques.
La méthodeclassique
deWald,
ainsiqu’une
méthode due à Rao sont toutefois citées par R. A.Bradley [ 6]
commepouvant
être utilisées pour la sélection desexperts
en
dégustation.
Les classifications
qui précèdent
-tant en cequi
concerne les ob-jectifs
que les méthodes- ont, commebeaucoup
declassifications,
uncaractère
conventionnel,
et elles nes’appliquent
que defaçon imparfaite
à un
champ
de recherches etd’applications particulièrement complexe.
Elles
peuvent cependant
être dequelque
utilité dans l’étude des cas lesplus importants qui
faitl’objet
desparagraphes
suivants.II - LES TESTS D’IDENTIFICATION
(OU
DEDIFFERENCE)
A - Définition
des principaux
tests.Les tests les
plus
couramment utilisés -notamment en contrôle dequalité
et pour la sélection desexperts-
sont :Le pair-test. Deux
produits
A et B sontprésentés ;
lesujet
doitrépondre
à unequestion
telle que"quel
est celui des deuxqui
est... leplus
fort ?... leplus
salé ?... leplus aromatique ?... ".
Le test "duo-trio". L’un des deux
produits
-A parexemple-
estprésenté
ausujet qui prend
connaissance de ses caractèresorganolep- tiques ;
A et B sont ensuiteprésentés
ensecret,
et lesujet
est invité à les reconnaître. Une variante de ce test est le test dual-standard, danslequel
les deuxproduits
sont d’abordprésentés
en clair.Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
14
Le test
"triangulaire".
Ilcomporte
troisproduits codés,
dont deux sontidentiques ;
lesujet
doitdésigner
celuiqui
est différent des deux autres. Pour quel’expérience
soit"équilibrée",
les 6séquences AAB, ABA, BAA, BBA, BAB, ABB,
doivent êtretestées,
dans un ordre deprésentation
tiré au sort.Gridgeman
etHopkins
considèrent que laréponse
donnée dans cestrois tests
peut
être correcte pour l’une ou l’autre des raisons suivantes :- le
sujet
a réellement perçu ladifférence ;
- le
sujet
n’a pas perçu la différence et a donné"par hasard"
une
réponse
correcte.Soit
p
laprobabilité
dupremier
évènement(p
speut
aussi êtreconsidéré comme la
proportion
desujets ayant,
dans unpanel important, l’aptitude
sensoriellequi permet
derépondre
correctement à laquestion posée).
Soit d’autrepart ph
laprobabilité
que laréponse
correcte soit dueau seul hasard. La
probabilité
p d’uneréponse
correcte-pratiquement,
la
proportion
deréponses
correctes dans ungrand
nombre derépétitions-
est :
Cette relation
permet
d’estimerp
r àpartir
de p(résultat expé- rimental) et Ii. (qui
est défini par letype d’épreuve choisi) :
Dans le
"pair-test"
et le test"duo-trio",
on ap h = 9 1
1p
D varie de1/2
à 1lorsque p
s varie de 0 à 1.Dans le test
"triangulaire", p = -,
h 3P6
varie de1/3
à 1lorsque Il
varie de 0 à 1.Pour que le résultat d’une
expérience
soit"significatif",
ilfaut,
dans le"pair-test",
quePo
s’écarte suffisamment(dans
un sens ou dansl’autre)
de la valeurph - 1 (qui correspond à
l’identité des deux termescomparés) ;
dans le test"duo-trio",
quep
soit suffisamment plus élevé quePh = 2
et dans le test"triangulaire"
quepo
soit suffisamment plus élevéque p = 1
D’une
façon plus précise,
supposons quel’expérience comporte
Nrépétitions
et que l’on ait choisi un seuil designification
a =0,
05. Soitn le nombre de
réponses
en faveur de l’un des deux termes(A
ouB,
cas du
"pair-test"),
ou le nombre d’identifications correctes("duo-trio",
ou
"triangulaire-test"). L’hypothèse
nulle estrejetée (résultats signi- ficatifs)
dans les circonstances suivantes :Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
15
Pair-test : n est extérieur à l’intervalle
(nl’ n2), nl
etn2 étant
lesvaleurs de la variable binomiale
(P = 2 1
1 Nrépétitions
telles que :Test "duo-trio" : n est
supérieur
à n2, valeur de la même variablebinomiale,
telle que :Test "triangulaire" : n est
supérieur
à n2, valeur de la variable binomiale(P = 3 1
1 Nrépétitions)
telle que :Les tables de la loi binomiale donnent les valeurs de nI et n2 ; pour un nombre de
répétitions élevé,
onpeut
utiliserl’approximation normale, qui
conduit àrejeter l’hypothèse
nullelorsque :
B -
Comparaison
des tests.Dans le test
"triangulaire",
laplace
laissée au hasard estplus petite
que dans les deux autres. Mais la véritablecomparaison
des testsrepose sur le
"risque
de 2eespèce",
c’est-à-dire sur laprobabilité
d’ac-cepter l’hypothèse nulle,
alors quel’hypothèse
vraie est une alternativep 1 1 ("pair-test"), p > 1 (test "duo-triof’)
oup > 1 (test "triangulaire").
Ce
risque
décroît au fur et à mesure quep (lié
à p par les relationsindiquées plus haut) augmente
de 0 à 1. Il décroît d’autrepart lorsque
le nombre de
répétitions
Naugmente.
Il est
possible,
au moyen des tables de la loibinomiale,
de tracerles courbes d’efficacité des trois tests. Cette étude
mathématique
a étéfaite notamment par J. W.
Kopkins [ 26] ,
N. T.Gridgeman [ 16 ],
J.W.Hopkins
and N.T.Gridgeman [27].
Elle conduit à la conclusion que, dansl’hypothèse
où une même valeur deps (probabilité
de détecter ladifférence)
leur est
applicable,
les tests se classent dans l’ordre d’efficacité crois- sante suivant :"pair" "duo-trio" "triangulaire"
Cependant,
pour un même nombred’épreuves,
lepremier
test estplus économique
que les deux autrespuisqu’il n’exige
que deuxproduits
par
épreuve
alors que le test"duo-trio"
et le test"triangulaire"
endemandent trois. Si l’on compare les tests à nombre
égal
deproduits utilisés,
on constate[27]
que le testtriangulaire
reste leplus puissant,
mais que la
puissance
relative des deux autres testspeut
s’intervertir suivant les valeurs deps.
Il n’est pas évident d’autre
part qu’une
même valeur dep
r, soit ap-plicable
aux 3 tests. Cepoint
nepeut
être éclairci que par desexpé-
rience
directes,
danslesquelles
les mêmessujets appliquent
aux mêmesRevue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
16
produits
chacun destests,
toutesprécautions
étantprises
pourqu’aucun
biais ne s’introduise au cours du déroulement des essais. De telles
expériences
sont décrites notamment dans[16]
et[27].
Dans certains cas, on constate quep
s estplus
élevé dans le"pair-test"
que dans le test"triangulaire"
et ilpeut
en résulter une efficacitésupérieure
du"pair-test".
Accessoirement on trouvera dans
[26]
des résultats intéressants concernant l’effet de l’entraînement desexperts
sur laproportion
de ré-ponses correctes. Il n’est constaté aucun effet
"automatique"
résultantde la
répétition
desépreuves
par une même personne, mais une amé- liorationsystématique
très nette desréponses
est constatéelorsque
lesexperts
sontsoumis, jour après jour,
à un entraînementdirigé.
C - Le modèle
mathématique
deBradley
et de Ura.Une contribution
importante
etoriginale
à l’étude des tests d’iden- tification a étéapportée, indépendamment
l’un del’autre,
par R. A.Bradley [ 8]
et S. Ura[42].
On admet l’existence d’une échelle
quantitative
surlaquelle peuvent
être situées les
impressions
sensorielles ressenties sous l’action des stimuli -on admet d’autrepart
que, sous l’action du stimulusA,
consi- déré commetémoin,
lesimpressions
sont distribuées normalement autour d’une moyenne choisie commeorigine,
avec unécart-type
a, tandis quesous l’action du stimulus
B,
cesimpressions
sont distribuées normale- ment autour d’une moyenne 4, avec le mêmeécart-type
o. Toutes lesimpressions
reçues -et lesréponses qui
en découlent- sontsupposées stochastiquement indépendantes. Moyennant
ceshypothèses,
il est pos- sibled’exprimer
lespourcentages théoriques
deréponses exactes -po
pourle test
"triangulaire",
Jpo
pour le test"duo-trio"-
en fonction du rap-portez 6 .
Dans le cas du
test "triangulaire"
les sensations ressenties sousl’action de A
-qui
est le stimulusreprésenté
2 fois- sontdésignées
par xi et Xz ; xi et X2 sont 2 valeursindépendantes
de la variable normale(0, 6 ).
La sensation ressentie sous l’action de B estdésignée
par y ; yappartient
à la distribution normale(4, cY).
La
réponse
formulée par lesujet
est correcte dans lesquatre
si- tuations suivantes :Revue de Statistique Appliquée. 1965 - Vol. XIII - N 3
17
La somme des
probabilités correspondant
à cessituations,
soit po, a été calculée parBradley
et par Uraqui
ont obtenu desexpressions
différentes
(mais
naturellementéquivalentes)
de cettequantité
en fonc-tion
de 03BC/03C3.
D’autre
part,
Ura aégalement
calculél’expression
depo
dansl’hypothèse
où la distribution des sensations n’est pasnormale,
maisrectangulaire ; l’expression correspondante
estdésignée
parP6u.
Dans le cas du test
"duo-trio",
Xl serapporte
au témoinprésenté
en clair avant
l’épreuve ;
dans celle-ci les sensations sontdésignées
par X2 et y.Les
quatre
situations amenant desréponses
correctes sont les sui- vantes :Elles
permettent,
commeprécédemment,
de calculer la propor- tionthéorique
deréponses
exactes en fonctionde 4/ci,
soitp ,
en sup-posant
les distributions de x et y normales(expressions
deBradley
etde
Ura)
etp
enfaisant,
avecUra, l’hypothèse
de distributions rectan-gulaires.
[ 8]
contient un tableau des valeurs dep n , p
etpu
pour touteune gamme de valeurs
de 03BC / 6 ;
un extrait en est donnéci-après.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N. 3
18
Il est
remarquable
de constater que les valeurs obtenues àpartir
de deux distributions aussi différentes que la distribution normale et la distribution
rectangulaire
sont très voisines : la forme du modèle ren-dant
compte
de ladispersion
des sensations semble donc avoir peu d’im-portance.
Bradley
observe encore que,moyennant
certaineshypothèses
sup-plémentaires,
il estpossible d’exprimer p
en fonction depo.
a)
Suivant la théorie deHopkins -Grindgeman rappelée plus haut,
on a en effet :d’où en éliminant
Ps :
PD H= (1 +3pJ/4 (l’indice
Hrappelle Hopkins)
b)
Un autre raisonnement dû à David est le suivant :Dans le test
"triangulaire",
lesprobabilités
dedésigner
lepremier
témoin
A,
le deuxième témoin A et leproduit
B(réponse exacte)
sontrespectivement :
Admettant que les
probabilités
attachées à A et à B restent valables dans le test"duo-trio"
où nefigure qu’un témoin,
on obtient pour ex-pression
depp
en fonction deP6 :
:(l’indice
Drappelle David)
Du tableau détaillé
figurant
dans[8]
on extrait le tableauci-après qui,
pourquelques
valeurs deP6 (calculées
àpartir de 4 / cy
dansl’hy- pothèse
denormalité)
donne les valeurs depoH
etppp
obtenues par les formulesqui précèdent ;
ces valeurs sontrapprochées
de la valeurp
déduite directement de41 CY.
On constate que les deux formules -surtout celle de David- sont
en bon accord avec la valeur
po
calculée directement.La théorie de
Bradley permet
de comparer le test"triangulaire"
et le test
"duo-trio"
sans faire intervenir laquantité pas (probabilité
dedétecter la
différence) puisque
les valeurspo
etpo peuvent
se calculersur la même base
objective
de laquantité ’tl / 0
caractérisant l’écart des stimuli A et B. Les courbes d’efficacité ont été tracées par Ura[42]
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
19
pour N = 20
répétitions
et le seuil designification
a =0,
05. Ellesmontrent que, pour ces
conditions,
le test"triangulaire"
est uniformé-ment
plus puissant
que le test"duo-trio". Bradley [8]
a d’autrepart
calculéqu’au
seuil a =0, 05,
et pour unrisque
de 2eespèce j3 =0,15
associé à
l’alternative )J./o =3,
le test"triangulaire"
demande 9répé-
titions alors que le test
"duo-trio"
enexige 12 ;
l’efficacité dupremier
test par
rapport
au secondest,
dans cesconditions,
de12/9 =
130p. 100.
D - Identification au moyen de deux critères.
Ce
problème
a été étudié par N. T.Gridgeman [21].
Onapplique
le test
"duo-trio"
à deuxproduits
A etB,
unepremière
fois sur uncritère
h,
une deuxièmefois,
etindépendamment,
sur un autre critère k(par exemple
h et k sont legoût
etl’arôme).
On supposequ’entre
A etB il existe de
petites
différences 6. h et 6. k.Dans une
population
desujets,
ondistingue :
- ceux
qui
détectent à la fois h et k - enproportion Phi
- ceux
qui
détectent seulement h - enproportion p ;
- ceux
qui
détectent seulement k - enproportion p ;
- ceux
qui
ne détectent ni h ni k - enproportion 1-p2013p -p .
Comme dans les situations
précédemment étudiées,
uneréponse peut
être correcte, soit parce que la différence a été réellement perçue, soit du fait d’un hasard heureux. Sur un ensemble de Nsujets apparte-
nant à la
population considérée,
lesréponses
se classent de lafaçon
suivante :
On établit facilement les deux tableaux
ci-après qui
donnent :- - le
premier,
les valeursthéoriques (espérances
mathéma-tiques)
desRij
en fonction desquantités phk’ p
etp .
- le
deuxième,
les estimations de cesquantités
en fonctiondes
Rij.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
20
L’auteur propose, à
partir
de cesdonnées,
deux séries de testsd’hypothèses :
Tests concernant la
dif férence
entre les produits[A(A,B)]. L’hypo-
thèse nulle
(ph - pk = phk = 0) peut
être testée contre l’une ou l’autre des deux alternatives suivantes :- les deux critères h et k révèlent une différence :
- le critère h ou le critère k révèle une différence :
Tests concernant la
di fférence
entre les critères[6(h,k)].
On
peut prendre
pourhypothèse
nulle que la différence A(A, B)
estdécelée
également
bien au moyen de h et de k-soit 1% = pu
0.L’hypo-
thèse alternative est
Ph f pk.
Onpeut
aussiprendre
pourhypothèse
nulleque
quiconque
détecte par h détecte park, soit ph
=Pk = 0 ; l’hypothèse
alternative est
alors ph ~
0 oupu
0.Un
exemple numérique
est donné dans[ 21 ] ;
il concerne la com-paraison,
pargoût
etarôme,
de 3 marques de rhum et un témoin.E - Généralisation des tests d’identification.
N. T.
Gridgeman [19]
a traité leproblème plus général
de l’iden-tification de N
objets ayant
un caractère communparmi
Mobjets pré-
sentés. Les identificationscorrectes,
en nombreR(0 R N) proviennent
soit de ce que le caractère a été effectivement perçu
(probabilité pS ) ,
soit d’un hasard heureux dans le cas de non
perception.
Les(N - R) réponses
incorrectesproviennent
de la nonperception
et d’un hasard malheureux.Les
expressions
de Pr.(R),
del’espérance mathématique E(R),
etde la variance de R sont données dans le cas
général (M
et Nquelconques)
ainsi que dans les cas
particuliers
suivants :(M = 2N)
et(N = 1).
Dansce dernier cas on a évidemment
(en posant 1s = 1 - ps ) :
expressions qui
contiennent les casparticuliers
du test"triangulaire"
(M = 3)
et du test"duo-trio" (M = 2).
Dans le cas d’absence de
perception (hypothèse
nullep = 0)
ontrouve :
5
et
lorsque
M = 2 N :Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
21
Les formules
qui précèdent permettent
-au moinsthéoriquement-
de tester
l’hypothèse
nullep =
0 sous un seuil designification
donné.En
fait, l’emploi
de schémasplus compliqués
que les schémasclassiques
ne
présenterait
un réel intérêt que si leur efficacité était meilleure.L’étude
théorique
de cette efficacité serait trèscomplexe-
et vraisem-blablement sans
grand intérêt,
car il y a tout lieu de penser quep
dé- croît à mesure que le schéma devientplus compliqué.
III - LES TESTS DE CLASSEMENT ET DE PREFERENCES PAR PAIRES
Le classement de deux
produits
suivant l’intensité d’un caractère(dire quel
est leplus doux,
leplus
amer, leplus sucré... )
ou suivantla
préférence (dire quel
est lemeilleur)
s’effectue par le moyen d’un"pair-test"
comme il a étéindiqué
auparagraphe précédent. Lorsqu’il s’agit
de comparerplusieurs produits qui
diffèrent par l’intensité d’un même stimulus(concentration
croissante d’une mêmesubstance)
il estraisonnable
d’imaginer qu’à
l’échelle des intensités du stimulus cor-respond
une échelle d’intensités des sensations(cf.
loi de Fechner S = a+ p log y2013).
L’existence d’une échelleobjective applicable
auxpréférences
est moins évidente : lespréférences
ont un caractère indi-viduel ;
lapréférence peut
passer par un maximumlorsque
l’intensité d’un stimulus déterminéaugmente ; enfin,
dans le cas de stimuli com-plexes,
on doit s’attendre à ce que la loi despréférences
soitégalement complexe.
Le classement des
produits peut
s’effectuer en une seule fois ets’accompagner
d’une note mesurant ledegré
depréférence.
Mais ilpeut aussi, plus commodément,
êtredécomposé
encomparaisons portant
sur toutes les
paires
deproduits pris
deux à deux : c’est dans ces con-ditions que les
jugements
s’exercent normalement avec le maximum de sensibilité.On traitera dans ce
paragraphe uniquement
descomparaisons
parpaires (avec
une extension aux"triplets"), qui
ont faitl’objet
de nom-breuses
publications
récentes. Lesproduits
à comparer sontdésignés
par
Tl, T2, Ti, Tt ;
le nombre depaires
estégal
àt(t-1) 2.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3
22
A - La méthode de Thurstone-Mosteller
(33), (39), (40), (41).
Elle suppose l’existence d’une échelle continue de sensations
(in-
tensités ou
préférences).
On faitl’hypothèse
que dans unepopulation
desujets,
la distribution des sensationsXi
pour un même stimulus(Ti )
est
normale,
avec la valeur moyenneSi ;
pour le stimulus(Tj)
la dis-tribution de
Xj
est normale avec la moyenneSi
et la même variance.Si,
dans lacomparaison (Ti, Tj),
les sensations sontcorrélées,
on ad-met que la corrélation est la même pour toutes les combinaisons
(i, j) .
Dans ces
conditions,
la distribution de la différence U =Xi - Xj
estnormale,
avec la moyenneSi - Sj
et une variance que l’onpeut prendre
pour unité. La
probabilité
que(TQ )
soit classésupérieur
à(Tj)
dans lacomparaison (Ti, Tj)
est :La
fréquence Pij
descomparaisons (i, j)
oùTi
est trouvésupérieur
à
T.
constitue l’estimation de03C0ij ;
les tables de la loi normale donnentensuite
les estimations[Si - j]
des écarts[Si - Sj].
Le stimulus
(i) figure
dans(t - I) paires
et l’on a :où
S désigne
la moyennearithmétique
desSi.
Onpeut
doncplacer
les tvaleurs
Si
enprenant
pourorigine
leur moyenneS.
Mosteller a donné un test
qui permet d’éprouver
la validité de cemodèle. Une difficulté
d’application
seprésente lorsque,
dans la com-paraison (i,j)
leproduit ( Ti ) n’est jamais préféré (p.. =0)
ou est tou-jour préféré (Pi’ = 1) ;
; les valeurs deSi - S
deviennent alorsou +~ ; on a
proposé
-assez arbitrairement-d’adopter
à leurplace
desvaleurs telles que
(-4, -3, -2)
ou(+2, +3, +4).
Morrissey
et Gulliksen ont étendu la méthode de Thurstone Mostellerau cas où certaines
comparaisons
font défaut(élimination
de résultats aberrants parexemple).
Il convient de noter que la méthode de Thurstone transforme les
fréquences
observéesp
en"écarts normaux".
Sil’expérience
a été or-ganisée convenablement,
il estpossible
d’utiliser ces écarts dans uneanalyse
de variancepermettant
de tester l’influence de facteurs tels que l’ordre deprésentation
desproduits.
B - La méthode de Bliss
(4).
Les
hypothèses
sont les mêmes que celles deThurstone-Mosteller, mais,
au lieu de transformer lesfréquences Pij
en"écarts normaux",
on utilise la transformation des nombres de
préférence nj
=Npij (N répé-
titions de la
comparaison i, j)
en"rankits",
ou"scores
forordinal,
orranked
data",
mis en tables par Fisher and Yates[14] .
n résultats issus d’une distribution normale réduite étantrangés
par valeurscroissantes,
le"rankit" correspondant
au rang r estl’espérance mathématique
de lavariable
occupant
ce rang.Le tableau
ci-après donne,
à titred’exemple,
lacorrespondance
entre la valeur du
"rankit"
et la valeur de l’écart normal selon Thurstone-Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 3