R EVUE DE STATISTIQUE APPLIQUÉE
P H . C OURCOUX
M. S ÉMÉNOU
Une méthode de segmentation pour l’analyse de données issues de comparaisons par paires
Revue de statistique appliquée, tome 45, n
o2 (1997), p. 59-69
<http://www.numdam.org/item?id=RSA_1997__45_2_59_0>
© Société française de statistique, 1997, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE MÉTHODE DE SEGMENTATION POUR L’ANALYSE DE DONNÉES ISSUES DE COMPARAISONS PAR PAIRES
Ph.
Courcoux,
M. SéménouENITIAA/INRA, Unité de
Statistique Appliquée
à la Caractérisation des Aliments, Rue de la Géraudière, BP 82225, 44322 Nantes Cedex 03RÉSUMÉ
Les données de
comparaisons
parpaires
sont engénéral analysées
en utilisant les modèles de Thurstone ouBradley. Lorsque
l’on suppose l’existence deplusieurs
segments dans lepanel
dejuges,
on est amené à évaluer lesconfigurations
des stimuli danschaque
classe ainsi que lesprobabilités d’appartenance
des individus aux différents segments. La méthode de classificationproposée
repose sur le modèle deBradley.
On utilise unetechnique
d’estimation basée surl’algorithme
E.M. et uneprocédure
de test de type Monte Carlo est mise en oeuvre pour déterminer le nombre de classeshomogènes.
Cette méthode estappliquée
à une étude deformulation d’un
produit
alimentaire de type cocktail.Mots-clés :
Comparaisons
parpaires,
Modèle deBradley, Classification, Algorithme
E.M., Simulations de Monte Carlo.ABSTRACT
Paired
comparisons
data aregenerally analyzed using
Thurstone orBradley
models.The conventional
approach
is to consider the consumer group as anhomogenous
one and toestimate a
single
set of scale values of the stimuli. In order toclassify
thepanel,
a latent classsegmentation
method ispresented,
based on theBradley-Terry-Luce
model andusing
an E.M.algorithm.
A Monte Carlosignificance testing procedure
canhelp
to the determination of the number ofhomogenous
classes.Keywords :
Pairedcomparisons, Bradley
Model,Classification,
E.M.Algorithm,
Monte CarloSimulations.
Introduction
Les
épreuves
detype comparaisons
parpaires
sontemployées
en étude demarketing
ou en évaluation sensorielle. Cesépreuves
sontparticulièrement adaptées quand
on souhaite évaluer desproduits
defaçon subjective.
Un individu est alorssoumis successivement à des
paires
de stimuli(produits, descripteurs,...)
et doit choisirun élément de
chaque paire
selon le critère que l’on souhaite étudier. D’unpoint
devue
pratique,
cesépreuves
sont aisées à mettre en oeuvre et fournissent une bonnequalité
de discrimination(O’Mahony et al, 1994).
Pour n
produits comparés par H
consommateurs, le nombre total de com-paraisons
parpaires
est2 lorsque
le nombre deproduits
à évaluer de- vientimportant,
l’étude exhaustive de cespaires
est difficile et l’utilisation deplans
de
présentation incomplets
s’avère nécessaire. Diverstypes
deplans peuvent
êtreemployés parmi lesquels
lesplans incomplets équilibrés
et lesplans cycliques qui
assurent
l’équilibre
des effets d’ordre et dereport (David, 1988).
Le traitement des données de
comparaisons
parpaires
n’est pas unproblème
récent. Thurstone
(1927)
etBradley-Terry-Luce (1952)
ontdéveloppé
des modèles couramment utilisés sousl’hypothèse d’homogénéité
dupanel
de consomma-teurs et
permettant
dereprésenter
ces données de manière unidimensionnelle. Plusrécemment,
des modèles depositionnement
multidimensionnel ont étéadaptés
à cetype d’épreuves (Coombs, 1958;
Schonemann etWang, 1972; Carroll, 1980).
Cetteapproche
estemployée
dans le domaine dumarketing
etpermet
de rendrecompte
de la nature multidimensionnelle desproduits comparés
et del’aspect
individuel desjugements
depréférence (De
Soete etCarroll, 1983;
De Sarbo etal, 1987).
Le
problème
de la classification desjuges
à l’issued’épreuves
decomparaisons
par
paires
estimportant
pourl’interprétation
des données. L’utilisateur est en effet intéressé par lasegmentation
dupanel
en groupeshomogènes.
Cette méthode a été abordée en utilisant le modèle de Thurstone par De Soete et DeSarbo(1991)
pourl’interprétation
de données issuesd’épreuves
detype
1parmi n
ou par Dillon et al(1993)
pourprendre
encompte
descaractéristiques
desjuges.
Nous proposons une méthode basée sur le modèle deBradley permettant
d’étudier à la fois lasegmentation
du
panel
et lesconfigurations
desproduits
dans les différentes classes.Présentation
générale
Supposons
que nobjets (produits, descripteurs,...)
soientprésentés
à H indi-vidus lors
d’épreuves
decomparaisons
parpaires.
Chacun des Hsujets
doit choisir entre deuxstimuli;
laréponse
de l’individu h pour lapaire (i, j )
est notée :Yij,h est l’observation d’une variable aléatoire
Yij,h
suivant une loi de Bernoulli.Soit 7rij,h la
probabilité
que le consommateur hpréfère
ià j.
En utilisant le modèle deBradley-Terry-Luce (Bradley, 1952),
cetteprobabilité
devient :sous la contrainte
Cela revient à
exprimer
les 7rij,h en fonction des valeurs 7ri(scores
deBradley) prises
pour chacun des nobjets.
Ensupposant l’indépendance
entre les variablesYij,h,
la vraisemblance associée à l’ensemble des observations y= t(y1,..., yH) où yh = t(yij,h/1
ij n)
est le vecteur d’observations pour l’individuh,
s’écrit :où 7r
= t ( 7rl, ... , 7r n)
est le vecteur 1 x n desparamètres
inconnus etf (Yh, 7r)
estdéfini par :
L’estimation de 7r est obtenue par la méthode du maximum de vraisemblance
(Dykstra, 1956).
Cette démarche suppose a
priori l’homogénéité
dupanel,
cequi,
dans certains cas,peut
êtrecritiquable.
Nous proposons une méthodepermettant
non seulement de tenircompte
d’une éventuellehétérogénéité
dujury,
maiségalement, après
uneétape
de
segmentation,
de connaître lesconfigurations
desproduits
pourchaque
groupe de consommateurs.Modèle de
segmentation
Supposons
l’existence de Tsegments
pour les membres dujury.
Soitait)
laprobabilité qu’un
individuquelconque appartienne
au groupe t, avec03B1(t)
e[0; 1]
etOn notera 03C0ij,t la
probabilité
que le stimulus i soitpréféré
austimulus j
pour lesegment
t. De manièreanalogue
à(1),
pourchaque classe t,
onpeut décomposer
cette
probabilité
suivant le modèle deBradley :
sous la contrainte
En
supposant l’indépendance
desobservations,
la distribution deYh
=t (Yij,h/1
i
j n)
est unmélange
fini de distributions de Bernoulli multivariées de densité :La vraisemblance associée à l’ensemble des observations devient :
Les
paramètres
7r et a sont estimés par maximum de vraisemblance en utilisantun
algorithme
detype
EM(Dempster et al 1977).
Estimation des
paramètres
Pour mettre en oeuvre
l’algorithme EM,
on introduit la variable aléatoire nonobservée
Zht,
définie par :Soient
Zh - t(Zh1,..., ZhT )
et Z= t(Z1,..., ZH).
On suppose que les variables non observéesZh
sontindépendantes
etidentiquement
distribuées suivantune loi multinomiale de
paramètre
a dont la densité est définie par :On suppose de
plus
queVi,..., YH
sachantZl , ... , ZH
sontindépendantes
etque la densité de
Yh,
conditionnelle àZh,
est donnée par :soit si
Zhto
=1, Zht
= 0 sit =1= to, q(Yh; 03C0/Zh)
=f(Yh; 03C0(t0)).
En considérant les variables
Zh
comme des donnéesmanquantes,
la fonction de vraisemblance associée à l’ensemble des observations est définie àpartir
de(7)
et(8)
par(Dempster et al., 1977) :
et donc le
logarithme
de la fonction de vraisemblance définie par(9)
s’écrit :Etape
E : A l’itération s del’algorithme,
les variablesZh
étant nonobservées,
on évalue leur
espérance
connaissant le vecteur desobservations y
et les estimations de 7r et a obtenues à l’itérationprécédente
notéesrespectivement (s-1)
et(s-1) :
Ainsi,
pour un individuh,
les données non observées Zht sontremplacées
par lesprobabilités
aposteriori d’appartenance
de cejuge
aux différentssegments.
On évalue donc
l’espérance
dulogarithme
deLe
défini par(10)
parrapport
àZ,
de lafaçon
suivante :Etape
M : On maximise(12)
parrapport
à 7r et a. Les estimations de cesparamètres
se font defaçon indépendante.
Estimer a revient à maximiser
sous la contrainte On obtient alors :
Pour estimer 7r, on maximise Cette estimation
se fera par maximum de vraisemblance en utilisant une méthode itérative
proposée
par
Dysktra (voir présentation
en annexe1).
On réitère les
étapes
E et Mjusqu’à
convergence del’algorithme.
Le critèred’arrêt sera basé sur la différence entre les
logarithmes
de la vraisemblance définie par(6)
évalués en(7?(8), &(8»)
et((s-1), &(8-1»).
Les valeurs initiales
((0), (0))
sont choisies aléatoirement.A l’issue de cette
procédure,
nousdisposons
des estimations desconfigurations
des
produits,
encoreappelées
scores deBradley
pour chacun des Tsegments,
nousconnaissons les
poids
des différentesclasses,
ainsi que lesprobabilités d’appartenance
de
chaque
individu aux différentssegments.
Détermination du nombre de classes
homogènes
Nous
adopterons
une démarche ascendante pour la détermination du nombre desegments homogènes
pour les consommateurs. La sélection du nombre de classessera basée sur la
statistique
de test durapport
des vraisemblances en utilisant(6)
obtenues avec T et T + 1
segments
et définie par :où
L(T)
etL(T+l) représentent respectivement
les valeurs maximalesprises
par la vraisemblance pour T et T + 1segments.
L’hypothèse
nulle suppose l’existence de Tsegments
de consommateurs.La
statistique
définie par(15)
ne suivant pas, sous cettehypothèse,
une loi de chideux avec un nombre de
degrés
de liberté connu(McLachlan
etBasford, 1988),
uneprocédure
de test designificativité
de Monte Carlo est mise en oeuvre. Cette méthode nécessite lagénération
de K - 1 échantillons aléatoires de Monte Carlo issus de laconfiguration
sous Tsegments.
Pourchaque
série desimulations,
le modèle deBradley
pour T et T + 1segments
est estimé et lastatistique
de testUT
est calculée.On
adopte
alors larègle
de décision suivante : si la valeur deUT
obtenue avecles données observées est
supérieure
àK(l - p*)
valeurs deUT
obtenues à l’aide des donnéessimulées,
alorsl’hypothèse
nulle estrejetée
au niveau designificativité p*
considéré(Dillon et al, 1993).
Application
A titre
d’illustration,
on traitera des données issues d’une étuded’optimisation
de la
composition
d’un cocktail. Les 7produits comparés
sontfabriqués
selon unplan
de
mélange (Comell, 1981)
en faisant varier lesproportions
dejus
de mangue, dejus
de citron et de
sirop
de cassis(figure 1).
Ces
sept mélanges
sontprésentés
à 60 consommateurs lorsd’épreuves
decomparaisons
parpaires.
Leprotocole
deprésentation
desproduits,
détaillé en annexe2,
est unplan
en blocsincomplets.
Les résultats du modèle de
segmentation
obtenus sur les données demélange
pour T = 1 à 4 classes sont
présentés
dans le tableau 1.Les simulations réalisées
(K
=100) permettent
de conclure à l’existence de 3 classes latentes dans lejury
considéré(tableau 2).
Lastatistique
de test observéepour T = 2 est
significative
à 3% alors que pour T = 3 onaccepte l’hypothèse
nulle(figure 2).
La
figure
3 donne lesconfigurations
desproduits
dans les différentssegments.
On retrouve dans la classe 1 des consommateurs
préférant
desproduits
faiblementFIGURE 1
Plan de
mélange
utilisé pour l’élaboration des cocktailsTABLEAU 1
Résultats du modèle de
segmentation.
Poids a
(t)
des segments etconfiguration
7r(t)
desproduits
TABLEAU 2
Résultats du modèle de
segmentation.
Logarithme
de la vraisemblance(ln LT),
rapport de vraisemblance(UT)
et niveau de
signification
enfonction
du nombre T de classes.FIGURE 2
Histogrammes des fréquences de répartition de
lastatistique UT
obtenue à
partir
des 100 échantillons de Monte Carlodosés en citron alors que les membres du
segment
3 valorisent laproportion
demangue. La classe 2 discrimine moins bien les
produits
et semblepréférer
desmélanges
avec peu dejus
de mangue.Les
poids
des différentssegments (respectivement
de0.39,0.42
et0.19) peuvent s’interpréter
comme lesprobabilités d’appartenance
d’un individu dujury
aux troisclasses.
FIGURE 3
Solution pour T = 3 classes.
Configuration
desproduits
dans lesdifférents
segments etpoids
dechaque
segment.Conclusion
Les
épreuves
decomparaisons
parpaires
sontparticulièrement adaptées
àdes mesures
hédoniques
car elles ne nécessitent pas l’utilisation d’une échelle de notation. La classification dujury
de consommateurs(ainsi
que le test du nombre de classeslatentes) présente
un intérêt enmarketing
et lors d’étude ducomportement
de consommateurs. La méthodeprésentée
dans ce travail fournit ainsi une aideappréciable
pour cerner parexemple l’acceptabilité
d’une gamme deproduits auprès
d’un
panel.
L’influence sur les résultats de la
présentation
desproduits
en blocsincomplets
demande
cependant
à êtreprécisée.
Des études de simulationspourraient permettre
de fournir à l’utilisateur desrègles
de choix deplans expérimentaux
pourl’organisation
de ce
type d’épreuves.
Note : Les programmes utilisés dans ce travail ont été
développés
enlangage
SAS/IML
(SAS
InstituteInc., Cary, NC, USA).
Références
BRADLEY
R.A.,
TERRY M.E.(1952).
Rankanalysis of incomplete
blockdesigns :
The method
of paired comparisons. Biometrika, 39,
324-45.CARROLL J.D.
(1980).
Models and methods for multidimensionalanalysis
ofpreferential
choice(or
other dominancedata)
in : E.D.Langermann
and H.Feger (eds), Similarity
and choice. Bern : Huber. pp. 234-289.COOMBS
C.H., (1958).
On the useof inconsistency
ofpreferences
inpsychological
measurement. Journal
of experimental psychology 55,
1-7.CORNELL
J.A., (1981). Experiments
with mixtures. JohnWiley
&Sons,
New York.DAVID
H.A., (1988).
The methodof paired comparisons.
OxfordUniversity Press,
New York.
DE SARBO
W.S.,
DE SOETEG.,
ELIASABERGJ., (1987).
A new stochasticmultidimensional
unfolding
model for theinvestigation
ofpaired comparison
consumer
preference/choice
data. Journalof
EconomicalPsychology 8,
357-384.
DE SOETE
G.,
CARROLLJ.D., (1983).
A maximum likelihood method forfitting
the
wandering
vector model.Psychometrika, 48, 4,
553-566.DE SOETE
G.,
DESARBOW.S., (1991).
A latent classprobit
model foranalyzing pick any/N
data. Journalof Classification, 8,
45-63.DEMPSTER
A.P.,
LAIRDN.M.,
RUBIND.B., (1977).
Maximum likelihood fromincomplete
data via the EMalgorithm.
Journalof
theRoyal
StatisticalSociety, B, 39, 1-38.
DILLON
W.R.,
KUMARA.,
SMITH DE BORREROM., (1993). Capturing
individ-ual differences in
paired comparaisons :
an extended BTL modelincorporating
descriptor
variables. Journalof Marketing Research, XXX,
42-51.DYKSTRA O.
JR., (1956).
A note on rankanalysis
ofincomplete
blockdesigns :
A method of
paired compaisons employing unequal repetitions
onpairs.
Biometrics
12,
301-306.MCLACHLAN
G.L.,
BASFORDK.E., (1988).
Mixtures models : inference andapplication
toclustering.
MarcelDekker,
New York.O’MAHONY
M.,
MASUOKAS.,
ISHIIR., (1994).
A theoretical note on difference tests :models, paradoxes
andcognitive strategies.
Journalof Sensory
Studies9, 247-272.
SCHONEMANN
P.H.,
WANGM.M., (1972).
An individual difference model for the multidimensionalanalysis
ofpreference
data.Psychometrika 37, 3,
275-309.THURSTONE
L.L., (1927).
A law ofcomparative judgment. Psychological
Review34,
273-286.Annexes Annexe 1 : Estimation de
7r(t) (Dykstra, 1956)
Soient :
et
où
bij,h prend
la valeur 1 si lapaire (i, j )
est vue par lejuge h
et 0 sinon. Estimer7r(t)
revient donc à maximiser :On
peut
montrer que :Le
paramètre
7ri,t est estimé itérativement suivant la méthodeproposée
parDykstra (1956) ;
àl’étape u,
on a :On initialise l’
algorithme
en prenant Le critère d’arrêt est basésur l’écart entre w évalué en
Annexe 2 : Protocole de
présentation
desproduits
aux consommateursAfin d’éviter des
problèmes
desaturation,
chacun des 60 consommateurs aparticipé
à deux séances dedégustation.
Au cours de chacune d’entreelles,
unsujet
voit 4
produits
et évalue 4paires parmi
les 6possibles.
Leproduit 7, point
centraldu
plan
demélange,
estprésenté
lors des deux sessions et les 3 autresproduits
sontchoisis en utilisant un
plan
en blocsincomplets équilibrés (10 blocs).
Un consommateur verra par
exemple
lesproduits 1, 2, 3,
7 lors de la séance 1 et lesproduits 4, 5, 6,
7 lors de la séance 2.Lors d’une
session,
laprésentation
parpaires
des 4produits
est faite selon unplan
detype
«linkedpaired-comparison design»,
dont la construction est basée surdes
plans
en blocsincomplets équilibrés (David, 1988).
A titred’exemple,
les 6 modesde
présentation
desproduits 1, 2, 3,
7 seront :Ce
type
deplan équilibre
le nombred’apparitions
de chacune despaires
ainsique les effets d’ordre de
présentation
desproduits
danschaque paire.
Pour l’ensemble du
protocole
dedégustation,
lesproduits (hormis
leproduit 7)
sont donc vus 120 fois. Le
produit 7, présent
lors des deuxséances,
est vu 240 fois.Les 15
paires
necomportant
pas leproduit
7 sont évaluées 16 fois et les 6paires comportant
leproduit
7 le sont 40 fois.Nous
disposons
donc de 480comparaisons
parpaires
sur les 1260possibles
dans le cas d’un