R EVUE DE STATISTIQUE APPLIQUÉE
S. B ENAMMOU S. H ARBI
G. S APORTA
Sur l’utilisation de l’analyse conjointe en cas de réponses incomplètes ou de non-réponses
Revue de statistique appliquée, tome 51, n
o4 (2003), p. 31-55
<http://www.numdam.org/item?id=RSA_2003__51_4_31_0>
© Société française de statistique, 2003, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
SUR L’UTILISATION DE L’ANALYSE CONJOINTE EN CAS
DE RÉPONSES INCOMPLÈTES OU DE NON-RÉPONSES
S.
BENAMMOU*,
S. HARBI*,
G. SAPORTA***
Département
de Méthodesquantitatives,
Faculté de Droit des Sciences
Économiques
etPolitiques
de Sousse (Tunisie)saloua.benammou@fdseps.rnu.tn isnihr@voila.fr
** Chaire de
Statistique appliquée
et CEDRIC, Conservatoire National des Arts et Métiers, Parissaporta@cnam.fr
RÉSUMÉ
L’analyse conjointe
cherche àexpliquer
une variablequalitative
ordinale en fonctionde
plusieurs
variablesqualitatives
moyennant unerégression multiple
par interviewé. Elle se trouvehandicapée lorsque
certains classements sont manquants. Nous nous intéressons donc dans cet article aux cas où la variable àexpliquer présente
un ordrepartiel uniquement.
Nousproposons ici une
procédure
d’estimation des valeurs manquantes, et montrons sur unexemple
que si le nombre de ces dernières n’est pas trop élevé les données restent utilisables, et les résultats
proches
de ceux de l’ordrecomplet.
Nous confirmons ces résultats par simulation.Mots-clés :
Analyse conjointe,
valeurs manquantes, ex aequo,trade-off
ABSTRACT
Conjoint analysis
tries toexplain
an ordinal variableaccording
to severalcategorical
variables
using
amultiple regression.
It ishandicapped
when some of classification-ranks aremissing.
We are interested in this paper, in the case where the response presents apartial
orderonly
and propose aprocedure
of estimation of themissing
values. We show on anexample
that if the number of
missing
values is not toolarge,
data remain useful, and results are close to those of thecomplete
order. We confirm these resultsby
simulations.Keywords : Conjoint analysis, trade-off, missing
values, ex 0153quol.Introduction
L’analyse conjointe
est tout d’abord une méthoded’analyse
des données destinée à relier une variable àexpliquer
ordinale àplusieurs
variablesexplicatives
qualitatives
à modalités ordonnées ou non. En ce sensl’analyse conjointe
est une formeparticulière
du modèle linéairegénéral.
Dans uneoptique plus générale l’analyse
conjointe
est uneméthodologie
d’étudecomplète comportant
unephase
de recueil des observations basée sur un choix de combinaisons de modalités de variables déterminé parapplication
de latechnique
desplans d’expériences,
unephase
de traitementdestinée à estimer les
paramètres
et unephase
de simulation. Le domaineprivilégié d’application
se situe enmarketing
et onparle
alors de méthodes de « Trade Off ».Il
s’agit d’expliquer
lespréférences
de consommateurs pour desproduits
définispar des combinaisons d’attributs.
Chaque
consommateurenquêté
note ou classe unensemble de
produits
réels ouhypothétiques. L’analyse conjointe décompose
alorsles
préférences
selon un modèle d’utilité additive propre àchaque
interviewé.Le terme de «Trade Off »
évoque
un modèlecompensatoire
où une bonne notesur un attribut
peut
êtrecompensée
par une note moins bonne sur un autre attribut : le consommateur effectue son choix deproduits
en mettant en balanceavantages
et inconvénients.2.
Rappel
surl’analyse conjointe
Soient p variables
qualitatives Xl, X2, ..., Xp
à mi, m2,...,mp modalitésp
respectivement.
On notera kmi
le nombre total de modalités.i=l
On définit un scénario par une combinaison des modalités de
chaque
variableXi.
Notons X la matrice
(ou plan) d’expérience à q lignes
et k colonnes associéesaux
données,
sous formedisjonctive complète X
=(X1|X2|... Xi ...|Xp).
La matrice
d’expérience
X est donc de la forme :Cette matrice
comporte
autant delignes
que deproduits,
ouscénarios,
etpossède
un nombre de colonnes
égal
à la somme des nombres de modalités des variablesexplicatives (encore appelées facteurs).
Les colonnes de Xindiquent
pourchaque produit
les modalitésprises
sous formelogique (variables indicatrices).
On soumet les
produits
à un échantillon de n individus(ou consommateurs), chaque
individu doit alors classer par ordre depréférence les q scénarios,
soitYq
levecteur
(de
tailleq)
des rangs donnés par lejème
consommateur(j = 1,, n)
pourles q
scénariosproposés :
le scénariopréféré reçoit
la valeur1,
le dernierreçoit
lavaleur q.
Nous supposerons dans une
première étape
que le consommateur donne unordre
complet
surles q
scénariosplutôt
que de les « noter » pour éviter les ex aequo et pour forcer lesenquêtés
à comparer réellement lesproduits
Dans une deuxième
étape
nous étudierons le cas où le consommateur classeuniquement
les q1premiers
scénarios définissant ainsi un ordrepartiel.
2.1. Estimation des
paramètres
du modèle2.1.1. Le modèle
On fait
l’hypothèse
que le classement du consommateur résulte d’une addition depoints,
« lesutilités »,
associés aux différentes modalitésprésentes
dans lesproduits (ce qui
revient à considérerqu’il
arbitre d’une manière additive entre lesqualités
constituant les
produits).
Dans le cas
général
le modèle s’écritf (y)
=Xb+e
oùf
est une transformation monotone(préservant l’ordre).
Ils’agit
d’un modèle additif où seuls les effetsprincipaux
sontprésents.
Laprise
encompte
d’interactions est engénéral impossible
du fait du faible nombre de scénarios que l’on
peut
classer.p
Il y a donc
mi -
p coefficients(utilités)
estimables.Ceci
signifie
que seules les différences entre coefficients ont unesignification.
En
pratique
onimposera
des contraintes auxcoefficients;
lesplus
courantes étant soitd’avoir des coefficients de somme
nulle,
soit d’annuler un descoefficients,
engénéral
le
premier
ou le dernier cequi
revient à éliminer des colonnes de X[2].
Remarquons
que l’écritureprécédente
du modèle conduit à des utilitésqui
sonten fait des anti-utilités car les meilleurs classements sont associés à des valeurs faibles de Y et donc à des coefficients faibles aussi. On
procédera
si l’on veut de vraies utilités à une transformation des rangs enanti-rangs :
Il est
plus
courant enpratique
de demander de classer lesproduits
selon un ordrecomplet plutôt
que de les noter(sur
20 parexemple),
ceci afin d’éviter les ex aequo et pour forcer lesenquêtés
à comparer réellement lesproduits.
Pour estimer les utilités on utilise soit la méthode des moindres carrés
ordinaires,
soit une méthode derégression
monotone(cf.
M. Tenenhaus et A.Agha) [7],[1].
Considérer le rang de classement comme une variable
numérique
est discutable : ils’agit uniquement
d’une information ordinale et toutsystème
de notationqui
conduit au même ordre est
acceptable.
Comme ils’agit
de reconstituer l’ordre depréférences
onpeut
faire subir aux rangs de classement une transformation monotone croissante. Leprincipe
del’analyse
de variance monotone(programme
MONANOVAde J.B.
Kruskal)
consiste à chercher la transformation monotonef (Y) qui
conduità la meilleure
régression multiple
avec X(ou Xo ,
voir2.1.2)
comme matrice devariables
explicatives [1] [5] [7].
Quelle
méthode d’estimationchoisir,
moindres carrés ordinaires ourégression
monotone? Il est clair que les transformations monotones sont mieux
adaptées
à lanature ordinale des données recueillies et au modèle additif
postulé,
maispeuvent
conduire à desajustements
artificiels si le nombre de scénarios est insuffisant(risque
d’ « over
fitting »).
Il est donc recommandé d’examiner enpremier
lieu la solution desmoindres carrés ordinaires avant de passer à la
régression
monotone : les résultats des MCO sont engénéral
robustes.2.1.2. Estimation des utilités individuelles par les moindres carrés ordinaires Le modèle
précédent
estappliqué
àchaque enquêté
et fournira donc des utilités propres à chacun. Il nes’agit
pas d’un modèle collectif depréférences
mais bien d’un modèle tentantd’analyser
lespréférences
dechaque
consommateur.Techniquement
il faudra donc réaliser autant derégressions,
ordinaires oumonotones,
qu’il
ya d’enquêtés.
On
part
ici de Y = Xb + e où Y est le vecteur des rangs de classements des scénarios et on estime bpar b
de telle sorteque : 11 Y - Xb~2
soit minimal.Pour les raisons
déjà évoquées plus haut,
ces estimations ne sont pasuniques,
et on obtient une solution
simple
en éliminant des colonnes de X. Onprendra
par
exemple Xo
la matrice obtenue ensupprimant
lapremière
colonne dechaque
sous-matrice
Xi,
et enrajoutant
une colonne de 1 au début de lamatrice,
pour tenircompte
de la constante du modèle.Xo
serait alors sous la formeX0 =
(loi |X02|... Xo2 ... |X0p),
2.1.3. Hiérarchie
des facteurs
Pour chacun des
enquêtés,
onpeut
ordonner les facteurs ou variablesexplica-
tives.
Puisqu’il s’agit
en fait d’un modèled’analyse
de la variance à effets additifs onpense immédiatement à utiliser les sommes de carrés
expliqués
parchaque
facteur. Il fautcependant
êtreprudent
car d’unepart
les sommes de carrés ont tendance à aug- menter avec le nombre de modalités dechaque facteur,
et d’autrepart
ces sommes ne sont additives que dans le casparticulier
desplans orthogonaux.
Il faut alors utiliser des sommes de carrés detype
II avec les tests F associés.Une solution
plus
courante pour déterminer lesimportances
relatives des différents facteurs consiste à utiliser les différences entre les utilités.p
En
effet, lorsque
les03A0
mi scénarios sontréalisables,
la différence entre l’utilité maximale et l’utilité minimale pour tous les scénarios(i. e.
l’étenduetotale)
estégale
à la somme des étendues des utilités
partielles
dechaque
facteur.L’importance
d’unfacteur est alors
égale
àWj 03A3Wj, où Wj est l’étendue des utilités du facteur j.
Le passage à une hiérarchie sur l’ensemble des
enquêtés
supposel’homogénéité
de ces derniers. Il est alors conseillé avant de calculer des
importances
et des utilités moyennes deprocéder
à unetypologie
des interviewés sur la base de leurs utilités estimées.3. Cas d’ordre
partiel
Lorsque
l’on demande àl’enquêté
de classer un certain nombre deproduits
ouscénarios
plus
ou moinscomplexes,
trois cas sontenvisageables :
2022
l’enquêté
classe tous les scénarios selon un ordre total : c’est le casclassique
de
l’Analyse Conjointe,
leslogiciels
usuels destatistique permettent
alors d’estimer aisément tous lesparamètres.
2022
l’enquêté
classe tous les scénarios maispeut
donner le même rang à deux ouplusieurs produits
différents : c’est le cas d’ex aequo.2022
l’enquêté
ne classe pas tous les scénarios : il classeuniquement
les q1premiers
scénarios et omet volontairement de classer les derniers : l’ordre ici est
partiel.
Le troisième cas se rencontre
lorsque
le nombre deproduits
estimportant.
Ilpose un
problème
d’estimation des valeursmanquantes,
car il n’est pasquestion
desupprimer
les individusayant répondu
de cette manière.3.1. Procédé d’estimation
Nous proposons ici
quelques procédés simples
d’estimation des rangs man-quants,
dans le cas où le consommateur donne un ordrepartiel
sur les scénarios.Nous supposons que le consommateur n’a pas de
préférences
pour les scénariosqu’il
a omis de classer et donc que les rangs de tous cesproduits
seraient touségaux.
Trois méthodes différentes d’estimation des valeurs
manquantes
sont alorsenvisageables :
a)
Lesproduits
non classésreçoivent
tous le rang du dernierproduit
classéaugmenté
de 1 soit q1 +1,
cequi
revient à estimer les rangsmanquants
par le rangqui
suit celui du dernier classé.b)
Lesproduits
non classésreçoivent
tous la moyenne(rendue
entière parexcès)
des rangs
manquants.
c)
Lesproduits
non classésreçoivent
tous le rangmaximum,
soit q.Ces trois
façons
d’estimer les rangsmanquants
nouspermettent
de ramener lecas de valeurs
manquantes
à celui d’ex aequo.Nous essayons dans la
suite,
et sur unexemple
de déterminer un seuil àpartir duquel
le classementpartiel
de scénarios n’estplus exploitable.
3.2.
Exemple
3.2.1. Les données
Nous
partons
ici d’unexemple qui
propose à 263 consommateurs de classer des scénarios d’abonnements offerts entéléphone
mobile(les
données réelles sontlégèrement
différentes pour des raisons deconfidentialité).
Les scénarios sont donc obtenus par combinaison de
sept variables,
dontquatre
à deux modalités et trois à troismodalités,
le nombre deparamètres
linéairementp
indépendants
à estimer étantégal
àmi -
p est ici de 10.i=l
Le
plan
factorielcomplet associé, comprend
432 scénarios. Unplan orthogonal
au sens strict doit avoir un nombre de scénarios
égal
au PPCM(2 x 3, 3 x 3, 2 x 2)
soit donc 36
scénarios,
cequi
esttrop
élevé enpratique.
Dans l’étude réelle on a utilisé un
plan
à 12scénarios,
obtenu par un programme de recherche deplans D-optimaux.
Ainsi dans notre
exemple
leplan P D-optimal
à 12 scénarios les matrices X etXo
associées à ceplan
sont :Les
produits
obtenus ont étéprésentés
à 263 consommateurs,qui
ont tousrépondu
par un classement total.
3.2.2. Les résultats et leur
interprétation
La reconstitution de l’ordre des
préférences
se mesure avec le carré du coefficient de corrélationmultiple R2. Lorsque
ce coefficient est faible il traduit soitune
inadéquation
du modèle d’utilitésadditives,
soit une incohérence desréponses
del’enquêté.
C’est engénéral
cette dernièrehypothèse qui
est retenuepuisque
le modèleest considéré comme réaliste. On éliminera alors les
enquêtés
pourlesquels
leR2
estinférieur à un seuil fixé par l’utilisateur.
Pour le cas de notre
exemple
leR2
est trèsproche
de 1 pour presque tous les individus dans le cas d’ordretotal,
comme le montre legraphique 1,
cequi
montreque le modèle
explique
bien le choix des consommateurs.GRAPHIQUE
1R2
dans le cas d’ordre total3.2.3. Les simulations
Nous allons tout d’abord établir l’influence du nombre de scénarios non classés
sur la
qualité globale
del’ajustement.
Pour cela nous avons simulé des classements
partiels graduels,
enremplaçant successivement,
sur les données de l’ordretotal,
les rangs des derniers scénarios classés par des valeursmanquantes.
Celles-ci sont transformées par la suite enex aequo, ainsi nous avons des ordres
partiels
avec i valeursmanquantes
cequi
setraduit par
(i - 1)
ex aequo, i =1, ... ,12. Le
cas i = 1 nous redonne le casclassique
d’ordre total.
3.2.3.1. Cas où les valeurs manquantes sont
remplacées
par le rang du dernier classé +1Le nombre de valeurs
prises
par leR2 diminue lorsque
le nombre d’ex aequoaugmente
comme le montrent lesgraphiques 2 ,
3 et 4.R2 :
cas de 2 ex aequon° de l’individu
enquêté GRAPHIQUE
2R2 : cas de 6 ex aequo
n° de l’individu
enquêté
GRAPHIQUE
3R2 : cas de 11 ex aequo
n° de l’individu
enquêté GRAPHIQUE
4En
poussant jusqu’à
l’absurde la simulation avec 11 ex aequo, on ne trouveplus
que deux valeurs du
R2,
cas sans utilité dans lapratique.
Le
graphique
5 donne la moyenne desR2
sur les 263régressions (avec
unebarre d’erreur de =b 1 écart
type)
R2 moyen
Nombre d’ex aequo
GRAPHIQUE
5Moyenne
desR2
(Les
valeurs manquantes sontremplacées
par le rang du dernier classé+1)
Le
R2
moyen croîtlégèrement lorsque
le nombre d’ex aequo est entre 2 et 6 et décroît entre 7 et 11 ex aequo(graphique 5).
Le
graphique
6 donne l’écarttype
sur lesR2
associes aux 263régressions Écart type
des R2 en fonction du nombre d’ex aequoNombre d’ex aequo
GRAPHIQUE
6Écart
type desR2
(Les
valeurs manquantes sontremplacées
par le rang du dernier classé+1)
L’écart
type
est donc minimal pour 7 ex aequo.3.2.3.2. Cas où les valeurs manquantes sont
remplacées
par la moyenne des rangs non classésDe même que pour le cas
précédent,
le nombre de valeursprises
par leR2
diminue
lorsque
le nombre d’ex aequoaugmente.
Le
graphique
7 donne la moyenne desR 2
sur les 263régressions (avec
une barre d’erreur de ± 1 écarttype).
LeR2
moyen croîtlégèrement lorsque
le nombred’ex aequo est entre 2 et 7 et décroît entre 8 et 11 ex aequo
(graphique 7).
Le
graphique
8 donne l’écarttype
desR2
associés aux 263régressions.
L’écart
type
décroît entre 2 et 8 ex aequo et remonte àpartir
de neuf ex aequocomme le montre le
graphique
8. LeR2
moyen restesupérieur
à 0.94 avec un écarttype
très faible.Nous retrouvons, le même
comportement
pour lesR2,
avec unléger décalage
de la moyenne et de l’écart
type
vers un nombre d’ex aequo autour desept.
Cedécalage
est dû
simplement
au fait que la moyenne parexcès,
des rangs non classés pour un nombre d’ex aequoégal
à 6(qui
estégale
à10)
est la même pour un nombre d’ex aequoégal
à 7.Nombre d’ex aequo
GRAPHIQUE
7Moyenne
desR 2
(Les
valeurs manquantes sontremplacées
par la moyenne des rangs nonclassés) Écart type
sur les R2 en fonction du nombre d’ex aequoNombre d’ex xquo
GRAPHIQUE
8Écart
type desR2
(Les
valeurs manquantes sontremplacées
par la moyenne des rangs nonclassés)
3.2.3.3. Cas où les valeurs manquantes sont
remplacées
par le rang maximum De même que pour les casprécédents,
le nombre de valeursprises
par leR2
diminue
lorsque
le nombre d’ex aequoaugmente.
Le
graphique
9 donne la moyenne desR2
sur les 263régressions (avec
une barre d’erreur de d= 1 écarttype)
R2 moyen
Nombre d’ex aequo
GRAPHIQUE
9Moyenne
desR2
(Les
valeurs manquantes sontremplacées
par le rangmaximum)
Écart type
sur les R2 en fonction des ex aequoNombre d’ex aequo
GRAPHIQUE
10Écart
type desR2
(Les
valeurs manquantes sontremplacées
par le rangmaximum)
L’écart
type
décroît entre 2 et 8 ex aequo et remonte àpartir
de neuf ex aequocomme le montre le
graphique 10.
Le
R2 moyen
restesupérieur
à 0.94 avec un écart type trèsfaible,
etqui
a lamême allure que les cas
précédents.
Le
R2 ne
mesure pas en réalité l’effet du nombre d’ex aequo sur laqualité
desrésultats. Il est
plus important
de voir l’effet sur l’estimation desparamètres.
3.2.4.
Étude
des utilités individuellesL’étude
empirique
montre que les utilités individuelles restent stableslorsque
le nombre d’ex aequo n’est pas
trop important (de
l’ordre de6).
Cette stabilité seperd lorsque
le nombre d’ex aequo devient élevé. Ceci traduit une très forte corrélation entre les utilités calculées sans ex aequo et celles avec un faible nombre d’ex aequo(donc
un nombre de valeursmanquantes faible).
Les utilités pour les facteurs à deux niveaux étant
égales
en valeur absolue mais designes opposés,
nousreprésentons uniquement
les corrélations de celles associéesau
premier,
et celles associées aux trois niveaux des autres facteurs sur lesgraphiques
11 et 12.
3.2.4.1. Cas où les valeurs manquantes sont
remplacées
par le rang du dernier classé + 1Corrélations
entreutilités individuelles
Nombre d’ex aequo GRAPHIQUE
11Corrélation entre utilités individuelles dans le cas d’ordre total et
différents
ordrespartiels
(les
valeurs manquantes sontremplacées
par le rang du dernier classé+1)
Les corrélations entre utilités individuelles sont très
proches
de 1(
de l’ordre de0.99)
pour tous les niveaux desfacteurs, lorsqu’on
a seulement deux ou trois ex aequo et décroissent à des vitesses différentes selon lesattributs,
et restentsupérieures
à 0.8pour tous les attributs
lorsque
le nombre d’ex aequa nedépasse
pas 6.3.2.4.2. Cas où les valeurs manquantes sont
remplacées
par la moyenne des rangs non classésLes corrélations entre utilités individuelles restent très
proches
de 1(de
l’ordrede
0.99)
pour tous les niveaux desfacteurs, lorsqu’on
a seulement deux ou troisex aequo et décroît à des vitesses différentes selon les
attributs,
mais elle restesupérieure
à 0.82 pour tous les attributslorsque
le nombre d’ex aequo nedépasse
pas 6 ou 7.
Corrélations
entreutilités individuelles
Nombre d’ex
aequoGRAPHIQUE
12Corrélation entre utilités individuelles dans le cas
d’ordre total et
différents
ordrespartiels
(les
valeurs manquantes sontremplacées
par la moyenne des rangs nonclassés) Corrélations
entreutilités individuelles
Nombre d’ex aequo GRAPHIQUE
13Corrélation entre utilités individuelles dans le cas
d’ordre total et
différents
ordrespartiels
(les
valeurs manquantes sontremplacées
par le rangmaximum)
3.2.4.3. Cas où les valeurs manquantes sont
remplacées
par le rang maximum Les corrélations entre utilités individuelles restent iciaussi,
trèsproches
de 1(de
l’ordre de0.99)
pour tous les niveaux desfacteurs, lorsqu’on
a seulement deuxou trois ex aequo et décroissent à des vitesses différentes selon les
attributs,
mais elles restentsupérieure
à 0.8 pour tous les attributslorsque
le nombre d’ex aequo nedépasse
pas 6 ou 7.
3.2.5. Hiérarchie
des facteurs
3.2.5.1. Cas où les valeurs manquantes sont
remplacées
par le rang du dernier classé + 1L’étude des
importances
desutilités,
dans le cas de notreexemple,
montreune certaine stabilité de ces dernières
lorsque
le nombre d’ex aequo n’est pas trèsimportant (ici,
si le classement se faitjusqu’au
sixièmescénario).
Cette stabilité seperd lorsque
le nombre d’ex aequo devientélevé,
cequi
dénote une forte corrélation entre cesimportances lorsque
le nombre d’ex aequo est faible donc un nombre de valeursmanquantes
faible(de
l’ordre deq/2, q
étant le nombre descénarios)
avec lecas d’ordre
total,
comme le montrent le tableau 1 et legraphique
14.TABLEAU 1
Corrélation entre
importances des facteurs
dans le casd’ordre total et
différents
ordrespartiels
3.2.5.2. Cas où les valeurs manquantes sont
remplacées
par la moyenne des rangs non classésL’étude montre une certaine stabilité des
importances
des utilitéslorsque
lenombre d’ex aequo n’est pas très
important (ici,
si le classement se faitjusqu’au
septième scénario,
pour les mêmes raisonsqu’au § 3.2.3.2).
Cette stabilité seperd lorsque
le nombre d’ex aequo devientélevé,
comme le montre legraphique
15.Corrélations
entreimportances des utilités
Nombre d’ex aequo GRAPHIQUE
14Corrélation entre
importances des facteurs
dans le casd’ordre total et
différents
ordrespartiels
(les
valeurs manquantes sontremplacées
par le rang du dernier classé+1)
Corrélations
entreimportances des utilités
Nombre d’ex aequo GRAPHIQUE
15Corrélation entre utilités individuelles dans le cas d’ordre total et
différents
ordrespartiels
(les
valeurs manquantes sontremplacées
par la moyenne des rangs nonclassés)
3.2.5.3. Cas où les valeurs manquantes sont
remplacées
par le rang maximum L’étude montre, dans ce casaussi,
une certaine stabilité desimportances
desutilités
lorsque
le nombre d’ex aequo n’est pas trèsimportant (ici,
si le classement se faitjusqu’au septième scénario).
Cette stabilité seperd lorsque
le nombre d’ex aequo devientélevé,
comme le montre legraphique
16.Corrélations
entreimportances des utilités
Nombre d’ex aequo GRAPHIQUE
16Corrélation entre
importances des facteurs
dans le casd’ordre total et
différents
ordrespartiels
(les
valeurs manquantes sontremplacées
par le rangmaximum)
Le seuil de valeurs
manquantes
pourlequel
les données restent utilisables semble être de l’ordre deq/2, q
étant le nombre descénarios, hypothèse
que nous nepouvons confirmer faute de données.
4. Modèle avec
perturbations
aléatoiresLa
partie précédente représente
uneexpérience
sur des donnéesréelles,
mais d’une seuleexpérience
on nepeut
tirer degénéralités.
Nous avons donc décidé de simuler des classements de manière
plus systématique.
Pour
partir
d’un modèleréaliste,
nous avons fait le choix d’unsystème
d’utilité{3
etsimulé des classements
compatibles
et cohérents enajoutant
des bruits 03B5 de variances données àX03B2.
4.1
Étude
duR2
Nous
partons
d’un vecteur/3 qui
est la moyenne des 263coefficients {3
dumodèle associé aux données de
l’exemple du § 3.2.
Onperturbe
ensuiteX{3,
où Xest la matrice
d’expérience associée,
par une variable normale 6’ ~N(O, a2Idq),
oùq = 12 est le nombre de
scénarios,
et onremplace
y =X03B2
+ e(e
étant une réalisation dec)
par les rangs de classement. On obtient ainsi en tirant 100 fois des valeurs de E,100 classements différents. On fait varier
a2
de 1 à 6.La simulation des rangs de classement à
partir
de coefficients d’un modèlesur des données
réelles,
nousgarantit
la cohérence des données simulées avec uncoefficient de corrélation
multiple proche
de 1.En effet nous obtenons un
R2
moyen trèsproche
de 1 et du cas réel(pour
toutesles valeurs de
03C32),
avec un écarttype qui augmente légèrement
aveca2
comme lemontre le tableau 2 et le
graphique
17.TABLEAU 2
Statistiques
sur lesR2 pour 03C32
=l,
..., 6R2 moyen
Valeurs des variances des
perturbations GRAPHIQUE
17Moyenne
desR2
pour03C32
=1,....
6. La barre d’erreur est de ± 1 écart type Nous introduisons ensuite des valeursmanquantes, corrigées
par des ex aequo selon lesprocédés
décrits au§
3.1 pour les différentes valeurs deo-2.
Le
graphique
18 nous donne la moyenne desR2
sur les 100régressions (avec
une barre d’erreur de :L 1 écart
type),
pour les différentes valeurs de03C32.
Valeurs manquantes
remplacées
Valeurs manquantesremplacées
par par le rang du dernier classé +1 la moyenne des rangs non classésGRAPHIQUE
18Moyennes
desR 2
sur les 100régressions 03C32 = 1, 2,4,6
4.2
Étude
des utilités individuellesLes utilités pour les facteurs à deux niveaux étant
égales
en valeur absolue mais designes opposés,
nousreprésentons uniquement
les corrélations de celles associéesau
premier,
et celles associées aux trois niveaux des autres facteurs .Le
graphique
19 nous donne les corrélations entre utilités individuelles pour différentes valeurs deu 2 (à gauche
les valeursmanquantes
sontremplacées
par lerang du dernier classé
+1,
à droite les valeursmanquantes
sontremplacées
par la moyenne des rangs nonclassés).
Les utilités individuelles restent stables tant que le nombre d’ex aequo n’est pas
trop important (de
l’ordre de6).
Cette stabilité seperd lorsque
le nombre d’ex aequo devient élevé. Ceci traduit une très forte corrélation entre les utilités calculées sans ex aequo et celles avec un faible nombre d’ex aequo. Cette corrélationaugmente légèrement lorsque u 2 augmente (0.8
pouru 2
= 1 à 0.89 pourU2
=6)
pour les deux méthodes de calcul des ex aequo.Nous remarquons que pour un nombre d’ex aequo
égal
à 6 la corrélation entre utilités individuellesqui
était de l’ordre de 0.81 pour le casréel,
devient de l’ordre de 0.80 pour(52
=1,
0.82 pour(52 = 2,
0.85 pour(52
=3,
0.86 pourU2 = 4, 0.87
pour
(52
= 5 et de l’ordre de 0.89 pour(52 = 6,
donc croitlégèrement lorsque u 2
augmente, avec une
légère
différence entre les deux méthodes(de
l’ordre de0.01).
4.3.
Étude
desimportances
des utilitésLe
graphique
20 nous donne les corrélations entreimportances
des utilités des facteurs pour différentes valeurs deu 2 (à gauche
les valeursmanquantes
sontremplacées
par le rang du dernier classé+1,
à droite les valeursmanquantes
sontremplacées
par la moyenne des rangs nonclassés).
Nous remarquons que dans le cas où les valeurs
manquantes
sontremplacées
par le rang du dernier classé
+1,
pour un nombre d’ex aequoégal
à6,
la corrélation entreimportances
des utilitésqui
se situait entre 0.7 et 0.9(selon
lefacteur)
pour le casréel,
se situe entre 0.4 et 0.9 pour(52
=1,
entre 0.5 et 0.9 pour(52 = 2,
entre 0.6 et 0.9 pour
u 2
=3,
entre 0.61 et 0.91 pour03C32
=4,
entre 0.65 et 0.9 pouru2
=5,
et entre 0.65 et 0.92 pourU2
= 6. Dans le cas où les valeursmanquantes
sontremplacées
par la moyenne des rangsmanquants,
pour un nombre d’ex aequoégal
à6 cette corrélation se situe entre 0.6 et 0.9 pour
(52 = 1,
entre 0.7 et 0.91 pourU2 =2,
entre 0.75 et 0.9 pour
u 2
=3,
entre 0.75 et 0.91 pour(52 = 4,
entre 0.75 et 0.9 pour(52
=5,
et entre 0.8 et 0.9 pourU2
= 6.L’étude des
importances
desutilités,
montre une certaine stabilité de cesdernières
lorsque
le nombre d’ex aequo n’est pas trèsimportant (ici,
si le classement sefait
jusqu’au
sixièmescénario).
Cette stabilité seperd lorsque
le nombre d’ex aequo devientélevé,
cequi
dénote une forte corrélation entre cesimportances lorsque
lenombre d’ex aequo est faible donc un nombre de valeurs
manquantes
faible(de
l’ordrede
q/2, q
étant le nombre descénarios)
avec le cas d’ordre total. La corrélation est d’autantplus importante
queu 2 augmente.
Avec unelégère
différence entre les deux méthodes de calcul pour certains facteurs.Valeurs manquantes
remplacées
Valeurs manquantesremplacées
par par le rang du dernier classé +1 la moyenne des rangs non classésGRAPHIQUE
19Corrélations entre utilités individuelles pour
03C32 = 1, 2, 4, 6
Valeurs manquantes
remplacées
Valeurs manquantesremplacées
par par le rang du dernier classé +1 la moyenne des rangs non classésGRAPHIQUE
20Corrélations entre
importances
des utilitésdes facteurs
pour03C32 = 1, 2, 4, 6
5. Conclusion
Le cas de classement
partiel
des données enanalyse conjointe
est assezfréquent
surtout
lorsque
le nombre deproduits proposés dépasse
la dizaine. Ces données ne sont pascomplètement
inutilisables sil’enquêté
classe lamajorité
desproduits.
Nousavons montré sur un
exemple
encomparant
le classement total et divers classementspartiels,
selon différentes méthodesd’estimation,
que les utilités et lesimportances
dans le cas
partiel
sont assezproches
de celles de l’ordretotal,
pourvu que le nombre de valeursmanquantes
ne soit pastrop important :
nosexpériences
ont montré unebonne stabilité des résultats
jusqu’à
la moitié des scénarios classés.Bibliographie
[1]
AGHA A.K.(1991), Régression
etanalyse canonique
sous contrainteslinéaires,
Thèse UniversitéParis-Dauphine.
[2]
DROESBEKEJ.J.,
FINEJ.,
SAPORTA G.(éditeurs),
Plansd’Expériences, Applications
àl’entreprise, Éditions Technip.
[3] EVRARD Y.,
PRASB.,
ROUX E.(2000), « Market »,
Dunod.[4]
GREENP.E.,
SRINIVASAN V.(1990), Conjoint analysis
inmarketing :
newdevelopments
withimplications for
researchand practice,
Journal ofMarketing,
3-19.
[5]
KRUSKAL J.B.(1965), Analysis of factorial experiments by estimating
mono-tone
transformations of the data, JRSS, B, 27,
251-263.[6]
SAS InstituteInc.,
SAS TechnicalReport
R-109(1993), Conjoint Analysis Examples, Cary,
NC : SAS Institute Inc.[7]
TENENHAUS M.(1988),
Canonicalanalysis of two polyedral
convex cones,Psychometrika, 53, 4, 503-524.
Annexe :
Rappel
sur lesplans d’expérience
Soient p
variablesqualitatives Xl, X2,..., Xp (dites
encore facteurs ouattributs)
p
à ml, m2,..., mp modalités
(ou niveaux) respectivement.
On notera kmi
lenombre total de modalités.
On définit un
produit (ou scénario)
par une combinaison des modalités dechaque
variable
Xi (ou d’attributs).
Un scénario est donc caractérisé par un seul niveau de chacun desattributs, lesquels
sont décrits par des indicatrices. Onconstruit q
scénariosdifférents,
à l’aide detechniques
deplans d’expériences,
Nous enrappelons
ici lesplus importants.
Plan
complet
Soit
X,
la matrice formée par q scénarios résultant de combinaisons des attributs des pfacteurs,
le nombrepotentiel
de scénarios associés à X estégal
au nombre dep
combinaisons
possibles
entre lesattributs,
soitmi,
lesprésenter
tous constitue uni=l
plan
factorielcomplet.
Le nombre de
produits augmentant
defaçon exponentielle
en fonction du nombre des facteurs rend cette démarche irréaliste. On fait alorsappel
auxplans
fractionnaires
optimaux [2] qu’on
utiliseplutôt
enpratique,
d’autantplus
que le consommateur n’arrive pas à mémoriser tous les scénariosproposés
dés que leur nombredépasse
la dizaine.Comment choisir les scénarios et leur nombre de manière
optimale?
La théorie des
plans d’expériences permet
derépondre
à cettequestion :
onutilisera
lorsque
cela estpossible
des fractionsorthogonales
duplan complet [2] qui permettent
de bienséparer
les influences des facteurs. Les constructions deplans orthogonaux peuvent
se faire à la main dans des cassimples
ou avec des tables toutesfaites;
une bonnepratique
et de l’habileté sont toutefois nécessaires. Sinon lesplans D-optimaux
constituent l’outil presque absolu pour résoudre leproblème.
Plans
orthogonaux
fractionnaires etD-optimalité
Trouver les meilleurs
plans d’expériences
à nombre de scénarios fixés suppose que l’on a défini un critèred’ optimalité
et que l’ondispose
d’unalgorithme
efficacede recherche
[2].
Le critère usuel est laD-optimalité.
La définition de critères
d’optimalité
renvoie au modèle linéaire. Ils’agit
icid’estimer le mieux
possible
les coefficients du modèle :Soit Y le vecteur des rangs de classement
(de taille q
pour un individudonné),
ou une transformation monotone de ce
dernier,
et soitXo
la matrice des variablesexplicatives qui
sont ici les indicatrices des niveaux des facteurs(avec
une indicatrice de moins que de niveaux pour assurer l’inversibilité deX’ 0 XO)
les utilités sont les solutions b deséquations
normales :Les utilités sont estimées sans biais mais avec une variabilité
qui
est définie par la matrice de variance des résidus etqui
vaut :Les estimations seront donc d’autant meilleures que la matrice
(X’0X0)-1
sera
« petite ».
Plusieurs définitions sont alorspossibles,
celle que l’on retient leplus
souvent à la suite de Fédorov
[2],
consiste à avoir un déterminant minimal pour(X’0X0)-1
et donc maximal pour(X’0X0);
c’est laD-optimalité :
la recherchedes
plans D-optimaux impose
de recourir à deslogiciels spécialisés,
leplus
souventconçus pour le contrôle industriel de la
qualité.
Les