• Aucun résultat trouvé

Définitions et principe de l’analyse locale

Dans le document Effets masqués en analyse prédictive (Page 44-50)

Nous commençons cette section par la définition des termes clefs de cette recherche. Ensuite nous en exposons le principe, et concluons par une présentation de la base de données qui nous servira de premier exemple d’application.

C.1. Définitions

Rappelons ici que le problème consiste à trouver une manière de mesurer les effets d’une variable, ou un critère de choix sur une décision binaire pouvant prendre les valeurs à 0 ou 1 (e.g. achat vs. non-achat, marque A vs marque B) pour un individu donné. Nous ne souhaitons pas seulement connaître si la décision a changé ou pas, mais aussi dans quelle mesure la décision a été influencée par les critères de choix. Aussi nous avons besoin de mesurer l’effet de chaque variable sur la probabilité de faire le choix 1, c’est-à-dire l’impact de chaque variable sur la fonction de probabilité notée f.

C.1.i. Définition d’effet local

Nous appelons effet d’un critère de choix la part de variance de la probabilité de choix

expliquée par le critère en question. Le niveau de variance expliquée est aussi communément

appelé pouvoir explicatif.

Habituellement, l’effet d’un critère est supposé constant à travers la population, indépendant de la sous-population que l’on étudie. Cependant, nous pensons que l’on pourrait tirer avantageusement partie de cet effet en le calculant localement, sur des sous-groupes de la population globale. Nous proposons de définir ces sous-groupes à partir des probabilités de choix.

Nous appelons donc effet local d’un critère de choix la part de variance expliquée de la probabilité de choix pour une sous-population définie par un intervalle de valeurs de cette probabilité.

L’effet local relatif d’un critère est lui, défini comme le ratio entre la variance expliquée par un critère au sein du sous-groupe, par rapport à la somme des variances expliquées par tous les critères étudiés au sein de ce même sous-groupe.

D’autres recherches récentes substituent un modèle global à une forme de modélisation dépendant du contexte (Kivetz, Netzer et Srinivasan 2004) ou du caractère local de la fonction de décision (Doksum et al. 1994), en reprenant leur vocabulaire respectif. Dans le premier cas, les auteurs désirent tenir compte des alternatives les plus proches de l’individu dans le cas d’un choix multiple afin de mesurer les effets de compromis. Dans le second, les auteurs veulent prendre en compte les variations de la force de la corrélation entre Y et X pour prédire Y à partir de X, car dans les cas d’hétérocorrélation8, le niveau de corrélation entre X et Y, dépend de la valeur prise par X. Ces deux études avaient deux définitions différentes du termes « local » dépendant de leur perspective de travail. En effet, il n’y a pas d’utilisation standard de l’adjectif « local » dans les précédentes études de ce type.

Ici nous considérons que l’analyse est locale si elle ne traite pas tous les cas uniformément, mais suivant leur prédictibilité, c’est-à-dire la valeur de la probabilité de choix définie plus haut.

C.1.ii. Définition de la frontière de choix

Nous appelons frontière de choix, le seuil de probabilité que l’on fixe à partir de la fonction de probabilité pour prédire de façon binaire le choix des individus. Quelle que soit la méthode de discrimination utilisée, ce seuil doit être fixé par l’utilisateur. Si les individus se répartissent en deux groupes égaux suivant leurs choix, alors ce seuil est fixé à 50%. Ainsi, lorsqu’un individu à 51% de chance de faire le choix 1, on prédit qu’il fera le choix 1. Inversement, à 49% de chances de faire le choix 1, alors on lui prédit le choix 0. 50% constitue ainsi la frontière à partir de laquelle les individus sont discriminés sur la base du choix qu’on leur prédit. Il peut arriver que cette frontière soit définie sur la base d’une autre probabilité que celle des 50%. En effet, prenons par exemple le cas du choix consistant à consommer un produit de luxe (ou très haut de gamme) versus un produit classique dans une catégorie de produits donnée. Sur la base de la population totale, la probabilité de faire le

choix du luxe (choix noté 1) sera très faible comparée à la probabilité de faire le choix d’un produit classique (noté 0). Le seuil de prévision aura donc un niveau plus élevé que 50%. La valeur du seuil de probabilité optimal suivant laquelle baser la frontière de discrimination est celle donnant le meilleur taux de prévision (Maddala, 2001, p 327) et doit être fixée par l’utilisateur (Maddala, 1983, p 91). En effet, à chaque seuil de prévision, on peut calculer le taux de « bien classés » et de « mal classés » correspondant à ce seuil en comparant les résultats de la prévision avec les données de choix initiales. Le seuil pour lequel le taux de « bien classés » est maximal sera le seuil retenu. Une fois cette valeur fixée, elle définit la frontière de décision car elle discrimine les individus suivant les choix qui leur seront prédits.

C.1.iii. Cas marginaux et cas extrêmes

Plus un individu est proche de la frontière, en termes de probabilité de choix, plus il sera dit

marginal ; plus un individu sera éloigné de la frontière, plus il sera dit extrême (e.g. individus

avec une probabilité proche de 0 ou de 100%). Les individus ne sont pas étudiés ici individuellement mais en sous-groupes. Les sous-groupes les plus remarquables dans ce cadre sont les sous-groupes des cas marginaux et des cas extrêmes.

Les cas marginaux correspondent aux personnes dont les choix sont les moins prévisibles. Cette population est rencontrée dans deux cas de figure. Soit ces consommateurs sont très susceptibles de passer d’une marque à l’autre (les switchers) dans le cadre d’un choix répété, soit ils sont les moins convaincus par les deux options de choix qui leur sont présentés (les indécis). Techniquement, ces deux cas de figure se traitent de manière équivalente. Une illustration de switchers sera donnée dans l’application de la méthode au choix d’une marque de jus d’orange (section F.1.), une illustration d’indécis sera donnée dans l’application au référendum (section F.2.).

C.1.iv. Mode de représentation choisi

Depuis Hotelling (1929), il est habituel en modélisation théorique de représenter les consommateurs suivant un axe correspondant à une des caractéristiques du produit étudié. Ici l’angle de représentation choisi est assez différent, dans le sens où l’axe de caractérisation choisi est la probabilité de choix.

Dans leurs études de l’impact des coupons de réductions sur les switchers, Shaffer et Zhang (1995) choisissent de représenter sur l’axe des abscisses un ratio tenant compte des prix et des réductions de prix pour les produits A et B. En voici un extrait dans la figure ci-dessous :

Figure C.1.1. Représentation des cas marginaux et extrêmes par Shaffer et Zhang (1995)

Il ne s’agit pas tout à fait du mode de représentation que nous avons choisi car l’axe des abscisses ne correspond pas ici à la probabilité de choix.

Nous allons voir tout de suite comment nous représentons les cas dans le cadre de notre segmentation suivant la probabilité de choix.

Etant donné notre objectif de catégorisation des individus suivant leur probabilité de choix, nous choisissons comme axes des abscisses cette probabilité de choix pour ordonner les individus depuis une probabilité de choix nulle (égale à 0%), jusqu’à une probabilité de choix certaine (égale à 100%). La frontière de décision définie plus haut nous permettra de caractériser les cas marginaux (à proximité de cette frontière), alors que les cas extrêmes se trouveront aux bornes de cet intervalle de probabilité, comme on peut le voir dans la figure C.1.2. ci dessous.

En ordonnée, seront placés les effets locaux des critères, au niveau de chaque sous-groupe d’individus ainsi catégorisés. La représentation finale d’une analyse locale des critères de choix sera proposée dans la section Application de cette étude (section F).

C.2. Principe de l’analyse locale

Les choix que nous étudions ici, les choix binaires, sont la plupart du temps modélisés par une régression logistique. Dans le cadre d’une régression logistique, l’impact des critères de choix sur une probabilité de choix p est modélisé via une fonction d’utilité sous-jacente u. Or une variation de u provoque une variation négligeable sur la fonction de probabilité pour les cas extrêmes, et une large variation pour les cas marginaux. Il est donc intéressant de détailler les analyses à un niveau local pour différencier cas marginaux et cas extrêmes.

Figure C.2.1. Représentation traditionnelle des fonctions de choix binaires

Ici, nous allons donc chercher à interpréter plus directement et plus localement le lien entre

les critères de choix et la probabilité de choix. En effet, l’influence qu’aura eu chaque critère

dans la formation de p pour les individus peut varier suivant la distance qui sépare les individus de la frontière de décision (ici 50%).

C.3. Base de données utilisée

Deux bases de données seront utilisées pour appliquer notre méthode, mais nous en avons sélectionné une en particulier pour illustrer en détail notre approche dans le texte. Il s’agit de la base de données publique appelée Orange Juice. La base de données Référendum sera présentée plus loin en section F.2.

Cette base de données Orange Juice est constituée de données réelles proposées par Forster et al. (1998) dans un manuel de statistiques au sein d’un chapitre sur la régression logistique. Cette base est réutilisée ici avec l’aimable autorisation des auteurs. Nous avons conservé la même dénomination des variables (en anglais) par souci de cohérence avec leurs propres travaux. Cette base décrit 1070 décisions indépendantes9 d’achat de jus d’orange entre deux marques américaines: Minute Maid (notée MM) et son challengeur Citrus Hill (notée CH et codée comme le choix 1).

Cinq critères de choix sont ici disponibles :

- le prix de vente de base (hors réduction de prix) de Minute Maid : MM Price ; - le prix de vente de base de Citrus Hill : CH Price ;

- le taux de réduction de prix sur Minute Maid : MM Discount ; - le taux de réduction de prix sur Citrus Hill : CH Discount ;

- la fidélité à la marque CH : Loyalty, mesurée par les préférences passées (comme Guadagni et Little, 1983).

Ces données sont intéressantes pour plusieurs raisons : la taille de l’échantillon correspond à celle communément utilisée dans les études marketing et les sondages d’opinion publique, et les variables sont des variables très souvent étudiées en marketing sur les effets desquelles nous pouvons avoir une première intuition a priori, notamment d’après la revue de littérature de la sous-section B.1.iii.

Notons ici que notre approche ne nécessite pas une méthode de recueil spécifique de données, ce qui permet de l’utiliser sur toute base de données décrivant un choix binaire. De plus,

suivant la démarche adoptée pour appliquer notre méthode (Cf. section E), la nature des variables correspondant à nos critères de choix peut s’étendre à tout type de variable.

Dans le document Effets masqués en analyse prédictive (Page 44-50)