• Aucun résultat trouvé

i. Spécification du modèle à chaque étape

Dans le document Effets masqués en analyse prédictive (Page 117-122)

G. Discussion

G.5. i. Spécification du modèle à chaque étape

La méthode AEL requiert d’utiliser le même jeu de variables, contentant à la fois des variables « historiques » ou d’attitude ; et des variables actionnables, durant l’étape d’affectation des individus aux « bins » et pour la modélisation des effets. En théorie, une approche envisageable, suggérée par les membres du jury de pré-soutenance, aurait pu consister à appliquer la méthode sur deux jeux de variables différents suivant les deux étapes LEA que sont l’allocation par bins, et l’analyse des effets. Ainsi le choix des variables aurait pu se faire en classant d’abord les individus suivant des variables décrivant leurs choix antérieurs, et d’utiliser dans un second temps des variables plus contextuelles, et plus directement actionnables.

Pour en illustrer le principe, cette approche alternative est appliquée sur les deux jeux de données étudiés dans ce chapitre.

Les variables choisies par jeu de données sont les suivantes :

- Orange Juice : Etape d’allocation : LOYALTY / Etape d’analyse : Toutes les autres - Référendum : Etape d’allocation : CONSTR / Etape d’analyse : Toutes les autres.

En effet, la variable de fidélité Loyalty a été mesurée dans la base Orange Juice par les préférences passées lors des achats précédents, et la variable Construction représente l’opinion des électeurs en faveur de la construction européenne en général, c’est-à-dire de l’ensemble des choix politiques effectués par le passé dans le domaine européen, qui est celui du vote analysé.

Les résultats obtenus ainsi ne sont pas satisfaisants pour deux raisons majeures :

A. Les effets locaux ne peuvent être mesurés sans contrôle

B. Une démarche en deux étapes ne laisse pas s’exprimer les données

Revenons à présent sur chacun de ces deux points.

A. Les effets locaux ne peuvent être mesurés sans contrôle

Reprenons pour approcher le problème l’exemple des données Orange Juice. Dans cette nouvelle perspective, la variable Loyalty qui est utilisée pour la classification est exclue ensuite de la seconde étape. Ainsi la fonction de classification obtenue à l’issue de la première étape donne une probabilité de choix en fonction de la seule variable Loyalty. Cette fonction de classification va ensuite être décomposée en une combinaison linéaire de fonctions non linéaires univariées dépendant des autres variables du jeu de données (Loyalty étant exclue de cette seconde étape d’apprentissage statistique). Et c’est ici le cœur du problème.

C’est bien l’ensemble de la fonction, sur toutes les bins, qui est analysé, pour calculer la forme des effets généraux (et non locaux) des variables sur la probabilité de choix. La fonction de classification est donc analysée globalement suivant toutes les variables, sauf celle qui la constitue en premier lieu, à savoir la variable Loyalty. Sans cette variable essentielle à la compréhension de la fonction de décision, et donc du choix en lui-même,

l’analyse de la fonction de classification ne dispose plus de l’information nécessaire pour saisir l’utilité marginale des autres variables de discount et de prix. En effet, les variables Discount et Price n’ont un réel pouvoir prédictif qu’une fois contrôlé le niveau de la variable Loyalty. Sans ce contrôle, nous tombons directement dans le cadre d’un biais d’omission, amenant à surestimer et biaiser l’estimation des effets des variables restantes.

Quelques solutions pourraient être proposées pour modifier plus en profondeur la méthode initialement proposée tout en apportant des résultats techniquement valides, mais moins performants que la méthode initiale.

Etudions les ici :

- Analyser la fonction de discrimination sur chaque bin (et non dans son intégralité comme cela est actuellement le cas). En suivant cette troisième approche, le modèle disposerait effectivement de jeux de données homogènes, puisque contrôlés ou « contextualisés » au sein des bins, et les variables Price et Discount pourraient alors être passées à la loupe. Cependant cette méthode possèderait exactement les mêmes défauts que les régressions logistiques emboîtées, ou en poupées russes, présentées en début de chapitre, c’est-à-dire une diminution de la robustesse de classification et une augmentation de l’incertitude sur les paramètres estimés à l’échantillonnage ;

- Modéliser par les variables Price et Discount non pas directement la probabilité d’achat, mais les erreurs commises par une fonction de classification uniquement fondée sur la variable Loyalty. L’intuition de cette approche est qu’une première fonction de classification entièrement élaborée sur la variable Loyalty fournirait un modèle de fond, par dessus lequel on élaborerait un modèle de correction. Le modèle de correction cherche alors à expliquer le rôle des variables actionnables sur ce qui apparaît comme des erreurs de classification du premier modèle.

On notera, d’abord, que cette approche n’isole pas la variable Loyalty des autres variables – ce qui était le rôle de la deuxième approche en deux étapes. Ensuite, la méthode de quasi-régression utilisée étant une opération linéaire, la somme des effets de deux modèles est l’effet

du modèle somme. Dans une démarche où le modèle global se décompose en une somme

modèle global seront les mêmes que leurs effets sur le modèle du résidu (puisqu’elles ont un effet nul sur le modèle de fond). Cette piste est donc intéressante, mais équivalente à ce qui est déjà réalisé, tout en réduisant le volume d’information produit.

B. Une démarche en deux étapes ne laisse pas s’exprimer les données

La catégorisation des variables entre variables actionnables ou non introduit une dimension arbitraire dont d’après le point A, nous pouvons avantageusement nous passer. En effet, il n’est pas toujours aussi clair de faire des hypothèses sur la hiérarchie a priori des étapes. Le prix par exemple, qui dépend aussi de paramètres historiques de fond comme le positionnement ou le coût de revient, est-il réellement moins actionnable qu’une dimension de la fidélité, qui peut être modifiée par un programme promotionnel de fidélisation adapté ? Cette hypothèse sur la hiérarchie fait partie intégrante du problème que nous souhaitons résoudre en mettant en avant les différences de fond dans la nature des variables étudiées. La hiérarchie des variables est donc bien l’objectif de la méthode et non pas un de ses pré-requis. D’après le dernier paragraphe du point A ci-avant, nous pourrions imaginer aussi effectuer une analyse « forward », où à chaque étape on identifie une variable de fond, puis on étudie les effets des autres variables pour isoler une nouvelle variable de fond, mais la somme de ces modèles de résidus successifs serait identique à un modèle directement appris sur toutes les variables, et par le caractère additif de la quasi-régression, les résultats seraient identiques. Il n’y a donc aucun intérêt à suivre une telle approche forward, si ce n’est rallonger une procédure et introduire une part d’arbitraire dont nous pouvons avantageusement nous affranchir sans nuire à la qualité de la modélisation.

Par souci de rigueur, nous avons cependant tenté de mener cette approche en deux étapes en catégorisant a priori les variables Figure G.5.1 et G.5.2 ci-après.

Figure G.5.1 Spectre AEL en deux étapes Orange Juice (SVM)

Dans le premier cas, on observe qu’en l’absence de contrôle par la variable Loyalty, les effets des variables Price et Discount sont dilués sur tous les bins. De plus, comme indiqué plus haut, le pouvoir explicatif de ces variables prises hors contexte est ambigu, car il est impossible de savoir quand elles captent plus ou moins du pouvoir explicatif de la variable Loyalty que nous avons ici omise.

Le deuxième cas est très pathologique : la variable utilisée pour l’affectation des individus aux bins étant ternaire, la probabilité ne peut prendre que trois valeurs possibles, d’où un regroupement inégal des individus en trois groupes.

Dans le document Effets masqués en analyse prédictive (Page 117-122)