• Aucun résultat trouvé

i. Discrimination

Dans le document Effets masqués en analyse prédictive (Page 79-82)

F. Applications de la méthode AEL

F.1. i. Discrimination

Il s’agit de prédire les choix des consommateurs entre les deux marques (MM et CH) en fonction des cinq critères disponibles à savoir :

- le prix de vente de base (hors réduction de prix) de Minute Maid : MM Price ; - le prix de vente de base de Citrus Hill : CC Price ;

- le taux de réduction de prix sur Minute Maid : MM Discount ; - le taux de réduction de prix sur Citrus Hill : CH Discount ;

- la fidélité à Citrus Hill: Loyalty, mesurée par les préférences passées.

Nous choisissons de prédire la préférence des consommateurs pour la marque CH.

Comme nous l’avons indiqué auparavant, nous allons tester dans cette première étape deux modes de discrimination : l’analyse discriminante de Fisher et les SVMs linéaires ou polynomiaux. En effet, nous souhaitons utiliser deux méthodes basées sur des principes très différents pour montrer à travers cet exemple la robustesse de la méthode par rapport au mode de discrimination choisi lors de cette première étape.

Pour les SVMs, nous avons testé à cette étape deux spécifications à savoir :

- la spécification linéaire pour laquelle on reste dans l’espace vectoriel initial (tout en utilisant cependant des enveloppes quasi-convexes pour éviter les risques de sur-ajustement) ;

- la spécification correspondant au noyau suivant (cf. sous-section C.3.ii) :pour tout couple de vecteur (x,y), K(x,y) est égal à (1 + x.y)2,qui revient à utiliser tous les polynômes du second ordre dans les variables de prédiction initiales en plus des variables initiales pour définir la fonction de discrimination optimale (tout en utilisant là encore des enveloppes quasi-convexes pour éviter les risques de sur-ajustement).

Une fois les fonctions de discrimination évaluées14, elles nous fournissent les scores de précision suivants (critère de qualité de la première étape décrit dans la section E.6.). Les calculs ont été effectués sur l’erreur de classification traditionnelle (« bien classé » ou « mal classé » suivant la décision binaire à prévoir).

Fonction de discrimination Erreur en validation croisée

Analyse discriminante 17.1%

SVMs linéaires 17.0%

SVMs avec noyau polynomial (degré 2) 17.3%

Tableau F.1.1. Scores de validation croisée

D’après ce tableau, tous les modes de classification ont des scores de précision assez proches (autour de 17%). Même si le meilleur score est donné aux SVMs linéaires, suivis de l’analyse discriminante et des SVMs polynomiaux, ces différences ne sont pas significatives.

L’étude de Cui et Curry (2005) aurait donné a priori un avantage aux SVMs mais étant donné le grand nombre d’individus dans la base et le petit nombre de paramètres à estimer, SVMs et analyse discriminante donnent des résultats très proches. Il en aurait été autrement avec un plus grand nombre de paramètres à estimer. Nous allons voir dans la sous-section suivante en quoi la méthode SVM a cependant un avantage dans le cas présent de l’analyse AEL.

14 Les calculs des SVMs ont été réalisés à l’aide du module Spider de MatLab, plus spécifiquement la fonction

train svm. Ce module est très bien reconnu et diffusé en Machine Learning, notamment à travers diverses

publications de haut niveau, comme par exemeple: Evgeniou, Pontil, et Elisseeff (2004).

Note sur la performance relative des fonctions de classification

Etant donné que la méthodologie AEL peut s’appliquer indépendamment de l’outil de modélisation choisi, et que donc, le choix de la fonction de discrimination n’a pas à être guidé par son pouvoir explicatif inhérent, il est en effet légitime de se demander si ce léger gain de précision sur les performances en classification est une motivation suffisante au choix des SVMs. Nous nous proposons dans cette sous-section d’apporter un éclairage nouveau sur les performances en classification des différentes approches.

La méthodologie est la suivante. Le jeu de données Orange Juice est utilisé pour élaborer trois types de fonctions de classification différentes : une analyse discriminante de Fisher ; un SVM linéaire ; un SVM polynomial de degré 2. Les résultats de la classification sont présentés de la manière originale suivante : les individus sont regroupés en 5 bins, selon la probabilité de choix estimée par la fonction de classification ; et dans chaque bin, le pourcentage des erreurs de classification des individus issus de ce bin est donné par rapport au nombre total d’erreurs effectuées par cette fonction de classification. Nous voulons savoir ici quelle est la distribution des erreurs, et ce pour type de fonction de classification. Les résultats sont donnés dans le tableau F.1.2. ci-après.

Rappelons que par « erreurs de classification » nous désignons toujours les individus pour lesquels le choix prédit par la méthode de modélisation considérée s’avère malheureusement être en réalité le choix contraire au choix effectivement fait par cet individu. Notons aussi qu’il est plus logique de s’intéresser au pourcentage d’erreurs selon les bins qu’au nombre absolu d’erreurs, car lors de l’allocation des individus par bin, les effectifs des bins peuvent varier d’une méthode de classification à l’autre, et les nombres absolus d’erreurs ne sont donc pas correctement interprétables. Les erreurs est donc ici calculées de la même manière que dans le tableau F.1.1 précédent.

Ainsi, bien que les performances en classification globale soient très semblables pour les trois méthodes, la distribution des erreurs par bin est assez différente : l’analyse de Fisher peine davantage sur les exemples proches de la frontière de décision ; tandis que les SVMs ont une répartition des erreurs plus homogène suivant les bins, les erreurs de classification devenant ainsi plus courantes sur les individus moins porches de la marge. Il apparaît ainsi que le cas où la classification est vue non pas comme une fin en soi, mais comme un outil visant à identifier les individus proches de la marge, et à modéliser le comportement de la fonction de décision sur les individus proches de la frontière, le pouvoir de résolution des SVMs est plus grand. Ce résultat n’est pas surprenant d’après la présentation du mode de construction des SVMs que nous avons proposée dans la section E.3.ii.

Bien que la littérature relative au machine learning et à la classification automatique privilégie le taux d’erreur absolu comme critère d’erreur, il est assez préférable dans notre approche d’accorder plus d’importance aux individus à la marge. Cependant le praticien peut choisir de privilégier la méthode qu’il lui convient le mieux, ou qu’il lui est le plus pratique, du moment que la qualité de classification, y compris au niveau des individus à la marge lui convient. En effet, la suite de la méthodologie AEL peut s’appliquer dans tous les cas de figure où le praticien dispose d’une probabilité de choix par individu. Cette flexibilité constitue un atout important de la méthodologie AEL.

Afin d’illustrer la flexibilité et la robustesse de cette méthode par rapport à la première étape de discrimination, nous allons conserver les SVMs linéaires et l’analyse discriminante pour traiter la suite de notre exemple. Ce qui nous intéressera en particulier ne sera bien entendu pas la corrélation directe entre les valeurs des probabilités des individus suivant les différents modes de classification, qui peut recouvrir plusieurs réalités très différentes au niveau du lien entre ces probabilités et les variables de prévision, mais de comparer les impacts locaux de ces différentes variables de prévision à l’aise de la méthode FANOVA.

Dans le document Effets masqués en analyse prédictive (Page 79-82)