• Aucun résultat trouvé

FIN Processus CRM

4.1 Data mining et Algorithmes

Le marché des logiciels de gestion des entreprises est soumis à une vive concurrence. Chaque fournisseur essaie d’apporter des avantages concurrentiels à ses développements pour se démarquer des autres acteurs du marché en attribuant à ses produits des performances supérieures. Ces capacités techniques sont vendues par les ingénieurs d’affaires des sociétés d’informatique à leurs homologues informaticiens des sociétés clientes, souvent décideurs prépondérants des investissements dans ce domaine. Ils partagent non seulement un langage commun, mais aussi des représentations, voire des croyances communes au sujet des possibilités des Systèmes d’Information.

La place grandissante des projets de data mining, en cherchant à améliorer la connaissance sur les clients à partir des informations stockées dans la base de données, aboutit à une représentation de ce processus [Van Berten, 2005] représenté Figure 15.

La Figure 15 schématise la place et la fonction des outils algorithmiques.

Figure 15 Le processus de data mining 10000101 01011101 10011011 11010100 10000101 01011101 data2 variable2 Base de données data1 datan

PROCESSUS de DATA MINING

algorithme variablen

variable1

EXPLICATION D’UNE VARIABLE OU DES RELATIONS ENTRE

VARIABLES

GROUPES HOMOGENES clients, produits, transactions

MODELE DESCRIPTIF

MODELE PREDICTIF

octets

STATISTIQUES PROBABILITES

La recherche des corrélations entre données peut s’avérer très simple et être donc accessible à tous les acteurs de l’organisation, mais elle peut se révéler également extrêmement complexe nécessitant des compétences en statistiques difficiles à mettre à la disposition des services de gestion opérationnelle.

Pour éviter ces difficultés, la sélection des variables doit rester simple et limitée pour que les algorithmes soient facilement utilisables.

Valoriser la relation qu’une enseigne va entretenir avec ses clients devient une nécessité. Le but premier est de fidéliser ce client car il est souvent admis qu’un client fidélisé fait partie de l’actif de la société. Lorsque cela se traduit dans la réalité en millions de clients, la fidélité à la marque, que ce soit pour un produit ou pour un distributeur, a une valeur réelle. Cette clientèle stable, dont le coefficient moyen de renouvellement est connu fait alors “partie des actifs”, même si cette notion n’est pas valorisée au bilan comptable.

Les études d’image et de notoriété des marques vont dans le même sens. Donner une estimation de la valeur d’une marque équivaut à traduire ce concept d’actif client (asset value of the customer) dans la réalité économique des organisations.

Dans cette approche, l’hypermarché n’est plus le dernier maillon de la chaîne de la valeur mais un acteur important des actes de dépenses quotidiennes des consommateurs, c’est-à-dire un fournisseur de produits et de services dont le modèle d’entreprise est orienté vers le client et qui apporte de la valeur par la connaissance qu’il possède sur ce dernier.

La Gestion de la relation-client, déjà abordée, vient de l’évolution de ce paradigme qui n’ignore plus le Client au profit d’un marché de masse, mais le considère comme une vraie entité individualisable et porteuse de valeur.

C’est là une évolution considérable de la représentation qu’ont les distributeurs du marché mais surtout d’eux-mêmes. Il s’agit de passer d’une activité n’ajoutant qu’une faible valeur (voire pas de valeur du tout) aux produits lors de leur diffusion, à la création d’un "portefeuille" de clients fidèles.

La matérialisation de cette fidélité virtuelle utilise un support d’information entre le distributeur et le client qui peut être par exemple la carte de fidélité ou un code personnel d’accès à des services en ligne.

Améliorer la connaissance des clients, leur nombre, leur fidélité et leur profitabilité nécessite également de bien connaître leurs besoins exprimés ou implicites. Les variables ainsi collectées au niveau des foyers ou des individus peuvent faire entrer les distributeurs qui utilisent ces bases de données dans un nouveau modèle d’entreprise qui n’est plus celui du marché de distribution de masse.

Cet objectif d’entreprise ne peut être satisfait que si les informations collectées sur les clients sont exactes, précises et utilisées à bon escient.

La relation-client étant au cœur du modèle, le choix des connaissances élémentaires pour la développer oriente le recueil des variables utilisables. Cette manipulation va permettre de développer des connaissances sur chaque client.

Ce choix des variables dépend aussi des types d’algorithmes disponibles auprès des sociétés de service et de développement de logiciels.

Les distributeurs sont tributaires des fournisseurs de logiciels pour leur gestion des bases clients. Ces moyens informatiques, dont l'interface vers l'utilisateur est de plus en plus simple à utiliser, devraient leur permettre de gérer directement leurs propres fichiers clients, plutôt que d’en sous-traiter la gestion à des sociétés tierces. Les projets de data mining dans la distribution s’orientent vers la tenue et l’usage en interne de ces bases de clients pour fournir aux responsables opérationnels des modèles utiles à leurs pratiques.

Parmi les algorithmes brièvement introduits au chapitre 3 certains sont particulièrement adaptés au secteur de la distribution.

4.1.1 Capacités des algorithmes de segmentation

Avec les algorithmes des centres mobiles, la base de données peut être divisée en groupes, mais il serait utile de savoir combien de groupes nettement séparés existent dans la base de données.

L’idéal serait de représenter en deux dimensions un nombre restreint de clusters le plus possible éloignés les uns des autres et regroupant des individus qui se ressemblent beaucoup. On voit à l’évidence que la question est difficile pour la grande distribution où les variables doivent décrire des millions de personnes qui vont acheter des centaines de milliers de produits différents. Les logiciels de data mining vont déterminer, sur la base de ces algorithmes, des clusters dont le nombre doit être fixé par les contraintes managériales. Dans la grande distribution, il est théoriquement possible, étant donné le grand nombre de variables définissant chaque client, d'avoir autant de clusters que de personnes à y regrouper. Le nombre des actions de marketing direct qu'une enseigne peut gérer fixe donc la limite des clusters à obtenir.

Le statisticien doit alors obligatoirement établir une requête pertinente, guidée par les capacités de traitement ultérieur des résultats par les praticiens.

Les auteurs sont partagés sur les applications possibles à différents domaines. Si certains sont réservés et déclarent que “la clusterisation est une méthode non seulement subjective mais qui donne en plus des solutions sans pertinence”[Fitzpatrick, 2001], d’autres intègrent ces causes d’approximation. Ils partent d’emblée d’un domaine de définition volontairement subjectif, dont le degré d’approximation est connu, mais dont le résultat reste utilisable (Cf. §5.4.2). De plus, bien que l’intérêt en termes statistiques soit réel, cela ne signifie pas que les clusters les plus gros sont les plus riches en informations pertinentes pour la connaissance-client. Il ne manque pas d’exemples où des grands succès marketing proviennent de niches qui auraient échappé à toute étude statistique, aussi élaborés qu’eussent pu être les algorithmes utilisés.

4.1.2 Variables client, algorithmes et grande

distribution

Pour mieux visualiser la place relative de ces trois éléments, la Figure 16 ci-dessous a été construite à partir des entretiens réalisés chez Carrefour et de la participation à un séminaire offert par IBM France. On y représente un processus chronologique de data mining avec au départ :

¾ la base de données clients qui contient les informations récupérées sur le formulaire de demande de carte de fidélité et le résultats de son analyse statistique (segmentation, tableau de bord).

¾ les études de marché réalisées par les panélistes et les agences d'enquêtes.

Le schéma de l'engrenage représente le traitement algorithmique des données précédentes. Il provient d'un document récupéré lors d'un séminaire organisé par IBM en 2004 lors de la promotion de sa base de donnée DB2 auprès de responsables informatiques et de chercheurs. Les participants ont été initiés à l'utilisation des algorithmes de data mining. Cette formation insista sur les fonctionnalités de l'outil OLAP (On Line Analytical Processing), sensé aider la prise de décision à partir des clusters générés par les algorithmes.

La flèche dirigée vers le bas représente l'utilisation par le marketing mix des tableaux produits avec l'outil OLAP après traitement par data mining des bases.

Les autres flèches orientent vers le but à atteindre sans indiquer les voies à emprunter pour y parvenir.

Cette figure pose le problème de l'usage du data mining en termes chronologiques et topographiques : quand et où doit-on utliser le data mining?

Figure 16 Data mining et Distribution FIDELITE tableau de bord • TB magasins • TB directionTB pour client segmentation • Gros clients • Bons clients • RéguliersOccasionnels CA database Prévisions NOM AGE + sit.famille

ADRESSE TEL EMAIL PROFESSION CAT.SOC.PRO. ENFANT AGE SEXE

HABITAT

CARTES CONCURRENCE CENTRES INTERET x 12 AUTRES SERVICES

Marketing Mix prix, produit >>marques emplacement magasin

promotion>>catalogues personnes, processus

PROCESSUS de DATA MINING

Base de données clients EXPOSITION AUX PROMOTIONS CAMPAGNE DE COMMUNICATION

ATTRACTION VERS MAGASIN CHOIX MEDIA SAISONNALITE POINTS DE VENTE Panélistes + Agences ALGORITHMES

4.1.3 Champ d’application

Les outils algorithmiques ainsi classés, les conclusions des auteurs sur ce sujet concordent sur l’inadaptation partielle ou totale de la plupart d’entre eux à l’exploitation des connaissances assemblées sur les clients.

Les algorithmes sont des outils descriptifs et prédictifs puissants et efficaces qui intègrent, après un traitement préparatoire des données, tous les cas possibles, ne laissant pas ou peu de place au hasard à condition que les systèmes étudiés soient simples et que les variables aient un comportement linéaire, c’est-à-dire prévisible.

Ce n’est évidemment pas le cas des clients qui fréquentent les hypermarchés. Ces outils analytiques se révèlent erronés lorsqu’un cas non prévu se présente et les met en défaut. La limite est la même que celle donnée par Popper [1995] à la méthode inductive. L'induction, à la base des algorithmes de data mining, les élimine des outils uniques de l'extraction de connaissances. Ils ne peuvent servir qu'en combinaison avec d'autres outils.

Les systèmes complexes comme le secteur de la distribution sont riches en interactions qui génèrent des situations nouvelles imprévisibles, qui se prêtent mal à une simplification par segmentation. Pour essayer de conserver l’usage des outils algorithmiques en gestion, il faudrait supprimer ceux dont la complexité est exponentielle. Cela déplacerait le problème, le ramenant à justifier le choix des algorithmes ou, en pratique, à éliminer les problèmes de complexité trop grande, ou encore à préparer (avec d’autres algorithmes !) l’information avant de la traiter.