• Aucun résultat trouvé

Le data mining

Dans le document Édition 2005 (Page 151-155)

Le terme data mining a pris son essor vers 1995 ; mais les techniques sous-jacentes ont, pour certaines, plusieurs décennies. Les outils de data mining utilisent les mêmes fondements théoriques que les techniques statistiques traditionnelles. Ils s’appuient sur des principes relativement similaires avec un zeste d’intelligence artificielle et d’apprentissage auto-matique. Ils correspondent à une avancée technologique, qui doit permettre de faire face au volume croissant des données. L’émergence de ces outils vient de l’évolution conjuguée des techniques statistiques, des capacités des logiciels de gestion de bases de données et des algorithmes d’apprentissage automatique.

Les outils de data mining construisent des modèles de manière plus ou moins interactive avec l’utilisateur. Cette notion de processus et d’interac-tivité est bien illustrée par la définition de Michel Jambu dans son ouvrage Introduction au Data Mining : « Le data mining est un processus d’analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d’activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur-mesure dans l’intérêt de l’activité dont ils ont la charge et de l’entreprise pour laquelle ils travaillent. »

Les automatismes des outils de data mining s’appuient sur l’intégration de tests statistiques et d’algorithmes de choix des meilleures techniques de modélisation en fonction des caractéristiques du cas. L’expertise statistique et le processus sont ainsi codifiés dans le produit. Le logiciel de data mining prend en charge de manière transparente certains choix intermédiaires, notamment en ce qui concerne la discrétisation des varia-bles, la technique de modélisation ou son paramétrage. Il autorise ainsi les utilisateurs des départements fonctionnels de l’entreprise, comme les chargés d’études, les contrôleurs de gestion, les responsables commer-ciaux, les ingénieurs, etc., à mieux connaître leurs données, sans pour

04-Chapitre 4 Page 128 Mardi, 7. septembre 2004 11:20 11

Chapitre 4 – La connaissance du client

Les outils de data mining apportent également un gain important de productivité et de réactivité dans l’analyse. En effet, ils offrent la possibi-lité aux utilisateurs métier de réaliser de manière autonome leurs propres modèles sans passer par des tiers.

Les techniques de data mining sont relativement nombreuses :

• raisonnement à base de cas ;

• agents intelligents ;

• arbre de décision ;

• moteur d’association ;

• algorithmes génétiques ;

• réseaux bayésiens ;

• réseaux de neurones.

Nous limiterons notre présentation à celles qui s’appliquent le plus souvent dans la gestion de la relation client. Il faut seulement retenir que ces différentes techniques se distinguent selon la lisibilité du modèle et la puissance de prédiction. Plus un modèle prend une forme simple, plus il sera facile à comprendre mais moins il sera capable de prendre en compte des dépendances subtiles ou trop variées (non linéaires). Le schéma ci-dessous illustre ce compromis.

Les arbres de décision et les bases de règles sont très faciles à interpréter, mais ils ne reconnaissent que des frontières nettes de discrimination. Les grilles de score et, plus spécifiquement, les régressions logistiques sont un peu plus fines, mais perdent un peu en lisibilité. Les réseaux de neuro-Figure 4-8 : Carte de positionnement des techniques de data mining

04-Chapitre 4 Page 129 Mardi, 7. septembre 2004 11:20 11

Partie I – Définition et périmètre du CRM

nes et les réseaux bayésiens présentent souvent un pouvoir prédictif élevé. Néanmoins, ce progrès entraîne une perte de lisibilité, compte tenu de la complexité du modèle mathématique sous-jacent.

Cette relative antinomie entre lisibilité et puissance a un impact fort sur le type d’utilisateur. Ainsi, les arbres de décision, de par leur forte lisibi-lité, s’adressent davantage à des utilisateurs métier. Au contraire, les réseaux bayésiens ou de neurones nécessitent des experts de la modéli-sation, et s’appliquent dans des domaines où la lisibilité est moins impor-tante, comme l’analyse du profil sur Internet.

Nous allons brièvement illustrer les apports des techniques à base d’arbre de décision. Les lecteurs intéressés pourront approfondir ce premier survol dans l’ouvrage Le Data Mining des mêmes auteurs chez le même éditeur.

Les arbres de décision

Un arbre de décision est un enchaînement hiérarchique de règles logiques construites de manière automatique à partir de la base de données. Comme dans les modèles de régression développés précédemment, il s’agit d’asso-cier une variable cible, quantitative ou qualitative, et de rechercher quelles sont celles qui contribuent à l’apparition de la variable cible. Pour simplifier, le principe de construction d’un arbre de décision consiste à utiliser les variables et leurs modalités pour subdiviser progressivement l’ensemble de la base de données en des sous-ensembles de plus en plus fins.

À partir de l’arbre de décision obtenu, il n’est guère difficile de déduire des règles. Elles décrivent, sous la forme d’un système logique, le ou les chemins du raisonnement pour optimiser l’apparition de la variable cible.

La liaison entre deux niveaux peut se comparer à un ET logique et donc se lire de la façon suivante :

La forme arborescente des arbres de décision s’obtient par le découpage successif de la base en sous-ensembles par une séquence de décisions qui s’appuient sur l’identification du meilleur critère de segmentation. L’ensemble d’origine, où sont présents tous les individus de la base, est appelé le nœud racine. Celui-ci est décou-pé de manière successive, en des sous-ensembles, appelés nœuds intermédiaires.

Sur chaque nœud, une nouvelle évaluation est faite pour le découper en des sous-ensembles. Les nœuds terminaux sont appelés des feuilles.

04-Chapitre 4 Page 130 Mardi, 7. septembre 2004 11:20 11

Chapitre 4 – La connaissance du client

régions, le code segmentation permet d’anticiper la clôture. La construc-tion des liens logiques entre les variables structure la réflexion sur le phénomène à étudier.

L’avantage principal des systèmes à base d’arbres de décision est sans conteste la lisibilité du modèle construit. Tout le monde comprend une règle de type : Si... Alors. Cette formulation sous forme de règles facilite le travail de validation et de communication du modèle.

Comme l’illustre le graphique ci-dessus, les arbres de décision ont un formalisme de restitution simple et facile à lire. Il est par ailleurs possible à chaque niveau de l’arbre de construire une démarche de découverte par un simple clic de souris pour apprécier les impacts des autres variables. Les produits à base d’arbres de décision sont simples d’utilisation. Ils sont souvent très visuels et offrent une prise en main de manière très intuitive.

Après une formation d’une demi-journée à une journée, il est possible de confier un logiciel à base d’arbres de décision à un utilisateur métier.

En synthèse, on peut dire que les techniques de data mining, de par leurs caractéristiques spécifiques, à savoir leur universalité, leur auto-organisa-tion, leur facilité, leur puissance et leur volume, apportent une aide aux hommes de marketing et de service client pour comprendre le comporte-ment des clients. Ils sont un moyen d’augcomporte-menter rapidecomporte-ment le capital information de l’entreprise.

L’analyse d’un téra octet nécessiterait plusieurs années de travail d’un statisticien. Même si les travaux de modélisation sont généralement effec-Figure 4-9 : Arbre d’induction sous Alice d’ISoft

04-Chapitre 4 Page 131 Mardi, 7. septembre 2004 11:20 11

Partie I – Définition et périmètre du CRM

tués sur une partie de la base de données, la croissance des données et l’instabilité des comportements est de plus en plus forte. La possibilité d’extraire des règles de manière automatique est l’un des moyens de faire face à cette croissance exponentielle des bases de données. De plus, les automatismes dans les analyses permettent d’en démultiplier le nombre.

Le développement du data mining est souvent freiné par la difficulté d’accès aux données, la charge de travail pour préparer la base d’analyse et la mauvaise qualité des données. De nouveaux outils sont apparus sur le marché pour préparer, qualifier et transformer ces données. Ces outils de data morphing automatisent ces tâches amont de préparation avec des outils pour suivre de manière visuelle les étapes de transformation, ou utilisent des algorithmes spécifiques pour discrétiser et combiner les modalités.

Dans la réussite d’un projet CRM, le data mining est souvent le vecteur d’innovation qui permet de mettre en évidence les apports du service client dans la fidélisation, ou de l’entrepôt de données dans la compré-hension du comportement client. Le data mining est un élément essentiel pour développer les retours sur investissement.

Dans le document Édition 2005 (Page 151-155)