Data Mining
1 - Introduction au data mining
Françoise Soulié Fogelman francoise@kxen.com
Master MI2 Pro EID- Université Paris 13 Data mining et Business Intelligence FDON
KXEN-Confidential 2
Data mining et Business Intelligence - FDON
KXEN-Confidential 3
Agenda
Le data mining dans l’industrie
Quelques exemples
Le data mining dans le SI de l’entreprise
Le marché et les acteurs du data mining
La méthodologie de mise en œuvre
KXEN-Confidential 4
L’Informatique Décisionnelle ou Business Intelligence Le data mining fait partie de l’informatique décisionnelle
(ou Business Intelligence – BI)
Predictive Business Intelligence
= Data mining Business Intelligence
KXEN-Confidential 5
L’Informatique Décisionnelle ou Business Intelligence
Exploiter les données du passé pour
■Comprendre le passé
■Prévoir l’avenir
Business Intelligence
Business Intelligence
prédictive
KXEN-Confidential 6
L’Informatique Décisionnelle ou Business Intelligence
Le reporting
■N’est « que » un mode de présentation des données
■Les données sont normalisées
■Permet de constater ce qui s’est passé
■L’intelligence est fournie par l’utilisateur qui peut
Explorer les données (Olap)
Analyser les informations présentées dans les tableaux de bord
En tirer les conclusions pour définir les meilleures actions
■Permet d’agir en réaction au passé
■Les informations peuvent être longues à obtenir
■Apporte une « valeur » à l’entreprise difficile à mesurer
L’analyse prédictive
■Fournit des «connaissances», i.e.
des informations non directement apparentes dans les données
■Les données sont « à plat »
■Permet d’exploiter les données du passé pour faire des prévisions sur ce qui est susceptible de se passer dans le futur
■L’intelligence est fournie par l’outil data mining
■Les résultats sont directement exploitables dans des actions CRM (marketing par exemple) en mode pro-actif
■C’est un facteur majeur d’augmentation des revenus
Il est facile de construire un business case
Reporting Analyse Analyse prédictive
KXEN-Confidential 7
L’Informatique Décisionnelle ou Business Intelligence
Trois fonctions
KXEN-Confidential 8
Le data mining … est à l’ordre du jour aujourd’hui
D’après : Rakesh Agrawal, Microsoft Search Labs, KDD’06, Philadephia, August 2006
KXEN-Confidential 9
Le data mining … hier
D’après : Andrew Moore, Auton Lab & Google, KDD’06, Philadephia, August 2006
KXEN-Confidential 10
Le data mining … aujourd’hui
D’après : Andrew Moore, Auton Lab & Google, KDD’06, Philadephia, August 2006
KXEN-Confidential 11
Le data mining … aujourd’hui ?
Deux jours après
5 000 colonnes
KXEN-Confidential 12
Le data mining … aujourd’hui
Ce qu’on voit déjà
■ Masses de données
Milliers de variables, 10-100 millions de lignes
■ Beaucoup de modèles
100 – 1000 modèles / an / semaine / jour
■ Ressources limitées
Quelques utilisateurs (10 – 30 ?)
… généralement dans un secteur de l’entreprise
■ Marketing, Risque …
Ce qu’on commence à voir
■ Des initiatives à l’échelle de l’entreprise
Conception, production, vente, maintenance, service client, marketing
■ Des ressources à l’échelle de l’entreprise
Beaucoup d’utilisateurs (100 – 1000 )
… ce qui va donner une nouvelle dimension au data
mining
KXEN-Confidential 13
Le data mining … est un investissement rentable
D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006
KXEN-Confidential 14
Le data mining … est un investissement rentable
D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006
KXEN-Confidential 15
Le contexte
Le data mining est un domaine où
■La recherche est active depuis très longtemps
Recherche universitaire – Communauté du Machine Learning Labos mixtes
– Google, Microsoft et Sun créent le RAD Lab de l’UC de Berkeley
» Reliable, Adaptive and Distributed Systems, ou RAD
» Financement de 7,5 millions de dollars
■L’exploitation industrielle explose
Les entreprises de pointe (Microsoft, Yahoo !, Google, Amazon …) – Yahoo ! « manages many of the largest and richest data repositories in the world,
and researchers mine insights from these giant collections » Les banques et les opérateurs téléphoniques ont tous mis en œuvre
– Des bases de données / data warehouses pour recueillir les données clients – Des méthodes data mining pour exploiter ces données
» Score d’octroi de crédit, ciblage des campagnes … Les industries de production manipulent
– Des gros volumes de données
– Utilisent la méthodologie SixSigma, qui s’appuie sur données et statistiques
L’exploitation industrielle du data mining impose des besoins & contraintes particuliers
KXEN-Confidential 16
Le contexte industriel
Des sources de données nombreuses
■ Volume des données : double chaque année
■ Sources : hétérogènes, incohérentes
Le nombre de décisions prises augmente sans cesse
■ Qualité des décisions prises : dépend des analyses menées
■ Coût / bénéfice d’une seule décision : peut être très grand
■ Décision en temps réel « au fil de l’eau » : nécessaire
Le nombre de modèles à produire augmente aussi
■ Capacité à produire des modèles : réduite
■ Disponibilité des experts : goulet d’étranglement
Des utilisateurs – et des besoins – variés
■ Utilisateurs : veulent répondre par eux-mêmes à leurs questions, sans dépendre d’experts ni être obligés d’en devenir eux-mêmes
Le process data mining doit être intégré au SI
■ Méthodologie de mise en œuvre : globale
■ Industrialisation / déploiement : facile
■ Contrôle et suivi des performances : automatisé
KXEN-Confidential 17
Le contexte industriel
Le nombre de modèles nécessaires
■ Augmente constamment
Vodafone estime son besoin à 716 modèles / an
XX produit 800 modèles / semaine
■ … mais la plupart des modèles ne sont pas produits …
Le nombre d’experts est limité
■ Le nombre de modèles produits par chaque expert doit augmenter
■ Les modèles doivent pouvoir être produits par les utilisateurs métier
La volumétrie des données augmente
■ “The cost of collecting, transmitting, and storing data has dropped so much that we need adequate tools to keep up”
Motorola
■ Il faut être capable de tenir de très gros volumes de données
100 M de lignes, 5 000 variables
Ce qui exclue de dupliquer les données
KXEN-Confidential 18
Le contexte industriel
D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006
KXEN-Confidential 19
Le contexte industriel
Les utilisateurs sont experts de leur métier : ils savent
■Où se situent les problèmes, quelles sont les questions clés à résoudre
■Quelles sont les données utilisées / générées par leur activité
■Apprécier la valeur métier du résultat d’un modèle prédictif qu’on leur fournit
Les utilisateurs ne sont pas des experts statisticiens : ils ne savent pas
■Décider quel algorithme il faut utiliser dans quel cas
D’ailleurs, la nature de l’algorithme est sans importance pour eux
■Manipuler les données
■Sélectionner / coder les variables de façon statistiquement efficace
Les données peuvent être de mauvaise qualité : outliers, données manquantes
■“Décoder” les résultats d’un modèle
Le modèle doit être explicatif
■Évaluer la validité statistique d’un résultat
KXEN-Confidential 20
Le contexte industriel
L’analyse prédictive n’est pas assez utilisée
Millions de décisions journalières Millions de d Millions de déécisionscisions
journali journalièèresres Doigt Mouillé
Impressions Publications OLAP &
Reporting Excel
Analyse prédictive
KXEN-Confidential 21
Agenda
Le data mining dans l’industrie
Quelques exemples
Le data mining dans le SI de l’entreprise
Le marché et les acteurs du data mining
La méthodologie de mise en œuvre
KXEN-Confidential 22
Le churn
Le churn dans les telecom
Un client part à la concurrence Questions
Evaluer et suivre le coût du churn
■ Comment ?
Réduire le churn
■ Qui doit-on retenir ?
■ Pourquoi ?
■ Comment ?
ARPU : Average Revenue per User
KXEN-Confidential 23
Le churn
1.Evaluer et suivre le coût du churn
■ Méthode 1
On évalue simplement la perte de CA sur 1 an
■ Méthode 2
On ajoute aussi les coûts d'acquisition (dépensés pour rien)
(Mais on a déjà commencé à émettre des factures mensuelles … )
On peut produire un TdB de suivi du churn selon plusieurs axes
■ Type de forfait, montant de la facture mensuelle, géographie, temps …
KXEN-Confidential 24
Le churn
2.
Réduire le churn
Faut-il réduire le churn ?
Tous les clients ne sont pas semblables …
■ Il faut segmenter les clients
Nombre CA 31%
36%
33%
70%
26%
(96%) 5%
15%
80%
Nombre CA
20%
50%
30%
55%
30% 15%
5%
25%
70%
Distribution
Distribution … … Banque ... Banque ...
Marge Marge
KXEN-Confidential 25
Le churn
2.
Réduire le churn
Tous les clients … ne sont pas à la même étape dans leur cycle de vie
■ Il faut prévoir ce que va faire un client
CA initial Augmentation du CA sur produit initial 1
Cross selling 2
Augmentation des marges 2
(D’après Frederick F. Reichheld "The Loyalty Effect" - Harvard Business School Press, 1996) 1 2
3 4
Acquisition Développement Rétention Win-back
Prescription 2
CA
Durée de vie de la relation client Coûts
0
1
KXEN-Confidential 26
2.
Réduire le churn
Tous les clients … n’ont pas la même valeur (Life Time Value)
■ Il faut calculer la Valeur Client
Le churn
Revenu généré par le client
Prospect Client Sponsor
Cycle de vie du client Churn Break
even
0
Coûts
KXEN-Confidential 27
2.
Réduire le churn
Tous les clients … ne doivent pas être traités de la même façon
www.1to1.com
■ Il faut personnaliser les actions
Valeur client
Le churn
Nb de clients
2005 2006
KXEN-Confidential 28
Le churn
2.
Réduire le churn
■ Segmenter les clients
Produire les segments
Caractériser les segments
KXEN-Confidential 29
Le churn
2.
Réduire le churn
■ Prévoir ce que va faire un client
Pourquoi
Produire des listes de ciblage
KXEN-Confidential 30
Le churn
Qu’apportent les analyses ?
■Connaissance client
Comprendre ce qui différencie les clients
Détecter les leviers d’actions
■Fournir les informations nécessaires pour les actions
Gagner en efficacité
Exemple : campagne ciblée / non ciblée
On peut aussi réduire la taille de la cible (et donc les coûts) tout en maintenant le nombre de réponses
KXEN-Confidential 31
Système de recommandation
Aider le client à trouver ce qu’il recherche
www.Amazon.fr
KXEN-Confidential 32
Système de recommandation
… ce qui nécessite de faire beaucoup de modèles
http://blog.recommenders06.com/wp-content/uploads/2006/09/bennett.pdf
KXEN-Confidential 33
Système de recommandation
… et augmente la satisfaction des clients
http://blog.recommenders06.com/wp-content/uploads/2006/09/bennett.pdf Satisfaction
Relative Cost
Recs Interest Search NR
KXEN-Confidential 34
Exploiter les données d’un site
Données dynamiques Date d’entrée Lien cliqué Navigateur URL d’origine Temps passé …
Données dynamiques Type de projet Montant demandé Mensualité …
Données statiques Nom, prénom Adresse Adresse email Date de naissance Situation familiale … ID Client Date de création En-cours Litiges …
Base Clients
Base Clients / Prospects
KXEN-Confidential 35
Exploiter les données d’un site
Vente assistée sur le Web Score d’appétence
■ Temps réel
■ Proposition
■ Orientation vers l’agent compétent Résultats
■ Taux d’acceptation / taux « naturel »
■ Taux d’achat
■ Business case
Les informations représentées ici sont fictives
http://www.kxen.com Variables
Nb visites / an 1 000 000
Config PC supportée 80% 800 000
Filtrage 30% 240 000
Proposition (modèle - 3 déciles) 30% 72 000
Taux d'acceptation 17% 12 240
Interaction menée à terme 60% 7 344
Acheteurs 5% 367
Valeur de transaction 1 000 € 367 200 € Exemple
0 2 000 4 000 6 000 8 000 10 000 12 000 14 000
-3 sigma -2 sigma 1 sigma 2 sigma 3 sigma 0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
Nb visiteurs Taux de conversion
KXEN-Confidential 36
Exploiter les données d’un site
Modèle d’attrition des clients de la banque en ligne
■ Attrition est défini comme “inactivité de plus de 6 mois”
■ Modèle produit en 3 heures
200 variables réduites à 40
■ 44 % des clients attrités détectés dans le 1erdécile
Caractérisation des clients attrités
■ 1 million de clients scorés en 43 secondes (en batch sur Teradata) Les informations représentées ici sont fictives
0%
20%
40%
60%
80%
100%
10 % 20 % 30 %
40 % 50 %
60 % 70 %
80 % 90 %
100 % 0 2 4 6 8 10
1 2 3 4 5 6 7 8 9 10
Décile
Ancienneté
Ancienneté Banque en-ligne Ancienneté Banque
KXEN-Confidential 37
Campagne email
Optimisation de campagnes d’un site e-commerce
■ Combien de jours après l’achat envoyer l’email
Appétence cross-enseigne pour campagnes d’acquisition
Les informations représentées ici sont fictives
Nb jours avant email
Sans ciblage Avec ciblage
Nb emails envoyés 51 968 29 999
Ouvertures totales
Nombre 18 890 34 179
Taux 36,35% 113,93%
Ouvertures uniques totales
Nombre 11 621 16 896
Taux 22,36% 56,32%
Clics totaux
Nombre 3 222 9 538
Taux 6,20% 31,79%
Clics uniques totaux
Nombre 2 619 6 879
Taux 5,04% 22,93%
KXEN-Confidential 38
Agenda
Le data mining dans l’industrie
Quelques exemples
Le data mining dans le SI de l’entreprise
Le marché et les acteurs du data mining
La méthodologie de mise en œuvre
KXEN-Confidential 39
Data mining & SI - CRM
CRM Analytique Back-Office
Base de Données Clients
Data Mining ERP
Bases Legacy
CRM Opérationnel
Marketing
Ventes
Service Clients Reporting Olap
Canaux de contact
Client
Clients Courrier SMS E-mail
Question- naires Fax Internet Téléphone
Fichiers externes
Production Fabrication
Conditionnement
Informatique
SAV
Distribution R&D
Expédition
KXEN-Confidential 40
Data mining & SI
Intégrer les données
■ Définir un référentiel
■ Mettre en cohérence et nettoyer / dédupliquer
… pour construire la « vue 360 ° » du client
… pour intégrer les informations de tous les processus
Produire des tableaux de bord
■ Pour permettre au management et aux opérationnels d'être réactifs
Produire des analyses prédictives
■ Pour permettre à l'entreprise d'être plus réactive mais également pro-active
Sous les contraintes …
■ Capacité à produire des Tableaux de Bord et Analyses en très grand nombre pour servir tous les utilisateurs métier
■ Rapidité de mise en oeuvre
■ Facilité de prise en main / mise en oeuvre par les utilisateurs métier
■ Production des résultats "en temps réel" pour action immédiate
KXEN-Confidential 41
Les données
Propensité d’achat par produit, par canal Scores de risque, de churn ...
« Share of wallet » Life Time Value
Aspirations Plans futurs Attitudes
Comportement de consommation Préférences de canal Position dans le cycle de vie Comportement de navigation
Nom, prénom, adresse Sexe
Date de naissance Revenu
Transactions d’achats Click-stream Réponse aux campagnes Appel au centre d’appels Rendez-vous commerciaux
Exemple
La vue 360°du client
KXEN-Confidential 42
0 500 000 1 000 000 1 500 000 2 000 000 2 500 000 3 000 000
1 2 3 4 5 6 7 8 9 10
Top Ten 2005 2003 2001
0 20 40 60 80 100
1 2 3 4 5 6 7 8 9 10
Top Ten 2005 2003 2001
Les données
Les datawarehouses client
■ La taille (jusqu’à 100s TO) croit vite (X3 tous les 2 ans)
■ Investissements de 100s M$
■ Millions de clients & milliers de variables
Taille de la Base (TO) Nb de lignes, enregistrements ou objets (Millions)
D’après http://www.wintercorp.com
KXEN-Confidential 43
Les tâches
Gérer l’ensemble des données à travers tout le cycle de vie
Capturer les données
Nettoyer les données
■Mise en cohérence (référentiel)
■Déduplication
Enrichir les données
■Données externes
Constituer le DWH
■Données normalisées
Distribuer les données aux utilisateurs en fonction de :
■Leurs besoins
■Leurs droits
… le tout en respectant les contraintes
■Qualité
■Fréquence de rafraîchissement / temps de chargement
■Synchronisation
■Disponibilité temps réel si nécessaire
KXEN-Confidential 44
Data mining & SI
L’utilisation d’analyses prédictives permet de
■ Construire des Business Cases avant de lancer les actions marketing et commerciales et ainsi optimiser le ROI
■ Anticiper les événements importants
■ Comprendre les facteurs clés des comportements (clients, produits, …)
■ Produire des scores / segments enrichissant les rapports BI
■ Fournir en temps réel des éléments prédictifs directement exploitables
Le mouvement de l’historique vers le prédictif - du réactif vers le proactif est un mouvement de fond, qui ne pourra se produire que si
■ Les utilisateurs peuvent s’approprier les outils
Répondre seuls aux centaines de questions métier simples
Faire appel aux spécialistes datamining pour les questions complexes
■ Les analyses data mining sont produites
Industriellement, rapidement dans de véritables « usines à modèles », totalement intégrées au SI
KXEN-Confidential 45
Data mining & SI
“ The whole Corporation moves from Guess & Act
to
Test, Understand, Predict & Act ” Thomas Gith – Global Managing Partner Accenture
KXEN-Confidential 46
Agenda
Le data mining dans l’industrie
Quelques exemples
Le data mining dans le SI de l’entreprise
Le marché et les acteurs du data mining
La méthodologie de mise en œuvre
KXEN-Confidential 47
Les outils du marché
Concentration des acteurs & Intégration des outils
Enterprise Decision Management
Fair Isaac Sigma Dynamics Text Mining
Intelligent Results ClearForest
ThinkAnalytics IBM
Data-Mining Workbenches
SAS
SPSS Oracle Angoss
Teradata Unica Microsoft
Generation5 KXEN Automated Model
Development
Embedded Into DBMS
Advizor Solutions Spotfire
Data Visualization Chordiant
SSA SAP
Integrated With Operational Applications
Portrait
D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006
KXEN-Confidential 48
Agenda
Le data mining dans l’industrie
Quelques exemples
Le data mining dans le SI de l’entreprise
Le marché et les acteurs du data mining
La méthodologie de mise en œuvre
KXEN-Confidential 49
Enterprise Performance Management
Le projet data mining est un outil de production de valeur, il s’intègre donc à la EPM
Que faut-il ?
■Mesurer et analyser la performance
Les mesures doivent dériver de la stratégie et fournir les données critiques sur les processus clés
L’analyse fait appel aux données pour déterminer les tendances et les causes
■Données et analyse appuient les buts de l’entreprise
Planning, performance, amélioration des opérations, “best practices” &
benchmarks
■Un point clé dans l’amélioration de la performance vise à créer et utiliser des indicateurs de performance
■Les indicateurs de performance sont des caractéristiques mesurables des produits, services, processes, et opérations que l’entreprise utilise pour contrôler sa performance.
D’après http://www.quality.nist.gov/
KXEN-Confidential 50
Pourquoi une méthodologie ?
Le but est de
Obtenir la croissance, la profitabilité et la satisfaction client
… de façon consistente et continue
Une méthodologie est nécessaire pour accompagner ce processus continu
« Failing to plan is planning to fail » !
“You can’t manage what you don’t measure”
KXEN-Confidential 51
Méthodologies Data mining
http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm
KXEN-Confidential 52
Méthodologies Data mining
SEMMA (SAS)
■Méthodologie SEM
Les nœuds sont regroupés selon les phases
■Forte importance des phases
Sample et Explore
Choix d’algorithmes (Model)
■Industrialisation et déploiement pas couverts par la méthodologie
Il faut un projet ensuite
KXEN-Confidential 53
Méthodologies Data mining
CRISP-DM (SPSS)
■Développé en 2000, dans un projet Européen Esprit
■Une vraie méthodologie
Avec descriptions des tâches / livrables
Très détaillée sur l’analyse des besoins métier
Insiste sur l’importance de la documentation projet
■Forte importance des phases
Nettoyage des données et préparation
Choix d’algorithmes
KXEN-Confidential 54
Méthodologies Data mining
KXEN s’appuie sur la méthodologie DMAIC (Six
Sigma)
M4 - Create Analytical Data Set D3 - Develop
project charter D2 - Develop
process map
D
EFINEM
EASUREA
NALYZEI
MPROVEC
ONTROLD1 - Define &
prioritize needs
M3 - Develop Data collection plan M2 - Identify list
of possible variables M1 - Define
performance measures
A4 - Create final model A3 - Confirm
performance objectives A2 –
Refine model A1 - Produce first
model
I3 - Monitor performance I2 –
Industrialize solution I1 - Optimize
solution
C3 - Prepare &
implement transfer plan C2 –
Implement control plan C1 - Develop
control plan
KXEN-Confidential 55
Méthodologies Data mining
DMAIC est une méthode itérative
KXEN-Confidential 56
Méthodologies Data mining
DMAIC couvre toutes les phases du projet data mining
DEFINE MEASURE ANALYZE IMPROVE CONTROL
S E M M A
C R I S P - D M
KXEN-Confidential 57
Méthodologies Data mining
Productivité
■ Automatisation
Codage, pas de recherche d’algorithme, test intégré, debriefing intégré
Efficacité
■ Robustesse : Vapnik Méthodologie performante
■ DMAIC
Approche traditionnelle
Sélectionner Les variables Sélectionner
Les variables ComprendreComprendre
Question MétierQuestion Métier
Appliquer Appliquer Préparer les données
Préparer les données Construire Le modèle Construire Le modèle Tester
le modèle Tester le modèle
Approche KXEN