Data Mining
1 - Introduction au data mining
Françoise Soulié Fogelman
Master MI2R MICR Cours Fouille de Données
KXEN-Confidential 2
Agenda
z Le data mining dans l’industrie
z Le data mining dans le SI de l’entreprise
z Le marché et les acteurs du data mining
z La méthodologie de mise en œuvre
KXEN-Confidential 3
Le contexte z Le data mining est un domaine où
■ La recherche est active depuis très longtemps
Recherche universitaire
– Communauté du Machine Learning
Labos mixtes
– Google, Microsoft et Sun créent le RAD Lab de l’UC de Berkeley
» Reliable, Adaptive and Distributed Systems, ou RAD
» Financement de 7,5 millions de dollars
■ L’exploitation industrielle explose
Les entreprises de pointe (Microsoft, Yahoo !, Google, Amazon …)
– Yahoo ! « manages many of the largest and richest data repositories in the world, and researchers mine insights from these giant collections »
Les banques et les opérateurs téléphoniques ont tous mis en œuvre – Des bases de données / data warehouses pour recueillir les données clients – Des méthodes data mining pour exploiter ces données
» Score d’octroi de crédit, ciblage des campagnes …
Les industries de production manipulent – Des gros volumes de données
– Utilisent la méthodologie SixSigma, qui s’appuie sur données et statistiques
z L’exploitation industrielle du data mining impose des besoins & contraintes particuliers
Le contexte z Des sources de données nombreuses
■ Volume des données : double chaque année
■ Sources : hétérogènes, incohérentes
z Le nombre de décisions prises augmente sans cesse
■ Qualité des décisions prises : dépend des analyses menées
■ Coût / bénéfice d’une seule décision : peut être très grand
■ Décision en temps réel « au fil de l’eau » : nécessaire
z Le nombre de modèles à produire augmente aussi
■ Capacité à produire des modèles : réduite
■ Disponibilité des experts : goulet d’étranglement
z Des utilisateurs – et des besoins – variés
■ Utilisateurs : veulent répondre par eux-mêmes à leurs
questions, sans dépendre d’experts ni être obligés d’en devenir eux-mêmes
z Le process data mining doit être intégré au SI
■ Méthodologie de mise en œuvre : globale
■ Industrialisation / déploiement : facile
■ Contrôle et suivi des performances : automatisé
KXEN-Confidential 5
Les besoins
Le data mining est un outil de production de valeur z Améliorer la productivité z Simplifier l’utilisation z Assurer l’intégration z Maximiser le revenu z Contrôler les coûts
KXEN-Confidential 6
Besoins & contraintes Améliorer la productivité z Le nombre de modèles nécessaires
■ Augmente constamment
Vodafone estime son besoin à 716 modèles / an
XX produit 800 modèles / semaine
■ … mais la plupart des modèles ne sont pas produits …
z Le nombre d’experts est limité
■ Le nombre de modèles produits par chaque expert doit augmenter
■ Les modèles doivent pouvoir être produits par les utilisateurs métier
z La volumétrie des données augmente
■ “The cost of collecting, transmitting, and storing data has dropped so much that we need adequate tools to keep up”
Motorola
■ L’outil doit être capable de tenir de très gros volumes de données
100 M de lignes, 5 000 variables
Ce qui exclue de dupliquer les données
KXEN-Confidential 7
Besoins & contraintes Simplifier l’utilisation z Les utilisateurs sont experts de leur métier : ils
savent
■ Où se situent les problèmes, quelles sont les questions clés à résoudre
■ Quelles sont les données utilisées / générées par leur activité
■ Apprécier la valeur métier du résultat d’un modèle prédictif qu’on leur fournit
z Les utilisateurs ne sont pas des experts statisticiens : ils ne savent pas
■ Décider quel algorithme il faut utiliser dans quel cas
D’ailleurs, la nature de l’algorithme est sans importance pour eux
■ Manipuler les données
■ Sélectionner / coder les variables de façon statistiquement efficace
Les données peuvent être de mauvaise qualité : outliers, données manquantes
■ “Décoder” les résultats d’un modèle
Le modèle doit être explicatif
■ Évaluer la validité statistique d’un résultat
Besoins & contraintes Assurer l’intégration Pour produire le modèle prédictif il faut :
z Des données et donc pouvoir
■ Récupérer des données dans des sources multiples, disponibles dans le SI
■ Intégrer ces données dans un “fichier plat”
z La capacité à
■ Coder les données automatiquement
■ Calibrer les modèles rapidement
■ S’intégrer simplement dans le SI
Pas de modèle de données propriétaire
Capacité à lire tous les formats de données
Adéquation aux standards du data mining : PMML, JDM
KXEN-Confidential 9
Besoins & contraintes Assurer l’intégration Pour mettre en production le modèle prédictif il faut :
z Des données aux formats standard
■ Exporter les données (résultats) vers tous les formats du marché
■ … automatiquement
z Le modèle doit pouvoir
■ Être exporté vers les formats standards C, SQL, Java, PMML, UDF …
■ … automatiquement et complètement
z … ce qui permet une industrialisation facile Pour exploiter le modèle prédictif il faut pouvoir : z Intégrer le modèle exporté dans le processus
informatique d’exploitation
z Produire les résultats "en temps réel" pour action immédiate si nécessaire
z Contrôler au cours du temps
■ Valider la validité du modèle
Détection des déviations
■ Recalibrer facilement
KXEN-Confidential 10
Besoins & contraintes Maximiser le revenu z Le modèle prédictif doit fournir
■ Une qualité de prévision optimale
La qualité des modèles produits : ROI / modèle
… et garantie sur de nouveaux ensembles de données
■ La capacité à évaluer les
performances selon de multiples critères
Erreur de classification
Profit généré
AUC, GINI, …
■ La capacité à identifier les variables critiques
Actions à valeur ajoutée
KXEN-Confidential 11
Besoins & contraintes Contrôler les coûts
z Le TCO
*du data mining doit être évalué en tenant compte de :
■ La machine
Machine dédiée ou pas
Impact sur le DWH
■ L’espace disque
Duplication ou pas
■ Le coût de licence & de maintenance du produit
■ Les ressources
Coût / qualification
Formation
Support
■ La productivité
Production de modèles : nombre de modèles produits / personne / an
Exploitation de modèles : temps passé & ressources / modèle
* TCO : Total Cost of Ownership
Agenda
z Le data mining dans l’industrie
z Le data mining dans le SI de l’entreprise
z Le marché et les acteurs du data mining
z La méthodologie de mise en œuvre
KXEN-Confidential 13
Data mining & SI
CRM Analytique Back-Office
Base de Données
Clients
Data Mining ERP
Bases Legacy
CRM Opérationnel
Marketing
Ventes
Service Clients
Reporting Olap
Canaux de contact
Client
Clients
Courrier SMS E-mailQuestion- naires Fax Internet Téléphone
Fichiers externes
Production Fabrication
Conditionnement
Informatique
SAV
Distribution R&D
Expédition
KXEN-Confidential 14
Data mining & SI z Intégrer les données
■ Définir un référentiel
■ Mettre en cohérence et nettoyer / dédupliquer
■ … pour construire la « vue 360 ° » du client
z Produire des tableaux de bord
■ pour permettre au management et au CRM opérationnel d'être réactif
z Produire des analyses prédictives
■ pour permettre à l'entreprise d'être plus réactive mais également pro-active
z Sous les contraintes …
■ Capacité à produire des Tableaux de Bord et Analyses en très grand nombre pour servir tous les utilisateurs métier
■ Rapidité de mise en oeuvre
■ Facilité de prise en main / mise en oeuvre par les utilisateurs métier
■ Production des résultats "en temps réel" pour action immédiate
KXEN-Confidential 15 Pilotage
• Documents Multi- Rapports
La prise de décision Plusieurs axes
Nombre d’utilisateurs Olap
• Analyse multidimensionnelle Reporting
• Rapports paramétrés
• Rapports Ad Hoc
Pilotage pro-actif
• Souscription de Rapports en mode push
• Alerting mode événementiel
• Services de diffusion multi-canal
Data Mining
• Analyses avancées
• Analyses prédictives
Valeur pour l’entreprise
Volume donnéesde
Business Intelligence
La Prise de Décision Un processus encore artisanal
Millions de décisions journalières Millions de d Millions de déécisionscisions
journali journalièèresres Doigt Mouillé
Impressions Publications OLAP &
Reporting Excel
Analyse prédictive
KXEN-Confidential 17
Les données client
zPropensité d’achat par produit, par canal zScores de risque, de churn ...
z« Share of wallet » zLife Time Value
zAspirations zPlans futurs zAttitudes
zComportement de consommation zPréférences de canal
zPosition dans le cycle de vie zComportement de navigation
zNom, prénom, adresse zSexe
zDate de naissance zRevenu
zTransactions d’achats zClick-stream
zRéponse aux campagnes zAppel au centre d’appels zRendez-vous commerciaux
La vue 360°
du client
KXEN-Confidential 18
Les tâches Gérer l’ensemble des données client à travers tout leur
cycle de vie z Capturer les données clients z Nettoyer les données
■ Normalisation d’adresses, mise en cohérence
■ Déduplication
z Enrichir les données
■ Données externes
z Constituer la Base Clients (DWH)
■ Données normalisées
z Distribuer les données aux utilisateurs en fonction de :
■ Leurs besoins
■ Leurs droits
z … le tout en respectant les contraintes
■ Qualité
■ Fréquence de rafraîchissement / temps de chargement
■ Synchronisation
■ Disponibilité temps réel si nécessaire
KXEN-Confidential 19
Les tableaux de bord z Reporting
■ Tableaux de bord départementaux
■ Indicateurs pré-définis,
■ Rapports pré-définis
■ Support pour les utilisateurs métier
z Exemple
Reporting
Rapport Business Objects
Les tableaux de bord
z Olap
■ Possibilité d’exploration des données selon des axes d’analyse structurés en hiérarchies métier
■ Drill-down
■ Permettant de comprendre les phénomènes
■ Support pour des utilisateurs avertis
z Exemple
Olap
Rapport Hyperion
KXEN-Confidential 21
Les tableaux de bord z Pilotage
■ Tableaux de bord Entreprise
■ Indicateurs pré-définis
■ Rapports pré-définis personnalisés
■ Support pour la Direction
z Exemple
Pilotage
Siebel Analytics
KXEN-Confidential 22
Les tableaux de bord z Pilotage pro-actif
■ Des tableaux de bord
■ Personnalisés par rôle
■ Fournissant des alertes adaptées aux besoins métier
■ Support pour la Direction, les utilisateurs métier
■ Permettant de lancer des actions immédiates
z Exemple
Pilotage pro-actif
Dashboard Business Objects
KXEN-Confidential 23
Les tâches z Intégrer toutes les données
z Définir les indicateurs
■ Fiables, explicites, faciles et rapides à obtenir
■ Problème du choix de la granularité
z Définir les axes d’analyse
z Définir les rôles (profils utilisateurs)
■ Les droits d’accès
■ La personnalisation
z Mettre en œuvre les rapports
z Donner accès aux utilisateurs / rôle / canal z … le tout en respectant les contraintes
■ Qualité
■ Fréquence de rafraichissement / temps de chargement
■ Facilité d’emploi pour les utilisateurs
■ Adéquation au métier des utilisateurs
■ Nombre adequat de rapport («trop d’information tue l’information»)
■ L’utilisateur peut se passer « d’expert », il peut trouver l’information utile avec un temps d’apprentissage rapide
CRM Analytique – Réactif et pro-actif
z Le reporting
■N’est « que » un mode de présentation des données
■Les données sont normalisées
■Permet de constater ce qui s’est passé
■L’intelligence est fournie par l’utilisateur qui peut
Explorer les données (Olap)
Analyser les informations présentées dans les tableaux de bord
En tirer les conclusions pour définir les meilleures actions
■Permet d’agir en réaction au passé
■Les informations peuvent être longues à obtenir
■Apporte une « valeur » à
z L’analyse prédictive
■Fournit des «connaissances», i.e.
des informations non directement apparentes dans les données
■Les données sont « à plat »
■Permet d’exploiter les données du passé pour faire des prévisions sur ce qui est susceptible de se passer dans le futur
■L’intelligence est fournie par l’outil data mining
■Les résultats sont directement exploitables dans des actions CRM (marketing par exemple) en mode pro-actif
■C’est un facteur majeur d’augmentation des revenus
Il est facile de construire un business case
Reporting Analyse Analyse prédictive
KXEN-Confidential 25
L’analyse prédictive z Les analyses data mining permettent de :
■ Construire des modèles prédictifs
■ Intégrer des informations prédictives dans les états BI
■ Identifier et comprendre les variables significatives (« key drivers »)
■ Produire des listes pour les actions marketing, commerciales
■ Anticiper les résultats des actions et donc faire des business cases avant de les lancer
■ Produire des informations prédictives (e.g. scores) à la volée si nécessaire
Data Mining
KXEN-Confidential 26
L’analyse prédictive
KXEN-Confidential 27
L’entreprise prédictive
z The Analytic Enterprise
Predictive Analytics Predictive Analytics
Recommendations Recommendations
Scoring Scoring
Data Mining
Data Mining
Business Intelligence
OLAP
QualityData Query/
Report Data Warehouse OPTIMIZE
z Customer Retention z Product Affinities z Promotions z Demand Planning z Quality Improvement z Employee Utilization OPTIMIZE
OPTIMIZE z
z Customer RetentionCustomer Retention zz Product AffinitiesProduct Affinities z
z PromotionsPromotions zz Demand Planning Demand Planning z
z Quality ImprovementQuality Improvement zz Employee UtilizationEmployee Utilization
ENABLE
z Customer Interaction z Inventory Control z Supply Chain
Management z Quality Measurement z Employee Self Service ENABLE
ENABLE z
z Customer InteractionCustomer Interaction z
z Inventory ControlInventory Control z
z Supply Chain Supply Chain Management Management zz Quality Measurement Quality Measurement z
z Employee Self ServiceEmployee Self Service
UNDERSTAND z Customer Satisfaction z Product Revenue z Cost of Goods Sold z HR Turnover UNDERSTAND UNDERSTAND z
z Customer SatisfactionCustomer Satisfaction zz Product RevenueProduct Revenue z
z Cost of Goods SoldCost of Goods Sold zz HR TurnoverHR Turnover
Operational Systems
ERP
ERM WEB CRM
Source: Jack Noonan, CEO SPSS, 2002
L’entreprise prédictive
Productivité
37 38 39 40 41 42 43 44 45 46
pricepromoplaceproduct
455 23 456 13 457 235 458 38 REPORT
Exploration Métier Modélisation traditionnelle
Modélisation de masse
Analyses Automatisées
Analyses Embarquées
+
Performance de l’entreprise
Reporting
& OLAP Equipes statistiques
Equipes statistiques &
Utilisateurs métier
« Usine à modèles »
KXEN-Confidential 29
Conclusion z L’intégration d’analyses prédictives dans les rapports
BI permet au CRM analytique de
■ Construire des Business Cases avant de lancer les actions marketing et commerciales et ainsi optimiser le ROI
■ Anticiper les événements importants
■ Comprendre les facteurs clés des comportements clients
■ Produire des scores / segments enrichissant les rapports
■ Fournir en temps réel des éléments prédictifs directement exploitables
z Le mouvement de l’historique vers le prédictif; du réactif vers le proactif est un mouvement de fond z Cependant ceci ne pourra se produire que si
■ Les utilisateurs peuvent s’approprier les outils
Répondre seuls aux centaines de questions métier simples
Faire appel aux spécialistes datamining pour les questions complexes
■ Les analyses data mining sont produites industriellement, rapidement dans de véritables « usines à modèles », totalement intégrées au SI
KXEN-Confidential 30
Conclusion
“ The whole Corporation moves from Guess & Act
to
Test, Understand, Predict & Act ”
Thomas Gith – Global Managing Partner Accenture
KXEN-Confidential 31
Conclusion z « Data mining is a difficult subject
■ On the one hand it is … this thing that will tell you all sorts of wonderful facts that you never knew about your data.
■ On the other hand … it is this daunting thing that is difficult to approach, seems to require a PhD in statistics to use and ends up telling you stuff that you already know …
z I had always thought of data mining as a tool of last resort
■ when the data is too large or complicated, and nothing else seems to work, you resort to data mining to try and find something that you cannot see with the naked eye …
z … data mining is something that you should be doing early and often in your data exploration
■ "Exploratory Data Mining" … is possible and even easy, and … becomes accessible to the masses »
z … success
■ comes from powerful robust algorithms that do not require a specialist to tweak, high performance so that you can get results quickly and finally and most importantly, ease of use »
http://bandb.blogspot.com/2005/08/data-mining-insight.html
Agenda
z Le data mining dans l’industrie
z Le data mining dans le SI de l’entreprise
z Le marché et les acteurs du data mining
z La méthodologie de mise en œuvre
KXEN-Confidential 33
Les outils du marché
z Concentration des acteurs z Intégration des outils
KXEN-Confidential 34
Agenda
z Le data mining dans l’industrie
z Le data mining dans le SI de l’entreprise
z Le marché et les acteurs du data mining
z La méthodologie de mise en œuvre
KXEN-Confidential 35
Enterprise Performance Management z Le projet data mining est un outil de production de
valeur, il s’intègre donc à la EPM z Que faut-il ?
■ Mesurer et analyser la performance
Les mesures doivent dériver de la stratégie et fournir les données critiques sur les processus clés
L’analyse fait appel aux données pour déterminer les tendances et les causes
■ Données et analyse appuient les buts de l’entreprise
Planning, performance, amélioration des opérations, “best practices”
&benchmarks
■ Un point clé dans l’amélioration de la performance vise à créer et utiliser des indicateurs de performance
■ Les indicateurs de performance sont des caractéristiques mesurables des produits, services, processes, et opérations que l’entreprise utilise pour contrôler sa performance.
from http://www.quality.nist.gov/
Pourquoi une méthodologie ?
Le but est de
z Obtenir la croissance, la profitabilité et la satisfaction client
z … de façon consistente et continue
z Une méthodologie est nécessaire pour accompagner ce processus continu
« Failing to plan is planning to fail » !
“You can’t manage what you don’t measure”
KXEN-Confidential 37
Méthodologies Data mining
http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm
KXEN-Confidential 38
Méthodologies Data mining
z SEMMA
■ Méthodologie SAS-EM : les nœuds sont
regroupés selon les phases phases
■ Forte importance des phases Sample et Explore
■ Choix d’algorithmes nécessaire (Model)
■ Industrialisation et déploiement pas
vraiment couverts par la méthodologie et doivent être traités dans un projet ensuite
KXEN-Confidential 39
Méthodologies Data mining
z CRISP-DM – Cross Industry Standard Process for Data Mining
■ Développé en 2000, dans un projet Européen Esprit
■ Méthodologie SPSS dans Clementine
■ Nettoyage des données et préparation sont très importants
■ Choix d’algorithmes nécessaire
Méthodologies Data mining
z KDMAIC (Six Sigma)
KXEN-Confidential 41
Méthodologies Data mining z KDMAIC
z SEMMA z CRISP-DM
KXEN-Confidential 42
Méthodologies Data mining
z Productivité
■ Automatisation
Codage, pas de recherche d’algorithme, test intégré, debriefing intégré
z Efficacité
■ Robustesse : Vapnik
z Méthodologie performante
■ KDMAIC
Approche traditionnelle
Sélectionner Les variables Sélectionner
Les variables ComprendreComprendre
Question MétierQuestion Métier
Appliquer Appliquer Préparer les données
Préparer les données Construire Le modèle Construire
Le modèle Tester le modèle
Tester le modèle
Approche KXEN
Question MétierQuestion Métier Construire le modèleConstruire le modèle ComprendreComprendre AppliquerAppliquer