Master MI2 Pro EID - Université Paris 13 Data Mining et Business Intelligence FDON
Janvier – Février 2008
Data-Mining
IV – Standards – Base de données – Business Intelligence
Erik Marcadé [email protected]
2
Agenda
L’entreprise analytique
■ Rappel des concepts
■ Segmentation des acteurs data mining
Les standards Data-Mining actuels
■ JDM
■ PMML
■ SQL-MM
Base de Données et Data-Mining
Business Intelligence et Data-Mining
3
L’entreprise analytique
Predictive Analytics Predictive Analytics
Recommendations
Scoring
Data Mining
Business Intelligence
OLAP
Data Quality Query/
Report Data Warehouse OPTIMIZE
Customer Retention Product Affinities Promotions Demand Planning Quality Improvement Employee Utilization OPTIMIZE OPTIMIZE Customer RetentionCustomer Retention Product AffinitiesProduct Affinities
PromotionsPromotions
Demand Planning Demand Planning
Quality ImprovementQuality Improvement
Employee UtilizationEmployee Utilization
ENABLE Customer Interaction Inventory Control Supply Chain
Management Quality Measurement Employee Self
Service ENABLE ENABLE
Customer InteractionCustomer Interaction Inventory ControlInventory Control Supply Chain Supply Chain
Management Management
Quality Measurement Quality Measurement
Employee Self Employee Self Service Service
UNDERSTAND Customer
Satisfaction Product Revenue Cost of Goods Sold HR Turnover UNDERSTAND UNDERSTAND Customer Customer
Satisfaction Satisfaction
Product RevenueProduct Revenue
Cost of Goods SoldCost of Goods Sold
HR TurnoverHR Turnover
Operational Systems
ERP
ERM
WEB CRM
Source: Jack Noonan, CEO SPSS, 2002
4
Les acteurs du Data-Mining - Gartner – 2007
Intelligent Decision Management
Fair Isaac Text Mining
Intelligent Results Clarabridge
ThinkAnalytics IBM
Data-Mining Workbenches
SAS SPSS Oracle Angoss
Teradata Microsoft
KXEN
Speech Mining
Chordiant
Unica Infor
Integrated With Operational Applications Utopy
Attensity Automated Model
Development
CallMiner Nexidia Autonomy
Freeware R, Weka
Les standards
Pourquoi parler des standards?
■ Pas très excitant…
■ mais c’est un signe de maturité d’un domaine industriel
JDM: Java Data Mining
■ Pour les Programmeurs Java
■ But => “Programmer des applications utilisant le Data Mining”
PMML: Predictive Modeling Markup Language
■ Pour les Intégrateurs, éditeurs de logiciels
■ But => “Transporter des modèles des environnements de développement vers des environnements d’exécution”
SQL-MM: SQL MultiMedia extensions
■ Pour les Experts SQL
■ But => “Faire du in-data base Data Mining”
JDM: le projet
Qui?
■ Consortium
Pour Qui?
■ Cible
Comment?
■ JCP (Java Community Process)
Quand?
■ Dates clefs
Pourquoi?
■ Motivations/Objectifs
Quoi?
■ Une API Java qui formalise des classes standards
Ou?
■ Site de forum discussion java datamining:
■ https://datamining.dev.java.net
7
Cible
Développeur Java (en Septembre 2005, il y en avait déjà quelques millions)
■ Peut créer des applications utilisant l’analyse de données…
■ Sans connaissance approfondie de l’analyse de données
Architecte
■ Chez un vendeur de logiciel métier (CRM, SCM, …), il peut intégrer des fonctions de modélisation prédictive
■ Chez un vendeur d’outil d’analyse de données, il peut faire appel a de multiples implémentations d’analyse prédictives
■ Chez un grand compte, il peut concevoir des applicateur internes pour améliorer la performance de l’entreprise
■ Dans une communauté ‘open-source’, il peut implémenter une version gratuite et/mais standard de l’analyse de données
Analyste métier
■ Peut explorer la définition de nouvelles applications internes
■ Peut demander à développer des chaînes de traitements métiers utilisant la modélisation prédictive
Étudiant
■ Connaissance des standards du marché et de leurs fournisseurs
8
JCP (Java Community Process)
Normalise et contractualise comment la communauté internationale Java fait évoluer le monde Java
JSR (Java Specification Request): C’est un projet de spécification
■ Peut être initiée par n’importe quel développeur Java
■ Doit suivre un processus détaillé
• Phases: initiation, early draft, public draft, maintenance
• Regroupe des experts du domaine
• Les phases sont validées par un Executive Committee (EC)
■ Produit trois choses:
• Un document de spécification (Public Draft)
• Un logiciel RI (Reference Implementation)
• Un logiciel TCK (Technology Compatibility Kit)
Ceux qui pensent que Java est un langage de programmation se trompent lourdement, c’est un univers de standardisation des applications
9
Consortium
JSR-73
Oracle (Specification Lead) BEA Systems
Computer Associates Fair Isaac Corporation Hyperion Solutions Corporation IBM
KXEN SAP AG SAS Institute, Inc.
SPSS
Strategic Analytics Sun Microsystems, Inc.
http://www.jcp.org/en/jsr/detail?id=73
JSR-247
Oracle (Specification Lead) BEA Systems
Computer Associates Corporate Intellect Ltd.
E.piphany, Inc.
Fair Isaac Corporation Hyperion Solutions Corporation IBM
KXEN SAP AG SAS Institute, Inc.
SPSS
Strategic Analytics Sun Microsystems, Inc.
http://www.jcp.org/en/jsr/detail?id=247
10
Dates clefs
JSR-73 (JDM)
■ Groupe d’experts: Août 2000
■ Première ‘Public Review’: Décembre 2002
■ KXEN rejoint le consortium: Mars 2003 et travaille sur la ‘RI’
■ Deuxième ‘Public Review’: Mars 2004
■ ‘Final Release’: Août 2004
■ ‘Maintenance Release’: Août 2005
■ Deux implémentations connues:
• Oracle: Septembre 2005
• KXEN: Décembre 2005
JSR-247 (JDM 2)
■ Groupe d’experts: Juin 2004
■ Première ‘Public Review’: Décembre 2006
■ Problème: n’avance plus car Oracle n’a plus de ressource pour faire le TCK
11
Motivations/Objectifs (1)
Supporte les utilisations novices et expertes du datamining
■ La communauté utilisatrice est large (=>Java)
■ Les applications peuvent utiliser l’automatisation de certains vendeurs
Interface standard ouverte, Java, multi vendeur
■ Procédure de standard (=> JCP)
■ Tous les vendeurs majeurs sont représentés
■ Diminue le risque d’intégration (pas de verrouillage sur un vendeur)
Ensemble représentatif des fonctions (et algorithmes) les plus
utilisés
Extensible
■ Un standard n’est jamais ‘complet’ ou ‘fini’ (=> commence avec les fonctions de base)
■ Les vendeurs doivent pouvoir offrir leurs avantages compétitifs
Conformité des implémentations ‘a la carte’
■ Notion de déclaration de capacité (=> ‘capabilities’)
12
Motivations/Objectifs (2)
Représentation standard XML
Interface ‘Web Services’
Interopérabilité
Utilise les autres standards (PMML)
■ Communications avec les comites PMML, SQL-MM, CWM
Apporter une solution aux problèmes des entreprises
■ Valider par des scénarios d’utilisation et des exemples
13
Résoudre les problèmes des entreprises
Services financiers
• Relation clients: propension d’achat, modèles de réponses, modèles de durée de vie, …
• Risque: probabilité de défaut, probabilité de remboursement anticipé, …
Télécommunications
• Relation clients: propension d’achat, modèles de réponses, modèles de durée de vie, …
• Risque: probabilité de défaut, probabilité de fraude, …
Grande distribution
• Relation clients: propension d’achat, modèles de réponses
• Magasins: Profitabilité des magasins, achalandage, …
Santé
• Hôpitaux: remplissage des lits, durée d’intervention, …
• Visiteurs médicaux: probabilité de préconisation d’un médicament,..
Sciences de la vie/Biologie
• Génétique
• Tests cliniques
14
Processus d’analyse de données
Les méthodologies les plus connues:
■ CRISP-DM
■ SEMMA
■ DMAIC (phasages Six Sigma)
Les phases que l’on retrouve:
■ Préparation des données
■ Construction des modèles (entrainement)
■ Validation des modèles (test)
■ Utilisation des modèles (application)
Les architectures des logiciels d’entreprise
■ Bases et entrepôts de données
■ Business Intelligence: ‘Reporting’ et OLAP
■ ‘Workflow’ et ordonnancement
Les avances de l’analyse automatisée
■ Promesses et limitations
15
Conception/Architecture
Et vous, si vous aviez à créer un standard Java pour faire de l’analyse de données?
10 minutes de créativité…
16
Fonctions et algorithmes
Les fonctions du datamining peuvent être classées selon plusieurs axes:
■ Supervisé/non supervisé
• Variable cible
■ Descriptif/prédictif
• Synthèse d’un jeu de données versus prédiction sur de nouveaux jeux de données
■ Transparent/opaque
• Arbre de décision versus réseau de neurones
JSR-73 (JDM-1), 5 fonctions:
■ Classification
■ Régression
■ Importance des Attributs
■ Clustering
■ Association
Construire un modèle (entrainer)
Data Original Dataset
Sample, Transform, Prepare Data
Data’
Transformed Dataset
Build
Model Model
Build Settings JDM 2!!!
JDM
Utiliser un modèle (appliquer)
JDM
Apply Model
Model
Apply Result Apply
Settings
Data New Dataset (unknown target)
Sample, Transform, Prepare
Data
Data’
Transformed Dataset JDM 2!!!
Same Transformations
19
Appliquer les modèles de classification
Source/destination attributes
Top prediction
Top or Bottom N predictions
Predictions for specific values (target categories)
Probability/class
Cost/class
Node (decision tree)
20
Appliquer les modèles de régression
Source/destination attributes
Prediction
Confidence interval
21
Appliquer les modèles de clustering
Source/destination attributes
Top cluster
Top or Bottom N clusters
Distance/cluster
Probability/cluster
22
Valider un modèle (tester)
JDM
Test Model
Model
Confusion Matrix Lift Result
ROC
OR RSquare
Data New Dataset (known target)
Sample, Transform, Prepare Data
Data’
Transformed Dataset JDM 2!!!
Same Transformations
23
Évaluer les modèles de classification
506 21 (Type-2 Error) Not Purchase
6 (Type-1 error) 250 Purchase
Actual
Not Purchase Purchase
Predicted Cumulative Gains Chart
0 10 20 30 40 50 60 70 80 90 100
010 20 30 40 50 6070 8090 100
% Customers in product campaign
% Responders
Response Model No Model
R O C Chart
0 0 .1 0 .2 0 .3 0 .4 0 .5 0 .6 0 .7 0 .8 0 .9 1
0.0 0.1
0.2 0.3
0.4 0.5
0.6 0.7
0.8 0.9
1.0
% F alse P o sitiv e
% True Positive
M o d el A M o d el B R an d o m
24
Évaluer les modèles de régression
Plusieurs critères
Mean Absolute Error
Mean Square Error
R-Square (R2)
Mean Actual Value
Mean Predicted Value
25
Déployer les modèles
Importation et exportation des modèles
■ Échanger des modèles entre DME (du même vendeur ou non)
■ Stocker les modèles ailleurs que dans le MOR
■ Inspection/manipulation d’objets
‘Scoring engine’
■ Option spécifique de DME sans apprentissage
JDM propose le ‘real-time scoring’
MOR Solution Development
Data mining analyst
Build solution and persist mining models
MORSolution Deployment (Scoring Engine) Model(s)
Temporary Mining object storage Export mining
models
Import mining models
Model(s) Import/Export
mining models directly to another
MOR
26
Qui implémente JDM?
Deux implémentations commerciales:
■ Oracle: OJDM
■ KXEN: KJDM
Attention:
■ Il y a un processus de certification!
■ N’importe qui ne peut pas revendiquer une compatibilité sans passer par le TCK
27
Outils
Avec JDM, on écrit ce genre d’interface en 2 semaines
28
Écran client PhP utilisant JDMWS (Web Services)
Le futur: JDM 2
Nouvelles fonctions
Séries temporelles
Détection d’anomalie
Extraction de traits (Feature Extraction)
Application de l’association
Transformations (Manipulation de données)
Texte Mining
Mais d’abord: le présent
Il est possible aujourd’hui de créer des applications Java utilisant le datamining
Les éditeurs de logiciel ont démarré des projets d’intégration Java
■ SAP
■ E-Piphany
■ Teradata
■ …
Le plus… le mieux, mais c’est encore en devenir
31
PMML: le projet
Qui?
■ Consortium
Pour Qui?
■ Cible
Quand?
■ Dates clefs
Pourquoi?
■ Motivations/Objectifs
Quoi?
■ Définition XML pour le transport de modèle
Où?
■ Site principal http://www.dmg.org
■ Forum publique http://sourceforge.net/forum/?group_id=56177
■ Project http://sourceforge.net/projects/pmml
32
Cible
Architecte/Intégrateur
■ Chez un vendeur de logiciel métier (CRM, SCM, …), il peut intégrer des fonctions de scoring/prévision par importation des modèles
■ Chez un vendeur d’outil d’analyse de données, il peut exporter des modèles destinés à être intégrer dans des environnements de scoring
■ Dans une communauté ‘open-source’, il peut implémenter une version gratuite et/mais standard de l’analyse de données
Étudiant
■ Connaissance des standards du marché et de leurs fournisseurs
33
Consortium
Membres principaux (PMML 3.0)
IBMKXEN Microsoft MicroStrategy Inc.
National Center of Data Mining Open Data
Oracle Corporation PrudSys AG Salford Systems Sas Inc.
SPSS StatSoft
Membres associés
NCRSAP
…
34
Dates clefs
Novembre 1998
■ Première présentation (Supercomputing 1998)
■ PMML 0.9
■ Implémentation de référence
Aout 1999
■ Création d’un consortium
■ PMML 1.0 (KDD-1999)
2000
■ Oracle, IBM et Microsoft rejoigne le consortium
■ Généralisation de PMML (statistiques et data mining)
■ PMML 1.1
2001
■ PMML 2.0
■ Amélioration de PMML pour le data mining
• Transformations
• Agrégations
2002
■ KXEN rejoint le consortium
2004
■ PMML 3.0
2005
■ PMML 3.1
2007
■ PMML 3.2
35
Motivations/Objectifs
Complémentarité
■ N’empiète pas sur le domaine des autres normes (JDM, SQL-MM, CWM)
Uniformité
■ Création d’un standard
■ Homogénéisation des concepts
■ Format d’échange (XML)
Intégration
■ Format standard (XML)
■ Schéma de référence
36
PMML transporte des modèles issus d’algorithmes
PMML 2.1:
■ Régression lineaire/logistique
■ Clustering KMeans
■ Règles d’association
■ Réseaux de neuronnes
■ Arbre de décision
■ Séquence
PMML 3.0:
■ + SVM et Text mining
■ Composition de modèle
■ Vérification de modèle
PMML 3.2
■ Nettoyage des transformations, des arbres de décisions, …
37
Architecture d’un modèle PMML
Définition des dictionnaires:
■ Nom
■ Type
■ Valeur
Déclaration des transformations
■ Encodage des variables
Modèles
■ Decision tree
■ Naive Bayes
■ Support Vector Machine
■ …
38
Définition des dictionnaires
Variable d’entrée
Nom de la variable
Type de variable
■ Categorical
■ Ordinal
■ Continuous
Type de données
■ Number
■ String
■ Date, Date-time
Valeurs de la variable
■ Liste des catégories possibles
■ Liste des valeurs manquantes
■ Intervalle de la variable
39
Définition des transformations
Encodage de la Variable d’entrée
Association d’une valeur numérique à une entrée
■ Transformation linéaire
■ Association d’une valeur à une catégorie
■ Agrégation
40
Définition des modèles
Choix du modèle
Définition des variables utilisées
■ Rôle
■ Définition des comportements (outlier, traitement des valeurs manquantes)
■ Définition de l’intervalle de validité
Définition des cibles
Définition des statistiques
Définition des transformations locales
■ Propre à chaque type de modèle
Définition du calcul
Qui implémente PMML?
2 catégories d’outils pour le PMML
Outils générant du PMML
■ Modélisation en PMML
• KXEN
• SAS
• SPSS
• FAIR ISSAC
Outils intégrant (exécutant) du PMML
■ Exécution et simulation de fichier PMML
• MicroStrategy
• IBM (DB2/Oracle)
• Teradata
• SPSS
• SAS
• STATISTICA
Le présent
Au début:
■ PMML était utilisé pour transporter des modèles depuis les environnements de création (SAS, SPSS, KXEN) vers les bases de données
Maintenant:
■ PMML est aussi utilisé pour intégrer le ‘scoring’ dans les environnements de
‘Business Intelligence’ (rapports)
■ PMML permet l’utilisation opérationnelle des modèles et la démocratisation du Data Mining
43
Les extensions SQL: in data base Data Mining
Un seul standard ANSI: SQL-MM
Mais…
■ Une seule implémentation du standard: IBM
Par contre…
■ Tous les éditeurs de base de données ont leur extension de SQL pour le Data Mining.
44
IBM Intelligent Miner
Interface utilisateurs
■ Créer, visualiser
Extensions SQL: SQL-MM
‘Easy Mining’
■ Procédures compactes pour la création de modèles
45
Exemple de code SQL pour IBM Intelligent Miner
Insert into IDMMX.ClassSettings (ID, SETTINGS) Select ‘HeartSettings’,
IDMMC.DM_ClassSettings().DM_useClasDataSpec ( MiningData.DM..genDataSpec()
..DM_remDataSpecFld(‘Sex’) ..DM_setFldTpe(‘Age’, 1)) ..DM__setClassTarget(‘DISEASED’) FROM IDMMX.MiningData where ID=‘HeatData’;
Conclusion?
il vaut mieux ne pas avoir à écrire ce SQL soi-même…
46
Oracle Data Mining (ODM)
Intégré depuis Oracle 9i (in database mining)
Algorithmes
■ Decision tree
■ Adaptive Bayes network
■ K-Means
■ O-Cluster (propriétaire)
■ Minimum Description Length pour importance des attributs
■ Support Vector Machine (deux classes et mono classe pour détection d’anomalie)
Une interface utilisateur dédiée
Oracle offre aussi une implémentation de JDM
■ Mais… les données doivent être préparées.
47
Ecrans ODM
(http://www.oracle.com/technology/products/bi/odm/odminer.html)
48
Exemple de code SQL avec Oracle
CREATE TABLE dt_sh_sample_cost ( actual_target_value NUMBER, predicted_target_value NUMBER, cost NUMBER);
INSERT INTO dt_sh_sample_cost VALUES (0,0,0); INSERT INTO dt_sh_sample_cost VALUES (0,1,1);
INSERT INTO dt_sh_sample_cost VALUES (1,0,8); INSERT INTO dt_sh_sample_cost VALUES (1,1,0);
COMMIT;
BEGIN
INSERT INTO dt_sh_sample_settings VALUES
(dbms_data_mining.algo_name, dbms_data_mining.algo_decision_tree);
INSERT INTO dt_sh_sample_settings VALUES (dbms_data_mining.clas_cost_table_name, 'dt_sh_sample_cost');
COMMIT;
BEGIN
DBMS_DATA_MINING.CREATE_MODEL(
model_name => 'DT_SH_Clas_sample', mining_function => dbms_data_mining.classification, data_table_name => 'mining_data_build_v', case_id_column_name => 'cust_id', target_column_name => 'affinity_card', settings_table_name => 'dt_sh_sample_settings');
END;
SELECT cust_id FROM mining_data_apply_v
ORDER BY PREDICTION_COST(DT_SH_Clas_sample, 1 COST MODEL USING *) ASC, 1
49
Microsoft SQL Server 2005
Microsoft SQL Server 2005
■ Database Engine
■ Analysis Services (analysis server est un autre serveur: pas vraiment in database mining)
• OLAP Cube
• Datamining Models (+KXEN Plug-In)
■ Reporting Services
■ Integration Services
Algorithms
■ Microsoft Decision Trees
■ Microsoft Clustering
■ Microsoft Time Series
■ Microsoft Association Rules
■ Microsoft Sequence Clustering
■ Microsoft Naive Bayes
■ Microsoft Neural Network
■ Microsoft Linear Regression
■ Microsoft Logistic Regression
Des interfaces utilisateurs dédiées
Une interface Web Services XML/A
50
Ecran MSFT (1)
51
Ecran MSFT (2)
52
Exemple de code SQL avec Microsoft Analysis Services
CREATE MINING MODEL MEMBER_CARD_P {
Customer_ID long key,
Gender text discrete,
Age long continuous,
Profession text discrete,
Income long continuous,
HouseOwner text discrete,
MemberCard text discete predict
}
Using Microsoft_decision_trees
INSERT INTO MEMBER_CARD_P
{Customer_ID, Gender, Age, Profession, Income, HouseOwner, MemberCard}
OPENROWSET(‘MyDB’, ‘data provider=SQLOLEDB;server=myserver;UID=mylogin;PWD=mypwd’, ‘select Customer_ID, Gender, Age, Profession, Income, HouseOwner, MemberCard from customers’)
Select T.Customer_ID, MEMBER_CARD_P.MemberCard FROM MEMBER_CARD_P Prediction Join
OPENROWSET(‘MyDB’, ‘data provider=SQLOLEDB;server=myserver;UID=mylogin;PWD=mypwd’, ‘select Customer_ID, Gender, Age, Profession, Income, HouseOwner, MemberCard from customers’) as T On MEMBER_CARD_P.Gender = T.Gender
And MEMBER_CARD_P.Age = T.Age …
Where T.Age > 30
Teradata Warehouse Miner
Interface utilisateur sous Windows
Génère du SQL spécifique pour Teradata (in-database mining)
Manipulation de données et algorithmes
■ Linear regression
■ Logistic regression
■ Decision tree
■ Cluster analysis
■ Association rules
PMML consumer
Ecran Teradata Warehouse Miner (2)
Project Icon Analytic Module Icon
ODBC Connection
Icon Connection Properties Icon
Run and Stop Icons
Runtime Message Area
Data Source Status
Project Area
Analysis Set-up and Results Viewing Area
hmmm… I wonder what else might fill this large gray area some day...
Main Menus Main Toolbar
Open, Save, and Save All Icons
55
« In-data base » Data Mining?
Aujourd’hui:
Le Data Mining classique (arbre de décision, réseaux de neurones, même SVM) peut être fait depuis les bases de données
Le cout est très faible
=> Le marché des environnements ‘classiques’ se réduit à être des interfaces utilisateurs
56
Business Intelligence: une« vieille histoire»
Les systèmes de Business Intelligence (informatique décisionnelle) existent depuis longtemps dans les entreprises :
Infocentre (1970…)
■ Stocke un ensemble de données issues des systèmes de gestion (ERP, SGDT,…)
■ Restitue des informations via des requêtes SQL
Bases Multidimensionnelles 90’s
■ Agrègent, Stockent, Restituent des informations de synthèse
■ Facilitent l’analyse et les simulations de gestion (budget, masse salariale,…)
Tableaux de Bord 95’s
■ Présentent une information de synthèse aux directions,……..
SQL
57
Répondre à tous les besoins :
■ D’information
■ D’analyse
■ De pilotage
De tous les utilisateurs :
■ Direction Générale
■ Manager Opérationnel
■ Utilisateur occasionnel
Objectifs de l’Informatique Décisionnelle
58
Les Besoins Informationnels des utilisateurs ont évolué
1980 – 1995
■ Connaissance des principaux indicateurs clés pour le Pilotage de l’entreprise
• Equipement des Directions Générales et financières en informatique décisionnelle
1995 – 2003
■ Connaissance du marché et des clients
• Équipement de autres directions opérationnelles (Marketing, RH, achats,…)
2003 – 2010
■ Connaissance des différents processus et des indicateurs clés pour la gestion de la Performance globale de l’entreprise
• Réduction des coûts
• BPM
Objectifs de l’Informatique Décisionnelle
59
Historique des concepts & outils BI
1980 1990 1995 100 Go
1 To 10 To
1997 2003+
80% des DW <100 Go 1996 Source Standard Group 93
Définition du concept DW Bill Inmon Changement de couple Produits/clients
Couple Produits/Marché
• Lancement du CRM
• E-commerce
• Gestion Multi-canal de la Relation Client
• Fermeture de la boucle BI
• Action/recommandation
• Temps réel
• Mobilité
• DWH pivot central de la Relation client
• Gestion événementielle Gestion de
la performance Volumétrie
60
Qu’est ce que le Data Warehouse ?
Fonctions du DWH
■ Récupérer les données existantes,
■ Référencer les données,
■ Stocker les données historisées,
■ Mettre à disposition les données:
• Interrogation,
• Visualisation,
• Analyse.
Projet DWH
■ Approche très fonctionnelle /orientée métier
■ Intégration de progiciels
61
La construction du data warehouse
62
Pilotage Stratégique
Tableaux de bord multi-média
Alertes
Tendances
BSC (Balanced Score Card)
63
Pilotage Stratégique
Définir les KPI (Key Performance Indicator)
Lier les KPI aux objectifs
stratégiques
Analyser les évolutions des KPI
64
Pilotage Opérationnel
Analyse multidimensionnelle
Prévisions
Zoom
Pourquoi intégrer le Data-Mining dans la BI
Le Data-Mining permet d’apporter aux rapports BI
■ Des prévisions
■ Des regroupements de variables
■ Des segments …
ACME CORP ULTIMATE DATA MINING BROWSER
Data Mining Grand Vision
What’s New? What’s Interesting?
Predict for me
KDD-07 Invited Innovation Talk, Usama Fayyad Ph.D., 8/12/2007
67
Intelligent OLAP (IOLAP
TM)
C’est quoi IOLAP?
■ Il est difficile de savoir qu’est ce qui impacte quoi
■ Les systèmes ont été améliorés pour amener des dizaines de données, quelles sont les trois meilleures pour comprendre les variations de cet indicateur?
■ L’utilisation du Data-Mining pour déterminer les influences est nommée
“Intelligent” OLAP (IOLAPTM)
Avantages
■ On sait déterminer quelles sont les données intéressantes (pour prendre des décisions)
■ Montre quelles données peuvent indiquer l’évolution future.
■ Au lieu d’avoir des information sur ce qui peut avoir de l’importance, vous avez un système qui vous donne des résultats certains
68
Quelles données impactent la fuite des clients?
69
Intelligent OLAP vous donne les top 5
70
Vous pouvez construire des rapports vite et bien
71
Métriques Prédictives
Que sont les Métriques Prédictives?
■ En gros, toutes prévisions obtenues avec un modèle prédictif
■ Exemples typique sont: probabilités, valeurs estimées, et segments
•Probabilité de quitter pour un client
•Valeur client estimée
•Segment comportemental
Avantages
■ Prévoit performance future en se basant sur les valeurs actuelles des données clefs.
■ Obtient des alertes en avance plutôt que de simplement réagir au problème
■ Les valeurs prévues sont plus précises et évitent des ‘biais’ sympathiques
72
Exemple dans MicroStrategy
73
Exemple de détection de problème (le vrai s’éloigne de l’estimé)
74
Conclusions (1)
Les entreprises ont dépensé des milliards dans leur infrastructures opérationnelles
■ Des processus métiers informatisés
■ Une collecte de données sans précèdent
■ Des entrepôts de données qui existent
Aujourd’hui (hier?) le retour sur cet investissement se fait par…
■ Des rapports, des cubes d’exploration des données, mais…
■ Le nombre de rapports et de facteurs potentiels devient ingérable
75
Conclusions (2)
Demain (aujourd’hui), le retour sur cet investissement se fera par…
■ Le Data Mining qui aide à trouver l’information pertinente
• à condition qu’il soit simple, automatique, intégré, opérationnel, explicatif, transparent
• Dans els données directement ou…
• Dans les environnements de reporting
Les standards du Data-Mining (JDM, PMML) prouvent que le marché arrive a une certaine maturité
■ JDM permet une compétition ouverte des fournisseurs de Data Mining
■ PMML permet une utilisation opérationnelle des modèles (presque) immédiate
Le challenge est dans l’automatisation des taches de Data-Mining
■ Les entreprises créent déjà des milliers de modèles…