Les standards Data-Mining actuels

(1)

Master MI2 Pro EID - Université Paris 13 Data Mining et Business Intelligence FDON

Janvier – Février 2008

Data-Mining

IV – Standards – Base de données – Business Intelligence

Erik Marcadé [email protected]

2

Agenda

L’entreprise analytique

■ Rappel des concepts

■ Segmentation des acteurs data mining

Les standards Data-Mining actuels

■ JDM

■ PMML

■ SQL-MM

Base de Données et Data-Mining

Business Intelligence et Data-Mining

3

L’entreprise analytique

Predictive Analytics Predictive Analytics

Recommendations

Scoring

Data Mining

Business Intelligence

OLAP

Data Quality Query/

Report Data Warehouse OPTIMIZE

Customer Retention Product Affinities Promotions Demand Planning Quality Improvement Employee Utilization OPTIMIZE OPTIMIZE Customer RetentionCustomer Retention Product AffinitiesProduct Affinities

PromotionsPromotions

Demand Planning Demand Planning

Quality ImprovementQuality Improvement

Employee UtilizationEmployee Utilization

ENABLE Customer Interaction Inventory Control Supply Chain

Management Quality Measurement Employee Self

Service ENABLE ENABLE

Customer InteractionCustomer Interaction Inventory ControlInventory Control Supply Chain Supply Chain

Management Management

Quality Measurement Quality Measurement

Employee Self Employee Self Service Service

UNDERSTAND Customer

Satisfaction Product Revenue Cost of Goods Sold HR Turnover UNDERSTAND UNDERSTAND Customer Customer

Satisfaction Satisfaction

Product RevenueProduct Revenue

Cost of Goods SoldCost of Goods Sold

HR TurnoverHR Turnover

Operational Systems

ERP

ERM

WEB CRM

Source: Jack Noonan, CEO SPSS, 2002

4

Les acteurs du Data-Mining - Gartner – 2007

Intelligent Decision Management

Fair Isaac Text Mining

Intelligent Results Clarabridge

ThinkAnalytics IBM

Data-Mining Workbenches

SAS SPSS Oracle Angoss

Teradata Microsoft

KXEN

Speech Mining

Chordiant

Unica Infor

Integrated With Operational Applications Utopy

Attensity Automated Model

Development

CallMiner Nexidia Autonomy

Freeware R, Weka

Les standards

Pourquoi parler des standards?

■ Pas très excitant…

■ mais c’est un signe de maturité d’un domaine industriel

JDM: Java Data Mining

■ Pour les Programmeurs Java

■ But => “Programmer des applications utilisant le Data Mining”

PMML: Predictive Modeling Markup Language

■ Pour les Intégrateurs, éditeurs de logiciels

■ But => “Transporter des modèles des environnements de développement vers des environnements d’exécution”

SQL-MM: SQL MultiMedia extensions

■ Pour les Experts SQL

■ But => “Faire du in-data base Data Mining”

JDM: le projet

Qui?

■ Consortium

Pour Qui?

■ Cible

Comment?

■ JCP (Java Community Process)

Quand?

■ Dates clefs

Pourquoi?

■ Motivations/Objectifs

Quoi?

■ Une API Java qui formalise des classes standards

Ou?

■ Site de forum discussion java datamining:

■ https://datamining.dev.java.net

(2)

7

Cible

Développeur Java (en Septembre 2005, il y en avait déjà quelques millions)

■ Peut créer des applications utilisant l’analyse de données…

■ Sans connaissance approfondie de l’analyse de données

Architecte

■ Chez un vendeur de logiciel métier (CRM, SCM, …), il peut intégrer des fonctions de modélisation prédictive

■ Chez un vendeur d’outil d’analyse de données, il peut faire appel a de multiples implémentations d’analyse prédictives

■ Chez un grand compte, il peut concevoir des applicateur internes pour améliorer la performance de l’entreprise

■ Dans une communauté ‘open-source’, il peut implémenter une version gratuite et/mais standard de l’analyse de données

Analyste métier

■ Peut explorer la définition de nouvelles applications internes

■ Peut demander à développer des chaînes de traitements métiers utilisant la modélisation prédictive

Étudiant

■ Connaissance des standards du marché et de leurs fournisseurs

8

JCP (Java Community Process)

Normalise et contractualise comment la communauté internationale Java fait évoluer le monde Java

JSR (Java Specification Request): C’est un projet de spécification

■ Peut être initiée par n’importe quel développeur Java

■ Doit suivre un processus détaillé

• Phases: initiation, early draft, public draft, maintenance

• Regroupe des experts du domaine

• Les phases sont validées par un Executive Committee (EC)

■ Produit trois choses:

• Un document de spécification (Public Draft)

• Un logiciel RI (Reference Implementation)

• Un logiciel TCK (Technology Compatibility Kit)

Ceux qui pensent que Java est un langage de programmation se trompent lourdement, c’est un univers de standardisation des applications

9

Consortium

JSR-73

Oracle (Specification Lead) BEA Systems

Computer Associates Fair Isaac Corporation Hyperion Solutions Corporation IBM

KXEN SAP AG SAS Institute, Inc.

SPSS

Strategic Analytics Sun Microsystems, Inc.

http://www.jcp.org/en/jsr/detail?id=73

JSR-247

Oracle (Specification Lead) BEA Systems

Computer Associates Corporate Intellect Ltd.

E.piphany, Inc.

Fair Isaac Corporation Hyperion Solutions Corporation IBM

KXEN SAP AG SAS Institute, Inc.

SPSS

Strategic Analytics Sun Microsystems, Inc.

http://www.jcp.org/en/jsr/detail?id=247

10

Dates clefs

JSR-73 (JDM)

■ Groupe d’experts: Août 2000

■ Première ‘Public Review’: Décembre 2002

■ KXEN rejoint le consortium: Mars 2003 et travaille sur la ‘RI’

■ Deuxième ‘Public Review’: Mars 2004

■ ‘Final Release’: Août 2004

■ ‘Maintenance Release’: Août 2005

■ Deux implémentations connues:

• Oracle: Septembre 2005

• KXEN: Décembre 2005

JSR-247 (JDM 2)

■ Groupe d’experts: Juin 2004

■ Première ‘Public Review’: Décembre 2006

■ Problème: n’avance plus car Oracle n’a plus de ressource pour faire le TCK

11

Motivations/Objectifs (1)

Supporte les utilisations novices et expertes du datamining

■ La communauté utilisatrice est large (=>Java)

■ Les applications peuvent utiliser l’automatisation de certains vendeurs

Interface standard ouverte, Java, multi vendeur

■ Procédure de standard (=> JCP)

■ Tous les vendeurs majeurs sont représentés

■ Diminue le risque d’intégration (pas de verrouillage sur un vendeur)

Ensemble représentatif des fonctions (et algorithmes) les plus

utilisés

Extensible

■ Un standard n’est jamais ‘complet’ ou ‘fini’ (=> commence avec les fonctions de base)

■ Les vendeurs doivent pouvoir offrir leurs avantages compétitifs

Conformité des implémentations ‘a la carte’

■ Notion de déclaration de capacité (=> ‘capabilities’)

12

Motivations/Objectifs (2)

Représentation standard XML

Interface ‘Web Services’

Interopérabilité

Utilise les autres standards (PMML)

■ Communications avec les comites PMML, SQL-MM, CWM

Apporter une solution aux problèmes des entreprises

■ Valider par des scénarios d’utilisation et des exemples

(3)

13

Résoudre les problèmes des entreprises

Services financiers

• Relation clients: propension d’achat, modèles de réponses, modèles de durée de vie, …

• Risque: probabilité de défaut, probabilité de remboursement anticipé, …

Télécommunications

• Relation clients: propension d’achat, modèles de réponses, modèles de durée de vie, …

• Risque: probabilité de défaut, probabilité de fraude, …

Grande distribution

• Relation clients: propension d’achat, modèles de réponses

• Magasins: Profitabilité des magasins, achalandage, …

Santé

• Hôpitaux: remplissage des lits, durée d’intervention, …

• Visiteurs médicaux: probabilité de préconisation d’un médicament,..

Sciences de la vie/Biologie

• Génétique

• Tests cliniques

14

Processus d’analyse de données

Les méthodologies les plus connues:

■ CRISP-DM

■ SEMMA

■ DMAIC (phasages Six Sigma)

Les phases que l’on retrouve:

■ Préparation des données

■ Construction des modèles (entrainement)

■ Validation des modèles (test)

■ Utilisation des modèles (application)

Les architectures des logiciels d’entreprise

■ Bases et entrepôts de données

■ Business Intelligence: ‘Reporting’ et OLAP

■ ‘Workflow’ et ordonnancement

Les avances de l’analyse automatisée

■ Promesses et limitations

15

Conception/Architecture

Et vous, si vous aviez à créer un standard Java pour faire de l’analyse de données?

10 minutes de créativité…

16

Fonctions et algorithmes

Les fonctions du datamining peuvent être classées selon plusieurs axes:

■ Supervisé/non supervisé

• Variable cible

■ Descriptif/prédictif

• Synthèse d’un jeu de données versus prédiction sur de nouveaux jeux de données

■ Transparent/opaque

• Arbre de décision versus réseau de neurones

JSR-73 (JDM-1), 5 fonctions:

■ Classification

■ Régression

■ Importance des Attributs

■ Clustering

■ Association

Construire un modèle (entrainer)

Data Original Dataset

Sample, Transform, Prepare Data

Data’

Transformed Dataset

Build

Model ^Model

Build Settings JDM 2!!!

JDM

Utiliser un modèle (appliquer)

JDM

Apply Model

Model

Apply Result Apply

Settings

Data New Dataset (unknown target)

Sample, Transform, Prepare

Data

Data’

Transformed Dataset JDM 2!!!

Same Transformations

(4)

19

Appliquer les modèles de classification

Source/destination attributes

Top prediction

Top or Bottom N predictions

Predictions for specific values (target categories)

Probability/class

Cost/class

Node (decision tree)

20

Appliquer les modèles de régression

Source/destination attributes

Prediction

Confidence interval

21

Appliquer les modèles de clustering

Source/destination attributes

Top cluster

Top or Bottom N clusters

Distance/cluster

Probability/cluster

22

Valider un modèle (tester)

JDM

Test Model

Model

Confusion Matrix Lift Result

ROC

OR RSquare

Data New Dataset (known target)

Sample, Transform, Prepare Data

Data’

Transformed Dataset JDM 2!!!

Same Transformations

23

Évaluer les modèles de classification

506 21 (Type-2 Error) Not Purchase

6 (Type-1 error) 250 Purchase

Actual

Not Purchase Purchase

Predicted Cumulative Gains Chart

0 10 20 30 40 50 60 70 80 90 100

010 20 30 40 50 6070 8090 100

% Customers in product campaign

% Responders

Response Model No Model

R O C Chart

0 0 .1 0 .2 0 .3 0 .4 0 .5 0 .6 0 .7 0 .8 0 .9 1

0.0 0.1

0.2 0.3

0.4 0.5

0.6 0.7

0.8 0.9

1.0

% F alse P o sitiv e

% True Positive

M o d el A M o d el B R an d o m

24

Évaluer les modèles de régression

Plusieurs critères

Mean Absolute Error

Mean Square Error

R-Square (R2)

Mean Actual Value

Mean Predicted Value

(5)

25

Déployer les modèles

Importation et exportation des modèles

■ Échanger des modèles entre DME (du même vendeur ou non)

■ Stocker les modèles ailleurs que dans le MOR

■ Inspection/manipulation d’objets

‘Scoring engine’

■ Option spécifique de DME sans apprentissage

JDM propose le ‘real-time scoring’

MOR Solution Development

Data mining analyst

Build solution and persist mining models

MORSolution Deployment (Scoring Engine) Model(s)

Temporary Mining object storage Export mining

models

Import mining models

Model(s) Import/Export

mining models directly to another

MOR

26

Qui implémente JDM?

Deux implémentations commerciales:

■ Oracle: OJDM

■ KXEN: KJDM

Attention:

■ Il y a un processus de certification!

■ N’importe qui ne peut pas revendiquer une compatibilité sans passer par le TCK

27

Outils

Avec JDM, on écrit ce genre d’interface en 2 semaines

28

Écran client PhP utilisant JDMWS (Web Services)

Le futur: JDM 2

Nouvelles fonctions

Séries temporelles

Détection d’anomalie

Extraction de traits (Feature Extraction)

Application de l’association

Transformations (Manipulation de données)

Texte Mining

Mais d’abord: le présent

Il est possible aujourd’hui de créer des applications Java utilisant le datamining

Les éditeurs de logiciel ont démarré des projets d’intégration Java

■ SAP

■ E-Piphany

■ Teradata

■ …

Le plus… le mieux, mais c’est encore en devenir

(6)

31

PMML: le projet

Qui?

■ Consortium

Pour Qui?

■ Cible

Quand?

■ Dates clefs

Pourquoi?

■ Motivations/Objectifs

Quoi?

■ Définition XML pour le transport de modèle

Où?

■ Site principal http://www.dmg.org

■ Forum publique http://sourceforge.net/forum/?group_id=56177

■ Project http://sourceforge.net/projects/pmml

32

Cible

Architecte/Intégrateur

■ Chez un vendeur de logiciel métier (CRM, SCM, …), il peut intégrer des fonctions de scoring/prévision par importation des modèles

■ Chez un vendeur d’outil d’analyse de données, il peut exporter des modèles destinés à être intégrer dans des environnements de scoring

■ Dans une communauté ‘open-source’, il peut implémenter une version gratuite et/mais standard de l’analyse de données

Étudiant

■ Connaissance des standards du marché et de leurs fournisseurs

33

Consortium

Membres principaux (PMML 3.0)

IBM

KXEN Microsoft MicroStrategy Inc.

National Center of Data Mining Open Data

Oracle Corporation PrudSys AG Salford Systems Sas Inc.

SPSS StatSoft

Membres associés

NCR

SAP

…

34

Dates clefs

Novembre 1998

■ Première présentation (Supercomputing 1998)

■ PMML 0.9

■ Implémentation de référence

Aout 1999

■ Création d’un consortium

■ PMML 1.0 (KDD-1999)

2000

■ Oracle, IBM et Microsoft rejoigne le consortium

■ Généralisation de PMML (statistiques et data mining)

■ PMML 1.1

2001

■ PMML 2.0

■ Amélioration de PMML pour le data mining

• Transformations

• Agrégations

2002

■ KXEN rejoint le consortium

2004

■ PMML 3.0

2005

■ PMML 3.1

2007

■ PMML 3.2

35

Motivations/Objectifs

Complémentarité

■ N’empiète pas sur le domaine des autres normes (JDM, SQL-MM, CWM)

Uniformité

■ Création d’un standard

■ Homogénéisation des concepts

■ Format d’échange (XML)

Intégration

■ Format standard (XML)

■ Schéma de référence

36

PMML transporte des modèles issus d’algorithmes

PMML 2.1:

■ Régression lineaire/logistique

■ Clustering KMeans

■ Règles d’association

■ Réseaux de neuronnes

■ Arbre de décision

■ Séquence

PMML 3.0:

■ + SVM et Text mining

■ Composition de modèle

■ Vérification de modèle

PMML 3.2

■ Nettoyage des transformations, des arbres de décisions, …

(7)

37

Architecture d’un modèle PMML

Définition des dictionnaires:

■ Nom

■ Type

■ Valeur

Déclaration des transformations

■ Encodage des variables

Modèles

■ Decision tree

■ Naive Bayes

■ Support Vector Machine

■ …

38

Définition des dictionnaires

Variable d’entrée

Nom de la variable

Type de variable

■ Categorical

■ Ordinal

■ Continuous

Type de données

■ Number

■ String

■ Date, Date-time

Valeurs de la variable

■ Liste des catégories possibles

■ Liste des valeurs manquantes

■ Intervalle de la variable

39

Définition des transformations

Encodage de la Variable d’entrée

Association d’une valeur numérique à une entrée

■ Transformation linéaire

■ Association d’une valeur à une catégorie

■ Agrégation

40

Définition des modèles

Choix du modèle

Définition des variables utilisées

■ Rôle

■ Définition des comportements (outlier, traitement des valeurs manquantes)

■ Définition de l’intervalle de validité

Définition des cibles

Définition des statistiques

Définition des transformations locales

■ Propre à chaque type de modèle

Définition du calcul

Qui implémente PMML?

2 catégories d’outils pour le PMML

Outils générant du PMML

■ Modélisation en PMML

• KXEN

• SAS

• SPSS

• FAIR ISSAC

Outils intégrant (exécutant) du PMML

■ Exécution et simulation de fichier PMML

• MicroStrategy

• IBM (DB2/Oracle)

• Teradata

• SPSS

• SAS

• STATISTICA

Le présent

Au début:

■ PMML était utilisé pour transporter des modèles depuis les environnements de création (SAS, SPSS, KXEN) vers les bases de données

Maintenant:

■ PMML est aussi utilisé pour intégrer le ‘scoring’ dans les environnements de

‘Business Intelligence’ (rapports)

■ PMML permet l’utilisation opérationnelle des modèles et la démocratisation du Data Mining

(8)

43

Les extensions SQL: in data base Data Mining

Un seul standard ANSI: SQL-MM

Mais…

■ Une seule implémentation du standard: IBM

Par contre…

■ Tous les éditeurs de base de données ont leur extension de SQL pour le Data Mining.

44

IBM Intelligent Miner

Interface utilisateurs

■ Créer, visualiser

Extensions SQL: SQL-MM

‘Easy Mining’

■ Procédures compactes pour la création de modèles

45

Exemple de code SQL pour IBM Intelligent Miner

Insert into IDMMX.ClassSettings (ID, SETTINGS) Select ‘HeartSettings’,

IDMMC.DM_ClassSettings().DM_useClasDataSpec ( MiningData.DM..genDataSpec()

..DM_remDataSpecFld(‘Sex’) ..DM_setFldTpe(‘Age’, 1)) ..DM__setClassTarget(‘DISEASED’) FROM IDMMX.MiningData where ID=‘HeatData’;

Conclusion?

il vaut mieux ne pas avoir à écrire ce SQL soi-même…

46

Oracle Data Mining (ODM)

Intégré depuis Oracle 9i (in database mining)

Algorithmes

■ Decision tree

■ Adaptive Bayes network

■ K-Means

■ O-Cluster (propriétaire)

■ Minimum Description Length pour importance des attributs

■ Support Vector Machine (deux classes et mono classe pour détection d’anomalie)

Une interface utilisateur dédiée

Oracle offre aussi une implémentation de JDM

■ Mais… les données doivent être préparées.

47

Ecrans ODM

(http://www.oracle.com/technology/products/bi/odm/odminer.html)

48

Exemple de code SQL avec Oracle

CREATE TABLE dt_sh_sample_cost ( actual_target_value NUMBER, predicted_target_value NUMBER, cost NUMBER);

INSERT INTO dt_sh_sample_cost VALUES (0,0,0); INSERT INTO dt_sh_sample_cost VALUES (0,1,1);

INSERT INTO dt_sh_sample_cost VALUES (1,0,8); INSERT INTO dt_sh_sample_cost VALUES (1,1,0);

COMMIT;

BEGIN

INSERT INTO dt_sh_sample_settings VALUES

(dbms_data_mining.algo_name, dbms_data_mining.algo_decision_tree);

INSERT INTO dt_sh_sample_settings VALUES (dbms_data_mining.clas_cost_table_name, 'dt_sh_sample_cost');

COMMIT;

BEGIN

DBMS_DATA_MINING.CREATE_MODEL(

model_name => 'DT_SH_Clas_sample', mining_function => dbms_data_mining.classification, data_table_name => 'mining_data_build_v', case_id_column_name => 'cust_id', target_column_name => 'affinity_card', settings_table_name => 'dt_sh_sample_settings');

END;

SELECT cust_id FROM mining_data_apply_v

ORDER BY PREDICTION_COST(DT_SH_Clas_sample, 1 COST MODEL USING *) ASC, 1

(9)

49

Microsoft SQL Server 2005

■ Database Engine

■ Analysis Services (analysis server est un autre serveur: pas vraiment in database mining)

• OLAP Cube

• Datamining Models (+KXEN Plug-In)

■ Reporting Services

■ Integration Services

Algorithms

■ Microsoft Decision Trees

■ Microsoft Clustering

■ Microsoft Time Series

■ Microsoft Association Rules

■ Microsoft Sequence Clustering

■ Microsoft Naive Bayes

■ Microsoft Neural Network

■ Microsoft Linear Regression

■ Microsoft Logistic Regression

Des interfaces utilisateurs dédiées

Une interface Web Services XML/A

50

Ecran MSFT (1)

51

Ecran MSFT (2)

52

Exemple de code SQL avec Microsoft Analysis Services

CREATE MINING MODEL MEMBER_CARD_P {

Customer_ID long key,

Gender text discrete,

Age long continuous,

Profession text discrete,

Income long continuous,

HouseOwner text discrete,

MemberCard text discete predict

}

Using Microsoft_decision_trees

INSERT INTO MEMBER_CARD_P

{Customer_ID, Gender, Age, Profession, Income, HouseOwner, MemberCard}

OPENROWSET(‘MyDB’, ‘data provider=SQLOLEDB;server=myserver;UID=mylogin;PWD=mypwd’, ‘select Customer_ID, Gender, Age, Profession, Income, HouseOwner, MemberCard from customers’)

Select T.Customer_ID, MEMBER_CARD_P.MemberCard FROM MEMBER_CARD_P Prediction Join

OPENROWSET(‘MyDB’, ‘data provider=SQLOLEDB;server=myserver;UID=mylogin;PWD=mypwd’, ‘select Customer_ID, Gender, Age, Profession, Income, HouseOwner, MemberCard from customers’) as T On MEMBER_CARD_P.Gender = T.Gender

And MEMBER_CARD_P.Age = T.Age …

Where T.Age > 30

Teradata Warehouse Miner

Interface utilisateur sous Windows

Génère du SQL spécifique pour Teradata (in-database mining)

Manipulation de données et algorithmes

■ Linear regression

■ Logistic regression

■ Decision tree

■ Cluster analysis

■ Association rules

PMML consumer

Ecran Teradata Warehouse Miner (2)

Project Icon Analytic Module Icon

ODBC Connection

Icon Connection Properties Icon

Run and Stop Icons

Runtime Message Area

Data Source Status

Project Area

Analysis Set-up and Results Viewing Area

hmmm… I wonder what else might fill this large gray area some day...

Main Menus Main Toolbar

Open, Save, and Save All Icons

(10)

55

« In-data base » Data Mining?

Aujourd’hui:

Le Data Mining classique (arbre de décision, réseaux de neurones, même SVM) peut être fait depuis les bases de données

Le cout est très faible

=> Le marché des environnements ‘classiques’ se réduit à être des interfaces utilisateurs

56

Business Intelligence: une« vieille histoire»

Les systèmes de Business Intelligence (informatique décisionnelle) existent depuis longtemps dans les entreprises :

Infocentre (1970…)

■ Stocke un ensemble de données issues des systèmes de gestion (ERP, SGDT,…)

■ Restitue des informations via des requêtes SQL

Bases Multidimensionnelles 90’s

■ Agrègent, Stockent, Restituent des informations de synthèse

■ Facilitent l’analyse et les simulations de gestion (budget, masse salariale,…)

Tableaux de Bord 95’s

■ Présentent une information de synthèse aux directions,……..

SQL

57

Répondre à tous les besoins :

■ D’information

■ D’analyse

■ De pilotage

De tous les utilisateurs :

■ Direction Générale

■ Manager Opérationnel

■ Utilisateur occasionnel

Objectifs de l’Informatique Décisionnelle

58

Les Besoins Informationnels des utilisateurs ont évolué

1980 – 1995

■ Connaissance des principaux indicateurs clés pour le Pilotage de l’entreprise

• Equipement des Directions Générales et financières en informatique décisionnelle

1995 – 2003

■ Connaissance du marché et des clients

• Équipement de autres directions opérationnelles (Marketing, RH, achats,…)

2003 – 2010

■ Connaissance des différents processus et des indicateurs clés pour la gestion de la Performance globale de l’entreprise

• Réduction des coûts

• BPM

Objectifs de l’Informatique Décisionnelle

59

Historique des concepts & outils BI

1980 1990 1995 100 Go

1 To 10 To

1997 2003+

80% des DW <100 Go 1996 Source Standard Group 93

Définition du concept DW Bill Inmon Changement de couple Produits/clients

Couple Produits/Marché

• Lancement du CRM

• E-commerce

• Gestion Multi-canal de la Relation Client

• Fermeture de la boucle BI

• Action/recommandation

• Temps réel

• Mobilité

• DWH pivot central de la Relation client

• Gestion événementielle Gestion de

la performance Volumétrie

60

Qu’est ce que le Data Warehouse ?

Fonctions du DWH

■ Récupérer les données existantes,

■ Référencer les données,

■ Stocker les données historisées,

■ Mettre à disposition les données:

• Interrogation,

• Visualisation,

• Analyse.

Projet DWH

■ Approche très fonctionnelle /orientée métier

■ Intégration de progiciels

(11)

61

La construction du data warehouse

62

Pilotage Stratégique

Tableaux de bord multi-média

Alertes

Tendances

BSC (Balanced Score Card)

63

Pilotage Stratégique

Définir les KPI (Key Performance Indicator)

Lier les KPI aux objectifs

stratégiques

Analyser les évolutions des KPI

64

Pilotage Opérationnel

Analyse multidimensionnelle

Prévisions

Zoom

Pourquoi intégrer le Data-Mining dans la BI

Le Data-Mining permet d’apporter aux rapports BI

■ Des prévisions

■ Des regroupements de variables

■ Des segments …

ACME CORP ULTIMATE DATA MINING BROWSER

Data Mining Grand Vision

What’s New? What’s Interesting?

Predict for me

KDD-07 Invited Innovation Talk, Usama Fayyad Ph.D., 8/12/2007

(12)

67

Intelligent OLAP (IOLAP

^TM

)

C’est quoi IOLAP?

■ Il est difficile de savoir qu’est ce qui impacte quoi

■ Les systèmes ont été améliorés pour amener des dizaines de données, quelles sont les trois meilleures pour comprendre les variations de cet indicateur?

■ L’utilisation du Data-Mining pour déterminer les influences est nommée

“Intelligent” OLAP (IOLAPTM)

Avantages

■ On sait déterminer quelles sont les données intéressantes (pour prendre des décisions)

■ Montre quelles données peuvent indiquer l’évolution future.

■ Au lieu d’avoir des information sur ce qui peut avoir de l’importance, vous avez un système qui vous donne des résultats certains

68

Quelles données impactent la fuite des clients?

69

Intelligent OLAP vous donne les top 5

70

Vous pouvez construire des rapports vite et bien

71

Métriques Prédictives

Que sont les Métriques Prédictives?

■ En gros, toutes prévisions obtenues avec un modèle prédictif

■ Exemples typique sont: probabilités, valeurs estimées, et segments

•Probabilité de quitter pour un client

•Valeur client estimée

•Segment comportemental

Avantages

■ Prévoit performance future en se basant sur les valeurs actuelles des données clefs.

■ Obtient des alertes en avance plutôt que de simplement réagir au problème

■ Les valeurs prévues sont plus précises et évitent des ‘biais’ sympathiques

72

Exemple dans MicroStrategy

(13)

73

Exemple de détection de problème (le vrai s’éloigne de l’estimé)

74

Conclusions (1)

Les entreprises ont dépensé des milliards dans leur infrastructures opérationnelles

■ Des processus métiers informatisés

■ Une collecte de données sans précèdent

■ Des entrepôts de données qui existent

Aujourd’hui (hier?) le retour sur cet investissement se fait par…

■ Des rapports, des cubes d’exploration des données, mais…

■ Le nombre de rapports et de facteurs potentiels devient ingérable

75

Conclusions (2)

Demain (aujourd’hui), le retour sur cet investissement se fera par…

■ Le Data Mining qui aide à trouver l’information pertinente

• à condition qu’il soit simple, automatique, intégré, opérationnel, explicatif, transparent

• Dans els données directement ou…

• Dans les environnements de reporting

Les standards du Data-Mining (JDM, PMML) prouvent que le marché arrive a une certaine maturité

■ JDM permet une compétition ouverte des fournisseurs de Data Mining

■ PMML permet une utilisation opérationnelle des modèles (presque) immédiate

Le challenge est dans l’automatisation des taches de Data-Mining

■ Les entreprises créent déjà des milliers de modèles…