• Aucun résultat trouvé

Data Mining

N/A
N/A
Protected

Academic year: 2022

Partager "Data Mining"

Copied!
21
0
0

Texte intégral

(1)

Data Mining

1 - Introduction au data mining

Françoise Soulié Fogelman

Master MI2R MICR Cours Fouille de Données

KXEN-Confidential 2

Agenda

z Le data mining dans l’industrie

z Le data mining dans le SI de l’entreprise

z Le marché et les acteurs du data mining

z La méthodologie de mise en œuvre

(2)

KXEN-Confidential 3

Le contexte z Le data mining est un domaine où

La recherche est active depuis très longtemps

‹ Recherche universitaire

– Communauté du Machine Learning

‹ Labos mixtes

– Google, Microsoft et Sun créent le RAD Lab de l’UC de Berkeley

» Reliable, Adaptive and Distributed Systems, ou RAD

» Financement de 7,5 millions de dollars

L’exploitation industrielle explose

‹ Les entreprises de pointe (Microsoft, Yahoo !, Google, Amazon …)

– Yahoo ! « manages many of the largest and richest data repositories in the world, and researchers mine insights from these giant collections »

‹ Les banques et les opérateurs téléphoniques ont tous mis en œuvre – Des bases de données / data warehouses pour recueillir les données clients – Des méthodes data mining pour exploiter ces données

» Score d’octroi de crédit, ciblage des campagnes …

‹ Les industries de production manipulent – Des gros volumes de données

– Utilisent la méthodologie SixSigma, qui s’appuie sur données et statistiques

z L’exploitation industrielle du data mining impose des besoins & contraintes particuliers

Le contexte z Des sources de données nombreuses

Volume des données : double chaque année

Sources : hétérogènes, incohérentes

z Le nombre de décisions prises augmente sans cesse

Qualité des décisions prises : dépend des analyses menées

Coût / bénéfice d’une seule décision : peut être très grand

Décision en temps réel « au fil de l’eau » : nécessaire

z Le nombre de modèles à produire augmente aussi

Capacité à produire des modèles : réduite

Disponibilité des experts : goulet d’étranglement

z Des utilisateurs – et des besoins – variés

Utilisateurs : veulent répondre par eux-mêmes à leurs

questions, sans dépendre d’experts ni être obligés d’en devenir eux-mêmes

z Le process data mining doit être intégré au SI

Méthodologie de mise en œuvre : globale

Industrialisation / déploiement : facile

Contrôle et suivi des performances : automatisé

(3)

KXEN-Confidential 5

Les besoins

Le data mining est un outil de production de valeur z Améliorer la productivité z Simplifier l’utilisation z Assurer l’intégration z Maximiser le revenu z Contrôler les coûts

KXEN-Confidential 6

Besoins & contraintes Améliorer la productivité z Le nombre de modèles nécessaires

Augmente constamment

‹ Vodafone estime son besoin à 716 modèles / an

‹ XX produit 800 modèles / semaine

… mais la plupart des modèles ne sont pas produits …

z Le nombre d’experts est limité

Le nombre de modèles produits par chaque expert doit augmenter

Les modèles doivent pouvoir être produits par les utilisateurs métier

z La volumétrie des données augmente

“The cost of collecting, transmitting, and storing data has dropped so much that we need adequate tools to keep up”

Motorola

L’outil doit être capable de tenir de très gros volumes de données

‹ 100 M de lignes, 5 000 variables

Ce qui exclue de dupliquer les données

(4)

KXEN-Confidential 7

Besoins & contraintes Simplifier l’utilisation z Les utilisateurs sont experts de leur métier : ils

savent

Où se situent les problèmes, quelles sont les questions clés à résoudre

Quelles sont les données utilisées / générées par leur activité

Apprécier la valeur métier du résultat d’un modèle prédictif qu’on leur fournit

z Les utilisateurs ne sont pas des experts statisticiens : ils ne savent pas

Décider quel algorithme il faut utiliser dans quel cas

‹ D’ailleurs, la nature de l’algorithme est sans importance pour eux

Manipuler les données

Sélectionner / coder les variables de façon statistiquement efficace

‹ Les données peuvent être de mauvaise qualité : outliers, données manquantes

“Décoder” les résultats d’un modèle

‹ Le modèle doit être explicatif

Évaluer la validité statistique d’un résultat

Besoins & contraintes Assurer l’intégration Pour produire le modèle prédictif il faut :

z Des données et donc pouvoir

Récupérer des données dans des sources multiples, disponibles dans le SI

Intégrer ces données dans un “fichier plat”

z La capacité à

Coder les données automatiquement

Calibrer les modèles rapidement

S’intégrer simplement dans le SI

‹ Pas de modèle de données propriétaire

‹ Capacité à lire tous les formats de données

‹ Adéquation aux standards du data mining : PMML, JDM

(5)

KXEN-Confidential 9

Besoins & contraintes Assurer l’intégration Pour mettre en production le modèle prédictif il faut :

z Des données aux formats standard

Exporter les données (résultats) vers tous les formats du marché

… automatiquement

z Le modèle doit pouvoir

Être exporté vers les formats standards C, SQL, Java, PMML, UDF …

… automatiquement et complètement

z … ce qui permet une industrialisation facile Pour exploiter le modèle prédictif il faut pouvoir : z Intégrer le modèle exporté dans le processus

informatique d’exploitation

z Produire les résultats "en temps réel" pour action immédiate si nécessaire

z Contrôler au cours du temps

Valider la validité du modèle

‹ Détection des déviations

Recalibrer facilement

KXEN-Confidential 10

Besoins & contraintes Maximiser le revenu z Le modèle prédictif doit fournir

Une qualité de prévision optimale

‹ La qualité des modèles produits : ROI / modèle

‹ … et garantie sur de nouveaux ensembles de données

La capacité à évaluer les

performances selon de multiples critères

‹ Erreur de classification

‹ Profit généré

‹ AUC, GINI, …

La capacité à identifier les variables critiques

‹ Actions à valeur ajoutée

(6)

KXEN-Confidential 11

Besoins & contraintes Contrôler les coûts

z Le TCO

*

du data mining doit être évalué en tenant compte de :

La machine

‹ Machine dédiée ou pas

‹ Impact sur le DWH

L’espace disque

‹ Duplication ou pas

Le coût de licence & de maintenance du produit

Les ressources

‹ Coût / qualification

‹ Formation

‹ Support

La productivité

‹ Production de modèles : nombre de modèles produits / personne / an

‹ Exploitation de modèles : temps passé & ressources / modèle

* TCO : Total Cost of Ownership

Agenda

z Le data mining dans l’industrie

z Le data mining dans le SI de l’entreprise

z Le marché et les acteurs du data mining

z La méthodologie de mise en œuvre

(7)

KXEN-Confidential 13

Data mining & SI

CRM Analytique Back-Office

Base de Données

Clients

Data Mining ERP

Bases Legacy

CRM Opérationnel

Marketing

Ventes

Service Clients

Reporting Olap

Canaux de contact

Client

Clients

Courrier SMS E-mail

Question- naires Fax Internet Téléphone

Fichiers externes

Production Fabrication

Conditionnement

Informatique

SAV

Distribution R&D

Expédition

KXEN-Confidential 14

Data mining & SI z Intégrer les données

Définir un référentiel

Mettre en cohérence et nettoyer / dédupliquer

… pour construire la « vue 360 ° » du client

z Produire des tableaux de bord

pour permettre au management et au CRM opérationnel d'être réactif

z Produire des analyses prédictives

pour permettre à l'entreprise d'être plus réactive mais également pro-active

z Sous les contraintes …

Capacité à produire des Tableaux de Bord et Analyses en très grand nombre pour servir tous les utilisateurs métier

Rapidité de mise en oeuvre

Facilité de prise en main / mise en oeuvre par les utilisateurs métier

Production des résultats "en temps réel" pour action immédiate

(8)

KXEN-Confidential 15 Pilotage

• Documents Multi- Rapports

La prise de décision Plusieurs axes

Nombre d’utilisateurs Olap

• Analyse multidimensionnelle Reporting

• Rapports paramétrés

• Rapports Ad Hoc

Pilotage pro-actif

• Souscription de Rapports en mode push

• Alerting mode événementiel

• Services de diffusion multi-canal

Data Mining

• Analyses avancées

• Analyses prédictives

Valeur pour l’entreprise

Volume donnéesde

Business Intelligence

La Prise de Décision Un processus encore artisanal

Millions de décisions journalières Millions de d Millions de déécisionscisions

journali journalièèresres Doigt Mouillé

Impressions Publications OLAP &

Reporting Excel

Analyse prédictive

(9)

KXEN-Confidential 17

Les données client

zPropensité d’achat par produit, par canal zScores de risque, de churn ...

z« Share of wallet » zLife Time Value

zAspirations zPlans futurs zAttitudes

zComportement de consommation zPréférences de canal

zPosition dans le cycle de vie zComportement de navigation

zNom, prénom, adresse zSexe

zDate de naissance zRevenu

zTransactions d’achats zClick-stream

zRéponse aux campagnes zAppel au centre d’appels zRendez-vous commerciaux

La vue 360°

du client

KXEN-Confidential 18

Les tâches Gérer l’ensemble des données client à travers tout leur

cycle de vie z Capturer les données clients z Nettoyer les données

Normalisation d’adresses, mise en cohérence

Déduplication

z Enrichir les données

Données externes

z Constituer la Base Clients (DWH)

Données normalisées

z Distribuer les données aux utilisateurs en fonction de :

Leurs besoins

Leurs droits

z … le tout en respectant les contraintes

Qualité

Fréquence de rafraîchissement / temps de chargement

Synchronisation

Disponibilité temps réel si nécessaire

(10)

KXEN-Confidential 19

Les tableaux de bord z Reporting

Tableaux de bord départementaux

Indicateurs pré-définis,

Rapports pré-définis

Support pour les utilisateurs métier

z Exemple

Reporting

Rapport Business Objects

Les tableaux de bord

z Olap

Possibilité d’exploration des données selon des axes d’analyse structurés en hiérarchies métier

Drill-down

Permettant de comprendre les phénomènes

Support pour des utilisateurs avertis

z Exemple

Olap

Rapport Hyperion

(11)

KXEN-Confidential 21

Les tableaux de bord z Pilotage

Tableaux de bord Entreprise

Indicateurs pré-définis

Rapports pré-définis personnalisés

Support pour la Direction

z Exemple

Pilotage

Siebel Analytics

KXEN-Confidential 22

Les tableaux de bord z Pilotage pro-actif

Des tableaux de bord

Personnalisés par rôle

Fournissant des alertes adaptées aux besoins métier

Support pour la Direction, les utilisateurs métier

Permettant de lancer des actions immédiates

z Exemple

Pilotage pro-actif

Dashboard Business Objects

(12)

KXEN-Confidential 23

Les tâches z Intégrer toutes les données

z Définir les indicateurs

Fiables, explicites, faciles et rapides à obtenir

Problème du choix de la granularité

z Définir les axes d’analyse

z Définir les rôles (profils utilisateurs)

Les droits d’accès

La personnalisation

z Mettre en œuvre les rapports

z Donner accès aux utilisateurs / rôle / canal z … le tout en respectant les contraintes

Qualité

Fréquence de rafraichissement / temps de chargement

Facilité d’emploi pour les utilisateurs

Adéquation au métier des utilisateurs

Nombre adequat de rapport («trop d’information tue l’information»)

L’utilisateur peut se passer « d’expert », il peut trouver l’information utile avec un temps d’apprentissage rapide

CRM Analytique – Réactif et pro-actif

z Le reporting

N’est « que » un mode de présentation des données

Les données sont normalisées

Permet de constater ce qui s’est passé

L’intelligence est fournie par l’utilisateur qui peut

‹Explorer les données (Olap)

‹Analyser les informations présentées dans les tableaux de bord

‹En tirer les conclusions pour définir les meilleures actions

Permet d’agir en réaction au passé

Les informations peuvent être longues à obtenir

Apporte une « valeur » à

z L’analyse prédictive

Fournit des «connaissances», i.e.

des informations non directement apparentes dans les données

Les données sont « à plat »

Permet d’exploiter les données du passé pour faire des prévisions sur ce qui est susceptible de se passer dans le futur

L’intelligence est fournie par l’outil data mining

Les résultats sont directement exploitables dans des actions CRM (marketing par exemple) en mode pro-actif

C’est un facteur majeur d’augmentation des revenus

‹Il est facile de construire un business case

Reporting Analyse Analyse prédictive

(13)

KXEN-Confidential 25

L’analyse prédictive z Les analyses data mining permettent de :

Construire des modèles prédictifs

Intégrer des informations prédictives dans les états BI

Identifier et comprendre les variables significatives (« key drivers »)

Produire des listes pour les actions marketing, commerciales

Anticiper les résultats des actions et donc faire des business cases avant de les lancer

Produire des informations prédictives (e.g. scores) à la volée si nécessaire

Data Mining

KXEN-Confidential 26

L’analyse prédictive

(14)

KXEN-Confidential 27

L’entreprise prédictive

z The Analytic Enterprise

Predictive Analytics Predictive Analytics

Recommendations Recommendations

Scoring Scoring

Data Mining

Data Mining

Business Intelligence

OLAP

QualityData Query/

Report Data Warehouse OPTIMIZE

z Customer Retention z Product Affinities z Promotions z Demand Planning z Quality Improvement z Employee Utilization OPTIMIZE

OPTIMIZE z

z Customer RetentionCustomer Retention zz Product AffinitiesProduct Affinities z

z PromotionsPromotions zz Demand Planning Demand Planning z

z Quality ImprovementQuality Improvement zz Employee UtilizationEmployee Utilization

ENABLE

z Customer Interaction z Inventory Control z Supply Chain

Management z Quality Measurement z Employee Self Service ENABLE

ENABLE z

z Customer InteractionCustomer Interaction z

z Inventory ControlInventory Control z

z Supply Chain Supply Chain Management Management zz Quality Measurement Quality Measurement z

z Employee Self ServiceEmployee Self Service

UNDERSTAND z Customer Satisfaction z Product Revenue z Cost of Goods Sold z HR Turnover UNDERSTAND UNDERSTAND z

z Customer SatisfactionCustomer Satisfaction zz Product RevenueProduct Revenue z

z Cost of Goods SoldCost of Goods Sold zz HR TurnoverHR Turnover

Operational Systems

ERP

ERM WEB CRM

Source: Jack Noonan, CEO SPSS, 2002

L’entreprise prédictive

Productivité

37 38 39 40 41 42 43 44 45 46

pricepromoplaceproduct

455 23 456 13 457 235 458 38 REPORT

Exploration Métier Modélisation traditionnelle

Modélisation de masse

Analyses Automatisées

Analyses Embarquées

+

Performance de l’entreprise

Reporting

& OLAP Equipes statistiques

Equipes statistiques &

Utilisateurs métier

« Usine à modèles »

(15)

KXEN-Confidential 29

Conclusion z L’intégration d’analyses prédictives dans les rapports

BI permet au CRM analytique de

Construire des Business Cases avant de lancer les actions marketing et commerciales et ainsi optimiser le ROI

Anticiper les événements importants

Comprendre les facteurs clés des comportements clients

Produire des scores / segments enrichissant les rapports

Fournir en temps réel des éléments prédictifs directement exploitables

z Le mouvement de l’historique vers le prédictif; du réactif vers le proactif est un mouvement de fond z Cependant ceci ne pourra se produire que si

Les utilisateurs peuvent s’approprier les outils

‹ Répondre seuls aux centaines de questions métier simples

‹ Faire appel aux spécialistes datamining pour les questions complexes

Les analyses data mining sont produites industriellement, rapidement dans de véritables « usines à modèles », totalement intégrées au SI

KXEN-Confidential 30

Conclusion

“ The whole Corporation moves from Guess & Act

to

Test, Understand, Predict & Act ”

Thomas Gith – Global Managing Partner Accenture

(16)

KXEN-Confidential 31

Conclusion z « Data mining is a difficult subject

On the one hand it is … this thing that will tell you all sorts of wonderful facts that you never knew about your data.

On the other hand … it is this daunting thing that is difficult to approach, seems to require a PhD in statistics to use and ends up telling you stuff that you already know …

z I had always thought of data mining as a tool of last resort

when the data is too large or complicated, and nothing else seems to work, you resort to data mining to try and find something that you cannot see with the naked eye …

z … data mining is something that you should be doing early and often in your data exploration

"Exploratory Data Mining" … is possible and even easy, and … becomes accessible to the masses »

z … success

comes from powerful robust algorithms that do not require a specialist to tweak, high performance so that you can get results quickly and finally and most importantly, ease of use »

http://bandb.blogspot.com/2005/08/data-mining-insight.html

Agenda

z Le data mining dans l’industrie

z Le data mining dans le SI de l’entreprise

z Le marché et les acteurs du data mining

z La méthodologie de mise en œuvre

(17)

KXEN-Confidential 33

Les outils du marché

z Concentration des acteurs z Intégration des outils

KXEN-Confidential 34

Agenda

z Le data mining dans l’industrie

z Le data mining dans le SI de l’entreprise

z Le marché et les acteurs du data mining

z La méthodologie de mise en œuvre

(18)

KXEN-Confidential 35

Enterprise Performance Management z Le projet data mining est un outil de production de

valeur, il s’intègre donc à la EPM z Que faut-il ?

Mesurer et analyser la performance

‹ Les mesures doivent dériver de la stratégie et fournir les données critiques sur les processus clés

‹ L’analyse fait appel aux données pour déterminer les tendances et les causes

Données et analyse appuient les buts de l’entreprise

‹ Planning, performance, amélioration des opérations, “best practices”

&benchmarks

Un point clé dans l’amélioration de la performance vise à créer et utiliser des indicateurs de performance

Les indicateurs de performance sont des caractéristiques mesurables des produits, services, processes, et opérations que l’entreprise utilise pour contrôler sa performance.

from http://www.quality.nist.gov/

Pourquoi une méthodologie ?

Le but est de

z Obtenir la croissance, la profitabilité et la satisfaction client

z … de façon consistente et continue

z Une méthodologie est nécessaire pour accompagner ce processus continu

« Failing to plan is planning to fail » !

“You can’t manage what you don’t measure”

(19)

KXEN-Confidential 37

Méthodologies Data mining

http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm

KXEN-Confidential 38

Méthodologies Data mining

z SEMMA

Méthodologie SAS-EM : les nœuds sont

regroupés selon les phases phases

Forte importance des phases Sample et Explore

Choix d’algorithmes nécessaire (Model)

Industrialisation et déploiement pas

vraiment couverts par la méthodologie et doivent être traités dans un projet ensuite

(20)

KXEN-Confidential 39

Méthodologies Data mining

z CRISP-DM – Cross Industry Standard Process for Data Mining

Développé en 2000, dans un projet Européen Esprit

Méthodologie SPSS dans Clementine

Nettoyage des données et préparation sont très importants

Choix d’algorithmes nécessaire

Méthodologies Data mining

z KDMAIC (Six Sigma)

(21)

KXEN-Confidential 41

Méthodologies Data mining z KDMAIC

z SEMMA z CRISP-DM

KXEN-Confidential 42

Méthodologies Data mining

z Productivité

Automatisation

‹ Codage, pas de recherche d’algorithme, test intégré, debriefing intégré

z Efficacité

Robustesse : Vapnik

z Méthodologie performante

KDMAIC

Approche traditionnelle

Sélectionner Les variables Sélectionner

Les variables ComprendreComprendre

Question MétierQuestion Métier

Appliquer Appliquer Préparer les données

Préparer les données Construire Le modèle Construire

Le modèle Tester le modèle

Tester le modèle

Approche KXEN

Question MétierQuestion Métier Construire le modèleConstruire le modèle ComprendreComprendre AppliquerAppliquer

Références

Documents relatifs

Objectif d’analyse : Ce que l’on cherche à suivre avec cet indicateur Tableau de bord de référence / domaine : Tableaux de bord qui font référence à cet indicateur. Mode de

Il s’agit dans un premier temps de savoir si l’automatisation des tableaux de bord permet à tous les utilisateurs d’avoir accès à plus de données et si ces données sont

Observatoire de la Protection juridique en Nouvelle-Aquitaine – Tableaux de bord 2019 DRJSCS Nouvelle-Aquitaine – CREAI

Ce pilotage passe en première étape par la conception et la mise en œuvre des tableaux de bord informatiques qui doivent être en parfaite corrélation avec les besoins

— Quand ils ont leurs bonnes femmes dans le dos, reprit le chef, ils fileraient jusqu'au Japon avec n'im- porte quel patron pour être sûrs qu'on ne leur fait pas la

Et c’est ainsi que, dans l’un des pays les plus riches du monde, où l’école est obligatoire depuis 130 ans, où des générations de tra- vailleurs se sont souvenus toute

Le TBG de chaque responsable inclut les informations qui sont indispensables à la gestion de son centre de responsabilité ainsi que les informations qui sont essentielles pour

● Support de « snippet » dynamiques Plus de types de