• Aucun résultat trouvé

Data Mining

N/A
N/A
Protected

Academic year: 2022

Partager "Data Mining"

Copied!
10
0
0

Texte intégral

(1)

Data Mining

1 - Introduction au data mining

Françoise Soulié Fogelman francoise@kxen.com

Master MI2 Pro EID- Université Paris 13 Data mining et Business Intelligence FDON

KXEN-Confidential 2

Data mining et Business Intelligence - FDON

KXEN-Confidential 3

Agenda

Le data mining dans l’industrie

Quelques exemples

Le data mining dans le SI de l’entreprise

Le marché et les acteurs du data mining

La méthodologie de mise en œuvre

KXEN-Confidential 4

L’Informatique Décisionnelle ou Business Intelligence Le data mining fait partie de l’informatique décisionnelle

(ou Business Intelligence – BI)

Predictive Business Intelligence

= Data mining Business Intelligence

KXEN-Confidential 5

L’Informatique Décisionnelle ou Business Intelligence

Exploiter les données du passé pour

■Comprendre le passé

■Prévoir l’avenir

Business Intelligence

Business Intelligence

prédictive

KXEN-Confidential 6

L’Informatique Décisionnelle ou Business Intelligence

Le reporting

■N’est « que » un mode de présentation des données

■Les données sont normalisées

■Permet de constater ce qui s’est passé

■L’intelligence est fournie par l’utilisateur qui peut

Explorer les données (Olap)

Analyser les informations présentées dans les tableaux de bord

En tirer les conclusions pour définir les meilleures actions

■Permet d’agir en réaction au passé

■Les informations peuvent être longues à obtenir

■Apporte une « valeur » à l’entreprise difficile à mesurer

L’analyse prédictive

■Fournit des «connaissances», i.e.

des informations non directement apparentes dans les données

■Les données sont « à plat »

■Permet d’exploiter les données du passé pour faire des prévisions sur ce qui est susceptible de se passer dans le futur

■L’intelligence est fournie par l’outil data mining

■Les résultats sont directement exploitables dans des actions CRM (marketing par exemple) en mode pro-actif

■C’est un facteur majeur d’augmentation des revenus

Il est facile de construire un business case

Reporting Analyse Analyse prédictive

(2)

KXEN-Confidential 7

L’Informatique Décisionnelle ou Business Intelligence

Trois fonctions

KXEN-Confidential 8

Le data mining … est à l’ordre du jour aujourd’hui

D’après : Rakesh Agrawal, Microsoft Search Labs, KDD’06, Philadephia, August 2006

KXEN-Confidential 9

Le data mining … hier

D’après : Andrew Moore, Auton Lab & Google, KDD’06, Philadephia, August 2006

KXEN-Confidential 10

Le data mining … aujourd’hui

D’après : Andrew Moore, Auton Lab & Google, KDD’06, Philadephia, August 2006

KXEN-Confidential 11

Le data mining … aujourd’hui ?

Deux jours après

5 000 colonnes

KXEN-Confidential 12

Le data mining … aujourd’hui

Ce qu’on voit déjà

■ Masses de données

Milliers de variables, 10-100 millions de lignes

■ Beaucoup de modèles

100 – 1000 modèles / an / semaine / jour

■ Ressources limitées

Quelques utilisateurs (10 – 30 ?)

… généralement dans un secteur de l’entreprise

■ Marketing, Risque …

Ce qu’on commence à voir

■ Des initiatives à l’échelle de l’entreprise

Conception, production, vente, maintenance, service client, marketing

■ Des ressources à l’échelle de l’entreprise

Beaucoup d’utilisateurs (100 – 1000 )

… ce qui va donner une nouvelle dimension au data

mining

(3)

KXEN-Confidential 13

Le data mining … est un investissement rentable

D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006

KXEN-Confidential 14

Le data mining … est un investissement rentable

D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006

KXEN-Confidential 15

Le contexte

Le data mining est un domaine où

■La recherche est active depuis très longtemps

Recherche universitaire – Communauté du Machine Learning Labos mixtes

– Google, Microsoft et Sun créent le RAD Lab de l’UC de Berkeley

» Reliable, Adaptive and Distributed Systems, ou RAD

» Financement de 7,5 millions de dollars

■L’exploitation industrielle explose

Les entreprises de pointe (Microsoft, Yahoo !, Google, Amazon …) – Yahoo ! « manages many of the largest and richest data repositories in the world,

and researchers mine insights from these giant collections » Les banques et les opérateurs téléphoniques ont tous mis en œuvre

– Des bases de données / data warehouses pour recueillir les données clients – Des méthodes data mining pour exploiter ces données

» Score d’octroi de crédit, ciblage des campagnes … Les industries de production manipulent

– Des gros volumes de données

– Utilisent la méthodologie SixSigma, qui s’appuie sur données et statistiques

L’exploitation industrielle du data mining impose des besoins & contraintes particuliers

KXEN-Confidential 16

Le contexte industriel

Des sources de données nombreuses

■ Volume des données : double chaque année

■ Sources : hétérogènes, incohérentes

Le nombre de décisions prises augmente sans cesse

■ Qualité des décisions prises : dépend des analyses menées

■ Coût / bénéfice d’une seule décision : peut être très grand

■ Décision en temps réel « au fil de l’eau » : nécessaire

Le nombre de modèles à produire augmente aussi

■ Capacité à produire des modèles : réduite

■ Disponibilité des experts : goulet d’étranglement

Des utilisateurs – et des besoins – variés

■ Utilisateurs : veulent répondre par eux-mêmes à leurs questions, sans dépendre d’experts ni être obligés d’en devenir eux-mêmes

Le process data mining doit être intégré au SI

■ Méthodologie de mise en œuvre : globale

■ Industrialisation / déploiement : facile

■ Contrôle et suivi des performances : automatisé

KXEN-Confidential 17

Le contexte industriel

Le nombre de modèles nécessaires

■ Augmente constamment

Vodafone estime son besoin à 716 modèles / an

XX produit 800 modèles / semaine

■ … mais la plupart des modèles ne sont pas produits …

Le nombre d’experts est limité

■ Le nombre de modèles produits par chaque expert doit augmenter

■ Les modèles doivent pouvoir être produits par les utilisateurs métier

La volumétrie des données augmente

■ “The cost of collecting, transmitting, and storing data has dropped so much that we need adequate tools to keep up”

Motorola

■ Il faut être capable de tenir de très gros volumes de données

100 M de lignes, 5 000 variables

Ce qui exclue de dupliquer les données

KXEN-Confidential 18

Le contexte industriel

D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006

(4)

KXEN-Confidential 19

Le contexte industriel

Les utilisateurs sont experts de leur métier : ils savent

■Où se situent les problèmes, quelles sont les questions clés à résoudre

■Quelles sont les données utilisées / générées par leur activité

■Apprécier la valeur métier du résultat d’un modèle prédictif qu’on leur fournit

Les utilisateurs ne sont pas des experts statisticiens : ils ne savent pas

■Décider quel algorithme il faut utiliser dans quel cas

D’ailleurs, la nature de l’algorithme est sans importance pour eux

■Manipuler les données

■Sélectionner / coder les variables de façon statistiquement efficace

Les données peuvent être de mauvaise qualité : outliers, données manquantes

■“Décoder” les résultats d’un modèle

Le modèle doit être explicatif

■Évaluer la validité statistique d’un résultat

KXEN-Confidential 20

Le contexte industriel

L’analyse prédictive n’est pas assez utilisée

Millions de décisions journalières Millions de d Millions de déécisionscisions

journali journalièèresres Doigt Mouillé

Impressions Publications OLAP &

Reporting Excel

Analyse prédictive

KXEN-Confidential 21

Agenda

Le data mining dans l’industrie

Quelques exemples

Le data mining dans le SI de l’entreprise

Le marché et les acteurs du data mining

La méthodologie de mise en œuvre

KXEN-Confidential 22

Le churn

Le churn dans les telecom

Un client part à la concurrence Questions

Evaluer et suivre le coût du churn

■ Comment ?

Réduire le churn

■ Qui doit-on retenir ?

■ Pourquoi ?

■ Comment ?

ARPU : Average Revenue per User

KXEN-Confidential 23

Le churn

1.

Evaluer et suivre le coût du churn

■ Méthode 1

On évalue simplement la perte de CA sur 1 an

■ Méthode 2

On ajoute aussi les coûts d'acquisition (dépensés pour rien)

(Mais on a déjà commencé à émettre des factures mensuelles … )

On peut produire un TdB de suivi du churn selon plusieurs axes

■ Type de forfait, montant de la facture mensuelle, géographie, temps …

KXEN-Confidential 24

Le churn

2.

Réduire le churn

Faut-il réduire le churn ?

Tous les clients ne sont pas semblables …

■ Il faut segmenter les clients

Nombre CA 31%

36%

33%

70%

26%

(96%) 5%

15%

80%

Nombre CA

20%

50%

30%

55%

30% 15%

5%

25%

70%

Distribution

Distribution … … Banque ... Banque ...

Marge Marge

(5)

KXEN-Confidential 25

Le churn

2.

Réduire le churn

Tous les clients … ne sont pas à la même étape dans leur cycle de vie

■ Il faut prévoir ce que va faire un client

CA initial Augmentation du CA sur produit initial 1

Cross selling 2

Augmentation des marges 2

(D’après Frederick F. Reichheld "The Loyalty Effect" - Harvard Business School Press, 1996) 1 2

3 4

Acquisition Développement Rétention Win-back

Prescription 2

CA

Durée de vie de la relation client Coûts

0

1

KXEN-Confidential 26

2.

Réduire le churn

Tous les clients … n’ont pas la même valeur (Life Time Value)

■ Il faut calculer la Valeur Client

Le churn

Revenu généré par le client

Prospect Client Sponsor

Cycle de vie du client Churn Break

even

0

Coûts

KXEN-Confidential 27

2.

Réduire le churn

Tous les clients … ne doivent pas être traités de la même façon

www.1to1.com

■ Il faut personnaliser les actions

Valeur client

Le churn

Nb de clients

2005 2006

KXEN-Confidential 28

Le churn

2.

Réduire le churn

■ Segmenter les clients

Produire les segments

Caractériser les segments

KXEN-Confidential 29

Le churn

2.

Réduire le churn

■ Prévoir ce que va faire un client

Pourquoi

Produire des listes de ciblage

KXEN-Confidential 30

Le churn

Qu’apportent les analyses ?

■Connaissance client

Comprendre ce qui différencie les clients

Détecter les leviers d’actions

■Fournir les informations nécessaires pour les actions

Gagner en efficacité

Exemple : campagne ciblée / non ciblée

On peut aussi réduire la taille de la cible (et donc les coûts) tout en maintenant le nombre de réponses

(6)

KXEN-Confidential 31

Système de recommandation

Aider le client à trouver ce qu’il recherche

www.Amazon.fr

KXEN-Confidential 32

Système de recommandation

… ce qui nécessite de faire beaucoup de modèles

http://blog.recommenders06.com/wp-content/uploads/2006/09/bennett.pdf

KXEN-Confidential 33

Système de recommandation

… et augmente la satisfaction des clients

http://blog.recommenders06.com/wp-content/uploads/2006/09/bennett.pdf Satisfaction

Relative Cost

Recs Interest Search NR

KXEN-Confidential 34

Exploiter les données d’un site

Données dynamiques Date d’entrée Lien cliqué Navigateur URL d’origine Temps passé

Données dynamiques Type de projet Montant demandé Mensualité

Données statiques Nom, prénom Adresse Adresse email Date de naissance Situation familiale … ID Client Date de création En-cours Litiges …

Base Clients

Base Clients / Prospects

KXEN-Confidential 35

Exploiter les données d’un site

Vente assistée sur le Web Score d’appétence

■ Temps réel

■ Proposition

■ Orientation vers l’agent compétent Résultats

■ Taux d’acceptation / taux « naturel »

■ Taux d’achat

■ Business case

Les informations représentées ici sont fictives

http://www.kxen.com Variables

Nb visites / an 1 000 000

Config PC supportée 80% 800 000

Filtrage 30% 240 000

Proposition (modèle - 3 déciles) 30% 72 000

Taux d'acceptation 17% 12 240

Interaction menée à terme 60% 7 344

Acheteurs 5% 367

Valeur de transaction 1 000 € 367 200 € Exemple

0 2 000 4 000 6 000 8 000 10 000 12 000 14 000

-3 sigma -2 sigma 1 sigma 2 sigma 3 sigma 0%

5%

10%

15%

20%

25%

30%

35%

40%

45%

Nb visiteurs Taux de conversion

KXEN-Confidential 36

Exploiter les données d’un site

Modèle d’attrition des clients de la banque en ligne

■ Attrition est défini comme “inactivité de plus de 6 mois”

■ Modèle produit en 3 heures

200 variables réduites à 40

■ 44 % des clients attrités détectés dans le 1erdécile

Caractérisation des clients attrités

■ 1 million de clients scorés en 43 secondes (en batch sur Teradata) Les informations représentées ici sont fictives

0%

20%

40%

60%

80%

100%

10 % 20 % 30 %

40 % 50 %

60 % 70 %

80 % 90 %

100 % 0 2 4 6 8 10

1 2 3 4 5 6 7 8 9 10

Décile

Ancienneté

Ancienneté Banque en-ligne Ancienneté Banque

(7)

KXEN-Confidential 37

Campagne email

Optimisation de campagnes d’un site e-commerce

■ Combien de jours après l’achat envoyer l’email

Appétence cross-enseigne pour campagnes d’acquisition

Les informations représentées ici sont fictives

Nb jours avant email

Sans ciblage Avec ciblage

Nb emails envoyés 51 968 29 999

Ouvertures totales

Nombre 18 890 34 179

Taux 36,35% 113,93%

Ouvertures uniques totales

Nombre 11 621 16 896

Taux 22,36% 56,32%

Clics totaux

Nombre 3 222 9 538

Taux 6,20% 31,79%

Clics uniques totaux

Nombre 2 619 6 879

Taux 5,04% 22,93%

KXEN-Confidential 38

Agenda

Le data mining dans l’industrie

Quelques exemples

Le data mining dans le SI de l’entreprise

Le marché et les acteurs du data mining

La méthodologie de mise en œuvre

KXEN-Confidential 39

Data mining & SI - CRM

CRM Analytique Back-Office

Base de Données Clients

Data Mining ERP

Bases Legacy

CRM Opérationnel

Marketing

Ventes

Service Clients Reporting Olap

Canaux de contact

Client

Clients Courrier SMS E-mail

Question- naires Fax Internet Téléphone

Fichiers externes

Production Fabrication

Conditionnement

Informatique

SAV

Distribution R&D

Expédition

KXEN-Confidential 40

Data mining & SI

Intégrer les données

■ Définir un référentiel

■ Mettre en cohérence et nettoyer / dédupliquer

… pour construire la « vue 360 ° » du client

… pour intégrer les informations de tous les processus

Produire des tableaux de bord

■ Pour permettre au management et aux opérationnels d'être réactifs

Produire des analyses prédictives

■ Pour permettre à l'entreprise d'être plus réactive mais également pro-active

Sous les contraintes …

■ Capacité à produire des Tableaux de Bord et Analyses en très grand nombre pour servir tous les utilisateurs métier

■ Rapidité de mise en oeuvre

■ Facilité de prise en main / mise en oeuvre par les utilisateurs métier

■ Production des résultats "en temps réel" pour action immédiate

KXEN-Confidential 41

Les données

Propensité d’achat par produit, par canal Scores de risque, de churn ...

« Share of wallet » Life Time Value

Aspirations Plans futurs Attitudes

Comportement de consommation Préférences de canal Position dans le cycle de vie Comportement de navigation

Nom, prénom, adresse Sexe

Date de naissance Revenu

Transactions d’achats Click-stream Réponse aux campagnes Appel au centre d’appels Rendez-vous commerciaux

Exemple

La vue 360°

du client

KXEN-Confidential 42

0 500 000 1 000 000 1 500 000 2 000 000 2 500 000 3 000 000

1 2 3 4 5 6 7 8 9 10

Top Ten 2005 2003 2001

0 20 40 60 80 100

1 2 3 4 5 6 7 8 9 10

Top Ten 2005 2003 2001

Les données

Les datawarehouses client

■ La taille (jusqu’à 100s TO) croit vite (X3 tous les 2 ans)

■ Investissements de 100s M$

■ Millions de clients & milliers de variables

Taille de la Base (TO) Nb de lignes, enregistrements ou objets (Millions)

D’après http://www.wintercorp.com

(8)

KXEN-Confidential 43

Les tâches

Gérer l’ensemble des données à travers tout le cycle de vie

Capturer les données

Nettoyer les données

■Mise en cohérence (référentiel)

■Déduplication

Enrichir les données

■Données externes

Constituer le DWH

■Données normalisées

Distribuer les données aux utilisateurs en fonction de :

■Leurs besoins

■Leurs droits

… le tout en respectant les contraintes

■Qualité

■Fréquence de rafraîchissement / temps de chargement

■Synchronisation

■Disponibilité temps réel si nécessaire

KXEN-Confidential 44

Data mining & SI

L’utilisation d’analyses prédictives permet de

■ Construire des Business Cases avant de lancer les actions marketing et commerciales et ainsi optimiser le ROI

■ Anticiper les événements importants

■ Comprendre les facteurs clés des comportements (clients, produits, …)

■ Produire des scores / segments enrichissant les rapports BI

■ Fournir en temps réel des éléments prédictifs directement exploitables

Le mouvement de l’historique vers le prédictif - du réactif vers le proactif est un mouvement de fond, qui ne pourra se produire que si

■ Les utilisateurs peuvent s’approprier les outils

Répondre seuls aux centaines de questions métier simples

Faire appel aux spécialistes datamining pour les questions complexes

■ Les analyses data mining sont produites

Industriellement, rapidement dans de véritables « usines à modèles », totalement intégrées au SI

KXEN-Confidential 45

Data mining & SI

“ The whole Corporation moves from Guess & Act

to

Test, Understand, Predict & Act ” Thomas Gith – Global Managing Partner Accenture

KXEN-Confidential 46

Agenda

Le data mining dans l’industrie

Quelques exemples

Le data mining dans le SI de l’entreprise

Le marché et les acteurs du data mining

La méthodologie de mise en œuvre

KXEN-Confidential 47

Les outils du marché

Concentration des acteurs & Intégration des outils

Enterprise Decision Management

Fair Isaac Sigma Dynamics Text Mining

Intelligent Results ClearForest

ThinkAnalytics IBM

Data-Mining Workbenches

SAS

SPSS Oracle Angoss

Teradata Unica Microsoft

Generation5 KXEN Automated Model

Development

Embedded Into DBMS

Advizor Solutions Spotfire

Data Visualization Chordiant

SSA SAP

Integrated With Operational Applications

Portrait

D’après : Gareth Herschel, Gartner, KXEN Users Group, San Francisco, November 2006

KXEN-Confidential 48

Agenda

Le data mining dans l’industrie

Quelques exemples

Le data mining dans le SI de l’entreprise

Le marché et les acteurs du data mining

La méthodologie de mise en œuvre

(9)

KXEN-Confidential 49

Enterprise Performance Management

Le projet data mining est un outil de production de valeur, il s’intègre donc à la EPM

Que faut-il ?

■Mesurer et analyser la performance

Les mesures doivent dériver de la stratégie et fournir les données critiques sur les processus clés

L’analyse fait appel aux données pour déterminer les tendances et les causes

■Données et analyse appuient les buts de l’entreprise

Planning, performance, amélioration des opérations, “best practices” &

benchmarks

■Un point clé dans l’amélioration de la performance vise à créer et utiliser des indicateurs de performance

■Les indicateurs de performance sont des caractéristiques mesurables des produits, services, processes, et opérations que l’entreprise utilise pour contrôler sa performance.

D’après http://www.quality.nist.gov/

KXEN-Confidential 50

Pourquoi une méthodologie ?

Le but est de

Obtenir la croissance, la profitabilité et la satisfaction client

… de façon consistente et continue

Une méthodologie est nécessaire pour accompagner ce processus continu

« Failing to plan is planning to fail » !

“You can’t manage what you don’t measure”

KXEN-Confidential 51

Méthodologies Data mining

http://www.kdnuggets.com/polls/2004/data_mining_methodology.htm

KXEN-Confidential 52

Méthodologies Data mining

SEMMA (SAS)

■Méthodologie SEM

Les nœuds sont regroupés selon les phases

■Forte importance des phases

Sample et Explore

Choix d’algorithmes (Model)

■Industrialisation et déploiement pas couverts par la méthodologie

Il faut un projet ensuite

KXEN-Confidential 53

Méthodologies Data mining

CRISP-DM (SPSS)

■Développé en 2000, dans un projet Européen Esprit

■Une vraie méthodologie

Avec descriptions des tâches / livrables

Très détaillée sur l’analyse des besoins métier

Insiste sur l’importance de la documentation projet

■Forte importance des phases

Nettoyage des données et préparation

Choix d’algorithmes

KXEN-Confidential 54

Méthodologies Data mining

KXEN s’appuie sur la méthodologie DMAIC (Six

Sigma)

M4 - Create Analytical Data Set D3 - Develop

project charter D2 - Develop

process map

D

EFINE

M

EASURE

A

NALYZE

I

MPROVE

C

ONTROL

D1 - Define &

prioritize needs

M3 - Develop Data collection plan M2 - Identify list

of possible variables M1 - Define

performance measures

A4 - Create final model A3 - Confirm

performance objectives A2 –

Refine model A1 - Produce first

model

I3 - Monitor performance I2 –

Industrialize solution I1 - Optimize

solution

C3 - Prepare &

implement transfer plan C2 –

Implement control plan C1 - Develop

control plan

(10)

KXEN-Confidential 55

Méthodologies Data mining

DMAIC est une méthode itérative

KXEN-Confidential 56

Méthodologies Data mining

DMAIC couvre toutes les phases du projet data mining

DEFINE MEASURE ANALYZE IMPROVE CONTROL

S E M M A

C R I S P - D M

KXEN-Confidential 57

Méthodologies Data mining

Productivité

■ Automatisation

Codage, pas de recherche d’algorithme, test intégré, debriefing intégré

Efficacité

■ Robustesse : Vapnik Méthodologie performante

■ DMAIC

Approche traditionnelle

Sélectionner Les variables Sélectionner

Les variables ComprendreComprendre

Question MétierQuestion Métier

Appliquer Appliquer Préparer les données

Préparer les données Construire Le modèle Construire Le modèle Tester

le modèle Tester le modèle

Approche KXEN

Références

Documents relatifs

This book is about the tools and techniques of machine learning used in practical data mining for finding, and describing, structural patterns in data.. As with any burgeoning

If you are a statistician or marketing analyst who has been called upon to implement data mining models to increase response rates, increase profitability, increase customer

Research on this problem in the late 1970s found that these diagnostic rules could be generated by a machine learning algorithm, along with rules for every other disease category,

■ Capacité à produire des Tableaux de Bord et Analyses en très grand nombre pour servir tous les utilisateurs métier. ■ Rapidité de mise

Le choix de calculer les expressions SQL vous permet de voir, dans le compte rendu du modèle, les expressions SQL définissant chaque segment généré. Le choix de calculer les

■ Chez un vendeur d’outil d’analyse de données, il peut exporter des modèles destinés à être intégrer dans des environnements de scoring. ■ Dans une

 Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/.. ■

« Le Data Mining est une discipline née en dehors de la statistique, dans la communauté des bases de données et de l’IA dans le but de valoriser les bases de données. Le Data