Data Mining

(1)

Data Mining

1 - Introduction au data mining

Françoise Soulié Fogelman [email protected]

Master MI2 Pro EID - Université Paris 13 Data mining et Business Intelligence FDON

Janvier – Février 2008

2

Plan du cours

3

Références générales

Cours en ligne

1. Andrew Moore – Statistical Data Mining Tutorials. http://www.autonlab.org/tutorials/

2. Carlos Guestrin – Machine Learning. School of Computer Science, Carnegie Mellon University. http://www.cs.cmu.edu/~guestrin/Class/10701/schedule.html#basics 3. Isabelle Guyon and André Elisseeff – Feature Extraction. ETH Zürich.

http://clopinet.com/isabelle/Projects/ETH/

4. Tommi S. Jaakkola – Machine learning. MIT AI Lab.

http://ocw.mit.edu/OcwWeb/Electrical-Engineering-and-Computer-Science/6-867Machine- LearningFall2002/CourseHome/index.htm

5. Jeffrey D. Ullman – Data Mining. Computer Science. Stanford University.

http://www.stanford.edu/class/cs345a/

6. Yann LeCun – Introduction to Machine Learning and Pattern Recognition. Courant Institute. New York University. http://www.cs.nyu.edu/~yann/2007s-V22-0480- 002/schedule.html

7. Andreas Weigend – Data Mining and Electronic Business. Stanford University.

http://www.weigend.com/Teaching/Stanford/

4

Références générales

Livres / articles

1. Christopher Bishop. Neural Networks for Pattern Recognition. Oxford University Press.

1995.

2. Gilbert Saporta – Probabilités, Analyse des données et statistique. Editions Technip. 1990.

3. David Hand, Heikki Manila & Padhraic Smyth – Principles of Data Mining. MIT Press. 2001.

4. Trevor Hastie, Robert Tibshirani, Jerome Friedman – The elements of statistical learning.

Data mining, Inference and Prediction. Springer Series in Statistics. 2001.

5. Sylvie Thiria, Y. Lechevallier, O. Gascuel, S. Canu Ed. Statistiques et méthodes neuronales. Dunod. 1997.

6. Vladimir Vapnik – Estimation of Dependences based on empirical data. Springer.

Information sciences and Statistics. Reprint of 1982 Edition with afterword. 2006.

7. Vladimir Vapnik – Statistical Learning Theory, Wiley-Interscience, 1998.

8. Vladimir Vapnik – The Nature of Statistical Learning Theory, Springer-Verlag, 1999.

9. Françoise Fogelman Soulié – CRM Analytique - L’apport du Data Mining. In «Apprentissage Artificiel & Fouille de Données », Y. Bennani, E. Viennet eds, Revue des Nouvelles Technologies de l'Information. 2007. A paraître.

Ressources en ligne

1. Wikipedia http://en.wikipedia.org/wiki/Data_mining 2. Videos Machine learning. http://videolectures.net/

3. Site de références Data Mining. http://www.kdnuggets.com/

5

Agenda

1. Qu’est ce que le data mining 2. Les principaux types de modèles 3. Statistique & data mining 4. Le data mining dans l’industrie 5. Les nouvelles sources de données 6. Conclusion

6

Qu’est ce que le data mining

Un ensemble de méthodes permettant l’exploitation des données pour

Décrire

Comprendre

Agir

(2)

7

Qu’est ce que le data mining

Le data mining repose sur des techniques nombreuses

Statistiques

Machine learning

Intelligence Artificielle

Reconnaissance des formes

Informatique …

« The scary thing is that when you scratch the surface, you find you need all these new sciences that don't exist yet, combining machine

learning, artificial intelligence and microeconomics with traditional computer and data sciences »

U. Fayyad (Yahoo !)

8

Données

9

Données

Sources nombreuses

■ Production

■ Sources externes

Types variés

■ Structuré

■ Non structuré

• Texte

• Image

• Video

• Audio …

Volumes croissants

■ Le Web domine !

Russom, TDWI 2007

10

Research Research Research Research

Yahoo! Data – A league of its own…

Terrabytes of Warehoused Data

25 49 94 100 500

1,000 5,000

Amazon Korea Telecom AT&T Y! LiveStor Y! Panama Warehouse Walmart Y! Main warehouse

GRAND CHALLENGE PROBLEMS OF DATA PROCESSING

TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL,

INTERNET

Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE Millions of Events Processed Per Day

50 120 225 2,000

14,000

SABRE VISA NYSE Y! Panama Y! Data Highway

Fayyad, KDD 2007

11

Fonctions d’exploitation des données

Requêtes

■ Requête : données structurées

■ Search : données non structurées

Reporting

■ Présentation des données dans des tableaux de bord

■ Statistiques descriptives

Extraction d’information

■ Data mining

• Modèles descriptifs : segments, associations

• Modèles prédictifs : scores, séries temporelles …

■ Text mining

• Catégorisation, résumé …

Pour fournir des services à valeur ajoutée

■ Campagnes marketing, e-commerce, publicités et mots clés, …

Tout en gérant les risques

■ Fraude, spam, intrusion, money laundering …

Dans tous les secteurs industriels

■ Banque & Assurance, Télécom, Grande distribution, Web, …

Informatique

Informatique décisionnelle

Data mining

Text mining

12

Le contexte

Le data mining est un domaine où

La recherche

est active depuis très longtemps

■ Recherche universitaire

• Communauté du Machine Learning

■ Labos mixtes

• Google, Microsoft et Sun créent le RAD Lab de l’UC de Berkeley – Reliable, Adaptive and Distributed Systems, ou RAD – Financement de 7,5 millions de dollars

L’exploitation industrielle

explose

■ Les entreprises de pointe (Microsoft, Yahoo !, Google, Amazon …)

• Yahoo ! « manages many of the largest and richest data repositories in the world, and researchers mine insights from these giant collections »

■ Les banques et les opérateurs téléphoniques ont tous mis en œuvre

• Des bases de données / data warehouses pour recueillir les données clients

• Des méthodes data mining pour exploiter ces données – Score d’octroi de crédit, ciblage des campagnes …

■ Les industries de production manipulent

• Des gros volumes de données

• Utilisent la méthodologie SixSigma, qui s’appuie sur données et statistiques

L’exploitation industrielle impose des contraintes particulières

(3)

13

Applications

Campagnes marketing

14

Applications

Crédit

Ce crédit est refusé

15

Applications

Recommandations

Recommandation Ratings

Recommandation

16

Applications

Bannières &

Mots clés Requête

Résultats Bannières

Research Areas Research Areas

Paid Search Paid Search

Relevance Relevance

••

Relevance verification Relevance verification

•

Relevance measurement Relevance measurement Keywords Technologies Keywords Technologies

••

Categorization Categorization

•

Mutation/Group detection Mutation/Group detection

••

Forecasting Forecasting

••

… …

Content Ads Content Ads

Text Mining Text Mining Concept hierarchy Concept hierarchy Term extraction Term extraction Sensitive Content detection Sensitive Content detection

… …

Behavior Targeting Behavior Targeting

Age and Gender prediction Age and Gender prediction Online Commercial Intention Online Commercial Intention detection

detection

Audience Segmentation Audience Segmentation Social networking Social networking

… …

Emerging Market Emerging Market

Video ads Video ads Large display Large display Local ads Local ads Mobile ads Mobile ads

…

… http://adlab.msn.com/

18

Applications

Sécurité

Détection de la fraude

http://mmdss.jrc.it/Presentations/Docs/MMDSS_Hand_PUBLIC.pdf

« Intelligence »

http://mmdss.jrc.it/Presentations/Docs/MMDSS_Best.pdf

http://press.jrc.it/NewsBrief/clusteredition/en/latest.html

(4)

19

Agenda

1. Qu’est ce que le data mining 2. Les principaux types de modèles 3. Statistique & data mining 4. Le data mining dans l’industrie 5. Les nouvelles sources de données 6. Conclusion

20

Qu’est ce qu’un modèle ?

« Data mining is the analysis of (often large) observational data sets to find unsuspected relationships and to summarize the data in novel ways that are both understandable and useful to the data owner »

Hand, 2001

Un modèle est l’objet mathématique qui décrit ces relations

On peut considérer un modèle comme un processus qui fournit un

résultat sur la base des informations qu’on lui présente

Les données d’entrée peuvent être nombreuses

Elles proviennent, en général, d’une base de données

21

Les différents types de variables

Variables quantitatives

Variables sur lesquelles les opérations arithmétiques ont un sens

■ Variables numériques réelles

• 0,3256

■ Variables discrètes

• 1, 2, 27

Variables qualitatives

Variables dont les valeurs sont des catégories ou des modalités

■ Variables ordinales (numérique ou texte) dont l’ordre a un sens, mais pas les opérations arithmétiques

• A, B, C

• Un peu, beaucoup, passionnément

• Dates : 22112007, 23 novembre 2007

■ Variables nominales dont l’ordre n’a pas de sens

• Numérique : variables numériques discrètes – Codes postaux (75 013, 92 125 …) – Binaire : 0 ou 1

• Texte : chaînes de caractères sans ordre significatif – CC –carte crédit, CH –chèque, RA –retrait automatique – Bleu, blanc, rouge

22

Les principaux types de modèles

Il y a deux grandes familles de modèles Les modèles descriptifs

Description

■ Représentation des données dans des graphiques synthétiques

Visualisation

■ Représenter visuellement les données

Clustering / Segmentation

■ Déterminer des regroupements des items

Associations

■ Déterminer les groupes d’items qui se présentent souvent ensemble

Les modèles prédictifs

Régression

■ Prévoir une valeur continue

Classification

■ Prévoir dans laquelle des classes pré-définies se trouve un item

23

Les principaux types de modèles

Modèles descriptifs

Visualisation

24

Les principaux types de modèles

Modèles descriptifs

Le modèle est une description / simplification du phénomène

■ Statistiques descriptives

■ Importance des variables

■ Segments

■ Associations …

(5)

25

Les principaux types de modèles

Modèles prédictifs

Classification

■ La cible est nominale

• Binaire : il y a 2 classes (0 et 1)

• Multi-modale : il y a n classes (1, 2, …, n)

26

Les principaux types de modèles

Modèles prédictifs

Régression

■ Le modèle donne une estimation de la classe ou de la valeur

• La cible est continue – Score – Série temporelle …

■ Des modèles différents donnent des prévisions différentes

• Quelle est la “bonne” prévision ?

• Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?

Passé

Futur

Données Modèle

27

Agenda

1. Qu’est ce que le data mining 2. Les principaux types de modèles 3. Statistique & data mining 4. Le data mining dans l’industrie 5. Les nouvelles sources de données 6. Conclusion

28

Historique

1900-1990 : statistiques

■ Fisher, Cramer, Bayes, Kolmogorov-Smirnoff …

1985-1995 : réseaux de neurones

■ En 1982, réseau de Hopfield

■ En 1985-86 : Perceptron Multi-couche(Rumelhart, LeCun)

■ En 1984 : Cartes Topologiques & Learning Vector Quantization (Kohonen)

En 1991 Vapnik quitte la Russie et rejoint les Bell Labs

■ Sa « Statistical Learning Theory » est appliquée aux réseaux de neurones

■ Il développe les SVM

1992-2007 : le data mining émerge des divers domaines

■ Statistique

■ Machine learning

■ Intelligence Artificielle

■ Reconnaissance des Formes

■ Informatique (bases de données) …

Les fondations théoriques du data mining proviennent essentiellement des statistiques

29

Historique (personnel)

En 1985 nous commençons à travailler sur les réseaux de neurones

■ Gradient Back Propagation

En 1991, nous mettions au point des techniques opérationnelles

■ Early stopping, Optimal Brain Damage, Weight Decay, TDNN, LVQ …

En février 1991, start-up Mimetics

■ Réseaux de neurones, OCR

■ Échec après rachat par Adaptive Solutions

En avril 1991 (Snowbird Learning Workshop)

■ Exposé de Vapnik

■ Un « beau » cadre mathématique

■ Très opérationnel

• Nos « trucs » MLP sont expliqués

En 1998, start-up KXEN

■ Le software de data mining de KXEN est basé sur la théorie de Vapnik

■ La société croît régulièrement

■ http://www.kxen.com/

30

Statistiques

Le domaine des statistiques est très vaste. Il comprend (notamment ! )

Voir Saporta

La statistique exploratoire

Statistiques descriptives

■ Représentations graphiques

■ Représentations numériques

• Moyenne, variance, médiane …

Statistiques croisées

■ Représentations graphiques

■ Représentations numériques

• Coefficient de corrélation

Descriptions multi-dimensionnelles

■ Analyse en Composantes Principales

• Variables numériques

■ Analyse factorielle

• Variables catégoriques http://fr.wikipedia.org/wiki/Analyse_en_composantes_principales http://rb.ec-lille.fr/l/Analyse_de_donnees/Methodologie_L_AFC_pour_les_nuls.pdf

(6)

31

Statistiques

La statistique inférentielle

L’estimation

■ Biais

■ Maximum de vraisemblance

■ Intervalles de confiance

Les tests

■ Tests d’hypothèses

■ Tests d’ajustement

■ Tests de comparaison d’échantillons

La régression

L’analyse discriminante La statistique mathématique

La théorie des probabilités

Les divers théorèmes de statistiques

La « Statistical Learning Theory » de V. Vapnik

32

Statistique & data mining

Ce que disent les statisticiens

«Le Data Mining est une discipline née en dehors de la statistique, dans la communauté des bases de données et de l’IA dans le but de valoriser les bases de données. Le Data Mining offre des perspectives nouvelles pour la statistique et répond au défi du traitement des gigabasesde données. »

G. Saporta «La statistique … est attachée à la notion de preuve pour valider une

méthode … En revanche, … le data mining… vise à l’efficacité opérationnelle en admettant une approche empirique. … Une caricature de la démarche conduit … [en statistique] à des méthodes théoriquement performantes mais inutilisables … ne répondant pas aux besoins des praticiens … [edn data mining] on assiste à un foisonnement de … variantes incrémentales des algorithmes censées en améliorer la vitesse ou la précision» P. Besse «We are ceding some of the most interesting of current statistical problems

to computer scientists and engineers allied to the machine learning area … Young statisticians need to learn about algorithmic modeling and how it applies to a large variety of statistical problems»L. Breiman in Bolton & Hand «Data mining is more than statistics writ large» D. Hand « Statistics is the science of learning from data » J. Kettenring in Saporta « Data mining is the set of engineering techniques for learning from data »

Moi

33

Agenda

1. Qu’est ce que le data mining 2. Les principaux types de modèles 3. Statistique & data mining 4. Le data mining dans l’industrie 5. Les nouvelles sources de données 6. Conclusion

34

Le data mining … hier

Andrew Moore, KDD’06

35

Le data mining … aujourd’hui

Andrew Moore, KDD’06

36

Le data mining … aujourd’hui ?

Deux jours après

5 000 colonnes

(7)

37

Le data mining … aujourd’hui

Ce qu’on voit déjà

■ Masses de données

• Milliers de variables, 10-100 millions de lignes

■ Beaucoup de modèles

• 100 – 1000 modèles / an / semaine / jour

■ Ressources limitées

• Quelques utilisateurs (10 – 30 ?)

… généralement dans un secteur de l’entreprise

■ Marketing, Risque …

Ce qu’on commence à voir

■ Des initiatives à l’échelle de l’entreprise

• Conception, production, vente, maintenance, service client, marketing

■ Des ressources à l’échelle de l’entreprise

• Beaucoup d’utilisateurs (100 – 1000 )

… ce qui va donner une nouvelle dimension au data mining

38

Le contexte industriel

Des sources de données nombreuses

■ Volume des données : double chaque année

■ Sources : hétérogènes, incohérentes

Le nombre de décisions prises augmente sans cesse

■ Qualité des décisions prises : dépend des analyses menées

■ Coût / bénéfice d’une seule décision : peut être très grand

■ Décision en temps réel « au fil de l’eau » : nécessaire

Le nombre de modèles à produire augmente aussi

■ Capacité à produire des modèles : réduite

■ Disponibilité des experts : goulet d’étranglement

Des utilisateurs – et des besoins – variés

■ Utilisateurs : veulent répondre par eux-mêmes à leurs questions, sans dépendre d’experts ni être obligés d’en devenir eux-mêmes

Le process data mining doit être intégré au SI

■ Méthodologie de mise en œuvre : globale

■ Industrialisation / déploiement : facile

■ Contrôle et suivi des performances : automatisé

39

Le contexte industriel

Ce qui est central : les algorithmes & la théorie ?

Non

■ Dans le monde industriel : $$$$

Oui

■ Il faut s’appuyer sur une théorie solide pour obtenir $$$

■ À condition qu’elle soit opérationnelle !

20

Research ResearchResearch Research

Researcher view

Algorithms and Theory

Database

Systems

22

Research ResearchResearch Research

Practitioner view

Systems and integration Database

Algorithms Customer

23

Research Research Research Research

Business view

Systems Database

Algorithms Customer

$$$’s

40

Le contexte industriel

Le data mining fournit des moyens de définir des actions

■ Un modèle non utilisé pour une action n’est qu’un coût inutile

Le volume de données croît exponentiellement

■ Le nombre de modèles doit suivre

Herschel, Gartner 2006

41

Le contexte industriel

Le Data mining est utilisé surtout dans des applications CRM

Les utilisateurs ne sont pas des

data miners

Pour être productifs, il faut être simple

■ Les utilisateurs comprennent les modèles

■ Les utilisateurs produisent les modèles

Eckerson, TDWI, 2007

21

Research ResearchResearch Research Business Challenges

Conversion

Retention Acquisition

Loyalty Average Order

Technologies Specialists Statisticians

DBAs Consultants

Data Mining PhDs Segmentation

Logistic Regressions

Genetic Algorithms Decision

Trees

Chaid CART

OLAP

Bayesian Networks Neural Networks Business Results Gap

Business Challenges

Conversion

Retention Acquisition

Loyalty Average Order

Technical Tools Business users are unable to apply the power of existing data mining tools to achieve results

42

Le contexte industriel

Le processus data mining comprend 4 étapes

(8)

43

Le contexte industriel

44

Le contexte industriel

Le processus data mining n’est pas très efficace

On n’utilise pas toutes les

variables

La manipulation des données est très lourde

La construction d’un modèle prend très longtemps

■ Des semaines, voire des mois

Time to build a model

Project breakdown

Number of variables used

Eckerson, TDWI, 2007

45

Le contexte industriel

1. Intégration

Le Data mining n’est pas LA solution, mais une partie 2. Productivité

Le Data mining doit apporter de la valeur à l’entreprise 3. Scalabilité

Le Data mining doit pouvoir produire de nombreux modèles sur de grands volumes de données

4. Automatisation

Le Data mining doit être aussi automatique que possible

46

Le Data mining fait partie du Système d’Information

CRM Analytique Back-Office

Base de Données Clients

Data Mining ERP

Bases Legacy

CRM Opérationnel

Marketing

Ventes

Service Clients

Reporting Olap

Canaux de contact

Client

Clients

^Courrier ^SMS^Téléphone ^E-mail ^Fax ^Internet ^Question-^naires

Fichiers externes

Production Fabrication

Conditionnement

Informatique

SAV

Distribution R&D

Expédition

47

Agenda

1. Qu’est ce que le data mining 2. Les principaux types de modèles 3. Statistique & data mining 4. Le data mining dans l’industrie 5. Les nouvelles sources de données 6. Conclusion

48

Les nouvelles sources de données

De plus en plus de données non structurées

■ Texte

■ Mais aussi video, audio, parole, …

L’arrivée des réseaux sociaux …

Russom, TDWI, 2007 Provost, NATO 2007

http://mmdss.jrc.it/index.html

(9)

49

Agenda

1. Qu’est ce que le data mining 2. Les principaux types de modèles 3. Statistique & data mining 4. Le data mining dans l’industrie 5. Les nouvelles sources de données 6. Conclusion

50

Un exemple à méditer

On construit un modèle pour expliquer l’index S&P 500

Avec 3 variables

1. La production de beurre au Bangladesh & aux USA 2. La production de fromage aux USA

3. La population de moutons au Bangladesh & aux USA

Les modèles obtenus sont quasiment « parfaits »

Leinweber

Variable 1 R²=0,75

Variables 1 & 2 R²=0,95

Variables 1, 2 & 3 R²=0,99

51

Un exemple à méditer

Un modèle polynomial

De degré 9 pour la période

1983-92

• .25*1016-.26*1013x+.12*1010x²- 320000.x³+56.x⁴-.0064x⁵+.49*10- 6x⁶-.24*10-10x⁷+.69*10-15x⁸- .88*10-20x⁹

■ Le modèle obtenu est absolument

«parfait» : 100%

À l’arrivée de la donnée 1993, un polynôme de degré 10

■ .77*1017-.88*1014x+.45*1011x²- .14*108x³+2700.x⁴-.37x⁵ +.000035x⁶-.23*10-8x⁷+.99*10- 13x⁸-.25*10-17x⁹+.28*10-22x¹⁰

■ Le modèle obtenu est absolument

«parfait» : 100%

Leinweber

52

Un exemple à méditer

Un modèle polynomial

Que se passe-t-il ?

■ In-sample: 100% parfait

■ Out-of-sample: 100% non-sens

Leinweber Polynôme de degree 9 Polynôme de degree 10

53

References

Usama Fayyad, A Data Miner’s Story – Getting to Know the Grand Challenges, KDD’07.

http://videolectures.net/kdd07_fayyad_dms/

Usama Fayyad, From Data Mining to Data Strategy -- towards the New Sciences Underlying the Internet, adma'06http://www.itee.uq.edu.au/~adma06/usama-ADMA-Xian- China-08-06.pdf

Gareth Herschel, Gartner Customer Relationship Management Summit 2006.

Andrew Moore, New Cached-Sufficient Statistics Algorithms for quickly answering statistical questions, KDD’07,

http://www.sigkdd.org/kdd/2006/docs/presentations/andrewMoore06Keynote.pdf Wayne W. Eckerson, Predictive Analytics. Extending the Value of Your Data

Warehousing Investment. TDWI Best Practices Report. Q1 2007.

https://www.tdwi.org/Publications/WhatWorks/display.aspx?id=8452

Philip Russom, BI Search & Text Analytics. TDWI Best Practices Report. Q2-2007.

Besse, P.; Le Gall, C.; Raimbault, N.; Sarpy, S. Data Mining & Statistique, avec discussion, Journal de la Société Française de Statistique, 142, 5-35 (2001).

http://www.lsp.ups-tlse.fr/Besse/prepublications.html

David J. Hand : Why data mining is more than statistics writ large. Institut International de Statistique. http://www.stat.fi/isi99/proceedings.html

Gilbert Saporta : Data mining: une nouvelle façon de faire de la statistique ? Exposé http://cedric.cnam.fr/~saporta/DM.pdf

David J. Leinweber, Stupide data miner tricks : overfitting the S&P 500.

http://nerdsonwallstreet.typepad.com/my_weblog/files/dataminejune_2000.pdf Richard J. Bolton and David J. Hand : Statistical Fraud Detection: A Review. Statistical

Science. Vol. 17, No. 3, 235–255, (2002)

Usama Fayyad, A Data Miner’s Story – Getting to Know the Grand Challenges, KDD’07.

http://videolectures.net/kdd07_fayyad_dms/

Usama Fayyad, From Data Mining to Data Strategy -- towards the New Sciences Underlying the Internet, adma'06http://www.itee.uq.edu.au/~adma06/usama-ADMA-Xian- China-08-06.pdf

Gareth Herschel, Gartner Customer Relationship Management Summit 2006.

Andrew Moore, New Cached-Sufficient Statistics Algorithms for quickly answering statistical questions, KDD’07,

http://www.sigkdd.org/kdd/2006/docs/presentations/andrewMoore06Keynote.pdf Wayne W. Eckerson, Predictive Analytics. Extending the Value of Your Data

Warehousing Investment. TDWI Best Practices Report. Q1 2007.

Philip Russom, BI Search & Text Analytics. TDWI Best Practices Report. Q2-2007.

Besse, P.; Le Gall, C.; Raimbault, N.; Sarpy, S. Data Mining & Statistique, avec discussion, Journal de la Société Française de Statistique, 142, 5-35 (2001).

http://www.lsp.ups-tlse.fr/Besse/prepublications.html

David J. Hand : Why data mining is more than statistics writ large. Institut International de Statistique. http://www.stat.fi/isi99/proceedings.html

Gilbert Saporta : Data mining: une nouvelle façon de faire de la statistique ? Exposé http://cedric.cnam.fr/~saporta/DM.pdf

David J. Leinweber, Stupide data miner tricks : overfitting the S&P 500.

http://nerdsonwallstreet.typepad.com/my_weblog/files/dataminejune_2000.pdf Richard J. Bolton and David J. Hand : Statistical Fraud Detection: A Review. Statistical

Science. Vol. 17, No. 3, 235–255, (2002)