• Aucun résultat trouvé

Data Mining 3 - Applications

N/A
N/A
Protected

Academic year: 2022

Partager "Data Mining 3 - Applications"

Copied!
22
0
0

Texte intégral

(1)

Data Mining

3 - Applications

Françoise Soulié Fogelman

Master MI2R MICR Cours Fouille de Données

l Les applications du data mining l Marketing

l Credit scoring l Fraude

l Applications temps réel

Agenda

(2)

KXEN-Confidential 3

Les applications du data mining

l Marketing

¦ Ciblage

¦ Connaissance client

u Segmentation

u Life-time value

l Ventes

¦ Prévision des ventes

¦ Analyse des ventes

¦ Analyse de panier

¦ Recommendation de produits

l Service Clients

¦ Prévision d’appels

¦ Recommendations en ligne

Les applications du data mining

l Internet

¦ Recommendations en ligne

¦ Analyse de Navigation

¦ Personnalisation

l Analyse de Risque

¦ Risque Crédit

¦ Détection de Fraude

l Santé

¦ Diagnostic

¦ Analyse des demandes de remboursement

¦ Design de Molécules

l Production

¦ Prévision de pannes

¦ Optimisation du process industriel

(3)

KXEN-Confidential 5

Le score

l Faire un modèle de score l Règle de décision

¦ Positionner le seuil

¦ Découper en bandes de score (ex : vingtiles)

¦ En déduire

u La décision

u La probabilité

( Tar get )

f get Tar

rr _ =

Target rr_Target

decision_

rr_Target

proba_decision _rr_Target

0 -0,014 0 0,869

0 0,226 1 0,555

0 -0,134 0 0,950

0 -0,004 0 0,861

Le score

l Positionner le seuil

(4)

KXEN-Confidential 7

Le score

l Matrice de confusion

l Les applications du data mining l Marketing

l Credit scoring l Fraude

l Applications temps réel

Agenda

(5)

KXEN-Confidential 9

Marketing l Le processus

Data mining

Types de campagne marketing

l Starter

¦ Nouveau produit

¦ Données non disponibles

l Pilote

¦ Produit ancien

¦ Données disponibles

l Campagne récurrente

¦ Churn …

¦ Données disponibles

¦ Modèle existant

(6)

KXEN-Confidential 11

Marketing

Les différentes sortes de score l Score de réponse / achat

¦ A acheté

¦ A répondu

l Score d’appétence

¦ Est intéressé

l Score de propensité

¦ A une forte probabilité

Starter

(7)

KXEN-Confidential 13

Starter

Starter

(8)

KXEN-Confidential 15

Starter

Starter

(9)

KXEN-Confidential 17

Starter

Courbe de Profit

Données financières

Sélection du seuil

Starter

Index pour l’ensemble de données : permet d’identifier le client s électionné Variable cible pour l’ensemble de données : le client a-t-il acheté Product_C ?

Scores calculés

par le modèle Décision 1 or 0,

selon le seuil choisi

Probabilité que le client achète Product_C

(10)

KXEN-Confidential 19

Exemples

Opérateur telco US l Campagnes en appels

sortants sur 2 mois

¦ Vente d’un nouveau téléphone

¦ Cible : vente oui / non

¦ Détection de « leak variables »

u Renseignées après coup uniquement pour les ventes réussies

¦ Elimination de ces variables et construction du modèle

Exemples

Opérateur telco US l Campagnes de cross-

sell

¦ Vente d’une connexion ADSL à des clients du mobile

¦ Cible : vente oui / non

¦ 9% des clients acceptent

¦ Données

u 384 variables

u 263 961 clients

¦ Comparaison à un modèle existant en interne

l Résultats

Gains

¦ à 10%: 22% au lieu de 21%

¦ à 50%: 76% au lieu de 73%

(11)

KXEN-Confidential 21

l Les applications du data mining l Marketing

l Credit scoring l Fraude

l Applications temps réel

Agenda

Score crédit

l Le Score crédit est un instrument pour gérer un portefeuille de risques crédit

l Il fournit la probabilité de défaut (PD) futur l On l’utilise

¦ Dès qu’un client entre en base : note de score

¦ Quand un client demande un crédit (par ex.) : score d’octroi

¦ Pendant la durée du remboursement : score comportemental

l Les risques individuels sont ensuite agrégés pour

fournir le risque du portefeuille

(12)

KXEN-Confidential 23

Score crédit

l Définir un modèle de score l Définir le seuil

¦ Accepter si

¦ Refuser sinon

l Good / Bad

¦ Bad : fera défaut dans le futur

¦ Définition du défaut

u Nombre de mois de non paiement

u Nombre de jours de retard / paiement payment, amount over the

¦ Good / Bad connu seulement sur Accepté, pas sur les Refusés

( ) x t

S

0 40 80 120 160 200 240 280 320 360 400 440 480 520 560 600 640 680 720 760 800

Score Nombre de

Clients

Goods

Bads

( ) x

S x

( ) x t

S p

Score crédit

l En pratique

¦ Choisir le Taux de Refusés

¦ Choisir le rapport Good / Bad …

l La stratégie est un mélange automatique / manuel

Figure d’après « Credit Scoring Development and Methods” – J. Marinopoulos

(13)

KXEN-Confidential 25

Risque crédit

Identifiant du client appelant

Risque crédit

Caractéristiques du client # 325

(14)

KXEN-Confidential 27

Risque crédit

Calcul de la classe de risque du client # 325

La PD du client # 325 est faible

Risque crédit

Le compte du client # 325 vient de passer en découvert

La PD du client # 325 augmente

(15)

KXEN-Confidential 29

Risque crédit

Le client # 325 veut demander un crédit

Risque crédit

Renseigner es caractéristiques

du crédit Ce crédit

est accordé

Puis calculer le score

(16)

KXEN-Confidential 31

Risque crédit

Les

caractéristiques d’un autre

crédit Ce crédit

est refusé

l Les applications du data mining l Marketing

l Credit scoring l Fraude

l Applications temps réel

Agenda

(17)

KXEN-Confidential 33

Qu’est ce que la fraude ?

l Définition

¦ Une distortion intentionnelle de la vérité » qui permet de s’approprier un bien ou un service

l Exemples

¦ Carte bancaire

u Usurpation d ’identité

u Utilisation à l’insu du porteur

¦ Détournement de flux sur Internet (phishing)

¦ Téléphones mobiles

¦ Fausses déclarations de sinistres

u Assurance

u Maladie, arrêt de travail …

Catégorie de fraude spécifique déjà identifiée

Classes de Fraude

Type de fraude spécifique bien identifié

Fraude Connue

Général

Type de fraude jamais identifié précédemment

Fraude inconnue

Le plus facile à détecter

Plus difficile à détecter

Le plus difficile à

détecter

(18)

KXEN-Confidential 35 Détection automatique des outliers (nouveau type de règles) Détection manuelle

Règles automatiques

Modélisation prédictive

Fournit la meilleure précision dans la détection de la fraude Le grand nombre de transactions fait qu’il est impossible à l’expert de les traiter toutes

Difficile de tenir les règles à jour (nouvelles règles) Difficile de détecter de nouveaux types de fraude

Codage partiel de la connaissance de l’expert

Parfait pour les règles connues

Définition de profils de fraudes pour les mécanismes de fraude identifiés

Modélisation prédictive

1

2 3

4

Méthodes de détection de fraude

l Une méthode efficace d’analyse de fraude est une combinaison de 4 méthodes

Non DC

4h12

Oui NYC

1h20m Patrick

Non NJ

0h45m Bruno

Fraudeur Profil

Données du passé

Profils Client & Transactions

? NY

12h43

? CA

6h12 Victor

? MI

0h45 Bruno

Fraudeur ? Profil

Données actuelles

Processus pour la fraude connue

Profils Client & Transactions

Produire le modèle Apprendre

1

Appliquer le modèle Appliquer

2

Identifier l’infor- mation douteuse

Identifier

3

Confirmer avec l’expert Valider

4

5

Agir

(19)

KXEN-Confidential 37 150

DC 4h12 Bob

100 NYC 1h20m Patrick

50 NJ 0h45m Bruno

Montant Profil

Données

150 68 45 Prévu

0 150

+2 70

-30 75

Erreur ? Montant réel

Processus pour la fraude inconnue

l Les “outliers” doivent être examinés

Produire le modèle Apprendre

1

Ré-appliquer le modèle Appliquer

2

0 50 100 150 200

0 50 100 150 200

Montant réel Montant prév u

Identifier les outliers Identifier

3

Exemples

Une Banque canadienne

¦ Fraude sur les chèques

¦ 0,0016 des chèques sont frauduleux

¦ 101 variables

¦ 1 750 000 lignes

¦ Classification

¦ Segmentation

¦ Fraude sur les dépôts frauduleux

¦ 0,0003 des dépôts sont frauduleux

¦ 94 variables

¦ 1 045 000 lignes

(20)

KXEN-Confidential 39

Exemples

Une Banque turque

l Fraude sur les demandes de cartes

¦ Augmentation du nombre de demandes frauduleuses de 200

% (de 7 à 21 par jour)

¦ Réduction des pertes de 25 000$

par jour

¦ Plus de 50 fraudeurs identifiés dans l’année qui a suivi

l Fraude sur les transactions de cartes

¦ Réduction du nombre de fausses alertes de 300 000 à 30 000 par trimestre

¦ Augmentation du nombre de cas de fraude détectés par un facteur 3

l Les applications du data mining l Marketing

l Credit scoring l Fraude

l Applications temps réel

Agenda

(21)

KXEN-Confidential 41

Moteur de recommandations

l Appels entrants dans un centre d’appels l Internautes naviguant sur un site

l Un score est calculé à la volée :

¦ Appétence pour un produit / service

¦ Propensité à accepter une offre

u Produit, service

u Co-browsing

u Chat

l La/les offres les meilleures sont proposées

Moteur de recommandations

Identifiant du client appelant

(22)

KXEN-Confidential 43

Moteur de recommandations

Calcul du score du client # 5

Produits qui intéressent le client # 5

Moteur de recommandations

Informations mises à jour

Produits qui intéressent le client # 5

Références

Documents relatifs

• Possibilité de faire tourner des applications Java dans une zone de taille fixe dans une page HTML, depuis 1995. • Bac à sable : par défaut, l’application ne peut pas

Toutes les entreprises qui collectent et historisent des données sur leurs clients peuvent donc mettre en place une démarche de connaissance client, et en attendre

PHP langage spécialisé pour les applications web (utilisé en conjonction avec Apache) ; MySQL comme serveur de base de données. 5 Projet : réalisation

La description d’une activité manipulant des données géographiques sur le client utilise, au niveau de ces variables, des données SVG qui sont la traduction des

Index pour l’ensemble de données : permet d’identifier le client sélectionné Variable cible pour l’ensemble de données : le client a-t-il acheté Product_C.

Les sujets de la section E ont de plus les poids les plus élevés : or (cf. Reinert) le poids d'un sujet n'est autre que le nombre des mots qu'il a employés parmi les 160 mots

Ainsi l'évolution du taux de change des principales monnaies vis-à-vis du dollar, permet d'associer les changements de structure comme la dévaluation ou réévaluation de

• Oui/Non : Seules deux données sont autorisées dans ce champ : Oui et Non (on utilisera ce type de données par exemple avec un champ « réglé » qui indiquera si une facture a