Data Mining
3 - Applications
Françoise Soulié Fogelman
Master MI2R MICR Cours Fouille de Données
l Les applications du data mining l Marketing
l Credit scoring l Fraude
l Applications temps réel
Agenda
KXEN-Confidential 3
Les applications du data mining
l Marketing
¦ Ciblage
¦ Connaissance client
u Segmentation
u Life-time value
l Ventes
¦ Prévision des ventes
¦ Analyse des ventes
¦ Analyse de panier
¦ Recommendation de produits
l Service Clients
¦ Prévision d’appels
¦ Recommendations en ligne
Les applications du data mining
l Internet
¦ Recommendations en ligne
¦ Analyse de Navigation
¦ Personnalisation
l Analyse de Risque
¦ Risque Crédit
¦ Détection de Fraude
l Santé
¦ Diagnostic
¦ Analyse des demandes de remboursement
¦ Design de Molécules
l Production
¦ Prévision de pannes
¦ Optimisation du process industriel
KXEN-Confidential 5
Le score
l Faire un modèle de score l Règle de décision
¦ Positionner le seuil
¦ Découper en bandes de score (ex : vingtiles)
¦ En déduire
u La décision
u La probabilité
( Tar get )
f get Tar
rr _ =
Target rr_Target
decision_
rr_Target
proba_decision _rr_Target
0 -0,014 0 0,869
0 0,226 1 0,555
0 -0,134 0 0,950
0 -0,004 0 0,861
Le score
l Positionner le seuil
KXEN-Confidential 7
Le score
l Matrice de confusion
l Les applications du data mining l Marketing
l Credit scoring l Fraude
l Applications temps réel
Agenda
KXEN-Confidential 9
Marketing l Le processus
Data mining
Types de campagne marketing
l Starter
¦ Nouveau produit
¦ Données non disponibles
l Pilote
¦ Produit ancien
¦ Données disponibles
l Campagne récurrente
¦ Churn …
¦ Données disponibles
¦ Modèle existant
KXEN-Confidential 11
Marketing
Les différentes sortes de score l Score de réponse / achat
¦ A acheté
¦ A répondu
l Score d’appétence
¦ Est intéressé
l Score de propensité
¦ A une forte probabilité
Starter
KXEN-Confidential 13
Starter
Starter
KXEN-Confidential 15
Starter
Starter
KXEN-Confidential 17
Starter
Courbe de Profit
Données financières
Sélection du seuil
Starter
Index pour l’ensemble de données : permet d’identifier le client s électionné Variable cible pour l’ensemble de données : le client a-t-il acheté Product_C ?
Scores calculés
par le modèle Décision 1 or 0,
selon le seuil choisi
Probabilité que le client achète Product_C
KXEN-Confidential 19
Exemples
Opérateur telco US l Campagnes en appels
sortants sur 2 mois
¦ Vente d’un nouveau téléphone
¦ Cible : vente oui / non
¦ Détection de « leak variables »
u Renseignées après coup uniquement pour les ventes réussies
¦ Elimination de ces variables et construction du modèle
Exemples
Opérateur telco US l Campagnes de cross-
sell
¦ Vente d’une connexion ADSL à des clients du mobile
¦ Cible : vente oui / non
¦ 9% des clients acceptent
¦ Données
u 384 variables
u 263 961 clients
¦ Comparaison à un modèle existant en interne
l Résultats
Gains
¦ à 10%: 22% au lieu de 21%
¦ à 50%: 76% au lieu de 73%
KXEN-Confidential 21
l Les applications du data mining l Marketing
l Credit scoring l Fraude
l Applications temps réel
Agenda
Score crédit
l Le Score crédit est un instrument pour gérer un portefeuille de risques crédit
l Il fournit la probabilité de défaut (PD) futur l On l’utilise
¦ Dès qu’un client entre en base : note de score
¦ Quand un client demande un crédit (par ex.) : score d’octroi
¦ Pendant la durée du remboursement : score comportemental
l Les risques individuels sont ensuite agrégés pour
fournir le risque du portefeuille
KXEN-Confidential 23
Score crédit
l Définir un modèle de score l Définir le seuil
¦ Accepter si
¦ Refuser sinon
l Good / Bad
¦ Bad : fera défaut dans le futur
¦ Définition du défaut
u Nombre de mois de non paiement
u Nombre de jours de retard / paiement payment, amount over the
¦ Good / Bad connu seulement sur Accepté, pas sur les Refusés
( ) x t
S ≥
0 40 80 120 160 200 240 280 320 360 400 440 480 520 560 600 640 680 720 760 800
Score Nombre de
Clients
Goods
Bads
( ) x
S x →
( ) x t
S p
Score crédit
l En pratique
¦ Choisir le Taux de Refusés
¦ Choisir le rapport Good / Bad …
l La stratégie est un mélange automatique / manuel
Figure d’après « Credit Scoring Development and Methods” – J. Marinopoulos
KXEN-Confidential 25
Risque crédit
Identifiant du client appelant
Risque crédit
Caractéristiques du client # 325
KXEN-Confidential 27
Risque crédit
Calcul de la classe de risque du client # 325
La PD du client # 325 est faible
Risque crédit
Le compte du client # 325 vient de passer en découvert
La PD du client # 325 augmente
KXEN-Confidential 29
Risque crédit
Le client # 325 veut demander un crédit
Risque crédit
Renseigner es caractéristiques
du crédit Ce crédit
est accordé
Puis calculer le score
KXEN-Confidential 31
Risque crédit
Les
caractéristiques d’un autre
crédit Ce crédit
est refusé
l Les applications du data mining l Marketing
l Credit scoring l Fraude
l Applications temps réel
Agenda
KXEN-Confidential 33
Qu’est ce que la fraude ?
l Définition
¦ Une distortion intentionnelle de la vérité » qui permet de s’approprier un bien ou un service
l Exemples
¦ Carte bancaire
u Usurpation d ’identité
u Utilisation à l’insu du porteur
¦ Détournement de flux sur Internet (phishing)
¦ Téléphones mobiles
¦ Fausses déclarations de sinistres
u Assurance
u Maladie, arrêt de travail …
Catégorie de fraude spécifique déjà identifiée
Classes de Fraude
Type de fraude spécifique bien identifié
Fraude Connue
Général
Type de fraude jamais identifié précédemment
Fraude inconnue
Le plus facile à détecter
Plus difficile à détecter
Le plus difficile à
détecter
KXEN-Confidential 35 Détection automatique des outliers (nouveau type de règles) Détection manuelle
Règles automatiques
Modélisation prédictive
Fournit la meilleure précision dans la détection de la fraude Le grand nombre de transactions fait qu’il est impossible à l’expert de les traiter toutes
Difficile de tenir les règles à jour (nouvelles règles) Difficile de détecter de nouveaux types de fraude
Codage partiel de la connaissance de l’expert
Parfait pour les règles connues
Définition de profils de fraudes pour les mécanismes de fraude identifiés
Modélisation prédictive
1
2 3
4
Méthodes de détection de fraude
l Une méthode efficace d’analyse de fraude est une combinaison de 4 méthodes
Non DC
4h12
Oui NYC
1h20m Patrick
Non NJ
0h45m Bruno
Fraudeur Profil
Données du passé
Profils Client & Transactions
? NY
12h43
? CA
6h12 Victor
? MI
0h45 Bruno
Fraudeur ? Profil
Données actuelles
Processus pour la fraude connue
Profils Client & Transactions
Produire le modèle Apprendre
1
Appliquer le modèle Appliquer
2
Identifier l’infor- mation douteuse
Identifier
3
Confirmer avec l’expert Valider
4
5
AgirKXEN-Confidential 37 150
DC 4h12 Bob
100 NYC 1h20m Patrick
50 NJ 0h45m Bruno
Montant Profil
Données
150 68 45 Prévu
0 150
+2 70
-30 75
Erreur ? Montant réel
Processus pour la fraude inconnue
l Les “outliers” doivent être examinés
Produire le modèle Apprendre
1
Ré-appliquer le modèle Appliquer
2
0 50 100 150 200
0 50 100 150 200
Montant réel Montant prév u
Identifier les outliers Identifier
3
Exemples
Une Banque canadienne
¦ Fraude sur les chèques
¦ 0,0016 des chèques sont frauduleux
¦ 101 variables
¦ 1 750 000 lignes
¦ Classification
¦ Segmentation
¦ Fraude sur les dépôts frauduleux
¦ 0,0003 des dépôts sont frauduleux
¦ 94 variables
¦ 1 045 000 lignes
KXEN-Confidential 39
Exemples
Une Banque turque
l Fraude sur les demandes de cartes
¦ Augmentation du nombre de demandes frauduleuses de 200
% (de 7 à 21 par jour)
¦ Réduction des pertes de 25 000$
par jour
¦ Plus de 50 fraudeurs identifiés dans l’année qui a suivi
l Fraude sur les transactions de cartes
¦ Réduction du nombre de fausses alertes de 300 000 à 30 000 par trimestre
¦ Augmentation du nombre de cas de fraude détectés par un facteur 3
l Les applications du data mining l Marketing
l Credit scoring l Fraude
l Applications temps réel
Agenda
KXEN-Confidential 41
Moteur de recommandations
l Appels entrants dans un centre d’appels l Internautes naviguant sur un site
l Un score est calculé à la volée :
¦ Appétence pour un produit / service
¦ Propensité à accepter une offre
u Produit, service
u Co-browsing
u Chat
l La/les offres les meilleures sont proposées
Moteur de recommandations
Identifiant du client appelant
KXEN-Confidential 43
Moteur de recommandations
Calcul du score du client # 5
Produits qui intéressent le client # 5
Moteur de recommandations
Informations mises à jour
Produits qui intéressent le client # 5