Data Mining
2 - Fondements théoriques
Françoise Soulié Fogelman
Master MI2R MICR Cours Fouille de Données
Agenda
z La question métier
■ Comment décrire un problème data mining
■ Comment décrire la question métier
z Données z Modèles
z Evaluation des Techniques de Modélisation
z Le modèle d’apprentissage statistique de V. Vapnik
KXEN-Confidential 3
Comment décrire un problème data mining
z Le début de tout projet data mining
■ Un utilisateur métier pose une question
La Direction veut augmenter le revenu sur ce produit :
– “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion ? “
La Production s’est aperçu que ce processus produits beaucoup plus de défauts que cet autre :
– “Pouvez-vous me dire les caractéristiques de ces processus qui expliquent cet écart ? “
■ … pour prendre une décision concernant une action à lancer
z Ces questions sont liées aux objectifs stratégiques de l’entreprise
■ Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise
■ Le Plan opérationnel liste
Les actions prévues
Les KPI - Key Performance Indicators - utilisés pour mesurer les résultats des actions
z Aujourd’hui, les entreprises veulent industrialiser le processus de décision et contrôler leurs actions
KXEN-Confidential 4
Comment décrire la question métier
z Pour chaque question métier posée, il faut :
■ Comprendre le processus métier associé
■ Quelles sont les variables associées
■ Quel est le résultat attendu
z Les variables d’entrée
■ Ou variables explicatives
■ Ou inputs
■ Doivent être disponibles
z La cible
■ Ou variable expliquée
■ Ou output
■ Doit être mesurable
■ Et “actionnable”
KXEN-Confidential 5
Exemples de questions métier
z Ciblage marketing
■ Propensité d’achat
■ Rétention
■ Push d’offres en temps réel
z Segmentation
■ Segmentation clients
■ Segmentation offres
z Crédit
■ Probabilité de défaut
z Distribution
■ Prévision de revenu, de vente
■ Ventes co-occurrentes
z Industrie
■ Prévision des défauts,
■ Nombre de pannes
■ Appels pour intervention
■ Pièces nécessaires
Comment décrire la question métier
z Le projet Data Mining vise donc à :
■ Exploiter les données existantes pour
■ Produire un modèle répondant à la question métier
Le modèle fournit les éléments pour construire un Business Case
■ Exploiter le modèle pour réaliser une action ciblée
z Exemple
■ Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter.
■ Le modèle donne une indication du retour attendu
J’ai un budget de 100 000 €
Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%
Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)
KXEN-Confidential 7
Agenda
z La question métier z Données
■ Le processus données
■ Construire l’Analytical Data Set
■ Caractéristiques des données
z Modèles
z Evaluation des Techniques de Modélisation
z Le modèle d’apprentissage statistique de V. Vapnik
KXEN-Confidential 8
Le processus données z Les données sont à la base du data mining
■ No data, no model !
z Le processus de collecte de données est complexe : il faut
■ Identifier l’ensemble des sources de données
■ Mettre en place les mécanismes de collecte
■ Mettre les données en cohérence
■ Manipuler & transformer les données
z … pour constituer le “Analytical Data Set”
Data Mining
Data Preparation Data
Manipulation Data
Access
Mail e-mail POS
Call Center Phone Fax SMS / MMS Web
Analytical Data Set Customer Touch Points Production
databases
Legacy systems Files
Data Access
ODS Data
Warehouse
KXEN-Confidential 9
Le processus données
Exemple
Manipulation des données
 Base clients telco
Préparation des données
 Analytical Data Set
Customer Id Last name
First
name Address Birth date Profession Education Local traffic
Traffic to mobile
Traffic to Internet
Preferred mode
Quality of payment
Number of calls
Duration of calls Mobile 1
2 3 4
…
128 Lion Leo S.
12 Baltimore Street
1975/02/2
9 Clown PhD 02:37:00 01:23:00 07:46:00 CC E 37 03:24:00 1
…
…
…
…
Le processus données
Manipulation des données z Réconcilier les formats
hétérogènes
■ Meta-données et référentiels
z Rapprocher des labellés différents
■ Données internes & externes
Préparation des données z Produire des données
calculées
■ Agrégats
■ Variables calculées
z Coder les variables
■ Binning
Data
Preparation Analytical Data Set Data
Warehouse
Data Manipulation Data
Access
Data Access
ODS
KXEN-Confidential 11
Construire l’Analytical Data Set
Analytical Data Set : Représentation tabulaire des données
z Une ligne représente une “observation”
■ Par exemple : un client
z Une colonne représente une “variable”
■ Par exemple : âge, nom
Autre termes pour
"Observation"
Autre termes pour
"Variable"
Ligne Colonne
Exemple Attribut
Table Champ
Event Propriété
Instance -
Record -
KXEN-Confidential 12
Construire l’Analytical Data Set
Manipulation des données z Référentiel & meta-données
■ Les données sur les données
Nom des variables, sens, format
■ Mapping des meta-données
Noms de champs et types de formats d’input variés vers un format commun
z Transformer les contenus de variables similaires vers un format commun unique
■ Consistence
Ex : format “civilité, prénom, nom”
z Jointures : de sources de données multiples z Filtrage des données
z Règles métier
■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle}
z Outliers
■ Détecté en fonction du dictionnaire, des règles et flaggé
■ Traité ensuite
Data Manipulation Data
Access
Data Access
ODS
KXEN-Confidential 13
Construire l’Analytical Data Set
Préparation des données z Sélection des variables
■ Choisir les variables utiles
z Définition de la cible
z Les transformations “métier”
■ Champs calculés : produire de nouvelles variables à partir de variables existantes
Nb de jours entre l’émission de la facture et le paiement
Profit : prix d’achat – coût de fabrication
z Codage : les transformations statistiques nécessaires pour un certain modèle
■ Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories)
■ Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule
Représentation d’une variable multi-catégorie
z Évaluer la qualité des données pour determiner
■ Les valeurs manquantes (blancs, espaces, nuls)
■ Les outliers
■ Les corrélations
Data
Preparation Analytical Data Set Data
Warehouse
Construire l’Analytical Data Set
Qualité des données
z Les données doivent être
■ Exactes : valeurs correctes
■ Non redondantes : doublons
■ Complètes : données “manquantes”
“missing-rate” d’une variable : combien d’observations ne l’ont pas
“filling-rate” d’une observation : combien de variables sont remplies
z Traitement des données “manquantes”
1.Éliminer toutes les lignes non remplies complètement
On risque d’éliminer beaucoup de lignes !
2.Remplacer les données manquantes par des valeurs calculées
Variable nominale : catégorie la plus fréquente,
Variable continue : moyenne 3. Créer une classe spéciale
Voir Démo KXEN
KXEN-Confidential 15
Caractéristiques des données z Chaque variable a 3 caractéristiques :
1.Type
Continue
Ordinal : variables discrètes (numérique ou texte) dont l’ordre a un sens
Nominal : variables discrètes dont l’ordre n’a pas de sens – Numérique : binaire (0 ou 1), codes postaux (75 013, 92 125 …)
– Texte : chaînes de caractères sans ordre (CC –carte crédit, CH –chèque, RA – retrait automatique)
2.Format de stockage
Date
Number
String
Le format de stockage …
est utilisé pour décrire des variables
quand leur valeur correspond à … Par exemple ...
date
Dates exprimées dans les formats :
AAAA-MM-JJ, AAAA/MM/JJ Variable date de naissance "2001-11-30", "1999/04/28"
number
Nombres sur lesquels on peut faire des opérations
Variable "Salaire", en dollars US : "1000", "1593" et "2000,54"
Variable "Age", en années "21", "34" et "99"
string Chaîne de caractères alpha-numérique
Variable "Nom de famille": "Lion", "Martin" et "Miller"
Variable "Numéro de téléphone "800 555 1234" et "800 555 4321"
Variable "Profession": "professeur", "ingénieur" et "clown"
KXEN-Confidential 16
Caractéristiques des données
z Chaque variable a 3 caractéristiques :
3.Rôle
Le rôle de la variable dans le projet
Le rôle peut changer dans un autre projet
Rôle de la variable Autres termes
Cible
Variable expliquée Variable dépendante Output
Explicative
Variable causale Variable indépendante Input
Exclue Skip
Poids *
KXEN-Confidential 17
Un exemple : le problème “census”
Variables
skip integer
continuous KxIndex
target 0
number nominal
class
input 857
string nominal
native-country
input 0
number continuous
hours-per-week
input 0
number continuous
capital-loss
input 244
number continuous
capital-gain
input 0
string nominal
sex
input 0
string nominal
race
input 0
string nominal
relationship
input 2 809
string nominal
occupation
input 0
string nominal
marital-status
input 0
number ordinal
education-num
input 0
string nominal
education
input 0
number continuous
fnlwgt
input 2 799
string nominal
workclass
input 0
number continuous
age
Rôle Nombre de manquant Stockage
Valeur Variable
Agenda
z La question métier z Données
z Modèles
■ Modèles descriptifs
■ Modèles prédictifs
z Le modèle d’apprentissage statistique de V. Vapnik
z Evaluation des Techniques de Modélisation
KXEN-Confidential 19
Types de modèles
Il y a deux sortes de modèles :
z Modèles descriptifs
■ Exploration des données du passé
■ … pour comprendre le passé
■ Information descriptive sur les variables et leurs relations
z Modèles prédictifs
■ Exploitation des données du passé
■ … pour prévoir et expliquer le futur
■ Information prédictive sur la future valeur de la variable cible
KXEN-Confidential 20
Types de modèles
Source : Teradata
KXEN-Confidential 21
Types de modèles
Un modèle
z Est produit à partir de l’Analytical Data Set
■ à partir des données du passé, on produit un modèle pour prévoir
z Est utilisé
■ sur de nouvelles données (le futur)
z Est évalué
■ sur ces nouvelles données
Qualités d’un modèle z Précision
■ La capacité du modèle à être “bon” sur les données du passé
z Robustesse / Généralisation
■ La capacité du modèle à être “bon” sur les données du futur
Quelles que soient ces données
En présence d’outliers, de données manquantes …
z Et ceci quelles que soient les distributions des données
Modèles descriptifs Statistiques descriptives
Variable “Age” (base Census)5%
10%
15%
20%
25%
Share of Category with Target = 1 Share of Category with Target = 0
-1%
1%
3%
5%
7%
9%
11%
13%
[17 ; 23]
[24 ; 26]
]26 ; 29[
[29 ; 30]
]45 ; 53]
]53 ; 62]
]62 ; 90]
KXEN-Confidential 23
Modèles descriptifs Importance des variables z Un modèle prédictif peut donner de l’information sur
l’importance des variables.
z Exemple
■ Dans la base Census, j’essaie de prévoir si une personne gagne plus de 50 000 $ / an
■ Un modèle de régression simple :
Classe = 1 si a*age + b*capital-gain ≥c
Classe = 0 si a*age + b*capital-gain < c
■ Contribution avec
■ Cas des variables corrélées : x et y
Contribution intelligente
■ Importance des catégories
Influence sur la cible : le comportement est comparé au comportement moyen de l'ensemble de la population
= 1
∑ ∑
ii i i
oids P oids P
= ∑
i i i
i
P oids
oids ontrib P
C
( ) ( )
( y x )
b Ax
x y b x b a
by bx bx ax
by ax
− +
=
− + +
=
+
− +
= +
KXEN-Confidential 24
Modèles descriptifs Importance des variables
■ Contribution intelligente des variables (prévision de “class” - base Census)
■ Importance des catégories des variables “marital-status” et
“capital-gain”
KXEN-Confidential 25
Modèles descriptifs Segments z Construction de segments
■ Non supervisée / Supervisée
z Exemple
■ Production de 5 segments supervisée par “class”(base Census)
■ Description des Segments / variable / population
Marital Status
Capital Gain 0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Fréquence % de 1
Modèles prédictifs Classes de modèles
z Classification
■ La cible est nominale
Binaire : il y a 2 classes (0 et 1)
Multi-modale : il y a n classes (1, 2, …, n)
z Régression
■ La cible est continue
Score
Série temporelle …
1 0
KXEN-Confidential 27
Modèles prédictifs Utilisation des modèles 1. Expliquer / comprendre
■ Le modèle est une description / simplification du phénomène
■ Il permet de répondre à des questions comme :
Quelles sont les variables significatives
Quel est l’impact d’une variation de l’une des variables …
2. Prévoir
■ Le modèle donne une estimation de la classe ou de la valeur
■ Des modèles différents donnent des prévisions différentes
Quelle est la “bonne” prévision ?
Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?
KXEN-Confidential 28
Modèles prédictifs Utilisation des modèles
Données d’apprentissage
t
y x
Modèle simple
Modèle intermédiaire Modèle complexe
KXEN-Confidential 29
Modèles prédictifs Utilisation des modèles Qu’attendons-nous d’un modèle
z Précision (ensemble d’apprentissage)
Modèle simple Modèle intermédiaire Modèle complexe
z Robustesse (ensemble de test)
Modèle complexe
Modèle simple Modèle intermédiaire
Agenda
z La question métier z Données
z Modèles
z Le modèle d’apprentissage statistique de V. Vapnik
■ Le cadre mathématique
■ La théorie de Vapnik
■ Le processus de modélisation
Propriétés attendues d’un modèle – Généralisation
– Consistence – Robustesse
Stratégie de génération de modèle
z Evaluation des Techniques de Modélisation
KXEN-Confidential 31
Le cadre mathématique
z Données d’apprentissage
■ La cible y peut être continue ou pas
■ Dans la « base d’apprentissage », tous les yisont connus
z Une classe de fonctions
■ Par exemple :
La classe des plynômes de degré p
La classe des MLP avec p neurones cachés …
z Un modèle issu de cette classe
■ Par exemple, le polynôme dont les paramètres sont
z Le « meilleur » modèle
■ Produit par un certain algorithme ou un principe d’inférence
■ Et qui correspond donc au « meilleur » paramètre
( )
{ ∈ Θ }
=
Φ
Θf ., θ , θ
( ) x , θ f y =
( ) , θ ˆ
ˆ f x
y =
θ ˆ θ
( x
1, y
1) ( , x
2, y
2) ( ,..., x
n, y
n)
KXEN-Confidential 32
Le cadre mathématique z Une fonction de coût
■ Par exemple
L’écart quadratique
z L’erreur en apprentissage ou risque empirique
■ Le coût moyen sur l’ensemble d’apprentissage
■ Par exemple l’écart quadratique moyen MSE (Mean Square Error)
z L’erreur en généralisation
■ Le coût moyen théorique sur l’ensemble de la population
■ … qui est l’erreur attendue sur de nouvelles données
z Principe d’inférence
■ Minimisation du risque empirique
■ Par exemple : LMSE (Least Mean Square Error)
[ y , f ( ) x , θ ] [ y f ( ) x , θ ]
2L = −
[ y , f ( ) x , θ ]
L
( ) ∑ [ ( ) ]
=
=
ni
i i
emp
L y f x
R n
1
,
1 , θ
θ
( ) L [ y f ( ) x ] dP ( ) x y
R
Genθ = ∫ , , θ ⋅ ,
( ) θ
θ
θ
n R
empmi ˆ = arg
( ) ∑ [ ( ) ]
=
−
=
ni
i i
emp
y f x
R n
1
,
21 θ
θ
( )
[ ]
∑
=−
=
ni
i
i
f x
n y rg
a mi n
1
,
2ˆ 1 θ
θ
θ
KXEN-Confidential 33
Le cadre mathématique
z L’erreur d’apprentissage
(précision) z L’erreur de généralisation (robustesse)
( )
L[
y f(
x) ]
dP(
x y)
RGen
θ
=∫
, ,θ
⋅ ,Modèle intermédiaire
Deux notions
Modèle complexe
( ) ∑ [ ( ) ]
=
=
ni
i i
emp
L y f x
R n
1
,
1 , θ
θ
La théorie de Vapnik
z La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes
1.Consistence (robustesse)
Capacité à généraliser correctement sur de nouvelles données 2.Vitesse de convergence
Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente
3.Contrôle de la capacité de généralisation
C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage 4.Stratégie pour obtenir de bons algorithmes
C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit
z … et utilise un paramètre la « VC dimension » ou
dimension de Vapnik Chervonenkis
KXEN-Confidential 35
La théorie de Vapnik
Dimension de Vapnik Chervonenkis z Etant donné
■ Un échantillon de nobservations
■ caractérisées par pvariables :
z Il y a 2
nfaçons de séparer ces n observations en 2 classes
z On dit que la famille de fonctions
“pulvérise” l’échantillon si toutes les 2
nséparations sont réalisables (avec un θ bien choisi)
z On dit que la famille Φ
Θest de VC dimension h ∈N si :
1.Tout échantillon dehobservations de
ℜ
p peut être pulvérisé parΦ
Θ2.Il existe au moins un échantillon de h+1observations qui ne peut pas être éclaté par
Φ
Θ( x1, x
2,..., x
n)
p
x
i∈ ℜ
( )
{ ∈ Θ }
=
Φ
Θf ., θ , θ
KXEN-Confidential 36
La théorie de Vapnik
Dimension de Vapnik Chervonenkis de la famille des droites de
ℜ
2■ 3 points
■ 4 points
z h = 3 (=2+1)
KXEN-Confidential 37
La théorie de Vapnik
1. Consistence (robustesse)
■ Capacité à généraliser correctement sur de nouvelles données
2.Vitesse de convergence
■ Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente
■ Indépendant des distributions de (X,Y)
( ) , θ ˆ
ˆ f x
y =
h
( )
{ ∈ Θ }
=
Φ
Θf ., θ , θ
■ Un modèle est
consistent si et seulement si la famille
dont il est issu est de VC dimension finie
La théorie de Vapnik
3. Contrôle de la capacité de généralisation
■ C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage
■ Quand n/h est grand, on minimise le risqueempirique Remp
■ Quand n/h est petit , on minimise les deux termes : RempET ε(n,h) doivent être minimisés
Remp
R
empR
GenStatistique classique
KXEN-Confidential 39
La théorie de Vapnik
4. Stratégie pour obtenir de bons algorithmes
■ C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit
■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions emboîtées
KXEN-Confidential 40
La théorie de Vapnik
Moralité
z Ce qu’on ne peut pas contrôler
■ La distribution des données
Certainement pas Gaussiennes …
■ Les approximations de distribution
Transformation pour se ramener au cas Gaussien
z Ce qu’on peut contrôler
■ La classe de modèles où on recherche la solution ΦΘ
■ La VC dimension h de la classe retenue
z Avec une méthode de contrôle
■ La SRM qui garantit la robustesse
KXEN-Confidential 41
Le processus de modélisation z La SRM en pratique dans KXEN
z Et deux indicateurs
■ Précision : KI
■ Robustesse : KR
Le processus de modélisation
1. Produire l’Analytical Data Set
2. Choisir la famille emboîtée de modèles 3. Choisir le meilleur
modèle (SRM)
4. Evaluer les performances 5. Ré-itérer si nécessaire
M
odélisationChoisir la famille emboîtée de fonctions
Augmenter progressivement la VC dim
Choisir le modèle qui optimise le compromis précision / robustesse
KXEN-Confidential 43
Agenda
z La question métier z Données
z Modèles
z Le modèle d’apprentissage statistique de V. Vapnik z Evaluation des Techniques de Modélisation
■ Introduction
■ Classification binaire
Matrice de Confusion
Indicateurs de performance
■ Régression
KXEN-Confidential 44
Introduction
z Le résultat de la modélisation :
■ Un ou plusieurs modèles
z Il faut
■ Évaluer la performance d’un modèle
■ Comparer les performances de plusieurs modèles
z Il y a deux niveaux d’évaluation de la performance
■ Évaluation technique
Indicateurs techniques / statistiques
Doivent être indépendants des distributions des données
■ Évaluation métier
Quelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)
Exemples :
– Taux de retour, profit généré par une campagne
– Taux de défaut généré dans ce processus d’attribution de crédit
KXEN-Confidential 45
Classification binaire
On a 2 classes : 0/1 ou N/P (négatif / positif) z Il faut définir un modèle Classe tel que
Classe ( X ) = 0 ou 1 z Il y a deux méthodes
■ Classification - ou décision- directe
■ Score
On produit d’abord un score
f
dont la valeur est une variable continuef(x) =
s On fixe un seuil sur ce score S
On classe dans une classe 0/1 selon que le score est inférieur / supérieur àS – Classe ( X ) = 1si
f(x) >
S– Classe ( X ) = 0si
f(x) ≤
S Cette technique est plus flexible : en faisant varier le seuil , on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe
Classification binaire Matrice de Confusion On a un modèle de décision Classe
z On compare la décision “Classé” à la réalité “Réel”
z Pour chaque observation, 4 cas possibles
■ Classe ( X )= 1 et Réel ( X )= 1 : Vrai Positif
■ Classe ( X )= 1 et Réel ( X )= 0 : Faux Positif
■ Classe ( X )= 0 et Réel ( X )= 1 : Faux Négatif
■ Classe ( X )= 0 et Réel ( X )= 0 : Vrai Négatif
z On note
■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux négatifs dans la population totale
■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N
P N Total
P VP FP nbCP
N FN VN nbCN
nbRP nbRN n Réel
Classé
Total
KXEN-Confidential 47
Classification binaire Matrice de Confusion
z Pour un score, la matrice de confusion en proportions
■ Les proportions de vrai P /N : (sensibilité et spécificité)
Modèle parfait
Modèle aléatoire Score
Fréquence
Positif Négatif
(s) (s)
s
( ) s =
VPnbRPα β ( ) s =
VNnbRNP N
P α (s) 1 - β (s) N 1 - α (s) β (s)
Réel
Classé
KXEN-Confidential 48
Classification binaire
Indicateurs de performancez Taux de Bien Classés
et taux d’erreur de classification
■ Problème si les classes sont déséquilibrées
■ OK pour comparer plusieurs classifieurs
z Lift Curve
■ La courbe représentant le taux de VP en fonction des P de la population, i.e. si on ordonne les observations par score décroissant
α(s)
en fonction de1-F(s)
(F(s)
est le taux de positifs dans la population avec score supérieur às
)nbRN nbRP
VN TBC VP
+
= +
TBC TER = 1 −
α(s)
1-F(s)
KXEN-Confidential 49
Classification binaire
Indicateurs de performanceA partir de la Lift Curve z Indicateur KI
■ Le rapport de l’aire
M
entreles courbes Modèle/aléatoire à l’aire
W
entre les courbes modèle parfait / aléatoireKI = M / W
(modèle parfait =Wizard ou Oracle)
z Indicateur KR
■ Le rapport de l’aire
G
entre les courbes du Modèle sur les ensembles d’estimation et de validation à l’aireW
entre lescourbes modèle parfait / aléatoire
KR = 1 - G / W
α(s)
1-F(s) W
M
1-F(s) α(s)
G W
Classification binaire
Indicateurs de performancez Courbe de profit
■ On définit une structure de coût/
revenu
■ Exemple
Profit ( s ) = VP x Rev – FP x Coût
Profit
max est le profit généré par Wizard
Profit_Rate ( s ) = Profit ( s ) / Profit
max
(
p
Petp
Nsont les taux de P /N)■ La courbe de profit est la courbe représentant
Profit_Rate ( s )
en fonction des P de la population, i.e. si on ordonne les observa-tions par score décroissantProfit_Rate ( s )
en fonction1-F(s) Profit_Rate(s)
( ) ( ) [ ( ) ]
ev R Coût p s p s
s rate rofit P
P
N
⋅
⋅
−
−
= α 1 β
_
nbRN nbRP pP nbRP
= +
nbRN nbRP pN nbRN
= +
P N
P Rev Coût
N 0 0
Réel Classé
KXEN-Confidential 51
Classification binaire
Indicateurs de performancez Remarques
■ Si
Rev=1
etCoût=0
,Profit_Rate ( s )=α(s)
Courbe de profit = courbe de lift
■ Si
Rev= p
NetCoût=p
P , Courbe de profit=Standardized Profit
( ) s ( ) s [ ( ) s ] T ( ) s rate
rofit
P _ = α − 1 − β =
1-F(s) T(s)
KXEN-Confidential 52
Classification binaire
Indicateurs de performancez Courbe ROC
■ La courbe représentant le taux de VP en fonction du taux de FP, i.e. si on ordonne les observations par score décroissant
α(s)
en fonction de1-β(s) z Indicateur AUC
■ L’aire sous la courbe ROC
■
KI = 2 AUC -1 ( ) s d [ ( ) s ]
AUC =
−∞∫ α − β
∞ +
1 .
α(s)
1-β(s)
AUC
KXEN-Confidential 53
Régression
z Notations
■ Un échantillon
■ La cible
y
est une variable continue■ La valeur prévue :
■ Le résidu :
■ L’erreur :
■ La moyenne de la cible :
■ La moyenne des prévisions :
( x
1, y
1) ( , x
2, y
2) ( ,..., x
n, y
n)
y ˆ
i i
i
y y
r = − ˆ
|
| ˆ |
|
i i ii
y y r
u = − =
∑
==
ni
y
iy n
1
1
∑
==
ni
y
iy n
1
1 ˆ ˆ
Régression
Indicateurs de performanceLes indicateurs
■ Mean Square Error
■ Root Mean Squared Error (RMSE ou L2)
■ Mean Absolute Error (MAE ou L1)
■ Maximum Absolute Error (ou L
∞)
■ Sum of Squares of Regression
■ Total Sum of Squares
■ Determination Coefficient (Rsquare-R2)
■ Corrélation de Pearson
[ ]
∑
=−
=
ni
i
i
y
n y MSE
1
ˆ
21
MSE L 2 =
∑
==
ni
u
iL n
1
1 1
i
u
iL ∞ = max
∑
=−
=
ni
i
y
y SSR
1
)
2( ˆ
∑
=−
=
ni
i
y
y SST
1
)
2(
SST R 2 = SSR 2 r
s2P =
∑
∑
∑ − − − −
=
n n nKXEN-Confidential 55
Lecture
Industriel
z Site d’informations data mining
■ http://www.kdnuggets.com/
z Predictive Analytics; the Future of Business Intelligence Mukhles Zaman
■ http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp
z Data Mining Tools: Which One is Best For CRM? Robert A. Nisbet
■ Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025
■ Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597 z Comprendre l'industrialisation informatique
■ http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml
Scientifique z Vladimir Vapnik
■ ‘Statistical Learning Theory’, Wiley-Interscience, 1998
■ ‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999 z Cours du MIT
■ http://www.mit.edu/~9.520/#description