Data Mining
2 - Fondements théoriques
Françoise Soulié Fogelman
Master MI2 Pro EID- Université Paris 13 Data mining et Business Intelligence FDON
KXEN-Confidential 2
Agenda
La question métier
■ Comment décrire un problème data mining
■ Comment décrire la question métier
Données
Modèles
Evaluation des Techniques de Modélisation
Le modèle d’apprentissage statistique de V. Vapnik
KXEN-Confidential 3
Comment décrire un problème data mining
Le début de tout projet data mining
■Un utilisateur métier pose une question
La Direction veut augmenter le revenu sur ce produit :
– “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion? “
La Production s’est aperçu que ce processus produit beaucoup plus de défauts que cet autre :
– “Pouvez-vous me dire les caractéristiques de ce processus qui pourraient expliquer cet écart ? “
… pour prendre une décision concernant une action à lancer
Ces questions sont liées aux objectifs stratégiques
de l’entreprise
■Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise
■Le Plan opérationnel liste les actions prévues
Les KPI - Key Performance Indicators – sont
utilisés pour mesurer les résultats des actions Aujourd’hui, les entreprises veulent industrialiser le
processus de décision et contrôler leurs actions
KXEN-Confidential 4
Comment décrire la question métier
Pour chaque question métier posée, il faut comprendre :
■Le processus métier associé
■Quelles sont les variables associées
■Quel est le résultat attendu
Les variables d’entrée
… ou variables explicatives
… ou inputs
… doivent être disponibles
La cible
… ou variable expliquée
… ou output
… doit être mesurable
… et “actionnable”
x
1( ) x
f y = x
2x
3x
nKXEN-Confidential 5
Comment décrire la question métier
Ciblage marketing
■Propensité d’achat
■Rétention
Segmentation
■Segmentation clients
■Segmentation offres
Crédit
■Probabilité de défaut
Distribution
■Prévision de revenu, de vente
■Ventes co-occurrentes
■Recommandations
Industrie
■Prévision des défauts
■Nombre de pannes
■Appels pour intervention
■Pièces nécessaires
KXEN-Confidential 6
Comment décrire la question métier
Le projet Data Mining vise à :
■ Exploiter les données existantes pour
… produire un modèle répondant à la question métier
Le modèle fournit les éléments pour construire un Business Case
■ Et ensuite exploiter le modèle pour
… réaliser une action ciblée
Exemple
■ Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter
■ Le modèle donne une indication du retour attendu
J’ai un budget de 100 000 €
Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%
Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)
KXEN-Confidential 7
Agenda
La question métier
Données
■ Le processus données
■ Construire l’Analytical Data Set
■ Caractéristiques des données
Modèles
Evaluation des Techniques de Modélisation
Le modèle d’apprentissage statistique de V. Vapnik
KXEN-Confidential 8
Le processus données
Les données sont à la base du data mining
■ Pas de données, pas de modèle !
Le processus de collecte de données est complexe : il faut
■ Identifier l’ensemble des sources de données
■ Mettre en place les mécanismes de collecte
■ Mettre les données en cohérence
■ Manipuler & transformer les données
… pour constituer le “Analytical Data Set”
KXEN-Confidential 9
Le processus données
Exemple
Manipulation des données
Base clients telco
Préparation des données
Analytical Data Set
Customer Id Last name
First
name Address Birth dateProfession Education Local traffic
Traffic to mobile
Traffic to Internet
Preferred mode
Quality of payment
Number of calls
Duration of calls Mobile 1
2 3 4
…
128 Lion Leo S.
12 Baltimore Street
1975/02/2
9 Clown PhD 02:37:0001:23:00 07:46:00 CC E 37 03:24:00 1
…
…
…
…
KXEN-Confidential 10
Le processus données
Manipulation des données
■Réconcilier les formats hétérogènes
Meta-données et référentiels
■Rapprocher des labellés différents
Données internes & externes
Préparation des données
■Produire des données calculées
Agrégats
Variables calculées
KXEN-Confidential 11
Construire l’Analytical Data Set
Analytical Data Set : Représentation tabulaire des données
Une ligne représente une “observation”
■Par exemple : un client
Une colonne représente une “variable”
■Par exemple : âge, nom
■Il y a des “variables explicatives” & des”variables expliquées”
Autre termes pour
"Observation"
Autre termes pour
"Variable"
Ligne Colonne
Exemple Attribut
Table Champ
Event Propriété
Instance -
Record -
KXEN-Confidential 12
Construire l’Analytical Data Set
Manipulation des données
Référentiel & meta-données
■ Les données sur les données
Nom des variables, sens, format
■ Mapping des meta-données
Noms de champs et types de formats d’input variés vers un format commun
Transformer les contenus de variables similaires vers un format commun unique
■ Consistence
Ex : format “civilité, prénom, nom”
Jointures : de sources de données multiples
Filtrage des données
Règles métier
■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle}
Outliers
■ Détecté en fonction du dictionnaire, des règles et flaggé
■ Traité ensuite
KXEN-Confidential 13
Construire l’Analytical Data Set
Préparation des données
Sélection des variables
■ Choisir les variables utiles
Définition de la cible
Les transformations “métier”
■ Champs calculés : produire de nouvelles variables à partir de variables existantes
Nb de jours entre l’émission de la facture et le paiement
Profit : prix d’achat – coût de fabrication
Codage : les transformations statistiques nécessaires pour un certain modèle
■ Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories)
■ Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule
Représentation d’une variable multi-catégorie
Évaluer la qualité des données pour déterminer
■ Les valeurs manquantes (blancs, espaces, nuls)
■ Les outliers
■ Les corrélations
KXEN-Confidential 14
Construire l’Analytical Data Set
Qualité des données
Les données doivent être
■ Exactes
Valeurs correctes
■ Non redondantes
Doublons
■ Complètes : données “manquantes”
“missing-rate” d’une variable : combien d’observations ne l’ont pas
“filling-rate” d’une observation : combien de variables sont remplies
Traitement des données “manquantes”
1.Éliminer toutes les lignes non remplies complètement
On risque d’éliminer beaucoup de lignes !
2.Remplacer les données manquantes par des valeurs calculées
Variable nominale : catégorie la plus fréquente,
Variable continue : moyenne 3.Créer une classe spéciale
Voir Démo KXEN
La qualité n’est jamais parfaite !
KXEN-Confidential 15
Caractéristiques des données
Chaque variable a 3 caractéristiques
1.Type
■ Continue
■ Ordinal
Variables discrètes (numérique ou texte) dont l’ordre a un sens – A, B, C …; 1, 2, 3
■ Nominal
Variables discrètes dont l’ordre n’a pas de sens – Numérique :
» Binaire (0 ou 1), codes postaux (75 013, 92 125 …) – Texte : chaînes de caractères sans ordre significatif
» CC –carte crédit, CH –chèque, RA –retrait automatique
2.
Format de stockage
Date
– Variable Date de naissance: "2001-11-30", "1999/04/28"
Number
– Variable Salaireen US $: "1000", "1593“, "2000.54"
– Variable Ageen années : "21", "34" and "99"
String
– Variable Nom de famille : “Dupont", "Martin“, "Miller"
– Variable N° de tél: "800 555 1234“, "800 555 4321"
– Variable Profession: "professeur", “ingénieur"
KXEN-Confidential 16
Caractéristiques des données
Chaque variable a 3 caractéristiques
3.Rôle
■ Le rôle de la variable dans le projet
■ Le rôle peut être différent dans un autre projet
Rôle de la variable Autres termes
Cible
Variable expliquée Variable dépendante Output
Explicative
Variable causale Variable indépendante Input
Exclue Skip
Poids *
KXEN-Confidential 17
Un exemple : le problème “census”
Variables
skip integer
continuous KxIndex
target 0
number nominal class
input 857
string nominal native-country
input 0
number continuous hours-per-week
input 0
number continuous capital-loss
input 244
number continuous capital-gain
input 0
string nominal sex
input 0
string nominal race
input 0
string nominal relationship
input 2 809
string nominal occupation
input 0
string nominal marital-status
input 0
number ordinal
education-num
input 0
string nominal education
input 0
number continuous fnlwgt
input 2 799
string nominal workclass
input 0
number continuous age
Rôle Nombre de manquant Stockage
Valeur Variable
KXEN-Confidential 18
Agenda
La question métier
Données
Modèles
■ Modèles descriptifs
■ Modèles prédictifs
Le modèle d’apprentissage statistique de V. Vapnik
Evaluation des Techniques de Modélisation
KXEN-Confidential 19
Types de modèles
Il y a deux sortes de modèles :
Modèles descriptifs
■ Exploration des données du passé
… pour comprendre le passé
■ Information descriptive sur les variables et leurs relations
Modèles prédictifs
■ Exploitation des données du passé
… pour prévoir et expliquer le futur
■ Information prédictive sur la future valeur de la variable cible
KXEN-Confidential 20
Types de modèles
Source : Teradata
KXEN-Confidential 21
Types de modèles
Un modèle
Est produit à partir de l’Analytical Data Set
■À partir des données du passé, on produit un modèle pour
Comprendre : modèle exploratoire
Prévoir : modèle prédictif
Est utilisé
■Sur les données du passé
Pour comprendre ce qui s’est passé & pourquoi
■Sur les données du futur
Pour mettre en oeuvre des actions opérationnelles (ex : campagnes)
Est évalué
■Au moment de sa production pour
Évaluer la qualité du modèle
Anticiper ce que sera sa performance dans le futur
■Au moment de son utilisation
Sur les nouvelles données du futur
On doit vérifier que les performances observées sont conformes aux performances attendues
KXEN-Confidential 22
Types de modèles
Qualités d’un modèle
Précision
■La capacité du modèle à être “bon” sur les données du passé
Robustesse / Généralisation
■La capacité du modèle à être “bon” sur les données du futur
Quelles que soient ces données
… à condition qu’elles proviennent de la même distribution que le passé
En présence d’outliers, de données manquantes …
… et ceci quelle que soit la forme de la distribution des données
Passé
Futur
Données Modèle
KXEN-Confidential 23
Modèles descriptifs - Statistiques descriptives
Variable “Age” (base Census)
KXEN-Confidential 24
Modèles descriptifs - Importance des variables
Un modèle prédictif peut donner de l’information sur
l’importance des variables.
Exemple
■ Dans la base Census, j’essaie de prévoir si une personne gagne plus de 50 000 $ / an
■ Un modèle de régression simple :
Classe = 1 si a*age + b*capital-gain ≥ c
Classe = 0 si a*age + b*capital-gain < c
■ Contribution avec
■ Cas des variables corrélées : xet y
Contribution intelligente
■ Importance des catégories
Influence sur la cible
– Le comportement est comparé au comportement moyen de l'ensemble de la population
=1
∑
i∑
i i i
oids P oids P
=
∑
i i i
i Poids
oids ontrib P C
( ) ( )
(
y x)
b Ax
x y b x b a
by bx bx ax
by ax
− +
=
− + +
=
+
− +
= +
KXEN-Confidential 25
Modèles descriptifs - Importance des variables
Contribution intelligente des variables
Importance des catégories des variables “marital- status” et “capital-gain”
Base Census
KXEN-Confidential 26
Modèles descriptifs - Segments
Construction de segments
■ Non supervisée / Supervisée
Exemple
■ Production de 5 segments supervisée par “class”
Base Census
■Description des Segments / variable / population
KXEN-Confidential 27
Modèles prédictifs - Classes de modèles
Classification
■La cible est nominale
Binaire : il y a 2 classes (0 et 1)
Multi-modale : il y a n classes (1, 2, …, n)
Régression
■La cible est continue
Score
Série temporelle …
x t
y
t y
x
10
KXEN-Confidential 28
x t
y
Modèles prédictifs - Utilisation des modèles
1.
Expliquer / comprendre
■ Le modèle est une description / simplification du phénomène
■ Il permet de répondre à des questions comme :
Quelles sont les variables significatives
Quel est l’impact d’une variation de l’une des variables …
2.
Prévoir
■ Le modèle donne une estimation de la classe ou de la valeur
■ Des modèles différents donnent des prévisions différentes
Quelle est la “bonne” prévision ?
Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?
KXEN-Confidential 29
Modèles prédictifs - Utilisation des modèles
Données d’apprentissage
Modèle simple
Modèle intermédiaire
Modèle complexe
KXEN-Confidential 30
Modèles prédictifs - Utilisation des modèles
Qu’attendons-nous d’un modèle Précision (ensemble d’apprentissage)
Modèle simple Modèle intermédiaire Modèle complexe
Robustesse (ensemble de test)
Modèle complexe Modèle simple Modèle intermédiaire
KXEN-Confidential 31
Agenda
La question métier
Données
Modèles
Le modèle d’apprentissage statistique de V. Vapnik
■ Le cadre mathématique
■ La théorie de Vapnik
■ Le processus de modélisation
Propriétés attendues d’un modèle – Généralisation
– Consistence – Robustesse
Stratégie de génération de modèle
Evaluation des Techniques de Modélisation
KXEN-Confidential 32
Le cadre mathématique
Données d’apprentissage
■ La cible ypeut être continue ou pas
■ Dans la « base d’apprentissage », tous les yisont connus
Une classe de fonctions
■ Par exemple :
La classe des plynômes de degré p
La classe des MLP avec p neurones cachés …
Un modèle issu de cette classe
■ Par exemple, le polynôme dont les paramètres sont
Le « meilleur » modèle
■ Produit par un certain algorithme ou un principe d’inférence
■ Et qui correspond donc au « meilleur » paramètre
( )
{ ∈ Θ }
= Φ
Θf ., θ , θ
( ) x , θ
f y =
( ) , θ ˆ
ˆ f x
y = θ ˆ
θ ( x
1, y
1) ( , x
2, y
2) ( ,..., x
n, y
n)
KXEN-Confidential 33
Le cadre mathématique
Une fonction de coût
■Par exemple
L’écart quadratique
L’erreur en apprentissage ou risque empirique
■Le coût moyen sur l’ensemble d’apprentissage
■Par exemple l’écart quadratique moyen MSE (Mean Square Error)
L’erreur en généralisation
■Le coût moyen théorique sur l’ensemble de la population
■… qui est l’erreur attendue sur de nouvelles données
Principe d’inférence
■Minimisation du risque empirique
■Par exemple : LMSE (Least Mean Square Error)
( )
[ y , f x , θ ] [ y f ( ) x , θ ]
2L = −
( ) [ y , f x , θ ]
L
( ) ∑ [ ( ) ]
=
=
ni i i
emp
L y f x
R n
1
,
1 , θ
θ
( ) L [ y f ( ) x ] ( ) dP x y
R
Genθ = ∫ , , θ ⋅ ,
( ) θ θ ˆ = arg mi
θn R
emp( ) ∑ [ ( ) ]
=
−
=
ni i i
emp
y f x
R n
1
,
21 θ
θ
( )
[ ]
∑
=
−
=
ni i
i
f x
n y rg a mi n
1
,
2ˆ 1 θ
θ
θ KXEN-Confidential 34
Le cadre mathématique
L’erreur d’apprentissage (précision)
L’erreur de généralisation (robustesse)
( )
L[
y f( )
x]
dP(
x y)
RGenθ =
∫
, ,θ ⋅ ,Modèle intermédiaire
Deux notions
Modèle complexe
( ) ∑ [ ( ) ]
=
=
ni i i
emp
L y f x
R n
1
,
1 , θ
θ
KXEN-Confidential 35
La théorie de Vapnik
La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes
1.Consistence (robustesse)
Capacité à généraliser correctement sur de nouvelles données 2.Vitesse de convergence
Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente
3.Contrôle de la capacité de généralisation
C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage 4.Stratégie pour obtenir de bons algorithmes
C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit
… et utilise un paramètre la « VC dimension » ou
dimension de Vapnik ChervonenkisKXEN-Confidential 36
La théorie de Vapnik
Dimension de Vapnik Chervonenkis
Etant donné
■ Un échantillon de nobservations
■ caractérisées par pvariables :
Il y a 2
nfaçons de séparer ces n observations en 2 classes
On dit que la famille de fonctions
“pulvérise” l’échantillon si toutes les 2
nséparations sont réalisables (avec un θθθθ bien choisi)
On dit que la famille Φ Φ Φ Φ
ΘΘΘΘest de VC dimension
h ∈∈∈∈aaaasi :
1.Il existe au moins un échantillon dehobservations de
ℜ ℜ ℜ ℜ
pqui peutêtre pulvérisé par
Φ Φ Φ Φ
ΘΘΘΘ2.Aucun échantillon de h+1observations ne peut être éclaté par
Φ Φ Φ Φ
ΘΘΘΘ( x1, x
2,..., x
n)
p
x
i∈ ℜ
( )
{ ∈ Θ }
=
Φ
Θf ., θ , θ
KXEN-Confidential 37
La théorie de Vapnik
Exemple : la famille des droites de
ℜ ℜ ℜ ℜ
2■ 3 points
■ 4 points
h= 3 (=2+1)
KXEN-Confidential 38
La théorie de Vapnik
1.
Consistence (robustesse)
■ Capacité à généraliser correctement sur de nouvelles données
2.
Vitesse de convergence
■ Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente
■ Indépendant des distributions de (X,Y)
■ Un modèle est
consistent si et seulement si la famille
dont il est issu est de VC dimension finie
( ) , θ ˆ
ˆ f x
y =
h
( )
{ ∈ Θ }
= Φ
Θf ., θ , θ
KXEN-Confidential 39
La théorie de Vapnik
3.
Contrôle de la capacité de généralisation
■ C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage
■ Quand n/hest grand, on minimise le risqueempirique Remp
■ Quand n/hest petit , on minimise les deux termes : RempET εεεε(n,h) doivent être minimisés
Remp
R
empRGen
Statistique classique
KXEN-Confidential 40
La théorie de Vapnik
4.
Stratégie pour obtenir de bons algorithmes
■ C’est la stratégie qui permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit
■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions emboîtées à VC dimension croissante
Produire un modèle dans une famille
■Fit de données Choisir le meilleur
modèle dans l’ensemble des modèles générés
■Choix de modèle
Compromis fit- robustesse
KXEN-Confidential 41
La théorie de Vapnik
Moralité
Ce qu’on ne peut pas contrôler
■La distribution des données
Certainement pas Gaussiennes …
■Les approximations de distribution
Transformation pour se ramener au cas Gaussien
Ce qu’on peut contrôler
■La classe de modèles où on recherche la solution ΦΦΦΦΘΘΘΘ
■La VC dimension h de la classe retenue
Avec une méthode de contrôle
■La SRM qui garantit la robustesse
KXEN-Confidential 42
Le processus de modélisation KXEN
La SRM en pratique dans KXEN
Et deux indicateurs
■ Précision : KI
■ Robustesse : KR
KXEN-Confidential 43
Le processus de modélisation KXEN
Production de l’ADS
Automatique
(SRM) Ridge
regression
KI (Gini index) Polynômes
y
kP ré p a ra tio n Algorithme
d’apprentissage Modèle
C o d a g e C rit è re
x
k x1xn
x3
x2
Sorties Système
y1
yp
y2
x
ky
kKXEN-Confidential 44
Le processus de modélisation KXEN
Régression polynômiale
On utilise une structure en deux modules
qu’on calibre en même temps, en utilisant
■ Une régression ridge pour le fitting des données:
■ Une SRM pour le choix des modèles: x1
xn x3 x2
Codage Régression
y = F ( x
1, … , x
n; W , λ
i, µ
j)
λ
iW , µ
jy
kx
kj
i
µ
λ , W
*KXEN-Confidential 45
Le processus de modélisation KXEN
Régression polynômiale
On utilise la classe des polynômes
■À degré
q
donné, famille emboîtée par croissants( )
{
i i}
qµi
= g x W µ polynôme de d egré q W ≤ µ
Φ ; , , ;
Régression y = g ( z
1, … , z
n; W , µ
j)
W , µ
jz
1z
nz
3z
2µ
iKXEN-Confidential 46
Le processus de modélisation KXEN
Régression polynômiale – Le module de codage
Code les variables nominales et ordinales sous forme numérique
Code les variables continues de façon non-linéaire
Compresse les variables en catégories robustes
Traite les valeurs manquantes et les outliers
en utilisant les principes de la SRM de Vapnik (compromis fit-robustesse)
Codage
KXEN-Confidential 47
Le processus de modélisation KXEN
Régression polynômiale – Le module de codage
Variable nominale
Codage
KXEN-Confidential 48
Le processus de modélisation KXEN
Régression polynômiale – Le module de codage
Variable continue
Codage
KXEN-Confidential 49
Le processus de modélisation KXEN
Régression polynômiale – Le module de codage
Robustesse du codage
Codage
KXEN-Confidential 50
Le processus de modélisation KXEN Régression polynômiale – Le module de régression
Régression
KXEN-Confidential 51
Le processus de modélisation KXEN
Régression polynômiale – Le module de régression
Indicateurs fit & robustesse
O KI=M
Régression
O
M G O
KR = 1 − M O KI =
G
KXEN-Confidential 52
Le processus de modélisation KXEN Régression polynômiale – Le module de régression
Régression
KXEN-Confidential 53
Le processus de modélisation KXEN
Segmentation supervisée
On utilise une structure en deux modules
qu’on calibre en même temps, en utilisant
■Une SRM & MDL pour le choix des modèles :
■Un k-means supervisé pour le data fitting : (positionnement des centres)
y
kx
kj
i
µ
λ , ℑ
* x1xn
x3 x2
Codage Segmentation y=F
(
x1,…,xn;ℑ,λi,µj)
λ
i ℑ,µ
jKXEN-Confidential 54
Le processus de modélisation KXEN
Le module de segmentation
KXEN-Confidential 55
Le processus de modélisation KXEN
Le module de segmentation
KXEN-Confidential 56
Le processus de modélisation KXEN
Le module de segmentation
KXEN-Confidential 57
Le processus de modélisation KXEN
Le module de segmentation
KXEN-Confidential 58
Le processus de modélisation KXEN
Le module de segmentation
KXEN-Confidential 59
Agenda
La question métier
Données
Modèles
Le modèle d’apprentissage statistique de V. Vapnik
Evaluation des Techniques de Modélisation
■ Introduction
■ Classification binaire
Matrice de Confusion
Indicateurs de performance
■ Régression
KXEN-Confidential 60
Introduction
Le résultat de la modélisation
■ Un ou plusieurs modèles
Il faut
■ Évaluer la performance d’un modèle
Évaluer le fit
■ Comparer les performances de plusieurs modèles
Choisir un modéle
Il y a deux niveaux d’évaluation de la performance
■ Évaluation technique
Indicateurs techniques / statistiques
Doivent être indépendants des distributions des données
■ Évaluation métier
Quelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)
Exemples :
– Taux de retour, profit généré par une campagne – Taux de défaut généré dans ce processus d’attribution de crédit
KXEN-Confidential 61
Classification binaire
On a 2 classes : 0/1 ou N/P (négatif / positif)
On veut définir un modèle Classe tel que
Classe ( X )
= 0 ou 1
Il y a deux méthodes
■ Classification - ou décision- directe :
f(x) =
0 ou 1■ Score
On produit d’abord une fonction-score
f
dont la valeur est une variable continuef(x) =
sOn fixe un seuil sur cette fonction : S
On classe dans une classe 0/1 selon que le score est inférieur / supérieur àS –Classe ( X ) = 1 si f(x)>S
–Classe ( X ) = 0 si f(x)≤S
Cette technique est plus flexible : en faisant varier le seuil S, on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe
KXEN-Confidential 62
Classification binaire – Matrice de Confusion
On a un modèle de décision Classe
On compare la décision “
Classé” à la réalité “
Réel ”Pour chaque observation, 4 cas possibles
■ Classe ( X ) = 1et Réel ( X ) = 1: Vrai Positif
■ Classe ( X ) = 1et Réel ( X ) = 0: Faux Positif
■ Classe ( X ) = 0et Réel ( X ) = 1: Faux Négatif
■ Classe ( X ) = 0et Réel ( X ) = 0: Vrai Négatif
On note
■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux négatifs dans la population totale
■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N
P N Total
P VP FP nbCP
N FN VN nbCN
nbRP nbRN n Réel
Classé Total
KXEN-Confidential 63
Classification binaire – Matrice de Confusion
Matrice de confusion en proportions
■Les proportions de vrai P /N :
Sensibilité
Spécificité
Modèle parfait
Modèle aléatoire
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
( ) s =
VPnbRPα ( ) s =
VNnbRNβ
P N
P α(s) 1 - β(s) N 1 - α(s) β(s)
Réel
Classé
KXEN-Confidential 64
Classification binaire – Indicateurs de performance
Taux de Bien Classés
Taux d’erreur de
classification
■Problème si les classes sont déséquilibrées
■OK pour comparer plusieurs classifieurs
Lift Curve
■La courbe représentant le taux de VP en fonction des P de la population, i.e. si on ordonne les observations par score décroissant
α (s)
en fonction de
1-F(s)
F( s )
est le taux de positifs dans la population avec score supérieur às
n VN TBC = VP +
TBC TER =1 −
αααα(s)
1-F(s)
KXEN-Confidential 65
Classification binaire – Indicateurs de performance
A partir de la Lift Curve
Indicateur
■ Le rapport de l’aire
M
entre les courbes Modèle/aléatoire à l’aireO
entre les courbes modèle parfait / aléatoire (modèle parfait =Wizard ou Oracle)
Indicateur
■ Le rapport de l’aire
G
entre les courbes du Modèle sur les ensembles d’estimation et de validation à l’aireO
entre les courbes modèle parfait / aléatoireαααα(s)
1-F(s) O
M M O
KI =
GO KR=1−
αααα(s)
1-F(s) O G
KXEN-Confidential 66
Classification binaire – Indicateurs de performance
Courbe de profit
■ On définit une structure de coût/
revenu
■ Exemple
Profit ( s ) = VP x Rev – FP x Coût
Profit
max est le profit généré par Wizard Profit_Rate ( s ) = Profit ( s ) / Profit
max
(pPetpNsont les taux de P /N)
■ La courbe de profitest la courbe représentant
Profit_Rate ( s )
en fonction des P de la population, i.e. si on ordonne les observations par score décroissantProfit_Rate ( s )
en fonction de1-F(s)
1-F(s)
Profit_Rate(s)( ) ( ) [ ( ) ]
ev R Coût p s p s s Rate rofit P
P N⋅
⋅
−
−
=α 1 β _
n pP=nbRP
n p
N= nbRN
P N
P Rev Coût
N 0 0
Réel Classé
KXEN-Confidential 67
Classification binaire – Indicateurs de performance
Remarques
Si Rev=1 et Coût=0
■ Profit_Rate ( s )= α (s)
■ Courbe de profit
= courbe de lift
Si Rev= p
Net Coût=p
P■
■ Courbe de profit
=Profit normalisé
( ) ( ) [ ( ) ] ( )
s Ts s s rate rofit P
=
−
−
=α 1 β _
1-F(s) T(s)
KXEN-Confidential 68
Classification binaire - Indicateurs de performance
Courbe ROC
■ La courbe représentant le taux de VP en fonction du taux de FP, i.e. si on ordonne les observations par score décroissant
α (s)
en fonction de1- β (s)
Indicateur AUC
■ L’aire sous la courbe ROC
■
KI = 2 AUC -1
( ) s d [ ( ) s ]
AUC =
−∞∫ α − β
∞ +
1 .
αααα(s)
1-ββββ(s)
AUC
KXEN-Confidential 69
Régression
Notations
■Un échantillon
■La cible
y
est une variable continue■La valeur prévue :
■Le résidu :
■L’erreur :
■La moyenne de la cible :
■La moyenne des prévisions :
( x
1, y
1) ( , x
2, y
2) ( ,..., x
n, y
n)
yˆ
i i
i
y y
r = − ˆ
|
|
| ˆ
|
i i ii
y y r
u = − =
∑
=
=
ni
y
iy n
1
1
∑
=
=
ni
y
iy n
1
1 ˆ ˆ
KXEN-Confidential 70
Régression - Indicateurs de performance Les indicateurs
■ Mean Square Error erreur moyenne
■ Root Mean Squared Error (RMSE ou L2)
■ Mean Absolute Error (MAE ou L1)
■ Maximum Absolute Error (ou L∞)
■ Sum of Squares of Regression
= variance des résidus du prédicteur
■ Total Sum of Squares
= variance du signal
■ Determination Coefficient (Rsquare-R2)
= Coefficient de qualité
■ Corrélation de Pearson
[ ]
∑
=−
=
ni i
i
y
n y MSE
1
ˆ
21
MSE L2=
∑
=
−
= n
i i yi
n y L
1
1 ˆ 1
i
u
iL ∞ = max
∑
=−
=
ni
i
y
y SSR
1
)
2( ˆ
∑
=
−
=
ni
i
y
y SST
1
)
2(
SST R 2 = SSR 2 r
s2P =
∑
∑
∑
=
=
=
−
−
−
−
=
ni i n
i i n
i
i i
s
y y y y y y y y
r
1 2 1
2 1
) ( ) ˆ ˆ ( ) )(
ˆ ˆ (
KXEN-Confidential 71
Régression - Indicateurs de performance
Régression sur âge
Base census
KXEN-Confidential 72
Lecture
Industriel
Site d’informations data mining
■ http://www.kdnuggets.com/
Predictive Analytics; the Future of Business IntelligenceMukhles Zaman
■ http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp
Data Mining Tools: Which One is Best For CRM?Robert A. Nisbet
■ Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025
■ Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597 Comprendre l'industrialisation informatique
■ http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml
Scientifique Vladimir Vapnik
■ ‘Statistical Learning Theory’, Wiley-Interscience, 1998
■ ‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999 Cours
■ http://www.mit.edu/~9.520/#description
■ http://www.stanford.edu/class/cs345a/
■ http://clopinet.com/isabelle/Projects/ETH/