La question métier

(1)

Data Mining

2 - Fondements théoriques

Françoise Soulié Fogelman

Master MI2 Pro EID- Université Paris 13 Data mining et Business Intelligence FDON

KXEN-Confidential 2

Agenda

La question métier

■ Comment décrire un problème data mining

■ Comment décrire la question métier

Données

Modèles

Evaluation des Techniques de Modélisation

Le modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 3

Comment décrire un problème data mining

Le début de tout projet data mining

■Un utilisateur métier pose une question

La Direction veut augmenter le revenu sur ce produit :

– “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion? “

La Production s’est aperçu que ce processus produit beaucoup plus de défauts que cet autre :

– “Pouvez-vous me dire les caractéristiques de ce processus qui pourraient expliquer cet écart ? “

… pour prendre une décision concernant une action à lancer

Ces questions sont liées aux objectifs stratégiques

de l’entreprise

■Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise

■Le Plan opérationnel liste les actions prévues

Les KPI - Key Performance Indicators – sont

utilisés pour mesurer les résultats des actions Aujourd’hui, les entreprises veulent industrialiser le

processus de décision et contrôler leurs actions

KXEN-Confidential 4

Comment décrire la question métier

Pour chaque question métier posée, il faut comprendre :

■Le processus métier associé

■Quelles sont les variables associées

■Quel est le résultat attendu

Les variables d’entrée

… ou variables explicatives

… ou inputs

… doivent être disponibles

La cible

… ou variable expliquée

… ou output

… doit être mesurable

… et “actionnable”

x

1

( ) ^x

f y = x

2

x

3

x

n

KXEN-Confidential 5

Comment décrire la question métier

Ciblage marketing

■Propensité d’achat

■Rétention

Segmentation

■Segmentation clients

■Segmentation offres

Crédit

■Probabilité de défaut

Distribution

■Prévision de revenu, de vente

■Ventes co-occurrentes

■Recommandations

Industrie

■Prévision des défauts

■Nombre de pannes

■Appels pour intervention

■Pièces nécessaires

KXEN-Confidential 6

Comment décrire la question métier

Le projet Data Mining vise à :

■ Exploiter les données existantes pour

… produire un modèle répondant à la question métier

Le modèle fournit les éléments pour construire un Business Case

■ Et ensuite exploiter le modèle pour

… réaliser une action ciblée

Exemple

■ Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter

■ Le modèle donne une indication du retour attendu

J’ai un budget de 100 000 €

Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%

Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)

(2)

KXEN-Confidential 7

Agenda

La question métier

Données

■ Le processus données

■ Construire l’Analytical Data Set

■ Caractéristiques des données

Modèles

Evaluation des Techniques de Modélisation

Le modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 8

Le processus données

Les données sont à la base du data mining

■ Pas de données, pas de modèle !

Le processus de collecte de données est complexe : il faut

■ Identifier l’ensemble des sources de données

■ Mettre en place les mécanismes de collecte

■ Mettre les données en cohérence

■ Manipuler & transformer les données

… pour constituer le “Analytical Data Set”

KXEN-Confidential 9

Le processus données

Exemple

Manipulation des données

Base clients telco

Préparation des données

Analytical Data Set

Customer Id Last name

First

name Address Birth dateProfession Education Local traffic

Traffic to mobile

Traffic to Internet

Preferred mode

Quality of payment

Number of calls

Duration of calls Mobile 1

2 3 4

…

128 Lion Leo S.

12 Baltimore Street

1975/02/2

9 Clown PhD 02:37:0001:23:00 07:46:00 CC E 37 03:24:00 1

…

KXEN-Confidential 10

Le processus données

Manipulation des données

■Réconcilier les formats hétérogènes

Meta-données et référentiels

■Rapprocher des labellés différents

Données internes & externes

Préparation des données

■Produire des données calculées

Agrégats

Variables calculées

Construire l’Analytical Data Set

Analytical Data Set : Représentation tabulaire des données

Une ligne représente une “observation”

■Par exemple : un client

Une colonne représente une “variable”

■Par exemple : âge, nom

■Il y a des “variables explicatives” & des”variables expliquées”

Autre termes pour

"Observation"

Autre termes pour

"Variable"

Ligne Colonne

Exemple Attribut

Table Champ

Event Propriété

Instance -

Record -

Construire l’Analytical Data Set

Manipulation des données

Référentiel & meta-données

■ Les données sur les données

Nom des variables, sens, format

■ Mapping des meta-données

Noms de champs et types de formats d’input variés vers un format commun

Transformer les contenus de variables similaires vers un format commun unique

■ Consistence

Ex : format “civilité, prénom, nom”

Jointures : de sources de données multiples

Filtrage des données

Règles métier

■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle}

Outliers

■ Détecté en fonction du dictionnaire, des règles et flaggé

■ Traité ensuite

(3)

Construire l’Analytical Data Set

Préparation des données

Sélection des variables

■ Choisir les variables utiles

Définition de la cible

Les transformations “métier”

■ Champs calculés : produire de nouvelles variables à partir de variables existantes

Nb de jours entre l’émission de la facture et le paiement

Profit : prix d’achat – coût de fabrication

Codage : les transformations statistiques nécessaires pour un certain modèle

■ Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories)

■ Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule

Représentation d’une variable multi-catégorie

Évaluer la qualité des données pour déterminer

■ Les valeurs manquantes (blancs, espaces, nuls)

■ Les outliers

■ Les corrélations

Construire l’Analytical Data Set

Qualité des données

Les données doivent être

■ Exactes

Valeurs correctes

■ Non redondantes

Doublons

■ Complètes : données “manquantes”

“missing-rate” d’une variable : combien d’observations ne l’ont pas

“filling-rate” d’une observation : combien de variables sont remplies

Traitement des données “manquantes”

1.Éliminer toutes les lignes non remplies complètement

On risque d’éliminer beaucoup de lignes !

2.Remplacer les données manquantes par des valeurs calculées

Variable nominale : catégorie la plus fréquente,

Variable continue : moyenne 3.Créer une classe spéciale

Voir Démo KXEN

La qualité n’est jamais parfaite !

Caractéristiques des données

Chaque variable a 3 caractéristiques

1.

Type

■ Continue

■ Ordinal

Variables discrètes (numérique ou texte) dont l’ordre a un sens – A, B, C …; 1, 2, 3

■ Nominal

Variables discrètes dont l’ordre n’a pas de sens – Numérique :

» Binaire (0 ou 1), codes postaux (75 013, 92 125 …) – Texte : chaînes de caractères sans ordre significatif

» CC –carte crédit, CH –chèque, RA –retrait automatique

2.

Format de stockage

Date

– Variable Date de naissance: "2001-11-30", "1999/04/28"

Number

– Variable Salaireen US $: "1000", "1593“, "2000.54"

– Variable Ageen années : "21", "34" and "99"

String

– Variable Nom de famille : “Dupont", "Martin“, "Miller"

– Variable N° de tél: "800 555 1234“, "800 555 4321"

– Variable Profession: "professeur", “ingénieur"

Caractéristiques des données

Chaque variable a 3 caractéristiques

3.

Rôle

■ Le rôle de la variable dans le projet

■ Le rôle peut être différent dans un autre projet

Rôle de la variable Autres termes

Cible

Variable expliquée Variable dépendante Output

Explicative

Variable causale Variable indépendante Input

Exclue Skip

Poids *

Un exemple : le problème “census”

Variables

skip integer

continuous KxIndex

target 0

number nominal class

input 857

string nominal native-country

input 0

number continuous hours-per-week

input 0

number continuous capital-loss

input 244

number continuous capital-gain

input 0

string nominal sex

input 0

string nominal race

input 0

string nominal relationship

input 2 809

string nominal occupation

input 0

string nominal marital-status

input 0

number ordinal

education-num

input 0

string nominal education

input 0

number continuous fnlwgt

input 2 799

string nominal workclass

input 0

number continuous age

Rôle Nombre de manquant Stockage

Valeur Variable

Agenda

La question métier

Données

Modèles

■ Modèles descriptifs

■ Modèles prédictifs

Le modèle d’apprentissage statistique de V. Vapnik

Evaluation des Techniques de Modélisation

(4)

Types de modèles

Il y a deux sortes de modèles :

Modèles descriptifs

■ Exploration des données du passé

… pour comprendre le passé

■ Information descriptive sur les variables et leurs relations

Modèles prédictifs

■ Exploitation des données du passé

… pour prévoir et expliquer le futur

■ Information prédictive sur la future valeur de la variable cible

Types de modèles

Source : Teradata

Types de modèles

Un modèle

Est produit à partir de l’Analytical Data Set

■À partir des données du passé, on produit un modèle pour

Comprendre : modèle exploratoire

Prévoir : modèle prédictif

Est utilisé

■Sur les données du passé

Pour comprendre ce qui s’est passé & pourquoi

■Sur les données du futur

Pour mettre en oeuvre des actions opérationnelles (ex : campagnes)

Est évalué

■Au moment de sa production pour

Évaluer la qualité du modèle

Anticiper ce que sera sa performance dans le futur

■Au moment de son utilisation

Sur les nouvelles données du futur

On doit vérifier que les performances observées sont conformes aux performances attendues

Types de modèles

Qualités d’un modèle

Précision

■La capacité du modèle à être “bon” sur les données du passé

Robustesse / Généralisation

■La capacité du modèle à être “bon” sur les données du futur

Quelles que soient ces données

… à condition qu’elles proviennent de la même distribution que le passé

En présence d’outliers, de données manquantes …

… et ceci quelle que soit la forme de la distribution des données

Passé

Futur

Données Modèle

Modèles descriptifs - Statistiques descriptives

Variable “Age” (base Census)

Modèles descriptifs - Importance des variables

Un modèle prédictif peut donner de l’information sur

l’importance des variables.

Exemple

■ Dans la base Census, j’essaie de prévoir si une personne gagne plus de 50 000 $ / an

■ Un modèle de régression simple :

Classe = 1 si a*age + b*capital-gain ≥ c

Classe = 0 si a*age + b*capital-gain < c

■ Contribution avec

■ Cas des variables corrélées : xet y

Contribution intelligente

■ Importance des catégories

Influence sur la cible

– Le comportement est comparé au comportement moyen de l'ensemble de la population

=1

∑

i

∑

i i i

oids P oids P

=

∑

i i i

i Poids

oids ontrib P C

( ) ( )

(

^y ^x

)

b Ax

x y b x b a

by bx bx ax

by ax

− +

=

− + +

=

+

− +

= +

(5)

Modèles descriptifs - Importance des variables

Contribution intelligente des variables

Importance des catégories des variables “marital- status” et “capital-gain”

Base Census

Modèles descriptifs - Segments

Construction de segments

■ Non supervisée / Supervisée

Exemple

■ Production de 5 segments supervisée par “class”

Base Census

■Description des Segments / variable / population

Modèles prédictifs - Classes de modèles

Classification

■La cible est nominale

Binaire : il y a 2 classes (0 et 1)

Multi-modale : il y a n classes (1, 2, …, n)

Régression

■La cible est continue

Score

Série temporelle …

x t

y

t y

x

1

0

x t

y

Modèles prédictifs - Utilisation des modèles

1.

Expliquer / comprendre

■ Le modèle est une description / simplification du phénomène

■ Il permet de répondre à des questions comme :

Quelles sont les variables significatives

Quel est l’impact d’une variation de l’une des variables …

2.

Prévoir

■ Le modèle donne une estimation de la classe ou de la valeur

■ Des modèles différents donnent des prévisions différentes

Quelle est la “bonne” prévision ?

Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?

Modèles prédictifs - Utilisation des modèles

Données d’apprentissage

Modèle simple

Modèle intermédiaire

Modèle complexe

Modèles prédictifs - Utilisation des modèles

Qu’attendons-nous d’un modèle Précision (ensemble d’apprentissage)

Modèle simple Modèle intermédiaire Modèle complexe

Robustesse (ensemble de test)

Modèle complexe Modèle simple Modèle intermédiaire

(6)

Agenda

La question métier

Données

Modèles

Le modèle d’apprentissage statistique de V. Vapnik

■ Le cadre mathématique

■ La théorie de Vapnik

■ Le processus de modélisation

Propriétés attendues d’un modèle – Généralisation

– Consistence – Robustesse

Stratégie de génération de modèle

Evaluation des Techniques de Modélisation

Le cadre mathématique

Données d’apprentissage

■ La cible ypeut être continue ou pas

■ Dans la « base d’apprentissage », tous les y_isont connus

Une classe de fonctions

■ Par exemple :

La classe des plynômes de degré p

La classe des MLP avec p neurones cachés …

Un modèle issu de cette classe

■ Par exemple, le polynôme dont les paramètres sont

Le « meilleur » modèle

■ Produit par un certain algorithme ou un principe d’inférence

■ Et qui correspond donc au « meilleur » paramètre

( )

{ ∈ Θ }

= Φ

Θ

f ., θ , θ

( ) ^x ^, ^θ

f y =

( ) ^, ^θ ^ˆ

ˆ f x

y = θ ˆ

θ ( x

₁

, y

₁

) ( , x

₂

, y

₂

) ( ,..., x

n

, y

n

)

Le cadre mathématique

Une fonction de coût

■Par exemple

L’écart quadratique

L’erreur en apprentissage ou risque empirique

■Le coût moyen sur l’ensemble d’apprentissage

■Par exemple l’écart quadratique moyen MSE (Mean Square Error)

L’erreur en généralisation

■Le coût moyen théorique sur l’ensemble de la population

■… qui est l’erreur attendue sur de nouvelles données

Principe d’inférence

■Minimisation du risque empirique

■Par exemple : LMSE (Least Mean Square Error)

( )

[ y , f x , θ ] [ y f ( ) x , θ ]

²

L = −

( ) [ y , f x , θ ]

L

( ) ∑ [ ( ) ]

=

ⁿ

i i i

emp

L y f x

R n

1

,

1 , θ

θ

( ) ^L [ ^y ^f ( ) ^x ] ( ) ^dP ^x ^y

R

_Gen

^θ = ∫ , , ^θ ⋅ ,

( ) θ θ ˆ = arg mi

θ

n R

emp

( ) ∑ [ ( ) ]

=

−

=

ⁿ

i i i

emp

y f x

R n

1

,

2

1 θ

θ

( )

[ ]

∑

=

−

=

ⁿ

i i

i

f x

n y rg a mi n

1

,

2

ˆ 1 θ

θ

θ KXEN-Confidential 34

Le cadre mathématique

L’erreur d’apprentissage (précision)

L’erreur de généralisation (robustesse)

( )

^L

[

^y ^f

( )

^x

]

^dP

(

^x ^y

)

R_Gen^θ =

∫

, ,^θ ⋅ ,

Modèle intermédiaire

Deux notions

Modèle complexe

( ) ∑ [ ( ) ]

=

ⁿ

i i i

emp

L y f x

R n

1

,

1 , θ

θ

La théorie de Vapnik

La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes

1.Consistence (robustesse)

Capacité à généraliser correctement sur de nouvelles données 2.Vitesse de convergence

Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

3.Contrôle de la capacité de généralisation

C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage 4.Stratégie pour obtenir de bons algorithmes

C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

… et utilise un paramètre la « VC dimension » ou

dimension de Vapnik Chervonenkis

La théorie de Vapnik

Dimension de Vapnik Chervonenkis

Etant donné

■ Un échantillon de nobservations

■ caractérisées par pvariables :

Il y a 2

ⁿ

façons de séparer ces n observations en 2 classes

On dit que la famille de fonctions

“pulvérise” l’échantillon si toutes les 2

ⁿ

séparations sont réalisables (avec un θθθθ bien choisi)

On dit que la famille Φ Φ Φ Φ

_Θ_Θ_Θ_Θ

est de VC dimension

h ∈∈∈∈aaaa

si :

1.Il existe au moins un échantillon dehobservations de

ℜ ℜ ℜ ℜ

^p^{qui peut}

être pulvérisé par

Φ Φ Φ Φ

_Θ_Θ_Θ_Θ

2.Aucun échantillon de h+1observations ne peut être éclaté par

Φ Φ Φ Φ

_Θ_Θ_Θ_Θ

( x

₁

, x

₂

,..., x

n

)

p

x

i

∈ ℜ

( )

{ ∈ Θ }

=

Φ

Θ

f ., θ , θ

(7)

La théorie de Vapnik

Exemple : la famille des droites de

ℜ ℜ ℜ ℜ

²

■ 3 points

■ 4 points

h= 3 (=2+1)

La théorie de Vapnik

1.

Consistence (robustesse)

■ Capacité à généraliser correctement sur de nouvelles données

2.

Vitesse de convergence

■ Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

■ Indépendant des distributions de (X,Y)

■ Un modèle est

consistent si et seulement si la famille

dont il est issu est de VC dimension finie

( ) ^, ^θ ^ˆ

ˆ f x

y =

h

( )

{ ^∈ ^Θ }

= Φ

_Θ

f ., θ , θ

La théorie de Vapnik

3.

Contrôle de la capacité de généralisation

■ C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage

■ Quand n/hest grand, on minimise le risqueempirique R_emp

■ Quand n/hest petit , on minimise les deux termes : R_empET εεεε(n,h) doivent être minimisés

Remp

R

emp

RGen

Statistique classique

La théorie de Vapnik

4.

Stratégie pour obtenir de bons algorithmes

■ C’est la stratégie qui permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions emboîtées à VC dimension croissante

Produire un modèle dans une famille

■Fit de données Choisir le meilleur

modèle dans l’ensemble des modèles générés

■Choix de modèle

Compromis fit- robustesse

La théorie de Vapnik

Moralité

Ce qu’on ne peut pas contrôler

■La distribution des données

Certainement pas Gaussiennes …

■Les approximations de distribution

Transformation pour se ramener au cas Gaussien

Ce qu’on peut contrôler

■La classe de modèles où on recherche la solution ΦΦΦΦ_Θ_Θ_Θ_Θ

■La VC dimension h de la classe retenue

Avec une méthode de contrôle

■La SRM qui garantit la robustesse

Le processus de modélisation KXEN

La SRM en pratique dans KXEN

Et deux indicateurs

■ Précision : KI

■ Robustesse : KR

(8)

Le processus de modélisation KXEN

Production de l’ADS

Automatique

(SRM) Ridge

regression

KI (Gini index) Polynômes

y

k

P ré p a ra tio n Algorithme

d’apprentissage Modèle

C o d a g e C rit è re

x

k x1

xn

x3

x2

Sorties Système

y1

yp

y2

x

k

y

^k

Le processus de modélisation KXEN

Régression polynômiale

On utilise une structure en deux modules

qu’on calibre en même temps, en utilisant

■ Une régression ridge pour le fitting des données:

■ Une SRM pour le choix des modèles: x1

xn x3 x2

Codage Régression

y = F ( x

₁

, … , x

n

; W , λ

i

, µ

j

)

λ

i

W , µ

j

y

k

x

k

j

i

µ

λ , W

*

Le processus de modélisation KXEN

Régression polynômiale

On utilise la classe des polynômes

■À degré

q

donné, famille emboîtée par croissants

( )

{

i i

}

q_µ_i

= g x W µ polynôme de d egré q W ≤ µ

Φ ; , , ;

Régression y = g ( z

₁

, … , z

n

; W , µ

j

)

W , µ

j

z

1

z

n

z

3

z

2

µ

i

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Code les variables nominales et ordinales sous forme numérique

Code les variables continues de façon non-linéaire

Compresse les variables en catégories robustes

Traite les valeurs manquantes et les outliers

en utilisant les principes de la SRM de Vapnik (compromis fit-robustesse)

Codage

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Variable nominale

Codage

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Variable continue

Codage

(9)

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Robustesse du codage

Codage

Le processus de modélisation KXEN Régression polynômiale – Le module de régression

Régression

Le processus de modélisation KXEN

Régression polynômiale – Le module de régression

Indicateurs fit & robustesse

O KI=M

Régression

O

M G O

KR = 1 − M O KI =

G

Le processus de modélisation KXEN Régression polynômiale – Le module de régression

Régression

Le processus de modélisation KXEN

Segmentation supervisée

On utilise une structure en deux modules

qu’on calibre en même temps, en utilisant

■Une SRM & MDL pour le choix des modèles :

■Un k-means supervisé pour le data fitting : (positionnement des centres)

y

k

x

k

j

i

µ

λ ^, ℑ

* x1

xn

x₃ x₂

Codage Segmentation y=F

(

x1,…,xn;ℑ,λi,µj

)

λ

i ℑ,

µ

j

Le processus de modélisation KXEN

Le module de segmentation

(10)

Le processus de modélisation KXEN

Le module de segmentation

Le processus de modélisation KXEN

Le module de segmentation

Le processus de modélisation KXEN

Le module de segmentation

Le processus de modélisation KXEN

Le module de segmentation

Agenda

La question métier

Données

Modèles

Le modèle d’apprentissage statistique de V. Vapnik

Evaluation des Techniques de Modélisation

■ Introduction

■ Classification binaire

Matrice de Confusion

Indicateurs de performance

■ Régression

Introduction

Le résultat de la modélisation

■ Un ou plusieurs modèles

Il faut

■ Évaluer la performance d’un modèle

Évaluer le fit

■ Comparer les performances de plusieurs modèles

Choisir un modéle

Il y a deux niveaux d’évaluation de la performance

■ Évaluation technique

Indicateurs techniques / statistiques

Doivent être indépendants des distributions des données

■ Évaluation métier

Quelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)

Exemples :

– Taux de retour, profit généré par une campagne – Taux de défaut généré dans ce processus d’attribution de crédit

(11)

Classification binaire

On a 2 classes : 0/1 ou N/P (négatif / positif)

On veut définir un modèle Classe tel que

Classe ( X )

= 0 ou 1

Il y a deux méthodes

■ Classification - ou décision- directe :

f(x) =

0 ou 1

■ Score

On produit d’abord une fonction-score

f

dont la valeur est une variable continue

f(x) =

s

On fixe un seuil sur cette fonction : S

On classe dans une classe 0/1 selon que le score est inférieur / supérieur àS –Classe ( X ) = 1 si f(x)>S

–Classe ( X ) = 0 si f(x)≤S

Cette technique est plus flexible : en faisant varier le seuil S, on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe

Classification binaire – Matrice de Confusion

On a un modèle de décision Classe

On compare la décision “

Classé

” à la réalité “

Réel ”

Pour chaque observation, 4 cas possibles

■ Classe ( X ) = 1et Réel ( X ) = 1: Vrai Positif

■ Classe ( X ) = 1et Réel ( X ) = 0: Faux Positif

■ Classe ( X ) = 0et Réel ( X ) = 1: Faux Négatif

■ Classe ( X ) = 0et Réel ( X ) = 0: Vrai Négatif

On note

■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux négatifs dans la population totale

■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N

P N Total

P VP FP nbCP

N FN VN nbCN

nbRP nbRN n Réel

Classé Total

Classification binaire – Matrice de Confusion

Matrice de confusion en proportions

■Les proportions de vrai P /N :

Sensibilité

Spécificité

Modèle parfait

Modèle aléatoire

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

( ) s =

VPnbRP

α ( ) s =

VNnbRN

β

P N

P α(s) 1 - β(s) N 1 - α(s) β(s)

Réel

Classé

Classification binaire – Indicateurs de performance

Taux de Bien Classés

Taux d’erreur de

classification

■Problème si les classes sont déséquilibrées

■OK pour comparer plusieurs classifieurs

Lift Curve

■La courbe représentant le taux de VP en fonction des P de la population, i.e. si on ordonne les observations par score décroissant

α (s)

en fonction de

1-F(s)

F( s )

est le taux de positifs dans la population avec score supérieur à

s

n VN TBC = VP +

TBC TER =1 −

αααα(s)

1-F(s)

Classification binaire – Indicateurs de performance

A partir de la Lift Curve

Indicateur

■ Le rapport de l’aire

M

entre les courbes Modèle/aléatoire à l’aire

O

entre les courbes modèle parfait / aléatoire (modèle parfait =Wizard ou Oracle)

Indicateur

■ Le rapport de l’aire

G

entre les courbes du Modèle sur les ensembles d’estimation et de validation à l’aire

O

entre les courbes modèle parfait / aléatoire

αααα(s)

1-F(s) O

M M O

KI =

GO KR=1−

αααα(s)

1-F(s) O G

Classification binaire – Indicateurs de performance

Courbe de profit

■ On définit une structure de coût/

revenu

■ Exemple

Profit ( s ) = VP x Rev – FP x Coût

Profit

max est le profit généré par Wizard Profit_Rate ( s ) = Profit ( s ) / P

rofit

_max

(p_Petp_Nsont les taux de P /N)

■ La courbe de profitest la courbe représentant

Profit_Rate ( s )

en fonction des P de la population, i.e. si on ordonne les observations par score décroissant

Profit_Rate ( s )

en fonction de

1-F(s)

Profit_Rate(s)

( ) ( ) [ ( ) ]

ev R Coût p s p s s Rate rofit P

P N⋅

⋅

−

=α 1 β _

n pP=nbRP

n p

N

= nbRN

P N

P Rev Coût

N 0 0

Réel Classé

(12)

Classification binaire – Indicateurs de performance

Remarques

Si Rev=1 ^et Coût=0

■ Profit_Rate ( s )= α (s)

■ Courbe de profit

= courbe de lift

Si Rev= p

_N

^et Coût=p

_P

■

■ Courbe de profit

=Profit normalisé

( ) ( ) [ ( ) ] ( )

^s T

s s s rate rofit P

=

−

=α 1 β _

1-F(s) T(s)

Classification binaire - Indicateurs de performance

Courbe ROC

■ La courbe représentant le taux de VP en fonction du taux de FP, i.e. si on ordonne les observations par score décroissant

α (s)

en fonction de

1- β (s)

Indicateur AUC

■ L’aire sous la courbe ROC

■

KI = 2 AUC -1

( ) ^s ^d [ ( ) ^s ]

AUC =

^−∞

∫ α − β

∞ +

1 .

αααα(s)

1-ββββ(s)

AUC

Régression

Notations

■Un échantillon

■La cible

y

est une variable continue

■La valeur prévue :

■Le résidu :

■L’erreur :

■La moyenne de la cible :

■La moyenne des prévisions :

( x

1

, y

1

) ( , x

2

, y

2

) ( ,..., x

n

, y

n

)

yˆ

i i

i

y y

r = − ˆ

|

| ˆ

|

_i _i _i

i

y y r

u = − =

∑

=

ⁿ

i

y

i

y n

1

1 ∑

=

ⁿ

i

y

i

y n

1

1 ˆ ˆ

Régression - Indicateurs de performance Les indicateurs

■ Mean Square Error erreur moyenne

■ Root Mean Squared Error (RMSE ou L2)

■ Mean Absolute Error (MAE ou L1)

■ Maximum Absolute Error (ou L∞)

■ Sum of Squares of Regression

= variance des résidus du prédicteur

■ Total Sum of Squares

= variance du signal

■ Determination Coefficient (Rsquare-R2)

= Coefficient de qualité

■ Corrélation de Pearson

[ ]

∑

=

−

=

ⁿ

i i

i

y

n y MSE

1

ˆ

2

1

MSE L2=

∑

=

−

= ⁿ

i i yi

n y L

1

1 ˆ 1

i

u

i

L ∞ = max

∑

=

−

=

ⁿ

i

y

y SSR

1

)

2

( ˆ

∑

=

−

=

ⁿ

i

y

y SST

1

)

2

(

SST R 2 = SSR 2 r

_s2

P =

∑

=

−

=

ⁿ

i i n

i

i i

s

y y y y y y y y

r

1 2 1

2 1

) ( ) ˆ ˆ ( ) )(

ˆ ˆ (

Régression - Indicateurs de performance

Régression sur âge

Base census

Lecture

Industriel

Site d’informations data mining

■ http://www.kdnuggets.com/

Predictive Analytics; the Future of Business IntelligenceMukhles Zaman

■ http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp

Data Mining Tools: Which One is Best For CRM?Robert A. Nisbet

■ Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025

■ Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597 Comprendre l'industrialisation informatique

■ http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml

Scientifique Vladimir Vapnik

■ ‘Statistical Learning Theory’, Wiley-Interscience, 1998

■ ‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999 Cours

■ http://www.mit.edu/~9.520/#description

■ http://www.stanford.edu/class/cs345a/

■ http://clopinet.com/isabelle/Projects/ETH/