z La question métier

(1)

Data Mining

2 - Fondements théoriques

Françoise Soulié Fogelman

Master MI2R MICR Cours Fouille de Données

Agenda

z La question métier

■ Comment décrire un problème data mining

■ Comment décrire la question métier

z Données z Modèles

z Evaluation des Techniques de Modélisation

z Le modèle d’apprentissage statistique de V. Vapnik

(2)

KXEN-Confidential 3

Comment décrire un problème data mining

z Le début de tout projet data mining

■ Un utilisateur métier pose une question

La Direction veut augmenter le revenu sur ce produit :

– “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion ? “

La Production s’est aperçu que ce processus produits beaucoup plus de défauts que cet autre :

– “Pouvez-vous me dire les caractéristiques de ces processus qui expliquent cet écart ? “

■ … pour prendre une décision concernant une action à lancer

z Ces questions sont liées aux objectifs stratégiques de l’entreprise

■ Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise

■ Le Plan opérationnel liste

Les actions prévues

Les KPI - Key Performance Indicators - utilisés pour mesurer les résultats des actions

z Aujourd’hui, les entreprises veulent industrialiser le processus de décision et contrôler leurs actions

KXEN-Confidential 4

Comment décrire la question métier

z Pour chaque question métier posée, il faut :

■ Comprendre le processus métier associé

■ Quelles sont les variables associées

■ Quel est le résultat attendu

z Les variables d’entrée

■ Ou variables explicatives

■ Ou inputs

■ Doivent être disponibles

z La cible

■ Ou variable expliquée

■ Ou output

■ Doit être mesurable

■ Et “actionnable”

(3)

KXEN-Confidential 5

Exemples de questions métier

z Ciblage marketing

■ Propensité d’achat

■ Rétention

■ Push d’offres en temps réel

z Segmentation

■ Segmentation clients

■ Segmentation offres

z Crédit

■ Probabilité de défaut

z Distribution

■ Prévision de revenu, de vente

■ Ventes co-occurrentes

z Industrie

■ Prévision des défauts,

■ Nombre de pannes

■ Appels pour intervention

■ Pièces nécessaires

Comment décrire la question métier

z Le projet Data Mining vise donc à :

■ Exploiter les données existantes pour

■ Produire un modèle répondant à la question métier

Le modèle fournit les éléments pour construire un Business Case

■ Exploiter le modèle pour réaliser une action ciblée

z Exemple

■ Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter.

■ Le modèle donne une indication du retour attendu

J’ai un budget de 100 000 €

Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%

Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)

(4)

KXEN-Confidential 7

Agenda

z La question métier z Données

■ Le processus données

■ Construire l’Analytical Data Set

■ Caractéristiques des données

z Modèles

z Evaluation des Techniques de Modélisation

z Le modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 8

Le processus données z Les données sont à la base du data mining

■ No data, no model !

z Le processus de collecte de données est complexe : il faut

■ Identifier l’ensemble des sources de données

■ Mettre en place les mécanismes de collecte

■ Mettre les données en cohérence

■ Manipuler & transformer les données

z … pour constituer le “Analytical Data Set”

Data Mining

Data Preparation Data

Manipulation Data

Access

Mail e-mail POS

Call Center Phone Fax SMS / MMS Web

Analytical Data Set Customer Touch Points Production

databases

Legacy systems Files

Data Access

ODS Data

Warehouse

(5)

KXEN-Confidential 9

Le processus données

Exemple

Manipulation des données

Â Base clients telco

Préparation des données

Â Analytical Data Set

Customer Id Last name

First

name Address Birth date Profession Education Local traffic

Traffic to mobile

Traffic to Internet

Preferred mode

Quality of payment

Number of calls

Duration of calls Mobile 1

2 3 4

…

128 Lion Leo S.

12 Baltimore Street

1975/02/2

9 Clown PhD 02:37:00 01:23:00 07:46:00 CC E 37 03:24:00 1

…

Le processus données

Manipulation des données z Réconcilier les formats

hétérogènes

■ Meta-données et référentiels

z Rapprocher des labellés différents

■ Données internes & externes

Préparation des données z Produire des données

calculées

■ Agrégats

■ Variables calculées

z Coder les variables

■ Binning

Data

Preparation Analytical Data Set Data

Warehouse

Data Manipulation Data

Access

Data Access

ODS

(6)

KXEN-Confidential 11

Construire l’Analytical Data Set

Analytical Data Set : Représentation tabulaire des données

z Une ligne représente une “observation”

■ Par exemple : un client

z Une colonne représente une “variable”

■ Par exemple : âge, nom

Autre termes pour

"Observation"

Autre termes pour

"Variable"

Ligne Colonne

Exemple Attribut

Table Champ

Event Propriété

Instance -

Record -

Construire l’Analytical Data Set

Manipulation des données z Référentiel & meta-données

■ Les données sur les données

Nom des variables, sens, format

■ Mapping des meta-données

Noms de champs et types de formats d’input variés vers un format commun

z Transformer les contenus de variables similaires vers un format commun unique

■ Consistence

Ex : format “civilité, prénom, nom”

z Jointures : de sources de données multiples z Filtrage des données

z Règles métier

■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle}

z Outliers

■ Détecté en fonction du dictionnaire, des règles et flaggé

■ Traité ensuite

Data Manipulation Data

Access

Data Access

ODS

(7)

Construire l’Analytical Data Set

Préparation des données z Sélection des variables

■ Choisir les variables utiles

z Définition de la cible

z Les transformations “métier”

■ Champs calculés : produire de nouvelles variables à partir de variables existantes

Nb de jours entre l’émission de la facture et le paiement

Profit : prix d’achat – coût de fabrication

z Codage : les transformations statistiques nécessaires pour un certain modèle

■ Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories)

■ Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule

Représentation d’une variable multi-catégorie

z Évaluer la qualité des données pour determiner

■ Les valeurs manquantes (blancs, espaces, nuls)

■ Les outliers

■ Les corrélations

Data

Preparation Analytical Data Set Data

Warehouse

Construire l’Analytical Data Set

Qualité des données

z Les données doivent être

■ Exactes : valeurs correctes

■ Non redondantes : doublons

■ Complètes : données “manquantes”

“missing-rate” d’une variable : combien d’observations ne l’ont pas

“filling-rate” d’une observation : combien de variables sont remplies

z Traitement des données “manquantes”

1.Éliminer toutes les lignes non remplies complètement

On risque d’éliminer beaucoup de lignes !

2.Remplacer les données manquantes par des valeurs calculées

Variable nominale : catégorie la plus fréquente,

Variable continue : moyenne 3. Créer une classe spéciale

Voir Démo KXEN

(8)

Caractéristiques des données z Chaque variable a 3 caractéristiques :

1.Type

Continue

Ordinal : variables discrètes (numérique ou texte) dont l’ordre a un sens

Nominal : variables discrètes dont l’ordre n’a pas de sens – Numérique : binaire (0 ou 1), codes postaux (75 013, 92 125 …)

– Texte : chaînes de caractères sans ordre (CC –carte crédit, CH –chèque, RA – retrait automatique)

2.Format de stockage

Date

Number

String

Le format de stockage …

est utilisé pour décrire des variables

quand leur valeur correspond à … Par exemple ...

date

Dates exprimées dans les formats :

AAAA-MM-JJ, AAAA/MM/JJ Variable date de naissance "2001-11-30", "1999/04/28"

number

Nombres sur lesquels on peut faire des opérations

Variable "Salaire", en dollars US : "1000", "1593" et "2000,54"

Variable "Age", en années "21", "34" et "99"

string Chaîne de caractères alpha-numérique

Variable "Nom de famille": "Lion", "Martin" et "Miller"

Variable "Numéro de téléphone "800 555 1234" et "800 555 4321"

Variable "Profession": "professeur", "ingénieur" et "clown"

Caractéristiques des données

z Chaque variable a 3 caractéristiques :

3.Rôle

Le rôle de la variable dans le projet

Le rôle peut changer dans un autre projet

Rôle de la variable Autres termes

Cible

Variable expliquée Variable dépendante Output

Explicative

Variable causale Variable indépendante Input

Exclue Skip

Poids *

(9)

Un exemple : le problème “census”

Variables

skip integer

continuous KxIndex

target 0

number nominal

class

input 857

string nominal

native-country

input 0

number continuous

hours-per-week

input 0

number continuous

capital-loss

input 244

number continuous

capital-gain

input 0

string nominal

sex

input 0

string nominal

race

input 0

string nominal

relationship

input 2 809

string nominal

occupation

input 0

string nominal

marital-status

input 0

number ordinal

education-num

input 0

string nominal

education

input 0

number continuous

fnlwgt

input 2 799

string nominal

workclass

input 0

number continuous

age

Rôle Nombre de manquant Stockage

Valeur Variable

Agenda

z La question métier z Données

z Modèles

■ Modèles descriptifs

■ Modèles prédictifs

z Le modèle d’apprentissage statistique de V. Vapnik

z Evaluation des Techniques de Modélisation

(10)

Types de modèles

Il y a deux sortes de modèles :

z Modèles descriptifs

■ Exploration des données du passé

■ … pour comprendre le passé

■ Information descriptive sur les variables et leurs relations

z Modèles prédictifs

■ Exploitation des données du passé

■ … pour prévoir et expliquer le futur

■ Information prédictive sur la future valeur de la variable cible

Types de modèles

Source : Teradata

(11)

Types de modèles

Un modèle

z Est produit à partir de l’Analytical Data Set

■ à partir des données du passé, on produit un modèle pour prévoir

z Est utilisé

■ sur de nouvelles données (le futur)

z Est évalué

■ sur ces nouvelles données

Qualités d’un modèle z Précision

■ La capacité du modèle à être “bon” sur les données du passé

z Robustesse / Généralisation

■ La capacité du modèle à être “bon” sur les données du futur

Quelles que soient ces données

En présence d’outliers, de données manquantes …

z Et ceci quelles que soient les distributions des données

Modèles descriptifs Statistiques descriptives

Variable “Age” (base Census)

5%

10%

15%

20%

25%

Share of Category with Target = 1 Share of Category with Target = 0

-1%

1%

3%

5%

7%

9%

11%

13%

[17 ; 23]

[24 ; 26]

]26 ; 29[

[29 ; 30]

]45 ; 53]

]53 ; 62]

]62 ; 90]

(12)

Modèles descriptifs Importance des variables z Un modèle prédictif peut donner de l’information sur

l’importance des variables.

z Exemple

■ Dans la base Census, j’essaie de prévoir si une personne gagne plus de 50 000 $ / an

■ Un modèle de régression simple :

Classe = 1 si a*age + b*capital-gain ≥c

Classe = 0 si a*age + b*capital-gain < c

■ Contribution avec

■ Cas des variables corrélées : x et y

Contribution intelligente

■ Importance des catégories

Influence sur la cible : le comportement est comparé au comportement moyen de l'ensemble de la population

= 1

∑ ∑

ⁱ

i i i

oids P oids P

= ∑

i i i

i

P oids

oids ontrib P

C

( ) ( )

( y x )

b Ax

x y b x b a

by bx bx ax

by ax

− +

=

− + +

=

+

− +

= +

Modèles descriptifs Importance des variables

■ Contribution intelligente des variables (prévision de “class” - base Census)

■ Importance des catégories des variables “marital-status” et

“capital-gain”

(13)

Modèles descriptifs Segments z Construction de segments

■ Non supervisée / Supervisée

z Exemple

■ Production de 5 segments supervisée par “class”(base Census)

■ Description des Segments / variable / population

Marital Status

Capital Gain 0

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Fréquence % de 1

Modèles prédictifs Classes de modèles

z Classification

■ La cible est nominale

Binaire : il y a 2 classes (0 et 1)

Multi-modale : il y a n classes (1, 2, …, n)

z Régression

■ La cible est continue

Score

Série temporelle …

1 0

(14)

Modèles prédictifs Utilisation des modèles 1. Expliquer / comprendre

■ Le modèle est une description / simplification du phénomène

■ Il permet de répondre à des questions comme :

Quelles sont les variables significatives

Quel est l’impact d’une variation de l’une des variables …

2. Prévoir

■ Le modèle donne une estimation de la classe ou de la valeur

■ Des modèles différents donnent des prévisions différentes

Quelle est la “bonne” prévision ?

Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?

Modèles prédictifs Utilisation des modèles

Données d’apprentissage

t

y x

Modèle simple

Modèle intermédiaire Modèle complexe

(15)

Modèles prédictifs Utilisation des modèles Qu’attendons-nous d’un modèle

z Précision (ensemble d’apprentissage)

Modèle simple Modèle intermédiaire Modèle complexe

z Robustesse (ensemble de test)

Modèle complexe

Modèle simple Modèle intermédiaire

Agenda

z La question métier z Données

z Modèles

z Le modèle d’apprentissage statistique de V. Vapnik

■ Le cadre mathématique

■ La théorie de Vapnik

■ Le processus de modélisation

Propriétés attendues d’un modèle – Généralisation

– Consistence – Robustesse

Stratégie de génération de modèle

z Evaluation des Techniques de Modélisation

(16)

Le cadre mathématique

z Données d’apprentissage

■ La cible y peut être continue ou pas

■ Dans la « base d’apprentissage », tous les yisont connus

z Une classe de fonctions

■ Par exemple :

La classe des plynômes de degré p

La classe des MLP avec p neurones cachés …

z Un modèle issu de cette classe

■ Par exemple, le polynôme dont les paramètres sont

z Le « meilleur » modèle

■ Produit par un certain algorithme ou un principe d’inférence

■ Et qui correspond donc au « meilleur » paramètre

( )

{ ∈ Θ }

=

Φ

_Θ

f ., θ , θ

( ) x , θ f y =

( ) ^, ^θ ^ˆ

ˆ f x

y =

θ ^ˆ θ

( x

₁

, y

₁

) ( , x

₂

, y

₂

) ( ,..., x

_n

, y

_n

)

Le cadre mathématique z Une fonction de coût

■ Par exemple

L’écart quadratique

z L’erreur en apprentissage ou risque empirique

■ Le coût moyen sur l’ensemble d’apprentissage

■ Par exemple l’écart quadratique moyen MSE (Mean Square Error)

z L’erreur en généralisation

■ Le coût moyen théorique sur l’ensemble de la population

■ … qui est l’erreur attendue sur de nouvelles données

z Principe d’inférence

■ Minimisation du risque empirique

■ Par exemple : LMSE (Least Mean Square Error)

[ y , f ( ) x , θ ] [ y f ( ) x , θ ]

²

L = −

[ y , f ( ) x , θ ]

L

( ) ∑ [ ( ) ]

=

ⁿ

i

i i

emp

L y f x

R n

1

,

1 , θ

θ

( ) ^L [ ^y ^f ( ) ^x ] ^dP ( ) ^x ^y

R

_Gen

^θ = ∫ , , ^θ ⋅ ,

( ) ^θ

θ

n R

emp

mi ˆ = arg

( ) ∑ [ ( ) ]

=

−

=

ⁿ

i

i i

emp

y f x

R n

1

,

2

1 θ

θ

( )

[ ]

∑

=

−

=

ⁿ

i

f x

n y rg

a mi n

1

,

2

ˆ 1 θ

θ

(17)

Le cadre mathématique

z L’erreur d’apprentissage

(précision) z L’erreur de généralisation (robustesse)

( )

L

[

y f

(

x

) ]

dP

(

x y

)

R_Gen

^θ

=

∫

, ,

^θ

⋅ ,

Modèle intermédiaire

Deux notions

Modèle complexe

( ) ∑ [ ( ) ]

=

ⁿ

i

i i

emp

L y f x

R n

1

,

1 , θ

θ

La théorie de Vapnik

z La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes

1.Consistence (robustesse)

Capacité à généraliser correctement sur de nouvelles données 2.Vitesse de convergence

Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

3.Contrôle de la capacité de généralisation

C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage 4.Stratégie pour obtenir de bons algorithmes

C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

z … et utilise un paramètre la « VC dimension » ou

dimension de Vapnik Chervonenkis

(18)

La théorie de Vapnik

Dimension de Vapnik Chervonenkis z Etant donné

■ Un échantillon de nobservations

■ caractérisées par pvariables :

z Il y a 2

ⁿ

façons de séparer ces n observations en 2 classes

z On dit que la famille de fonctions

“pulvérise” l’échantillon si toutes les 2

ⁿ

séparations sont réalisables (avec un θ bien choisi)

z On dit que la famille Φ

_Θ

est de VC dimension h ∈N si :

1.Tout échantillon dehobservations de

ℜ

^p peut être pulvérisé par

Φ

_Θ

2.Il existe au moins un échantillon de h+1observations qui ne peut pas être éclaté par

Φ

_Θ

( x

₁

, x

₂

,..., x

_n

)

p

x

i

∈ ℜ

( )

{ ^∈ ^Θ }

=

Φ

_Θ

f ., θ , θ

La théorie de Vapnik

Dimension de Vapnik Chervonenkis de la famille des droites de

ℜ

²

■ 3 points

■ 4 points

z h = 3 (=2+1)

(19)

La théorie de Vapnik

1. Consistence (robustesse)

■ Capacité à généraliser correctement sur de nouvelles données

2.Vitesse de convergence

■ Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

■ Indépendant des distributions de (X,Y)

( ) ^, ^θ ^ˆ

ˆ f x

y =

h

( )

{ ∈ Θ }

=

Φ

_Θ

_f _., θ _, θ

■ Un modèle est

consistent si et seulement si la famille

dont il est issu est de VC dimension finie

La théorie de Vapnik

3. Contrôle de la capacité de généralisation

■ C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage

■ Quand n/h est grand, on minimise le risqueempirique R_emp

■ Quand n/h est petit , on minimise les deux termes : R_empET ε(n,h) doivent être minimisés

Remp

R

emp

R

Gen

Statistique classique

(20)

La théorie de Vapnik

4. Stratégie pour obtenir de bons algorithmes

■ C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions emboîtées

La théorie de Vapnik

Moralité

z Ce qu’on ne peut pas contrôler

■ La distribution des données

Certainement pas Gaussiennes …

■ Les approximations de distribution

Transformation pour se ramener au cas Gaussien

z Ce qu’on peut contrôler

■ La classe de modèles où on recherche la solution Φ_Θ

■ La VC dimension h de la classe retenue

z Avec une méthode de contrôle

■ La SRM qui garantit la robustesse

(21)

Le processus de modélisation z La SRM en pratique dans KXEN

z Et deux indicateurs

■ Précision : KI

■ Robustesse : KR

Le processus de modélisation

1. Produire l’Analytical Data Set

2. Choisir la famille emboîtée de modèles 3. Choisir le meilleur

modèle (SRM)

4. Evaluer les performances 5. Ré-itérer si nécessaire

M

odélisation

Choisir la famille emboîtée de fonctions

Augmenter progressivement la VC dim

Choisir le modèle qui optimise le compromis précision / robustesse

(22)

Agenda

z La question métier z Données

z Modèles

z Le modèle d’apprentissage statistique de V. Vapnik z Evaluation des Techniques de Modélisation

■ Introduction

■ Classification binaire

Matrice de Confusion

Indicateurs de performance

■ Régression

Introduction

z Le résultat de la modélisation :

■ Un ou plusieurs modèles

z Il faut

■ Évaluer la performance d’un modèle

■ Comparer les performances de plusieurs modèles

z Il y a deux niveaux d’évaluation de la performance

■ Évaluation technique

Indicateurs techniques / statistiques

Doivent être indépendants des distributions des données

■ Évaluation métier

Quelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)

Exemples :

– Taux de retour, profit généré par une campagne

– Taux de défaut généré dans ce processus d’attribution de crédit

(23)

Classification binaire

On a 2 classes : 0/1 ou N/P (négatif / positif) z Il faut définir un modèle Classe tel que

Classe ( X ) = 0 ou 1 z Il y a deux méthodes

■ Classification - ou décision- directe

■ Score

On produit d’abord un score

f

dont la valeur est une variable continue

f(x) =

s

On fixe un seuil sur ce score S

On classe dans une classe 0/1 selon que le score est inférieur / supérieur àS – Classe ( X ) = 1si

f(x) >

^S

– Classe ( X ) = 0si

f(x) ≤

^S

Cette technique est plus flexible : en faisant varier le seuil , on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe

Classification binaire Matrice de Confusion On a un modèle de décision Classe

z On compare la décision “Classé” à la réalité “Réel”

z Pour chaque observation, 4 cas possibles

■ Classe ( X )= 1 et Réel ( X )= 1 : Vrai Positif

■ Classe ( X )= 1 et Réel ( X )= 0 : Faux Positif

■ Classe ( X )= 0 et Réel ( X )= 1 : Faux Négatif

■ Classe ( X )= 0 et Réel ( X )= 0 : Vrai Négatif

z On note

■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux négatifs dans la population totale

■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N

P N Total

P VP FP nbCP

N FN VN nbCN

nbRP nbRN n Réel

Classé

Total

(24)

Classification binaire Matrice de Confusion

z Pour un score, la matrice de confusion en proportions

■ Les proportions de vrai P /N : (sensibilité et spécificité)

Modèle parfait

Modèle aléatoire Score

Fréquence

Positif Négatif

(s) (s)

s

( ) s =

VPnbRP

α β ( ) s =

VNnbRN

P N

P α (s) 1 - β (s) N 1 - α (s) β (s)

Réel

Classé

Classification binaire

Indicateurs de performance

z Taux de Bien Classés

et taux d’erreur de classification

■ Problème si les classes sont déséquilibrées

■ OK pour comparer plusieurs classifieurs

z Lift Curve

■ La courbe représentant le taux de VP en fonction des P de la population, i.e. si on ordonne les observations par score décroissant

α(s)

en fonction de

1-F(s)

(

F(s)

est le taux de positifs dans la population avec score supérieur à

s

)

nbRN nbRP

VN TBC VP

+

= +

TBC TER = 1 −

α(s)

1-F(s)

(25)

Classification binaire

A partir de la Lift Curve z Indicateur KI

■ Le rapport de l’aire

M

^entre

les courbes Modèle/aléatoire à l’aire

W

entre les courbes modèle parfait / aléatoire

KI = M / W

(modèle parfait =Wizard ou Oracle)

z Indicateur KR

■ Le rapport de l’aire

G

entre les courbes du Modèle sur les ensembles d’estimation et de validation à l’aire

W

^{entre les}

courbes modèle parfait / aléatoire

KR = 1 - G / W

α(s)

1-F(s) W

M

1-F(s) α(s)

G W

Classification binaire

z Courbe de profit

■ On définit une structure de coût/

revenu

■ Exemple

Profit ( s ) = VP x Rev – FP x Coût

Profit

_maxest le profit généré par Wizard

Profit_Rate ( s ) = Profit ( s ) / Profit

_max

(

p

_Pet

p

_Nsont les taux de P /N)

■ La courbe de profit est la courbe représentant

Profit_Rate ( s )

en fonction des P de la population, i.e. si on ordonne les observa-tions par score décroissant

Profit_Rate ( s )

en fonction

1-F(s) Profit_Rate(s)

( ) ( ) [ ( ) ]

ev R Coût p s p s

s rate rofit P

P

N

⋅

−

= α 1 β

_

nbRN nbRP p_P nbRP

= +

nbRN nbRP p_N nbRN

= +

P N

P Rev Coût

N 0 0

Réel Classé

(26)

Classification binaire

z Remarques

■ Si

Rev=1

et

Coût=0

,

Profit_Rate ( s )=α(s)

Courbe de profit = courbe de lift

■ Si

Rev= p

_Net

Coût=p

_P,

Courbe de profit=Standardized Profit

( ) s ( ) s [ ( ) s ] T ( ) s rate

rofit

P _ = α − 1 − β =

1-F(s) T(s)

Classification binaire

z Courbe ROC

■ La courbe représentant le taux de VP en fonction du taux de FP, i.e. si on ordonne les observations par score décroissant

α(s)

en fonction de

1-β(s) z Indicateur AUC

■ L’aire sous la courbe ROC

■

KI = 2 AUC -1 ( ) ^s ^d [ ( ) ^s ]

AUC =

^−∞

∫ α − β

∞ +

1 .

α(s)

1-β(s)

AUC

(27)

Régression

z Notations

■ Un échantillon

■ La cible

y

est une variable continue

■ La valeur prévue :

■ Le résidu :

■ L’erreur :

■ La moyenne de la cible :

■ La moyenne des prévisions :

( x

₁

, y

₁

) ( , x

₂

, y

₂

) ( ,..., x

_n

, y

_n

)

y ˆ

i i

i

y y

r = − ˆ

|

| ˆ |

|

_i _i _i

i

y y r

u = − =

∑

=

ⁿ

i

y

i

y n

1

1 ∑

=

ⁿ

i

y

i

y n

1

1 ˆ ˆ

Régression

Les indicateurs

■ Mean Square Error

■ Root Mean Squared Error (RMSE ou L2)

■ Mean Absolute Error (MAE ou L1)

■ Maximum Absolute Error (ou L

∞)

■ Sum of Squares of Regression

■ Total Sum of Squares

■ Determination Coefficient (Rsquare-R2)

■ Corrélation de Pearson

[ ]

∑

=

−

=

ⁿ

i

y

n y MSE

1

ˆ

2

1 MSE L 2 =

∑

=

ⁿ

i

u

i

L n

1

1 1

i

u

i

L ∞ = max

∑

=

−

=

ⁿ

i

y

y SSR

1

)

2

( ˆ

∑

=

−

=

ⁿ

i

y

y SST

1

)

2

(

SST R 2 = SSR 2 r

_s2

P =

∑

∑ ⁻ ⁻ ⁻ ⁻

=

ⁿ ⁿ ⁿ

(28)

Lecture

Industriel

z Site d’informations data mining

■ http://www.kdnuggets.com/

z Predictive Analytics; the Future of Business Intelligence Mukhles Zaman

■ http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp

z Data Mining Tools: Which One is Best For CRM? Robert A. Nisbet

■ Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025

■ Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597 z Comprendre l'industrialisation informatique

■ http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml

Scientifique z Vladimir Vapnik

■ ‘Statistical Learning Theory’, Wiley-Interscience, 1998

■ ‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999 z Cours du MIT

■ http://www.mit.edu/~9.520/#description