• Aucun résultat trouvé

z La question métier

N/A
N/A
Protected

Academic year: 2022

Partager "z La question métier"

Copied!
28
0
0

Texte intégral

(1)

Data Mining

2 - Fondements théoriques

Françoise Soulié Fogelman

Master MI2R MICR Cours Fouille de Données

Agenda

z La question métier

Comment décrire un problème data mining

Comment décrire la question métier

z Données z Modèles

z Evaluation des Techniques de Modélisation

z Le modèle d’apprentissage statistique de V. Vapnik

(2)

KXEN-Confidential 3

Comment décrire un problème data mining

z Le début de tout projet data mining

Un utilisateur métier pose une question

‹ La Direction veut augmenter le revenu sur ce produit :

– “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion ? “

‹ La Production s’est aperçu que ce processus produits beaucoup plus de défauts que cet autre :

– “Pouvez-vous me dire les caractéristiques de ces processus qui expliquent cet écart ? “

… pour prendre une décision concernant une action à lancer

z Ces questions sont liées aux objectifs stratégiques de l’entreprise

Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise

Le Plan opérationnel liste

‹ Les actions prévues

‹ Les KPI - Key Performance Indicators - utilisés pour mesurer les résultats des actions

z Aujourd’hui, les entreprises veulent industrialiser le processus de décision et contrôler leurs actions

KXEN-Confidential 4

Comment décrire la question métier

z Pour chaque question métier posée, il faut :

Comprendre le processus métier associé

Quelles sont les variables associées

Quel est le résultat attendu

z Les variables d’entrée

Ou variables explicatives

Ou inputs

Doivent être disponibles

z La cible

Ou variable expliquée

Ou output

Doit être mesurable

Et “actionnable”

(3)

KXEN-Confidential 5

Exemples de questions métier

z Ciblage marketing

Propensité d’achat

Rétention

Push d’offres en temps réel

z Segmentation

Segmentation clients

Segmentation offres

z Crédit

Probabilité de défaut

z Distribution

Prévision de revenu, de vente

Ventes co-occurrentes

z Industrie

Prévision des défauts,

Nombre de pannes

Appels pour intervention

Pièces nécessaires

Comment décrire la question métier

z Le projet Data Mining vise donc à :

Exploiter les données existantes pour

Produire un modèle répondant à la question métier

‹ Le modèle fournit les éléments pour construire un Business Case

Exploiter le modèle pour réaliser une action ciblée

z Exemple

Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter.

Le modèle donne une indication du retour attendu

‹ J’ai un budget de 100 000 €

‹ Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%

‹ Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)

(4)

KXEN-Confidential 7

Agenda

z La question métier z Données

Le processus données

Construire l’Analytical Data Set

Caractéristiques des données

z Modèles

z Evaluation des Techniques de Modélisation

z Le modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 8

Le processus données z Les données sont à la base du data mining

No data, no model !

z Le processus de collecte de données est complexe : il faut

Identifier l’ensemble des sources de données

Mettre en place les mécanismes de collecte

Mettre les données en cohérence

Manipuler & transformer les données

z … pour constituer le “Analytical Data Set”

Data Mining

Data Preparation Data

Manipulation Data

Access

Mail e-mail POS

Call Center Phone Fax SMS / MMS Web

Analytical Data Set Customer Touch Points Production

databases

Legacy systems Files

Data Access

ODS Data

Warehouse

(5)

KXEN-Confidential 9

Le processus données

Exemple

Manipulation des données

 Base clients telco

Préparation des données

 Analytical Data Set

Customer Id Last name

First

name Address Birth date Profession Education Local traffic

Traffic to mobile

Traffic to Internet

Preferred mode

Quality of payment

Number of calls

Duration of calls Mobile 1

2 3 4

128 Lion Leo S.

12 Baltimore Street

1975/02/2

9 Clown PhD 02:37:00 01:23:00 07:46:00 CC E 37 03:24:00 1

Le processus données

Manipulation des données z Réconcilier les formats

hétérogènes

Meta-données et référentiels

z Rapprocher des labellés différents

Données internes & externes

Préparation des données z Produire des données

calculées

Agrégats

Variables calculées

z Coder les variables

Binning

Data

Preparation Analytical Data Set Data

Warehouse

Data Manipulation Data

Access

Data Access

ODS

(6)

KXEN-Confidential 11

Construire l’Analytical Data Set

Analytical Data Set : Représentation tabulaire des données

z Une ligne représente une “observation”

Par exemple : un client

z Une colonne représente une “variable”

Par exemple : âge, nom

Autre termes pour

"Observation"

Autre termes pour

"Variable"

Ligne Colonne

Exemple Attribut

Table Champ

Event Propriété

Instance -

Record -

KXEN-Confidential 12

Construire l’Analytical Data Set

Manipulation des données z Référentiel & meta-données

Les données sur les données

‹ Nom des variables, sens, format

Mapping des meta-données

‹ Noms de champs et types de formats d’input variés vers un format commun

z Transformer les contenus de variables similaires vers un format commun unique

Consistence

‹ Ex : format “civilité, prénom, nom”

z Jointures : de sources de données multiples z Filtrage des données

z Règles métier

Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle}

z Outliers

Détecté en fonction du dictionnaire, des règles et flaggé

Traité ensuite

Data Manipulation Data

Access

Data Access

ODS

(7)

KXEN-Confidential 13

Construire l’Analytical Data Set

Préparation des données z Sélection des variables

Choisir les variables utiles

z Définition de la cible

z Les transformations “métier”

Champs calculés : produire de nouvelles variables à partir de variables existantes

‹ Nb de jours entre l’émission de la facture et le paiement

‹ Profit : prix d’achat – coût de fabrication

z Codage : les transformations statistiques nécessaires pour un certain modèle

Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories)

Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule

‹ Représentation d’une variable multi-catégorie

z Évaluer la qualité des données pour determiner

Les valeurs manquantes (blancs, espaces, nuls)

Les outliers

Les corrélations

Data

Preparation Analytical Data Set Data

Warehouse

Construire l’Analytical Data Set

Qualité des données

z Les données doivent être

Exactes : valeurs correctes

Non redondantes : doublons

Complètes : données “manquantes”

‹ “missing-rate” d’une variable : combien d’observations ne l’ont pas

‹ “filling-rate” d’une observation : combien de variables sont remplies

z Traitement des données “manquantes”

1.Éliminer toutes les lignes non remplies complètement

‹ On risque d’éliminer beaucoup de lignes !

2.Remplacer les données manquantes par des valeurs calculées

‹ Variable nominale : catégorie la plus fréquente,

‹ Variable continue : moyenne 3. Créer une classe spéciale

‹ Voir Démo KXEN

(8)

KXEN-Confidential 15

Caractéristiques des données z Chaque variable a 3 caractéristiques :

1.Type

‹ Continue

‹ Ordinal : variables discrètes (numérique ou texte) dont l’ordre a un sens

‹ Nominal : variables discrètes dont l’ordre n’a pas de sens – Numérique : binaire (0 ou 1), codes postaux (75 013, 92 125 …)

– Texte : chaînes de caractères sans ordre (CC –carte crédit, CH –chèque, RA – retrait automatique)

2.Format de stockage

‹ Date

‹ Number

‹ String

Le format de stockage …

est utilisé pour décrire des variables

quand leur valeur correspond à … Par exemple ...

date

Dates exprimées dans les formats :

AAAA-MM-JJ, AAAA/MM/JJ Variable date de naissance "2001-11-30", "1999/04/28"

number

Nombres sur lesquels on peut faire des opérations

Variable "Salaire", en dollars US : "1000", "1593" et "2000,54"

Variable "Age", en années "21", "34" et "99"

string Chaîne de caractères alpha-numérique

Variable "Nom de famille": "Lion", "Martin" et "Miller"

Variable "Numéro de téléphone "800 555 1234" et "800 555 4321"

Variable "Profession": "professeur", "ingénieur" et "clown"

KXEN-Confidential 16

Caractéristiques des données

z Chaque variable a 3 caractéristiques :

3.Rôle

‹ Le rôle de la variable dans le projet

‹ Le rôle peut changer dans un autre projet

Rôle de la variable Autres termes

Cible

Variable expliquée Variable dépendante Output

Explicative

Variable causale Variable indépendante Input

Exclue Skip

Poids *

(9)

KXEN-Confidential 17

Un exemple : le problème “census”

Variables

skip integer

continuous KxIndex

target 0

number nominal

class

input 857

string nominal

native-country

input 0

number continuous

hours-per-week

input 0

number continuous

capital-loss

input 244

number continuous

capital-gain

input 0

string nominal

sex

input 0

string nominal

race

input 0

string nominal

relationship

input 2 809

string nominal

occupation

input 0

string nominal

marital-status

input 0

number ordinal

education-num

input 0

string nominal

education

input 0

number continuous

fnlwgt

input 2 799

string nominal

workclass

input 0

number continuous

age

Rôle Nombre de manquant Stockage

Valeur Variable

Agenda

z La question métier z Données

z Modèles

Modèles descriptifs

Modèles prédictifs

z Le modèle d’apprentissage statistique de V. Vapnik

z Evaluation des Techniques de Modélisation

(10)

KXEN-Confidential 19

Types de modèles

Il y a deux sortes de modèles :

z Modèles descriptifs

Exploration des données du passé

… pour comprendre le passé

Information descriptive sur les variables et leurs relations

z Modèles prédictifs

Exploitation des données du passé

… pour prévoir et expliquer le futur

Information prédictive sur la future valeur de la variable cible

KXEN-Confidential 20

Types de modèles

Source : Teradata

(11)

KXEN-Confidential 21

Types de modèles

Un modèle

z Est produit à partir de l’Analytical Data Set

à partir des données du passé, on produit un modèle pour prévoir

z Est utilisé

sur de nouvelles données (le futur)

z Est évalué

sur ces nouvelles données

Qualités d’un modèle z Précision

La capacité du modèle à être “bon” sur les données du passé

z Robustesse / Généralisation

La capacité du modèle à être “bon” sur les données du futur

‹ Quelles que soient ces données

‹ En présence d’outliers, de données manquantes …

z Et ceci quelles que soient les distributions des données

Modèles descriptifs Statistiques descriptives

Variable “Age” (base Census)

5%

10%

15%

20%

25%

Share of Category with Target = 1 Share of Category with Target = 0

-1%

1%

3%

5%

7%

9%

11%

13%

[17 ; 23]

[24 ; 26]

]26 ; 29[

[29 ; 30]

]45 ; 53]

]53 ; 62]

]62 ; 90]

(12)

KXEN-Confidential 23

Modèles descriptifs Importance des variables z Un modèle prédictif peut donner de l’information sur

l’importance des variables.

z Exemple

Dans la base Census, j’essaie de prévoir si une personne gagne plus de 50 000 $ / an

Un modèle de régression simple :

‹ Classe = 1 si a*age + b*capital-gain ≥c

‹ Classe = 0 si a*age + b*capital-gain < c

Contribution avec

Cas des variables corrélées : x et y

‹ Contribution intelligente

Importance des catégories

‹ Influence sur la cible : le comportement est comparé au comportement moyen de l'ensemble de la population

= 1

∑ ∑

i

i i i

oids P oids P

= ∑

i i i

i

P oids

oids ontrib P

C

( ) ( )

( y x )

b Ax

x y b x b a

by bx bx ax

by ax

− +

=

− + +

=

+

− +

= +

KXEN-Confidential 24

Modèles descriptifs Importance des variables

Contribution intelligente des variables (prévision de “class” - base Census)

Importance des catégories des variables “marital-status” et

“capital-gain”

(13)

KXEN-Confidential 25

Modèles descriptifs Segments z Construction de segments

Non supervisée / Supervisée

z Exemple

Production de 5 segments supervisée par “class”(base Census)

Description des Segments / variable / population

Marital Status

Capital Gain 0

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Fréquence % de 1

Modèles prédictifs Classes de modèles

z Classification

La cible est nominale

‹ Binaire : il y a 2 classes (0 et 1)

‹ Multi-modale : il y a n classes (1, 2, …, n)

z Régression

La cible est continue

‹ Score

‹ Série temporelle …

1 0

(14)

KXEN-Confidential 27

Modèles prédictifs Utilisation des modèles 1. Expliquer / comprendre

Le modèle est une description / simplification du phénomène

Il permet de répondre à des questions comme :

‹ Quelles sont les variables significatives

‹ Quel est l’impact d’une variation de l’une des variables …

2. Prévoir

Le modèle donne une estimation de la classe ou de la valeur

Des modèles différents donnent des prévisions différentes

‹ Quelle est la “bonne” prévision ?

‹ Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?

KXEN-Confidential 28

Modèles prédictifs Utilisation des modèles

Données d’apprentissage

t

y x

Modèle simple

Modèle intermédiaire Modèle complexe

(15)

KXEN-Confidential 29

Modèles prédictifs Utilisation des modèles Qu’attendons-nous d’un modèle

z Précision (ensemble d’apprentissage)

Modèle simple Modèle intermédiaire Modèle complexe

z Robustesse (ensemble de test)

Modèle complexe

Modèle simple Modèle intermédiaire

Agenda

z La question métier z Données

z Modèles

z Le modèle d’apprentissage statistique de V. Vapnik

Le cadre mathématique

La théorie de Vapnik

Le processus de modélisation

‹ Propriétés attendues d’un modèle – Généralisation

– Consistence – Robustesse

‹ Stratégie de génération de modèle

z Evaluation des Techniques de Modélisation

(16)

KXEN-Confidential 31

Le cadre mathématique

z Données d’apprentissage

La cible y peut être continue ou pas

Dans la « base d’apprentissage », tous les yisont connus

z Une classe de fonctions

Par exemple :

‹ La classe des plynômes de degré p

‹ La classe des MLP avec p neurones cachés …

z Un modèle issu de cette classe

Par exemple, le polynôme dont les paramètres sont

z Le « meilleur » modèle

Produit par un certain algorithme ou un principe d’inférence

Et qui correspond donc au « meilleur » paramètre

( )

{ ∈ Θ }

=

Φ

Θ

f ., θ , θ

( ) x , θ f y =

( ) , θ ˆ

ˆ f x

y =

θ ˆ θ

( x

1

, y

1

) ( , x

2

, y

2

) ( ,..., x

n

, y

n

)

KXEN-Confidential 32

Le cadre mathématique z Une fonction de coût

Par exemple

‹ L’écart quadratique

z L’erreur en apprentissage ou risque empirique

Le coût moyen sur l’ensemble d’apprentissage

Par exemple l’écart quadratique moyen MSE (Mean Square Error)

z L’erreur en généralisation

Le coût moyen théorique sur l’ensemble de la population

… qui est l’erreur attendue sur de nouvelles données

z Principe d’inférence

Minimisation du risque empirique

Par exemple : LMSE (Least Mean Square Error)

[ y , f ( ) x , θ ] [ y f ( ) x , θ ]

2

L = −

[ y , f ( ) x , θ ]

L

( ) ∑ [ ( ) ]

=

=

n

i

i i

emp

L y f x

R n

1

,

1 , θ

θ

( ) L [ y f ( ) x ] dP ( ) x y

R

Gen

θ = ∫ , , θ ⋅ ,

( ) θ

θ

θ

n R

emp

mi ˆ = arg

( ) ∑ [ ( ) ]

=

=

n

i

i i

emp

y f x

R n

1

,

2

1 θ

θ

( )

[ ]

=

=

n

i

i

i

f x

n y rg

a mi n

1

,

2

ˆ 1 θ

θ

θ

(17)

KXEN-Confidential 33

Le cadre mathématique

z L’erreur d’apprentissage

(précision) z L’erreur de généralisation (robustesse)

( )

L

[

y f

(

x

) ]

dP

(

x y

)

RGen

θ

=

, ,

θ

⋅ ,

Modèle intermédiaire

Deux notions

Modèle complexe

( ) ∑ [ ( ) ]

=

=

n

i

i i

emp

L y f x

R n

1

,

1 , θ

θ

La théorie de Vapnik

z La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes

1.Consistence (robustesse)

‹ Capacité à généraliser correctement sur de nouvelles données 2.Vitesse de convergence

‹ Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

3.Contrôle de la capacité de généralisation

‹ C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage 4.Stratégie pour obtenir de bons algorithmes

‹ C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

z … et utilise un paramètre la « VC dimension » ou

dimension de Vapnik Chervonenkis

(18)

KXEN-Confidential 35

La théorie de Vapnik

Dimension de Vapnik Chervonenkis z Etant donné

Un échantillon de nobservations

caractérisées par pvariables :

z Il y a 2

n

façons de séparer ces n observations en 2 classes

z On dit que la famille de fonctions

“pulvérise” l’échantillon si toutes les 2

n

séparations sont réalisables (avec un θ bien choisi)

z On dit que la famille Φ

Θ

est de VC dimension h ∈N si :

1.Tout échantillon dehobservations de

p peut être pulvérisé par

Φ

Θ

2.Il existe au moins un échantillon de h+1observations qui ne peut pas être éclaté par

Φ

Θ

( x

1

, x

2

,..., x

n

)

p

x

i

∈ ℜ

( )

{ Θ }

=

Φ

Θ

f ., θ , θ

KXEN-Confidential 36

La théorie de Vapnik

Dimension de Vapnik Chervonenkis de la famille des droites de

2

3 points

4 points

z h = 3 (=2+1)

(19)

KXEN-Confidential 37

La théorie de Vapnik

1. Consistence (robustesse)

Capacité à généraliser correctement sur de nouvelles données

2.Vitesse de convergence

Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

Indépendant des distributions de (X,Y)

( ) , θ ˆ

ˆ f x

y =

h

( )

{ ∈ Θ }

=

Φ

Θ

f ., θ , θ

Un modèle est

consistent si et seulement si la famille

dont il est issu est de VC dimension finie

La théorie de Vapnik

3. Contrôle de la capacité de généralisation

C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage

Quand n/h est grand, on minimise le risqueempirique Remp

Quand n/h est petit , on minimise les deux termes : RempET ε(n,h) doivent être minimisés

Remp

R

emp

R

Gen

Statistique classique

(20)

KXEN-Confidential 39

La théorie de Vapnik

4. Stratégie pour obtenir de bons algorithmes

C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

SRM (Structural Risk Minimization) : on utilise des familles de fonctions emboîtées

KXEN-Confidential 40

La théorie de Vapnik

Moralité

z Ce qu’on ne peut pas contrôler

La distribution des données

‹ Certainement pas Gaussiennes …

Les approximations de distribution

‹ Transformation pour se ramener au cas Gaussien

z Ce qu’on peut contrôler

La classe de modèles où on recherche la solution ΦΘ

La VC dimension h de la classe retenue

z Avec une méthode de contrôle

La SRM qui garantit la robustesse

(21)

KXEN-Confidential 41

Le processus de modélisation z La SRM en pratique dans KXEN

z Et deux indicateurs

Précision : KI

Robustesse : KR

Le processus de modélisation

1. Produire l’Analytical Data Set

2. Choisir la famille emboîtée de modèles 3. Choisir le meilleur

modèle (SRM)

4. Evaluer les performances 5. Ré-itérer si nécessaire

M

odélisation

Choisir la famille emboîtée de fonctions

Augmenter progressivement la VC dim

Choisir le modèle qui optimise le compromis précision / robustesse

(22)

KXEN-Confidential 43

Agenda

z La question métier z Données

z Modèles

z Le modèle d’apprentissage statistique de V. Vapnik z Evaluation des Techniques de Modélisation

Introduction

Classification binaire

‹ Matrice de Confusion

‹ Indicateurs de performance

Régression

KXEN-Confidential 44

Introduction

z Le résultat de la modélisation :

Un ou plusieurs modèles

z Il faut

Évaluer la performance d’un modèle

Comparer les performances de plusieurs modèles

z Il y a deux niveaux d’évaluation de la performance

Évaluation technique

‹ Indicateurs techniques / statistiques

‹ Doivent être indépendants des distributions des données

Évaluation métier

‹ Quelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)

‹ Exemples :

– Taux de retour, profit généré par une campagne

– Taux de défaut généré dans ce processus d’attribution de crédit

(23)

KXEN-Confidential 45

Classification binaire

On a 2 classes : 0/1 ou N/P (négatif / positif) z Il faut définir un modèle Classe tel que

Classe ( X ) = 0 ou 1 z Il y a deux méthodes

Classification - ou décision- directe

Score

‹ On produit d’abord un score

f

dont la valeur est une variable continue

f(x) =

s

‹ On fixe un seuil sur ce score S

‹ On classe dans une classe 0/1 selon que le score est inférieur / supérieur àSClasse ( X ) = 1si

f(x) >

S

Classe ( X ) = 0si

f(x)

S

‹ Cette technique est plus flexible : en faisant varier le seuil , on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe

Classification binaire Matrice de Confusion On a un modèle de décision Classe

z On compare la décision “Classé” à la réalité “Réel”

z Pour chaque observation, 4 cas possibles

Classe ( X )= 1 et Réel ( X )= 1 : Vrai Positif

Classe ( X )= 1 et Réel ( X )= 0 : Faux Positif

Classe ( X )= 0 et Réel ( X )= 1 : Faux Négatif

Classe ( X )= 0 et Réel ( X )= 0 : Vrai Négatif

z On note

VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux négatifs dans la population totale

nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N

P N Total

P VP FP nbCP

N FN VN nbCN

nbRP nbRN n Réel

Classé

Total

(24)

KXEN-Confidential 47

Classification binaire Matrice de Confusion

z Pour un score, la matrice de confusion en proportions

Les proportions de vrai P /N : (sensibilité et spécificité)

Modèle parfait

Modèle aléatoire Score

Fréquence

Positif Négatif

(s) (s)

s

( ) s =

VPnbRP

α β ( ) s =

VNnbRN

P N

P α (s) 1 - β (s) N 1 - α (s) β (s)

Réel

Classé

KXEN-Confidential 48

Classification binaire

Indicateurs de performance

z Taux de Bien Classés

et taux d’erreur de classification

Problème si les classes sont déséquilibrées

OK pour comparer plusieurs classifieurs

z Lift Curve

La courbe représentant le taux de VP en fonction des P de la population, i.e. si on ordonne les observations par score décroissant

α(s)

en fonction de

1-F(s)

(

F(s)

est le taux de positifs dans la population avec score supérieur à

s

)

nbRN nbRP

VN TBC VP

+

= +

TBC TER = 1 −

α(s)

1-F(s)

(25)

KXEN-Confidential 49

Classification binaire

Indicateurs de performance

A partir de la Lift Curve z Indicateur KI

Le rapport de l’aire

M

entre

les courbes Modèle/aléatoire à l’aire

W

entre les courbes modèle parfait / aléatoire

KI = M / W

(modèle parfait =Wizard ou Oracle)

z Indicateur KR

Le rapport de l’aire

G

entre les courbes du Modèle sur les ensembles d’estimation et de validation à l’aire

W

entre les

courbes modèle parfait / aléatoire

KR = 1 - G / W

α(s)

1-F(s) W

M

1-F(s) α(s)

G W

Classification binaire

Indicateurs de performance

z Courbe de profit

On définit une structure de coût/

revenu

Exemple

‹

Profit ( s ) = VP x Rev – FP x Coût

‹

Profit

max est le profit généré par Wizard

‹

Profit_Rate ( s ) = Profit ( s ) / Profit

max

‹

(

p

Pet

p

Nsont les taux de P /N)

La courbe de profit est la courbe représentant

Profit_Rate ( s )

en fonction des P de la population, i.e. si on ordonne les observa-tions par score décroissant

Profit_Rate ( s )

en fonction

1-F(s) Profit_Rate(s)

( ) ( ) [ ( ) ]

ev R Coût p s p s

s rate rofit P

P

N

= α 1 β

_

nbRN nbRP pP nbRP

= +

nbRN nbRP pN nbRN

= +

P N

P Rev Coût

N 0 0

Réel Classé

(26)

KXEN-Confidential 51

Classification binaire

Indicateurs de performance

z Remarques

Si

Rev=1

et

Coût=0

,

Profit_Rate ( s )=α(s)

‹ Courbe de profit = courbe de lift

Si

Rev= p

Net

Coût=p

P ,

‹ Courbe de profit=Standardized Profit

( ) s ( ) s [ ( ) s ] T ( ) s rate

rofit

P _ = α − 1 − β =

1-F(s) T(s)

KXEN-Confidential 52

Classification binaire

Indicateurs de performance

z Courbe ROC

La courbe représentant le taux de VP en fonction du taux de FP, i.e. si on ordonne les observations par score décroissant

α(s)

en fonction de

1-β(s) z Indicateur AUC

L’aire sous la courbe ROC

KI = 2 AUC -1 ( ) s d [ ( ) s ]

AUC =

−∞

∫ α − β

+

1 .

α(s)

1-β(s)

AUC

(27)

KXEN-Confidential 53

Régression

z Notations

Un échantillon

La cible

y

est une variable continue

■ La valeur prévue :

■ Le résidu :

L’erreur :

La moyenne de la cible :

La moyenne des prévisions :

( x

1

, y

1

) ( , x

2

, y

2

) ( ,..., x

n

, y

n

)

y ˆ

i i

i

y y

r = − ˆ

|

| ˆ |

|

i i i

i

y y r

u = − =

=

=

n

i

y

i

y n

1

1

=

=

n

i

y

i

y n

1

1 ˆ ˆ

Régression

Indicateurs de performance

Les indicateurs

Mean Square Error

Root Mean Squared Error (RMSE ou L2)

Mean Absolute Error (MAE ou L1)

Maximum Absolute Error (ou L

∞)

Sum of Squares of Regression

Total Sum of Squares

Determination Coefficient (Rsquare-R2)

Corrélation de Pearson

[ ]

=

=

n

i

i

i

y

n y MSE

1

ˆ

2

1

MSE L 2 =

=

=

n

i

u

i

L n

1

1 1

i

u

i

L ∞ = max

=

=

n

i

i

y

y SSR

1

)

2

( ˆ

=

=

n

i

i

y

y SST

1

)

2

(

SST R 2 = SSR 2 r

s2

P =

=

n n n

(28)

KXEN-Confidential 55

Lecture

Industriel

z Site d’informations data mining

http://www.kdnuggets.com/

z Predictive Analytics; the Future of Business Intelligence Mukhles Zaman

http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp

z Data Mining Tools: Which One is Best For CRM? Robert A. Nisbet

Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025

Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597 z Comprendre l'industrialisation informatique

http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml

Scientifique z Vladimir Vapnik

‘Statistical Learning Theory’, Wiley-Interscience, 1998

‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999 z Cours du MIT

http://www.mit.edu/~9.520/#description

Références

Documents relatifs

III.3.5 Antenne dipôle replié et antenne méandre Dans cette section, nous avons étudié l’influence du substrat choisi dans la conception des antennes, deux différents

Nous avons établi dans un premier temps une méthodologie originale permettant l’ap- plication de méthodes de prévision sur des données de géolocalisation. Cette méthodologie

Apprentissage d’un réseau écologique marin à partir de données de comptage.. Marie-Josee Cros,

Vous devez vérifier la véracité de l’information donnée par les laboratoires UPSA concernant le dosage d’un comprimé de vitamine C (ou acide ascorbique). Vous détaillerez

Cette crypto- sporidie pathogène pour l’homme se rencontre plus fréquemment chez les sujets immunodéprimés, mais affecte aussi des sujets non atteints par le VIH, notam- ment dans

Dans cet article nous nous int´eressons au probl`eme de l’apprentissage d’une int´egrale de Sugeno `a partir de donn´ees empiriques, lorsque l’´echelle consid´er´ee est

 En transformant des données structurées par et pour les bibliothèques (MARC) selon les. standards du

Premier groupe radiophonique français, Radio France s’appuie sur six stations complémentaires, France Inter, France Info, France Culture, France Musique, Fip et Le Mouv', ainsi