• Aucun résultat trouvé

La question métier

N/A
N/A
Protected

Academic year: 2022

Partager "La question métier"

Copied!
12
0
0

Texte intégral

(1)

Data Mining

2 - Fondements théoriques

Françoise Soulié Fogelman

Master MI2 Pro EID- Université Paris 13 Data mining et Business Intelligence FDON

KXEN-Confidential 2

Agenda

La question métier

■ Comment décrire un problème data mining

■ Comment décrire la question métier

Données

Modèles

Evaluation des Techniques de Modélisation

Le modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 3

Comment décrire un problème data mining

Le début de tout projet data mining

■Un utilisateur métier pose une question

La Direction veut augmenter le revenu sur ce produit :

– “Pouvez-vous me dire quels clients actuels je dois contacter pour leur offrir ce produit avec mon prix spécial promotion? “

La Production s’est aperçu que ce processus produit beaucoup plus de défauts que cet autre :

– “Pouvez-vous me dire les caractéristiques de ce processus qui pourraient expliquer cet écart ? “

… pour prendre une décision concernant une action à lancer

Ces questions sont liées aux objectifs stratégiques

de l’entreprise

■Le Plan Stratégique détaille les objectifs stratégiques de l’entreprise

■Le Plan opérationnel liste les actions prévues

Les KPI - Key Performance Indicators – sont

utilisés pour mesurer les résultats des actions Aujourd’hui, les entreprises veulent industrialiser le

processus de décision et contrôler leurs actions

KXEN-Confidential 4

Comment décrire la question métier

Pour chaque question métier posée, il faut comprendre :

■Le processus métier associé

■Quelles sont les variables associées

■Quel est le résultat attendu

Les variables d’entrée

… ou variables explicatives

… ou inputs

… doivent être disponibles

La cible

… ou variable expliquée

… ou output

… doit être mesurable

… et “actionnable”

x

1

( ) x

f y = x

2

x

3

x

n

KXEN-Confidential 5

Comment décrire la question métier

Ciblage marketing

■Propensité d’achat

■Rétention

Segmentation

■Segmentation clients

■Segmentation offres

Crédit

■Probabilité de défaut

Distribution

■Prévision de revenu, de vente

■Ventes co-occurrentes

■Recommandations

Industrie

■Prévision des défauts

■Nombre de pannes

■Appels pour intervention

■Pièces nécessaires

KXEN-Confidential 6

Comment décrire la question métier

Le projet Data Mining vise à :

■ Exploiter les données existantes pour

… produire un modèle répondant à la question métier

Le modèle fournit les éléments pour construire un Business Case

■ Et ensuite exploiter le modèle pour

… réaliser une action ciblée

Exemple

■ Définir la cible d’une campagne marketing, i.e. la liste des personnes à contacter

■ Le modèle donne une indication du retour attendu

J’ai un budget de 100 000 €

Mon modèle m’indique que en contactant 10 000 clients (ceux qui ont le meilleur score), je devrais obtenir un taux de retour de 12%

Le retour net de ma campagne devrait donc être de 20 000 € (si chaque client qui répond me rapporte 100 €)

(2)

KXEN-Confidential 7

Agenda

La question métier

Données

■ Le processus données

■ Construire l’Analytical Data Set

■ Caractéristiques des données

Modèles

Evaluation des Techniques de Modélisation

Le modèle d’apprentissage statistique de V. Vapnik

KXEN-Confidential 8

Le processus données

Les données sont à la base du data mining

■ Pas de données, pas de modèle !

Le processus de collecte de données est complexe : il faut

■ Identifier l’ensemble des sources de données

■ Mettre en place les mécanismes de collecte

■ Mettre les données en cohérence

■ Manipuler & transformer les données

… pour constituer le “Analytical Data Set”

KXEN-Confidential 9

Le processus données

Exemple

Manipulation des données

Base clients telco

Préparation des données

Analytical Data Set

Customer Id Last name

First

name Address Birth dateProfession Education Local traffic

Traffic to mobile

Traffic to Internet

Preferred mode

Quality of payment

Number of calls

Duration of calls Mobile 1

2 3 4

128 Lion Leo S.

12 Baltimore Street

1975/02/2

9 Clown PhD 02:37:0001:23:00 07:46:00 CC E 37 03:24:00 1

KXEN-Confidential 10

Le processus données

Manipulation des données

■Réconcilier les formats hétérogènes

Meta-données et référentiels

■Rapprocher des labellés différents

Données internes & externes

Préparation des données

■Produire des données calculées

Agrégats

Variables calculées

KXEN-Confidential 11

Construire l’Analytical Data Set

Analytical Data Set : Représentation tabulaire des données

Une ligne représente une “observation”

■Par exemple : un client

Une colonne représente une “variable”

■Par exemple : âge, nom

■Il y a des “variables explicatives” & des”variables expliquées”

Autre termes pour

"Observation"

Autre termes pour

"Variable"

Ligne Colonne

Exemple Attribut

Table Champ

Event Propriété

Instance -

Record -

KXEN-Confidential 12

Construire l’Analytical Data Set

Manipulation des données

Référentiel & meta-données

■ Les données sur les données

Nom des variables, sens, format

■ Mapping des meta-données

Noms de champs et types de formats d’input variés vers un format commun

Transformer les contenus de variables similaires vers un format commun unique

■ Consistence

Ex : format “civilité, prénom, nom”

Jointures : de sources de données multiples

Filtrage des données

Règles métier

■ Ex : variables positives (“nb d’appels”), borné (“âge” < 150), dans un domaine (“sexe” dans {mâle, femelle}

Outliers

■ Détecté en fonction du dictionnaire, des règles et flaggé

■ Traité ensuite

(3)

KXEN-Confidential 13

Construire l’Analytical Data Set

Préparation des données

Sélection des variables

■ Choisir les variables utiles

Définition de la cible

Les transformations “métier”

■ Champs calculés : produire de nouvelles variables à partir de variables existantes

Nb de jours entre l’émission de la facture et le paiement

Profit : prix d’achat – coût de fabrication

Codage : les transformations statistiques nécessaires pour un certain modèle

■ Changer les types de continu à nominal ou ordinal (binning ou regroupement de catégories)

■ Eclater une variable en plusieurs ou Regrouper plusieurs variables en une seule

Représentation d’une variable multi-catégorie

Évaluer la qualité des données pour déterminer

■ Les valeurs manquantes (blancs, espaces, nuls)

■ Les outliers

■ Les corrélations

KXEN-Confidential 14

Construire l’Analytical Data Set

Qualité des données

Les données doivent être

■ Exactes

Valeurs correctes

■ Non redondantes

Doublons

■ Complètes : données “manquantes”

“missing-rate” d’une variable : combien d’observations ne l’ont pas

“filling-rate” d’une observation : combien de variables sont remplies

Traitement des données “manquantes”

1.Éliminer toutes les lignes non remplies complètement

On risque d’éliminer beaucoup de lignes !

2.Remplacer les données manquantes par des valeurs calculées

Variable nominale : catégorie la plus fréquente,

Variable continue : moyenne 3.Créer une classe spéciale

Voir Démo KXEN

La qualité n’est jamais parfaite !

KXEN-Confidential 15

Caractéristiques des données

Chaque variable a 3 caractéristiques

1.

Type

■ Continue

■ Ordinal

Variables discrètes (numérique ou texte) dont l’ordre a un sens – A, B, C …; 1, 2, 3

■ Nominal

Variables discrètes dont l’ordre n’a pas de sens – Numérique :

» Binaire (0 ou 1), codes postaux (75 013, 92 125 …) – Texte : chaînes de caractères sans ordre significatif

» CC –carte crédit, CH –chèque, RA –retrait automatique

2.

Format de stockage

Date

– Variable Date de naissance: "2001-11-30", "1999/04/28"

Number

– Variable Salaireen US $: "1000", "1593“, "2000.54"

– Variable Ageen années : "21", "34" and "99"

String

– Variable Nom de famille : “Dupont", "Martin“, "Miller"

– Variable N° de tél: "800 555 1234“, "800 555 4321"

– Variable Profession: "professeur", “ingénieur"

KXEN-Confidential 16

Caractéristiques des données

Chaque variable a 3 caractéristiques

3.

Rôle

■ Le rôle de la variable dans le projet

■ Le rôle peut être différent dans un autre projet

Rôle de la variable Autres termes

Cible

Variable expliquée Variable dépendante Output

Explicative

Variable causale Variable indépendante Input

Exclue Skip

Poids *

KXEN-Confidential 17

Un exemple : le problème “census”

Variables

skip integer

continuous KxIndex

target 0

number nominal class

input 857

string nominal native-country

input 0

number continuous hours-per-week

input 0

number continuous capital-loss

input 244

number continuous capital-gain

input 0

string nominal sex

input 0

string nominal race

input 0

string nominal relationship

input 2 809

string nominal occupation

input 0

string nominal marital-status

input 0

number ordinal

education-num

input 0

string nominal education

input 0

number continuous fnlwgt

input 2 799

string nominal workclass

input 0

number continuous age

Rôle Nombre de manquant Stockage

Valeur Variable

KXEN-Confidential 18

Agenda

La question métier

Données

Modèles

■ Modèles descriptifs

■ Modèles prédictifs

Le modèle d’apprentissage statistique de V. Vapnik

Evaluation des Techniques de Modélisation

(4)

KXEN-Confidential 19

Types de modèles

Il y a deux sortes de modèles :

Modèles descriptifs

■ Exploration des données du passé

… pour comprendre le passé

■ Information descriptive sur les variables et leurs relations

Modèles prédictifs

■ Exploitation des données du passé

… pour prévoir et expliquer le futur

■ Information prédictive sur la future valeur de la variable cible

KXEN-Confidential 20

Types de modèles

Source : Teradata

KXEN-Confidential 21

Types de modèles

Un modèle

Est produit à partir de l’Analytical Data Set

■À partir des données du passé, on produit un modèle pour

Comprendre : modèle exploratoire

Prévoir : modèle prédictif

Est utilisé

■Sur les données du passé

Pour comprendre ce qui s’est passé & pourquoi

■Sur les données du futur

Pour mettre en oeuvre des actions opérationnelles (ex : campagnes)

Est évalué

■Au moment de sa production pour

Évaluer la qualité du modèle

Anticiper ce que sera sa performance dans le futur

■Au moment de son utilisation

Sur les nouvelles données du futur

On doit vérifier que les performances observées sont conformes aux performances attendues

KXEN-Confidential 22

Types de modèles

Qualités d’un modèle

Précision

■La capacité du modèle à être “bon” sur les données du passé

Robustesse / Généralisation

■La capacité du modèle à être “bon” sur les données du futur

Quelles que soient ces données

… à condition qu’elles proviennent de la même distribution que le passé

En présence d’outliers, de données manquantes …

… et ceci quelle que soit la forme de la distribution des données

Passé

Futur

Données Modèle

KXEN-Confidential 23

Modèles descriptifs - Statistiques descriptives

Variable “Age” (base Census)

KXEN-Confidential 24

Modèles descriptifs - Importance des variables

Un modèle prédictif peut donner de l’information sur

l’importance des variables.

Exemple

■ Dans la base Census, j’essaie de prévoir si une personne gagne plus de 50 000 $ / an

■ Un modèle de régression simple :

Classe = 1 si a*age + b*capital-gain ≥ c

Classe = 0 si a*age + b*capital-gain < c

■ Contribution avec

■ Cas des variables corrélées : xet y

Contribution intelligente

■ Importance des catégories

Influence sur la cible

– Le comportement est comparé au comportement moyen de l'ensemble de la population

=1

i

i i i

oids P oids P

=

i i i

i Poids

oids ontrib P C

( ) ( )

(

y x

)

b Ax

x y b x b a

by bx bx ax

by ax

− +

=

− + +

=

+

− +

= +

(5)

KXEN-Confidential 25

Modèles descriptifs - Importance des variables

Contribution intelligente des variables

Importance des catégories des variables “marital- status” et “capital-gain”

Base Census

KXEN-Confidential 26

Modèles descriptifs - Segments

Construction de segments

■ Non supervisée / Supervisée

Exemple

■ Production de 5 segments supervisée par “class”

Base Census

■Description des Segments / variable / population

KXEN-Confidential 27

Modèles prédictifs - Classes de modèles

Classification

■La cible est nominale

Binaire : il y a 2 classes (0 et 1)

Multi-modale : il y a n classes (1, 2, …, n)

Régression

■La cible est continue

Score

Série temporelle …

x t

y

t y

x

1

0

KXEN-Confidential 28

x t

y

Modèles prédictifs - Utilisation des modèles

1.

Expliquer / comprendre

■ Le modèle est une description / simplification du phénomène

■ Il permet de répondre à des questions comme :

Quelles sont les variables significatives

Quel est l’impact d’une variation de l’une des variables …

2.

Prévoir

■ Le modèle donne une estimation de la classe ou de la valeur

■ Des modèles différents donnent des prévisions différentes

Quelle est la “bonne” prévision ?

Existe-t-il un moyen de garantir qu’on obtient une bonne prévision ?

KXEN-Confidential 29

Modèles prédictifs - Utilisation des modèles

Données d’apprentissage

Modèle simple

Modèle intermédiaire

Modèle complexe

KXEN-Confidential 30

Modèles prédictifs - Utilisation des modèles

Qu’attendons-nous d’un modèle Précision (ensemble d’apprentissage)

Modèle simple Modèle intermédiaire Modèle complexe

Robustesse (ensemble de test)

Modèle complexe Modèle simple Modèle intermédiaire

(6)

KXEN-Confidential 31

Agenda

La question métier

Données

Modèles

Le modèle d’apprentissage statistique de V. Vapnik

■ Le cadre mathématique

■ La théorie de Vapnik

■ Le processus de modélisation

Propriétés attendues d’un modèle – Généralisation

– Consistence – Robustesse

Stratégie de génération de modèle

Evaluation des Techniques de Modélisation

KXEN-Confidential 32

Le cadre mathématique

Données d’apprentissage

■ La cible ypeut être continue ou pas

■ Dans la « base d’apprentissage », tous les yisont connus

Une classe de fonctions

■ Par exemple :

La classe des plynômes de degré p

La classe des MLP avec p neurones cachés …

Un modèle issu de cette classe

■ Par exemple, le polynôme dont les paramètres sont

Le « meilleur » modèle

■ Produit par un certain algorithme ou un principe d’inférence

■ Et qui correspond donc au « meilleur » paramètre

( )

{ ∈ Θ }

= Φ

Θ

f ., θ , θ

( ) x , θ

f y =

( ) , θ ˆ

ˆ f x

y = θ ˆ

θ ( x

1

, y

1

) ( , x

2

, y

2

) ( ,..., x

n

, y

n

)

KXEN-Confidential 33

Le cadre mathématique

Une fonction de coût

■Par exemple

L’écart quadratique

L’erreur en apprentissage ou risque empirique

■Le coût moyen sur l’ensemble d’apprentissage

■Par exemple l’écart quadratique moyen MSE (Mean Square Error)

L’erreur en généralisation

■Le coût moyen théorique sur l’ensemble de la population

■… qui est l’erreur attendue sur de nouvelles données

Principe d’inférence

■Minimisation du risque empirique

■Par exemple : LMSE (Least Mean Square Error)

( )

[ y , f x , θ ] [ y f ( ) x , θ ]

2

L = −

( ) [ y , f x , θ ]

L

( ) ∑ [ ( ) ]

=

=

n

i i i

emp

L y f x

R n

1

,

1 , θ

θ

( ) L [ y f ( ) x ] ( ) dP x y

R

Gen

θ = ∫ , , θ ⋅ ,

( ) θ θ ˆ = arg mi

θ

n R

emp

( ) ∑ [ ( ) ]

=

=

n

i i i

emp

y f x

R n

1

,

2

1 θ

θ

( )

[ ]

=

=

n

i i

i

f x

n y rg a mi n

1

,

2

ˆ 1 θ

θ

θ KXEN-Confidential 34

Le cadre mathématique

L’erreur d’apprentissage (précision)

L’erreur de généralisation (robustesse)

( )

L

[

y f

( )

x

]

dP

(

x y

)

RGenθ =

, ,θ ⋅ ,

Modèle intermédiaire

Deux notions

Modèle complexe

( ) ∑ [ ( ) ]

=

=

n

i i i

emp

L y f x

R n

1

,

1 , θ

θ

KXEN-Confidential 35

La théorie de Vapnik

La « Statistical Learning Theory » est une théorie générale qui repose sur 4 principes

1.Consistence (robustesse)

Capacité à généraliser correctement sur de nouvelles données 2.Vitesse de convergence

Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

3.Contrôle de la capacité de généralisation

C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage 4.Stratégie pour obtenir de bons algorithmes

C’est la stratégie qui nous permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

… et utilise un paramètre la « VC dimension » ou

dimension de Vapnik Chervonenkis

KXEN-Confidential 36

La théorie de Vapnik

Dimension de Vapnik Chervonenkis

Etant donné

■ Un échantillon de nobservations

■ caractérisées par pvariables :

Il y a 2

n

façons de séparer ces n observations en 2 classes

On dit que la famille de fonctions

“pulvérise” l’échantillon si toutes les 2

n

séparations sont réalisables (avec un θθθθ bien choisi)

On dit que la famille Φ Φ Φ Φ

ΘΘΘΘ

est de VC dimension

h ∈∈∈∈aaaa

si :

1.Il existe au moins un échantillon dehobservations de

ℜ ℜ ℜ ℜ

pqui peut

être pulvérisé par

Φ Φ Φ Φ

ΘΘΘΘ

2.Aucun échantillon de h+1observations ne peut être éclaté par

Φ Φ Φ Φ

ΘΘΘΘ

( x

1

, x

2

,..., x

n

)

p

x

i

∈ ℜ

( )

{ ∈ Θ }

=

Φ

Θ

f ., θ , θ

(7)

KXEN-Confidential 37

La théorie de Vapnik

Exemple : la famille des droites de

ℜ ℜ ℜ ℜ

2

■ 3 points

■ 4 points

h= 3 (=2+1)

KXEN-Confidential 38

La théorie de Vapnik

1.

Consistence (robustesse)

■ Capacité à généraliser correctement sur de nouvelles données

2.

Vitesse de convergence

■ Capacité à généraliser de mieux en mieux quand le nombre de données d’apprentissage augmente

■ Indépendant des distributions de (X,Y)

■ Un modèle est

consistent si et seulement si la famille

dont il est issu est de VC dimension finie

( ) , θ ˆ

ˆ f x

y =

h

( )

{ Θ }

= Φ

Θ

f ., θ , θ

KXEN-Confidential 39

La théorie de Vapnik

3.

Contrôle de la capacité de généralisation

■ C’est la stratégie qui permet de contrôler la capacité de généralisation à partir des seules données disponibles : les données d’apprentissage

■ Quand n/hest grand, on minimise le risqueempirique Remp

■ Quand n/hest petit , on minimise les deux termes : RempET εεεε(n,h) doivent être minimisés

Remp

R

emp

RGen

Statistique classique

KXEN-Confidential 40

La théorie de Vapnik

4.

Stratégie pour obtenir de bons algorithmes

■ C’est la stratégie qui permet de garantir et mesurer la capacité de généralisation du modèle que notre algorithme produit

■ SRM (Structural Risk Minimization) : on utilise des familles de fonctions emboîtées à VC dimension croissante

Produire un modèle dans une famille

■Fit de données Choisir le meilleur

modèle dans l’ensemble des modèles générés

■Choix de modèle

Compromis fit- robustesse

KXEN-Confidential 41

La théorie de Vapnik

Moralité

Ce qu’on ne peut pas contrôler

■La distribution des données

Certainement pas Gaussiennes …

■Les approximations de distribution

Transformation pour se ramener au cas Gaussien

Ce qu’on peut contrôler

■La classe de modèles où on recherche la solution ΦΦΦΦΘΘΘΘ

■La VC dimension h de la classe retenue

Avec une méthode de contrôle

■La SRM qui garantit la robustesse

KXEN-Confidential 42

Le processus de modélisation KXEN

La SRM en pratique dans KXEN

Et deux indicateurs

■ Précision : KI

■ Robustesse : KR

(8)

KXEN-Confidential 43

Le processus de modélisation KXEN

Production de l’ADS

Automatique

(SRM) Ridge

regression

KI (Gini index) Polynômes

y

k

P ré p a ra tio n Algorithme

d’apprentissage Modèle

C o d a g e C rit è re

x

k x1

xn

x3

x2

Sorties Système

y1

yp

y2

x

k

y

k

KXEN-Confidential 44

Le processus de modélisation KXEN

Régression polynômiale

On utilise une structure en deux modules

qu’on calibre en même temps, en utilisant

■ Une régression ridge pour le fitting des données:

■ Une SRM pour le choix des modèles: x1

xn x3 x2

Codage Régression

y = F ( x

1

, … , x

n

; W , λ

i

, µ

j

)

λ

i

W , µ

j

y

k

x

k

j

i

µ

λ , W

*

KXEN-Confidential 45

Le processus de modélisation KXEN

Régression polynômiale

On utilise la classe des polynômes

■À degré

q

donné, famille emboîtée par croissants

( )

{

i i

}

qµi

= g x W µ polynôme de d egré q W ≤ µ

Φ ; , , ;

Régression y = g ( z

1

, … , z

n

; W , µ

j

)

W , µ

j

z

1

z

n

z

3

z

2

µ

i

KXEN-Confidential 46

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Code les variables nominales et ordinales sous forme numérique

Code les variables continues de façon non-linéaire

Compresse les variables en catégories robustes

Traite les valeurs manquantes et les outliers

en utilisant les principes de la SRM de Vapnik (compromis fit-robustesse)

Codage

KXEN-Confidential 47

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Variable nominale

Codage

KXEN-Confidential 48

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Variable continue

Codage

(9)

KXEN-Confidential 49

Le processus de modélisation KXEN

Régression polynômiale – Le module de codage

Robustesse du codage

Codage

KXEN-Confidential 50

Le processus de modélisation KXEN Régression polynômiale – Le module de régression

Régression

KXEN-Confidential 51

Le processus de modélisation KXEN

Régression polynômiale – Le module de régression

Indicateurs fit & robustesse

O KI=M

Régression

O

M G O

KR = 1 − M O KI =

G

KXEN-Confidential 52

Le processus de modélisation KXEN Régression polynômiale – Le module de régression

Régression

KXEN-Confidential 53

Le processus de modélisation KXEN

Segmentation supervisée

On utilise une structure en deux modules

qu’on calibre en même temps, en utilisant

■Une SRM & MDL pour le choix des modèles :

■Un k-means supervisé pour le data fitting : (positionnement des centres)

y

k

x

k

j

i

µ

λ ,

* x1

xn

x3 x2

Codage Segmentation y=F

(

x1,…,xn;ℑ,λij

)

λ

i ℑ,

µ

j

KXEN-Confidential 54

Le processus de modélisation KXEN

Le module de segmentation

(10)

KXEN-Confidential 55

Le processus de modélisation KXEN

Le module de segmentation

KXEN-Confidential 56

Le processus de modélisation KXEN

Le module de segmentation

KXEN-Confidential 57

Le processus de modélisation KXEN

Le module de segmentation

KXEN-Confidential 58

Le processus de modélisation KXEN

Le module de segmentation

KXEN-Confidential 59

Agenda

La question métier

Données

Modèles

Le modèle d’apprentissage statistique de V. Vapnik

Evaluation des Techniques de Modélisation

■ Introduction

■ Classification binaire

Matrice de Confusion

Indicateurs de performance

■ Régression

KXEN-Confidential 60

Introduction

Le résultat de la modélisation

■ Un ou plusieurs modèles

Il faut

■ Évaluer la performance d’un modèle

Évaluer le fit

■ Comparer les performances de plusieurs modèles

Choisir un modéle

Il y a deux niveaux d’évaluation de la performance

■ Évaluation technique

Indicateurs techniques / statistiques

Doivent être indépendants des distributions des données

■ Évaluation métier

Quelles sont les performances “métier” obtenues si on utilise ce modèle : elles sont mesurées apr des KPI (“key Performance Indicators”)

Exemples :

– Taux de retour, profit généré par une campagne – Taux de défaut généré dans ce processus d’attribution de crédit

(11)

KXEN-Confidential 61

Classification binaire

On a 2 classes : 0/1 ou N/P (négatif / positif)

On veut définir un modèle Classe tel que

Classe ( X )

= 0 ou 1

Il y a deux méthodes

■ Classification - ou décision- directe :

f(x) =

0 ou 1

■ Score

On produit d’abord une fonction-score

f

dont la valeur est une variable continue

f(x) =

s

On fixe un seuil sur cette fonction : S

On classe dans une classe 0/1 selon que le score est inférieur / supérieur àS –Classe ( X ) = 1 si f(x)>S

–Classe ( X ) = 0 si f(x)≤S

Cette technique est plus flexible : en faisant varier le seuil S, on peut faire varier les proportions d’individus affectés à l’une ou l’autre classe

KXEN-Confidential 62

Classification binaire – Matrice de Confusion

On a un modèle de décision Classe

On compare la décision “

Classé

” à la réalité “

Réel ”

Pour chaque observation, 4 cas possibles

■ Classe ( X ) = 1et Réel ( X ) = 1: Vrai Positif

■ Classe ( X ) = 1et Réel ( X ) = 0: Faux Positif

■ Classe ( X ) = 0et Réel ( X ) = 1: Faux Négatif

■ Classe ( X ) = 0et Réel ( X ) = 0: Vrai Négatif

On note

■ VP, FP, VN et FN les nombres de vrai/faux positifs, vrai/faux négatifs dans la population totale

■ nbCP / nbCN, nbRP / nbRN les nombres de classés et réels P/N

P N Total

P VP FP nbCP

N FN VN nbCN

nbRP nbRN n Réel

Classé Total

KXEN-Confidential 63

Classification binaire – Matrice de Confusion

Matrice de confusion en proportions

■Les proportions de vrai P /N :

Sensibilité

Spécificité

Modèle parfait

Modèle aléatoire

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

( ) s =

VPnbRP

α ( ) s =

VNnbRN

β

P N

P α(s) 1 - β(s) N 1 - α(s) β(s)

Réel

Classé

KXEN-Confidential 64

Classification binaire – Indicateurs de performance

Taux de Bien Classés

Taux d’erreur de

classification

■Problème si les classes sont déséquilibrées

■OK pour comparer plusieurs classifieurs

Lift Curve

■La courbe représentant le taux de VP en fonction des P de la population, i.e. si on ordonne les observations par score décroissant

α (s)

en fonction de

1-F(s)

F( s )

est le taux de positifs dans la population avec score supérieur à

s

n VN TBC = VP +

TBC TER =1 −

αααα(s)

1-F(s)

KXEN-Confidential 65

Classification binaire – Indicateurs de performance

A partir de la Lift Curve

Indicateur

■ Le rapport de l’aire

M

entre les courbes Modèle/aléatoire à l’aire

O

entre les courbes modèle parfait / aléatoire (modèle parfait =Wizard ou Oracle)

Indicateur

■ Le rapport de l’aire

G

entre les courbes du Modèle sur les ensembles d’estimation et de validation à l’aire

O

entre les courbes modèle parfait / aléatoire

αααα(s)

1-F(s) O

M M O

KI =

GO KR=1−

αααα(s)

1-F(s) O G

KXEN-Confidential 66

Classification binaire – Indicateurs de performance

Courbe de profit

■ On définit une structure de coût/

revenu

■ Exemple

Profit ( s ) = VP x Rev – FP x Coût

Profit

max est le profit généré par Wizard Profit_Rate ( s ) = Profit ( s ) / P

rofit

max

(pPetpNsont les taux de P /N)

■ La courbe de profitest la courbe représentant

Profit_Rate ( s )

en fonction des P de la population, i.e. si on ordonne les observations par score décroissant

Profit_Rate ( s )

en fonction de

1-F(s)

1-F(s)

Profit_Rate(s)

( ) ( ) [ ( ) ]

ev R Coût p s p s s Rate rofit P

P N

=α 1 β _

n pP=nbRP

n p

N

= nbRN

P N

P Rev Coût

N 0 0

Réel Classé

(12)

KXEN-Confidential 67

Classification binaire – Indicateurs de performance

Remarques

Si Rev=1 et Coût=0

■ Profit_Rate ( s )= α (s)

■ Courbe de profit

= courbe de lift

Si Rev= p

N

et Coût=p

P

■ Courbe de profit

=Profit normalisé

( ) ( ) [ ( ) ] ( )

s T

s s s rate rofit P

=

=α 1 β _

1-F(s) T(s)

KXEN-Confidential 68

Classification binaire - Indicateurs de performance

Courbe ROC

■ La courbe représentant le taux de VP en fonction du taux de FP, i.e. si on ordonne les observations par score décroissant

α (s)

en fonction de

1- β (s)

Indicateur AUC

■ L’aire sous la courbe ROC

KI = 2 AUC -1

( ) s d [ ( ) s ]

AUC =

−∞

∫ α − β

∞ +

1 .

αααα(s)

1-ββββ(s)

AUC

KXEN-Confidential 69

Régression

Notations

■Un échantillon

■La cible

y

est une variable continue

■La valeur prévue :

■Le résidu :

■L’erreur :

■La moyenne de la cible :

■La moyenne des prévisions :

( x

1

, y

1

) ( , x

2

, y

2

) ( ,..., x

n

, y

n

)

i i

i

y y

r = − ˆ

|

|

| ˆ

|

i i i

i

y y r

u = − =

=

=

n

i

y

i

y n

1

1

=

=

n

i

y

i

y n

1

1 ˆ ˆ

KXEN-Confidential 70

Régression - Indicateurs de performance Les indicateurs

■ Mean Square Error erreur moyenne

■ Root Mean Squared Error (RMSE ou L2)

■ Mean Absolute Error (MAE ou L1)

■ Maximum Absolute Error (ou L∞)

■ Sum of Squares of Regression

= variance des résidus du prédicteur

■ Total Sum of Squares

= variance du signal

■ Determination Coefficient (Rsquare-R2)

= Coefficient de qualité

■ Corrélation de Pearson

[ ]

=

=

n

i i

i

y

n y MSE

1

ˆ

2

1

MSE L2=

=

= n

i i yi

n y L

1

1 ˆ 1

i

u

i

L ∞ = max

=

=

n

i

i

y

y SSR

1

)

2

( ˆ

=

=

n

i

i

y

y SST

1

)

2

(

SST R 2 = SSR 2 r

s2

P =

=

=

=

=

n

i i n

i i n

i

i i

s

y y y y y y y y

r

1 2 1

2 1

) ( ) ˆ ˆ ( ) )(

ˆ ˆ (

KXEN-Confidential 71

Régression - Indicateurs de performance

Régression sur âge

Base census

KXEN-Confidential 72

Lecture

Industriel

Site d’informations data mining

http://www.kdnuggets.com/

Predictive Analytics; the Future of Business IntelligenceMukhles Zaman

http://www.technologyevaluation.com/Research/ResearchHighlights/BusinessIntelligenc e/2005/12/research_notes/TU_BI_XMZ_12_24_05_1.asp

Data Mining Tools: Which One is Best For CRM?Robert A. Nisbet

Part 1 http://www.dmreview.com/editorial/newsletter_article.cfm?articleId=1046025

Part 2 http://www.dmreview.com/article_sub.cfm?articleID=1046597 Comprendre l'industrialisation informatique

http://solutions.journaldunet.com/dossiers/pratique/industrialisation-informatique.shtml

Scientifique Vladimir Vapnik

‘Statistical Learning Theory’, Wiley-Interscience, 1998

‘The Nature of Statistical Learning Theory’, Springer-Verlag, 1999 Cours

http://www.mit.edu/~9.520/#description

http://www.stanford.edu/class/cs345a/

http://clopinet.com/isabelle/Projects/ETH/

Références

Documents relatifs

✔ Une « relation » entre les deux tables : La colonne Dept dans Employés fait référence à une ligne de la table Départements. ✔ Par Jointure, on peut savoir dans quel

Dans ces phrases, entoure l’auxiliaire être en bleu et l’auxiliaire avoir en rouge.. Aurore est tombée dans

Être seul en présence de quelqu’un : expérience de l’enfant qui peut être seul en présence de sa mère. Il existe une expérience de vie fondamentale pour le bb qui doit

juxtaposition des identifiants des entités reliées par cette association.. Cardinalités : indiquent pour chaque entité vis à vis d'une association, les nombres mini et maxi

Pour créer un jeu de données bien organisé, il faut retenir que chaque colonne représente une variable.. C’est ce qu’on appelle le format long (long layout

Tous les attributs doivent être élémentaires par rapport au choix de gestion et il doit y avoir un identifiant à chaque entité. n'est

Table, relation, clé Règles de passage

Il peut y avoir plusieurs occurrences pour un service ou appareil particulier, ou plusieurs occurrences de personnes dans un document de format de données d'informations de