3 Younès BENNANI

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

Reconnaissance Statistique des Formes

3 Younès BENNANI

Rappel

Classificateur :.

X =

x

₁

x

₂

M

x

n

!

"

#

# #

$

%

&

Max P C ( ) _i / X ou

Min d X, ( ) C _i

Espace des formes Espace des décisions

!

1

"

₁

x x x

x x

x x x x

x

!

2

"

2

o o o

o o o o

o o

C

i

C

j

x x x

x x

x x x x

x

o o o

o

o o o

o o

X

ⁱ

x

x + ^o

o o

o x

x x x x

x

(2)

Exercice : MDC ( Minimum-Distance Classifier ) Corrigé

C ₁ ! (1, 0), (1,1) C ₂ ! (0,1), (3,1)

C ₃ ! (1,2), (0, 0), ("1,1) X = (1,"1) #?

! X "C ₁

Les frontières entre les classes : Les fonctions de décision sont :

g

₁

( X) = x

₁

! 1 2 g

₂

(X) = x

₂

! 1

2 g

₃

( X) = 0

g

1 2

( X) = g

1

(X) ! g

2

(X ) = x

1

! x

2

= 0 g

_{2 3}

( X) = g

₂

(X ) ! g

₃

( X ) = x

₂

! 1

2 = 0 g

3 1

( X) = g

3

(X ) ! g

1

(X ) = 1

2 ! x

1

= 0 g

1

( X) = 1

2 , g

2

(X) = ! 3

2 , g

3

( X ) = 0

Exercice : K-NN

C ₁ ! (0,3), (0, 2), (0,1), (0, 0), ("1,0), ("2, 0) C ₂ ! (1,3), (1,1),(1,0), (0, "1)

X = (1,4) #? avec 1 " NN, 3 " NN et 5 " NN

(3)

Exercice (Corrigé)

C

₁

g

₁

(X) C

₂

g

₂

(X)

(0, 3) 7.5 (1,3) 8

(0, 2) 6 (1,1) 4

(0,1) 3.5 (1,0) 0.5

(0, 0) 0 (0, !1) ! 4.5

(!1,0) ! 1.5 (!2, 0) ! 4 X = (1,4)

g

_i

( X ) = X

^t

Y

_i

! 1

2 Y

_i^t

Y

_i

, 1 " i " M La fonction de décision est :

1-NN 3-NN 3-NN

3-NN 5-NN

5-NN

5-NN 5-NN 5-NN

5-NN => C1

3-NN => C

1

1-NN => C

2

x

1

x

₂

Exercice (Corrigé)

g

_i

(X ) = X

^t

Y

_i

! 1

2 Y

_i^t

Y

_i

, 1 " i " M

La frontière entre les classes : g

_ij

(X ) = g

_i

( X) ! g

_j

( X) = 0 La fonction de décision est :

g

₁

(X ) = ( x

₁

x

₂

) ^! ⁰ ₃

"

# $

% & 1

2 ( 0 3 ) ⁰

3 !

"

# $

% = 3x

₂

& 9 2 g

₂

( X) = ( x

₁

x

₂

) ¹

3 !

"

# $

% & 1

2 ( 1 3 ) ¹

3 !

"

# $

% = x

₁

+ 3x

₂

& 5

g

_{1 2}

( X) = g

₁

( X) ! g

₂

(X ) = 3x

₂

! 9

2 ! x

₁

! 3x

₂

+ 5

= !x

1

+ 1

2 = 0 1

X = (1,4)

x

₁

= 1 2

x

₁

x

₂

(4)

Mesures de performances

Matrice de confusion permet de voir la répartition des classements correctes et incorrectes :

!

C

₁

C

₂

K C

_j

K C

_c

C

₁

n

_1,1

n

_1,2

K n

_1,_j

K n

_1,c

C

₂

n

_2,1

n

_2,2

K n

_2,_j

K n

_2,c

M

C

_i

M M M n

_i,_j

M M M

C

_c

n

_c,1

K K K K n

_c,c

"

#

$

$ $

%

&

' ' ' ' ' ' ' ' '

Classe pr é dite par le classificateur

Classe réelle

n

_j,j : Nombre d’exemples de la vraie classe j qui ont été classés en i

n

_j,i : Nombre de classements Correctes de la classe i

Taux de bien classés (accuracy) : Taux d’erreur :

!

TBC =

Nb.exemples¹

n

i,i i=1

c

"

!

TE = 1" TBC

Mesures de performances

Mesures de performance alternatives

Classes très déséquilibrées : le TBC peu utile

! utiliser la moyenne géométrique des TBC des différentes classes :

!

MG

TBC

= n

i,i

c

i

"

# $ %

&

'

i=1 c

(

Classement binaire :

Classe pr é dite

Classe réelle

VN (vrais nég.) FN

(faux nég.) R-

(Prédite négative)

FP (faux pos.) VP

(Vrais pos.) R+

(Prédite positive)

C-

(Classe négative)

C+

(Classe positive)

(5)

Mesures de performances

sains pathologiques

Valeur de l’indice

Indice positif

Indice négatif

Seuil de décision

Faux négatifs FN Faux positifs

FP

Vrais positifs VP

Vrais négatifs

VN

Mesures de performances

!

TVP = VP

VP + FN = sensibilité

Taux de vrais positifs :

Taux de vrais négatifs :

Taux de faux positifs :

Taux de faux négatifs :

Valeur prédictive positive (précision) :

Valeur prédictive négative :

!

TVN = VN

VN + FP = spécificité

!

TFP = FP

FP + VN =1 " TVN

!

TFN = FN

FN + VP = 1" TVP

!

VPP = VP VP + FP VPN = VN

VN + FN

!

exactitude = VP + VN

VP + VN + FP + FN

(6)

Mesures de performances

Le taux d’erreur comme mesure de performance pose problème car il suppose que :

- la distribution des classes est équilibrée et statique - toutes les erreurs ont même coût

Solutions proposées :

- coût de misclassification

- les courbes ROC(Receiver Operating Characteristic)

Receiver : du récepteur (observateur)

Operating : pour n’importe quel point d’opération Characteristic : caractéristiques de détection de l’indice

Coût de misclassification

Le taux d’erreur : critère inadéquat lorsque les différents types d’erreurs n’ont pas le même coût :

Ex. Churn :

- coût (FP) = prix d’un cadeau offert - coût (FN) = perte d’un client

VN FN R-

FP VP R+

C- C+

Err

0 C(FN) R-

C(FP) 0

R+

C- coût C+

Le coût total de misclassification :

!

Coût

_Misc

= FN * c(FN ) + FP * c(FP)

(7)

Inconvénients

- Pour construire un classificateur qui minimise le coût, il faut intégrer les coûts (empiriques)

- L’intégration des coûts n’est que partielle : - les coûts changent constamment

- dépendent des variations dans la distribution des classes - à chaque changement, il faut recommencer l’apprentissage

"

les courbes ROC

L’espace ROC

La matrice de confusion peut être réduite à 2 taux indépendants de la distribution des classes :

!

TVP = VP

VP + FN = sensibilité

Taux de vrais positifs :

Taux de faux positifs :

!

TFP = FP

FP + VN =1 " spécificité

Le système de coordonnées ROC :

- visualise le TVP (ordonnée) en fonction du TFP (abscisse)

- permet d’identifier les modèles qui seront meilleurs que les autres

pour un problème donné, qqs le changement des coûts de misclassification

(8)

L’espace ROC

TVP : sensibilit

é

TFP: 1-spécificité

0

1

0.5

S

₁

0.5 1

S

₂

S

₃

Un classificateur = un point (TFP, TVP)

# (0,1) : classificateur idéal,

# (0,0) : prédit systématiquement la classe négative,

# (1,1) : prédit systématiquement la classe positive,

#(x,x) : chaque hausse du TVP s’accompagne d’une hausse du TFP,

Règle du Nord-Ouest : intuitivement, un point (classificateur) dans l’espace ROC est meilleur qu’un autre s’il est au Nord-Ouest de celui-ci :

TVP plus élevé et TFP plus bas

Les courbes ROC

- Pour construire une courbe ROC :

Il faut un classificateur à sorties continues

(ex. probabilité a posteriori d’appartenance à la classe positive)

- Chaque instance est représenté par un point (TFP,TVP) sur la courbe

- La courbe ROC visualise les divers compromis TVP/TFP possibles avec un modèle donné

- Varier un seuil de décision pour une distribution particulière

sensibilit

é

1-spécificité

(9)

Modèles dominants

Modèle dominant = modèle dont la courbe est « au-dessus » de toutes Les autres courbes dans l’espace ROC pour un problème.

A (resp. B, C) est meilleur que D parce qu’il le domine sur tout l’espace de performances.

Entre A et C, aucun ne domine l’autre.

L’un sera meilleur que l’autre dans certaines conditions et vice-versa.

D C

B

A

sensibilit

é

1-spécificité

Enveloppe convexe

L’enveloppe convexe (EC) d’un ensemble de points =

le contour du plus petit polygone convexe contenant tous les points.

Dans l’espace ROC, les classificateurs potentiellement optimaux se trouvent sur (la face Nord-Ouest de) l’EC.

D C B

A

sensibilit

é

1-spécificité

(10)

AUC : Area Under Curve

Caractérisation de chaque courbe ROC par son aire AUC

Ex.

AUC = probabilité d’identifier correctement l’image avec Anomalie quand une image avec et une image sans

Anomalie sont présentées simultanément à un observateur.

C

B

A

sensibilit

é

1-spécificité

AUC

Exemple: 3 classificateurs

Predicted neg True pos

80 20

neg

40 60

pos Predicted

neg True pos

50 50

neg

30 70

pos Predicted

neg True pos

70 30

neg

60 40

pos

Classifier 1 VP = 0.4 FP = 0.3

Classifier 2 VP = 0.7 FP = 0.5

Classifier 3

VP = 0.6

FP = 0.2

(11)

classificateur idéal

toujours negatif

toujours positif

ROC pour 3 Classificateurs

Dominance

(12)

Operating Range

La pente indique les distributions de classes et les coûts de faux classement pour lesquels le classificateur est meilleur que toujours-négatif

idem pour toujours-positif

Convex Hull

La pente indique les distributions de classes et les coûts de

faux classement pour lesquels le classificateur rouge est le

même que le bleu.

(13)

ROC Curve

When to switch from C4.5 to IB1 ? What is the performance difference ?

When to use the default classifiers ?

ROC curves for two classifiers.

How to tell if two ROC curves’ difference

is statistically significant ?

(14)

How to average them?

How to compute a confidence interval for the average ROC curve ?

ROC curves from two cross-validation runs.

Error Rate

Probability of Positive P(+) ^0.8 ^1.0

0.0 0.2 0.4 0.6

0.0 0.2 0.4 0.6 0.8

1.0 Classifier 1

VP = 0.4 FP = 0.3

Classifier 2 VP = 0.7 FP = 0.5

Classifier 3 VP = 0.6 FP = 0.2

FP FN = 1-VP

Cost Curves (1)

(15)

Cost Curves (2)

Error Rate

Probability of Positive P(+) ^0.8 ^1.0

0.0 0.2 0.4 0.6

0.0 0.2 0.4 0.6 0.8 1.0

“always negative”

“always positive”

Operating Range

Lower Envelope

Error Rate

0.0

0.2

0.4

0.6

0.8

1.0

(16)

Cost Curves

Error Rate

Probability of Positive P(+) ^0.8 ^1.0

0.0 0.2 0.4 0.6

0.0 0.2 0.4 0.6 0.8 1.0

“always negative”

“always positive”

Taking Costs Into Account

Y = FN•X + FP •(1-X)

So far, X = p(+), making Y = error rate

Y = expected cost normalized to [0,1]

X = p(+) • C(-|+)

p(+) • C(-|+) + (1-p(+)) • C(+|-)

(17)

Comparing Cost Curves

Averaging ROC Curves

(18)

Averaging Cost Curves

Cost Curve Avg. in ROC

Space

(19)

Confidence Intervals

Predicted neg True pos

60 40

neg

22 78

pos

Original VP = 0.78 FP = 0.4

Predicted neg True pos

62 38

neg

17 83

pos

Resample #2 VP = 0.83 FP = 0.38

Resample confusion matrix 10000 times and take 95% envelope Resample #1

VP = 0.75 FP = 0.45

Predicted neg True pos

55 45

neg

25 75

pos

Confidence Interval Example

(20)

ROC, C4.5 Splitting Criteria

Cost Curve, C4.5 Splitting Criteria

(21)

3 Younès BENNANI

Reconnaissance Statistique des Formes