Université Paris 13/Younès Bennani Reconnaissance des Formes 1
Reconnaissance Statistique des Formes
3 Younès BENNANI
Rappel
Classificateur :.
X =
x
1x
2M
x
n!
"
#
# #
$
%
&
&
&
Max P C ( ) i / X ou
Min d X, ( ) C i
Espace des formes Espace des décisions
!
1"
1x x x
x x
x x x x
x
!
2"
2o o o
o o o o
o o
o o
C
iC
jx x x
x x
x x x x
x
o o o
o
o o o
o o
o o
X
ix
x
x + o
o o
o o
o o
o x
x x x x
x
Université Paris 13/Younès Bennani Reconnaissance des Formes 3
Exercice : MDC ( Minimum-Distance Classifier ) Corrigé
C 1 ! (1, 0), (1,1) C 2 ! (0,1), (3,1)
C 3 ! (1,2), (0, 0), ("1,1) X = (1,"1) #?
! X "C 1
Les frontières entre les classes : Les fonctions de décision sont :
g
1( X) = x
1! 1 2 g
2(X) = x
2! 1
2 g
3( X) = 0
g
1 2( X) = g
1(X) ! g
2(X ) = x
1! x
2= 0 g
2 3( X) = g
2(X ) ! g
3( X ) = x
2! 1
2 = 0 g
3 1( X) = g
3(X ) ! g
1(X ) = 1
2 ! x
1= 0 g
1( X) = 1
2 , g
2(X) = ! 3
2 , g
3( X ) = 0
Université Paris 13/Younès Bennani Reconnaissance des Formes 4
Exercice : K-NN
C 1 ! (0,3), (0, 2), (0,1), (0, 0), ("1,0), ("2, 0) C 2 ! (1,3), (1,1),(1,0), (0, "1)
X = (1,4) #? avec 1 " NN, 3 " NN et 5 " NN
Université Paris 13/Younès Bennani Reconnaissance des Formes 5
Exercice (Corrigé)
C
1g
1(X) C
2g
2(X)
(0, 3) 7.5 (1,3) 8
(0, 2) 6 (1,1) 4
(0,1) 3.5 (1,0) 0.5
(0, 0) 0 (0, !1) ! 4.5
(!1,0) ! 1.5 (!2, 0) ! 4 X = (1,4)
g
i( X ) = X
tY
i! 1
2 Y
itY
i, 1 " i " M La fonction de décision est :
1-NN 3-NN 3-NN
3-NN 5-NN
5-NN
5-NN 5-NN 5-NN
5-NN => C1
3-NN => C
11-NN => C
2x
1x
2Exercice (Corrigé)
g
i(X ) = X
tY
i! 1
2 Y
itY
i, 1 " i " M
La frontière entre les classes : g
ij(X ) = g
i( X) ! g
j( X) = 0 La fonction de décision est :
g
1(X ) = ( x
1x
2) ! 0 3
"
# $
% & 1
2 ( 0 3 ) 0
3
!
"
# $
% = 3x
2& 9 2 g
2( X) = ( x
1x
2) 1
3
!
"
# $
% & 1
2 ( 1 3 ) 1
3
!
"
# $
% = x
1+ 3x
2& 5
g
1 2( X) = g
1( X) ! g
2(X ) = 3x
2! 9
2 ! x
1! 3x
2+ 5
= !x
1+ 1
2 = 0 1
X = (1,4)
x
1= 1 2
x
1x
2Université Paris 13/Younès Bennani Reconnaissance des Formes 7
Mesures de performances
Matrice de confusion permet de voir la répartition des classements correctes et incorrectes :
!
C
1C
2K C
jK C
cC
1n
1,1n
1,2K n
1,jK n
1,cC
2n
2,1n
2,2K n
2,jK n
2,cM
C
iM M M n
i,jM M M
C
cn
c,1K K K K n
c,c"
#
$
$
$
$
$
$
$
$ $
%
&
' ' ' ' ' ' ' ' '
Classe pr é dite par le classificateur
Classe réelle
n
j,j : Nombre d’exemples de la vraie classe j qui ont été classés en in
j,i : Nombre de classements Correctes de la classe iTaux de bien classés (accuracy) : Taux d’erreur :
!
TBC =
Nb.exemples1n
i,i i=1c
"
!
TE = 1" TBC
Université Paris 13/Younès Bennani Reconnaissance des Formes 8
Mesures de performances
Mesures de performance alternatives
Classes très déséquilibrées : le TBC peu utile
! utiliser la moyenne géométrique des TBC des différentes classes :
!
MG
TBC= n
i,ic
i"
# $ %
&
'
i=1 c
(
Classement binaire :
Classe pr é dite
Classe réelle
VN (vrais nég.) FN
(faux nég.) R-
(Prédite négative)
FP (faux pos.) VP
(Vrais pos.) R+
(Prédite positive)
C-
(Classe négative)C+
(Classe positive)
Université Paris 13/Younès Bennani Reconnaissance des Formes 9
Mesures de performances
sains pathologiques
Valeur de l’indice
Indice positif
Indice négatif
Seuil de décision
Faux négatifs FN Faux positifs
FP
Vrais positifs VP
Vrais négatifsVN
Mesures de performances
!
TVP = VP
VP + FN = sensibilité
Taux de vrais positifs :
Taux de vrais négatifs :
Taux de faux positifs :
Taux de faux négatifs :
Valeur prédictive positive (précision) :
Valeur prédictive négative :
!
TVN = VN
VN + FP = spécificité
!
TFP = FP
FP + VN =1 " TVN
!
TFN = FN
FN + VP = 1" TVP
!
VPP = VP VP + FP VPN = VN
VN + FN
!
exactitude = VP + VN
VP + VN + FP + FN
Université Paris 13/Younès Bennani Reconnaissance des Formes 11
Mesures de performances
Le taux d’erreur comme mesure de performance pose problème car il suppose que :
- la distribution des classes est équilibrée et statique - toutes les erreurs ont même coût
Solutions proposées :
- coût de misclassification
- les courbes ROC(Receiver Operating Characteristic)
Receiver : du récepteur (observateur)
Operating : pour n’importe quel point d’opération Characteristic : caractéristiques de détection de l’indice
Université Paris 13/Younès Bennani Reconnaissance des Formes 12
Coût de misclassification
Le taux d’erreur : critère inadéquat lorsque les différents types d’erreurs n’ont pas le même coût :
Ex. Churn :
- coût (FP) = prix d’un cadeau offert - coût (FN) = perte d’un client
VN FN R-
FP VP R+
C- C+
Err
0 C(FN) R-
C(FP) 0
R+
C- coût C+
Le coût total de misclassification :
!
Coût
Misc= FN * c(FN ) + FP * c(FP)
Université Paris 13/Younès Bennani Reconnaissance des Formes 13
Inconvénients
- Pour construire un classificateur qui minimise le coût, il faut intégrer les coûts (empiriques)
- L’intégration des coûts n’est que partielle : - les coûts changent constamment
- dépendent des variations dans la distribution des classes - à chaque changement, il faut recommencer l’apprentissage
"
les courbes ROC
L’espace ROC
La matrice de confusion peut être réduite à 2 taux indépendants de la distribution des classes :
!
TVP = VP
VP + FN = sensibilité
Taux de vrais positifs :
Taux de faux positifs :
!
TFP = FP
FP + VN =1 " spécificité
Le système de coordonnées ROC :
- visualise le TVP (ordonnée) en fonction du TFP (abscisse)
- permet d’identifier les modèles qui seront meilleurs que les autres
pour un problème donné, qqs le changement des coûts de misclassification
Université Paris 13/Younès Bennani Reconnaissance des Formes 15
L’espace ROC
TVP : sensibilit
é
TFP: 1-spécificité
01
0.5
S
10.5 1
S
2S
3Un classificateur = un point (TFP, TVP)
# (0,1) : classificateur idéal,
# (0,0) : prédit systématiquement la classe négative,
# (1,1) : prédit systématiquement la classe positive,
#(x,x) : chaque hausse du TVP s’accompagne d’une hausse du TFP,
Règle du Nord-Ouest : intuitivement, un point (classificateur) dans l’espace ROC est meilleur qu’un autre s’il est au Nord-Ouest de celui-ci :
TVP plus élevé et TFP plus bas
Université Paris 13/Younès Bennani Reconnaissance des Formes 16
Les courbes ROC
- Pour construire une courbe ROC :
Il faut un classificateur à sorties continues
(ex. probabilité a posteriori d’appartenance à la classe positive)
- Chaque instance est représenté par un point (TFP,TVP) sur la courbe
- La courbe ROC visualise les divers compromis TVP/TFP possibles avec un modèle donné
- Varier un seuil de décision pour une distribution particulière
sensibilit
é
1-spécificité
Université Paris 13/Younès Bennani Reconnaissance des Formes 17
Modèles dominants
Modèle dominant = modèle dont la courbe est « au-dessus » de toutes Les autres courbes dans l’espace ROC pour un problème.
A (resp. B, C) est meilleur que D parce qu’il le domine sur tout l’espace de performances.
Entre A et C, aucun ne domine l’autre.
L’un sera meilleur que l’autre dans certaines conditions et vice-versa.
D C
B
A
sensibilit
é
1-spécificité
Enveloppe convexe
L’enveloppe convexe (EC) d’un ensemble de points =
le contour du plus petit polygone convexe contenant tous les points.
Dans l’espace ROC, les classificateurs potentiellement optimaux se trouvent sur (la face Nord-Ouest de) l’EC.
D C B
A
sensibilit
é
1-spécificité
Université Paris 13/Younès Bennani Reconnaissance des Formes 19
AUC : Area Under Curve
Caractérisation de chaque courbe ROC par son aire AUC
Ex.
AUC = probabilité d’identifier correctement l’image avec Anomalie quand une image avec et une image sans
Anomalie sont présentées simultanément à un observateur.
C
B
A
sensibilit
é
1-spécificité
AUC
Université Paris 13/Younès Bennani Reconnaissance des Formes 20
Exemple: 3 classificateurs
Predicted neg True pos
80 20
neg
40 60
pos Predicted
neg True pos
50 50
neg
30 70
pos Predicted
neg True pos
70 30
neg
60 40
pos
Classifier 1 VP = 0.4 FP = 0.3
Classifier 2 VP = 0.7 FP = 0.5
Classifier 3
VP = 0.6
FP = 0.2
Université Paris 13/Younès Bennani Reconnaissance des Formes 21
classificateur idéal
toujours negatif
toujours positif
ROC pour 3 Classificateurs
Dominance
Université Paris 13/Younès Bennani Reconnaissance des Formes 23
Operating Range
La pente indique les distributions de classes et les coûts de faux classement pour lesquels le classificateur est meilleur que toujours-négatif
idem pour toujours-positif
Université Paris 13/Younès Bennani Reconnaissance des Formes 24
Convex Hull
La pente indique les distributions de classes et les coûts de
faux classement pour lesquels le classificateur rouge est le
même que le bleu.
Université Paris 13/Younès Bennani Reconnaissance des Formes 25
ROC Curve
When to switch from C4.5 to IB1 ? What is the performance difference ?
When to use the default classifiers ?
ROC curves for two classifiers.
How to tell if two ROC curves’ difference
is statistically significant ?
Université Paris 13/Younès Bennani Reconnaissance des Formes 27
How to average them?
How to compute a confidence interval for the average ROC curve ?
ROC curves from two cross-validation runs.
Université Paris 13/Younès Bennani Reconnaissance des Formes 28
Error Rate
Probability of Positive P(+) 0.8 1.0
0.0 0.2 0.4 0.6
0.0 0.2 0.4 0.6 0.8
1.0 Classifier 1
VP = 0.4 FP = 0.3
Classifier 2 VP = 0.7 FP = 0.5
Classifier 3 VP = 0.6 FP = 0.2
FP FN = 1-VP
Cost Curves (1)
Université Paris 13/Younès Bennani Reconnaissance des Formes 29
Cost Curves (2)
Error Rate
Probability of Positive P(+) 0.8 1.0
0.0 0.2 0.4 0.6
0.0 0.2 0.4 0.6 0.8 1.0
“always negative”
“always positive”
Operating Range
Lower Envelope
Error Rate
0.0
0.2
0.4
0.6
0.8
1.0
Université Paris 13/Younès Bennani Reconnaissance des Formes 31
Cost Curves
Error Rate
Probability of Positive P(+) 0.8 1.0
0.0 0.2 0.4 0.6
0.0 0.2 0.4 0.6 0.8 1.0
“always negative”
“always positive”
Université Paris 13/Younès Bennani Reconnaissance des Formes 32
Taking Costs Into Account
Y = FN•X + FP •(1-X)
So far, X = p(+), making Y = error rate
Y = expected cost normalized to [0,1]
X = p(+) • C(-|+)
p(+) • C(-|+) + (1-p(+)) • C(+|-)
Université Paris 13/Younès Bennani Reconnaissance des Formes 33
Comparing Cost Curves
Averaging ROC Curves
Université Paris 13/Younès Bennani Reconnaissance des Formes 35
Averaging Cost Curves
Université Paris 13/Younès Bennani Reconnaissance des Formes 36
Cost Curve Avg. in ROC
Space
Université Paris 13/Younès Bennani Reconnaissance des Formes 37
Confidence Intervals
Predicted neg True pos
60 40
neg
22 78
pos
Original VP = 0.78 FP = 0.4
Predicted neg True pos
62 38
neg
17 83
pos
Resample #2 VP = 0.83 FP = 0.38
Resample confusion matrix 10000 times and take 95% envelope Resample #1
VP = 0.75 FP = 0.45
Predicted neg True pos
55 45
neg
25 75
pos
Confidence Interval Example
Université Paris 13/Younès Bennani Reconnaissance des Formes 39
ROC, C4.5 Splitting Criteria
Université Paris 13/Younès Bennani Reconnaissance des Formes 40
Cost Curve, C4.5 Splitting Criteria
Université Paris 13/Younès Bennani Reconnaissance des Formes 41