Reconnaissance Statistique des Formes

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

Reconnaissance Statistique des Formes

2

Younès BENNANI

Exercice

µ

₁

= 1 0

!

"

# $

% , µ

₂

= 0

1 !

"

# $

% , µ

₃

= 2

2 !

"

# $

%

On considère dans l’espace 2-D un problème à 3 classes :

- Donner les expressions des fonctions de décision

- Donner les expressions des frontières entre les 3 classes

P C ( )

₁

⁼ ^{P C} ( )

2

⁼ ¹

4 , P C ( )

₃

⁼ ¹

2 = = 1 0

0 2

!

"

# $

%

&

2

&

1

^, &

3

⁼ ^! _" ^# ^{1 0} _{0 1} ^$ _%

(2)

Bayes Classifier

Hypothèse de Multi-normalité

x x x

x x

x x x x

x

o o o

o o o o

o o

l l

l

l l

l l l

l

!1

"1

!₂

"2

!3

"3

La fonction de décision est :

g

_i

( X ) = ! 1

2 (X ! µ

_i

)

^t

"

i

!1

( X ! µ

_i

) ! n

2 ln 2 [ ] # ! 1

2 ln [ ] "

i

⁺ ^ln ^[ ^P(C

ⁱ

⁾ ^]

La frontière entre les classes :

g

_ij

( X ) = g

_i

( X) ! g

_j

( X)

Bayes Classifier

Hypothèse de Multi-normalité

x x x

x x

x x x x

x

o o o

o o o o

o o

l l

l

l l

l l l

l

!1

"₁

!2

"2

!3

"3

(3)

Bayes Classifier

Hypothèse de Multi-normalité

Exercice (corrigé)

La fonction de décision pour C1:

!

₁

= !

₂

= 2, 1

2 ln !

₁

= 1

2 ln !

₂

= 1 2 ln 2

!

₃

= 1, 1

2 ln !

₃

= 0

!

1

"1

= !

2

"1

= 1 0

0

¹

2

#

$

% &

' ( , !

3

"1

= 1 0

0 1

#

$ % &

'

g₁(X)= !1 2

x₁ x₂

"

#

$ %

& ! 1 0

"

#

$ %

&

' ( )

* + ,

t 1 0

0 1/ 2

"

#

$ %

&

x₁ x₂

"

#

$ %

& ! 1 0

"

#

$ %

&

' ( )

* + , !1

2ln(2)+ln 1 4

"

# %

&

= !1

2

(

x₁!1 x₂

)

^"¹_{0 1/ 2}⁰

#

$ %

&

x₁!1 x₂

"

#

$ %

& ! 1

2ln(2)+ln 1 4

"

# %

&

= !1

x₁!1

( )

²⁺ ¹^x²²

' * ! 5

ln(2)

(4)

Les fonctions de décision :

g₂(X)= !1

2 x₁² + 1

2

(

x₂ !1

)

²

"

#

$

% ! 5 2ln(2) g₃(X)=!1

2

[ (

x₁!2

)

²⁺

(

^x2!2

)

²

]

^!^ln(2)

g₁(X)= !1

2

(

x₁!1

)

² +1 2x₂²

"

#

$

% ! 5 2ln(2)

Les frontières entre les 3 classes :

entre C1 et C2 g_{1 2}(X)=g₁(X)!g₂(X)

=x₁! x₂ 2 !1

4 =0

entre C1 et C3

entre C2 et C3

g_{1 3}(X)=g₁(X)!g₃(X)

= x₂²

4 !2x₂!x₁+ 7!3ln(2)

2 = 0

g_{2 3}(X)=g₂(X)!g₃(X)

= x₁²

4 !2x₁! x₂+ 7!3ln(2)

2 =0

Représentation graphique

-2 -1 0 1 2 3 4 5 6 7 8

-6 -4 -2 0 2 4 6 8

µ1

µ2

µ3

g_{1 2}(X)

g_{1 3}(X) g_{2 3}(X)

(5)

Notions de distances

Définir une distance entre un objet et une classe à partir de la distance entre objets (formes) :

Approche la plus simple et la plus intuitive en RdF.

Un élément appartient à une classe s'il est plus proche de cette classe que toutes les autres.

La distance dépend de la forme à traiter et des paramètres extraits.

x x x

x x

x x x x

x

oo o

o o o o

o o

+ X

Définition d’une distance

E : ensemble de points,

Espace métrique réel s'il existe une fonction : d : ExE !

!

vérifiant :

1. " (x,y) # E², x#y $ d(x,y) > 0, (séparabilité)

2. " x # E, d(x,x) = 0, (réflexivité)

3. " (x,y) # E², d(x,y)=d(y,x), (symétrie)

4. " (x,y,z) # E³, d(x,z) $ d(x,y) + d(y,z). (inégalité triangulaire)

(6)

Exemples de distances

Distance de Hamming

X =

{ }

x_i i=1Kn = x₁ x2

M x_n

!

"

#

# #

$

%

&

& Y =

{ }

yi _i=1Kn

d₁(X,Y)= x_i!y_i

i=1 n

"

d₂(X,Y)=

(

x_i! y_i

)

²

i=1 n

"

dk(X,Y)= xi!yi i=1

n

"

# k

$

% &

' (

1 k

d_!(X,Y)=max_i=1Knx_i"y_i Distance Euclidienne

Distance d^k

Distance du maximum E : ensemble de points, (X,Y) # E²

Distances entre formes et classes

Plus la distance est petite, plus on admet que la ressemblance est grande.

x x x

x x

x x x x

x

o o o

o o o o

o o

X +

C_i

Cj d (C_i, C_j)

d₂(X,Y)=

(

x_i !y_i

)

²

i=1 n

"

• La distance d entre deux classes Ci et Cj est définie par :

d (C

_i

, C

_j

) = inƒ { d X,Y ( ) ^; ^X ^!C

i

et Y !C

_j

}

d (X, Cj) d (X, C_i)

(7)

Distances binaires

• caractéristiques des formes ne sont pas mesurables.

• codage binaire : 1 % présence de l’attribut (caractère) 0 % absence de l’attribut

• Le nombre de fois où X et Y possèdent le même caractère (couples de 11)

• Le nombre de fois où X et Y ne possèdent aucun caractère commun (couples de 00)

• Le nombre de fois où X ne possède pas le caractère possédé par Y (couples de 01)

• Le nombre de fois où X possède un caractère non possédé par Y (couples de 10) a= xi.yi

i=1 n

!

b=

(

1!xi

)

i=1 n

" ⁽

¹^!^yⁱ

⁾

h=

(

1!xi

)

i=1 n

"

^.yⁱ

g= x_i. 1

(

!y_i

)

i=1 n

"

Quelques distances binaires

• Russel et Rao

• Joccard et Needham

• Dice

• Sokal et Sneath

S₁(X,Y)= a a+b+g+h S2(X,Y)= a

n!b S3(X,Y)= a

2a+g+h S4(X,Y)= a

a+2(g+h) S5(X,Y)=a+b

n S6(X,Y)= a g+h

• Sokal et Michenon

• Kulzinsky

(8)

Exemple

Caractéristiques

Rond Allongé Rouge Vert

1 0 1 0

0 1 0 1

1 0 0 1

S

²

( , )=0 et S

²

( , )=0.33

et se ressemblent plus que et

MDC: Minimum-Distance Classifier

M classes { C1,C2,..., CM }, M prototypes Y = { Y1,Y2,..., YM } dans !ⁿ on cherche à identifier la forme X.

• Attribuer un élément X à une classe Ck :

X !C

_k

" C

_k

= Arg min

C_i

d X,C (

_i

)

!

D

_i

= d X,C (

_i

) ⁼ ^d( ^X,Y

ⁱ

⁾ ⁼ [ ( ^X ^" ^Y

ⁱ

)

^t

( ^X ^" ^Y

ⁱ

) ]

¹²

^,1 ^# ⁱ ^# ^M

D

_k

= min

1!i!M

( d( X, Y

_i

) )

(9)

MDC: Minimum-Distance Classifier

• Fonction de décision pour Ci :

D

i

2

= [ ( X ! Y

_i

)

^t

( ^X ^! ^Y

i

) ]

= X

^t

X ! 2 X

^t

Y

_i

+ Y

_i^t

Y

_i

Constante

minimiser

D

_i²

!

^minimiser

!2 X

^t

Y

_i

+ Y

_i^t

Y

_i

, 1 " i " M

maximiser

c

2 X

^t

Y

_i

! Y

_i^t

Y

_i

, 1 " i " M g

_i

( X ) = X

^t

Y

_i

! 1

2 Y

_i^t

Y

_i

, 1 " i " M X #C

_i

ssi g

_i

(X) > g

_j

( X), j $ i

MDC: Minimum-Distance Classifier

• Fonction de décision linéaire :

g

_i

( X ) = X

^t

Y

_i

! 1

2 Y

_i^t

Y

_i

, 1 " i " M g

_i

( X ) = W

_i^t

X, 1 ! i ! M

X =

x

₁

x

₂

M x

_n

1 !

"

#

# #

$

%

&

W

_i

= w

_i,1

w

_{i, 2}

M w

_i,_n

w

_i_,n+1

!

"

#

# #

$

%

&

=

y

_i,1

y

_{i, 2}

M y

_i,_n

'1 2

Y

_i^t

Y

_i

!

"

#

# #

$

%

&

(10)

MDC: Minimum-Distance Classifier

• Cas Multi-prototypes :

C

_i

! Y

_i⁽¹⁾

, Y

_i^{( 2)}

, K , Y

_i⁽ⁿⁱ⁾

D

_i

= min

1!j!ni

d (X , Y

_i⁽^j⁾

)

( )

g

_i

( X ) = X

^t

Y

_i^(j⁾

! 1

2 ( Y

_i⁽^j⁾

)

^t

^Y

i

(j)

, 1 " j " n

_i

X #C

_i

ssi g

_i

(X) > g

_j

( X), j $ i

• Fonction de décision pour Ci :

MDC: Minimum-Distance Classifier Exemple

C

₁

! (1, 0), (1,1) C

₂

! (0,1), (3,1)

C

₃

! (1,2), (0, 0), ("1,1) X = (1, "1) #?

Consider a three-class problem in R² where each class is represented by its prototypes as follows:

Given the incoming pattern :

(11)

MDC: Minimum-Distance Classifier Exemple

!

g₁(X)=

(

x₁,x₂

) ( )

^1,0 ^t^"¹

2

( )

1,0

( )

^1,0 ^t⁼^x1"1 2 g₂(X)=

(

x₁,x₂

) ( )

^0,1^t^"¹₂

( )

^0,1

( )

^0,1^t⁼^x2"1

2 g₃(X)=

(

x₁,x₂

) ( )

^0,0 ^t^"¹₂

( )

^0,0

( )

^0,0 ^t⁼⁰

!

D₁=min

[

d X

(

, 1,0

( ) )

^{,d X}

(

^{, 1,1}

( ) ) ]

^"

^{( )}

^1,0

D₂=min

[

d X, 0,1

( ( ) )

^,^{d X, 3,1}

( ( ) ) ]

^"

^{( )}

^0,1

D₃=min

[

d X, 1,2

( ( ) )

^,^{d X,}

( ⁽

^#1,1

⁾ )

^{,d X}

(

^,

⁽

^#1,1

⁾ ) ]

^"

^{( )}

^0,0

!

g₁₂(X)=g₁(X)"g₂(X)=x₁"x₂=0

g₂₃(X)=g₂(X)"g₃(X)=x₂"1

2=0

g₃₁(X)=g₃(X)"g₁(X)= 1

2"x₁=0

Les fonctions de décision :

Les frontières entre les 3 classes : entre C1 et C2

entre C2 et C3

entre C3 et C1

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

N observations D = { X¹, X²,...,X^N} dans !ⁿ réparties en M classes {C1,C2,..., CM}, d(Xⁱ, X^j) est une distance entre les observations Xⁱ et X^j.

Règle du plus proche voisin (k=1) :

Xⁱ est affecté à la classe Cj si Cj est la classe de l'objet X^j, tel que : d(Xⁱ, X^j) = min _{k#i, K=1…N} d(Xⁱ, X^k), pour X^k appartenant à D.

x x x

x x

x x x x

x

oo o

o

o o o

o o

i

C_i

x

x + ^o

o o

o x

xx x

x x

C_j X^j

(12)

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

Règle des k plus proches voisins :

Xⁱ est affecté à la classe Ci si Ci est la classe la mieux représentée parmi les k voisins les plus proches de Xⁱ, tel que :

k_i= max { k₁, k₂, …, k_M } $ Xⁱ # C_i.

Avec ki = le nombre d’éléments de la classe Ciparmi les k voisins les plus proches de Xⁱ. et k1+k2+ …+ kM = k

x x x

x x

x x x x

x

oo o

o

o o o

o o

Xⁱ C_i

x

x + ^o

o o

o x

xx x

x x

C_j kj =3 ki =5

k= 8

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

Propriétés de convergence en probabilité :

la probabilité d’erreur avec la règle du plus proche voisin (PPV) converge en probabilité vers une quantité inférieure à deux fois l’erreur minimum de la décision bayésienne, mais reste supérieure ou égale à une fois cette erreur.

Err

_Bayes

! lim

_n"#

Err

_PPV

! 2 Err

_Bayes

(13)

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

Surface de séparation générée par KNN

Voronoi Net Delaunay Net

Frontière entre les 2 classes

Prototypes de la classe 1

Prototypes de la classe 2

Méthodes non paramétriques

k-Nearest Neighbour : KNN

k-plus proches voisins : KPPV

(14)

Décision et Rejet

variante (k,l)-Nearest Neighbour (k,l)-NN

Décisions avec rejet :

consiste à fixer un seuil l de décision : k/2 < l < k

et à décider que Xⁱ est affecté à la classe Ci si au moins l parmi les k voisins les plus proches de Xⁱ appartiennent à Ci.

x x x

x x

x x x x

x

o o o

o

o o o

o o

Xⁱ Ci

x

x + ^o

o o

o x

xx x

x x

Cj k_j=3 k_i=5

(k,l)= (8,5) $ Xⁱ # Ci

(k,l)= (8,6) $ Rejet

Variantes accélérées

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

KNN = méthode lente en phase de décision

nécessite le calcul de N distances dans un espace à n dimensions.

Variantes sub-optimales nécessitent moins de calcul :

• La condensation

[P.E. Hart, « The condensed Nearest Neighbor Rule » IEEE Transactions Information Theory, 14, May, 1968.]

• Le pavage

[C. Delannoy, « Un algorithme rapide de recherche de plus proches voisins » RAIRO Informatique, 14(3):275-286, 1980.]

• La hiérarchie

[J. H. Friedman, J. L. Bentley, R. A. Finkel, « An algorithm for finding best matches in logarithmic expected time », ACM Transactions on Software, 3(3), 1977]

• Le tri

[T. P. Yunk, « A technique to identify Nearest Neighbors », IEEE Transactions on Systems, Man and Cybernetics, 6:678-683, 1976]

(15)

Recherche des KNN

Méthode de projection

J.H. Friedman, F. Baskett, L.J. Shustek

« An algorithm for finding nearest neighbors »

IEE trans. Comput?, Vol. C-24, pp. 1000-1006, Oct. 1975

Méthode non-paramétrique KNN Avantages :

- pas d’hypothèse sur les distributions - simple à mettre en œuvre

- donne une probabilité d’erreur faible Inconvénients :

- temps de calcul important (recherche des knn) - place mémoire

(stockage de l’ensemble des prototypes)

Recherche des KNN

Méthode de projection : 2-dimension

Pré-traitement Étape 0 :

projeter l’ensemble des points sur un axe et trier les projections

(projection+trie une seule fois pour l’ensemble des données) O(NlogN)

Recherche des knn Étape 1 :

localiser la projection du point test sur l’axe de projection

(recherche dichotomique O(logN)) Étape 2 :

trouver les 2 plus proches projections

(une de chaque coté)de la projection du point test Étape 3 :

calculer la distance (en dimension complète) entre les 2 prototypes et le point test

choisir le prototype minimisant cette distance : r_d

(16)

Recherche des KNN

Méthode de projection : 2-dimension

Étape 4 :

déterminer les limites de la recherche - borne #1=projection du test+r_d - borne #2=projection du test -r_d Étape 5 :

calculer et sauvegarder en mémoire les distances entre le test et les prototypes à l’intérieur des deux bornes

Étape 6 :

trouver le prototype minimisant la distance par rapport au test = le plus proche voisin

Pour la recherche des knn (k>1) Étape 7 :

supprimer le ppv (trouvé à l’étape 6) de la liste des prototypes à l’intérieur des bornes

répeter k fois de l’étape 1 à l’étape 7 Si k>1, les bornes sont recalculées à chaque itération.

Recherche des KNN

Méthode de projection : d-dimension

Comment trouver le meilleur axe de projection ?

(17)

Maximum coordinate ! distance

2 Euclidian

1 Manhattan

n p

Metric

Recherche des KNN

Méthode de projection : d-dimension

Étape 0.1 :

projeter l’ensemble des points sur les d axes et trier les projections

Étape 0.2 :

estimer le nombre n de distances à calculer dans le cas d’une distribution uniforme (worst case)

!

( )

kd!^1/d^N¹^"(1/d⁾

!

" kd d 2#1

$

% & ' ( ) !

$

% & '

( )

1/d

(

2N

)

^1#(1/^d⁾

!

k^1/dN^1"(1/d⁾

K: le nombre des ppv, d: la dimension, N: le nombre de prototypes

Recherche des KNN

Méthode de projection : d-dimension

Étape 1 :

localiser la projection du test sur chaque axe Étape 2 :

trouver la position du (n/2)ème prototype de chaque coté du test

Étape 3 :

calculer la distance S entre ces 2 prototypes Étape 4 :

calculer la projection de la densité locale D au voisinage du point test (local projected density) :

Étape 5 :

sélectionner l’axe minimisant D et l’utiliser pour la recherche des knn (méthode 2-dimension)!

D=n/S

(18)

Nettoyage (editing) de l’ensemble d’apprentissage

Début

diviser aléatoirement l’ensemble d’apprentissage en deux sous-ensembles S₁ et S₂

tant que la stabilisation de S₁ et S₂ n’est pas réalisée faire

1-classer tous les points de S₁ sur S₂par la règle du 1-ppv 2-éliminer de S₁ tous les points dont la classe n’est pas la même que celle de leur plus proche voisin dans S₂

3-classer tous les points de S₂ sur le nouveau S₁par la règle du 1-ppv 4-éliminer de S₂ tous les points dont la classe n’est pas la même que celle de leur plus proche voisin dans S₁

fin tant que

L’ensemble d’apprentissage nettoyé est composé de S₁& S₂ fin.

Condensation (condensing) de l’ensemble d’apprentissage

Début

ordonner les m exemples d’apprentissage de x₁ à x_m initialiser S par x₁ et G par x₂ à x_m

tant que S et G ne sont pas stabilisés faire pour

chaque point g_ide G faire

si le 1-ppv de g_idans S n’a pas la même classe que g_ialors enlever g_ide G et le mettre dans S

fin si fin pour

fin tant que

L’ensemble d’apprentissage condensé est S fin.

(19)

Exercice

C

₁

! (0,3), (0, 2), (0,1), (0, 0), ("1,0), ("2, 0) C

₂

! (1,3), (1,1),(1,0), (0, "1)

X = (1,4) #? avec 1 " NN, 3 " NN et 5 " NN

Reconnaissance Statistique des Formes