Informatique des

(1)

Université Paris 13/Younès Bennani Traitement Informatique des Données 1

2

Younès BENNANI

ILOG 3

Traitement

Informatique des

Données

(2)

Bayes Classifier

Hypothèse de Multi-normalité

x x x

x x

x x x x

x

oo o

o oo o

o o

l l

l

l l

l l l

l

!1

"₁

!2

"2

!3

"₃

La fonction de décision est :

g

_i

( X ) = ! 1

2 ( X ! µ

_i

)

^t

"

i

!1

(X ! µ

_i

) ! n

2 ln 2 [ ] # ! 1

2 ln [ ] "

i

⁺ ^ln ^[ ^P(C

ⁱ

⁾ ^]

La frontière entre les classes :

g

_ij

(X ) = g

_i

( X) ! g

_j

( X)

Bayes Classifier

Hypothèse de Multi-normalité

(3)

Notions de distances

Définir une distance entre un objet et une classe à partir de la distance entre objets (formes) :

Approche la plus simple et la plus intuitive en RdF.

Un élément appartient à une classe s'il est plus proche de cette classe que toutes les autres.

La distance dépend de la forme à traiter et des paramètres extraits.

x x x

x x

x x x x

x

oo o

o o o o

o o

+ X

Définition d’une distance

E : ensemble de points,

Espace métrique réel s'il existe une fonction : d : ExE !

!

vérifiant :

1. " (x,y) # E², x#y $ d(x,y) > 0, (séparabilité)

2. " x # E, d(x,x) = 0, (réflexivité)

3. " (x,y) # E², d(x,y)=d(y,x), (symétrie)

4. " (x,y,z) # E³, d(x,z) $ d(x,y) + d(y,z). (inégalité triangulaire)

(4)

Exemples de distances

Distance de Hamming

X =

{ }

x_i i=1Kn = x₁ x2

M x_n

!

"

#

# #

$

%

&

& Y =

{ }

yi _i=1Kn

d₁(X,Y)= x_i!y_i

i=1 n

"

d₂(X,Y)=

(

x_i! y_i

)

²

i=1 n

"

dk(X,Y)= xi!yi i=1

n

"

# k

$

% &

' (

1 k

d_!(X,Y)=max_i=1Knx_i"y_i Distance Euclidienne

Distance d^k

Distance du maximum E : ensemble de points, (X,Y) # E²

Distances entre formes et classes

Plus la distance est petite, plus on admet que la ressemblance est grande.

x x x

x x

x x x x

x

o o o

o o o o

o o

X +

C_i

Cj d (C_i, C_j)

d₂(X,Y)=

(

x_i !y_i

)

²

i=1 n

"

• La distance d entre deux classes Ci et Cj est définie par :

d (C

_i

, C

_j

) = inƒ { d X,Y ( ) ^; ^X ^!C

i

et Y !C

_j

}

d (X, Cj) d (X, C_i)

(5)

Distances binaires

• caractéristiques des formes ne sont pas mesurables.

• codage binaire : 1 % présence de l’attribut (caractère) 0 % absence de l’attribut

• Le nombre de fois où X et Y possèdent le même caractère (couples de 11)

• Le nombre de fois où X et Y ne possèdent aucun caractère commun (couples de 00)

• Le nombre de fois où X ne possède pas le caractère possédé par Y (couples de 01)

• Le nombre de fois où X possède un caractère non possédé par Y (couples de 10) a= xi.yi

i=1 n

!

b=

(

1!xi

)

i=1 n

" ⁽

¹^!^yⁱ

⁾

h=

(

1!xi

)

i=1 n

"

^.yⁱ

g= x_i. 1

(

!y_i

)

i=1 n

"

Quelques distances binaires

• Russel et Rao

• Joccard et Needham

• Dice

• Sokal et Sneath

S₁(X,Y)= a a+b+g+h S2(X,Y)= a

n!b S3(X,Y)= a

2a+g+h S4(X,Y)= a

a+2(g+h) S5(X,Y)=a+b

n S6(X,Y)= a g+h

• Sokal et Michenon

• Kulzinsky

(6)

Exemple

Caractéristiques

Rond Allongé Rouge Vert

1 0 1 0

0 1 0 1

1 0 0 1

S

²

( , )=0 et S

²

( , )=0.33

et se ressemblent plus que et

MDC: Minimum-Distance Classifier

M classes { C1,C2,..., CM }, M prototypes Y = { Y1,Y2,..., YM } dans !ⁿ on cherche à identifier la forme X.

• Attribuer un élément X à une classe Ck :

X !C

_k

" C

_k

= Arg min

C_i

d X,C (

_i

)

!

D

_i

= d X,C (

_i

) ⁼ ^d( ^X,Y

ⁱ

⁾ ⁼ [ ( ^X ^" ^Y

ⁱ

)

^t

( ^X ^" ^Y

ⁱ

) ]

¹²

^,1 ^# ⁱ ^# ^M

D

_k

= min

1!i!M

( d( X, Y

_i

) )

x x x

x x

x x x x

!

o o o

o oo o

o o

l l

l

l l

l l l

l

Y₁

Y3

Y2

!

(7)

MDC: Minimum-Distance Classifier

• Fonction de décision pour Ci :

D

i

2

= [ ( X ! Y

_i

)

^t

( ^X ^! ^Y

i

) ]

= X

^t

X ! 2 X

^t

Y

_i

+ Y

_i^t

Y

_i

Constante

minimiser

D

_i²

!

^minimiser

!2 X

^t

Y

_i

+ Y

_i^t

Y

_i

, 1 " i " M

maximiser

c

2 X

^t

Y

_i

! Y

_i^t

Y

_i

, 1 " i " M g

_i

( X ) = X

^t

Y

_i

! 1

2 Y

_i^t

Y

_i

, 1 " i " M X #C

_i

ssi g

_i

(X) > g

_j

( X), j $ i

MDC: Minimum-Distance Classifier

• Fonction de décision linéaire :

g

_i

( X ) = X

^t

Y

_i

! 1

2 Y

_i^t

Y

_i

, 1 " i " M g

_i

( X ) = W

_i^t

X, 1 ! i ! M

X =

x

₁

x

₂

M x

_n

1 !

"

#

# #

$

%

&

W

_i

= w

_i,1

w

_{i, 2}

M w

_i,_n

w

_i_,n+1

!

"

#

# #

$

%

&

=

y

_i,1

y

_{i, 2}

M y

_i,_n

'1 2

Y

_i^t

Y

_i

!

"

#

# #

$

%

&

(8)

MDC: Minimum-Distance Classifier

• Cas Multi-prototypes :

C

_i

! Y

_i⁽¹⁾

, Y

_i^{( 2)}

, K , Y

_i⁽ⁿⁱ⁾

D

_i

= min

1!j!ni

d ( X , Y

_i⁽^j⁾

)

( )

g

_i

( X ) = X

^t

Y

_i^(j⁾

! 1

2 ( Y

_i⁽^j⁾

)

^t

^Y

i

(j)

, 1 " j " n

_i

X #C

_i

ssi g

_i

(X) > g

_j

( X), j $ i

• Fonction de décision pour Ci :

x x x

x x

x x x x

!

o o o

o o o o

o o

l l

l

l l

l l l

l

!

! !

!

Y₁⁽¹⁾,Y₁^{( 2)},Y₁⁽³⁾,Y₁^{( 4 )}

!

Y₂⁽¹⁾,Y₂^{( 2)},Y₂⁽³⁾

!

Y₃⁽¹⁾,Y₃^{( 2)}

MDC: Minimum-Distance Classifier Exemple

C

₁

! (1, 0), (1,1) C

₂

! (0,1), (3,1)

C

₃

! (1,2), (0, 0), ("1,1) X = (1, "1) #?

Consider a three-class problem in R² where each class is represented by its prototypes as follows:

Given the incoming pattern :

(9)

MDC: Minimum-Distance Classifier Exemple

!

g₁(X)=

(

x₁,x₂

) ( )

^1,0 ^t^"¹₂

( )

^1,0

( )

^1,0 ^t⁼^x¹^"¹₂

g₂(X)=

(

x₁,x₂

) ( )

^0,1^t^"¹₂

( )

^0,1

( )

^0,1^t⁼^x2"1 2 g₃(X)=

(

x₁,x₂

) ( )

^0,0 ^t^"¹₂

( )

^0,0

( )

^0,0 ^t⁼⁰

!

D₁=min

[

d X

(

, 1,0

( ) )

^{,d X}

(

^{, 1,1}

^{( )} ) ]

^"

^{( )}

^1,0

D₂=min

[

d X, 0,1

( ( ) )

^,^{d X, 3,1}

( ( ) ) ]

^"

^{( )}

^0,1

D₃=min

[

d X, 1,2

( ( ) )

^,^{d X,}

( (

^#1,1

) )

^{,d X}

(

^,

(

^#1,1

) ) ]

^"

^{( )}

^0,0

!

g₁₂(X)=g₁(X)"g₂(X)=x₁"x₂=0

g₂₃(X)=g₂(X)"g₃(X)= x₂"1

2=0

g₃₁(X)=g₃(X)"g₁(X)=1

2"x₁=0

Les fonctions de décision :

Les frontières entre les 3 classes : entre C1 et C2

entre C2 et C3

entre C3 et C1

! X "C

₁

g₁(X)=1

2, g₂(X)=!3

2, g₃(X)=0

C₁ ! (1, 0), (1,1) C₂ ! (0,1), (3,1) C₃ ! (1,2), (0, 0), ("1,1) X=(1,"1)#?

g_ij(X)=g_i(X)!g_j(X)=0

!

X=(1,"1)

x₁= 1 2

x₁ x₂

MDC: Minimum-Distance Classifier Exemple

!

g₁₂(X)=g₁(X)"g₂(X)=x₁"x₂=0 g₂₃(X)=g₂(X)"g₃(X)=x₂"1

2=0 g₃₁(X)=g₃(X)"g₁(X)=1

2"x₁=0

entre C1 et C2

entre C2 et C3

entre C3 et C1

! (1,0)

! (1,1)

! (1,2)

! (0,0)

! ("1,1)

! (3,1)

! (0,1)

!

x₂=1 2

!

x₁=x₂

entre C1 et C2

entre C2 et C3

entre C3 et C1

(10)

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

N observations D = { X¹, X²,...,X^N} dans !ⁿ réparties en M classes {C1,C2,..., CM}, d(Xⁱ, X^j) est une distance entre les observations Xⁱ et X^j.

Règle du plus proche voisin (k=1) :

Xⁱ est affecté à la classe Cj si Cj est la classe de l'objet X^j, tel que : d(Xⁱ, X^j) = min _{k#i, K=1…N} d(Xⁱ, X^k), pour X^k appartenant à D.

x x x

x x

x x x x

x

oo o

o

o o o

o o

Xⁱ C_i

x

x + ^o

o o

o x

xx x

x x

C_j X^j

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

Règle des k plus proches voisins :

Xⁱ est affecté à la classe C_i si C_i est la classe la mieux représentée parmi les k voisins les plus proches de Xⁱ, tel que :

k_i= max { k₁, k₂, …, k_M}$ Xⁱ# C_i.

Avec k_i= le nombre d’éléments de la classe C_iparmi les k voisins les plus proches de Xⁱ. et k1+k2+ …+ kM = k

x x x

x x

x x x x

x

oo o

o

o o o

o o

Xⁱ C_i

x

x + ^o

o o

o x

xx x

x x

C_j kj =3 ki =5

k= 8

(11)

Algorithme des KNN

Err

_Bayes

! lim

_n"#

Err

_PPV

! 2 Err

_Bayes

Début

on cherche à classer le point y

Pour chaque exemple (x,C(x)) de l’ensemble d’apprentissage faire

Calculer la distance d(x,y) entre x et y Fin pour

Dans les k points proches de y

compter le nombre d’occurrences de chaque classe

Attribuer à y la classe qui apparaît le plus souvent Fin.

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

Propriétés de convergence en probabilité :

la probabilité d’erreur avec la règle du plus proche voisin (PPV) converge en probabilité vers une quantité inférieure à deux fois l’erreur minimum de la décision bayésienne, mais reste supérieure ou égale à une fois cette erreur.

Err

_Bayes

! lim

_n"#

Err

_PPV

! 2 Err

_Bayes

Considérations pratiques (heuristique) :

choisir k autour de où est le nombre moyen de points d’apprentissage par classe.

m C m

C

(12)

Méthodes non paramétriques

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

Surface de séparation générée par KNN

Voronoi Net Delaunay Net

Frontière entre les 2 classes

Prototypes de la classe 1

Prototypes de la classe 2

Méthodes non paramétriques

k-Nearest Neighbour : KNN

k-plus proches voisins : KPPV

(13)

Décision et Rejet

variante (k,l)-Nearest Neighbour (k,l)-NN

Décisions avec rejet :

consiste à fixer un seuil l de décision : k/2 < l < k

et à décider que Xⁱ est affecté à la classe Ci si au moins l parmi les k voisins les plus proches de Xⁱ appartiennent à Ci.

x x x

x x

x x x x

x

o o o

o

o o o

o o

Xⁱ Ci

x

x + ^o

o o

o x

xx x

x x

Cj k_j=3 k_i=5

(k,l)= (8,5) $ Xⁱ # Ci

(k,l)= (8,6) $ Rejet

Variantes accélérées

k-Nearest Neighbour : KNN k-plus proches voisins : KPPV

KNN = méthode lente en phase de décision

nécessite le calcul de N distances dans un espace à n dimensions.

Variantes sub-optimales nécessitent moins de calcul :

• La condensation

[P.E. Hart, « The condensed Nearest Neighbor Rule » IEEE Transactions Information Theory, 14, May, 1968.]

• Le pavage

[C. Delannoy, « Un algorithme rapide de recherche de plus proches voisins » RAIRO Informatique, 14(3):275-286, 1980.]

• La hiérarchie

[J. H. Friedman, J. L. Bentley, R. A. Finkel, « An algorithm for finding best matches in logarithmic expected time », ACM Transactions on Software, 3(3), 1977]

• Le tri

[T. P. Yunk, « A technique to identify Nearest Neighbors », IEEE Transactions on Systems, Man and Cybernetics, 6:678-683, 1976]

(14)

Recherche des KNN

Méthode de projection

J.H. Friedman, F. Baskett, L.J. Shustek

« An algorithm for finding nearest neighbors »

IEE trans. Comput?, Vol. C-24, pp. 1000-1006, Oct. 1975

Méthode non-paramétrique KNN Avantages :

- pas d’hypothèse sur les distributions - simple à mettre en œuvre

- donne une probabilité d’erreur faible Inconvénients :

- temps de calcul important (recherche des knn) - place mémoire

(stockage de l’ensemble des prototypes)

Recherche des KNN

Méthode de projection : 2-dimension

Pré-traitement Étape 0 :

projeter l’ensemble des points sur un axe et trier les projections

(projection+trie une seule fois pour l’ensemble des données) O(NlogN)

Recherche des knn Étape 1 :

localiser la projection du point test sur l’axe de projection

(recherche dichotomique O(logN)) Étape 2 :

trouver les 2 plus proches projections

(une de chaque coté)de la projection du point test Étape 3 :

calculer la distance (en dimension complète) entre les 2 prototypes et le point test

choisir le prototype minimisant cette distance : r_d

(15)

Recherche des KNN

Méthode de projection : 2-dimension

Étape 4 :

déterminer les limites de la recherche - borne #1=projection du test+r_d - borne #2=projection du test -r_d Étape 5 :

calculer et sauvegarder en mémoire les distances entre le test et les prototypes à l’intérieur des deux bornes

Étape 6 :

trouver le prototype minimisant la distance par rapport au test = le plus proche voisin

Pour la recherche des knn (k>1) Étape 7 :

supprimer le ppv (trouvé à l’étape 6) de la liste des prototypes à l’intérieur des bornes

répeter k fois de l’étape 1 à l’étape 7 Si k>1, les bornes sont recalculées à chaque itération.

Recherche des KNN

Méthode de projection : d-dimension

Comment trouver le meilleur axe de projection ?

(16)

Maximum coordinate ! distance

2 Euclidian

1 Manhattan

n p

Metric

Recherche des KNN

Méthode de projection : d-dimension

Étape 0.1 :

projeter l’ensemble des points sur les d axes et trier les projections

Étape 0.2 :

estimer le nombre n de distances à calculer dans le cas d’une distribution uniforme (worst case)

!

( )

kd!^1/d^N¹^"(1/d⁾

!

" kd d 2#1

$

% & ' ( ) !

$

% & '

( )

1/d

(

2N

)

^1#(1/^d⁾

!

k^1/dN^1"(1/d⁾

K: le nombre des ppv, d: la dimension, N: le nombre de prototypes

Recherche des KNN

Méthode de projection : d-dimension

Étape 1 :

localiser la projection du test sur chaque axe Étape 2 :

trouver la position du (n/2)ème prototype de chaque coté du test

Étape 3 :

calculer la distance S entre ces 2 prototypes Étape 4 :

calculer la projection de la densité locale D au voisinage du point test (local projected density) :

Étape 5 :

sélectionner l’axe minimisant D et l’utiliser pour la recherche des knn (méthode 2-dimension)!

D=n/S

(17)

Nettoyage (editing) de l’ensemble d’apprentissage

Début

diviser aléatoirement l’ensemble d’apprentissage en deux sous-ensembles S₁ et S₂

tant que la stabilisation de S₁ et S₂ n’est pas réalisée faire

1-classer tous les points de S₁ sur S₂par la règle du 1-ppv 2-éliminer de S₁ tous les points dont la classe n’est pas la même que celle de leur plus proche voisin dans S₂

3-classer tous les points de S₂ sur le nouveau S₁par la règle du 1-ppv 4-éliminer de S₂ tous les points dont la classe n’est pas la même que celle de leur plus proche voisin dans S₁

fin tant que

L’ensemble d’apprentissage nettoyé est composé de S₁& S₂ fin.

Condensation (condensing) de l’ensemble d’apprentissage

Début

ordonner les m exemples d’apprentissage de x₁ à x_m initialiser S par x₁ et G par x₂ à x_m

tant que S et G ne sont pas stabilisés faire pour

chaque point g_ide G faire

si le 1-ppv de g_idans S n’a pas la même classe que g_ialors enlever g_ide G et le mettre dans S

fin si fin pour

fin tant que

L’ensemble d’apprentissage condensé est S fin.

(18)

Exercice : K-NN

C

₁

! (0,3), (0, 2), (0,1), (0, 0), ("1,0), ("2, 0) C

₂

! (1,3), (1,1),(1,0), (0, "1)

X = (1,4) #? avec 1 " NN, 3 " NN et 5 " NN

Exercice (Corrigé)

C₁ g₁(X) C₂ g₂(X)

(0, 3) 7.5 (1,3) 8

(0, 2) 6 (1,1) 4

(0,1) 3.5 (1,0) 0.5

(0, 0) 0 (0,!1) !4.5

(!1,0) !1.5 (!2, 0) !4 X=(1,4)

g_i(X)= X^tY_i!1

2Y_i^tY_i, 1"i"M La fonction de décision est :

1-NN 3-NN 3-NN

3-NN 5-NN

5-NN

5-NN 5-NN 5-NN

5-NN => C1

3-NN => C1

1-NN => C2

x₁ x₂

(19)

Exercice (Corrigé)

g_i(X)= X^tY_i!1

2Y_i^tY_i, 1"i"M

gij(X)=gi(X)!gj(X)=0 La fonction de décision est :

g₁(X)=

(

x₁ x₂

)

^!_"^#⁰₃^$_%^&¹₂

(

^{0 3}

)

^!⁰₃

"

# $

% =3x₂ &9 2 g₂(X)=

(

x₁ x₂

)

^!_"^#¹₃^$_%^&¹₂

(

^{1 3}

)

^!¹₃

"

# $

% =x₁+3x₂&5

g_{1 2}(X)=g₁(X)!g₂(X)=3x₂!9

2!x₁!3x₂+5

=!x₁+1 2=0 x₁=1

2

X=(1,4)

x₁= 1 2

x₁ x₂

Informatique des

2

ILOG 3

Traitement