Traitement Numérique des Données

(1)

Digital Data Processing – Traitement Numérique des Données 1 © Y. Bennani

Digital Data Processing

Traitement Numérique des Données

Younès BENNANI Full Professor

Master of Science in Informatics

Specialities

Data Mining, Analytics, and Knowledge Discovery (EID

²

) Programming Tools and Safety (PLS)

2 •  Classificateurs discriminants

•  Approches à base de distance

•  Minimum-Distance Classifier

•  Fisher classifier

•  Logistic classifier

•  Nearest neighbor rule

•  Approches minimisant l’erreur

(2)

Classement/Discrimination Approches discriminantes

Notions de distances

Définir une distance entre un objet et une classe à partir de la distance entre objets (formes) :

Approche la plus simple et la plus intuitive.

Un élément appartient à une classe s'il est plus proche de cette classe que toutes les autres.

La distance dépend de la forme à traiter et des paramètres extraits.

x x x

x x

x x x x

x

o o

o o o

o o

+ x

(3)

Définition d ’ une distance

E : ensemble de points,

Espace métrique réel s'il existe une fonction : d : ExE ➔ ℜ ⁺

vérifiant :

1. ∀ (x,y) ∈ E

²

, x≠y ⇒ d(x,y) > 0, (séparabilité)

2. ∀ x ∈ E, d(x,x) = 0, (réflexivité)

3. ∀ (x,y) ∈ E

²

, d(x,y)=d(y,x), (symétrie)

4. ∀ (x,y,z) ∈ E

³

, d(x,z) ≤ d(x,y) + d(y,z). (inégalité triangulaire)

Exemples de distances

Distance de Hamming

€

x = { } x

i i=1Kn

= x

1

x

2

M x

n

"

#

$ $

%

&

' ' ' '

€

y = { } y

_i _i=1Kn

€

d

1

(x, y) = x

i

− y

i i=1

n

∑

€

d

2

(x,y) = ( x

i

− y

i

)

²

i=1 n

∑

€

d

_k

(x,y) = x

_i

− y

_i

i=1 n

∑

$

k

%

&

' ( ) )

1 k

€

d

_∞

(x, y) = max

_i=1Kn

x

_i

− y

_i

Distance Euclidienne

Distance d

k

Distance du maximum

E : ensemble de points, (x,y) ∈ E

²

(4)

Distances entre formes et classes

Plus la distance est petite, plus on admet que la ressemblance est grande.

x x x

x x

x x x x

x

o o

o o o

o o

x + ω

i

ω

j d (ωi, ωj)

€

d

2

(x,y) = ( x

i

− y

i

)

²

i=1 n

∑

•  La distance d entre deux classes ω

i

et ω

j

est définie par :

€

d ( ω

i

, ω

j

) = inƒ { d x, ( y ) ^; ^x ^∈ ω

i

et y ∈ ω

j

}

d (x, ωj)

d (x, ωi)

Distances binaires

•  caractéristiques des formes ne sont pas mesurables.

•  codage binaire : 1 ⇔ présence de l ’ attribut (caractère) 0 ⇔ absence de l’attribut

•  Le nombre de fois où x et y possèdent le même caractère (couples de 11)

•  Le nombre de fois où x et y ne possèdent aucun caractère commun (couples de 00)

•  Le nombre de fois où x ne possède pas le caractère possédé par y (couples de 01)

•  Le nombre de fois où x possède un caractère non possédé par y (couples de 10) a = x

i

.y

i

i=1 n

∑

b = ( 1 − x

i

)

i=1 n

∑ ⁽ ¹ ⁻ ^y

ⁱ

⁾

h = ( 1 − x

i

)

i=1 n

∑ ^.y

ⁱ

g = x

i

. 1 ( − y

i

)

i=1 n

∑

(5)

Quelques distances binaires

•  Russel et Rao

•  Joccard et Needham

•  Dice

•  Sokal et Sneath

€

S

₁

(x, y) = a a + b + g + h

€

S

₂

(x, y) = a n −b

€

S

3

(x, y) = a 2a + g + h

€

S

₄

(x, y) = a a + 2(g + h)

€

S

₅

(x, y) = a + b n

€

S

6

(x,y) = a g + h

•  Sokal et Michenon

•  Kulzinsky

Exemple

Caractéristiques

Rond Allongé Rouge Vert

1 0 1 0

0 1 0 1

1 0 0 1

S 2 ( , )=0 et S 2 ( , )=0.33

et se ressemblent plus que et

(6)

MDC: Minimum-Distance Classifier

M classes { ω

1

, ω

2

,..., ω

M

}, M prototypes Y = { Y

1

,Y

2

,..., Y

M

} dans ℜ

ⁿ

on cherche à identifier la forme x.

•  Attribuer un élément x à une classe ω

k :

€

x ∈ ω k ⇔ ω k = Argmin

ω

_i

d x, ( ω i )

€

D _i = d x, ( ω _i ) ⁼ ^d( ^x,Y

ⁱ

⁾ ⁼ [ ( ^x ^−Y

ⁱ

) ^t ( ^x ⁻ ^Y

ⁱ

) ]

1 2 ,1 ≤ i ≤ M

€

D _k = min

1≤i≤M ( d( x,Y _i ) )

MDC: Minimum-Distance Classifier

•  Fonction de décision pour ω

i :

€

D

_i

² = [ ( x − Y _i ) ^T ( ^x ^−Y i ) ]

= x ^T x − 2x ^T Y _i + Y _i ^T Y _i

Constante

minimiser D

_i

²

€

−2x ^T Y _i + Y _i ^T Y _i , 1 ≤ i ≤ M

⇔ ^minimiser

maximiser c

€

2x ^T Y _i − Y _i ^T Y _i , 1 ≤ i ≤ M S i (x) = x ^T Y i − 1

2 Y i

T Y i , 1 ≤ i ≤ M

x ∈ ω i ssi S _i (x) > S _j ( x), j ≠ i

(7)

MDC: Minimum-Distance Classifier

•  Fonction de décision linéaire :

€

S _i ( x) = x ^T Y _i − 1

2 Y _i ^T Y _i , 1 ≤ i ≤ M

€

S _i ( x) = w _i ^T x , 1 ≤ i ≤ M

€

x = x ₁ x ₂ M x _n

1 "

#

$

%

&

' ' ' ' '

w _i = w _i,1 w i,2

M w _i,n w _i,n+1

"

#

$

%

&

' ' ' ' '

= y _i,1 y _i,2 M y i,n

− 1 2 Y _i ^t Y _i

"

#

$

$ $

%

&

' ' ' ' ' '

MDC: Minimum-Distance Classifier

•  Cas Multi-prototypes :

€

ω _i ⇒ Y _i ⁽¹⁾ , Y _i ⁽²⁾ , K , Y _i ⁽ⁿ

ⁱ

⁾

€

D _i = min

1≤ j≤n

_i

( d(x,Y

_i

⁽ ^j) ) )

€

S i (x) = x ^T Y

_i

⁽ ^j) − 1 2 Y i

( j)

( ) ^T ^Y

ⁱ

⁽ ^j) ^{, 1} ^≤ ^j ^≤ ⁿ ⁱ

x ∈ ω i ssi S _i ( x) > S _j ( x), j ≠ i

•  Fonction de décision pour ω

i :

(8)

MDC: Minimum-Distance Classifier Exemple

€

ω 1 ⇒ (1,0),(1,1) ω ₂ ⇒ (0,1),(3,1) ω 3 ⇒ (1,2),(0,0),(−1,1)

x = (1,−1) ∈ ?

Consider a three-class problem in R

²

where each class is represented by its prototypes as follows:

Given the incoming pattern :

MDC: Minimum-Distance Classifier Exemple

€

S

₁

(x) = ( x

₁

,x

₂

) ( ) ^1,0

^T

⁻ ¹

2 ( ) 1,0 ( ) ^1,0

^T

⁼ ^x

1

− 1 2 S

₂

(x) = ( x

₁

, x

₂

) ( ) ^0,1

^T

⁻ ¹

2 ( ) 0,1 ( ) ^0,1

^T

⁼ ^x

2

− 1 2 S

₃

(x) = ( x

₁

, x

₂

) ( ) ^0,0

^T

⁻ ¹

2 ( ) 0,0 ( ) ^0,0

^T

⁼ ⁰

€

D

₁

= min [ d x, 1,0 ( ( ) ) ^{,d x, 1,1} ( ( ) ) ] ^→ ^{( )} ^1,0

D

₂

= min [ d x, 0,1 ( ( ) ) ^{,d x, 3,1} ( ( ) ) ] ^→ ^{( )} ^0,1

D

3

= min [ d x, 1,2 ( ( ) ) ^{,d x,} ( ( ^−1,1 ) ) ^{,d x,} ( ( ^−1,1 ) ) ] ^→ ^{( )} ^0,0

€

S

₁₂

( X) = S

₁

( X) − S

₂

(X) = x

₁

− x

₂

= 0 S

₂₃

(X) = S

₂

(X ) − S

₃

( X)= x

₂

− 1

2 = 0 S

₃₁

(X) = S

₃

(X) − S

₁

( X)= 1

2 − x

₁

= 0 Les fonctions de décision :

Les frontières entre les 3 classes : entre ω

1

et ω

2

entre ω

2

et ω

3

entre ω

3

et ω

1

(9)

Cas de 2 classes : A et B

On cherche une fonction linéaire de décision :

€

S( x) = w

^T

x + w

₀

€

J

_F

= σ

inter−classe 2

σ

intra−classe

2

= µ

A

− µ

B

2

σ

A 2

+ σ

B

2

Fisher Linear Discriminant

Maximisant la séparation entre les classes dans la direction de w.

Critère de Fisher :

€

J

_F

= w

^T

µ

A

− w

^T

µ

B 2

w

^T

P(A)Σ

_A

w + w

^T

P(B)Σ

_B

w = w

^T

( µ

A

− µ

B

) ( µ

A

− µ

B

)

^T

^w

w

^T

( P(A)Σ

_A

+ P(B)Σ

_B

) ^w ⁼

w

^T

Σ

_int_er

w w

^T

Σ

_int_ra

w

Fisher Linear Discriminant

Maximisant la séparation entre les classes dans la direction de w.

Critère de Fisher :

€

w = Σ

intra

−1

( µ

A

− µ

B

)

Solution :

€

S(x) = ( µ

A

− µ

B

)

^T

^Σ

intra

−1

x + const

(10)

Logistic Classifier

Règle de Bayes :

€

S( x) = P(x / A)P(A) − P( x / B)P(B) = 0

€

log P(x / A)P( A) P(x /B)P(B)

"

# $ %

&

' = 0

€

log P(x / A)P( A) P(x /B)P(B)

"

# $ %

&

' = log P( A / x)

P(B / x)

"

# $ %

&

' = log P(A / x)

1− P(A / x)

"

# $ %

&

' = w

^T

x + w

₀

€

P(A / x) = P(x / A)P(A)

P(x / A)P( A) + P( x / B)P(B) = e

^w^T^x+w⁰

1+ e

^w^T^x+w⁰

= 1 1+ e

^−w^T^x−w⁰

€

P(B / x) = 1− P(A / x) = 1 1+ e

^w^T^x+w⁰

Discrimination linéaire :

Fonction logistic

Nearest Neighbor Classifier

plus proches voisins : PPV

N observations D = { x

¹

, x

²

,..., x

^N

} dans ℜ

ⁿ

réparties en M classes {ω

1

, ω

2

, ..., ω

M

}, d(x

ⁱ

, x

^j

) est une distance entre les observations x

ⁱ

et x

^j

.

Règle du plus proche voisin :

x

ⁱ

est affecté à la classe ω

j

si ω

j

est la classe de l'objet x

^j

, tel que : d(x

ⁱ

, x

^j

) = min

_{k≠i, K=1…N}

d(x

ⁱ

, x

^k

), pour x

^k

appartenant à D.

ω

j

ω

i

x

ⁱ

x

^j

(11)

plus proches voisins : PPV

•  Avantages :

•  Simple

•  Efficace quand les classes sont séparables

•  Fonctions de décision non linéaires

•  Inconvénients :

•  Temps de calcul

•  Nécessite le stockage des données d ’ apprentissage

Surface de séparation générée par PPV

Voronoi Net

Delaunay Net

Frontière entre les 2 classes

Prototypes de la classe 1

Prototypes de la classe 2

Nearest Neighbor Classifier

plus proches voisins : PPV

(12)

Propriétés de convergence en probabilité :

la probabilité d’erreur avec la règle du plus proche voisin (PPV) converge en probabilité vers une quantité inférieure à deux fois l ’ erreur minimum de la décision bayésienne, mais reste supérieure ou égale à une fois cette erreur.

Err _Bayes ≤ lim _n→∞ Err _PPV ≤ 2Err _Bayes

Nearest Neighbor Classifier

plus proches voisins : PPV

Règle des k plus proches voisins :

x

ⁱ

est affecté à la classe ω

i

si ω

i

est la classe la mieux représentée parmi les k voisins les plus proches de x

ⁱ

, tel que :

k

i

= max { k

1

, k

2

, …, k

M

} ⇒ x

ⁱ

∈ ω

i

.

Avec k

i

= le nombre d’éléments de la classe ω

i

parmi les k voisins les plus proches de x

ⁱ

. et k

1

+k

2

+ …+ k

M

= k

K-Nearest Neighbor Classifier

k-plus proches voisins : KPPV

x

ⁱ

K=11 kB=7 kR=4

(13)

€

P x ( / ω _i ) ⁼ ^K ⁱ

N _i V

k

R

=4 N

R

=28 k

B

=7 N

B

=23 k = 11

€

P x ( ) ⁼ ^K

NV

€

P ( ) ω i ⁼ ^N ⁱ

N

€

P ( ω i / x ) ⁼ ^P( ^x ^/ω ⁱ ^)P(ω ⁱ ⁾

P( x) = K _i K

Probabilité a priori d’appartenance à la classe ωi

Densité de probabilité conditionnelle dans la classe ωi

Probabilité a posteriori d’appartenance de x à la classe ω_i

Sphèrede volume V autour de x

x

€

k _k > k _j ∀ j ≠ k

Vote majoritaire :

Choix optimal de k

k-Nearest Neighbor

*

€

k = N

heuristique :

(14)

Décision et Rejet

variante (k,l)-Nearest Neighbor (k,l)-NN

Décisions avec rejet :

consiste à fixer un seuil l de décision : k/2 < l < k

et à décider que X

ⁱ

est affecté à la classe ω

i

si au moins l parmi les k voisins les plus proches de x

ⁱ

appartiennent à ω

i

.

(k,l) = (11,6) ⇒ X

ⁱ

∈ ω

B

(k,l) = (11,8) ⇒ Rejet

k

R

=4 N

R

=28 k

B

=7 N

B

=23

k = 11 x

Variantes accélérées

k-Nearest Neighbor : KNN k-plus proches voisins : KPPV

KNN = méthode lente en phase de décision

nécessite le calcul de N distances dans un espace à n dimensions.

Variantes sub-optimales nécessitent moins de calcul :

•  La condensation

[P.E. Hart, « The condensed Nearest Neighbor Rule » IEEE Transactions Information Theory, 14, May, 1968.]

•  Le pavage

[C. Delannoy, « Un algorithme rapide de recherche de plus proches voisins » RAIRO Informatique, 14(3):

275-286, 1980.]

•  La hiérarchie

[J. H. Friedman, J. L. Bentley, R. A. Finkel, « An algorithm for finding best matches in logarithmic expected time », ACM Transactions on Software, 3(3), 1977]

•  Le tri

[T. P. Yunk, « A technique to identify Nearest Neighbors », IEEE Transactions on Systems, Man and Cybernetics, 6:678-683, 1976]

(15)

Méthode de projection

J.H. Friedman, F. Baskett, L.J. Shustek

« An algorithm for finding nearest neighbors »

IEE trans. Comput?, Vol. C-24, pp. 1000-1006, Oct. 1975

Méthode non-paramétrique KNN Avantages :

- pas d ’ hypothèse sur les distributions - simple à mettre en œuvre

- donne une probabilité d ’ erreur faible Inconvénients :

- temps de calcul important (recherche des knn) - place mémoire

(stockage de l’ensemble des prototypes)

Recherche des KNN

Méthode de projection : 2-dimension

Pré-traitement Étape 0 :

projeter l’ensemble des points sur un axe et trier les projections

(projection+trie une seule fois pour l’ensemble des données) O(NlogN)

Recherche des knn Étape 1 :

localiser la projection du point test sur l’axe de projection

(recherche dichotomique O(logN)) Étape 2 :

trouver les 2 plus proches projections (une de chaque coté)de la projection du point test

Étape 3 :

calculer la distance (en dimension complète)

entre les 2 prototypes et le point test

choisir le prototype minimisant cette

distance : r

_d

(16)

Recherche des KNN

Méthode de projection : 2-dimension

Étape 4 :

déterminer les limites de la recherche - borne #1=projection du test+r

_d

- borne #2=projection du test -r

_d

Étape 5 :

calculer et sauvegarder en mémoire les distances entre le test et les prototypes à l’intérieur des deux bornes

Étape 6 :

trouver le prototype minimisant la distance par rapport au test = le plus proche voisin Pour la recherche des knn (k>1)

Étape 7 :

supprimer le ppv (trouvé à l’étape 6) de la liste des prototypes à l’intérieur des bornes répeter k fois de l ’ étape 1 à l ’ étape 7 Si k>1, les bornes sont recalculées à chaque itération.

Recherche des KNN

Méthode de projection : d-dimension

Comment trouver le meilleur axe de projection ?

(17)

Metric p n

Manhattan 1

Euclidian 2

Maximum coordinate

distance ∞

Méthode de projection : d-dimension

Étape 0.1 :

projeter l’ensemble des points sur les d axes et trier les projections

Étape 0.2 :

estimer le nombre n de distances à calculer dans le cas d’une distribution uniforme (worst case)

€

( ) kd!

^1/d

^N

^1−(1/d⁾

€

π kd d

2 −1

$

% & ' ( ) !

$

% & ' ( )

1/d

( 2N )

^1−(1/d⁾

€

k

^1/d

N

^1−(1/d⁾

K: le nombre des ppv, d: la dimension, N: le nombre de prototypes

Recherche des KNN

Méthode de projection : d-dimension

Étape 1 :

localiser la projection du test sur chaque axe Étape 2 :

trouver la position du (n/2)ème prototype de chaque coté du test

Étape 3 :

calculer la distance S entre ces 2 prototypes Étape 4 :

calculer la projection de la densité locale D au voisinage du point test (local projected density) :

Étape 5 :

sélectionner l’axe minimisant D et l’utiliser pour la recherche des knn (méthode 2-dimension)

€

D = n/ S

(18)

Nettoyage (editing) de l ’ ensemble d ’ apprentissage

Début

diviser aléatoirement l’ensemble d’apprentissage en deux sous-ensembles S

1

et S

2

tant que la stabilisation de S

1

et S

2

n’est pas réalisée faire

1-classer tous les points de S

₁

sur S

₂

par la règle du 1-ppv 2-éliminer de S

1

tous les points dont la classe n’est pas la même que celle de leur plus proche voisin dans S

2

3-classer tous les points de S

2

sur le nouveau S

1

par le 1-ppv 4-éliminer de S

₂

tous les points dont la classe n’est pas la même que celle de leur plus proche voisin dans S

₁

fin tant que

L’ensemble d’apprentissage nettoyé est composé de S

₁

∪ S

₂

fin.

Condensation (condensing) de l ’ ensemble d ’ apprentissage

Début

ordonner les m exemples d’apprentissage de x

₁

à x

m

initialiser S par x

₁

et G par x

₂

à x

_m

tant que S et G ne sont pas stabilisés faire

pour

chaque point g

i

de G faire

si le 1-ppv de g

_i

dans S n’a pas la même classe que g

_i

alors enlever g

i

de G et le mettre dans S

fin si fin pour fin tant que

L’ensemble d’apprentissage condensé est S

fin.

(19)

€

ω

1

S

1

(x) ω

2

S

2

(x)

(0,3) 7.5 (1,3) 8

(0,2) 6 (1,1) 4

(0,1) 3.5 (1,0) 0.5

(0,0) 0 (0,−1) − 4.5

(−1,0) −1.5 (−2,0) − 4

€

x = (1,4)

€

S

_i

(x) = x

^T

Y

_i

− 1

2 Y

_i^T

Y

_i

, 1 ≤ i ≤ M La fonction de décision est :

1-NN 3-NN 3-NN

3-NN 5-NN

5-NN

5-NN 5-NN 5-NN

5-NN => ω

1

3-NN => ω

1

1-NN => ω

2

x

1

x

₂

ω

1

⇒ (0, 3), (0, 2), (0,1), (0, 0), (−1, 0), (−2, 0) ω

2

⇒ (1, 3), (1,1), (1, 0), (0,−1)

x = (1, 4) ∈ ? avec 1− NN, 3− NN et 5− NN

g

_i

(X ) = X

^t

Y

_i

− 1

2 Y

_i^t

Y

_i

, 1≤ i ≤ M

La frontière entre les classes : g

_ij

(X ) = g

_i

(X) − g

_j

(X) = 0 La fonction de décision est :

g

₁

(X) = ( x

₁

x

₂

) ^! _" ^# ⁰ ₃ ^$ _% ⁻ ¹

2 ( 0 3 ) ⁰

3 !

"

# $

% = 3x

₂

− 9 2 g

₂

(X) = ( x

₁

x

₂

) ^! ¹ ₃

"

# $

% − 1 2 ( 1 3 ) ^! ¹ ₃

"

# $

% = x

₁

+ 3x

₂

− 5

g

_{1 2}

(X) = g

₁

(X) − g

₂

(X )= 3x

₂

− 9

2 − x

₁

− 3x

₂

+ 5

= −x

1

+ 1 2 = 0 x

₁

= 1

2 X = (1,4)

x

₁

= 1 2

x

1

x

₂

Traitement Numérique des Données

Digital Data Processing