Classification Automatique

(1)

Université Paris 13/Younès Bennani Reconnaissance des Formes 1

Reconnaissance Statistique des Formes

4

Younès BENNANI

Classification Automatique

Clustering

Objectif :

produire des groupements homogènes à partir d’un ensemble d’observations (formes).

x x x

x

x x x

x x

x

x x

x

xx x x

x x

x

x x x

x x

x

x x

x

xx x x

x

Classification

« Clustering »

(2)

Classification Automatique

Clustering

On définit :

- une mesure de similarité :

! ( x, y ) ^lim

x"y

! ( x, y ) ⁼ ⁰

!

(

x,µ

)

= x"µ _# =

(

x"µ

)

^t#^"1

(

x"µ

)

!

(

x,y

)

⁼ ^x^"^y

- un indice de performance :

D =

i=1 m

! ^x ^" ^p

ⁱ ²

x#C

!

_i

Prototype Centre de Ci

Classification Automatique

Clustering

Il existe plusieurs familles d ’algorithmes de classification :

- Méthodes d ’agrégation autour de centres mobiles : algorithmes conduisant directement à des partitions.

- Méthodes descendantes (ou encore divisives) :

procèdent par dichotomies successives de l’ensemble des formes, et peuvent fournir une hiérarchie de partitions.

- Méthodes ascendantes (ou encore agglomératives) :

procèdent à la construction des partitions par agglomérations successives des formes 2 à 2, et fournissent une hiérarchie de

(3)

Classification Automatique

Agrégation autour des centres mobiles

La technique de partitionnement la mieux adaptée aux vastes recueils de données.

Cette méthode peut être considérée comme un cas particulier de techniques connues sous le nom de nuées dynamiques étudiées dans un cadre formel par Diday (1971).

Soit un ensemble D = { X¹, X²,...,X^N} de N observations à partitionner, caractérisés par n caractères ou variables (Xⁱ! "ⁿ).

On suppose que "ⁿ est muni d’une distance appropriée notée d(Xⁱ, X^j).

On désire constituer au maximum k groupes (clusters).

Classification Automatique

Agrégation autour des centres mobiles

Principe :

C₁⁰ C₂⁰

P₁⁰

P₂⁰

C₁¹ C₂¹ P₁¹

P₂¹

C₁² C₂² P₁²

P₂²

Tirage au hasard des centres et

Constitution des partitions et

Nouveaux centres et

et nouvelles partitions et

Nouveaux centres et

et nouvelles partitions et

C₁⁰ C₂⁰

P₁⁰ P₂⁰

C₁¹ C₂¹ P₁¹ P₂¹

C₁² C₂² P₁² P₂²

(4)

Classification Automatique

Agrégation autour des centres mobiles

Étape 0 : On détermine k centres provisoires (par exemple, par tirage pseudo-aléatoire sans remise). les k centres :

induisent une première partition P^o de l’ensemble des formes en k clusters :

Ainsi la forme Xⁱ! partition s’il est plus proche de que tous les autres centres.

Étape 1 : On détermine k nouveaux centres de partitions :

ces nouveaux centres induisent une nouvelle partition P¹ construite selon la même règle que pour P^o.

la partition P¹ est formée des clusters :

Étape m : On détermine k nouveaux centres de partitions :

en prenant les centres de gravité des partitions qui ont été obtenues lors de l’étape précédente:

ces nouveaux centres induisent une nouvelle partition P^m de l’ensemble D.

{

C₁⁰,C₂⁰,K,C_i⁰,K,C_k⁰

}

P1 0,P2

0,K,Pi 0,K,Pk

{

0

}

C1 1,C2

1,K,Ci 1,K,Ck

{

1

}

{

P₁¹, P₂¹,K, P_i¹,K, P_k¹

}

C1 m,C2

m,K,Ci m,K,Ck

{

m

}

{

P₁^m!1,P₂^m!1,K,P_i^m!1,K,P_k^m!1

}

{

P₁^m,P₂^m,K,P_i^m,K,P_k^m

}

Algorithme général

Agrégation autour des centres mobiles

Techniques connexes

Il existe de nombreux algorithmes dont le principe général est voisin de l’algorithme d’agrégation autour des centres mobiles :

Nuées dynamiques (Diday, 1972)

Les clusters ne sont pas caractérisés par un centre de gravité, mais par un certain nombre de formes à classer, dénommés « étalons », qui constituent alors un « noyau ».

K-moyennes (k-means) (MacQueen, 1967)

Commence par un tirage pseudo-aléatoire de centres.

Les clusters sont caractérisés par un centre de gravité.

(5)

L’algorithme K-means

!

Squared error for cluster is the sum of the squared Euclidean distance between each pattern in and its cluster centre .

Then the sum of squared error for all cluster is defined by

!

Finding a partition containing K clusters which minimizes for fixed K.

!

P

_k

, e

_k²

,

!

e

_k²

= ( X " C

_k

X#P_k

$ ⁾

^t

⁽ ^X ^" ^C

^k

⁾ ⁼ ^|| ^X ^" ^C

^k

X#P_k

$ ^||

²

!

P

_k

!

C

_k

!

P

_k

(1 " k " K )

!

E

_k²

= e

_k²

k=1 K

" ⁼ ^|| ^X ^# ^C

^k

X$P_k

" ^||

²

k=1 k

"

k2 E

L’algorithme K-means

1) Initialisation :

On pose m=0, Fixer le seuil d’arrêt.

On détermine k centres provisoires (par exemple, par tirage pseudo-aléatoire sans remise). les k centres :

induisent une première partition P^o de l’ensemble des formes en k clusters :

2) Construction de la partition P^m : la forme Xⁱ! ssi On détermine la distortion :

3) Test d’arrêt :

Si

alors on s’arrête Sinon aller en 4) 4) Recalcul des centroïdes :

On détermine k nouveaux centres :

en prenant les centres de gravité des partitions qui ont été obtenues lors de l’étape précédente.

On fait m=m+1, aller en 2).

{

C₁⁰,C₂⁰,K,C_i⁰,K,C_k⁰

}

D_m= 1

N min

i=1 j N

!

^d(Xⁱ^,C^j^m⁾ ^j⁼¹^K^k

C1 m,C2

m,K,Ci m,K,Ck

{

m

}

P_j^m d(Xⁱ,C_j^m)!d(Xⁱ,C_l^m) l=1Kk

D_m!1!D_m

D_m "Seuil

{

P₁⁰,P₂⁰,K,P_i⁰,K,P_k⁰

}

(6)

L’algorithme K-means

"

Exemple:

!

C₂^t

!

C1 t

Classification Automatique

Méthodes descendantes

Principe :

C₁⁰ Calculer le centre de gravité de D :

Éclatement (« Splitting ») de : Nouveaux centres

et

et nouvelles partitions

Recalcul des nouveaux centres et

et nouvelles partitions C₁⁰

C₁¹ C₂¹ C₁⁰+!

C₁⁰!"

C₁⁰ C₁⁰+!

C₁⁰!"

C₁¹

C₂¹

(7)

L’algorithme L

^inde

B

^uzo

G

^ray

1) Initialisation :

Fixer k (puissance de 2, k=2^r), Fixer . On détermine le centre de gravité de D : Faire m=0

2) Eclatement :

Tout les centres (en nombre 2^m) sont éclatés en et Faire m=m+1

3) Partitionnement :

Chercher les partitions autour de chaque centre 4) Recalcul des centroïdes :

On détermine les nouveaux centres.

5) Test d’arrêt

Si m < r aller en 2) Sinon arrêt.

C₀

C_i +!

C_i !"

C_i

Classification Automatique

Classification Ascendante Hiérarchique

Principe :

créer, à chaque étape, une partition obtenue en agrégeant 2 à 2 les formes les plus proches.

l’algorithme ne fournit pas une partition en k clusters mais une hiérarchie de partitions sous la forme d’arbres appelés également dendrogrammes.

L’intérêt de ces arbres est qu ’ils peuvent donner une idée du nombre de clusters existant effectivement dans la population D des formes.

(8)

Classification Automatique

Classification Ascendante Hiérarchique

Classification Automatique

Classification Ascendante Hiérarchique

Soit un ensemble D = { X¹, X²,...,X^N} de N observations à partitionner, caractérisés par n caractères ou variables (Xⁱ! "ⁿ).

Soit H un ensemble de parties de D.

H est une hiérarchie si et seulement si : 1. D!H

2. "X !D, { }X !H

3. "h_i!H,"h_j !H, h_i #h_j =$ou h_i%h_jou h_j %h_i

H est une hiérarchie indicée s’il existe une fonction ƒ de H dans "⁺ telle que :

4. !X"D,ƒ

(

{ }X

)

⁼⁰

5. !h_i"H,!h_j "H, h_i#h_j,h_j $h_i%ƒ

( )

h_j ^{< ƒ}

^{( )}

^hⁱ La fonction ƒ est appelée indice d’agrégation

(distance entre deux éléments de H).

Les 2 nœuds sont sur 2 branches différentes

Sur une même branche

(9)

Classification Automatique

Classification Ascendante Hiérarchique

Représentation arborescente d’une hiérarchie :

Une hiérarchie indicée H est isomorphe à un arbre dont les nœuds sont associés aux éléments de H et la relation « fils de », à la relation de borne supérieure pour l ’inclusion.

Les feuilles représentent les formes et la racine, l’ensemble D.

Classification Automatique

Classification Ascendante Hiérarchique

Exemple :

Soit un ensemble de formes représentées par des points (numérotés de 1 à 5) dans un repère euclidien, et d la distance euclidienne.

2 1

3

4

5

d 1 2 3 4 5 1 0 !10 !8 !10 !13 2 0 !34 2 !41 3 0 !26 1 4 0 !29 5 0

À ce groupe h₆={3,5} est associé son niveau, ou indice d ’agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h₆)=1

regrouper 3 et 5, qui sont les points les

plus proches, et former un groupe

h₆={3,5}

(10)

Classification Automatique

Classification Ascendante Hiérarchique

Comment déterminer la distance de h₆ aux formes restantes ?

2

4

h₆

Plusieurs solutions sont possibles : - le saut minimal

consiste à affecter à la distance entre 2 groupes la distance entre leurs formes les plus proches.

- le diamètre maximal

retient la distance entre leurs formes les plus éloignées.

Saut minimal d 1 2 4 h₆ 1 0 !10 !10 !8 2 0 2 !34 4 0 !26 h₆ 0

Diamètre maximal d 1 2 4 h₆ 1 0 !10 !10 !13 2 0 2 !41 4 0 !29 h₆ 0 1

Classification Automatique

Classification Ascendante Hiérarchique

2 1

4

h₆

Saut minimal d 1 h₆ h₇ 1 0 !8 !10 h₆ 0 !26 h₇ 0

À ce groupe h₇={2,4} est associé son niveau, ou indice d ’agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h₇)=2

regrouper 2 et 4, qui sont les points les

plus proches, et former un groupe

h₇={2,4}

Diamètre maximal d 1 h₆ h₇ 1 0 !13 !10 h₆ 0 !41 h₇ 0 h₇

(11)

Classification Automatique

Classification Ascendante Hiérarchique

1

h₆

Saut minimal d h₇ h₈ h₇ 0 !10 h₈ 0

À ce groupe h₈ est associé son niveau, ou indice d ’agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h₈)= !8

regrouper 1 et h₆, et former un groupe

h₈={1}# h₆ h₇

Diamètre maximal d h₆ h₈ h₆ 0 !41 h₈ 0

À ce groupe h₈ est associé son niveau, ou indice d ’agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h₈)= !10

regrouper 1 et h₇, et former un groupe

h₈={1}# h₇

À la dernière étape toutes les formes sont regroupées.

Saut minimal Diamètre maximal

h₉= h₇ # h₈={1,2,3,4,5} h₉= h₆ # h₈={1,2,3,4,5}

ƒ(h₉)= !10 ƒ(h₉)= !41

Classification Automatique

Classification Ascendante Hiérarchique

2 1

3

4

5

2 1

3 5 4 D

ƒ

h₇

h₄ h₂

h₁ h₅

h₃ h₆

h₈

h₉

CAH Saut minimal

(12)

Classification Automatique

Classification Ascendante Hiérarchique

2 1

3

4

5

2 1

3 5 4 D

ƒ

h₇

h₄ h₂

h₁ h₅

h₃ h₆

h₈ h₉

CAH Diamètre maximal

Exercice : 4 clusters

x1

x2

5

1

!1

1 3 5

3

(13)

Utilisation du clustering : Quantification Vectorielle

opération de discrétisation (codage) d'une ou plusieurs variables.

-So So

y1 y2 y3 S4 S5 y4

y5 y6 Q(x)

S1 S2 S3 x

Dictionnaire Référence séléctionnée

Forme à coder 1

2 3 4 5 6 7

k=6

Quantification Vectorielle

Soit Y = { Y¹, Y²,..., Y^L} un dictionnaire (codebook) de L vecteurs-codes Yⁱ(codeword).

Yⁱ! "ⁿ et n la dimension de l'espace.

On peut écrire la fonction de quantification sous la forme : Yⁱ = Q(X) ; où i ! {1,2, ...,L} et X! "ⁿ .

d(X, Yⁱ) la distorsion due à l'erreur de quantification.

On peut ainsi définir une distorsion totale moyenne:

D

_moy

= 1

N min

i=1 j N

! ^d ⁽ ^X

ⁱ

^, ^Y

^j

⁾ ^j ⁼ ¹ ^K ^L

(14)

QV et reconnaissance

Considérons un vocabulaire de trois mots (fictifs) A, B et C et choisissons la distance de Hamming.

Soient YA, YB, YC les trois dictionnaires correspondant aux trois classes.

Y_A={A₁,A₂,A₃}⁼

1 3 5

!

"

# #

$

%

&

& , 2

9 11

!

"

# #

$

%

&

& , 8 7 1

!

"

# #

$

%

&

' ( )

* )

+ , ) - )

Y_B ={B₁,B₂}⁼

2 9 7

!

"

# #

$

%

&

& , 3 2 1

!

"

# #

$

%

&

' ( )

* )

+ , ) - )

Y_C={C₁,C₂,C₃}⁼

1 1 1

!

"

# #

$

%

&

& , 3 4 2

!

"

# #

$

%

&

& , 1 9 2

!

"

# #

$

%

&

' ( )

* )

+ , ) - )

Soit un mot inconnu X.

X={X₁,X₂,X₃}⁼

2 7 1

!

"

# #

$

%

&

& , 1 4 6

!

"

# #

$

%

&

& , 2 7 8

!

"

# #

$

%

&

' ( )

* )

+ , )

- )

Codage(X/Y_A), Codage(X/Y_B), Codage(X/Y_C)

X. A B C

?

QV et reconnaissance

2 9 7

!

"

# #

$

%

&

& , 3 2 1

!

"

# #

$

%

&

' ( )

* )

+ , ) - ) X=

2 7 1

!

"

# #

$

%

&

& , 1 4 6

!

"

# #

$

%

&

& , 2 7 8

!

"

# #

$

%

&

' ( )

* )

+ , ) - )

X . A B C

?

1 1 1

!

"

# #

$

%

&

& , 3 4 2

!

"

# #

$

%

&

& , 1 9 2

!

"

# #

$

%

&

' ( )

* )

+ , ) - ) 1

3 5

!

"

# #

$

%

&

& , 2 9 11

!

"

# #

$

%

&

& , 8 7 1

!

"

# #

$

%

&

' ( )

* )

+ , ) - )

A

B

C

(15)

QV et reconnaissance

A₁ A₂ A₃ B₁ B₂ C₁ C₂ C₃

X₁ 9 12 6 6 4

X₂ 2 11 15 7 6

X₃ 8 5 13 3 9

Codage(X/Y_A)=A₃ A₁ A₂ D(X/A)=6+2+5=13

Codage(X/Y_B)= B₂B₁ B₁ D(X/B)=6+7+3=16

Codage(X/Y_C)=C₃C₂ C₃ D(X/C)=4+6+9=19 X={X₁,X₂,X₃}⁼

2 7 1

!

"

# #

$

%

&

& , 1 4 6

!

"

# #

$

%

&

& , 2 7 8

!

"

# #

$

%

&

' ( )

* )

+ , ) - )

Classification Automatique

Reconnaissance Statistique des Formes

4

Classification Automatique

Clustering

Classification Automatique

Clustering

! ( x, y ) lim

! ( x, y ) = 0

(

)

(

)

(

)

(

)

D =

! x " p

!

Classification Automatique

Clustering

Classification Automatique

Agrégation autour des centres mobiles

Classification Automatique

Agrégation autour des centres mobiles

Classification Automatique

Agrégation autour des centres mobiles

{

}

{

}

{

}

{

}

{

}

{

}

{

}

Agrégation autour des centres mobiles

Techniques connexes

L’algorithme K-means

Squared error for cluster is the sum of the squared Euclidean distance between each pattern in and its cluster centre .

Then the sum of squared error for all cluster is defined by

Finding a partition containing K clusters which minimizes for fixed K.

!

P

, e

,

!

e

= ( X " C

$ )

( X " C

) = || X " C

$ ||

!

P

!

C

!

P

(1 " k " K )

!

E

= e

" = || X # C

" ||

"

L’algorithme K-means

{

}

!

{

}

{

}

! ( x, y ) ^lim

! ( x, y ) ⁼ ⁰

! ^x ^" ^p

$ ⁾

⁽ ^X ^" ^C

⁾ ⁼ ^|| ^X ^" ^C

$ ^||

" ⁼ ^|| ^X ^# ^C

" ^||

^{( )}

! ^d ⁽ ^X

^, ^Y

⁾ ^j ⁼ ¹ ^K ^L