Traitement Numérique des Données

(1)

Digital Data Processing – Traitement Numérique des Données 1 © Y. Bennani

Digital Data Processing

Traitement Numérique des Données

Younès BENNANI Full Professor

Master of Science in Informatics

Specialities

Data Mining, Analytics, and Knowledge Discovery (EID

²

) Programming Tools and Safety (PLS)

6 ^• Classification automatique (Clustering)

•  Classification par partition

•  Classification probabiliste

•  Classification hiérarchique

•  Classification relationnelle

•  Mesures d évaluation

•  Validité

•  Stabilité

(2)

Classification Automatique  

Clustering

Objectif :

produire des groupements homogènes à partir d un ensemble d’observations (formes) ou d une matrice de (dis)similarités.

Classification Clustering

Classification Supervisée vs

Classification Non-Supervisée

(3)

Classification Automatique  

Clustering

Les difficultés :

- Existence réelle d une structure - Choix de similarité

- Choix du nombre de groupes (Combinatoire)

71 observations

- Validation (absence de labels) - Nature des données

Un calculateur pouvant

traiter un million de partitions/sec mettrait plus de 126 000 années pour étudier toutes les partitions d un ensemble de 25 éléments !

Nombre de Stirling : Nombre de Bell :

Classification Automatique  

Complexité des données Selon plusieurs axes

Ø  Dimension (composantes)

Ø   Quantité Ø  Densité

Ø  Structure (arbre, matrice,…)

Ø  Nature

Ø  Vitesse : flux des données Ø  …

dimension

n atu re

(4)

Classification Automatique  

Clustering

Il existe plusieurs familles d algorithmes de classification :

- Méthodes d agrégation autour de centres mobiles : algorithmes conduisant directement à des partitions.

- Méthodes descendantes (ou encore divisives) :

procèdent par dichotomies successives de l ensemble des formes, et peuvent fournir une hiérarchie de partitions.

- Méthodes ascendantes (ou encore agglomératives) :

procèdent à la construction des partitions par agglomérations successives des formes 2 à 2, et fournissent une hiérarchie de partitions des formes.

Classification Automatique  

Agrégation autour des centres mobiles

La technique de partitionnement la mieux adaptée aux vastes recueils de données.

Cette méthode peut être considérée comme un cas particulier de techniques connues sous le nom de nuées dynamiques étudiées dans un cadre formel par Diday (1971).

Soit un ensemble D = { X

¹

, X

²

,...,X

^N

} de N observations à partitionner, caractérisés par n caractères ou variables (X

ⁱ

∈ ℜ

ⁿ

).

On suppose que ℜ

ⁿ

est muni d une distance appropriée notée d(X

ⁱ

, X

^j

).

On désire constituer au maximum k groupes (clusters).

(5)

Classification Automatique  

Agrégation autour des centres mobiles

Principe : C

₁⁰

C

₂⁰

P

₁⁰

P

₂⁰

C

₁¹

C

₂¹

P

₁¹

P

₂¹

C

₁²

C

₂²

P

₁²

P

₂²

Tirage au hasard des centres et

Constitution des partitions et

Nouveaux centres et

et nouvelles partitions et

Nouveaux centres et

et nouvelles partitions et

C

₁⁰

C

₂⁰

P

₁⁰

P

₂⁰

C

₁¹

C

₂¹

P

₁¹

P

₂¹

C

₁²

C

₂²

P

₁²

P

₂²

Classification Automatique  

Agrégation autour des centres mobiles

Étape 0 : On détermine k centres provisoires (par exemple, par tirage pseudo-aléatoire sans remise). les k centres :

induisent une première partition P^o de l ensemble des formes en k clusters :

Ainsi la forme Xⁱ∈ partition s il est plus proche de que tous les autres centres.

Étape 1 : On détermine k nouveaux centres de partitions :

ces nouveaux centres induisent une nouvelle partition P¹ construite selon la même règle que pour P^o.

la partition P¹ est formée des clusters :

Étape m : On détermine k nouveaux centres de partitions :

en prenant les centres de gravité des partitions qui ont été obtenues lors de l étape précédente:

ces nouveaux centres induisent une nouvelle partition P^m de l ensemble D.

{ C

₁⁰

, C

₂⁰

, K , C

_i⁰

, K , C

_k⁰

}

P

1 0

, P

2

0

, K , P

i 0

, K , P

k

{

0

}

C

1 1

, C

2

1

,K , C

i 1

, K , C

k

{

1

}

{ P

₁¹

, P

₂¹

, K , P

_i¹

,K , P

_k¹

}

{ C

₁^m

, C

₂^m

, K , C

_i^m

, K , C

_k^m

}

{ P

₁^m−1

, P

₂^m−1

, K , P

_i^m−1

, K , P

_k^m−1

}

{ P

₁^m

, P

₂^m

, K , P

_i^m

, K , P

_k^m

}

Algorithme général

(6)

Agrégation autour des centres mobiles

Techniques connexes

Il existe de nombreux algorithmes dont le principe général est voisin de l algorithme d agrégation autour des centres mobiles :

Nuées dynamiques (Diday, 1972)

Les clusters ne sont pas caractérisés par un centre de gravité, mais par un certain nombre de formes à classer, dénommés « étalons », qui constituent alors un « noyau ».

K-moyennes (k-means) (MacQueen, 1967)

Commence par un tirage pseudo-aléatoire de centres.

Les clusters sont caractérisés par un centre de gravité.

✦  Squared error for cluster is the sum of the squared Euclidean distance between each pattern in and its cluster centre .

Then the sum of squared error for all cluster is defined by

✦  Finding a partition containing K clusters which minimizes for fixed K.

L algorithme K-means

€

P _k , e _k ² ,

€

e _k ² = ( X − C _k

X ∈ P

_k

∑ ⁾ ^t ⁽ ^X ⁻ ^C ^k ⁾ ⁼ ^|| ^X ⁻ ^C ^k

X ∈P

_k

∑ ^|| ²

€

P _k

€

C _k

€

P _k (1 ≤ k ≤ K )

€

E _k ² = e _k ²

k=1 K

∑ ⁼ ^|| ^X ⁻ ^C ^k

X ∈ P

_k

∑ ^|| ²

k=1 k

∑

k 2

E

(7)

L algorithme K-means

1) Initialisation :

On pose m=0, Fixer le seuil d arrêt.

On détermine k centres provisoires (par exemple, par tirage pseudo-aléatoire sans remise). les k centres :

induisent une première partition P^o de l ensemble des formes en k clusters :

2) Construction de la partition P^m : la forme Xⁱ∈ ssi On détermine la distortion :

3) Test d arrêt :

Si

alors on s arrête Sinon aller en 4) 4) Recalcul des centroïdes :

On détermine k nouveaux centres :

en prenant les centres de gravité des partitions qui ont été obtenues lors de l étape précédente.

On fait m=m+1, aller en 2).

{ C

₁⁰

, C

₂⁰

, K , C

_i⁰

, K , C

_k⁰

}

D

_m

= 1 N min

i=1 j N

∑ ^d(X

ⁱ

^, ^C

^j^m

⁾ ^j ⁼ ^1K ^k

C

1 m

, C

2

m

, K , C

i m

, K , C

k

{

m

}

P

j

m

d(X

ⁱ

, C

j

m

) ≤ d( X

ⁱ

,C

l

m

) l =1K k

D

m−1

− D

m

D

m

≤ Seuil P

1

0

, P

2 0

, K , P

i

0

, K , P

k

{

0

}

L algorithme K-means

(8)

Classification Automatique  

Méthodes descendantes

Principe : _C

1

0

Calculer le centre de gravité de D :

Éclatement (« Splitting ») de : Nouveaux centres

et

et nouvelles partitions

Recalcul des nouveaux centres et

et nouvelles partitions C

₁⁰

C

₁¹

C

₂¹

C

₁⁰

+ ε

C

₁⁰

− ε

C

₁⁰

C

₁⁰

+ ε

C

₁⁰

− ε

C

₁¹

C

₂¹

L algorithme L

^inde

B

^uzo

G

^ray

1) Initialisation :

Fixer k (puissance de 2, k=2^r), Fixer . On détermine le centre de gravité de D : Faire m=0

2) Eclatement :

Tout les centres (en nombre 2^m) sont éclatés en et Faire m=m+1

3) Partitionnement :

Chercher les partitions autour de chaque centre 4) Recalcul des centroïdes :

On détermine les nouveaux centres.

5) Test d arrêt

Si m < r aller en 2) Sinon arrêt.

C

₀

C

_i

+ ε C

_i

− ε

C

_i

(9)

Classification Automatique  

Classification Ascendante Hiérarchique

Principe :

créer, à chaque étape, une partition obtenue en agrégeant 2 à 2 les formes les plus proches.

l algorithme ne fournit pas une partition en k clusters mais une hiérarchie de partitions sous la forme d arbres appelés également dendrogrammes.

L intérêt de ces arbres est qu ils peuvent donner une idée du nombre de clusters existant effectivement dans la population D des formes.

Classification Automatique  

Classification Ascendante Hiérarchique

(10)

Classification Automatique  

Classification Ascendante Hiérarchique

Soit un ensemble D = { X

¹

, X

²

,...,X

^N

} de N observations à partitionner, caractérisés par n caractères ou variables (X

ⁱ

∈ ℜ

ⁿ

).

Soit H un ensemble de parties de D.

H est une hiérarchie si et seulement si : 1. D ∈ H

2. ∀ X ∈ D, { } X ∈ H

3. ∀ h

_i

∈ H, ∀h

_j

∈ H, h

_i

∩ h

_j

= ∅ ou h

_i

⊂ h

_j

ou h

_j

⊂ h

_i

H est une hiérarchie indicée s il existe une fonction ƒ de H dans ℜ

⁺

telle que :

4. ∀ X ∈ D, ƒ ( { } X ) ⁼ ⁰

5. ∀ h

_i

∈ H, ∀h

_j

∈ H, h

_i

≠ h

_j

, h

_j

⊂ h

_i

⇒ ƒ ( ) h

_j

^{< ƒ} ^{( )} ^h

ⁱ

La fonction ƒ est appelée indice d agrégation

(distance entre deux éléments de H).

Les 2 nœuds sont sur 2 branches différentes

Sur une même branche

Classification Automatique  

Classification Ascendante Hiérarchique

Représentation arborescente d une hiérarchie :

Une hiérarchie indicée H est isomorphe à un arbre dont les nœuds sont associés aux éléments de H et la relation « fils de », à la relation de borne supérieure pour l inclusion.

Les feuilles représentent les formes et la racine, l ensemble D.

(11)

Classification Automatique  

Distance entre clusters

Classification Automatique  

Classification Ascendante Hiérarchique

(12)

Classification Automatique  

Classification Ascendante Hiérarchique

Exemple :

Soit un ensemble de formes représentées par des points (numérotés de 1 à 5) dans un repère euclidien, et d la distance euclidienne.

2 1

3

4

5 d 1 2 3 4 5 1 0 √10 √8 √10 √13 2 0 √34 2 √41 3 0 √26 1 4 0 √29 5 0

À ce groupe h

₆

={3,5} est associé son niveau, ou indice d agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h

₆

)=1

regrouper 3 et 5, qui sont les points les

plus proches, et former un groupe

h

₆

={3,5}

Classification Automatique  

Classification Ascendante Hiérarchique

Comment déterminer la distance de h

₆

aux formes restantes ?

2

4 h

₆

Plusieurs solutions sont possibles : - Single link

consiste à affecter à la distance entre 2 groupes la distance entre leurs formes les plus proches.

- Complete link

retient la distance entre leurs formes les plus éloignées.

Single link d 1 2 4 h

₆

1 0 √10 √10 √8 2 0 2 √34 4 0 √26 h

₆

0 Complete link

d 1 2 4 h

₆

1 0 √10 √10 √13

2 0 2 √41

4 0 √29

h

₆

0

1

(13)

Classification Automatique  

Classification Ascendante Hiérarchique

2 1

4 h

₆

Single link d 1 h

₆

h

₇

1 0 √8 √10 h

₆

0 √26 h

₇

0 À ce groupe h

₇

={2,4} est associé son niveau, ou indice d agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h

₇

)=2

regrouper 2 et 4, qui sont les points les

plus proches, et former un groupe

h

₇

={2,4}

Complete link d 1 h

₆

h

₇

1 0 √13 √10 h

₆

0 √41 h

₇

0 h

₇

Classification Automatique  

Classification Ascendante Hiérarchique

1 h

₆

Single link d h

₇

h

₈

h

₇

0 √10 h

₈

0 À ce groupe h

₈

est associé son niveau, ou indice d agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h

₈

)= √8

regrouper 1 et h

₆

, et former un groupe

h

₈

={1}∪ h

₆

h

₇

Complete link d h

₆

h

₈

h

₆

0 √41 h

₈

0 À ce groupe h

₈

est associé son niveau, ou indice d agrégation ƒ qui est la distance entre ses 2 sous-groupes, ƒ(h

₈

)= √10

regrouper 1 et h

₇

, et former un groupe

h

₈

={1}∪ h

₇

À la dernière étape toutes les formes sont regroupées.

Single link Complete link

h

₉

= h

₇

∪ h

₈

={1,2,3,4,5} h

₉

= h

₆

∪ h

₈

={1,2,3,4,5}

ƒ(h

₉

)= √10 ƒ(h

₉

)= √41

(14)

Classification Automatique  

Classification Ascendante Hiérarchique

2 1

3 5 4 D

ƒ

h

₇

h

₄

h

₂

h

₁

h

₅

h

₃

h

₆

h

₈

h

₉

CAH Single link

2 1

3

4

5 Classification Automatique  

Classification Ascendante Hiérarchique

2 1

3 5 4 D

ƒ

h

₇

h

₄

h

₂

h

₁

h

₅

h

₃

h

₆

h

₈

h

₉

CAH Complete link

2 1

3

4

5

(15)

Classification par modèles de mélanges

(Mixture Model Clustering)

€

p( x /Θ) = α _j ^p( ^x ^/ θ _j ⁾

j=1 m

∑

€

α

j≥0,

α

j j=1 m

∑

⁼¹

€

θ

_j

= { µ

_j

,∑

_j

}

Modèle de mélange probabiliste :

proportion de mélange

composante de densité

En général :

Cette approche peut approximer des distributions arbitraires.

Les paramètres du modèle sont estimés en utilisant l approche du maximum de vraisemblance

et l algorithme EM (Expectation-Maximization)

Maximum de vraisemblance (Maximum- Likelihood)

€

p( x /Θ) = α

_j

p( x / θ

_j

)

j=1 m

∑

€

θ

_j

= { α

_j

, µ

_j

,∑

_j

}

Modèle :

Paramètres : Vraisemblance :

€

L(Θ / X) = p( x

_i

/Θ)

i=1 N

∏

Espace des données

Vraisemblance comme fonction du paramètre

€

µ

j

(16)

Algorithme EM (Expectation-Maximization)

€

p( x

_i

/Θ) Initialisation : aléatoire

E-step (Expectation) :

- Calculer pour les N exemples et m modèles - Utiliser la règle de Bayès pour trouver les probabilités d être dans la gaussienne j sachant x

_i

:

€

α

₁

, µ

₁

,∑

₁

€

α

₂

, µ

₂

,∑

₂

€

r

_ij

€

p( j / x

_i

) = r

_ij

= α

_j

p( x

_i

/ θ

_j

) α

_l

p( x

_i

/ θ

_l

)

l=1 m

∑

€

α

₂

, µ

₂

,∑

₂

€

α

₁

, µ

₁

,∑

₁

Algorithme EM (Expectation-Maximization)

M-step (Maximization) :

- Fixer les probabilités et calculer les paramètres du mélange :

€

µ

^∧_j

=

r

_ij

x

_i

i=1 N

∑

r

_ij

i=1 N

∑

Σ

j

∧

=

r

_ij

( x

_i

− µ

^∧_j

)(x

_i

− µ

^∧_j

)

^T

i=1 N

∑

r

_ij

i=1 N

∑

α

^∧_j

= 1 N r

_ij

i=1 N

∑

EM est une procédure itérative à répéter jusqu à convergence.

€

r

_ij

(17)

Algorithme EM (Expectation-Maximization) Le clustering à base de EM :

- Suppose un nombre a priori m connu de clusters - Garantit (seulement) un optimum local

- Converge lentement

- Dépendant de l initialisation

•  Critère basé sur la stabilité :

•  Choisir le clustering le plus stable en fonction des perturbations des données, des paramètres, de l initialisation

•  Méthodes probabilistes : vraisemblance pénalisée -log(vraisemblance) + d°liberté

•  Akaike Information Criterion (critère prédictif)

K : nb. Paramètres du modèle N : nb. données

•  Bayesian Criterion de Schwartz (critère explicatif)

•  Indices de validité :

•  Variance intra et inter-clusters

•  Indices : Dunn, Davies-Bouldin, Jaccard, Rand, Rogers &

Tanimoto, …

Comment choisir le nombre de clusters ?

€

AIC = −2log(L( θ

^∧

)) + 2k

€

BIC = −2log(L( θ

^∧

)) + log(N)k

(18)

Classification Automatique de données qualitatives

Classification Relationnelle  

Méthode Condorcet ou Vote Condorcet

Marquis de Condorcet

Né à Ribemont (Picardie) 1743-1794

La méthode Condorcet ou vote Condorcet = un système électoral, une manière de réfléchir aux systèmes de vote.

où les votants classent les candidats par ordre de préférence.

Le candidat élu par cette méthode est celui, s'il existe, qui comparé tour à tour à tous les autres candidats, s'avèrerait à chaque fois être le candidat préféré.

Non-transitivité de la règle majoritaire (paradoxe de Condorcet)

(19)

Classification Relationnelle  

Méthode Condorcet ou Vote Condorcet

Une assemblée de 60 votants ayant le choix entre trois propositions a, b et c.

Les préférences se répartissent ainsi (en notant a > b, le fait que a est préféré à b) :

23 votants préfèrent : a > c > b 19 votants préfèrent : b > c > a 16 votants préfèrent : c > b > a 2 votants préfèrent : c > a > b

Vote pluraliste, a l emporte avec 23 voix, sur b avec 19 voix et sur c avec 18 d où a > b > c.

Comparaisons majoritaires par paires, on obtient : 35 préfèrent b > a contre 25 pour a > b 41 préfèrent c > b contre 19 pour b > c 37 préfèrent c > a contre 23 pour a > c

Ce qui conduit à la préférence majoritaire c > b > a, exactement contraire au choix pluraliste.

Exemple :

Classification Relationnelle  

C'est la raison pour laquelle on préfère souvent un scrutin

uninominal majoritaire à deux tours, ou un autre système de

vote pondéré.

(20)

Classification Relationnelle  

Analyse relationnelle

Algorithme basé sur les travaux :

J.-F. Marcotorchino, F. Michaud, « Optimisation en analyse ordinale des données », Paris, Masson, 1979

H. Benhadda, J.-F. Marcotorchino, « L analyse relationnelle pour la fouille de grandes bases de données », Revue des Nouvelles Technologies de l'Information (RNTI), Editions Cépaduès, 2007.

Logiciel Intelligent Miner d IBM

Classification démographique / classification relationnelle / méthode de votes / méthode de Condorcet / méthode d agrégation des

similarités

Gratuiciel « POP » M. Petijean (UP7)

http://petitjeanmichel.free.fr Package AMAP du logiciel R,

http://cran.fr.r-project.org/doc/packages/amap.pdf

Classification Relationnelle  

Analyse relationnelle (principe)

Représentation des données sous forme de relations d équivalence.

Classification = relation d équivalence , où si et sont dans le même cluster

On peut associer à une matrice :

Les 3 propriétés d une relation d équivalence sont :

Recherche d une classification = recherche d une matrice satisfaisant aux conditions précédentes.

€

m

ij

=

1 si i ℜ j 0 sinon

#

$ %

&

%

€

i ℜ j

€

ℜ

€

i

€

j

€

ℜ

€

M _NxN = ( ) m _ij

€

Réflexivité m

ii

=1 Symétrie m

_ij

= m

_ji

Transitivité m

_ij

+ m

_jk

− m

_ik

≤ 1

$

% &

' &

(21)

Classification Relationnelle  

Analyse relationnelle (AR)

En AR toutes les variables des individus de la population à segmenter doivent être qualitatives (sans quoi il faut les discrétiser)

A chacune des p variables qualitatives correspond une classification naturelle :

Chaque cluster est composé des individus ayant la même modalité pour la variable considérée.

Le but de l AR est de trouver une classification qui fournisse un bon compromis entre les p classifications naturelles initiales.

Pour cela :

= le nombre de fois où les individus et ont été mis dans le même cluster (i.e. le nombre de variables pour lesquelles et ont la même modalité)

€

m _ij

€

i

€

j

€

i

€

j

Classification Relationnelle  

Analyse relationnelle (AR)

On pose :

€

"

M = ( ) m " _ij ⁼ ² ( ) ^m ^ij ⁻ ^p

Alors :

€

"

m _ij f 0 si i et j sont dans le même cluster

Coïncident pour une majorité de variables

€

"

m _ij p 0 si i et j sont dans des clusters différents

€

"

m _ij = 0 s' il y a au tan t de var iables pour lesquelles i et j

sont réunis que de var iables pour lesquelles ils sont séparés

(22)

Principe de la majorité est « insuffisant » :

Placer et dans le même cluster si , et les séparer si

Mais ce critère ne suffit pas, car il y a non-transitivité de la règle majoritaire :

On peut avoir une majorité pour réunir et , et , mais non pour réunir et .

Il faut donc ajouter des contraintes (reflex, sym, trans) pour trouver une classification satisfaisant au mieux la majorité des classifications initiales.

Problème de programmation linéaire => Travaux Marcotorchino et Michaud

Classification Relationnelle  

Analyse relationnelle (AR)

€

"

m _ij f 0

€

"

m _ij p 0

€

i

€

j

€

i

€

j

€

j

€

k

€

i

€

k

€

p

Classification Relationnelle  

Mise en œuvre (manière intuitive)

Pour toute paire d individus (A,B), on commence par poser : = nombre de variables ayant la même valeur pour A et B et = nombre de variables ayant des valeurs différentes pour A et B

Le critère de Condorcet de deux individus A et B est défini comme étant :

On définit ensuite le critère de Condorcet d un individu A et d un cluster S comme étant :

€

m( A, B)

€

d( A, B)

€

c( A, B) = m( A, B) − d( A, B)

c( A, S) = c( A, B _i )

i=1 S

∑ ^, ^B ⁱ ^∈ ^S

(23)

Classification Relationnelle  

Mise en œuvre

Construction des clusters :

•  On place chaque individu A dans le cluster S pour lequel c(A,S) est maximum et ≥ 0

ou ( : seuil de similarité) ( , ou une valeur plus grande pour renforcer l homogénéité des clusters).

Une grande valeur de => grande homogénéité des clusters.

•  Si existant, constitue le premier élément d un nouveau cluster.

€

c( A, B) = m( A, B) − α .d( A, B)

€

α = 1 2

€

α

€

c( A, S) p 0 ∀ S

€

A

€

α

Classification Relationnelle  

Mise en œuvre

•  On prend donc un premier individu que l on compare à tous les autres individus, pour le regrouper éventuellement avec un second individu .

•  On prend le second individu que l on compare aux autres individus ainsi que, si il existe, au cluster .

et ainsi de suite …

Cette étape constitue la première itération de la classification.

•  On peut réaliser une second itération, en reprenant chaque individu et en le réaffectant éventuellement à un autre cluster, parmi ceux définis lors de la première itération.

€

A

€

B _A

€

B

€

A, B _A

{ }

(24)

Classification Relationnelle  

Mise en œuvre

•  On réalise ainsi plusieurs itérations, jusqu à ce que : -  le nombre maximum d itérations spécifié soit atteint, ou

-  le critère de Condorcet global ne s améliore plus suffisamment (de plus de 1% par exemple) d une itération à la suivante.

où la somme porte sur tous les individus et les clusters auxquels ils ont été affectés.

En pratique 2 ou 3 itérations suffisent à fournir une bonne classification. € Condorcet = c( A, S _A )

A,S

_A

∑

€

A

€

S _A

Classification Relationnelle  

Plus formellement

Travaux de Marcotorchino et Michaud : modéliser la règle de la majorité sous contraintes de Condorcet par programmation linéaire :

€

max X Condorcet(C, X ) =

i=1 N

∑ ^& _' ⁽ ^C ⁱ ⁱ ^# ⁻ ^α ^C ⁱⁱ ⁺ ₂ ^C ⁱ ^# ⁱ ^# ⁾ _* ⁺ ^x ⁱ ⁱ ^#

# i =1

N

∑

slc

x _i _i _# ∈ { } 0,1 ^(binarité)

x _ii = 1 ∀i = 1,..., N (réflexivité)

x _i _i _# = x _{i i} _# ∀i, i # = 1,..., N (symétrie) x _i _i _# + x _i _# _i _# _# − x _i _i _# _# ≤ 1 ∀i, i # , i # # = 1,..., N (transitivité) /

0 1 1

2 1 1

Partition recherchée Matrice

Relationnelle

collective

(25)

Classification Relationnelle  

Plus formellement

A chaque itération, l algorithme parcourt chaque individu 1- On calcule la contribution de l individu courant avec les clusters constitués :

€

C(O

ⁱ

,S

_k

) = C

_iS

k

= C

_i_i_"

− α C

_ii

+ C

_i_"_i_"

2 %

&

' (

) *

"

i ∈S_k

∑

Contribution atomique de la mise en relation entre les individus i et i 2- A partir de ces contributions de l individu courant avec les clusters existants, on retient celle qui est la plus forte ainsi que le n° du

cluster.

3- Si cette contribution est <0 et si le nombre de clusters < nombre max de clusters autorisé,

- on crée un nouveau cluster avec l individu courant.

- sinon, on affecte l individu au cluster avec lequel il partage cette contribution maximale.

Classification Relationnelle  

Plus concrètement

objets, variables avec modalités chacune Pour chaque variable , nous considérons la matrice disjonctive

€

K

_ij^k

= 1 si i possède la mod alité j de V

_k

0 sinon

"

# $

€

K

^k

( N × p

_k

)

€

V

_k

€

V

_k

, k = 1, K , M

€

p

_k

Tableau disjonctif complet :

€

K = ( K ¹ K ² K ³ K K ^M )

€

D =

V

₁

V

₂

V

₃

O

¹

1 1 1 O

²

1 1 2 O

³

2 1 3 O

⁴

2 1 3 O

⁵

2 1 3 Données

€

K =

V

₁

V

₂

V

₃

O

¹

1 0 1 1 0 0 O

²

1 0 1 0 1 0 O

³

0 1 1 0 0 1 O

⁴

0 1 1 0 0 1 O

⁵

0 1 1 0 0 1

P r

₁

P r

2

P r

₃

P r

₄

P r

₅

Tableau disjonctif complet Profils

€

N

€

M

Exemple :

K

¹

K

²

K

³

(26)

Classification Relationnelle  

Linéarisation

€

C

_iS

k

= C

_i_i_"

− α C

_ii

+ C

_i_"_i_"

2 %

&

' (

) *

"

i ∈Sk

∑

= r

P

i

, r

P

i "

− α

P r

i

, r P

i

+ r

P

i "

, r

P

i "

2 %

&

' '

( )

* *

"

i ∈Sk

∑

= r

P

i

, r

P

i "

"

i ∈Sk

∑ ⁻

"

i ∈Sk

∑ ^α

P r

i

, r P

i

+ r

P

i "

, r

P

i "

2 %

&

' '

( )

* *

= r

P

i

, r P

_Sk

− α

S

_k

r P

i

, r

P

i

+ r

P

i "

, r

P

i "

"

i ∈Sk

∑

2 %

&

' ' '

(

)

*

€

Exemple:

K =

V

₁

V

₂

V

₃

O

¹

1 0 1 1 0 0 O

²

1 0 1 0 1 0 O

³

0 1 1 0 0 1 O

⁴

0 1 1 0 0 1 O

⁵

0 1 1 0 0 1

P r

1

P r

₂

P r

₃

P r

₄

P r

5

S

1

= { O

¹

,O

²

} ^⇒ ^S

¹

⁼ ² ^P ^r

^S1

= ( 2 0 2 1 1 0 )

C

₃₁

= r P

₃

, r

P

₁

= ( 0 1 1 0 0 1 ) , 1 0 1 1 0 0 ( ) ⁼ ¹

P r

3

, r

P

S₁

= ( 0 1 1 0 0 1 ) , 2 0 2 1 1 0 ( ) ⁼ ²

C(O

³

,S

1

) = C

3S₁

= r P

3

, r

P

S1

− 0.5 2 r P

3

, r

P

3

+ r P

1

, r

P

1

+ r P

2

, r

P

2

( )

2 $

%

&

' ( ) )

= 2 − 0.5 2.3+ ( 3 + 3 )

2 $

% & '

( ) = −1

Classification Relationnelle  

Inputs :

kmax = nombre de clusters maximal, α = seuil de similarité itr = nombre d itérations et N = nombre d exemples

Output : au plus kmax clusters

-  Prendre le premier individu comme élément du premier cluster S

₁

- k=1 où k est le nombre de clusters

for l=1 to itr do for i=1 to N do for j=1 to k do

Calculer la contribution entre l individu O

ⁱ

et le cluster S

_j

end for

**k* ← l indice du cluster avec lequel O**

ⁱ

a la plus forte contribution

C(O

ⁱ

, S

_k*

)← la contribution calculée if C(O

ⁱ

, S

_k*

) < 0 and k < kmax then

Créer un nouveau cluster dont O

ⁱ

est le premier élément k ← k+1

else

Affecter O

ⁱ

au cluster S

_k*

end if end for end for

Algorithme

(27)

Classification Relationnelle  

Avantages et Inconvénients

1.  Détermine automatiquement le nombre optimum de clusters au lieu de le fixer a priori

2.  Traite efficacement un grand volume de données grâce à un temps d exécution croissant quasi linéairement avec le nombre de données 3.  Compare à chaque étape tous les individus 2 à 2, et obtient ainsi une

classification globale, et non locale comme la CAH

1.  Réservée aux variables nominales, les variables continues doivent être discrétisées

2.  La sensibilité au nombre de modalités des variables : les variables avec peu de modalités ont plus de poids que les autres (c est l inverse des méthodes factorielles où le nombre de modalités augmente la contribution à l inertie)

3.  La sensibilité à la présence de variables redondantes, qui vont orienter la classification en faveur de ces variables qui deviendront les plus discriminantes

Avantages :

Inconvénients :

Validité et Stabilité de la classification

2 types de critères de qualité :

Externes : mesurer l adéquation entre une partition et les connaissances a priori dont on dispose.

-  Jaccard -  Rand

-  Rogers & Tanimoto

Internes : quantifier l adéquation entre une partition et l idée subjective que l on se fait d une « bonne » partition (compacité + séparabilité)

-  Erreur quadratique moyenne -  Indice de Dunn

-  Indice de Davies-Bouldin

-  …

(28)

Indices de qualité externes

Le nombre de paires de données correctement classées dans le même cluster

(accord positif)

Le nombre de paires de données correctement classées dans des clusters différents

(accord négatif)

Le nombre de paires de données incorrectement classées dans le même cluster

(désaccord relatif de la 1ère partition avec la 2ème)

Le nombre de paires de données incorrectement classées dans des clusters différents

(désaccord relatif de la 2ème partition avec la 1ère)

Indices de qualité internes

La variance interne du cluster i associé au référents w

_i

Le nombre de référents

Référent associé au

neurone i

(29)

Stabilité de la classification 

S. Ben-David (2005) :

« A notion of stability for statistical clustering with applications to model selection », Tech. Report, University of Waterloo, Canada.

Stabilité de la classification  sous-échantillonnage

A. Ben-Hur, A. Elisseeff, I. Guyon (2002) :

« A stability based method for discovering structure in clustered data », Pacific Symposium on Biocomputing, 7:6-17.

(30)

Stabilité de la classification  sous-échantillonnage

V. Roth, T. Lange, M. Braun, J. Buhmann (2002) :

« A resampling approach to cluster validation », Computational statistics - Compstat 02.

Traitement Numérique des Données

Digital Data Processing