S ´eance 3: Positionnement Multidimensionnel - Classification
S ´ebastien Gadat
Laboratoire de Statistique et Probabilit ´es UMR 5583 CNRS-UPS
www.lsp.ups-tlse.fr/gadat
Introduction Distance, similarit ´es Recherche d’une configuration de points
Troisi `eme partie III
Positionnement Multidimensionnel
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Distance, similarit ´es Recherche d’une configuration de points
Introduction
Notations
On suppose donn ´es n individus.
p variables de valeurs inconnues pour chaque individu.
Indice de dissimilarit ´e/distance entre chacun des individus connus.
♣ Comment construire une repr ´esentation euclidienne dans un
espace de taille r ´eduite fid `ele aux donn ´ees ?
Introduction Distance, similarit ´es Recherche d’une configuration de points
Exemples
Donn ´ees : tableau contenant les distances `a parcourir par route entre diff ´erentes villes (en km).
Les ”coordonn ´ees” des villes sont inconnues.
−800 −600 −400 −200 0 200 400
−400−2000200400
cp1
cp2
amie ando
ange
bale laba
besa bord
boul bour
bres
brux caen
cala
cham
cher
clem
dijo gene gren
leha hend
lill limo
lour
luxe lyon
lema
mars
metz mont
mulh nanc nant
nice
orle pari perp
poit
reim renn
roue
roya stma
stra toul
tour
troy
F
IG.: Approximation euclidienne issue du tableau de distances.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Distance, similarit ´es Recherche d’une configuration de points
Exemples
♣ La matrice de distances est-elle euclidienne ?
♣ L’approximation euclidienne est-elle satisfaisante ?
La MDS est une technique factorielle (n ´ecessit ´e de d ´eterminer un nombre de dimension).
Possibilit ´e d’observer graphiquement les donn ´ees `a travers
diff ´erentes optiques.
Introduction Distance, similarit ´es Recherche d’une configuration de points
D ´efinitions
D ´efinitions
Rappelons quelques propri ´et ´es et d ´efinitions ´el ´ementaires mais basiques `a propos de la notion de distance.
Une matrice (n × n) D est appel ´ee matrice de distance si elle est sym ´etrique et si :
d
jj= 0 et ∀(j, k), j 6= k, d
kj≥ 0.
Une matrice (n × n) C est appel ´ee matrice de similarit ´e si elle est sym ´etrique et si
∀(j, k), c
kj≤ c
jj.
♣ On peut transformer une matrice de similarit ´e en (c
kj)
j,ken matrice de distance via :
d
kj=(c
jj+ c
kk− 2c
kj)
−1/2S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Distance, similarit ´es Recherche d’une configuration de points
D ´efinitions
D ´efinitions
Une matrice de distance est dite euclidienne s’il existe une configuration de vecteurs {x
1, . . . , x
n} v ´erifiant
(d
kj)
2=
On note A la matrice issue de D de terme g ´en ´eral
(a
ji) = − (d
kj)
22
D d ´esigne la matrice des poids des individus.
Introduction Distance, similarit ´es Recherche d’une configuration de points
D ´efinitions
D ´efinitions
Proposition :
La matrice de projection D-orthogonale au vecteur 1 est donn ´ee par
H = Id − 11
0D
Une matrice de distance D est euclidienne si et seulement si B = HAH
0est sym ´etrique d ´efinie positive. (B est la matrice obtenue par double centrage de A).
Si la matrice de similarit ´e C est positive, alors la matrice de distance D d ´eduite de C est euclidienne.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Distance, similarit ´es Recherche d’une configuration de points
Recherche d’une configuration de points
Positionnement multidimensionnel : recherche d’une
configuration de points dans un espace euclidien qui admette une matrice de distances :
´egale `a D si celle-ci satisfait la proposition pr ´ec ´edente
meilleure approximation possible pour un rang de matrice donn ´e (en g ´en ´eral 2) de D
Il n’y a jamais unicit ´e d’une telle repr ´esentation : si (x
i)
iest une solution, alors
(z
i)
i= (Fx
i+ b)
iest une solution lorsque F orthogonale et b quelconque.
Une solution est donc d ´efinie `a rotation et translation pr `es.
Introduction Distance, similarit ´es Recherche d’une configuration de points
Algorithme MDS
On se donne D matrice de distance et B la matrice centr ´ee des lignes et colonnes, calcul ´ee comme pr ´ec ´edemment.
Si D est une matrice de distance euclidienne de points {x
1, . . . , x
n}, alors B s’ ´ecrit en fait
b
i,j= hx
i− ¯ x, x
j− ¯ xi
et B se met sous la forme B = (HX)
0(HX) et est appel ´ee matrice des produits scalaires de la configuration centr ´ee.
R ´eciproquement, si B est positive de rang p, on ´ecrit sa d ´ecomposition spectrale
B = U∆U
0Les vecteurs sont les lignes de la matrice centr ´ee X = U∆
1/2qui fournissent les coordonn ´ees des vecteurs de la repr ´esentation euclidienne.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Distance, similarit ´es Recherche d’une configuration de points
Relation entre ACP et MDS
Supposons que Y soit un nuage de n points (x
1, . . . x
n) d ´ecrits par p variables (connues). On d ´efinit D comme la matrice des distances entre les n individus :
d
ji= kx
i− x
jk
MLa repr ´esentation graphique obtenue par MDS sur D est identique `a
la r ´ealisation d’une ACP sur (Y , M, 1/nId).
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Quatri `eme partie IV Classification
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Introduction
Notations
On suppose donn ´es n individus.
Les donn ´ees se pr ´esentent :
Sous la forme d’un tableau de distance
Les observations de p variables quantitatives sur les n individus Un m ´elange de variables qualitatives et quantitatives
Pour chacun des cas, on construit un tableau de distance entre individus
Objectif : recherche d’une segmentation (ou partition) des
individus
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Introduction
Notations
Probl `eme : il y a trop de partitions possibles pour esp ´erer explorer toutes les segmentations des individus
Moyens : optimisation d’un crit `ere pour fusionner deux groupes d’individus
Le probl `eme trait ´e s’appelle clustering, c’est une technique d’apprentissage non supervis ´e
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Construction d’un Crit `ere
Toutes les techniques pr ´esent ´ees seront des algorithmes it ´eratifs convergeant vers une ”bonne” partition.
Comment mesurer si une partition est ”bonne” ? Degr ´es de latitude :
Mesure d’ ´eloignement des individus
Crit `ere d’homog ´en ´eit ´e des classes `a optimiser (souvent un crit `ere de variance)
M ´ethode de fusion (Classification ascendante ou nu ´ees dynamiques)
Nombre de classes
Obtenir des classes ”homog `enes” (variance intra-classe faible) Obtenir des classes ”bien” distinctes (variance inter-classe
´elev ´ee)
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Classification hi ´erarchique ascendante
Regrouper 2 individus les plus proches
Construction progressive d’un arbre du bas vers le haut S ´election de groupes `a ”fusionner” par le biais de calculs de sauts ou linkage
Nombre de classes d ´etermin ´e a posteriori
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Classification Ascendante Hi ´erarchique sur les villes
luxemetz nancreim troy besa dijo stra
bale mulhmars nice
cham genegren lyon
hend
bord roya mont perpando lour toul
boul cala brux
lill
caen cher leha roue amieparibres
renn stma laba nantclem
limo poit ange lema tour bour orle
010002000300040005000
Height
F
IG.: Villes : Exemple d’un dendrogramme issu de la classification des donn ´ees par CAH et saut de Ward.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Classification par r ´e-allocation dynamique
On fixe le nombre de classes k a priori
Tirage al ´eatoire (uniforme) de k centres de classe
Partition des individus en regroupant vers le centre le plus proche possible
Mise `a jour des centres comme barycentre des groupes obtenus It ´eration du processus jusqu’ `a stabilisation des partitions
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
CAH sur l’exemple des villes
5 10 15
10002000300040005000
nb de classes
Hauteur
F
IG.: Villes : D ´ecroissance de la variance interclasses `a chaque regroupement dans le cas du saut de Ward.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
CAH sur l’exemple des villes
−800 −600 −400 −200 0 200 400
−400−2000200400
cp1
cp2
amie ando
ange
bale laba
besa bord
boul bour
bres
brux caen
cala
cham
cher
clem
dijo gene gren
leha hend
lill limo
lour
luxe lyon
lema
mars
metz mont
mulh nanc nant
nice
orle pari perp
poit
reim renn
roue
roya stma
stra toul
tour
troy
F
IG.: Villes : Repr ´esentation des classes (couleurs) obtenues par CAH dans les coordonn ´ees du MDS.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Stabilit ´e des classifications
Choix du nombre de classe : k est le plus petit entier correspondant `a une baisse non significative de la variance inter-classes : ici k = 5.
CAH : instabilit ´e importante par rapport aux modifications des distances entre individus initiaux
R ´e-allocation dynamique : plus grande stabilit ´e
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Indice de ressemblance Indice de ressemblance Mesures d’ ´eloignement entre groupes
Mesures d’ ´eloignement entre individus
L’indice de ressemblance s satisfait :
∀(i, j) ∈ Ω s(i, j) = s(j, i)
∀i ∈ Ω s(i, i) = S > 0
∀(i, j) ∈ Ω s(i, j) < S
L’indice de dissemblance d satisfait :
∀(i, j) ∈ Ω d(i, j) = d(j, i)
∀i ∈ Ω d(i, i) = 0
On passe d’une notion `a l’autre en utilisant :
∀(i, j) ∈ Ω d(i, j) = S − s(i, j) Par ailleurs, on peut normer l’indice d par
d
?(i, j) = 1 D d(i, j)
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Indice de ressemblance Indice de ressemblance Mesures d’ ´eloignement entre groupes
Mesures d’ ´eloignement entre individus
Un indice de distance est un indice de dissemblance satisfaisant en plus :
∀(i, j) ∈ Ω d(i, j) = 0 = ⇒ i = j
Une distance est un indice de distance v ´erifiant en plus l’in ´egalit ´e triangulaire :
∀(i, j, k) ∈ Ω d(i, j) ≤ d(i, k) + d(k, j)
M ´etrique Euclidienne M = Id, distance euclidienne : d(x, y) = kx − yk
MM ´etrique r ´eduite matrice diagonale M : inverse des ´ecarts types
M ´etrique de Mahalanobis : M inverse de la matrice de variance
covariance
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - ClassificationIntroduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Indice de ressemblance Indice de ressemblance Mesures d’ ´eloignement entre groupes
Mesures d’ ´eloignement entre groupes
Pour effectuer la CAH, il est n ´ecessaire de pouvoir calculer des distances entre groupes. Si A et B d ´esignent ces 2 groupes, on peut opter pour plusieurs strat ´egies :
♣ d(A, B)= Saut minimum, single linkage
♣ d(A, B)= Saut maximum, complete linkage
♣ d(A, B)= Saut moyen, average linkage
♣ d(A, B)= Barycentres, centro¨ıds
♣ d(A, B)= Saut de Ward
Le saut de Ward est la strat ´egie la plus courante : dans le cas Euclidien, ce crit `ere correspond `a chaque it ´eration `a minimiser la d ´ecroissance de la variance interclasse.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Propri ´et ´es des Centres mobiles
On initialise les k centres sur k individus parmi les n choisis au hasard.
Propri ´et ´e La variance inter-classes augmente `a chaque it ´eration.
L’algorithme converge vers un optimum local de la variance inter/intra classes.
Plusieurs am ´enagement ont ´et ´e propos ´es :
k-means : les barycentres des classes sont mis `a jour `a chaque allocation d’un individu dans une classe
on remplace le noyau barycentrique par un noyau repr ´esentatif
de la classe
Introduction Algorithmes de classification Mesures d’ ´eloignement Propri ´et ´es des Centres mobiles
Classification par Centres mobiles
−800 −600 −400 −200 0 200 400
−400−2000200400
cp1
cp2
amie ando
ange
bale laba
besa bord
boul bour
bres
brux caen
cala
cham
cher
clem
dijo gene gren
leha hend
lill limo
lour
luxe lyon
lema
mars
metz mont
mulh nanc nant
nice
orle pari perp
poit
reim renn
roue
roya stma
stra toul
tour
troy
F
IG.: Villes : Repr ´esentation des classes (couleurs) obtenues par PAM dans les coordonn ´ees du MDS.
S ´ebastien Gadat S ´eance 3: Positionnement Multidimensionnel - Classification