• Typologie de la r ´eduction de dimension
• m ´ethode de base: ACP
• “groupement (clustering) des dimensions”
• extensions:
• ACP non-lin ´eaire (NLPCA)
• ´echelonnement multidimensionnel (multidimensional scaling – MDS)
• cartes auto-organisatrices (self-organizing maps – SOM)
• local linear embedding (LLE)
• ISOMAP
• courbes principales (principal curves)
• Typologie de groupement (clustering)
• m ´ethode de base: k-moyennes
• groupement (clustering) des points
• extensions:
• k-moyennes flou (fuzzy k-means) ≡ SOM
• densit ´es du m ´elange ⊆ k-moyennes flou
• groupement hi´erarchique (hierarchical clustering)
• Densit ´es du m ´elange
• mod `ele semi-param ´etrique:
p(x | ! ) = "k
!=1
p(x | C
!, !
!)P( C
!)
• k classes
• vecteur des param `etres: ! = ( !
1, . . ., !
k)
• densit ´es de composante: p(x | C
!, !
!)
• probabilit ´es a-priori (param `etres du m ´elange): P(C
!)
• Objectif
• estimer ! , (P(C
!)) ´etant donn ´e X
n= { X
1, X
2, . . . , X
n}
• Approche de maximum de vraisemblance
• p( X
n| ! ) = #n
i=1
p(x
i| ! )
• l = "n
i=1
log p(x
i| ! )
!
!!l = "n
i=1
1
p(x
i| ! ) !
!!!
k"
j=1
p(x
i| C
j, !
j)P(C
j)
"
= "n
i=1
P( C
!| x
i, ! ) !
!!log p(x
i| C
!, !
!) = 0
• o `u P(C
!| x
i, ! ) = p(x
i| C
!, !
!)P(C
!)
p(x
i| ! )
• Algorithme it ´eratif
D ENSIT ES ´ D U M ´ ELANGE ( X
n) 1 !
(0)← #
!
(0)1, . . ., !
(0)k$
, j ← 0 2 faire
3 pour ! ← 1 `a k faire 4 pour i ← 1 `a n faire
5 P
!,i(j)= P(C
!| x
i, !
(j)) ← p(x
i| C
!, !
(!j))P(C
!) p(x
i| !
(j)) 6 pour ! ← 1 `a k faire
7 !
(!j+1)← solution
%
n"
i=1
P
!,i(j)!
!!log p(x
i| C
!, !
!) = 0
&
8 j ← j + 1 9 jusqu’`a '
1 −
l(lj+1)(j)( < seuil
• k-moyennes flou (fuzzy k-means)
• x
iappartient `a V
!avec un poids W
i,!( ∼ P(C
!| x
i))
• W
i,!est normalis ´e pour tous les points x
i:
k
"
!=1
W
i,!= 1
• objectif: minimiser
J
fuz= "k
!=1 n
"
i=1
W
bi,!& x
i− µ
!&
2• Solution (b > 1)
• µ
!= "
ni=1W
bi,!x
i"
ni=1W
bi,!• W
i,!= (1/d
i!)
1/(b−1)"
k!'=1(1/d
i!')
1/(b−1), (d
i!= & x
i− µ
!&
2)
• algorithme it ´eratif
• Normalisation
.2 .4 .6 .8 1
0 .2 .4 .6 .8 1
.25 .5 .75 1 1.25 1.5 1.75 2
0 .1 .2 .3 .4 .5
.1 .2 .3 .4 .5 0
.2 .4 .6 .8 1 1.2 1.4 1.6
2 00 .5
( )
x2
x2
x2
x1
x1
x1
.5 0
( )
0 2• Normalisation
x
1x
1x
2x
2• Crit `eres diff ´erents
• m ´etrique de Minkowski:
d(x, x
') = )
d"
i=1
| x
i− x
'i|
p*
1/p• mesures de similarit ´e:
s(x, x
') = x
tx
'& x & & x
'&
• x
tx
'est le nombre des attributs partag´es (variables binaires)
• & x & & x
'& est la moyenne g´eom ´etrique des attributs poss´ed ´es par x et x
'• s(x, x
'): possession relative des attributs
• Crit `eres diff ´erents
• versions diff ´erentes:
• fraction des attributs partag´es: s(x, x
') = x
tx
'd
• distance de Tanimoto: s(x, x
') = x
tx
'x
tx + x
'tx
'− x
tx
'• Crit `eres diff ´erents
• m ´etrique quadratique:
J
e= "c
i=1
"
x∈
V
i& x
i− v
i&
2= 1 2
c
"
i=1
n
is
i• o `u s
i= 1 n
2i"
x∈
V
i"
x'∈
V
i& x − x
'&
2• g ´en ´eralisations:
s
i= 1 n
2i"
x∈
V
i"
x'∈
V
is(x, x
') s
i= max
x,x'∈
V
is(x, x
')
• Groupement hi ´erarchique
• dendogramme:
0 10 20 30 40 50 60 70 80 90
x
1100 k = 1
k = 2 k = 3 k = 4 k = 5 k = 6 k = 7
x
2x
3x
4x
5x
6x
7x
8k = 8
´ec helle de similarit ´e
• Groupement hi ´erarchique agglom ´eratif
G ROUPEMENT H IERARCHIQUE A GGLOMERATIF ( X
n, c) 1 + c ← n
2 pour i ← 1 `a n faire 3 V
i← { x
i}
4 faire
5 trouver les groupes les plus proches V
iet V
j6 fusionner V
iet V
j7 c + ← + c − 1
8 jusqu’`a c = + c
• Distances des groupes
• d
min(V
i, V
j) = min
x∈Vi x'∈Vj
& x − x
'&
• d
max(V
i, V
j) = max
x∈Vi x'∈Vj
& x − x
'&
• d
avg(V
i, V
j) = 1 n
in
j"
x∈Vi
"
x'∈Vj
& x − x
'&
• d
mean(V
i, V
j) = &
i−
j&
• Groupement hi ´erarchique – plus proche voisin
• d
min(V
i, V
j) = min
x∈Vi x'∈Vj
& x − x
'&
• algorithme du lien simple (single-linkage)
• arbre couvrant minimal (Kruskal)
• Groupement hi ´erarchique – plus proche voisin
• Groupement hi ´erarchique – plus loin voisin
• d
max(V
i, V
j) = max
x∈Vi x'∈Vj
& x − x
'&
• algorithme du lien complet (complete linkage)
• augmenter le diam `etre le moins possible
• Groupement hi ´erarchique – plus loin voisin
d
max= large d
max= small
• Groupement hi ´erarchique incr ´ementiel
G ROUPEMENT H IERARCHIQUE I NCREMENTIEL ( X
n, c) 1 + c ← n
2 pour i ← 1 `a n faire 3 V
i← { x
i}
4 faire
5 trouver V
iet V
jdont la fusion change une crit`ere le moins 6 fusionner V
iet V
j7 c + ← + c − 1 8 jusqu’`a c = + c
• crit `ere: J
e= "c
i=1
"
x∈Vi
& x −
i&
2• distance: d
e( V
i,V
j) = , n
in
jn
i+ n
j&
i−
j&
• Groupement hi ´erarchique – approche de th ´eorie de graphe
• Matrice (graphe) de similarit ´e S i j =
% 1 si d (x i , x j ) < d 0 0 sinon.
• d
min−→ composantes connexes
• d
max−→ sous-graphes complets
• Approche de division
• Statistique de longueurs des arr ˆetes
• Chemin de diam `etre
• Groupement hi ´erarchique – approche de division
• construire un arbre couvrant minimal
• couper les arr ˆetes “longues”
• Groupement hi ´erarch. – statistique de longueurs des arr ˆetes
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
longueur longueur
nombr e
nombr e
• Groupement hi ´erarchique – m ´etrique g ´en ´er ´ee
• $ (x, x
') “dissimilarit ´e” non-m ´etrique
• non-n´egativit ´e: $(x, x
') ≥ 0
• r ´eflexivit ´e: $(x, x
') = 0 sii x = x
'• “dissimilarit ´e” des groupes
• $
min(V
i,V
j) = min
x∈Vi x'∈Vj
$ (x, x
')
• $
max(V
i,V
j) = max
x∈Vi x'∈Vj