• Typologie de la r ´eduction de dimension
• m ´ethode de base: ACP
• “groupement (clustering) des dimensions”
• extensions:
•ACP non-lin ´eaire(NLPCA)
•´echelonnement multidimensionnel(multidimensional scaling–MDS)
•cartes auto-organisatrices(self-organizing maps–SOM)
•local linear embedding(LLE)
•ISOMAP
•courbes principales(principal curves)
• Typologie de groupement (clustering)
• m ´ethode de base: k-moyennes
• groupement (clustering) des points
• extensions:
•k-moyennesflou(fuzzy k-means)≡SOM
•densit ´es du m ´elange⊆k-moyennesflou
•groupement hi´erarchique(hierarchical clustering)
Apprentissage non-supervis ´e
3• Densit ´es du m ´elange
• mod `ele semi-param ´etrique:
p(x|!) = "k
!=1
p(x|C
!, !
!)P(C
!)
• k classes
• vecteur des param `etres: ! = (!
1, . . .,!
k)
• densit ´es de composante: p(x|C
!,!
!)
• probabilit ´es a-priori (param `etres du m ´elange): P(C
!)
• Objectif
• estimer !, (P(C
!)) ´etant donn ´e X
n= { X
1,X
2, . . . ,X
n}
Apprentissage non-supervis ´e
4• Approche de maximum de vraisemblance
• p( X
n|!) = #n
i=1
p(x
i|!)
• l = "n
i=1
log p(x
i|! )
!
!!l = "n
i=1
1 p(x
i|!) !
!!!
k"
j=1
p(x
i| C
j, !
j)P(C
j)
"
= "n
i=1
P(C
!| x
i, !) !
!!log p(x
i| C
!, !
!) = 0
• o `u P(C
!| x
i,!) = p(x
i| C
!,!
!)P(C
!)
p(x
i|!)
• Algorithme it ´eratif
D
ENSITES´ D
UM ´
ELANGE( X
n) 1 !
(0)← #
!
(0)1, . . .,!
(0)k$ , j ← 0 2 faire
3 pour ! ← 1 `a k faire 4 pour i ← 1 `a n faire
5 P
!,i(j)= P(C
!| x
i, !
(j)) ← p(x
i| C
!, !
(j)!)P(C
!) p(x
i|!
(j)) 6 pour ! ← 1 `a k faire
7 !
(!j+1)← solution
%
n"
i=1
P
!,i(j)!
!!log p(x
i| C
!, !
!) = 0
&
8 j ← j +1
9 jusqu’`a ' 1 −
l(j+1)l(j)( < seuil
• k-moyennes flou (fuzzy k-means)
• x
iappartient `a V
!avec un poids W
i,!( ∼ P(C
!|x
i))
• W
i,!est normalis ´e pour tous les points x
i:
k
"
!=1
W
i,!= 1
• objectif: minimiser
J
fuz= "k
!=1 n
"
i=1
W
bi,!& x
i− µ
!&
2Apprentissage non-supervis ´e
7• Solution (b > 1)
• µ
!= "
ni=1W
bi,!x
i"
ni=1W
bi,!• W
i,!= (1/d
i!)
1/(b−1)"
k!'=1(1/d
i!')
1/(b−1), (d
i!= & x
i− µ
!&
2)
• algorithme it ´eratif
Apprentissage non-supervis ´e
8• Normalisation
.2 .4 .6 .8 1
0 .2 .4 .6 .8 1
.25 .5 .75 1 1.25 1.5 1.75 2
0 .1 .2 .3 .4 .5
.1 .2 .3 .4 .5 0
.2 .4 .6 .8 1 1.2 1.4 1.6
2 0
( )
0 .5 x2x2
x2
x1
x1
x1
.5 0
( )
0 2• Normalisation
x
1x
1x
2x
2• Crit `eres diff ´erents
• m ´etrique de Minkowski:
d(x,x
') = )
d"
i=1
| x
i− x
'i|
p*
1/p• mesures de similarit ´e:
s(x, x
') = x
tx
'& x & & x
'&
•xtx'est lenombre des attributs partag´es(variables binaires)
•&x& &x'&est lamoyenneg´eom ´etrique desattributs poss´ed ´esparxetx'
•s(x,x'):possession relative des attributs
Apprentissage non-supervis ´e
11• Crit `eres diff ´erents
• versions diff ´erentes:
•fraction des attributs partag´es:s(x,x') =xtx' d
•distance deTanimoto:s(x,x') = xtx' xtx+x'tx'−xtx'
Apprentissage non-supervis ´e
12• Crit `eres diff ´erents
• m ´etrique quadratique:
J
e= "c
i=1
"
x∈Vi
& x
i− v
i&
2= 1 2
c
"
i=1
n
is
i• o `u s
i= 1 n
2i"
x∈Vi
"
x'∈Vi
& x − x
'&
2• g ´en ´eralisations:
s
i= 1 n
2i"
x∈Vi
"
x'∈Vi
s(x,x
') s
i= max
x,x'∈Vi
s(x,x
')
• Groupement hi ´erarchique
• dendogramme:
0 10 20 30 40 50 60 70 80 90
x
1 100k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7
x
2x
3x
4x
5x
6x
7x
8k = 8
´echelledesimilarit´e
• Groupement hi ´erarchique agglom ´eratif
G
ROUPEMENTH
IERARCHIQUEA
GGLOMERATIF( X
n, c) 1 c + ← n
2 pour i ← 1 `a n faire 3 V
i← { x
i} 4 faire
5 trouver les groupes les plus proches V
iet V
j6 fusionner V
iet V
j7 + c ← c + − 1 8 jusqu’`a c = + c
Apprentissage non-supervis ´e
15• Distances des groupes
• d
min(V
i,V
j) = min
x∈Vi x'∈Vj
&x− x
'&
• d
max(V
i,V
j) = max
x∈Vi x'∈Vj
& x − x
'&
• d
avg(V
i,V
j) = 1 n
in
j"
x∈Vi
"
x'∈Vj
& x − x
'&
• d
mean(V
i,V
j) = &
i−
j&
Apprentissage non-supervis ´e
16• Groupement hi ´erarchique – plus proche voisin
• d
min(V
i,V
j) = min
x∈Vi x'∈Vj
&x− x
'&
• algorithme du lien simple (single-linkage)
• arbre couvrant minimal (Kruskal)
• Groupement hi ´erarchique – plus proche voisin • Groupement hi ´erarchique – plus loin voisin
• d
max(V
i,V
j) = max
x∈Vi x'∈Vj
&x − x
'&
• algorithme du lien complet (complete linkage)
• augmenter le diam `etre le moins possible
Apprentissage non-supervis ´e
19• Groupement hi ´erarchique – plus loin voisin
dmax = large dmax = small
Apprentissage non-supervis ´e
20• Groupement hi ´erarchique incr ´ementiel
G
ROUPEMENTH
IERARCHIQUEI
NCREMENTIEL( X
n, c) 1 c + ← n
2 pour i ← 1 `a n faire 3 V
i← {x
i} 4 faire
5 trouver V
ietV
jdont la fusion change une crit`ere le moins 6 fusionner V
iet V
j7 + c ← c + − 1 8 jusqu’`a c = + c
• crit `ere: J
e= "c
i=1
"
x∈Vi
& x −
i&
2• distance: d
e(V
i,V
j) = , n
in
jn
i+ n
j&
i−
j&
• Groupement hi ´erarchique – approche de th ´eorie de graphe
• Matrice (graphe) de similarit ´e S
i j=
% 1 si d(x
i, x
j) < d
00 sinon.
• d
min−→ composantes connexes
• d
max−→ sous-graphes complets
• Approche de division
• Statistique de longueurs des arr ˆetes
• Chemin de diam `etre
• Groupement hi ´erarchique – approche de division
• construire un arbre couvrant minimal
• couper les arr ˆetes “longues”
Apprentissage non-supervis ´e
23• Groupement hi ´erarch. – statistique de longueurs des arr ˆetes
1 2 3 4 5 67 8 9
1 2 3 4 5 67 8 9
longueur longueur
nombre
nombre
Apprentissage non-supervis ´e
24• Groupement hi ´erarchique – m ´etrique g ´en ´er ´ee
• $ (x, x
') “dissimilarit ´e” non-m ´etrique
•non-n´egativit ´e:$(x,x')≥0
•r ´eflexivit ´e:$(x,x') =0siix=x'
• “dissimilarit ´e” des groupes
•$min(Vi,Vj) =min x∈Vi x'∈Vj
$(x,x')
•$max(Vi,Vj) =max x∈Vi x'∈Vj
$(x,x')
• d(x,x
') m ´etrique g ´en ´er ´ee:
•le niveau degroupement plus baso `uxetx'se trouvent dans lemˆeme groupe
•aussisym ´etriqueet satisfait l’in´egalit ´e de triangle