Apprentissage non-supervis ´e
1• Typologie de la r ´eduction de dimension
• m ´ethode de base: ACP
• “groupement (clustering) des dimensions”
• extensions:
•ACP non-lin ´eaire(NLPCA)
•´echelonnement multidimensionnel(multidimensional scaling–MDS)
•cartes auto-organisatrices(self-organizing maps–SOM)
•local linear embedding(LLE)
•ISOMAP
•courbes principales(principal curves)
Apprentissage non-supervis ´e
2• ACP non-lin ´eaire – auto-encodage
• mod `ele de r ´eseau de ACP
x1 x2 xd
x1 x2 xd
x1
x2
xd
Γ(F2)
x F2
F1
F1
1 k
...
sortie
entr´ee lin´eaire
Apprentissage non-supervis ´e
3• ACP non-lin ´eaire – auto-encodage
• extension non-lin ´eaire
x1 x2 xd
x1 x2 xd
x1
x2
xd
Γ(F2)
x
F2
F1
F1
1 k
...
sortie
entr´ee lin´eaire non-lin´eaire
non-lin´eaire
Apprentissage non-supervis ´e
4• ´Echelonnement multidimensionnel (MDS)
• repr ´esentation de dimension r ´eduite qui pr ´eserve les distances
x1
x2
x3
y1
y2
xi xj
yi
yj
d
ijδij
espace de source espace de cible
Apprentissage non-supervis ´e
5• ´Echelonnement multidimensionnel (MDS)
• fonctions d’erreur
•Jee=!i<j(di j−"i j)2
!i<j"2i j
•Jf f=
!
i<j
!di j−"i j
"i j
"2
•Je f= 1
!i<j"i j
!
i<j (di j−"i j)2
"i j
Apprentissage non-supervis ´e
6• ´Echelonnement multidimensionnel (MDS)
• minimisation
•descente de gradientstandard
• initialisation
•lesd"coordonn´ees avec lesvariances plus grandes
•ACPavecd"composantes
Apprentissage non-supervis ´e
7• ´Echelonnement multidimensionnel (MDS)
01 1 5 10 15 20
x1
x2
x3
y1
y2
source target
Apprentissage non-supervis ´e
8• Cartes auto-organisatrices (SOM)
• x
iappartient `a V
!avec un poids W
i,!• W
i,!ne d ´epend que de la distance entre v
!et v
(xi)• fonction de fen ˆetre typique
y* y
y
*y1 y2
Λ
Apprentissage non-supervis ´e
9• Cartes auto-organisatrices (SOM)
SOM( X
n)
1 C
(0)← # v
(0)1, . . . ,v
(0)k$ 2 j ← 0
3 faire
4 recalculer W
(j)5 pour ! ← 1 `a k faire
6 v
(j+1)!← 1
n
n
!
i=1W
(i,!j)x
i7 j ← j +1
8 jusqu’`a changement > seuil
Apprentissage non-supervis ´e
10• Cartes auto-organisatrices (SOM)
• 2 dimensions −→ 1 dimension
0 20 100
25,000 50,000 75,000
1000 10,000
100,000 150,000
Apprentissage non-supervis ´e
11• Cartes auto-organisatrices (SOM)
• 2 dimensions −→ 2 dimensions
100 1000 10,000 25,000 50,000
75,000 100,000 150,000 200,000 300,000
Apprentissage non-supervis ´e
12• Cartes auto-organisatrices (SOM)
• probl `eme: minimum local
0 1000 25000 400000
Apprentissage non-supervis ´e
13• Cartes auto-organisatrices (SOM)
• estimation de densit ´e
0 1000 400,000 800,000
Apprentissage non-supervis ´e
14• Cartes auto-organis. (SOM) – th ´eorie de communication
• Codage de source – quantification vectorielle:
• fonction d’erreur: J
s= !n
i=1
% x
i− v
(xi)%
2Apprentissage non-supervis ´e
15• Codage de canal – correction d’erreur:
• probabilit ´e d’erreur d’un bit: p
• distance de Hamming entre des mots de code: d
i,j= d
H% c(v
i),c(v
j) &
• probabilit ´e d’erreur de code: p
i,j= p
di,j(1 − p)
d−di,j• fonction d’erreur: J
c= !n
i=1 c
!
j=1%v
(xi)− v
j%
2p
xi,j• Codage conjoint de canal-source
• fonction d’erreur: J
s+c= !n
i=1 c
!
j=1%x
i− v
j%
2p
xi,jApprentissage non-supervis ´e
16• Probl `eme g ´en ´erale: surfaces compliqu ´ees → minima local
• Solution 1: ISOMAP
• distance geod ´esique: chemins plus courts dans le graphe de simi- larit ´e
• MDS standard sur les distances geod ´esiques
17 18
al op
19
optimality; for intrinsically Euclidean man
20
21 22
Apprentissage non-supervis ´e
• Solution 2: Local linear embedding (LLE)
• Etape 1: trouver l’ensemble des ´ voisins V
xi• Etape 2: approximer les points avec une ´ combinaison lin ´eaire de leurs plus proches voisins:
min
W n!
i=1' ' ' ' ' x
i− !
xj∈Vxi
w
i,jx
j' ' ' ' '
2
• Etape 3: reconstruire les points dans l’espace de projection en util- ´ isant les m ˆemes poids:
min
Y n!
i=1' ' ' ' ' y
i− !
xj∈Vxi
w
i,jy
j' ' ' ' '
2
gWij!0 ifXjdoes sum to one:"jWij!1. The optimal weights
The con
23these recons symmetry: f are invarian translations bors. By sym struction we metric prop opposed to ticular fram invariance t forced by th rows of the
Suppose nonlinear m
##D. To a
exists a lin translation, maps the h each neighb nates on the struction we ric propertie exactly such expect their try in the o
24 try in the valid for particular struct the should al fold coor LLE c mapping b step of th observatio vectorY!i nates on th d-dimensi embeddin
$
This cost based on but here mizing th cost in Eq vectorsY! the proble by solvin lem (9), w tors prov coordinat Implem straightfo points we est neighb tance or i l
25 26
Apprentissage non-supervis ´e
• d ´esavantage d’ISOMAP:
• temps d’ex ´ecution: O(n
3)
• projeter des nouveaux points
• construire la fonction de projection explicitement
• probl `eme d’interpolation
• probl `eme d’apprentissage supervis ´e (r ´egression multidimensionnelle)
Apprentissage non-supervis ´e
27• Probl `eme: bruit
Data points Generating curve Polygonal principal curve HS principal curve
Apprentissage non-supervis ´e
28• Le biais du mod `ele
(0) f * (0)
# * f
#
Apprentissage non-supervis ´e
29• Le biais de l’estimation
f(0) (0) f $
# $
# $ $
Apprentissage non-supervis ´e
30• Solution: courbes principales polygonales
• Mesurer la distance de la courbe au lieu des sommets
S
iS
i+1s
i iv
i-1V
i+1v
S
i-s
i-2s
i+1v
i+11
V
i-
2
i i-1
V S
s
i-1Apprentissage non-supervis ´e
31• Courbes principales polygonales
Vertex optimization Projection Initialization
Convergence?
% k > c(n, )?
Add new vertex START
END N Y
Y N
Apprentissage non-supervis ´e
32• Courbes principales polygonales
(a) (b) (c)
(d) (e) (f)
Apprentissage non-supervis ´e
33• Courbes principales polygonales
• bruit r ´eduit
Data points Generating curve Polygonal principal curve BR principal curve HS principal curve
Apprentissage non-supervis ´e
34• Courbes principales polygonales
• beaucoup de points
Data points Generating curve Polygonal principal curve HS principal curve
Apprentissage non-supervis ´e
35• d ´esavantages des courbes principales:
• minima local
Data points Generating curve Polygonal principal curve HS principal curve
Data points Generating curve Polygonal principal curve HS principal curve
• extension aux surfaces n’est pas ´evident
→ la plupart des applications sont dans le traitement d’image
Apprentissage non-supervis ´e
36• Skeletisation des caract `eres
(a) Character template Polygonal principal curve
(b) Character template Polygonal principal curve
(c) Character template Polygonal principal curve
(d) Character template Polygonal principal curve
Apprentissage non-supervis ´e
37• Skeletisation des caract `eres
(a) Character template Skeleton graph
(b) Character template Skeleton graph
(c) Character template Skeleton graph
(d) Character template Skeleton graph
Apprentissage non-supervis ´e
38• Apprentissage non-supervis ´e pour la classification: analyse discriminante
• but: trouver la meilleure projection qui pr ´eserve l’information discrim- inante
• Discriminante de Fisher
• y = w
tx
Apprentissage non-supervis ´e
39• Analyse discriminante
0.5 1 1.5
0.5 1 1.5 2
0.5 1 1.5 x1
-0.5 0.5 1 1.5 2 x2
w w
x1 x2
Apprentissage non-supervis ´e
40• Id ´ee 1: s ´eparer les moyennes projet ´ees
•
i= 1 n
i!
x∈Di
x
• m ˜
i= 1 n
i!
y∈Yi
y = 1 n
i!
x∈Di
w
tx
• trouver w qui maximise | m ˜
1− m ˜
2| = | w
t(
1−
2) |
• Id ´ee 2: s ´eparer les moyennes projet ´ees normalis ´ees par les variances par classe
• s ˜
2i= !
y∈Yi
(y − m ˜
i)
2• J(w) = ( m ˜
1− m ˜
2)
2˜
s
21+ s ˜
22Apprentissage non-supervis ´e
41• Maximiser J(w):
• S
i= !
x∈Di
(x −
i)(x −
i)
t• S
W= S
1+ S
2• s ˜
2i= !
x∈Di
(w
tx −w
ti)
2= !
x∈Di