•Donn ´ee“crue”– pas de classe:
X
n={X1,X2, . . . ,Xn}•Variantes, synonymes, aspects
•estimation de densit ´e
•extraction de traits
•r ´eduction de dimensionnalit ´e
•compression de donn ´ee
•clustering
•visualisation
•Deux crit `eresen comp ´etition
•repr ´esentationfid `ele– pr ´eservation d’information
•repr ´esentationconcise– compression
Apprentissage non-supervis ´e
3•M ´ethodes de base
•projection sur unsous-espace lin ´eaire−→ACP
•projection sur unensemblefini de points−→k-moyennes
Apprentissage non-supervis ´e
4•Analyse en composantes principales(ACP) (transformation de Karhunen-Lo `eve)
•Trouver le sous-espace lin ´eaire quimaximise la variance des projec- tions
•Trouver le sous-espace lin ´eaire quiminimise la distance entre les points et leur projection
•ACP
•X= (X1, . . .,Xd):observational ´eatoire,E[X] =0,Var[X]<#
•u∈Rd:vecteur d’unit ´earbitraire
•s(t) =tu:ligne droitequi correspond `au
•Y=ts(X) =Xtu: l’indice de projectiondeX`as
•s(ts(X))=s(Xtu):point de projectiondeX`as
Apprentissage non-supervis ´e
7•ACP
•E[X] =0=⇒E[Y] =E[Xtu] =0
•variancedeY:
Var[Y] = E[(Xtu)2] =E[(utX)(Xtu)]
= utE[XXt]u=utRu
= !(u)
•R=E!
(X−E[X])(X−E[X])t"
=E! XXt"
:matrice de covariance
•Ri j=E! XiXj"
•Restsym ´etrique=⇒R=Rt,
•∀v,w∈Rd:vtRw=wtRv
Apprentissage non-supervis ´e
8•ACP
•objectif: maximiserVar[Y] =!(u) =utRupar rapport `au
•consid ´erer une petiteperturbation"udeu
•telle que&u+"u&=1:
!(u+"u) = (u+"u)tR(u+"u)
= utRu+2("u)tRu+ ("u)tR"u
•ACP
•ignorer le terme d’ordre 2:
!(u+"u) = utRu+2("u)tRu
= !(u) +2("u)tRu
•si!(u)est stationnaire:
!(u+"u) =!(u)
•donc
("u)tRu=0
•ACP
•puisque&u+"u&2=&u&2+2("u)tu+&"u&2=1:
("u)tu=0
•"uest orthogonal `au
•l’ ´equation `a r ´esoudre:
("u)tRu−l("u)tu=0
•´egalement
("u)t(Ru−lu) = 0 Ru = lu
Apprentissage non-supervis ´e
11•ACP
•les solutionsl1, . . . ,ld:valeurs propres
•les solutionsu1, . . . ,ud:vecteurs propres
•U= [u1, . . . ,ud]
•simplification: les valeurs propres sont toutes diff ´erentes:
li'=ljsii'=j
•trier les valeurs propres:l1> . . . >ld
•les vecteurs propres forment unebase orthonormale:
0 = (uiRuj−uiRuj) = (uiRuj−ujRui) = (uiljuj−ujliui)
= (lj−li)(uiuj)
Apprentissage non-supervis ´e
12•ACP
•le r ´esultat:
&maxu&=1!(u) = l1
arg max
&u&=1 !(u) = u1
•leslignes de composantes principales:si(t) =tui,i=1, . . . ,d
•lescomposantes principales:ti=uix,i=1, . . .,d
•l’analyseen composantes principales:t=Utx
•reconstruction:x= (Ut)−1t=Ut=
$
di=1
tiui
•ACP
•soitX(= d
(
$
i=1tiui
•Sd(maximise la variance deX(: E!
X(2"
= d
(
$
i=1!(ui) = d
(
$
i=1li,
•Sd(minimise la variance deX−X(: E!(X−X()2"=
$
di=d(+1
!(uj) =
$
di=d(+1
lj,
•ACP
•estimation:Xn={X1,X2, . . . ,Xn}
•matrice de covariance d’´echantillon:
R'n=1 n
n
$
i=1xnxtn
•les solutions'u1, . . . ,'ud:vecteurs propres
•algorithme na¨ıf: trouver les vecteurs propres –T=O(nd3)
•techniques sophistiqu ´ees:T=O(nd2)
•algorithmesit ´eratifs:T=O(nds)
Apprentissage non-supervis ´e
15•ACP
•algorithmesit ´eratifs ACPITERATIVE(Xn)
1 s(0)(t)←tu(0)une ligne arbitraire 2 faire
3 Projection 4 Esp´erance
5 jusqu’`achangement<seuil
Apprentissage non-supervis ´e
16•ACP
•algorithme deRoweis-Tipping-Bishop
•fixer les indicesde projection et minimiser
%n
#s$$$t(j)%
= =
$
ni=1
&
&
&xi−ti(j)u&&&2
=
$
ni=1&xi&2+&u&2
n
$
i=1# ti(j)%2
−2ut
n
$
i=1ti(j)xi•le r ´esultat de la minimisation:
u(j+1)=arg min
&u&=1 %#
s$
$$t(j)%
= $ni=1ti(j)xi
&
&
&$ni=1ti(j)xi
&
&
&
•ACP
•algorithme deRoweis-Tipping-Bishop ROWEISTIPPINGBISHOP(Xn)
1 s(0)(t)←tu(0)une ligne arbitraire 2 j←0
3 faire 4 t(j)←(
t1(j), . . . ,tn(j)
)t
←!
xt1u(j), . . . ,xtnu(j)"t
5 u(j+1)← $ni=1t
(j) i xi
&
&
&$ni=1t(j)i xi&&&, ands(j+1)(t)←tu(j+1)
6 j←j+1
7 jusqu’`a
*
1−%n(s(j+1))
%n(s(j)) +
<seuil
•Quantification vectorielle
•collection despoints de code(centres):C={v1, . . .,vk}⊂Rd
•quantificateur vectorieldekpoints:q:Rd→C
•partition:V={V1, . . . ,Vk}
V!=q−1(v!) ={x:q(x) =v!}
Apprentissage non-supervis ´e
19•Quantification vectorielle
•mesure dedistorsion:%(x,x)ˆ
•le plus souvent
%(x,ˆx) =&x−xˆ&2
•objectif:minimiser l’esp ´erance
%(q) =E[%(X,q(X))]
par rapport `aC
•q∗estglobalement optimalsi%(q∗)≤%(q)
•q∗esttr `es difficile `a trouver!!!
Apprentissage non-supervis ´e
20•Quantification vectorielle
•optimalit ´elocale
•Condition duplus proche voisin
•´etant donn ´eC,V={V1, . . . ,Vk}estoptimalsi V!={x:%(x,v!)≤%(x,vm),m=1, . . .,k}
•V!est lar ´egion de Voronoidev!
•Condition decentro¨ıde
•´etant donn ´eV,C={v1, . . . ,vk}estoptimalsi v!=arg min
v
E[%(X,v)|X∈V!]
•distorsion quadratique (%(x,x) =ˆ &x−xˆ&2):
v!=E[X|X∈V!]
•Quantification vectorielle
•algorithme deMax-Lloyd(k-moyennes)
•fixerCetoptimiserV
•fixerVetoptimiserC
•jusqu’ `achangement<seuil
Apprentissage non-supervis ´e
23•Quantification vectorielle
•algorithme deMax-Lloyd(k-moyennes) MAXLLOYD(X)
1 C(0)←,v(0)1 , . . . ,v(0)k - ,j←0 2 faire
3 pour!←1`akfaire 4 V!(j)←,
x:%# x,v(j)! %
≤%# x,v(j)m%
,m=1, . . .,k- 5 pour!←1`akfaire
6 v(j+1)! ←arg min
v E(
%(X,v)$$$X∈V!(j))
←E(
X$$$X∈V!(j))
7 j←j+1
8 jusqu’`a
*
1−%(q(j+1))
%(q(j)) +
<seuil
Apprentissage non-supervis ´e
24•Quantification vectorielle
•algorithme deMax-Lloyd(k-moyennes) pourXn={x1,x2, . . .,xn}
•V'!=V!∩Xn,n!=|V'!|
•distorsion empirique:
%n(q)=1 n
n
$
i=1%(xi,q(xi)) =1 n
k
$
!=1$
x∈V'!
&v!−x&2
•algorithme deMax-Lloyd(k-moyennes) pourXn={x1,x2, . . .,xn} MAXLLOYD(Xn)
1 C(0)←,v(0)1 , . . . ,v(0)k - ,j←0 2 faire
3 pour!←1`akfaire 4 V!(j)←,
x:%# x,v(j)! %
≤%# x,v(j)m%
,m=1, . . .,k- 5 pour!←1`akfaire
6 v(j+1)! ←arg min
v
$
x∈'V!(j)
%(x,v)← 1 n!
$
x∈'V!(j)
x
7 j←j+1
8 jusqu’`a
*
1−%n(q(j+1))
%n(q(j)) +
<seuil
•Quantification vectorielle
•algorithme deMax-Lloyd(k-moyennes), versionen-ligne
•xiappartient `aV(xi)
•xichange deV(xi)`aV!:
v(!j+1)=v(!j)n(j)! +xi
n(j)! +1 ; v(j+1)(xi) =v((xj)i)n((xj)i)−xi
n(j)(xi)−1
Apprentissage non-supervis ´e
27MAXLLOYDENLIGNE(Xn) 1 C(0)←,v(0)1 , . . . ,v(0)k - 2 j←0
3 faire
4 pouri←1`anfaire
5 si∃v!:&xi−v(j)! &<&xi−v(j)(xi)&
6 v(!j+1)←v(j)! n(!j)+xi
n(j)! +1 7 v((xj+1)
i) ←v(j)(xi)n(j)(xi)−xi
n(j)(x
i)−1
8 V(x(j+1)i) ←V!(j)
9 j←j+1
10 jusqu’`ail y a un changement
Apprentissage non-supervis ´e
28•Quantification vectorielle
x1
x2
1 32