Apprentissage non-supervis ´e

(1)

•Donn ´ee“crue”– pas de classe:

X

_n={X₁,X₂, . . . ,X_n}

•Variantes, synonymes, aspects

•estimation de densit ´e

•extraction de traits

•r ´eduction de dimensionnalit ´e

•compression de donn ´ee

•clustering

•visualisation

•Deux crit `eresen comp ´etition

•repr ésentationfid èle– pr éservation d’information

•repr ´esentationconcise– compression

Apprentissage non-supervis ´e

3

•M ´ethodes de base

•projection sur unsous-espace lin ´eaire−→ACP

•projection sur unensemblefini de points−→k-moyennes

Apprentissage non-supervis ´e

4

•Analyse en composantes principales(ACP) (transformation de Karhunen-Lo `eve)

•Trouver le sous-espace lin ´eaire quimaximise la variance des projec- tions

•Trouver le sous-espace lin ´eaire quiminimise la distance entre les points et leur projection

(2)

•ACP

•X= (X1, . . .,Xd):observational ´eatoire,E[X] =0,Var[X]<#

•u∈R^d:vecteur d’unit ´earbitraire

•s(t) =tu:ligne droitequi correspond `au

•Y=ts(X) =X^tu: l’indice de projectiondeX`as

•s(ts(X))=s(X^tu):point de projectiondeX`as

Apprentissage non-supervis ´e

7

•ACP

•E[X] =0=⇒E[Y] =E[X^tu] =0

•variancedeY:

Var[Y] = E[(X^tu)²] =E[(u^tX)(X^tu)]

= u^tE[XX^t]u=u^tRu

= !(u)

•R=E!

(X−E[X])(X−E[X])^t"

=E! XX^t"

:matrice de covariance

•Ri j=E! XiXj"

•Restsym ´etrique=⇒R=R^t,

•∀v,w∈R^d:v^tRw=w^tRv

Apprentissage non-supervis ´e

8

•ACP

•objectif: maximiserVar[Y] =!(u) =u^tRupar rapport `au

•consid ´erer une petiteperturbation"udeu

•telle que&u+"u&=1:

!(u+"u) = (u+"u)^tR(u+"u)

= u^tRu+2("u)^tRu+ ("u)^tR"u

(3)

•ACP

•ignorer le terme d’ordre 2:

!(u+"u) = u^tRu+2("u)^tRu

= !(u) +2("u)^tRu

•si!(u)est stationnaire:

!(u+"u) =!(u)

•donc

("u)^tRu=0

•ACP

•puisque&u+"u&²=&u&²+2("u)^tu+&"u&²=1:

("u)^tu=0

•"uest orthogonal `au

•l’ équation à r ésoudre:

("u)^tRu−l("u)^tu=0

•´egalement

("u)^t(Ru−lu) = 0 Ru = lu

Apprentissage non-supervis ´e

11

•ACP

•les solutionsl1, . . . ,ld:valeurs propres

•les solutionsu1, . . . ,ud:vecteurs propres

•U= [u1, . . . ,ud]

•simplification: les valeurs propres sont toutes diff ´erentes:

li'=ljsii'=j

•trier les valeurs propres:l1> . . . >ld

•les vecteurs propres forment unebase orthonormale:

0 = (uiRuj−uiRuj) = (uiRuj−ujRui) = (uiljuj−ujliui)

= (lj−li)(uiuj)

Apprentissage non-supervis ´e

12

•ACP

•le r ´esultat:

&maxu&=1!(u) = l1

arg max

&u&=1 !(u) = u1

•leslignes de composantes principales:si(t) =tui,i=1, . . . ,d

•lescomposantes principales:ti=uix,i=1, . . .,d

•l’analyseen composantes principales:t=U^tx

•reconstruction:x= (U^t)⁻¹t=Ut=

$

^d

i=1

tiui

(4)

•ACP

•soitX⁽= ^d

(

$

i=1

tiui

•Sd⁽maximise la variance deX⁽: E!

X⁽²"

= ^d

(

$

i=1

!(ui) = ^d

(

$

i=1

li,

•Sd(minimise la variance deX−X⁽: E!(X−X⁽)²"=

$

^d

i=d⁽+1

!(uj) =

$

^d

i=d⁽+1

lj,

•ACP

•estimation:Xn={X1,X2, . . . ,Xn}

•matrice de covariance d’´echantillon:

R'n=1 n

n

$

i=1

xnx^t_n

•les solutions'u1, . . . ,'ud:vecteurs propres

•algorithme na¨ıf: trouver les vecteurs propres –T=O(nd³)

•techniques sophistiqu ´ees:T=O(nd²)

•algorithmesit ´eratifs:T=O(nds)

Apprentissage non-supervis ´e

15

•ACP

•algorithmesit ´eratifs ACPITERATIVE(Xn)

1 s⁽⁰⁾(t)←tu⁽⁰⁾une ligne arbitraire 2 faire

3 Projection 4 Esp´erance

5 jusqu’`achangement<seuil

Apprentissage non-supervis ´e

16

•ACP

•algorithme deRoweis-Tipping-Bishop

•fixer les indicesde projection et minimiser

%n

#s$$$t⁽^j)%

= =

$

ⁿ

i=1

&

&xi−t_i^(j)u&&&²

=

$

ⁿ

i=1&xi&²+&u&²

n

$

i=1

# t_i^(j)%2

−2u^t

n

$

i=1t_i^(j)xi

•le r ´esultat de la minimisation:

u⁽^j+1)=arg min

&u&=1 %#

s$

$$t⁽^j)%

= $ⁿi=1t_i⁽^j)xi

&

&$ⁿi=1ti⁽^j)xi

&

(5)

•ACP

•algorithme deRoweis-Tipping-Bishop ROWEISTIPPINGBISHOP(Xn)

1 s⁽⁰⁾(t)←tu⁽⁰⁾une ligne arbitraire 2 j←0

3 faire 4 t^(j)←(

t1^(j), . . . ,tn^(j)

)t

←!

x^t1u^(j), . . . ,x^tnu⁽^j)"t

5 u^(j+1)← ^$ⁿⁱ⁼¹^t

(j) i x_i

&

&$ⁿi=1t^(j)_i x_i&&&, ands⁽^j+1)(t)←tu^(j+1)

6 j←j+1

7 jusqu’`a

*

1−^%ⁿ(s^(j+1))

%n(s^(j)) +

<seuil

•Quantification vectorielle

•collection despoints de code(centres):C={v1, . . .,vk}⊂R^d

•quantificateur vectorieldekpoints:q:R^d→C

•partition:V={V1, . . . ,Vk}

V!=q⁻¹(v!) ={x:q(x) =v!}

Apprentissage non-supervis ´e

19

•mesure dedistorsion:%(x,x)ˆ

•le plus souvent

%(x,ˆx) =&x−xˆ&²

•objectif:minimiser l’esp ´erance

%(q) =E[%(X,q(X))]

par rapport `aC

•q^∗estglobalement optimalsi%(q^∗)≤%(q)

•q^∗esttr `es difficile `a trouver!!!

Apprentissage non-supervis ´e

20

•optimalit ´elocale

•Condition duplus proche voisin

•´etant donn ´eC,V={V1, . . . ,Vk}estoptimalsi V!={x:%(x,v!)≤%(x,vm),m=1, . . .,k}

•V!est lar ´egion de Voronoidev!

(6)

•Condition decentro¨ıde

•´etant donn ´eV,C={v1, . . . ,vk}estoptimalsi v!=arg min

v

E[%(X,v)|X∈V!]

•distorsion quadratique (%(x,x) =ˆ &x−xˆ&²):

v!=E[X|X∈V!]

•algorithme deMax-Lloyd(k-moyennes)

•fixerCetoptimiserV

•fixerVetoptimiserC

•jusqu’ `achangement<seuil

Apprentissage non-supervis ´e

23

•algorithme deMax-Lloyd(k-moyennes) MAXLLOYD(X)

1 C⁽⁰⁾_←^,v⁽⁰⁾₁ , . . . ,v⁽⁰⁾_k - ,j←0 2 faire

3 pour!←1`akfaire 4 V_!^(j)←,

x:%# x,v^(j)_! %

≤%# x,v^(j)_m%

,m=1, . . .,k- 5 pour!←1`akfaire

6 v^(j+1)_! ←arg min

v E(

%(X,v)$$$X∈V_!⁽^j))

←E(

X$$$X∈V_!^(j))

7 j←j+1

8 jusqu’`a

*

1−^%(q^(j+1))

%(q^(j)) +

<seuil

Apprentissage non-supervis ´e

24

•algorithme deMax-Lloyd(k-moyennes) pourXn={x1,x2, . . .,xn}

•V'!=V!∩Xn,n!=|V'!|

•distorsion empirique:

%n(q)=1 n

n

$

i=1

%(xi,q(xi)) =1 n

k

$

!=1

$

x∈V'_!

&v!−x&²

(7)

•algorithme deMax-Lloyd(k-moyennes) pourXn={x1,x2, . . .,xn} MAXLLOYD(Xn)

1 C⁽⁰⁾_←^,v⁽⁰⁾₁ , . . . ,v⁽⁰⁾_k - ,j←0 2 faire

3 pour!←1`akfaire 4 V_!^(j)←,

x:%# x,v^(j)_! %

≤%# x,v^(j)_m%

,m=1, . . .,k- 5 pour!←1`akfaire

6 v^(j+1)_! ←arg min

v

$

x∈'V_!^(j)

%(x,v)← 1 n!

$

x∈'V_!^(j)

x

7 j←j+1

8 jusqu’`a

*

1−^%ⁿ(^q^(j+1))

%n(^q^(j)) +

<seuil

•algorithme deMax-Lloyd(k-moyennes), versionen-ligne

•xiappartient `aV(xi)

•xichange deV(xi)`aV!:

v⁽_!^j+1)=v⁽_!^j)n^(j)_! +xi

n^(j)_! +1 ; v^(j+1)_(x_i₎ =v⁽_(x^j)_i₎n⁽_(x^j)_i₎−xi

n^(j)_(x_i₎−1

Apprentissage non-supervis ´e

27

MAXLLOYDENLIGNE(Xn) 1 C⁽⁰⁾_←^,v⁽⁰⁾₁ , . . . ,v⁽⁰⁾_k - 2 j←0

3 faire

4 pouri←1`anfaire

5 si∃v!:&xi−v^(j)_! &<&xi−v^(j)_(x_i₎&

6 v⁽_!^j+1)←v^(j)_! n⁽_!^j)+xi

n^(j)_! +1 7 v⁽_(x^j+1)

i) ←v^(j)_(x_i₎n^(j)_(x_i₎−xi

n^(j)_(x

i)−1

8 V_(x⁽^j+1)_i₎ ←V_!^(j)

9 j←j+1

10 jusqu’`ail y a un changement

Apprentissage non-supervis ´e

28

x1

x2

1 32