• Aucun résultat trouvé

Apprentissage non-supervis ´e

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage non-supervis ´e"

Copied!
7
0
0

Texte intégral

(1)

•Donn ´ee“crue”– pas de classe:

X

n={X1,X2, . . . ,Xn}

•Variantes, synonymes, aspects

estimation de densit ´e

extraction de traits

r ´eduction de dimensionnalit ´e

compression de donn ´ee

clustering

visualisation

•Deux crit `eresen comp ´etition

repr ´esentationfid `ele– pr ´eservation d’information

repr ´esentationconcise– compression

Apprentissage non-supervis ´e

3

•M ´ethodes de base

projection sur unsous-espace lin ´eaire−→ACP

projection sur unensemblefini de points−→k-moyennes

Apprentissage non-supervis ´e

4

•Analyse en composantes principales(ACP) (transformation de Karhunen-Lo `eve)

Trouver le sous-espace lin ´eaire quimaximise la variance des projec- tions

Trouver le sous-espace lin ´eaire quiminimise la distance entre les points et leur projection

(2)

•ACP

X= (X1, . . .,Xd):observational ´eatoire,E[X] =0,Var[X]<#

uRd:vecteur d’unit ´earbitraire

s(t) =tu:ligne droitequi correspond `au

Y=ts(X) =Xtu: l’indice de projectiondeX`as

s(ts(X))=s(Xtu):point de projectiondeX`as

Apprentissage non-supervis ´e

7

•ACP

E[X] =0=E[Y] =E[Xtu] =0

variancedeY:

Var[Y] = E[(Xtu)2] =E[(utX)(Xtu)]

= utE[XXt]u=utRu

= !(u)

R=E!

(XE[X])(XE[X])t"

=E! XXt"

:matrice de covariance

Ri j=E! XiXj"

Restsym ´etrique=R=Rt,

v,wRd:vtRw=wtRv

Apprentissage non-supervis ´e

8

•ACP

objectif: maximiserVar[Y] =!(u) =utRupar rapport `au

consid ´erer une petiteperturbation"udeu

telle que&u+"u&=1:

!(u+"u) = (u+"u)tR(u+"u)

= utRu+2("u)tRu+ ("u)tR"u

(3)

•ACP

ignorer le terme d’ordre 2:

!(u+"u) = utRu+2("u)tRu

= !(u) +2("u)tRu

si!(u)est stationnaire:

!(u+"u) =!(u)

donc

("u)tRu=0

•ACP

puisque&u+"u&2=&u&2+2("u)tu+&"u&2=1:

("u)tu=0

"uest orthogonal `au

l’ ´equation `a r ´esoudre:

("u)tRul("u)tu=0

´egalement

("u)t(Ru−lu) = 0 Ru = lu

Apprentissage non-supervis ´e

11

•ACP

les solutionsl1, . . . ,ld:valeurs propres

les solutionsu1, . . . ,ud:vecteurs propres

U= [u1, . . . ,ud]

simplification: les valeurs propres sont toutes diff ´erentes:

li'=ljsii'=j

trier les valeurs propres:l1> . . . >ld

les vecteurs propres forment unebase orthonormale:

0 = (uiRujuiRuj) = (uiRujujRui) = (uiljujujliui)

= (ljli)(uiuj)

Apprentissage non-supervis ´e

12

•ACP

le r ´esultat:

&maxu&=1!(u) = l1

arg max

&u&=1 !(u) = u1

leslignes de composantes principales:si(t) =tui,i=1, . . . ,d

lescomposantes principales:ti=uix,i=1, . . .,d

l’analyseen composantes principales:t=Utx

reconstruction:x= (Ut)1t=Ut=

$

d

i=1

tiui

(4)

•ACP

soitX(= d

(

$

i=1

tiui

Sd(maximise la variance deX(: E!

X(2"

= d

(

$

i=1

!(ui) = d

(

$

i=1

li,

Sd(minimise la variance deX−X(: E!(X−X()2"=

$

d

i=d(+1

!(uj) =

$

d

i=d(+1

lj,

•ACP

estimation:Xn={X1,X2, . . . ,Xn}

matrice de covariance d’´echantillon:

R'n=1 n

n

$

i=1

xnxtn

les solutions'u1, . . . ,'ud:vecteurs propres

algorithme na¨ıf: trouver les vecteurs propres –T=O(nd3)

techniques sophistiqu ´ees:T=O(nd2)

algorithmesit ´eratifs:T=O(nds)

Apprentissage non-supervis ´e

15

•ACP

algorithmesit ´eratifs ACPITERATIVE(Xn)

1 s(0)(t)tu(0)une ligne arbitraire 2 faire

3 Projection 4 Esp´erance

5 jusqu’`achangement<seuil

Apprentissage non-supervis ´e

16

•ACP

algorithme deRoweis-Tipping-Bishop

fixer les indicesde projection et minimiser

%n

#s$$$t(j)%

= =

$

n

i=1

&

&

&xiti(j)u&&&2

=

$

n

i=1&xi&2+&u&2

n

$

i=1

# ti(j)%2

2ut

n

$

i=1ti(j)xi

le r ´esultat de la minimisation:

u(j+1)=arg min

&u&=1 %#

s$

$$t(j)%

= $ni=1ti(j)xi

&

&

&$ni=1ti(j)xi

&

&

&

(5)

•ACP

algorithme deRoweis-Tipping-Bishop ROWEISTIPPINGBISHOP(Xn)

1 s(0)(t)tu(0)une ligne arbitraire 2 j0

3 faire 4 t(j)(

t1(j), . . . ,tn(j)

)t

!

xt1u(j), . . . ,xtnu(j)"t

5 u(j+1) $ni=1t

(j) i xi

&

&

&$ni=1t(j)i xi&&&, ands(j+1)(t)tu(j+1)

6 jj+1

7 jusqu’`a

*

1%n(s(j+1))

%n(s(j)) +

<seuil

•Quantification vectorielle

collection despoints de code(centres):C={v1, . . .,vk}Rd

quantificateur vectorieldekpoints:q:RdC

partition:V={V1, . . . ,Vk}

V!=q1(v!) ={x:q(x) =v!}

Apprentissage non-supervis ´e

19

•Quantification vectorielle

mesure dedistorsion:%(x,x)ˆ

le plus souvent

%(x,ˆx) =&xxˆ&2

objectif:minimiser l’esp ´erance

%(q) =E[%(X,q(X))]

par rapport `aC

qestglobalement optimalsi%(q)%(q)

qesttr `es difficile `a trouver!!!

Apprentissage non-supervis ´e

20

•Quantification vectorielle

optimalit ´elocale

•Condition duplus proche voisin

´etant donn ´eC,V={V1, . . . ,Vk}estoptimalsi V!={x:%(x,v!)%(x,vm),m=1, . . .,k}

V!est lar ´egion de Voronoidev!

(6)

•Condition decentro¨ıde

´etant donn ´eV,C={v1, . . . ,vk}estoptimalsi v!=arg min

v

E[%(X,v)|XV!]

distorsion quadratique (%(x,x) =ˆ &xxˆ&2):

v!=E[X|XV!]

•Quantification vectorielle

algorithme deMax-Lloyd(k-moyennes)

fixerCetoptimiserV

fixerVetoptimiserC

jusqu’ `achangement<seuil

Apprentissage non-supervis ´e

23

•Quantification vectorielle

algorithme deMax-Lloyd(k-moyennes) MAXLLOYD(X)

1 C(0),v(0)1 , . . . ,v(0)k - ,j0 2 faire

3 pour!1`akfaire 4 V!(j),

x:%# x,v(j)! %

%# x,v(j)m%

,m=1, . . .,k- 5 pour!1`akfaire

6 v(j+1)! arg min

v E(

%(X,v)$$$XV!(j))

E(

X$$$XV!(j))

7 jj+1

8 jusqu’`a

*

1%(q(j+1))

%(q(j)) +

<seuil

Apprentissage non-supervis ´e

24

•Quantification vectorielle

algorithme deMax-Lloyd(k-moyennes) pourXn={x1,x2, . . .,xn}

V'!=V!Xn,n!=|V'!|

distorsion empirique:

%n(q)=1 n

n

$

i=1

%(xi,q(xi)) =1 n

k

$

!=1

$

xV'!

&v!x&2

(7)

algorithme deMax-Lloyd(k-moyennes) pourXn={x1,x2, . . .,xn} MAXLLOYD(Xn)

1 C(0),v(0)1 , . . . ,v(0)k - ,j0 2 faire

3 pour!1`akfaire 4 V!(j),

x:%# x,v(j)! %

%# x,v(j)m%

,m=1, . . .,k- 5 pour!1`akfaire

6 v(j+1)! arg min

v

$

x∈'V!(j)

%(x,v) 1 n!

$

x∈'V!(j)

x

7 jj+1

8 jusqu’`a

*

1%n(q(j+1))

%n(q(j)) +

<seuil

•Quantification vectorielle

algorithme deMax-Lloyd(k-moyennes), versionen-ligne

xiappartient `aV(xi)

xichange deV(xi)`aV!:

v(!j+1)=v(!j)n(j)! +xi

n(j)! +1 ; v(j+1)(xi) =v((xj)i)n((xj)i)xi

n(j)(xi)1

Apprentissage non-supervis ´e

27

MAXLLOYDENLIGNE(Xn) 1 C(0),v(0)1 , . . . ,v(0)k - 2 j0

3 faire

4 pouri1`anfaire

5 si∃v!:&xiv(j)! &<&xiv(j)(xi)&

6 v(!j+1)v(j)! n(!j)+xi

n(j)! +1 7 v((xj+1)

i) v(j)(xi)n(j)(xi)xi

n(j)(x

i)1

8 V(x(j+1)i) V!(j)

9 jj+1

10 jusqu’`ail y a un changement

Apprentissage non-supervis ´e

28

•Quantification vectorielle

x1

x2

1 32

Références

Documents relatifs

Notre approche de k-means ` a noyaux multiples appliqu´ ee aux donn´ ees fonctionnelles aboutit ` a deux types de r´ esultats: d’une part, nous obtenons une partition de

c) En s’appuyant sur ce qui précède, indiquer une construction géométrique du point w, a et θ étant connus.. Baccalauréat 1990 Page 2 sur 2 Adama Traoré

Faire une figure en prenant BC= 3cm, BP = 1cm et en plaçant (BC) horizontalement sur la feuille. c) Quelle est la nature des triangles RAQ et PAS ?.. b) Quel est le lieu

Soit n, un entier naturel et x un réel quelconque.. Soit x un

( C ) est la courbe représentative de f dans un repère orthonormal d’unité graphique 2 cm. I- 1°) Prouver que la courbe ( C ) admet deux asymptotes dont on donnera

Prouver que toutes courbes (C n ) passent par un même point fixe A dont on déterminera les coordonnées. a) Étudier le sens de variation de φ en précisant ses limites aux bornes

Guillaume Wacquet ; Emilie Poisson Caillault ; Denis Hamad ; Pierre-Alexandre H´ ebert Pattern Recognition Letters, Available online 19 February 2013, Detection of

• Pour mesurer une résistance, l'ohm-mètre utilise son alimentation pour imposer un courant dans le dipôle étudié et compare (puisque c'est un voltmètre) la tension correspondante