• Aucun résultat trouvé

Apprentissage non-supervis ´e

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage non-supervis ´e"

Copied!
11
0
0

Texte intégral

(1)

Apprentissage non-supervis ´e

1

• Typologie de la r ´eduction de dimension

• m ´ethode de base: ACP

• “groupement (clustering) des dimensions”

• extensions:

•ACP non-lin ´eaire(NLPCA)

•´echelonnement multidimensionnel(multidimensional scaling–MDS)

•cartes auto-organisatrices(self-organizing maps–SOM)

•local linear embedding(LLE)

•ISOMAP

•courbes principales(principal curves)

Apprentissage non-supervis ´e

2

• ACP non-lin ´eaire – auto-encodage

• mod `ele de r ´eseau de ACP

x1 x2 xd

x1 x2 xd

x1

x2

xd

Γ(F2)

x F2

F1

F1

1 k

...

sortie

entr´ee lin´eaire

Apprentissage non-supervis ´e

3

• ACP non-lin ´eaire – auto-encodage

• extension non-lin ´eaire

x1 x2 xd

x1 x2 xd

x1

x2

xd

Γ(F2)

x

F2

F1

F1

1 k

...

sortie

entr´ee lin´eaire non-lin´eaire

non-lin´eaire

Apprentissage non-supervis ´e

4

• ´Echelonnement multidimensionnel (MDS)

• repr ´esentation de dimension r ´eduite qui pr ´eserve les distances

x1

x2

x3

y1

y2

xi xj

yi

yj

d

ij

δij

espace de source espace de cible

(2)

Apprentissage non-supervis ´e

5

• ´Echelonnement multidimensionnel (MDS)

• fonctions d’erreur

Jee=!i<j(di j−"i j)2

!i<j"2i j

Jf f=

!

i<j

!di j−"i j

"i j

"2

Je f= 1

!i<j"i j

!

i<j (di j−"i j)2

"i j

Apprentissage non-supervis ´e

6

• ´Echelonnement multidimensionnel (MDS)

• minimisation

•descente de gradientstandard

• initialisation

•lesd"coordonn´ees avec lesvariances plus grandes

•ACPavecd"composantes

Apprentissage non-supervis ´e

7

• ´Echelonnement multidimensionnel (MDS)

01 1 5 10 15 20

x1

x2

x3

y1

y2

source target

Apprentissage non-supervis ´e

8

• Cartes auto-organisatrices (SOM)

x

i

appartient `a V

!

avec un poids W

i,!

W

i,!

ne d ´epend que de la distance entre v

!

et v

(xi)

• fonction de fen ˆetre typique

y* y

y

*

y1 y2

Λ

(3)

Apprentissage non-supervis ´e

9

• Cartes auto-organisatrices (SOM)

SOM( X

n

)

1 C

(0)

# v

(0)1

, . . . ,v

(0)k

$ 2 j ← 0

3 faire

4 recalculer W

(j)

5 pour ! ← 1 `a k faire

6 v

(j+1)!

← 1

n

n

!

i=1

W

(i,!j)

x

i

7 jj +1

8 jusqu’`a changement > seuil

Apprentissage non-supervis ´e

10

• Cartes auto-organisatrices (SOM)

• 2 dimensions −→ 1 dimension

0 20 100

25,000 50,000 75,000

1000 10,000

100,000 150,000

Apprentissage non-supervis ´e

11

• Cartes auto-organisatrices (SOM)

• 2 dimensions −→ 2 dimensions

100 1000 10,000 25,000 50,000

75,000 100,000 150,000 200,000 300,000

Apprentissage non-supervis ´e

12

• Cartes auto-organisatrices (SOM)

• probl `eme: minimum local

0 1000 25000 400000

(4)

Apprentissage non-supervis ´e

13

• Cartes auto-organisatrices (SOM)

• estimation de densit ´e

0 1000 400,000 800,000

Apprentissage non-supervis ´e

14

• Cartes auto-organis. (SOM) – th ´eorie de communication

• Codage de source – quantification vectorielle:

• fonction d’erreur: J

s

= !

n

i=1

% x

i

v

(xi)

%

2

Apprentissage non-supervis ´e

15

• Codage de canal – correction d’erreur:

• probabilit ´e d’erreur d’un bit: p

• distance de Hamming entre des mots de code: d

i,j

= d

H

% c(v

i

),c(v

j

) &

• probabilit ´e d’erreur de code: p

i,j

= p

di,j

(1 − p)

ddi,j

• fonction d’erreur: J

c

= !

n

i=1 c

!

j=1

%v

(xi)

v

j

%

2

p

xi,j

• Codage conjoint de canal-source

• fonction d’erreur: J

s+c

= !

n

i=1 c

!

j=1

%x

i

v

j

%

2

p

xi,j

Apprentissage non-supervis ´e

16

• Probl `eme g ´en ´erale: surfaces compliqu ´ees → minima local

• Solution 1: ISOMAP

• distance geod ´esique: chemins plus courts dans le graphe de simi- larit ´e

• MDS standard sur les distances geod ´esiques

(5)

17 18

al op

19

optimality; for intrinsically Euclidean man

20

(6)

21 22

Apprentissage non-supervis ´e

• Solution 2: Local linear embedding (LLE)

• Etape 1: trouver l’ensemble des ´ voisins V

xi

• Etape 2: approximer les points avec une ´ combinaison lin ´eaire de leurs plus proches voisins:

min

W n

!

i=1

' ' ' ' ' x

i

− !

xj∈Vxi

w

i,j

x

j

' ' ' ' '

2

• Etape 3: reconstruire les points dans l’espace de projection en util- ´ isant les m ˆemes poids:

min

Y n

!

i=1

' ' ' ' ' y

i

− !

xjVxi

w

i,j

y

j

' ' ' ' '

2

gWij!0 ifXjdoes sum to one:"jWij!1. The optimal weights

The con

23

these recons symmetry: f are invarian translations bors. By sym struction we metric prop opposed to ticular fram invariance t forced by th rows of the

Suppose nonlinear m

##D. To a

exists a lin translation, maps the h each neighb nates on the struction we ric propertie exactly such expect their try in the o

24 try in the valid for particular struct the should al fold coor LLE c mapping b step of th observatio vectorY!i nates on th d-dimensi embeddin

$

This cost based on but here mizing th cost in Eq vectorsY! the proble by solvin lem (9), w tors prov coordinat Implem straightfo points we est neighb tance or i l

(7)

25 26

Apprentissage non-supervis ´e

• d ´esavantage d’ISOMAP:

• temps d’ex ´ecution: O(n

3

)

• projeter des nouveaux points

• construire la fonction de projection explicitement

• probl `eme d’interpolation

• probl `eme d’apprentissage supervis ´e (r ´egression multidimensionnelle)

Apprentissage non-supervis ´e

27

• Probl `eme: bruit

Data points Generating curve Polygonal principal curve HS principal curve

Apprentissage non-supervis ´e

28

• Le biais du mod `ele

(0) f * (0)

# * f

#

(8)

Apprentissage non-supervis ´e

29

• Le biais de l’estimation

f(0) (0) f $

# $

# $ $

Apprentissage non-supervis ´e

30

• Solution: courbes principales polygonales

• Mesurer la distance de la courbe au lieu des sommets

S

i

S

i+1

s

i i

v

i-1

V

i+1

v

S

i-

s

i-2

s

i+1

v

i+1

1

V

i-

2

i i-1

V S

s

i-1

Apprentissage non-supervis ´e

31

• Courbes principales polygonales

Vertex optimization Projection Initialization

Convergence?

% k > c(n, )?

Add new vertex START

END N Y

Y N

Apprentissage non-supervis ´e

32

• Courbes principales polygonales

(a) (b) (c)

(d) (e) (f)

(9)

Apprentissage non-supervis ´e

33

• Courbes principales polygonales

• bruit r ´eduit

Data points Generating curve Polygonal principal curve BR principal curve HS principal curve

Apprentissage non-supervis ´e

34

• Courbes principales polygonales

• beaucoup de points

Data points Generating curve Polygonal principal curve HS principal curve

Apprentissage non-supervis ´e

35

• d ´esavantages des courbes principales:

• minima local

Data points Generating curve Polygonal principal curve HS principal curve

Data points Generating curve Polygonal principal curve HS principal curve

• extension aux surfaces n’est pas ´evident

→ la plupart des applications sont dans le traitement d’image

Apprentissage non-supervis ´e

36

• Skeletisation des caract `eres

(a) Character template Polygonal principal curve

(b) Character template Polygonal principal curve

(c) Character template Polygonal principal curve

(d) Character template Polygonal principal curve

(10)

Apprentissage non-supervis ´e

37

• Skeletisation des caract `eres

(a) Character template Skeleton graph

(b) Character template Skeleton graph

(c) Character template Skeleton graph

(d) Character template Skeleton graph

Apprentissage non-supervis ´e

38

• Apprentissage non-supervis ´e pour la classification: analyse discriminante

• but: trouver la meilleure projection qui pr ´eserve l’information discrim- inante

• Discriminante de Fisher

y = w

t

x

Apprentissage non-supervis ´e

39

• Analyse discriminante

0.5 1 1.5

0.5 1 1.5 2

0.5 1 1.5 x1

-0.5 0.5 1 1.5 2 x2

w w

x1 x2

Apprentissage non-supervis ´e

40

• Id ´ee 1: s ´eparer les moyennes projet ´ees

i

= 1 n

i

!

xDi

x

m ˜

i

= 1 n

i

!

yYi

y = 1 n

i

!

xDi

w

t

x

• trouver w qui maximise | m ˜

1

m ˜

2

| = | w

t

(

1

2

) |

• Id ´ee 2: s ´eparer les moyennes projet ´ees normalis ´ees par les variances par classe

s ˜

2i

= !

yYi

(y − m ˜

i

)

2

J(w) = ( m ˜

1

m ˜

2

)

2

˜

s

21

+ s ˜

22

(11)

Apprentissage non-supervis ´e

41

• Maximiser J(w):

S

i

= !

xDi

(x −

i

)(x −

i

)

t

S

W

= S

1

+ S

2

s ˜

2i

= !

xDi

(w

t

x −w

ti

)

2

= !

xDi

w

t

(x−

i

)(x−

i

)

t

w = w

t

S

i

w

s ˜

21

+ s ˜

22

= w

t

S

W

w

S

B

= (

1

2

)(

1

2

)

t

• ( m ˜

1

m ˜

2

)

2

= (w

t1

w

t2

)

2

= w

t

(

1

2

)(

1

2

)

t

w = w

t

S

B

w

J(w) = w

t

S

B

w w

t

S

W

w

w

max

= S

W1

(

1

2

)

Références

Documents relatifs

Notre approche de k-means ` a noyaux multiples appliqu´ ee aux donn´ ees fonctionnelles aboutit ` a deux types de r´ esultats: d’une part, nous obtenons une partition de

Evaluation et comparaison de mod` eles en apprentissage supervis´ e (Quelques) Aspects th´ eoriques en apprentissage automatique Les m´ ethodes lin´ eaires et leurs p´

Update cluster to the aver- aged of its assigned points - Stop when no point’s

Savoir d´ efinir les notions d’apprentissage automatique Savoir d´ efinir apprentissage supervis´ e et non-supervis´ e Connaitre la notion de sur-apprentissage.. Connaitre les

Guillaume Wacquet ; Emilie Poisson Caillault ; Denis Hamad ; Pierre-Alexandre H´ ebert Pattern Recognition Letters, Available online 19 February 2013, Detection of

Der in der Uberschrift genannte Beweis sell dadurch geliefert werden, dass ffir das fragliche Potential ein Ausdruck gebildet wird, der es dar- stellt als

Montrer que dans une coloration optimale d’un graphe G (c’est-` a-dire une coloration avec χ(G) couleurs), il existe un sommet de chaque couleur qui “voit” toutes les

sont ´ equip´ es d’un syst` eme d’aiguillage permettant un transfert sans perte de vitesse entre le tunnel de descente et/ou de remont´ ee et le tunnel circulaire. Ecrire le