• Aucun résultat trouvé

Apprentissage non-supervis ´e

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage non-supervis ´e"

Copied!
11
0
0

Texte intégral

(1)

Apprentissage non-supervis ´e

1

• Typologie de la r ´eduction de dimension

• m ´ethode de base: ACP

• “groupement (clustering) des dimensions”

• extensions:

•ACP non-lin ´eaire(NLPCA)

•´echelonnement multidimensionnel(multidimensional scaling–MDS)

•cartes auto-organisatrices(self-organizing maps–SOM)

•local linear embedding(LLE)

•ISOMAP

•courbes principales(principal curves)

Apprentissage non-supervis ´e

2

• ACP non-lin ´eaire – auto-encodage

• mod `ele de r ´eseau de ACP

x1 x2 xd

x1 x2 xd

x1

x2

xd

Γ(F2)

x F2

F1

F1

1 k

...

sortie

entr´ee lin´eaire

Apprentissage non-supervis ´e

3

• ACP non-lin ´eaire – auto-encodage

• extension non-lin ´eaire

x1 x2 xd

x1 x2 xd

x1

x2

xd

Γ(F2)

x

F2

F1

F1

1 k

...

sortie

entr´ee lin´eaire non-lin´eaire

non-lin´eaire

Apprentissage non-supervis ´e

4

• ´Echelonnement multidimensionnel (MDS)

• repr ´esentation de dimension r ´eduite qui pr ´eserve les distances

x1

x2

x3

y1

y2

xi xj

yi

yj

d

ij

δij

espace de source espace de cible

(2)

Apprentissage non-supervis ´e

5

• ´Echelonnement multidimensionnel (MDS)

• fonctions d’erreur

Jee=!i<j(di j−"i j)2

!i<j"2i j

Jf f=

!

i<j

!di j−"i j

"i j

"2

Je f= 1

!i<j"i j

!

i<j (di j−"i j)2

"i j

Apprentissage non-supervis ´e

6

• ´Echelonnement multidimensionnel (MDS)

• minimisation

•descente de gradientstandard

• initialisation

•lesd"coordonn´ees avec lesvariances plus grandes

•ACPavecd"composantes

Apprentissage non-supervis ´e

7

• ´Echelonnement multidimensionnel (MDS)

01 1 5 10 15 20

x1

x2

x3

y1

y2

source target

Apprentissage non-supervis ´e

8

• Cartes auto-organisatrices (SOM)

x

i

appartient `a V

!

avec un poids W

i,!

W

i,!

ne d ´epend que de la distance entre v

!

et v

(xi)

• fonction de fen ˆetre typique

y* y

y

*

y1 y2

Λ

(3)

Apprentissage non-supervis ´e

9

• Cartes auto-organisatrices (SOM)

SOM( X

n

)

1 C

(0)

# v

(0)1

, . . . ,v

(0)k

$ 2 j ← 0

3 faire

4 recalculer W

(j)

5 pour ! ← 1 `a k faire

6 v

(j+1)!

← 1

n

n

!

i=1

W

(i,!j)

x

i

7 jj +1

8 jusqu’`a changement > seuil

Apprentissage non-supervis ´e

10

• Cartes auto-organisatrices (SOM)

• 2 dimensions −→ 1 dimension

0 20 100

25,000 50,000 75,000

1000 10,000

100,000 150,000

Apprentissage non-supervis ´e

11

• Cartes auto-organisatrices (SOM)

• 2 dimensions −→ 2 dimensions

100 1000 10,000 25,000 50,000

75,000 100,000 150,000 200,000 300,000

Apprentissage non-supervis ´e

12

• Cartes auto-organisatrices (SOM)

• probl `eme: minimum local

0 1000 25000 400000

(4)

Apprentissage non-supervis ´e

13

• Cartes auto-organisatrices (SOM)

• estimation de densit ´e

0 1000 400,000 800,000

Apprentissage non-supervis ´e

14

• Cartes auto-organis. (SOM) – th ´eorie de communication

• Codage de source – quantification vectorielle:

• fonction d’erreur: J

s

= !

n

i=1

% x

i

v

(xi)

%

2

Apprentissage non-supervis ´e

15

• Codage de canal – correction d’erreur:

• probabilit ´e d’erreur d’un bit: p

• distance de Hamming entre des mots de code: d

i,j

= d

H

% c(v

i

),c(v

j

) &

• probabilit ´e d’erreur de code: p

i,j

= p

di,j

(1 − p)

ddi,j

• fonction d’erreur: J

c

= !

n

i=1 c

!

j=1

%v

(xi)

v

j

%

2

p

xi,j

• Codage conjoint de canal-source

• fonction d’erreur: J

s+c

= !

n

i=1 c

!

j=1

%x

i

v

j

%

2

p

xi,j

Apprentissage non-supervis ´e

16

• Probl `eme g ´en ´erale: surfaces compliqu ´ees → minima local

• Solution 1: ISOMAP

• distance geod ´esique: chemins plus courts dans le graphe de simi- larit ´e

• MDS standard sur les distances geod ´esiques

(5)

17 18

al op

19

optimality; for intrinsically Euclidean man

20

(6)

21 22

Apprentissage non-supervis ´e

• Solution 2: Local linear embedding (LLE)

• Etape 1: trouver l’ensemble des ´ voisins V

xi

• Etape 2: approximer les points avec une ´ combinaison lin ´eaire de leurs plus proches voisins:

min

W n

!

i=1

' ' ' ' ' x

i

− !

xj∈Vxi

w

i,j

x

j

' ' ' ' '

2

• Etape 3: reconstruire les points dans l’espace de projection en util- ´ isant les m ˆemes poids:

min

Y n

!

i=1

' ' ' ' ' y

i

− !

xjVxi

w

i,j

y

j

' ' ' ' '

2

gWij!0 ifXjdoes sum to one:"jWij!1. The optimal weights

The con

23

these recons symmetry: f are invarian translations bors. By sym struction we metric prop opposed to ticular fram invariance t forced by th rows of the

Suppose nonlinear m

##D. To a

exists a lin translation, maps the h each neighb nates on the struction we ric propertie exactly such expect their try in the o

24 try in the valid for particular struct the should al fold coor LLE c mapping b step of th observatio vectorY!i nates on th d-dimensi embeddin

$

This cost based on but here mizing th cost in Eq vectorsY! the proble by solvin lem (9), w tors prov coordinat Implem straightfo points we est neighb tance or i l

(7)

25 26

Apprentissage non-supervis ´e

• d ´esavantage d’ISOMAP:

• temps d’ex ´ecution: O(n

3

)

• projeter des nouveaux points

• construire la fonction de projection explicitement

• probl `eme d’interpolation

• probl `eme d’apprentissage supervis ´e (r ´egression multidimensionnelle)

Apprentissage non-supervis ´e

27

• Probl `eme: bruit

Data points Generating curve Polygonal principal curve HS principal curve

Apprentissage non-supervis ´e

28

• Le biais du mod `ele

(0) f * (0)

# * f

#

(8)

Apprentissage non-supervis ´e

29

• Le biais de l’estimation

f(0) (0) f $

# $

# $ $

Apprentissage non-supervis ´e

30

• Solution: courbes principales polygonales

• Mesurer la distance de la courbe au lieu des sommets

S

i

S

i+1

s

i i

v

i-1

V

i+1

v

S

i-

s

i-2

s

i+1

v

i+1

1

V

i-

2

i i-1

V S

s

i-1

Apprentissage non-supervis ´e

31

• Courbes principales polygonales

Vertex optimization Projection Initialization

Convergence?

% k > c(n, )?

Add new vertex START

END N Y

Y N

Apprentissage non-supervis ´e

32

• Courbes principales polygonales

(a) (b) (c)

(d) (e) (f)

(9)

Apprentissage non-supervis ´e

33

• Courbes principales polygonales

• bruit r ´eduit

Data points Generating curve Polygonal principal curve BR principal curve HS principal curve

Apprentissage non-supervis ´e

34

• Courbes principales polygonales

• beaucoup de points

Data points Generating curve Polygonal principal curve HS principal curve

Apprentissage non-supervis ´e

35

• d ´esavantages des courbes principales:

• minima local

Data points Generating curve Polygonal principal curve HS principal curve

Data points Generating curve Polygonal principal curve HS principal curve

• extension aux surfaces n’est pas ´evident

→ la plupart des applications sont dans le traitement d’image

Apprentissage non-supervis ´e

36

• Skeletisation des caract `eres

(a) Character template Polygonal principal curve

(b) Character template Polygonal principal curve

(c) Character template Polygonal principal curve

(d) Character template Polygonal principal curve

(10)

Apprentissage non-supervis ´e

37

• Skeletisation des caract `eres

(a) Character template Skeleton graph

(b) Character template Skeleton graph

(c) Character template Skeleton graph

(d) Character template Skeleton graph

Apprentissage non-supervis ´e

38

• Apprentissage non-supervis ´e pour la classification: analyse discriminante

• but: trouver la meilleure projection qui pr ´eserve l’information discrim- inante

• Discriminante de Fisher

y = w

t

x

Apprentissage non-supervis ´e

39

• Analyse discriminante

0.5 1 1.5

0.5 1 1.5 2

0.5 1 1.5 x1

-0.5 0.5 1 1.5 2 x2

w w

x1 x2

Apprentissage non-supervis ´e

40

• Id ´ee 1: s ´eparer les moyennes projet ´ees

i

= 1 n

i

!

xDi

x

m ˜

i

= 1 n

i

!

yYi

y = 1 n

i

!

xDi

w

t

x

• trouver w qui maximise | m ˜

1

m ˜

2

| = | w

t

(

1

2

) |

• Id ´ee 2: s ´eparer les moyennes projet ´ees normalis ´ees par les variances par classe

s ˜

2i

= !

yYi

(y − m ˜

i

)

2

J(w) = ( m ˜

1

m ˜

2

)

2

˜

s

21

+ s ˜

22

(11)

Apprentissage non-supervis ´e

41

• Maximiser J(w):

S

i

= !

xDi

(x −

i

)(x −

i

)

t

S

W

= S

1

+ S

2

s ˜

2i

= !

xDi

(w

t

x −w

ti

)

2

= !

xDi

w

t

(x−

i

)(x−

i

)

t

w = w

t

S

i

w

s ˜

21

+ s ˜

22

= w

t

S

W

w

S

B

= (

1

2

)(

1

2

)

t

• ( m ˜

1

m ˜

2

)

2

= (w

t1

w

t2

)

2

= w

t

(

1

2

)(

1

2

)

t

w = w

t

S

B

w

J(w) = w

t

S

B

w w

t

S

W

w

w

max

= S

W1

(

1

2

)

Références

Documents relatifs

sont ´ equip´ es d’un syst` eme d’aiguillage permettant un transfert sans perte de vitesse entre le tunnel de descente et/ou de remont´ ee et le tunnel circulaire. Ecrire le

Notre approche de k-means ` a noyaux multiples appliqu´ ee aux donn´ ees fonctionnelles aboutit ` a deux types de r´ esultats: d’une part, nous obtenons une partition de

Evaluation et comparaison de mod` eles en apprentissage supervis´ e (Quelques) Aspects th´ eoriques en apprentissage automatique Les m´ ethodes lin´ eaires et leurs p´

Montrer que dans une coloration optimale d’un graphe G (c’est-` a-dire une coloration avec χ(G) couleurs), il existe un sommet de chaque couleur qui “voit” toutes les

Update cluster to the aver- aged of its assigned points - Stop when no point’s

Der in der Uberschrift genannte Beweis sell dadurch geliefert werden, dass ffir das fragliche Potential ein Ausdruck gebildet wird, der es dar- stellt als

Savoir d´ efinir les notions d’apprentissage automatique Savoir d´ efinir apprentissage supervis´ e et non-supervis´ e Connaitre la notion de sur-apprentissage.. Connaitre les

Guillaume Wacquet ; Emilie Poisson Caillault ; Denis Hamad ; Pierre-Alexandre H´ ebert Pattern Recognition Letters, Available online 19 February 2013, Detection of