• Aucun résultat trouvé

• m ´ethode de base: ACP

N/A
N/A
Protected

Academic year: 2022

Partager "• m ´ethode de base: ACP"

Copied!
7
0
0

Texte intégral

(1)

• Typologie de la r ´eduction de dimension

• m ´ethode de base: ACP

• “groupement (clustering) des dimensions”

• extensions:

•ACP non-lin ´eaire(NLPCA)

•´echelonnement multidimensionnel(multidimensional scaling–MDS)

•cartes auto-organisatrices(self-organizing maps–SOM)

•local linear embedding(LLE)

•ISOMAP

•courbes principales(principal curves)

• Typologie de groupement (clustering)

• m ´ethode de base: k-moyennes

• groupement (clustering) des points

• extensions:

•k-moyennesflou(fuzzy k-means)≡SOM

•densit ´es du m ´elange⊆k-moyennesflou

•groupement hi´erarchique(hierarchical clustering)

Apprentissage non-supervis ´e

3

• Densit ´es du m ´elange

• mod `ele semi-param ´etrique:

p(x|!) = "

k

!=1

p(x|C

!

, !

!

)P(C

!

)

k classes

• vecteur des param `etres: ! = (!

1

, . . .,!

k

)

• densit ´es de composante: p(x|C

!

,!

!

)

• probabilit ´es a-priori (param `etres du m ´elange): P(C

!

)

• Objectif

• estimer !, (P(C

!

)) ´etant donn ´e X

n

= { X

1

,X

2

, . . . ,X

n

}

Apprentissage non-supervis ´e

4

• Approche de maximum de vraisemblance

p( X

n

|!) = #

n

i=1

p(x

i

|!)

l = "

n

i=1

log p(x

i

|! )

!

!!

l = "

n

i=1

1 p(x

i

|!) !

!!

!

k

"

j=1

p(x

i

| C

j

, !

j

)P(C

j

)

"

= "

n

i=1

P(C

!

| x

i

, !) !

!!

log p(x

i

| C

!

, !

!

) = 0

• o `u P(C

!

| x

i

,!) = p(x

i

| C

!

,!

!

)P(C

!

)

p(x

i

|!)

(2)

• Algorithme it ´eratif

D

ENSITES

´ D

U

M ´

ELANGE

( X

n

) 1 !

(0)

← #

!

(0)1

, . . .,!

(0)k

$ , j ← 0 2 faire

3 pour ! ← 1 `a k faire 4 pour i ← 1 `a n faire

5 P

!,i(j)

= P(C

!

| x

i

, !

(j)

) ← p(x

i

| C

!

, !

(j)!

)P(C

!

) p(x

i

|!

(j)

) 6 pour ! ← 1 `a k faire

7 !

(!j+1)

solution

%

n

"

i=1

P

!,i(j)

!

!!

log p(x

i

| C

!

, !

!

) = 0

&

8 jj +1

9 jusqu’`a ' 1 −

l(j+1)l(j)

( < seuil

• k-moyennes flou (fuzzy k-means)

x

i

appartient `a V

!

avec un poids W

i,!

( ∼ P(C

!

|x

i

))

W

i,!

est normalis ´e pour tous les points x

i

:

k

"

!=1

W

i,!

= 1

• objectif: minimiser

J

fuz

= "

k

!=1 n

"

i=1

W

bi,!

& x

i

µ

!

&

2

Apprentissage non-supervis ´e

7

• Solution (b > 1)

µ

!

= "

ni=1

W

bi,!

x

i

"

ni=1

W

bi,!

W

i,!

= (1/d

i!

)

1/(b1)

"

k!'=1

(1/d

i!'

)

1/(b1)

, (d

i!

= & x

i

µ

!

&

2

)

• algorithme it ´eratif

Apprentissage non-supervis ´e

8

• Normalisation

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

.25 .5 .75 1 1.25 1.5 1.75 2

0 .1 .2 .3 .4 .5

.1 .2 .3 .4 .5 0

.2 .4 .6 .8 1 1.2 1.4 1.6

2 0

( )

0 .5 x2

x2

x2

x1

x1

x1

.5 0

( )

0 2

(3)

• Normalisation

x

1

x

1

x

2

x

2

• Crit `eres diff ´erents

• m ´etrique de Minkowski:

d(x,x

'

) = )

d

"

i=1

| x

i

x

'i

|

p

*

1/p

• mesures de similarit ´e:

s(x, x

'

) = x

t

x

'

& x & & x

'

&

xtx'est lenombre des attributs partag´es(variables binaires)

•&x& &x'&est lamoyenneg´eom ´etrique desattributs poss´ed ´esparxetx'

s(x,x'):possession relative des attributs

Apprentissage non-supervis ´e

11

• Crit `eres diff ´erents

• versions diff ´erentes:

•fraction des attributs partag´es:s(x,x') =xtx' d

•distance deTanimoto:s(x,x') = xtx' xtx+x'tx'xtx'

Apprentissage non-supervis ´e

12

• Crit `eres diff ´erents

• m ´etrique quadratique:

J

e

= "

c

i=1

"

x∈Vi

& x

i

v

i

&

2

= 1 2

c

"

i=1

n

i

s

i

• o `u s

i

= 1 n

2i

"

x∈Vi

"

x'∈Vi

& xx

'

&

2

• g ´en ´eralisations:

s

i

= 1 n

2i

"

x∈Vi

"

x'∈Vi

s(x,x

'

) s

i

= max

x,x'∈Vi

s(x,x

'

)

(4)

• Groupement hi ´erarchique

• dendogramme:

0 10 20 30 40 50 60 70 80 90

x

1 100

k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7

x

2

x

3

x

4

x

5

x

6

x

7

x

8

k = 8

´echelledesimilarit´e

• Groupement hi ´erarchique agglom ´eratif

G

ROUPEMENT

H

IERARCHIQUE

A

GGLOMERATIF

( X

n

, c) 1 c + ← n

2 pour i ← 1 `a n faire 3 V

i

← { x

i

} 4 faire

5 trouver les groupes les plus proches V

i

et V

j

6 fusionner V

i

et V

j

7 + cc + − 1 8 jusqu’`a c = + c

Apprentissage non-supervis ´e

15

• Distances des groupes

d

min

(V

i

,V

j

) = min

x∈Vi x'Vj

&x− x

'

&

d

max

(V

i

,V

j

) = max

xVi x'Vj

& xx

'

&

d

avg

(V

i

,V

j

) = 1 n

i

n

j

"

xVi

"

x'Vj

& xx

'

&

d

mean

(V

i

,V

j

) = &

i

j

&

Apprentissage non-supervis ´e

16

• Groupement hi ´erarchique – plus proche voisin

d

min

(V

i

,V

j

) = min

x∈Vi x'Vj

&x− x

'

&

• algorithme du lien simple (single-linkage)

• arbre couvrant minimal (Kruskal)

(5)

• Groupement hi ´erarchique – plus proche voisin • Groupement hi ´erarchique – plus loin voisin

d

max

(V

i

,V

j

) = max

x∈Vi x'Vj

&x − x

'

&

• algorithme du lien complet (complete linkage)

• augmenter le diam `etre le moins possible

Apprentissage non-supervis ´e

19

• Groupement hi ´erarchique – plus loin voisin

dmax = large dmax = small

Apprentissage non-supervis ´e

20

• Groupement hi ´erarchique incr ´ementiel

G

ROUPEMENT

H

IERARCHIQUE

I

NCREMENTIEL

( X

n

, c) 1 c + ← n

2 pour i ← 1 `a n faire 3 V

i

← {x

i

} 4 faire

5 trouver V

i

etV

j

dont la fusion change une crit`ere le moins 6 fusionner V

i

et V

j

7 + cc + − 1 8 jusqu’`a c = + c

• crit `ere: J

e

= "

c

i=1

"

xVi

& x

i

&

2

• distance: d

e

(V

i

,V

j

) = , n

i

n

j

n

i

+ n

j

&

i

j

&

(6)

• Groupement hi ´erarchique – approche de th ´eorie de graphe

• Matrice (graphe) de similarit ´e S

i j

=

% 1 si d(x

i

, x

j

) < d

0

0 sinon.

d

min

−→ composantes connexes

d

max

−→ sous-graphes complets

• Approche de division

• Statistique de longueurs des arr ˆetes

• Chemin de diam `etre

• Groupement hi ´erarchique – approche de division

• construire un arbre couvrant minimal

• couper les arr ˆetes “longues”

Apprentissage non-supervis ´e

23

• Groupement hi ´erarch. – statistique de longueurs des arr ˆetes

1 2 3 4 5 67 8 9

1 2 3 4 5 67 8 9

longueur longueur

nombre

nombre

Apprentissage non-supervis ´e

24

• Groupement hi ´erarchique – m ´etrique g ´en ´er ´ee

• $ (x, x

'

) “dissimilarit ´e” non-m ´etrique

•non-n´egativit ´e:$(x,x')≥0

•r ´eflexivit ´e:$(x,x') =0siix=x'

• “dissimilarit ´e” des groupes

•$min(Vi,Vj) =min x∈Vi x'∈Vj

$(x,x')

•$max(Vi,Vj) =max x∈Vi x'∈Vj

$(x,x')

d(x,x

'

) m ´etrique g ´en ´er ´ee:

•le niveau degroupement plus baso `uxetx'se trouvent dans lemˆeme groupe

•aussisym ´etriqueet satisfait l’in´egalit ´e de triangle

(7)

• Groupement hi ´erarchique – dans l’espace des attributs

• trouver les attributs les plus corr ´el ´es

• matrice de covariance: R = [ %

i j

]

• coefficients de corr ´elation: &

i j

= %

i j

%

ii

%

j j

• 0 ≤ &

i j

≤ 1: mesure de similarit ´e entre deux attributs

Références

Documents relatifs

[r]

La permutation de cartes entre des cases adjacentes (not´ ee H ), ou entre la derni` ere case d’une ligne et la premi` ere de la ligne suivante (not´ ee S ) coˆ ute 1 euro et celle

On peut alors choisir comme matrice de pr´econditionnement une matrice L voisine de B T en effectuant ce que l’on appelle une d´ecomposition de Cholesky incompl`ete qui consiste `a

[r]

Le syst` eme admet un d´ eterminant diff´ erent de 0 (il vaut − 34), il admet donc une unique solution qui est la solution nulle (et on n’a pas besoin des formules de Cramer

Examen d’analyse num´ erique.. Aucun document n’est

On se propose de trouver un point o` u le minimum de J est atteint `a l’aide de

Ici, dans l’exemple introductif, on va essayer les deux possibilit´ es pour en d´ eduire une r` egle (la deuxi` eme r` egle de la m´ ethode de simplexe) sur le choix de la ligne `