• m ´ethode de base: ACP

(1)

• Typologie de la r ´eduction de dimension

• m ´ethode de base: ACP

• “groupement (clustering) des dimensions”

• extensions:

•ACP non-lin ´eaire(NLPCA)

•´echelonnement multidimensionnel(multidimensional scaling–MDS)

•cartes auto-organisatrices(self-organizing maps–SOM)

•local linear embedding(LLE)

•ISOMAP

•courbes principales(principal curves)

• Typologie de groupement (clustering)

• m ´ethode de base: k-moyennes

• groupement (clustering) des points

• extensions:

•k-moyennesflou(fuzzy k-means)≡SOM

•densit ´es du m ´elange⊆k-moyennesflou

•groupement hi´erarchique(hierarchical clustering)

Apprentissage non-supervis ´e

3

• Densit ´es du m ´elange

• mod `ele semi-param ´etrique:

p(x|!) = "

^k

!=1

p(x|C

!

, !

!

)P(C

!

)

• k classes

• vecteur des param `etres: ! = (!

1

, . . .,!

k

)

• densit ´es de composante: p(x|C

!

,!

!

)

• probabilit és a-priori (param ètres du m élange): P(C

!

)

• Objectif

• estimer !, (P(C

!

)) ´etant donn ´e X

n

= { X

1

,X

2

, . . . ,X

n

}

Apprentissage non-supervis ´e

4

• Approche de maximum de vraisemblance

• p( X

n

|!) = #

ⁿ

i=1

p(x

i

|!)

• l = "

ⁿ

i=1

log p(x

i

|! )

!

!_!

l = "

ⁿ

i=1

1 p(x

i

|!) !

!_!

!

_k

"

j=1

p(x

i

| C

j

, !

j

)P(C

j

)

"

= "

ⁿ

i=1

P(C

!

| x

i

, !) !

!_!

log p(x

i

| C

!

, !

!

) = 0

• o `u P(C

!

| x

i

,!) = p(x

i

| C

!

,!

!

)P(C

!

)

p(x

i

|!)

(2)

• Algorithme it ´eratif

D

ENSITES

´ D

U

M ´

ELANGE

( X

n

) 1 !

⁽⁰⁾

← #

!

⁽⁰⁾1

, . . .,!

⁽⁰⁾_k

$ , j ← 0 2 faire

3 pour ! ← 1 `a k faire 4 pour i ← 1 `a n faire

5 P

_!,i^(j)

= P(C

!

| x

i

, !

⁽^j)

) ← p(x

i

| C

!

, !

^(j)!

)P(C

!

) p(x

i

|!

⁽^j)

) 6 pour ! ← 1 `a k faire

7 !

⁽!^j+1)

← solution

%

_n

"

i=1

P

_!,i^(j)

!

!_!

log p(x

i

| C

!

, !

!

) = 0

&

8 j ← j +1

9 jusqu’`a ' 1 −

_l(j+1)^l^(j)

( < seuil

• k-moyennes flou (fuzzy k-means)

• x

i

appartient `a V

!

avec un poids W

i,!

( ∼ P(C

!

|x

i

))

• W

i,!

est normalis ´e pour tous les points x

i

:

k

"

!=1

W

i,!

= 1

• objectif: minimiser

J

fuz

= "

^k

!=1 n

"

i=1

W

^b_i,!

& x

i

− µ

!

&

²

Apprentissage non-supervis ´e

7

• Solution (b > 1)

• µ

!

= "

ⁿi=1

W

^b_i,!

x

i

"

ⁿi=1

W

^b_i,!

• W

i,!

= (1/d

i!

)

^1/(b⁻¹⁾

"

^k!^'=1

(1/d

_i!'

)

^1/(b⁻¹⁾

, (d

i!

= & x

i

− µ

!

&

²

)

• algorithme it ´eratif

Apprentissage non-supervis ´e

8

• Normalisation

.2 .4 .6 .8 1

0 .2 .4 .6 .8 1

.25 .5 .75 1 1.25 1.5 1.75 2

0 .1 .2 .3 .4 .5

.1 .2 .3 .4 .5 0

.2 .4 .6 .8 1 1.2 1.4 1.6

2 0

( )

0 .5 x2

x2

x1

.5 0

( )

0 2

(3)

• Normalisation

x

1

x

1

x

2

x

2

• Crit `eres diff ´erents

• m ´etrique de Minkowski:

d(x,x

^'

) = )

_d

"

i=1

| x

i

− x

^'_i

|

^p

*

1/p

• mesures de similarit ´e:

s(x, x

^'

) = x

^t

x

^'

& x & & x

^'

&

•x^tx^'est lenombre des attributs partag´es(variables binaires)

•&x& &x^'&est lamoyennegéom étrique desattributs posséd ésparxetx^'

•s(x,x^'):possession relative des attributs

Apprentissage non-supervis ´e

11

• Crit `eres diff ´erents

• versions diff ´erentes:

•fraction des attributs partag´es:s(x,x^') =x^tx^' d

•distance deTanimoto:s(x,x^') = x^tx^' x^tx+x^'^tx^'−x^tx^'

Apprentissage non-supervis ´e

12

• Crit `eres diff ´erents

• m ´etrique quadratique:

J

e

= "

^c

i=1

"

x∈Vi

& x

i

− v

i

&

²

= 1 2

c

"

i=1

n

i

s

i

• o `u s

i

= 1 n

²i

"

x∈Vi

"

x^'∈Vi

& x − x

^'

&

²

• g ´en ´eralisations:

s

i

= 1 n

²i

"

x∈Vi

"

x^'∈Vi

s(x,x

^'

) s

i

= max

x,x^'∈Vi

s(x,x

^'

)

(4)

• Groupement hi ´erarchique

• dendogramme:

0 10 20 30 40 50 60 70 80 90

x

₁ 100

k = 1 k = 2 k = 3 k = 4 k = 5 k = 6 k = 7

x

₂

x

₃

x

₄

x

₅

x

₆

x

₇

x

₈

k = 8

´echelledesimilarit´e

• Groupement hi ´erarchique agglom ´eratif

G

^ROUPEMENT

H

IERARCHIQUE

A

GGLOMERATIF

( X

n

, c) 1 c + ← n

2 pour i ← 1 `a n faire 3 V

i

← { x

i

} 4 faire

5 trouver les groupes les plus proches V

i

et V

j

6 fusionner V

i

et V

j

7 + c ← c + − 1 8 jusqu’`a c = + c

Apprentissage non-supervis ´e

15

• Distances des groupes

• d

min

(V

i

,V

j

) = min

x∈Vi x^'∈V_j

&x− x

^'

&

• d

max

(V

i

,V

j

) = max

x∈V_i x^'∈V_j

& x − x

^'

&

• d

avg

(V

i

,V

j

) = 1 n

i

n

j

"

x∈V_i

"

x^'∈V_j

& x − x

^'

&

• d

mean

(V

i

,V

j

) = &

i

−

j

&

Apprentissage non-supervis ´e

16

• Groupement hi ´erarchique – plus proche voisin

• d

min

(V

i

,V

j

) = min

x∈Vi x^'∈V_j

&x− x

^'

&

• algorithme du lien simple (single-linkage)

• arbre couvrant minimal (Kruskal)

(5)

• Groupement hi ´erarchique – plus proche voisin • Groupement hi ´erarchique – plus loin voisin

• d

max

(V

i

,V

j

) = max

x∈Vi x^'∈V_j

&x − x

^'

&

• algorithme du lien complet (complete linkage)

• augmenter le diam `etre le moins possible

Apprentissage non-supervis ´e

19

• Groupement hi ´erarchique – plus loin voisin

dmax = large dmax = small

Apprentissage non-supervis ´e

20

• Groupement hi ´erarchique incr ´ementiel

G

ROUPEMENT

H

IERARCHIQUE

I

NCREMENTIEL

( X

n

, c) 1 c + ← n

2 pour i ← 1 `a n faire 3 V

i

← {x

i

} 4 faire

5 trouver V

i

etV

j

dont la fusion change une crit`ere le moins 6 fusionner V

i

et V

j

7 + c ← c + − 1 8 jusqu’`a c = + c

• crit `ere: J

e

= "

^c

i=1

"

x∈V_i

& x −

ⁱ

&

²

• distance: d

e

(V

i

,V

j

) = , n

i

n

j

n

i

+ n

j

&

ⁱ

−

^j

&

(6)

• Groupement hi ´erarchique – approche de th ´eorie de graphe

• Matrice (graphe) de similarit ´e S

_{i j}

=

% 1 si d(x

_i

, x

j

) < d

0

0 sinon.

• d

min

−→ composantes connexes

• d

max

−→ sous-graphes complets

• Approche de division

• Statistique de longueurs des arr ˆetes

• Chemin de diam `etre

• Groupement hi ´erarchique – approche de division

• construire un arbre couvrant minimal

• couper les arr ˆetes “longues”

Apprentissage non-supervis ´e

23

• Groupement hi ´erarch. – statistique de longueurs des arr ˆetes

1 2 3 4 5 67 8 9

longueur longueur

nombre

Apprentissage non-supervis ´e

24

• Groupement hi érarchique – m étrique g én ér ée

• $ (x, x

^'

) “dissimilarit ´e” non-m ´etrique

•non-n´egativit ´e:$(x,x^')≥0

•r ´eflexivit ´e:$(x,x^') =0siix=x^'

• “dissimilarit ´e” des groupes

•$min(V_i,V_j) =min x∈Vi x^'∈Vj

$(x,x^')

•$max(Vi,Vj) =max x∈Vi x^'∈Vj

$(x,x^')

• d(x,x

^'

) m étrique g én ér ée:

•le niveau degroupement plus baso `uxetx^'se trouvent dans lemˆeme groupe

•aussisym étriqueet satisfait l’inégalit é de triangle

(7)

• Groupement hi ´erarchique – dans l’espace des attributs

• trouver les attributs les plus corr ´el ´es

• matrice de covariance: R = [ %

i j

]

• coefficients de corr ´elation: &

i j

= %

i j

%

ii

%

j j

• 0 ≤ &

i j

≤ 1: mesure de similarit ´e entre deux attributs