ACP • projection sur un ensemble fini de points

(1)

• Donn ´ee “crue” – pas de classe: X_n ₌ _{X₁,X₂, . . . ,X_n}

• Variantes, synonymes, aspects

• estimation de densit ´e

• extraction de traits

• r ´eduction de dimensionnalit ´e

• compression de donn ´ee

• clustering

• visualisation

(2)

• repr ésentation fid èle – pr éservation d’information

• repr ´esentation concise – compression

(3)

• M ´ethodes de base

• projection sur un sous-espace lin ´eaire −→ ACP

• projection sur un ensemble fini de points −→ k-moyennes

(4)

• Trouver le sous-espace lin ´eaire qui maximise la variance des projec- tions

• Trouver le sous-espace lin ´eaire qui minimise la distance entre les points et leur projection

(5)

(6)

• X= (X₁, . . .,Xd): observation al ´eatoire, E[X] =0, Var[X] <!

• u ∈ R^d: vecteur d’unit ´e arbitraire

• s(t) =tu: ligne droite qui correspond `a u

• Y =t_s(X) = X^tu: l’indice de projection de X `a s

• s(t_s(X))= s(X^tu): point de projection de X `a s

(7)

• ACP

• E[X] = 0=⇒ E[Y] =E[X^tu] = 0

• variance deY:

Var[Y] = E[(X^tu)²] =E[(u^tX)(X^tu)]

= u^tE[XX^t]u = u^tRu

= "(u)

• R= E!

(X−E[X])(X−E[X])^t"

= E!

XX^t"

: matrice de covariance

• Ri j = E! XiXj

"

• R est sym ´etrique =⇒R= R^t,

• ∀v,w∈ R^d: v^tRw = w^tRv

(8)

• objectif: maximiser Var[Y] ="(u) =u^tRu par rapport `a u

• consid ´erer une petite perturbation #u de u

• telle que &u+#u&= 1:

"(u+#u) = (u+#u)^tR(u+#u)

= u^tRu+2(#u)^tRu+ (#u)^tR #u

(9)

• ACP

• ignorer le terme d’ordre 2:

"(u+#u) = u^tRu+2(#u)^tRu

= "(u) +2(#u)^tRu

• si "(u) est stationnaire:

"(u+#u) ="(u)

• donc

(#u)^tRu = 0

(10)

• puisque &u+#u&² = &u&²+2(#u)^tu+&#u&² = 1:

(#u)^tu =0

• #u est orthogonal `a u

• l’ équation à r ésoudre:

(#u)^tRu−l(#u)^tu = 0

• ´egalement

(#u)^t(Ru−lu) = 0 Ru = lu

(11)

• ACP

• les solutions l1, . . . ,ld: valeurs propres

• les solutions u1, . . . ,ud: vecteurs propres

• U= [u₁, . . . ,u_d]

• simplification: les valeurs propres sont toutes diff ´erentes:

l_i '= l_j si i '= j

• trier les valeurs propres: l₁ > . . . >l_d

• les vecteurs propres forment une base orthonormale:

0 = (u_iRu_j−u_iRu_j) = (u_iRu_j−u_jRu_i) = (u_il_ju_j−u_jl_iu_i)

= (l_j−l_i)(u_iu_j)

(12)

• le r ´esultat:

&maxu&=1"(u) = l₁ arg max

&u&=1 "(u) = u₁

• les lignes de composantes principales: si(t) =tui,i = 1, . . . ,d

• les composantes principales: ti = uix,i = 1, . . .,d

• l’analyse en composantes principales: t= U^tx

• reconstruction: x= (U^t)⁻¹t= Ut= $^d

i=1

tiui

(13)

• ACP

• soit X⁽ = ^d

(

i=1$

t_iu_i

• S_d( maximise la variance de X⁽: E!

X⁽²"

= ^d

(

i=1$

"(u_i) = ^d

(

i=1$

l_i,

• S_d( minimise la variance de X−X⁽: E!

(X−X⁽)²"

= $^d

i=d⁽+1

"(u_j) = $^d

i=d⁽+1

l_j,

(14)

• estimation: X_n = {X1,X2, . . . ,Xn}

• matrice de covariance d’´echantillon:

R#_n = 1 n

n

$i=1

x_nx^t_n

• les solutions #u₁, . . . ,#u_d: vecteurs propres

• algorithme na¨ıf: trouver les vecteurs propres – T = O(nd³)

• techniques sophistiqu ´ees: T = O(nd²)

• algorithmes it ´eratifs: T = O(nds)

(15)

• ACP

• algorithmes it ´eratifs ACPITERATIVE(X_n)

1 s⁽⁰⁾(t) ←tu⁽⁰⁾ une ligne arbitraire 2 faire

3 Projection 4 Esp´erance

5 jusqu’`achangement < seuil

(16)

• algorithme de Roweis-Tipping-Bishop

• fixer les indices de projection et minimiser

%n

$s%

%%t⁽^j)&

= = $ⁿ

i=1

''

'x_i−t_i⁽^j)u' ''²

= $ⁿ

i=1&x_i&²+&u&²

n i=1$

$t_i⁽^j)&2

−2u^t

n i=1$

t_i⁽^j)x_i

• le r ´esultat de la minimisation:

u⁽^j+1) = arg min

&u&=1 %$ s%%

%t⁽^j)&

= $ⁿi=1t_i⁽^j)xi

''

'$ⁿi=1t_i⁽^j)x_i'' '

(17)

• ACP

• algorithme de Roweis-Tipping-Bishop ROWEISTIPPINGBISHOP(X_n)

1 s⁽⁰⁾(t) ←tu⁽⁰⁾ une ligne arbitraire 2 j ← 0

3 faire

4 t⁽^j) ← (

t₁⁽^j), . . . ,tn⁽^j)

)t

←!

x^t₁u⁽^j), . . . ,x^t_nu⁽^j)"t

5 u⁽^j+1) ← ^$ⁿⁱ⁼¹^t

(j) i x_i ''

'$ⁿ_i=1t_i⁽^j)x_i''', and s⁽^j+1)(t) ←tu⁽^j+1)

6 j ← j+1

7 jusqu’`a

*

1−^%ⁿ(^s⁽^j+1))

%n(^s⁽^j)) +

< seuil

(18)

• collection des points de code (centres): C = {v1, . . .,vk}⊂ R^d

• quantificateur vectoriel de k points: q: R^d → C

• partition: V ={V₁, . . . ,V_k}

V! = q⁻¹(v_!) ={x : q(x) =v!}

(19)

• Quantification vectorielle

• mesure de distorsion: %(x,x)ˆ

• le plus souvent

%(x,x) =ˆ &x−xˆ&²

• objectif: minimiser l’esp ´erance

%(q) =E[%(X,q(X))]

par rapport `a C

• q^∗ est globalement optimal si %(q^∗)≤ %(q)

• q^∗ est tr `es difficile `a trouver!!!

(20)

• optimalit ´e locale

• Condition du plus proche voisin

• ´etant donn ´e C, V = {V₁, . . . ,V_k} est optimal si

V_! = {x :%(x,v_!) ≤ %(x,v_m), m= 1, . . .,k}

• V_! est la r ´egion de Voronoi de v_!

(21)

• Condition de centro¨ıde

• ´etant donn ´e V, C = {v1, . . . ,vk} est optimal si v_! = arg min

v

E[%(X,v)|X∈V_!]

• distorsion quadratique (%(x,x) =ˆ &x−xˆ&²):

v_! = E[X|X∈V_!]

(22)

• algorithme de Max-Lloyd (k-moyennes)

• fixer C et optimiser V

• fixer V et optimiser C

• jusqu’ `a changement < seuil

(23)

• Quantification vectorielle

• algorithme de Max-Lloyd (k-moyennes) MAXLLOYD(X)

1 C⁽⁰⁾ _← ^,_v⁽⁰⁾₁ _{, . . . ,}_v⁽⁰⁾_k ^-_, _j _← ₀

2 faire

3 pour ! ← 1 `a k faire 4 V_!⁽^j) ←,

x: %$

x,v⁽_!^j)&

≤ %$

x,v⁽_m^j)&

, m= 1, . . .,k- 5 pour ! ← 1 `a k faire

6 v⁽_!^j+1) ←arg min

v

E(

%(X,v)%

%%X∈V_!⁽^j))

← E( X

%%

%X∈V_!⁽^j))

7 j ← j+1

8 jusqu’`a

*

1−^%(^q^(j+1))

%(^q⁽^j)) +

< seuil

(24)

• algorithme de Max-Lloyd (k-moyennes) pour X_n = {x1,x2, . . .,xn}

• V#! =V!∩X_n, n! =|V#!|

• distorsion empirique:

%n(q) = 1 n

n i=1$

%(x_i,q(x_i)) = 1 n

k

!=1$ $

x∈V#_!

&v_!−x&²

(25)

• algorithme de Max-Lloyd (k-moyennes) pour X_n = {x1,x2, . . .,xn} MAXLLOYD(X_n)

1 C⁽⁰⁾ _← ^,_v⁽⁰⁾₁ _{, . . . ,}_v⁽⁰⁾_k ^-_, _j _← ₀

2 faire

3 pour ! ← 1 `a k faire 4 V_!⁽^j) ←,

x: %$

x,v⁽_!^j)&

≤ %$

x,v⁽_m^j)&

, m= 1, . . .,k- 5 pour ! ← 1 `a k faire

6 v⁽_!^j+1) ←arg min

v $

x∈V#_!⁽^j)

%(x,v)← 1 n_! $

x∈V#_!⁽^j)

x

7 j ← j+1

8 jusqu’`a

*

1−^%ⁿ(^q⁽^j+1))

%n(^q⁽^j)) +

< seuil

(26)

• algorithme de Max-Lloyd (k-moyennes), version en-ligne

• xi appartient `a V_(x_i₎

• x_i change de V_(x_i₎ `a V_!:

v⁽_!^j+1) = v⁽_!^j)n⁽_!^j)+xi

n⁽_!^j)+1 ; v⁽_(x^j+1)

i) = v⁽_(x^j)

i)n⁽_(x^j)

i)−x_i n⁽_(x^j)

i)−1

(27)

1 C⁽⁰⁾ _← v₁ , . . . ,v_k 2 j ← 0

3 faire

4 pour i ← 1 `a n faire

5 si ∃v_! : &x_i−v⁽_!^j)& < &x_i−v⁽_(x^j)

i)&

6 v⁽_!^j+1) ← v⁽_!^j)n⁽_!^j)+x_i n⁽_!^j)+1 7 v⁽_(x^j+1)

i) ← v⁽_(x^j)

i)n⁽_(x^j)

i)−xi

n⁽_(x^j)

i)−1

8 V_(x⁽^j+1)

i) ←V_!⁽^j)

9 j ← j+1

10 jusqu’`a il y a un changement

(28)

x₁ 1 3 2