• Aucun résultat trouvé

2.4 R´ eduction de dimension

2.4.2 R´ eduction de dimension avec matrices al´ eatoires

En dehors des techniques pr´ec´edemment pr´esent´ees pour la r´eduction de dimension, il

existe des alternatives permettent d’extraire des variables consid´er´ees informatifs et ´eliminer

ceux qui sont moins informatifs ou qui v´ehiculent une information redondante. La r´eduction

de dimension avec matrices al´eatoires est une de ces techniques qui consid`ere une projection

bas´ee sur des vecteurs al´eatoires. Le principe consiste `a transformer lin´eairement les donn´ees

provenant d’un espace initial de grande dimension vers un espace de faible dimension o`u

les bases de ce nouvel espace sont al´eatoirement construites. Une matrice de projection R,

construite sur des principes al´eatoires, permet cette transformation afin de conserver les

caract´eristiques au sein des donn´ees moyennant un terme d’erreur. Nous pr´esentons dans la

suite de cette section, les principales techniques qui se basent sur cette th´eorie.

2.4.2.1 Projection al´eatoire

Une projection suivant des vecteurs al´eatoires consiste `a partir d’une matriceRde taille

d×k form´ee park vecteurs al´eatoires, `a construire une version r´eduite des ´echantillons de

donn´ees X en dimension k par transformation lin´eaire X

RP

=XR. La simplicit´e de cette

approche r´eside dans le fait que les colonnes de la matriceR sont des vecteurs al´eatoires,

et dans un espace `a grande dimension, cette matrice est suffisamment proche d’une matrice

orthogonale et que la matrice R

T

R pr´esente les mˆeme propri´et´es qu’une matrice identit´e

[29].

Le lemme de Johnson-Lindenstrauss assure que les distances entre les ´echantillons peuvent

ˆetre quasiment conserv´ees lors de la r´eduction de dimension, en remettant `a l’´echelle les

don-n´ees transform´ees avec un facteur bien choisi.

Section 2.4 – R´eduction de dimension

Pour chaque ensemble d’´echantillons de donn´ees X de N points dans R

d

, il existe un

en-semble de fonctions qui v´erifient la transformation suivante :

f :R

d

→R

p

telle que :

(1−)kx

i

x

j

k

2

≤ kf(x

i

)−f(x

j

)k

2

≤(1 +)kx

i

x

j

k

2

avec x

i,

x

j

X.

(2.12)

La cons´equence de ce lemme garantit que pour tout d´efini ci-dessus et pour une m´

e-trique Euclidienne, un ensemble de N points dans R

d

peut ˆetre plong´e dans un espace de

R

p

(logarithmique enN) ind´ependant de la taille de l’espace initial o`u la transformation des

donn´ees pr´eserve la distance entre les ´echantillons et la distorsion des points engendr´ee est

born´ee par le terme. La fonction qui garantit cette transformation est g´en´eralement d´efinie

par la relation lin´eairef(x) =xR, o`uR est une matrice de projection `a caract`ere al´eatoire

dont les ´el´ements suivent une distribution pr´ealablement choisie. Parmi les possibilit´es de

construction de la matriceR, les plus commun´ement utilis´ees sont les suivantes :

— Matrice al´eatoire de tailled×pdont les ´el´ements sont ind´ependants et identiquement

distribu´es (i.i.d) suivant une loi normaleN(0,1)[29].

— Matrice al´eatoire de taille d×p dont les ´el´ements sont i.i.d et prennent des valeurs

´egales `a{−1,+1}avec une probabilit´e de

12

[31,32].

— Matrice al´eatoire de taille d×p dont les ´el´ements sont i.i.d et prennent des valeurs

´egales `a{−1,0,+1} avec probabilit´es respectives de{

1

6

,

23

,

16

}[33].

Cette technique offre un moyen simple et peu coˆuteux en temps de calcul afin de r´eduire

les donn´ees de tr`es grande dimension avec des propri´et´es int´eressantes concernant la

conser-vation des distances entre des paires de points. Cependant, le choix dep reste un probl`eme

d´elicat. Les ´el´ements r

ij

de la matrice R sont g´en´er´es de mani`ere al´eatoire, ce qui conduit

`

a obtenir des ´el´ements diff´erents `a chaque ´etape de g´en´eration deR. Ce caract`ere al´eatoire

induit g´en´eralement des r´esultats instables qui pr´esentent une variance consid´erable sur la

performance de la m´ethode.

2.4.2.2 Approximation de la SVD

Consid´erons une matrice XR

d×N

qui poss`ede un rang ´egal `a ρ tel que rang(X) =

ρ6min{N, d}. La valeur exacte de la d´ecomposition en valeurs singuli`eres de la matriceX

est commun´ement donn´ee par X =USV

T

, o`u UR

d×ρ

, SR

ρ×ρ

etVR

N×ρ

. D’une

mani`ere d´etaill´ee, cette d´ecomposition s’´ecrit :

X

k

= U

S

k

0

0 0

V

T

=σ

1

u

1

v

1T

+· · ·+σ

k

u

k

v

Tk

,

avec S

k

la matrice contenant sur sa diagonale les ´el´ementsσi obtenus `a partir de la SVD

tronqu´ee de X, i.e, en conservant les k (k < ρ) premi`eres colonnes de S et 0 est une

sous matrice dont les ´el´ements sont tous nuls. L’approximation `a faible rang d’une matrice

consiste `a approcher la matrice de d´epart XR

d×N

par une matrice de rang inf´erieur

Section 2.4 – R´eduction de dimension

est commun´ement ´etudi´e pour toute norme unitaire invariante. La meilleure approximation

deX de rang ´egal `ak est la matriceZ, solution du probl`eme d’optimisation suivant [34] :

argmin

rang(Z)6k

kX−Zk

2

F

=kX−X

k

k

2

F

, (2.13)

o`u F indique la norme de Frobenius d´efinie par kZk

F

=

q

P

k

i=1

σ

2i

(Z). La matrice A qui

minimise l’erreur dans l’´equation (2.13) est donn´ee par la matrice X

k

de la SVD

tron-qu´ee [35, 36, 37]. Le calcul d’une telle matrice X

k

a une complexit´e de calcul de l’ordre

de O(Ndmin{N,d}) op´erations de calcul [35]. Lorsque min{N,d} est large, cette m´ethode

demande un temps de calcul ´elev´e qui rend le processus tr`es couteux voir infaisable dans

certaines conditions.

Pour optimiser le processus du calcul de la matrice X

k

, l’approximation de la SVD

permet de calculer une matrice estim´ee de X

k

. Le principe combine la m´ethode de la SVD

tronqu´ee avec une projection al´eatoire sur la matrice Xafin de r´eduire le temps de calcul.

Sarlos ´enonce dans [35] le th´eor`eme suivant :

Th´eor`eme 2 : Consid´erant la matrice de d´epartXR

N×d

etπ

(.)

un op´erateur de

projec-tion. Si le param`etre0< <1 etRR

d×p

la matrice al´eatoire de Johnson-Lindenstrauss

d´efinie dans le Lemme 1 dont les ´el´ements sont i.i.d de moyenne nulle et d’´ecart-type ´egal

`

a 1, avec p=O(k/+klogk), alors avec une probabilit´e au moins ´egale `a 1/2, on estime

que

kX−π

XR,k

(X)k

F

6(1 +)kX−X

k

k

F

.

Consid´erons un sous-espaceV 6R

d

avec R∈ V et posonsA=π

V

(X) =XRla matrice

r´esultante de la projection deXsurV avecπ

V,k

(A) = (π

V

(A))

k

qui denote la SVD tronqu´ee

de A. Le th´eor`eme stipule que la projection de X sur l’espace engendr´e par les lignes de

la matriceA(moyennant une orthonormalisation de A), i.e,A

T

X, et en calculant la SVD

tronqu´ee de la matrice r´esultante, on obtient une approximation de la matriceX

k

elle mˆeme

avec une erreur d’approximation born´ee par 1 +. L’estimation est obtenue en proc´edant

d’abord par le calcul de matriceQtelle que :

Q=A

T

XR

p×d

.

Ainsi en effectuant la SVD tronqu´ee de Q, on aura

SVD(Q) =U

k

S

k

V

Tk

, (2.14)

avec U

k

R

p×k

,S

k

R

k×k

etV

k

R

d×k

. La matrice Xb =XV

k

V

Tk

R

N×d

repr´esente

la meilleure approximation deXetXb

k

=XV

k

R

N×k

approximeX

k

au sens de la norme

de Frobenius. Pour calculer la forme r´eduite X

k

d’une matrice de donn´ee X de grande

dimension, il est plus ´economique de passer par le calcul de la matrice V

Tk

qui demande

une d´ecomposition spectrale d’une matrice de taille inf´erieure pour obtenir Xb

k

plutˆot que

de faire directement la SVD tronqu´ee de la matrice de d´epartX.