• Aucun résultat trouvé

Décomposition en ligne de tenseurs

N/A
N/A
Protected

Academic year: 2021

Partager "Décomposition en ligne de tenseurs"

Copied!
9
0
0

Texte intégral

(1)

HAL Id: hal-01811447

https://hal.archives-ouvertes.fr/hal-01811447

Submitted on 8 Jun 2018

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Décomposition en ligne de tenseurs

Abraham Traoré, Maxime Berar, Alain Rakotomamonjy

To cite this version:

Abraham Traoré, Maxime Berar, Alain Rakotomamonjy. Décomposition en ligne de tenseurs. Con-

ference sur l’apprentissage statistique, Jun 2018, Rouen, France. �hal-01811447�

(2)

D´ecomposition en ligne de tenseurs

Abraham Traor´ e 1 , Maxime Berar 1 , et Alain Rakotomamonjy 1

1 Universit´ e de Rouen, LITIS

76800 Saint-Etienne du Rouvray, FRANCE

R´ esum´ e

Nous pr´ esentons un nouvel algorithme de d´ ecomposition de tenseurs (donn´ ees multimodales) pour l’inf´ erence de facteurs latents dans un environne- ment dynamique (les donn´ ees sont acquises de mani` ere s´ equentielle au fil du temps). Plus pr´ ecis´ ement, ´ etant donn´ e un ´ echantillon de tenseurs (d´ efini dans notre cadre comme un ensemble compos´ e de tenseurs de taille ´ egale), l’approche d´ evelopp´ ee permet d’inf´ erer une base g´ en´ eratrice de facteurs latents en traitant les donn´ ees au fur et ` a mesure qu’elles sont acquises.

L’algorithme propos´ e repose sur la descente de coor- donn´ ees par blocs et des approximations probabilistes.

Des exp´ eriences num´ eriques sur des donn´ ees aussi bien r´ eelles que synth´ etiques donnent des r´ esultats prometteurs.

Mots cl´ e : donn´ ees multimodales, d´ ecomposition en ligne, approximations probabilistes.

1 Introduction

Le probl` eme d’inf´ erence de facteurs latents pour des donn´ ees multimodales commun´ ement appel´ ees ten- seurs a suscit´ e r´ ecemment un grand int´ erˆ et et les techniques de d´ ecomposition de tenseurs ont ´ et´ e ap- pliqu´ ees avec succ` es dans diverses applications en trai- tement du signal [Ga16], apprentissage automatique [AF16], etc.. Les deux d´ ecompositions de tenseurs les plus commun´ ement utilis´ ees pour l’analyse explora- toire de donn´ ees multimodales sont la d´ ecomposition de Tucker, introduite par Tucker en 1963 [Tuc63] et la d´ ecomposition CP introduite ind´ ependamment par Hitchcock dans [Hit27] et Cattell dans [Cat44].

Dans de nombreuses applications r´ eelles, les donn´ ees multimodales sont acquises au fil du temps (par exemple les donn´ ees climatiques [XZT

+

16]). S’il est toujours possible, apr` es l’acquisition de nouvelles ob-

servations, de r´ e-appliquer les d´ ecompositions standard utilisant tout l’´ echantillon en une seule fois, cette ap- proche peut conduire ` a une impasse en terme de res- sources computationnelles car on doit stocker toutes les donn´ ees en m´ emoire et les probl` emes interm´ ediaires associ´ es aux d´ ecompositions standard peuvent avoir une complexit´ e en espace ´ elev´ ee (par exemple, cer- taines approches pour la d´ ecomposition de Tucker avec contrainte de positivit´ e mat´ erialisent le produit de Kro- necker des facteurs latents).

Dans la litt´ erature, les approches de d´ ecomposition en ligne peuvent ˆ etre subdivis´ ees en deux cat´ egories.

La premi` ere consiste ` a inf´ erer les facteurs latents pour un tenseur dont l’une des dimensions croˆıt au fil du temps (ajout d’une nouvelle observation) sans n´ ecessit´ e de stocker, ` a un pas de temps t, toutes les observations ant´ erieures ` a t. La seconde consiste ` a stocker aussi bien les observations ant´ erieures que celles nouvellement ac- quises avec la mise ` a jour des facteurs s’effectuant de mani` ere r´ ecursive.

Dans ce travail, le probl` eme que l’on consid` ere est celui de l’apprentissage en ligne de facteurs la- tents, appel´ es aussi dictionnaires multimodaux, sans n´ ecessit´ e de stockage des observations. Deux m´ ethodes pr´ esent´ ees dans [KM16] et [YCL15] effectuent la d´ ecomposition de tenseurs en ligne sous des contraintes de faible rang et d’orthogonalit´ e des facteurs, la premi` ere r´ esolvant un probl` eme d’optimisation sur une vari´ et´ e de Stiefel et la seconde utilisant des projections al´ eatoires. Les autres approches existantes reposent sur des contraintes similaires (voir [LHWG11], [STF06]) Elles ne sont donc pas adapt´ ees pour des tˆ aches telles que l’apprentissage de dictionnaires redondants ou l’inf´ erence de facteurs positifs. L’ensemble de ces m´ ethodes manque de flexibilit´ e quant aux contraintes que l’on peut imposer aux facteurs latents : la non- n´ egativit´ e, la parcimonie,..

Dans ce papier, on introduit un nouvel algorithme

de d´ ecomposition de tenseurs en ligne bas´ e sur la des-

(3)

cente de coordonn´ ees par blocs et des approximations probabilistes de fonctions de coˆ ut. Nos contributions sont les suivantes :

— Proposition d’un algorithme de d´ ecomposition en ligne de tenseurs qui peut facilement s’´ etendre pour incorporer tout type de contraintes (pr´ esentant une certaine r´ egularit´ e) et ne pr´ esentant aucune contrainte sur les tailles des facteurs latents ;

— La comparaison avec des m´ ethodes de l’´ etat de l’art donne des r´ esultats prometteurs.

2 Notations et rappels sur les tenseurs

Un tenseur d’ordre N X ∈ R

I1×..×IN

est un ta- bleau multidimensionnel d´ efini sur le produit tenso- riel de N espaces vectoriels de dimensions respectives I

n

, 1 ≤ n ≤ N . Les matrices sont not´ ees par des lettres majuscules en gras (par exemple A). Les co- lonnes d’une matrices A sont d´ esign´ ees par A

:,j

. La matricisation d’un tenseur est l’op´ eration consistant ` a r´ earranger ses ´ el´ ements dans une matrice. La matrici- sation par rapport au mode n d’un tenseur X donne une matrice X

(n)

∈ R

In×

Q

k6=nIk

.

La multiplication par rapport au mode-n d’un ten- seur X ∈ R

I1×...×IN

avec une matrice B

(n)

∈ R

Jn×In

, not´ ee X ×

n

B

(n)

donne un tenseur Y ∈ R

I1×..×In−1×Jn×In+1..×IN

v´ erifiant Y

(n)

= B

(n)

X

(n)

. Les normes de Frobenius et `

1

pour les tenseurs, not´ ees respectivement kk

F

et kk

1

sont d´ efinies par :

kX k

F

= P

i1,..,iN

X

i2

1,..,iN

12

, kX k

1

= P

i1,..,iN

|X

i1,..,iN

|.

Les d´ efinitions sont identiques pour les normes de Fro- benius et `

1

des matrices. On notera par I le tenseur dont toutes les entr´ ees sont ´ egales ` a 1.

Pour une raison de facilit´ e d’´ ecriture, nous consid´ erons les ensembles d’entiers suivants :

— I

Nn

= {n, .., N} : ensemble des entiers cons´ ecutifs de n ` a N (n et N inclus). Si n est ´ egal ` a 1, on note simplement cet ensemble I

N

, c’est-` a-dire : I

N

= {1, .., N}.

— I

N6=n

= {1, .., n − 1, n + 1, .., N } : ensemble des entiers cons´ ecutifs de 1 ` a N avec n exclu.

Pour deux ensembles I

n

= {1, ..., n} , I

Nn+1

= {n + 1, ..., N}, un tenseur d’ordre N Y ∈ R

I1×...×IN

et N matrices

A

(n) 1≤n≤N

, on d´ efinit ´ egalement des formes contract´ ees de la multiplication par rapport ` a plusieurs modes :

Y ×

p∈In

A

(p)

×

q∈In+1 N

A

(q)

= Y ×

1

A

(1)

.. ×

n

A

(n)

| {z }

In

×

n+1

A

(n+1)

.... ×

N

A

(N)

| {z }

In+1N

m∈IN6=n

A

(m)

= Y×

1

..×

n−1

A

(n−1)

×

n+1

A

(n+1)

..A

(N)

3 Pr´ esentation de la d´ ecomposition de Tucker en ligne

3.1 Cadre de d´ ecomposition Batch

La d´ ecomposition de Tucker est l’une des d´ ecompositions de tenseur les plus couramment utilis´ ees. Pour un tenseur X ∈ R

I1×..×IN

d’ordre N, elle consiste ` a approximer X par le produit d’un tenseur G ∈ R

J1×..×JN

avec N matrices A

(n)

∈ R

In×Jn

, c’est-` a-dire : X ≈ G ×

n∈IN

A

(n)

. Cette approximation s’effectue en r´ esolvant le probl` eme d’optimi- sation suivant :

min

G,A(1),..,A(N)

kX − G ×

n∈IN

A

(n)

k

2F

Le tenseur G est appel´ e tenseur noyau et les matrices A

(n)

sont d´ esign´ ees par matrices de saturation. Cette d´ ecomposition peut s’interpr´ eter en terme d’atomes de dic- tionnaires (voir [QHJ15]) : les matrices A

(n)

repr´ esentent alors des dictionnaires associ´ es aux diff´ erents modes et les composantes de G sont des coefficients d’activation.

Le cadre qui nous int´ eresse est un cas particulier de ce probl` eme o` u on vise ` a d´ ecomposer un tenseur sur l’ensemble des modes sauf un. Cette situation apparaˆıt par exemple lorsque le tenseur peut ˆ etre interpr´ et´ e comme l’observation de T tenseurs d’ordre N suivant une certaine distribution.

Le probl` eme auquel on s’int´ eresse peut donc s’´ ecrire sous la forme :

min

G,A(1),..,A(N)

kX − G ×

1

I ×

2

A

(1)

×

3

A

(2)

× ...×

N+1

A

(N)

k

2F

(1) avec X ∈ R

T×I1..×IN

´ etant un tenseur dont la premi` ere dimension croit au fil du temps avec l’ajout d’un nou- veau tenseur X

n

∈ R

I1..×IN

, G ∈ R

T×J1..×JN

, I ´ etant la matrice identit´ e. Si les observations X

i

sont des ma- trices, ce probl` eme correspond ` a la d´ ecomposition de Tu- cker2 [KB09]. En remarquant que le carr´ e de la norme de Frobenius d’un tenseur est ´ egale ` a la somme des carr´ es des normes de Frobenius de ses coupes frontales (tenseur d´ eduit en fixant le premier indice), le probl` eme (1) peut se r´ e´ ecrire sous la forme :

min

A(1),..,A(n),{Gi}1≤i≤T T

X

i=1

1

2 kX

i

− G

i

×

n∈IN

A

(n)

k

2F

(2)

(4)

avec X

i

∈ R

I1×...×IN

, G

i

∈ R

J1×...×JN

´ etant les coupes i des tenseurs X et G d´ efinis au niveau du probl` eme (1). On notera que les ordres de X

i

et G

i

sont plus petits d’une unit´ e que ceux de X et G par d´ efinition d’une coupe.

Enfin, similairement au probl` eme d’apprentissage de dic- tionnaire, on peut y joindre ` a ce probl` eme un terme de p´ enalit´ e Ω

1

for¸ cant G ` a ˆ etre parcimonieux et un terme de p´ enalit´ e Ω

2

contraignant les atomes de dictionnaires ` a ne pas diverger :

min

A(n),{Gi}1≤i≤T T

X

i=1

1

2 kX

i

− G

i

×

n∈IN

A

(n)

k

2F

(3) +Ω

1

(G

i

) + Ω

2

(A

(1)

, .., A

(N)

)

Le probl` eme (3) ´ etant non convexe et n’admettant de solu- tions analytiques, des minimas globaux sont difficiles ` a ob- tenir. Pour obtenir des minimas locaux, une mani` ere stan- dard de r´ esoudre ce probl` eme est d’utiliser une minimisa- tion altern´ ee[FC00]. Cependant, lorsque le nombre d’ob- servations T est grand, la r´ esolution de ce probl` eme peut devenir tr` es coˆ uteux en temps de calcul. Dans ce contexte, il devient n´ ecessaire de pouvoir inf´ erer les matrices de satu- ration A

(n)

via une approche en ligne dont le principe est de traiter les observations de mani` ere s´ equentielle.

3.2 Cadre de d´ ecomposition en ligne

Dans le probl` eme d’apprentissage en ligne d’atomes de dictionnaires multi-modaux, on s’int´ eresse ` a l’inf´ erence d’une base de facteurs latents pour des tenseurs acquis s´ equentiellement sans n´ ecessit´ e de les stocker au fil du temps avec un nombre de tenseurs potentiellement infini.

Cela revient ` a d´ eterminer les matrices A

(n)

` a partir du probl` eme (3) pour T → ∞. Pour r´ esoudre ce probl` eme pour une large s´ equence de tenseurs tout en contournant les contraintes li´ ees au stockage de toute la s´ equence, nous proposons une approche probabiliste [KY06], qui est uti- lis´ ee pour optimiser une fonction de coˆ ut exprim´ ee en terme d’esp´ erance. Cette approche, d´ ej` a utilis´ ee dans le cadre de la d´ ecomposition en ligne de matrices, notamment en ap- prentissage de dictionnaires [MBPS09], a prouv´ e son ef- ficacit´ e dans le cadre de minimisation de probl` emes non convexes [SG14].

Formellement, supposons qu’on observe des tenseurs, ac- quis au fil du temps, suivant un tirage al´ eatoire ind´ ependant et identiquement distribu´ e selon une loi de probabilit´ e in- connue P sur l’espace des tenseurs de taille I

1

× .. × I

N

. Notons X

t

l’observation acquise au pas de temps t. Les fac- teurs latents sont mis ` a jour en utilisant une fonction de perte l de telle sorte que l’´ ecart entre toutes les observa- tions X

t

et leurs approximations donn´ ees par ces facteurs soit faible en esp´ erance.

Un probl` eme d’optimisation pertinent est donc : min

A(1),..,A(N)

f(A

(1)

, .., A

(N)

) (4)

avec : f(A

(1)

, .., A

(N)

) = E

P

(l(X , A

(1)

, .., A

(N)

) o` u X est distribu´ e suivant la loi de probabilit´ e P .

Pour notre probl` eme, l’´ ecart d’approximation l est me- sur´ e via la d´ ecomposition de Tucker. Ce choix est mo- tiv´ e par le fait que cette d´ ecomposition peut facilement ˆ

etre adapt´ ee pour mesurer la perte via d’autres types de d´ ecomposition standard comme la d´ ecomposition cano- nique. On d´ efinit donc l par :

l(X , A

(1)

, .., A

(N)

) = min

G

1

2 kX − G ×

n∈IN

A

(n)

k

2F

+Ω

1

(G) + Ω

2

(A

(1)

, .., A

(N)

)

Dans la suite, on supposera que Ω

2

diff´ erentiable et que l’op´ erateur proximal de Ω

1

est connu.

3.3 Algorithme

Comme la loi P est inconnue et les observations acquises s´ equentiellement au fil du temps, il est difficile de r´ esoudre le probl` eme (4). On choisit donc de minimiser l’approxi- mation de l’esp´ erance (d´ efinie par la loi forte des grands nombres) donn´ ee par :

f b

t

(A

(1)

, .., A

(N)

) = 1 t

t

X

i=1

l(X

i

, A

(1)

, .., A

(N)

) Ce raisonnement conduit donc au probl` eme de minimisation suivant :

min

A(1),..,A(N)

f b

t

(A

(1)

, .., A

(N)

) (5) Notre approche consiste ` a mettre ` a jour les facteurs latents en minimisant f b

t

et en utilisant uniquement l’observation X

t

, les facteurs inf´ er´ es du traitement de X

t−1

et un certain nombre de statistiques (fonction de l’´ echantillon). Notons A

(n)t

les dictionnaires obtenus apr` es la r´ esolution num´ erique du probl` eme de minimisation de f b

t

.

Pour le calcul de la fonction l(X

t

, A

(1)

, .., A

(N)

), on utilise le code parcimonieux G

t

associ´ e ` a X

t

, obtenu par projections sur les facteurs n

A

(n)t−1

o

, comme interm´ ediaire de calcul, c’est-` a-dire :

l(X

t

, A

(1)

, .., A

(N)

) = 1

2 kX

t

− G

t

×

n∈IN

A

(n)

k

2F

+ Ω

1

(G

t

) + Ω

2

(A

(1)

, .., A

(N)

), avec G

t

= arg min

G12

kX

t

−G ×

n∈IN

A

(n)t−1

k

2F

+Ω

1

(G). Suppo- sons l’acquisition d’une nouvelle observation X

t

` a un temps t. Pour d´ eterminer les matrices A

(n)t

, on proc´ edera en 2

´ etapes :

— la d´ etermination du code parcimonieux G

t

associ´ e ` a

X

t

. Dans la suite, on d´ esignera cette ´ etape par codage

parcimonieux ;

(5)

— la r´ esolution du probl` eme (5) par une descente de coordonn´ ees par blocs, c’est-` a-dire des minimisations successives de la fonction par rapport ` a une variable en gardant toutes les autres fig´ ees (dans l’ordre sui- vant : 1 → 2 → ... → N ), jusqu’` a ce qu’un crit` ere d’arrˆ et pr´ ealablement d´ efini soit v´ erifi´ e.

3.3.1 Premi` ere ´ etape : codage parcimonieux Dans cette partie, on s’int´ eresse ` a la minimisation d’une fonction d´ efinie par :

min

G

(O(G) + Ω

1

(G)) avec :

O(G) = 1

2 kX

t

− G ×

n∈IN

A

(n)t−1

k

2F

Plutˆ ot que de travailler sur la forme vectoris´ ee et d’intro- duire une complexit´ e en espace trop ´ elev´ ee dˆ u au produit de Kronecker des matrices de dictionnaires, nous proposons d’utiliser directement une technique de minimisation proxi- male [BST14] dans l’espace des tenseurs. Les techniques de minimisation proximales sont utilis´ ees pour minimiser la somme de deux fonctions, une diff´ erentiable (dans notre cas O) et l’autre ne pr´ esentant pas de contrainte de r´ egularit´ e, mais dont l’op´ erateur proximal est connu (Ω

1

dans notre cas). La diff´ erentielle de O est donn´ ee par :

∂O

∂ G (G) = −X

t

×

n∈IN

A

(n)Tt−1

+ G ×

p∈IN

A

(n)Tt−1

A

(n)t−1

(6) Etant donn´ ´ e qu’on a suppos´ e dans la section 3.2 que l’op´ erateur proximal de Ω

1

´ etait connu, le codage parcimo- nieux peut donc s’effectuer num´ eriquement via l’algorithme du gradient proximal r´ esum´ e comme suit :

Codage parcimonieux

Entr´ ees : nouvelle observation X

t

, les matrices de dictionnaires A

(n)t−1

, pas de descente de gradient η, valeur initial de G, iter ← 0 ;

G

t,iter

← G

init

R´ ep´ eter

G

iter+1

=prox

ηΩ1

(G

iter

−η

∂O∂G

(G

iter

)) d´ efini par (6),

iter ← iter+1

jusqu’` a ce que (un crit` ere d’arrˆ et soit v´ erifi´ e)

3.3.2 Descente de coordonn´ ees par blocs Consid´ erons maintenant le probl` eme de descente de co- ordonn´ ees par blocs. Supposons que les (n − 1) premi` eres

matrices de saturation ont d´ ej` a ´ et´ e mises ` a jour (c’est-` a-dire les matrices A

(p)t,k+1

sont connues avec 1 ≤ p ≤ n − 1, k fai- sant r´ ef´ erence au num´ ero de l’it´ eration) et qu’on s’int´ eresse

`

a la mise ` a jour de A

(n)t,k+1

. Ce probl` eme est d´ efini par : A

(n)t,k+1

← arg min

A(n)

f b

n,t

(.., A

(n−1)t,k+1

, A

(n)

, A

(n+1)t,k

, ..) (7) avec f b

n,t

´ etant la fonction obtenue en consid´ erant f b

t

uni- quement comme une fonction de A

(n)

.

Le probl` eme (7) n’admettant pas de solution analytique et ´ etant donn´ e l’hypoth` ese de diff´ erentiabilit´ e par rap- port ` a A

(n)

impos´ ee sur la p´ enalit´ e Ω

2

assurant ainsi la diff´ erentiabilit´ e de la fonction de coˆ ut comme somme de deux fonctions diff´ erentiables, on le r´ esout par descente de gradient. Ce choix permet de mettre ` a jour A

(n)

en utilisant uniquement l’observation au pas de temps t X

t

(` a condition de mettre ` a jour r´ eguli` erement un certain nombre de sta- tistiques de l’´ echantillon). En effet, la diff´ erentielle de f b

n,t

est donn´ ee par :

∂ f b

n,t

∂A

(n)

A

(n)

= − 1 t

t

X

i=1

X b

(n)i

G

(n)Ti

− A

(n)

B

(n)i

B

(n)Ti

(8) + ∂Ω

2

∂A

(n)

(A

(1)k+1

, ., A

(n−1)k+1

, A

(n)

, A

(n+1)k

, ., A

(N)k

) o` u la matrice G

(n)i

est la forme matricis´ ee par rapport au mode n de G

i

, B

(n)i

celle du tenseur B

i

et X b

(n)i

celle du tenseur X b

i

d´ efinis par :

B

i

= G

i

×

p∈In−1

A

(p)k+1

×

n

I ×

q∈In+1 N

A

(q)k

, (9) X b

i

= X

i

×

p∈In−1

A

(p)Tk+1

×

n

I ×

q∈In+1

N

A

(q)Tk

. (10) La d´ eriv´ ee de f b

n,t

peut donc se r´ e´ ecrire :

∂ f b

n,t

∂A

(n)

(A

(n)

) = − P

t

t + A

(n)

Q

t

t (11)

+ ∂Ω

2

∂A

(n)

(A

(1)k+1

, ., A

(n−1)k+1

, A

(n)

, A

(n+1)k

, ., A

(N)k

) avec P

t

= P

t

i=1

X b

(n)i

G

(n)Ti

, Q

t

= P

t

i=1

B

(n)i

B

(n)Ti

. On peut alors remarquer que :

P

t

= P

t−1

+ X b

(n)t

G

(n)Tt

(12) Q

t

= Q

t−1

+ B

(n)t

B

(n)Tt

(13) Puisque les suites P

t

et Q

t

v´ erifient les ´ equations r´ ecursives (12) et (13), le calcul du gradient de f b

n,t

n´ ecessite uniquement l’observation X

t

, les matrices n

A

(p)k+1

o

1≤p≤n−1

, n A

(q)k

o

n+1≤q≤N

et non le stockage des

donn´ ees {X

i

}

1≤i≤t−1

.Cela nous permet de calculer la

d´ eriv´ ee de f b

n,t

utilisant uniquement X

t

, des matrices de sa-

turation A

(n)

et les statistiques P

t−1

et Q

t−1

. Le sch´ ema

de mise-` a-jour des A

(n)

est d´ ecrit ci-apr` es :

(6)

Mise ` a jour de A

(n)

Entr´ ees : nouvelle observation X

t

, code parcimonieux G

t

associ´ e ` a X

t

, les param` etres de p´ enalit´ e α et θ, les statis- tiques P

t−1

et Q

t−1

, pas de descente de gradient η, valeur initiale de la matrice de saturation A

(n)

.

iter ← 0 ; A

(n)iter

← A

(n)init

R´ ep´ eter

A

(n)iter+1

=

A

(n)iter

− η

Afb(n)n,t

(A

(n)iter

) ,

∂fbn,t

∂A(n)

(A

(n)iter

) d´ efini par (11), (12) et (13)

iter ← iter+1 ;

jusqu’` a ce que (un crit` ere d’arrˆ et soit v´ erifi´ e)

4 Extensions

4.1 Extension minibatch

Dans un contexte o` u ρ tenseurs {X

1

, .., X

ρ

} sont acquis simultan´ ement au pas de temps t, on propose la modifica- tion suivante du sch´ ema de l’algorithme :

— Effectuer le codage parcimonieux des ρ tenseurs ;

— Mettre ` a jour P et Q de la mani` ere suivante : P

t

= P

t−1

+ P

ρ

r=1

X b

(n)r

G

(n)Tr

, X b

r

´ etant la forme matricis´ ee par rapport au mode n du tenseur d´ efini par l’´ equation (10)

Q

t

= Q

t−1

+ P

ρ

r=1

B

(n)r

B

(n)Tr

, B

(n)r

´ etant la forme matricis´ ee par rapport au mode n du tenseur d´ efini par (9).

Cette extension r´ eduit le coˆ ut des probl` emes interm´ ediaires r´ esultant de la descente de coordonn´ ees par blocs.

4.2 Incorporation de contraintes

L’approche propos´ ee peut facilement s’´ etendre ` a toutes contraintes pour lesquelles les p´ enalit´ es associ´ ees ont un op´ erateur proximal ayant une formule analytique (voir [BST14]) ou pr´ esentant une certaine r´ egularit´ e (diff´ erentiabilit´ e). Plus pr´ ecis´ ement, cela signifie que le rai- sonnement propos´ e peut marcher soit uniquement avec des p´ enalit´ es pour lesquelles l’op´ erateur proximal admet une formule analytique, soit uniquement avec des p´ enalit´ es diff´ erentiables, soit un mixte des deux. L’hypoth` ese mini- male pour mettre en œuvre l’approche est l’existence de for-

mule analytique de l’op´ erateur proximal, ce qui est moins contraignant que la r´ egularit´ e.

Un cas important est l’inf´ erence de facteurs latents po- sitifs, qui est une contrainte naturelle quand la donn´ ee que l’on traite est positive par nature (par exemple des spec- trogrammes). Pour inf´ erer des facteurs positifs, il suffit de remplacer les ´ etapes de mise ` a jour par :

— G

iter+1

= max(G

iter

− η(

∂O∂G

(G

iter

) + αθI), 0) dans l’algorithme du codage parcimonieux ;

— A

(n)iter+1

= max(A

(n)iter

− η

∂fn,t

A(n)

(A

(n)iter

), 0) dans l’algo- rithme de mise ` a jour de A

(n)

.

5 Exp´ eriences

L’objectif des exp´ eriences men´ ees dans cette section est de montrer que d’une part, notre m´ ethode abou- tit ` a des facteurs latents pour lesquels les performances sont ´ equivalentes ` a ceux obtenus en d´ ecomposition Batch et d’autre part, qu’elle donne des r´ esultats comp´ etitifs aussi bien dans un cadre favorable que d´ efavorable ` a une m´ ethode de d´ ecomposition en ligne de l’´ etat de l’art. Plus pr´ ecis´ ement, on comparera la m´ ethode TuckerBatch qui consiste ` a inf´ erer la base de facteurs latents en appliquant une d´ ecomposition de Tucker standard utilisant toutes les donn´ ees d’entraˆınement en une seule fois ` a l’approche DLT- single introduite dans ce papier, ainsi qu’` a la m´ ethode DLTminibatch correspondant ` a l’extension de DLTsingle pr´ esent´ ee dans la section pr´ ec´ edente. Enfin, ALTO une autre m´ ethode de d´ ecomposition en ligne sera compar´ ee

`

a ces m´ ethodes. La diff´ erence fondamentale entre cette m´ ethode et la nˆ otre se situe au niveau de la strat´ egie de mise

`

a jour des matrices de dictionnaires : projections al´ eatoires pour ALTO et r´ esolution num´ erique de probl` emes de mi- nimisation pour l’approche pr´ esent´ ee DTLsingle et DTL- minibatch. Cette m´ ethode donne une erreur d’approxima- tion petite pour X

t

si une condition suffisante dite de rang faible (c’est-` a-dire toutes les formes matricis´ ees de tous les tenseurs de la s´ equence ont un rang inf´ erieur ou ´ egal ` a R, (R, · · · , R) ´ etant la dimension du tenseur noyau) est v´ erifi´ ee pour X

t−1

.

Dans le cadre de ces exp´ eriences, on consid´ erera deux des p´ enalit´ es les plus couramment utilis´ ees dans l’apprentissage de dictionnaires : Ω

1

(G) = αθkGk

1

,

2

(A

(1)

, .., A

(N)

) =

α(1−θ)2

P

N

n=1

kA

(n)

k

2F

avec α > 0, 0 ≤ θ ≤ 1. On notera que Ω

2

est bien diff´ erentiable et que Ω

1

admet un op´ erateur proximal qui est l’op´ erateur de Soft- thresholding [PSW15].

5.1 Exp´ erience sur donn´ ees simul´ ees

5.1.1 Cadre exp´ erimental

Pour l’´ evaluation du mod` ele, on consid` ere 2 situations pour lesquelles on g´ en` ere 2 bases de donn´ ees. On g´ en` ere :

— un premier ´ echantillon S de 2000 tenseurs qu’on di-

vise en deux sous-´ echantillons S

train

et S

test

suivant

(7)

un ratio de 4 :1 (S

train

contient 1600 tenseurs tandis que S

test

en contient 400).

— un second ´ echantillon S de 6000 tenseurs qu’on di- vise suivant un ratio de 1 :2 (2000 tenseurs sont dans S

train

et 4000 dans S

test

).

Lors de leur g´ en´ eration, chaque tenseur est d´ efini par : X

t

= G

t

×

1

A

(1)

×

2

A

(2)

×

3

A

(3)

avec G

t

∈ R

R×R×R

, tenseur d’ordre 3 dont les entr´ ees sont tir´ ees d’une gaus- sienne centr´ ee d’´ ecart type

15

et A

(1)

∈ R

30×R

, A

(2)

∈ R

40×R

, A

(3)

∈ R

50×R

, matrices avec des entr´ ees tir´ ees d’une gaussienne centr´ ee d’´ ecart type

101

. Pour l’estima- tion des dictionnaires (matrices de saturation), on choi- sit des dictionnaires contenant R atomes (taille avec la- quelle les s´ equences ont ´ et´ e g´ en´ er´ ees) pour ne pas biaiser les r´ esultats. Les tenseurs noyaux sont initialis´ es en tirant des gaussiennes centr´ es d’´ ecart type

101

aussi bien durant la phase de test que la phase d’entraˆınement. Les matrices de saturation initiales sont tir´ es d’une gaussienne centr´ ee d’´ ecart type

1001

.

Le pas de descente de gradient est fix´ e ` a η = 10

−5

et les valeurs des hyperparam` etres sont fix´ es ` a α = 10

2

et θ = 10

−2

. L’algorithme de descente de coordonn´ ees par blocs est arrˆ et´ e quand l’erreur d’ajustement est inf´ erieure

`

a un seul fix´ e (10

−5

) ou quand vingt it´ erations sont at- teintes (une it´ eration dans ce cadre ´ etant la r´ esolution du probl` eme de mise ` a jour de toutes les matrices A

(n)

).

Chaque probl` eme intervenant au niveau de la descente de coordonn´ ees par blocs, qui correspond ` a la mise ` a jour d’une matrice A

(n)

est aussi arrˆ et´ e quand l’erreur relative d’ajus- tement est inf´ erieure ` a 10

−5

ou quand vingt it´ erations ont

´ et´ e effectu´ ees (une it´ eration est une mise ` a jour au niveau de la descente de gradient).

Enfin, pour l’extension DTLminibatch, on a choisi comme tailles des mini-batch {400, 400, 400, 400}, c’est-` a-dire qu’au lieu de mettre ` a jour les matrices de dictionnaires en trai- tant les observations une par une, on les met ` a jour en traitant 4 fois 400 observations. Pour le deuxi` eme sc´ enario, les tailles de mini-batch choisies sont {400, 800, 800}.

5.1.2 Crit` ere d’´ evaluation

Le crit` ere de comparaison est l’erreur d’ajustement moyenne sur l’ensemble de test S

test

d´ efinie par :

RM SE = 1

N

N

X

t=1

kX

t

− G b

t

×

1

A

(1)s

×

2

A

(2)s

×

3

A

(3)s

k

2F

avec : G b

t

= arg min

G

kX

t

− G ×

1

A

(1)s

×

2

A

(2)s

×

3

A

(3)s

k

2F

+ αθkGk

1

(14) et o` u N correspond au cardinal de S

test

, les matrices n

A

(n)s

o

1≤n≤3

aux facteurs inf´ er´ es en utilisant uniquement les observations de S

train

et les observations X

t

sont celles de S

test

. Pour chaque sc´ enario, l’erreur d’ajustement moyenne est calcul´ ee de la mani` ere suivante :

— On titre 3 fois S

train

et S

test

;

— Pour chaque tirage, on calcule l’erreur d’ajustement ;

— On fait la moyenne des trois erreurs d’ajustement 5.1.3 R´ esultats

Les r´ esultats que nous avons obtenus sont pr´ esent´ es dans le tableau 1. On constate que les m´ ethodes Tucker- Batch, DLTsingle et DLTminibatch rendent des erreurs d’approximation similaires et que ALTO, dans ce sc´ enario consid´ er´ e ne converge pas vers de bons minimas locaux.

La performance de ALTO peut s’expliquer par la violation (v´ erifi´ ee) de la condition de convergence qui est l’hypoth` ese de faible rang que doivent v´ erifier tous les tenseurs dans la s´ equence consid´ er´ ee. Ceci prouve bien que notre m´ ethode est une bonne alternative ` a ALTO. Aussi, on observe des r´ esultats similaires ` a ceux de la m´ ethode TuckerBatch tout en contournant le coˆ ut du stockage de l’´ echantillon entier.

5.2 Exp´ erience sur donn´ ees r´ eelles

Nous consid´ erons une base de donn´ ee r´ eelle nomm´ ee Foursquare qui, dans la zone de Pittsburgh, contient le registre (ensemble de scores repr´ esentant une pr´ ef´ erence, par exemple un score ´ evaluant une impression par rapport

`

a un lieu public) des utilisateurs dans plusieurs lieux de divertissement ainsi que des coll` eges et universit´ es. Cette base de donn´ ee est donc un tenseur X ∈ R

P×T×M

o` u P est ´ egal ` a 56 et repr´ esente le nombre de lieux, T ` a 1200 et repr´ esente le nombre de points dans le temps choisis sur une p´ eriode de 4 mois, et M ` a 15 et correspond au nombre de variables mesur´ ees.

Pour cette exp´ erience, notre objectif est pr´ edire les va- leurs des s´ eries temporelles (s´ erie de tenseurs P × M ) repr´ esentant des observations historiques. Un des mod` eles couramment utilis´ es pour ce probl` eme est un mod` ele de

”vecteurs” auto-r´ egressifs VAR(L) (voir [YCL15]), L ´ etant la taille de la fenˆ etre temporelle consid´ er´ ee. ´ Etant donn´ e un tenseur X

L

∈ R

P×L×M

d’ordre 3 (dont les modes sont l’em- placement, le temps et la variable) contenant les L derni` eres observations, ce mod` ele cherche ` a d´ eterminer le prochain tenseur de taille (P × 1 × M ) et pour cela s’appuie sur un mod` ele reposant sur un tenseur W ∈ R

P×P L×M

tel que :

X

:,t,m

= W

:,:,m

X

L:,t−1:t−L,m

+ E

avec 1 ≤ m ≤ M, X

L:,t−1:t−L,m

= [X

:,t−1,mT

, .., X

:,t−L,mT

]

T

. Le bruit E est suppos´ e ˆ etre distribu´ e suivant une loi nor- male.

Pour d´ eterminer W, on consid` ere le probl` eme d’optimi- sation propos´ e dans [YCL15] se d´ efinissant comme suit :

min

W

kX − X k b

2F

+ µ

M

X

m=1

Trace( X b

:,:,mT

S X b

:,:,m

) (15) sous les contraintes : X b

:,t,mT

= W

:,:,m

X

L:,t,m

, P

N

n=1

rang(W

(n)

) ≤ R, X

L:,t,m

= [X

:,t,mT

, ..., X

:,t−L,mT

]

T

o` u

W

(n)

est la forme matricis´ ee du tenseur W par rapport

(8)

Taille noyau R

M´ethodes

TuckerBatch ALTO DLTsingle DLTminibatch

Sc´ enario 1 : #(S

train

)=1600, #(S

test

)=400

R=5 0.3188±0.01 1.5502±0.01 0.3189±0.01 0.3189± 0.01

R=10 2.6520±0.2 12.6234±0.20 2.6537±0.20 2.6537±0.20

R=15 7.5418±0.89 41.1823±0.88 7.5414± 0.89 7.5414±0.89

R=20 20.1638±1.70 99.9323±1.73 20.1639±1.70 20.1639±1.70

Sc´ enario 2 : #(S

train

)=2000, #(S

test

)=4000

R=5 0.2722 ±0.02 1.5076±0.02 0.2723±0.02 0.2723± 0.02

R=10 2.4770±0.06 12.4428±0.07 2.4767±0.06 2.4767±0.06

R=15 8.2009 ±0.71 41.8419±0.71 8.2010± 0.71 8.2010±0.71

R=20 17.9004±0.73 97.6760±0.73 17.9009±0.73 17.9009±0.73

Table 1 – Erreur d’ajustement moyenne en fonction de la taille du tenseur noyau R pour les 2 sc´ enarios

au mode n, rang et Trace correspondant respectivement au rang et ` a la trace d’une matrice. La matrice S est une matrice de similarit´ e assurant la consistance locale qui traduit le fait que, pour un pas de temps donn´ e, les param` etres ne doivent pas significativement varier pour des emplacements qui sont voisins.

Pour r´ esoudre le probl` eme (15) une approche (en ligne) en deux ´ etapes a ´ et´ e introduite dans [YCL15] que l’on reprend et dont le principe est le suivant. Premi` erement, mettre ` a jour le tenseur W de mani` ere s´ equentielle et en traitant uniquement un sous ´ echantillon (tir´ e dans le mode du temps qui correspond au second mode dans notre cas) du tenseur X . Puis projeter le tenseur mis-` a-jour W dans un espace de faible rang via des projections al´ eatoires et en uti- lisant uniquement le tenseur W obtenu au temps pr´ ec´ edent et les matrices de saturation inf´ er´ ees pr´ ec´ edemment. Cette deuxi` eme ´ etape suit un principe similaire ` a notre ap- proche de d´ ecomposition en ligne. Nous proposons donc pour ce probl` eme de pr´ ediction de comparer l’influence de la m´ ethode de d´ ecomposition en ligne en gardant la premi` ere ´ etape identique ` a celle de ALTO, mais en variant la seconde ´ etape. On comparera la proposition originale d’ALTO ` a une seconde ´ etape o` u l’approximation de faible rang sera r´ ealis´ ee via DLTsingle. On consid´ erera ´ egalement l’approche consistant ` a remplacer la seconde ´ etape par une d´ ecomposition de Tucker standard. Ce sch´ ema sera d´ esign´ e par Tucker.

5.2.1 Cadre exp´ erimental

On divise le tenseur X dans le sens du deuxi` eme mode (temps) en deux tenseurs d’ordre 3 X

train

∈ R

P×T1×M

et X

test

∈ R

P×T2×M

avec T

1

= 0.9 × T et T

2

= 0.1 × T . Le tenseur W sera d´ etermin´ e en utilisant X

train

et l’erreur moyenne quadratique calcul´ ee sur X

test

.

Les valeurs des hyperparam` etres sont fix´ es ` a α = 10

2

et θ = 10

−2

. Le pas de descente de gradient est fix´ e ` a η = 10

−18

. Le param` etre µ est fix´ e ` a 10

−2

. Les crit` eres d’arrˆ et, aussi bien pour la descente de coordonn´ ees par blocs que pour les probl` emes de mise ` a jour des facteurs sont

identiques ` a ceux de l’exp´ erience sur les donn´ ees simul´ ees.

5.2.2 Crit` ere d’´ evaluation

Le crit` ere d’´ evaluation est l’erreur moyenne quadratique normalis´ ee d´ efinie par : RM SE =

1

P×T1×M

P

M m=1

P

T1

t=1

k(X

test

)

T:,t,m

− W

:,:,m

(X

test

)

L:,t,m

k

2F

12

, (X

test

)

L

d´ efini de mani` ere similaire ` a X

L

.

Dans cette expression, le tenseur W est d´ etermin´ e en r´ esolvant le probl` eme de r´ egression (15) pour X = X

train

. 5.2.3 R´ esultats

Les r´ esultats de cette comparaison en fonction de la taille de la fenˆ etre temporelle L sont rassembl´ es dans la table 2.

On observe que les trois m´ ethodes donnent des erreurs re- lativement proches avec un l´ eger avantage pour notre ap- proche DTLsingle. L’´ ecart entre ALTO et les deux autres m´ ethodes peut s’expliquer par le fait que le biais induit via les projections al´ eatoires est plus important que celui induit en r´ esolvant les probl` emes de minimisation.

La r´ eduction des ´ ecarts compar´ ee ` a la premi` ere exp´ erience r´ esulte du fait que cette base de donn´ ees v´ erifie bien la contrainte de faible rang (voir [YCL15])), assurant ainsi l’inf´ erence de facteurs induisant une faible erreur d’approxi- mation pour ALTO.

6 Conclusion

Dans ce papier, on a mis en place une technique d’ap- prentissage de dictionnaires multimodaux reposant sur la d´ ecomposition de tenseurs en ligne. Cette technique ins- pir´ ee de l’apprentissage en ligne de dictionnaires dans le cadre matriciel repose sur l’alternance d’´ etapes de co- dages parcimonieux et de descente de coordonn´ ees par bloc.

Les comparaisons exp´ erimentales r´ ealis´ ees sur des donn´ ees

jou´ ees et dans le cadre d’un probl` eme r´ eel montrent que

la technique en ligne obtient des r´ esultats tr` es similaires

(9)

L

M´ ethodes

DTLsingle (notre m´ ethode) ALTO Tucker

1 0.1249 0.1253 0.1248

2 0.1249 0.1251 0.1249

3 0.1249 0.1250 0.1249

Table 2 – Errer moyenne quadratique normalis´ ee pour diff´ erentes valeurs du param` etre de retard L, valeur du rang=(5,5,5)

`

a ceux de la d´ ecomposition utilisant toutes les donn´ ees en une seule fois et des r´ esultats pouvant s’av´ erer sup´ erieurs ` a ceux d’une m´ ethode de l’´ etat de l’art quand l’hypoth` ese de rang faible n’est pas satisfaite.

Dans le futur, nous fournirons une analyse th´ eorique de l’approche propos´ ee. Nous pr´ evoyons ´ egalement l’exten- sion de l’approche au cas o` u les donn´ ees grandissent cou- ramment dans plusieurs modes et ainsi nous approcher de la r´ esolution d’une d´ ecomposition tensorielle sur de tr` es grandes donn´ ees.

R´ ef´ erences

[AF16] Muhammad Ali and Hassan Foroosh. Charac- ter recognition in natural scene images using rank-1 tensor decomposition. ICIP, 2016.

[BST14] Jerome Bolte, Shoham Sabach, and Marc Teboulle. Proximal alternating lineari- zed minimization for nonconvex and nons- mooth problems. Mathematical Programming, 146(1–2,) :459–494, 2014.

[Cat44] Raymond B. Cattell. Parallel proportional pro- files” and other principles for determining the choice of factors by rotation. Psychometrika, 9(4) :267–283, 1944.

[FC00] Tony F.Chan and C.K.Wong. Convergence of the alternating minimization algorithm for blind deconvolution. Linear Algebra and its Ap- plications, 316 :259–285, 2000.

[Ga16] Xian Guo and al. Support Tensor Machines for Classification of Hyperspectral Remote Sensing Imagery. IEEE Transactions on Geoscience and Remote Sensing, 54(6) :3248 – 3264, 2016.

[Hit27] F. L. Hitchcock. The expression of a tensor or a polyadic as a sum of products. J. Math.Phys., 6(1) :164–189, 1927.

[KB09] Tamara G. Kolda and Brett W. Bader. Ten- sor Decompositions and Applications. SIAM REVIEW, 51(3) :455–500, 2009.

[KM16] Hiroyuki Kasai and Bamdev Mishra. Low-rank tensor completion :a riemannian manifold pre- conditioning approach. ICML, 48 :1012–1021, 2016.

[KY06] H. J. Kushner and G. G. Yin. Stochastic ap- proximation and recursive algorithms with ap- plications. Journal of the Royal Statistical So- ciety Series A,, 169(3) :654–654, 2006.

[LHWG11] Jie Li, Guan Han, Jing Wen, and Xinbo Gao.

Robust tensor subspace learning for anomaly detection. International Journal of Machine Learning and Cybernetics, 2(2) :89–98, 2011.

[MBPS09] Julien Mairal, Francis Bach, Jean Ponce, and Guillermo Sapiro. Online dictionary learning for sparse coding. ICML ’09, pages 689–696, 2009.

[PSW15] Nicholas G. Polson, James G. Scott, and Bran- don T. Willard. Proximal Algorithms in Sta- tistics and Machine Learning. 2015.

[QHJ15] Yuhui Quan, Yan Huang, and Hui Ji. Dyna- mic Texture Recognition via Orthogonal Ten- sor Dictionary Learning. ICCV, 2015.

[SG14] Konstantinos Slavakis and Georgios B. Gianna- kis. Online dictionary learning from big data using accelerated stochastic approximation al- gorithms. ICASSP, pages 16–20, 2014.

[STF06] Jimeng Sun, Dacheng Tao, and Christos Fa- loutsos. Beyond streams and graphs : Dynamic tensor analysis. In Proceedings of the 12th ACM SIGKDD International Conference on Know- ledge Discovery and Data Mining, pages 374–

383, 2006.

[Tuc63] L. R. Tucker. Implications of factor analy- sis of three-way matrices for measurement of change. C.W. Harris (Ed.), Problems in Mea- suring Change, University of Wisconsin Press, page 122–137, 1963.

[XZT

+

16] Jianpeng Xu, Jiayu Zhou, Pang-Ning Tan, Xi Liu, and Lifeng Luo. Wisdom : Weighted in- cremental spatio-temporal multi-task learning via tensor decomposition. International Confe- rence on Big Data, 2016.

[YCL15] Rose Yu, Dehua Cheng, and Yan Liu. Accelera-

ted online low-rank tensor learning for multiva-

riate spatio-temporal streams. In Proceedings

of the 32Nd International Conference on In-

ternational Conference on Machine Learning,

pages 238–247, 2015.

Références

Documents relatifs

1/ En consid´erant comme syst`eme les n 1 moles de gaz qui restent dans l’enceinte pendant tout le processus, repr´esenter sur un diagramme de Clapeyron les diff´erentes

Lors- que le calcul logarithmique ne donne pas un nombre suffisant de chiffres sur lesquels on peut compter, on peut obtenir le dernier, les deux ou les trois derniers, en

Un nombre A étant donné, on le divise par la suite des nombres premiers, en retenant ceux qui sont diviseurs, autant de fois que nécessaire, jusqu’à ce que le nombre premier

Déterminer l’ensemble des racines de T n puis sa décomposition en produit de facteur irréductible.. Donner le nom d’un

◮ Beaucoup de copies sales, difficilement lisibles, sans s´eparation nette entre deux questions cons´ecutives, avec du texte dans les marges. Rappel : la limite d’une suite ne

Décompose en produit de facteurs premiers le nombre 4 680.. Effectuer une décomposition en

Décompose en produit de facteurs premiers le nombre

Un nombre est premier lorsqu’il n’est divisible que par 1 et