Apprentissage de Dictionnaires Multivariés et Décomposition Parcimonieuse Invariante par Translation et par Rotation 2D

(1)

HAL Id: hal-00625549

https://hal.archives-ouvertes.fr/hal-00625549

Submitted on 21 Sep 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Apprentissage de Dictionnaires Multivariés et

Décomposition Parcimonieuse Invariante par Translation et par Rotation 2D

Quentin Barthélemy, Anthony Larue, Aurélien Mayoue, David Mercier, Jerome Mars

To cite this version:

Quentin Barthélemy, Anthony Larue, Aurélien Mayoue, David Mercier, Jerome Mars. Apprentissage

de Dictionnaires Multivariés et Décomposition Parcimonieuse Invariante par Translation et par Rota-

tion 2D. GRETSI 2011 - XXIIIème Colloque francophone de traitement du signal et des images, Sep

2011, Bordeaux, France. pp.ID134. �hal-00625549�

(2)

Apprentissage de Dictionnaires Multivariés et Décomposition Parcimonieuse Invariante par Translation et par Rotation 2D

Quentin B

ARTHÉLEMY1

, Anthony L

ARUE1

, Aurélien M

AYOUE1

, David M

ERCIER2

, Jérôme I. M

ARS3 1

CEA, LIST, Laboratoire d’Outils pour l’Analyse de Données

2

CEA, LIST, Laboratoire Information, Modèle et Apprentissage Gif-sur-Yvette, F-91191, France

3

GIPSA-lab, DIS, UMR 516 CNRS, Grenoble INP Grenoble, F-38402, France

prénom.nom@{cea.fr,gipsa-lab.grenoble-inp.fr}

Résumé – Cet article présente le Multivariate Dictionary Learning Algorithm qui apprend en ligne les structures élémentaires associées à un ensemble de signaux multivariés. Une fois apprises, le Multivariate Orthogonal Matching Pursuit décompose tous les signaux de cet ensemble avec parcimonie. Ces méthodes sont spécifiées dans le cas d’invariance par rotation qui produit un dictionnaire restreint de noyaux. Nos méthodes sont appliquées à des données d’écriture manuscrite, afin d’extraire les motifs caractéristiques de cette base de signaux.

Abstract – This article presents a new tool, Multivariate Dictionary Learning Algorithm, able to learn online the elementary structures associ- ated to a multivariate signals set. Once learned, Multivariate Orthogonal Matching Pursuit codes sparsely all signals of this set. These methods are specified to the 2D rotation-invariant case which induces a small-sized kernels dictionary. Our methods are applied to 2D handwritten data to extract the characteristic patterns of this signals set.

1 Introduction

La décomposition d’un signal y ∈ C

^N

sur un dictionnaire normé Φ ∈ C

^N×M

s’écrit : y = Φx+, avec x ∈ C

^M

les coef- ficients et ∈ C

^N

le résidu. Le dictionnaire composé d’atomes {φ

m

}

^M_m=1

est dit redondant quand M > N . L’approximation parcimonieuse s’écrit : min

x

ky − Φxk

²

t. q. kxk

₀

≤ C (P ), avec C une constante, et kxk

₀

la pseudo-norme `

0

définie comme le cardinal du support

¹

de x. Afin de résoudre (P ) au mieux, nous cherchons le dictionnaire Φ adapté à la base des signaux étudiés : cela signifie qu’il permet de décomposer avec parci- monie tous les signaux de cette base. Les méthodes d’appren- tissage de dictionnaire font émerger des données les motifs élé- mentaires caractéristiques des signaux considérés [1, 2].

Après avoir présenté les algorithmes de décomposition et d’apprentissage, nous nous placerons dans les cas multivarié et invariant par translation. Nous exposerons nos méthodes et leurs spécifications au cas d’invariance par rotation 2D. Elles seront appliquées à des signaux d’écriture manuscrite.

2 Etat de l’art

Les algorithmes de Poursuite [3], notamment l’Orthogonal Matching Pursuit (OMP) [4], résolvent séquentiellement (P ), mais cette optimisation n’est pas convexe. La solution peut être

1. Le support dexestsupport(x) ={m∈NM :xm6= 0}.

un minimum local, surtout pour une forte cohérence

²

µ

_Φ

. Ce- pendant, ces algorithmes sont très rapides quand on cherche juste quelques atomes. Une autre approche consiste à relaxer ce problème par une norme `

1

. Différents algorithmes résolvent ce problème d’optimisation convexe et sont présentés dans [3].

Une forte cohérence µ

Φ

ne garantit pas de retrouver le support de x optimal, et si c’est le cas, la convergence est longue.

Les algorithmes d’apprentissage de dictionnaire (Dictionary Learning Algorithms : DLA) trouvent un dictionnaire adapté aux signaux que l’on veut décomposer. Les méthodes classiques alternent entre 2 étapes : i) Φ est fixé et x est obtenu par décom- position parcimonieuse, ii) x est fixé et Φ est mis à jour. Cette mise à jour est basée sur des critères tels que le Maximum de Vraisemblance (MV) [1]. Il existe aussi des méthodes d’ap- prentissage où x et Φ sont mis à jour simultanément comme la K-SVD présentée en [2] dont la bibliographie résume bien l’état de l’art.

3 Cas multivarié et invariant par trans- lation

Dans le cas multivarié, le signal étudié devient y ∈ C

^N×^V

, avec V le nombre de composantes. Deux problèmes peuvent être envisagés en fonction des natures de Φ et de x :

2. La cohérence du dictionnaireΦestµΦ=maxi6=j|hφi, φji|.

(3)

– Φ ∈ C

^N×^M

univarié et x∈ C

^M×^V

multivarié, le cas multi- canal traité par les algorithmes [5, 6, 7] ;

– Φ ∈ C

^N×^M×^V

multivarié et x∈ C

^M

univarié

³

, le cas multi- varié seulement évoqué dans [8], mais avec une structure de dictionnaire particulière. Dans ce travail, nous étudie- rons ce cas, avec Φ multivarié et considéré normé.

Dans le cas invariant par translation, nous voulons décom- poser le signal y comme une somme de quelques structures {ψ

l

}

^L_l=1

, appelées noyaux, caractérisées indépendamment de leurs positions. Considérant le noyau ψ

l

, σ

l

est un sous-ensemble des N indices t. Translatés à toutes les positions τ ∈ σ

l

, les noyaux ψ

_l

(t) engendrent tous les atomes φ

_m

(t) :

y(t) =

M

X

m=1

x

m

φ

m

(t)+(t) =

L

X

l=1

X

τ∈σl

x

l,τ

ψ

l

(t−τ)+(t) (1) Ainsi, le signal multivarié y est approché comme la somme pondérée de quelques noyaux multivariés ψ

_l

.

4 Présentation des méthodes

Nous exposons nos méthodes introduites dans [9] : le Multi- variate OMP (M-OMP) pour la décomposition parcimonieuse, le Multivariate DLA (M-DLA) pour l’apprentissage de diction- naire et leurs spécifications au cas d’invariance par rotation 2D.

4.1 Multivariate OMP

La décomposition parcimonieuse peut être effectuée par n’im- porte quel algorithme capable de surmonter la forte cohérence due au cas d’invariance par translation. Nous choisissons l’OMP pour sa rapidité ; une description plus précise est donnée dans [4]. Nous appelons Multivariate OMP (Algorithm 1) son ex- tension au cas multivarié décrit précédemment (Section 3). A l’étape 4, le signal y (resp. dictionnaire D) multivarié est dé- plié selon la dimension des composantes dans un vecteur yc (resp. matrice Dc) univarié. La projection orthogonale (étape 4) est souvent faite récursivement par différentes méthodes : nous choisissons celle basée sur l’inversion matricielle par bloc [4]. Notant k l’itération courante, le vecteur de coefficients ob- tenu x

^k

est réduit à ses éléments non nuls. Comparé à l’OMP original, la complexité du M-OMP est seulement multipliée par V le nombre de composantes.

4.2 Multivariate DLA

Notre méthode d’apprentissage, appelée Multivariate DLA (Algorithm 2), est l’alternance de deux étapes : une décompo- sition faite par M-OMP et une de mise à jour du dictionnaire.

Cette méthode est appliquée à un ensemble de signaux d’en- traînement Y = {y

p

}

^P_p=1

. Notre mise à jour est basée sur le

3. Ici,Φxest un produit élément par élément selon la dimension M.

4. La corrélation complexe entre lesuièmes composantes des signaux mul- tivariésaetbest notéeΓ{a[u], b[u]}.

Algorithm 1: x = Multivariate_OMP (y, Ψ) Initialisation : k = 1,

⁰

=y, dictionnaire D

⁰

= ∅ repeat

1. Corrélations

⁴

: for l ← 1 to L do C

_l^k

(τ) ← P

V

u=1

Γ

^k−1

[u], ψ

_l

[u] (τ) 2. Sélection : (l

^k_max

, τ

_max^k

) ← arg max

l,τ

C

_l^k

(τ) 3. Dictionnaire actif : D

^k

← D

^k−1

∪ ψ

_lk

max

(t − τ

_max^k

) 4. Coefficients : x

^k

← arg min

x

yc − D

^k

c x

2

5. Résidu :

^k

← y − D

^k

x

^k

6. k ← k + 1

until convergence

critère MV [1], habituellement optimisé par Descente de Gra- dient. Nous préférons le Gradient du 2

^nd

ordre de Levenberg- Marquardt [10] qui accélère la convergence, en couplant les méthodes du Gradient Stochastique et de Gauss-Newton. A l’itération i, la mise à jour de chaque noyau multivarié ψ

l

est :

ψ

_lⁱ

(t) = ψ

_lⁱ⁻¹

(t) + (H +λ.I)

⁻¹

· X

τ∈σl

x

ⁱ_l,τ^∗

ⁱ⁻¹

(t + τ) (2) avec t les indices restreints au support temporel de ψ

_l

, λ le pas adaptatif, ∗ l’opérateur conjugué et H le hessien moyen cal- culé pour chaque noyau (et non pour chaque échantillon). Dans les cas de recouvrements de noyaux, la méthode d’apprentis- sage devient instable à cause de l’erreur faite sur l’estimation du gradient. Nous surestimons légèrement le hessien H pour compenser ce phénomène. L’étape de mise à jour, qui stabilise désormais l’apprentissage, est appelée LM_modif (étape 2).

La convergence du M-DLA vers le minimum global n’est pas garantie à cause de l’optimisation alternée. Cependant le dictionnaire obtenu, minimum local ou global, assure la parci- monie des décompositions.

Algorithm 2: Ψ = Multivariate_DLA ({y

p

}

^P_p=1

) Initialisation : i = 1, Ψ

⁰

= {L noyaux de bruit blanc}

repeat

for p ← 1 to P do

1. Décomposition : x

ⁱ

←M_OMP (y

_p

, Ψ

ⁱ⁻¹

) 2. Mise à jour : Ψ

ⁱ

← LM_modif (y

_p

, x

ⁱ

, Ψ

ⁱ⁻¹

) 3. i ← i + 1

until convergence

4.3 Cas d’Invariance par Rotation 2D (2DRI)

Pour l’étude de signaux réels bivariés, des mouvements 2D par exemple, nous voulons les caractériser indépendamment de leurs orientations. L’invariance par rotation introduit une matrice R de rotation d’angle θ

l,τ

pour chaque noyau bivarié ψ

l

(t − τ). L’équation (1) devient :

y(t) =

L

X

l=1

X

τ∈σl

x

_l,τ

R(θ

_l,τ

)ψ

_l

(t − τ ) + (t) (3)

(4)

Dans l’étape de sélection des noyaux (Algorithm 1, étape 2), le but est désormais de trouver l’angle θ

_lk

max,τ_max^k

qui maximise les corrélations

C

_l^k

(τ, θ

_l,τ

)

. Une approche naïve consiste à échantillonner θ

_l,τ

en Θ angles et d’ajouter un degré de liberté dans le calcul des corrélations (Algorithm 1, étape 1). La com- plexité est multipliée par Θ par rapport au M-OMP utilisé dans le cas réel bivarié.

Pour éviter ce surcoût, nous transformons le signal y de R

^N×²

à C

^N

(i.e. y ← y[1] + iy[2]), puis nous appliquons le M-OMP : les noyaux et les coefficients de décomposition x sont main- tenant complexes. Le module donne l’amplitude du coefficient et l’argument l’angle de rotation du noyau. Désormais suscep- tible de tourner, celui-ci n’est plus appris selon une orienta- tion particulière comme dans l’approche précédente qualifiée d’orientée (V = 2, y ∈ R

^N×²

). Ainsi, les noyaux sont invariants par rotation et par translation générant une décomposition non- orientée (V = 1, y ∈ C

^N

). Cette spécification de la méthode de décomposition (resp. apprentissage) est appelée 2DRI-OMP (resp. 2DRI-DLA).

5 Données d’application

Nos méthodes sont appliquées aux signaux Character Tra- jectories disponibles sur la base UCI [11] et initialement traités avec un modèle probabiliste et une méthode d’apprentissage EM [12], mais sans parcimonie réelle dans les décompositions obtenues. Les données sont composées d’une centaine d’occur- rences de 20 lettres écrites par la même personne. Les signaux sont les vitesses cartésiennes v

_x

et v

_y

de la pointe du stylo.

Nous souhaitons apprendre un dictionnaire adapté afin de décomposer avec parcimonie ces signaux de vitesse. Le dic- tionnaire est appris sur les 20 premières occurrences de chaque lettre et la décomposition est testée sur celles restantes. Les vitesses, sur lesquelles nos méthodes sont appliquées, sont in- tégrées seulement pour visualiser les trajectoires associées.

6 Résultats

Les résultats sont directement présentés en cas non-orienté.

Le dictionnaire des noyaux intégrés (Fig 1) montre que le 2DRI-

F

IGURE

1 – Dictionnaire, appris par 2DRI-DLA, des trajec- toires associées aux noyaux.

F

IGURE

2 – Signaux de vitesse originaux (a) (resp. tournés de -90˚ (d)) et reconstruits (b) (resp. (e)) de 2 occurrences de la lettre d, ainsi que leurs spikegrammes associés (c) (resp. (f)).

DLA a extrait des primitives du mouvement. En effet, les traits et les courbes correspondent aux motifs élémentaires de l’en- semble des signaux d’écriture manuscrite.

Pour évaluer les qualités de ce dictionnaire, nous analysons les décompositions de quatre occurrences de la lettre d sur ce dictionnaire (Fig 2). Le signal de vitesse original (Fig 2a) (resp.

tourné de -90˚ (Fig 2d)), composé des parties réelle v

x

(trait plein) et imaginaire v

y

(pointillé), est reconstruit (Fig 2b) (resp.

(Fig 2e)). L’erreur quadratique moyenne (EQM) de reconstruc- tion sur les vitesses est de l’ordre de 12% pour 5 noyaux. Les coefficients x

_l,τ

sont visualisés par une représentation temps- noyau appelée spikegramme (Fig 2c) (resp. Fig 2f). Elle conden- se quatre informations : la position temporelle du noyau τ (abs- cisse), l’indice du noyau l (ordonnée), l’amplitude du coeffi- cient |x

l,τ

| (niveau de gris) et l’angle de rotation θ

l,τ

(nombre à côté du spike, en degré). Le faible nombre de noyaux utilisés pour la reconstruction montre la parcimonie de la décompo- sition. Les noyaux primaires sont ceux de fortes amplitudes : ils concentrent l’information. Les noyaux secondaires codent les variabilités entre les différentes réalisations. Sur les spike- grammes (Fig 2c et 2f), la différence de 90˚ entre les angles des noyaux primaires montre l’invariance par rotation de la décomposition. Cette reproductibilité (valeurs d’amplitudes et d’angles des noyaux primaires) est la preuve d’un dictionnaire adapté.

La trajectoire de la lettre d originale (Fig 3a) (resp. tournée

de -90˚ (Fig 3d)) est reconstruite avec ses noyaux primaires,

en comparant les cas orienté (Fig 3b) (resp. (Fig 3e)) et non-

orienté (Fig 3c) (resp. (Fig 3f)). Par exemple, la lettre (Fig 3c)

est reconstruite comme la somme des noyaux 2, 4 et 9 (Fig

1) spécifiés par les amplitudes et les angles du spikegramme

(Fig 2c). Quand les lettres sont tournées, dans le cas orienté, les

(5)

F

IGURE

3 – Trajectoires de la lettre d originale (a) (resp. tour- née de -90˚ (d)), reconstruction orientée (b) (resp. (e)) et re- construction non-orientée (c) (resp. (f)).

noyaux sélectionnés diffèrent et l’EQM passe de 15% (Fig 3b) à 30% (Fig 3e). Dans le cas non-orienté, l’EQM est identique quel que soit l’angle de rotation (Fig 3c et 3f) et est générale- ment inférieure au cas orienté. La différence entre les recons- tructions (Fig 3e et 3f) montre l’invariance par rotation de la décomposition non-orientée.

7 Discussion

L’apprentissage de dictionnaire permet de retrouver les pri- mitives des signaux étudiés : les décompositions basées sur un tel dictionnaire sont faites sur les structures caractéristiques de la base de ces signaux. Considérant l’erreur de reconstruction, le faible nombre de noyaux utilisés montre l’efficacité de cette méthode d’approximation parcimonieuse.

L’approche non-orientée réduit la taille du dictionnaire de noyaux dans deux cas :

– quand les signaux étudiés peuvent tourner, comme l’appli- cation présentée (la tablette d’acquisition est tournée par exemple). Pour générer un dictionnaire adapté, l’approche orientée a besoin d’apprendre des primitives du mouve- ment pour chacune des directions possibles, contrairement au cas non-orienté. Ceci entraîne une réduction remar- quable de la taille du dictionnaire.

– quand les signaux ne sont pas tournés. L’approche non- orientée détecte les invariants rotationnels ce qui réduit aussi la taille du dictionnaire [9].

Ainsi, l’invariance par translation et par rotation génère un dic- tionnaire Ψ de petite taille (Fig 1). De plus, elle permet d’être robuste à la direction de l’écriture (rotation de la tablette) et à son inclinaison (variabilités intra et inter utilisateurs).

8 Conclusion

Nous avons présenté des nouveaux outils pour les signaux multivariés. Le M-DLA apprend en ligne un dictionnaire com- posé des structures élémentaires associées à une base de si- gnaux multivariés. Une fois le dictionnaire appris, le M-OMP décompose avec parcimonie tous les signaux de cette base.

Ces algorithmes sont spécifiés au cas d’invariance par rotation 2D, respectivement nommé 2DRI-DLA et 2DRI-OMP. L’inva- riance par translation et par rotation produit un dictionnaire de noyaux de petite taille. Les applications sont la réduction de dimension, la compression, le débruitage, la représentation et l’analyse de gestes et tout autre traitement basé sur l’extraction de caractéristiques multivariées.

Les perspectives envisagées sont de se comparer aux autres algorithmes d’apprentissage et d’étendre les méthodes présen- tées à l’invariance par rotation 3D.

Références

[1] B.A. Olshausen and D.J. Field. Sparse coding with an overcom- plete basis set : a strategy employed by V1 ? Vision Research, 37 :3311–3325, 1997.

[2] M. Aharon, M. Elad, and A. Bruckstein. K-SVD : an algorithm for designing overcomplete dictionaries for sparse representa- tion. IEEE Trans. on Signal Processing, 54 :4311–4322, 2006.

[3] J.A. Tropp and S.J. Wright. Computational methods for sparse solution of linear inverse problems. Proc. of the IEEE, 98 :948–

958, 2010.

[4] Y.C. Pati, R. Rezaiifar, and P.S. Krishnaprasad. Orthogonal Mat- ching Pursuit : recursive function approximation with applica- tions to wavelet decomposition. In Asilomar Conf. on Signals, Systems and Comput., 1993.

[5] A. Lutoborski and V.N. Temlyakov. Vector greedy algorithms.

J. Complex., 19 :458–473, 2003.

[6] J.A. Tropp, A.C. Gilbert, and M.J. Strauss. Algorithms for si- multaneous sparse approximation ; Part I : Greedy pursuit. Si- gnal Proc., 86 :572–588, 2006.

[7] J. Chen and X. Huo. Theoretical results on sparse representa- tions of multiple-measurement vectors. IEEE Trans. on Signal Processing, 54 :4634–4643, 2006.

[8] R. Gribonval and M. Nielsen. Beyond sparsity : Recovering structured representations by l1-minimization and greedy algo- rithms. Technical Report PI-1684, 2005.