HAL Id: hal-00625549
https://hal.archives-ouvertes.fr/hal-00625549
Submitted on 21 Sep 2011
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Apprentissage de Dictionnaires Multivariés et
Décomposition Parcimonieuse Invariante par Translation et par Rotation 2D
Quentin Barthélemy, Anthony Larue, Aurélien Mayoue, David Mercier, Jerome Mars
To cite this version:
Quentin Barthélemy, Anthony Larue, Aurélien Mayoue, David Mercier, Jerome Mars. Apprentissage
de Dictionnaires Multivariés et Décomposition Parcimonieuse Invariante par Translation et par Rota-
tion 2D. GRETSI 2011 - XXIIIème Colloque francophone de traitement du signal et des images, Sep
2011, Bordeaux, France. pp.ID134. �hal-00625549�
Apprentissage de Dictionnaires Multivariés et Décomposition Parcimonieuse Invariante par Translation et par Rotation 2D
Quentin B
ARTHÉLEMY1, Anthony L
ARUE1, Aurélien M
AYOUE1, David M
ERCIER2, Jérôme I. M
ARS3 1CEA, LIST, Laboratoire d’Outils pour l’Analyse de Données
2
CEA, LIST, Laboratoire Information, Modèle et Apprentissage Gif-sur-Yvette, F-91191, France
3
GIPSA-lab, DIS, UMR 516 CNRS, Grenoble INP Grenoble, F-38402, France
prénom.nom@{cea.fr,gipsa-lab.grenoble-inp.fr}
Résumé – Cet article présente le Multivariate Dictionary Learning Algorithm qui apprend en ligne les structures élémentaires associées à un ensemble de signaux multivariés. Une fois apprises, le Multivariate Orthogonal Matching Pursuit décompose tous les signaux de cet ensemble avec parcimonie. Ces méthodes sont spécifiées dans le cas d’invariance par rotation qui produit un dictionnaire restreint de noyaux. Nos méthodes sont appliquées à des données d’écriture manuscrite, afin d’extraire les motifs caractéristiques de cette base de signaux.
Abstract – This article presents a new tool, Multivariate Dictionary Learning Algorithm, able to learn online the elementary structures associ- ated to a multivariate signals set. Once learned, Multivariate Orthogonal Matching Pursuit codes sparsely all signals of this set. These methods are specified to the 2D rotation-invariant case which induces a small-sized kernels dictionary. Our methods are applied to 2D handwritten data to extract the characteristic patterns of this signals set.
1 Introduction
La décomposition d’un signal y ∈ C
Nsur un dictionnaire normé Φ ∈ C
N×Ms’écrit : y = Φx+, avec x ∈ C
Mles coef- ficients et ∈ C
Nle résidu. Le dictionnaire composé d’atomes {φ
m}
Mm=1est dit redondant quand M > N . L’approximation parcimonieuse s’écrit : min
xky − Φxk
2t. q. kxk
0≤ C (P ), avec C une constante, et kxk
0la pseudo-norme `
0définie comme le cardinal du support
1de x. Afin de résoudre (P ) au mieux, nous cherchons le dictionnaire Φ adapté à la base des signaux étudiés : cela signifie qu’il permet de décomposer avec parci- monie tous les signaux de cette base. Les méthodes d’appren- tissage de dictionnaire font émerger des données les motifs élé- mentaires caractéristiques des signaux considérés [1, 2].
Après avoir présenté les algorithmes de décomposition et d’apprentissage, nous nous placerons dans les cas multivarié et invariant par translation. Nous exposerons nos méthodes et leurs spécifications au cas d’invariance par rotation 2D. Elles seront appliquées à des signaux d’écriture manuscrite.
2 Etat de l’art
Les algorithmes de Poursuite [3], notamment l’Orthogonal Matching Pursuit (OMP) [4], résolvent séquentiellement (P ), mais cette optimisation n’est pas convexe. La solution peut être
1. Le support dexestsupport(x) ={m∈NM :xm6= 0}.
un minimum local, surtout pour une forte cohérence
2µ
Φ. Ce- pendant, ces algorithmes sont très rapides quand on cherche juste quelques atomes. Une autre approche consiste à relaxer ce problème par une norme `
1. Différents algorithmes résolvent ce problème d’optimisation convexe et sont présentés dans [3].
Une forte cohérence µ
Φne garantit pas de retrouver le support de x optimal, et si c’est le cas, la convergence est longue.
Les algorithmes d’apprentissage de dictionnaire (Dictionary Learning Algorithms : DLA) trouvent un dictionnaire adapté aux signaux que l’on veut décomposer. Les méthodes classiques alternent entre 2 étapes : i) Φ est fixé et x est obtenu par décom- position parcimonieuse, ii) x est fixé et Φ est mis à jour. Cette mise à jour est basée sur des critères tels que le Maximum de Vraisemblance (MV) [1]. Il existe aussi des méthodes d’ap- prentissage où x et Φ sont mis à jour simultanément comme la K-SVD présentée en [2] dont la bibliographie résume bien l’état de l’art.
3 Cas multivarié et invariant par trans- lation
Dans le cas multivarié, le signal étudié devient y ∈ C
N×V, avec V le nombre de composantes. Deux problèmes peuvent être envisagés en fonction des natures de Φ et de x :
2. La cohérence du dictionnaireΦestµΦ=maxi6=j|hφi, φji|.
– Φ ∈ C
N×Munivarié et x∈ C
M×Vmultivarié, le cas multi- canal traité par les algorithmes [5, 6, 7] ;
– Φ ∈ C
N×M×Vmultivarié et x∈ C
Munivarié
3, le cas multi- varié seulement évoqué dans [8], mais avec une structure de dictionnaire particulière. Dans ce travail, nous étudie- rons ce cas, avec Φ multivarié et considéré normé.
Dans le cas invariant par translation, nous voulons décom- poser le signal y comme une somme de quelques structures {ψ
l}
Ll=1, appelées noyaux, caractérisées indépendamment de leurs positions. Considérant le noyau ψ
l, σ
lest un sous-ensemble des N indices t. Translatés à toutes les positions τ ∈ σ
l, les noyaux ψ
l(t) engendrent tous les atomes φ
m(t) :
y(t) =
M
X
m=1
x
mφ
m(t)+(t) =
L
X
l=1
X
τ∈σl
x
l,τψ
l(t−τ)+(t) (1) Ainsi, le signal multivarié y est approché comme la somme pondérée de quelques noyaux multivariés ψ
l.
4 Présentation des méthodes
Nous exposons nos méthodes introduites dans [9] : le Multi- variate OMP (M-OMP) pour la décomposition parcimonieuse, le Multivariate DLA (M-DLA) pour l’apprentissage de diction- naire et leurs spécifications au cas d’invariance par rotation 2D.
4.1 Multivariate OMP
La décomposition parcimonieuse peut être effectuée par n’im- porte quel algorithme capable de surmonter la forte cohérence due au cas d’invariance par translation. Nous choisissons l’OMP pour sa rapidité ; une description plus précise est donnée dans [4]. Nous appelons Multivariate OMP (Algorithm 1) son ex- tension au cas multivarié décrit précédemment (Section 3). A l’étape 4, le signal y (resp. dictionnaire D) multivarié est dé- plié selon la dimension des composantes dans un vecteur yc (resp. matrice Dc) univarié. La projection orthogonale (étape 4) est souvent faite récursivement par différentes méthodes : nous choisissons celle basée sur l’inversion matricielle par bloc [4]. Notant k l’itération courante, le vecteur de coefficients ob- tenu x
kest réduit à ses éléments non nuls. Comparé à l’OMP original, la complexité du M-OMP est seulement multipliée par V le nombre de composantes.
4.2 Multivariate DLA
Notre méthode d’apprentissage, appelée Multivariate DLA (Algorithm 2), est l’alternance de deux étapes : une décompo- sition faite par M-OMP et une de mise à jour du dictionnaire.
Cette méthode est appliquée à un ensemble de signaux d’en- traînement Y = {y
p}
Pp=1. Notre mise à jour est basée sur le
3. Ici,Φxest un produit élément par élément selon la dimension M.
4. La corrélation complexe entre lesuièmes composantes des signaux mul- tivariésaetbest notéeΓ{a[u], b[u]}.
Algorithm 1: x = Multivariate_OMP (y, Ψ) Initialisation : k = 1,
0=y, dictionnaire D
0= ∅ repeat
1. Corrélations
4: for l ← 1 to L do C
lk(τ) ← P
Vu=1
Γ
k−1[u], ψ
l[u] (τ) 2. Sélection : (l
kmax, τ
maxk) ← arg max
l,τC
lk(τ) 3. Dictionnaire actif : D
k← D
k−1∪ ψ
lkmax
(t − τ
maxk) 4. Coefficients : x
k← arg min
xyc − D
kc x
2
5. Résidu :
k← y − D
kx
k6. k ← k + 1
until convergence
critère MV [1], habituellement optimisé par Descente de Gra- dient. Nous préférons le Gradient du 2
ndordre de Levenberg- Marquardt [10] qui accélère la convergence, en couplant les méthodes du Gradient Stochastique et de Gauss-Newton. A l’itération i, la mise à jour de chaque noyau multivarié ψ
lest :
ψ
li(t) = ψ
li−1(t) + (H +λ.I)
−1· X
τ∈σl
x
il,τ∗i−1(t + τ) (2) avec t les indices restreints au support temporel de ψ
l, λ le pas adaptatif, ∗ l’opérateur conjugué et H le hessien moyen cal- culé pour chaque noyau (et non pour chaque échantillon). Dans les cas de recouvrements de noyaux, la méthode d’apprentis- sage devient instable à cause de l’erreur faite sur l’estimation du gradient. Nous surestimons légèrement le hessien H pour compenser ce phénomène. L’étape de mise à jour, qui stabilise désormais l’apprentissage, est appelée LM_modif (étape 2).
La convergence du M-DLA vers le minimum global n’est pas garantie à cause de l’optimisation alternée. Cependant le dictionnaire obtenu, minimum local ou global, assure la parci- monie des décompositions.
Algorithm 2: Ψ = Multivariate_DLA ({y
p}
Pp=1) Initialisation : i = 1, Ψ
0= {L noyaux de bruit blanc}
repeat
for p ← 1 to P do
1. Décomposition : x
i←M_OMP (y
p, Ψ
i−1) 2. Mise à jour : Ψ
i← LM_modif (y
p, x
i, Ψ
i−1) 3. i ← i + 1
until convergence
4.3 Cas d’Invariance par Rotation 2D (2DRI)
Pour l’étude de signaux réels bivariés, des mouvements 2D par exemple, nous voulons les caractériser indépendamment de leurs orientations. L’invariance par rotation introduit une matrice R de rotation d’angle θ
l,τpour chaque noyau bivarié ψ
l(t − τ). L’équation (1) devient :
y(t) =
L
X
l=1
X
τ∈σl
x
l,τR(θ
l,τ)ψ
l(t − τ ) + (t) (3)
Dans l’étape de sélection des noyaux (Algorithm 1, étape 2), le but est désormais de trouver l’angle θ
lkmax,τmaxk