HAL Id: hal-01579257
https://hal.archives-ouvertes.fr/hal-01579257
Submitted on 30 Aug 2017
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Auto-encodeur optimisé au sens débit-distorsion : indépendant de la quantification?
Thierry Dumas, Aline Roumy, Christine Guillemot
To cite this version:
Thierry Dumas, Aline Roumy, Christine Guillemot. Auto-encodeur optimisé au sens débit-distorsion :
indépendant de la quantification?. GRETSI 2017, Sep 2017, Juan-les-Pins, France. �hal-01579257�
Auto-encodeur optimis´ e au sens d´ ebit-distorsion : ind´ ependant de la quantification?
Thierry Dumas , Aline Roumy , Christine Guillemot
∗INRIA Rennes Bretagne-Atlantique
263 avenue du G´ en´ eral Leclerc, 35042 Rennes, France
[email protected], [email protected], [email protected]
R´ esum´ e – Ce travail s’inscrit dans le cadre de la compression d’image via une transform´ ee apprise par un auto-encodeur. Il essaie d’adapter la quantification ` a cette transform´ ee au lieu de la figer. Nous proposons d’une part d’apprendre conjointement la transform´ ee et la quantification. D’autre part, nous analysons si une multitude de pas de quantification peut s’appliquer lors du test sur une transform´ ee apprise pour un pas. Nous montrons que la seconde approche corrige le d´ efaut du meilleur auto-encodeur pour la compression d’image : devoir effectuer un apprentissage par d´ ebit de compression.
Abstract – This work relates to image compression via a transform learned by an auto-encoder. It tries to adapt the quantization to this transform instead of fixing it. We propose to jointly learn the transform and the quantization. Moreover, we analyze whether different quantization steps can be applied to a transform learned for one step only. We show that the second approach corrects the flaw of the state-of-the-art auto-encoder for image compression: having to learn one transform per compression rate.
1 Introduction
Les normes de codage d’image et les normes de co- dage vid´ eo utilisent une transform´ ee lin´ eaire et inversible pour convertir une image en une repr´ esentation plus com- pacte. Par exemple, dans JPEG, une transform´ ee en cosi- nus discr` ete (DCT) est appliqu´ ee sur des blocs de pixels.
Dans H.265, une DCT est appliqu´ ee sur la diff´ erence entre des blocs de pixels et leur pr´ ediction intra-image. Un gain en compression pourrait ˆ etre obtenu en rempla¸ cant cette DCT par une transform´ ee qui extrait de l’image de l’in- formation conceptuelle. Malheureusement, une telle trans- form´ ee est difficile ` a d´ efinir. Ce probl` eme peut ˆ etre r´ esolu par l’apprentissage. En effet, certains auto-encodeurs pro- fonds sont capables d’apprendre cette transform´ ee [4, 3].
Les approches de compression d’image bas´ ees sur des auto-encodeurs profonds [3, 1] fixent la quantification. C’est-
`
a-dire que les param` etres de quantification ne sont pas optimis´ es. Ceci est surprenant car la quantification est une ´ etape cruciale dans toutes les normes de codage [7, 5]. ` A partir de ce constat, deux questions se posent. (i) Est-ce que l’optimisation des param` etres de quantifica- tion lors de l’apprentissage de l’auto-encodeur est perti- nente ? (ii) Que se passe-t-il lorsque, lors du test, l’auto- encodeur est soumis des quantifications qu’il n’a pas ap- prises ? Nous proposons une m´ ethode pour transformer les param` etres de quantification en param` etres d’appren- tissage. Cette m´ ethode permet de r´ epondre ` a la premi` ere
∗
Ce travail est en partenariat avec la DGA.
question. Par ailleurs, nous analysons la repr´ esentation apprise par un auto-encodeur et cherchons des quantifica- tions ad´ equates lors du test. Ceci s’attaque ` a la deuxi` eme question.
1.1 Notations
Les vecteurs sont not´ es par des lettres minuscules en gras. Les matrices et les tenseurs sont not´ es par des lettres capitales en gras. kXk
2est la norme de Frobenius de X.
2 Apprentissage joint de la quan- tification et de l’auto-encodeur
Cette section introduit l’auto-encodeur qui, ` a ce jour, donne les meilleurs compromis d´ ebit-distorsion, c’est-` a- dire le mieux adapt´ e ` a la compression d’image. Ensuite, notre proposition d’apprentissage joint de la quantification et de ce type d’auto-encodeur est expliqu´ ee.
2.1 Auto-encodeur pour la compression
Un auto-encodeur est un r´ eseau de neurones qui est s´ epar´ e en deux parties. Un encodeur g e param´ etr´ e par θ prend une image X et g´ en` ere une repr´ esentation Y = g e (X; θ). Un d´ ecodeur g d parametr´ e par φ prend Y et donne X ˆ = g d (Y; φ), une reconstruction de X.
Un algorithme de compression doit s’appliquer ` a des
images de n’importe quelle taille. Dans les auto-encodeurs
avec des couches enti` erement connect´ ees, le nombre de pa- ram` etres d´ epend de la taille de l’image. Ceci oblige ` a en- traˆıner un auto-encodeur par taille d’image. Par cons´ equent, pour la compression d’image, les architectures avec uni- quement des couches convolutives et des op´ erateurs non- lin´ eaires sont pr´ ef´ erables. Dans ce cas, Y ∈ R h×w×m est une pile de matrices, voir Figure 1. m ∈ N
∗+correspond au nombre de noyaux dans la derni` ere couche convolutive de l’encodeur.
Figure 1 – Y dans un auto-encodeur convolutif.
La m´ ethode classique d’apprentissage des auto-encodeurs minimise l’erreur de reconstruction de l’image. [1] cherche en plus ` a minimiser l’entropie de la repr´ esentation de l’image apr` es quantification. Ceci valorise un codage entropique de la repr´ esentation quantifi´ ee. Plus formellement, supposons que, pour i ∈ [|1, m|], les n = h×w coefficients {y ij } j=1...n dans la i
`emematrice de Y sont des r´ ealisations d’une va- riable al´ eatoire continue Y i de densit´ e de probabilit´ e p i , voir Figure 1. Ins´ erons une quantification Y ˆ = Q (Y) entre l’encodeur et le d´ ecodeur. Pour i ∈ [|1, m|], les coeffi- cients {ˆ y ij } j=1...n dans la i
`emematrice de Y ˆ sont mod´ elis´ es comme des r´ ealisations d’une variable al´ eatoire discr` ete Y ˆ i = Q (Y i ) de fonction de masse ˆ p i . Avec ces notations, la minimisation ` a la fois de l’erreur de reconstruction de l’image et de l’entropie de la repr´ esentation de l’image apr` es quantification est (1).
min
θ,φ
L (θ, φ) L (θ, φ) = E
"
kX − g d (Q (g e (X; θ)) ; φ)k
22+ γ
m
X
i=1
H i
#
H i = − 1 n
n
X
j=1
log
2(ˆ p i (ˆ y ij )) , γ ∈ R
∗+(1) Pour i ∈ [|1, m|], H i est l’entropie estim´ ee de ˆ Y i . L’esp´ erance E [.] est approxim´ ee par une moyenne sur une base d’ap- prentissage. Malheureusement, la quantification rend (1) inutilisable. En effet, la d´ eriv´ ee de n’importe quelle fonc- tion de quantification Q par rapport ` a son entr´ ee est z´ ero en tout point. Par cons´ equent, θ ne peut pas ˆ etre ap- pris via des m´ ethodes bas´ ees gradient [8]. Pour contour- ner ce probl` eme, [1] choisit pour Q une quantification sca- laire uniforme de pas 1 et donne une approximation de Q dont la d´ eriv´ ee n’est pas nulle partout. Comme alterna-
tive, nous proposons une approximation pour n’importe quelle quantification scalaire uniforme qui peut ˆ etre ap- prise. C’est le propos de la section 2.2.
2.2 Apprentissage de la quantification
Q est divis´ ee en Q
1, ..., Q m . Pour i ∈ [|1, m|], Q i est une quantification scalaire uniforme de pas δ i ∈ R
∗+. Q i s’applique ` a la i
`emematrice de Y. Pour i ∈ [|1, m|], ˆ Y i = δ i bY i / δ i e o` u b.e arrondit ` a l’entier le plus proche. Soit Y ˆ i = {..., −δ i , 0, δ i , ...} l’ensemble des symboles de ˆ Y i . Pour i ∈ [|1, m|], pour q ∈ Y ˆ i ,
ˆ p i (q) =
Z q+0.5δ
iq−0.5δ
ip i (t) dt = δ i (p i ∗ f i ) (q)
f i est la densit´ e de probabilit´ e de la loi uniforme continue de support [−0.5δ i , 0.5δ i ]. Pour i ∈ [|1, m|], ˜ p i = p i ∗ f i est la densit´ e de probabilit´ e de la variable al´ eatoire continue Y ˜ i = Y i + E i o` u E i est une variable al´ eatoire continue de densit´ e de probabilit´ e f i . Avec les relations pr´ ec´ edentes, (1) peut ˆ etre approxim´ ee par (2).
min
θ,φ
L ˜ (θ, φ, δ
1, ..., δ m ) L ˜ (θ, φ, δ
1, ..., δ m ) = E
"
kX − g d (g e (X; θ) + E; φ)k
22+ γ
m
X
i=1
˜ h i −
m
X
i=1
log
2(δ i )
! #
˜ h i = − 1 n
n
X
j=1
log
2(˜ p i (y ij + ε ij )) (2) Pour i ∈ [|1, m|], la i
`emematrice de E ∈ R h×w×m contient n r´ ealisations {ε ij } j=1...n de E i . Pour i ∈ [|1, m|], ˜ h i est l’entropie diff´ erentielle de ˜ Y i dans sa forme estim´ ee. Dans les deux termes de la fonction ` a minimiser, la quantifi- cation Q a ´ et´ e remplac´ ee par une approximation dont la d´ eriv´ ee par rapport ` a son entr´ ee ne s’annule nulle part.
Il est d´ esormais possible d’apprendre θ par des m´ ethodes bas´ ees gradient. Par contre, on ne peut pas encore ap- prendre δ
1, ..., δ m . Les r´ ealisations de E i d´ ependent de mani` ere implicite de δ i . ˜ L (θ, φ, δ
1, ..., δ m ) n’est donc pas d´ erivable par rapport ` a δ i . Ceci se r´ esout grˆ ace au changement de variable E i = δ i T i o` u T i est une variable al´ etoire suivant la loi uniforme continue de support [−0.5, 0.5]. Maintenant, une minimisation sur δ
1, ..., δ m est possible, voir (3).
min
θ,φ,δ1