• Aucun résultat trouvé

Auto-encodeur optimisé au sens débit-distorsion : indépendant de la quantification?

N/A
N/A
Protected

Academic year: 2021

Partager "Auto-encodeur optimisé au sens débit-distorsion : indépendant de la quantification?"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: hal-01579257

https://hal.archives-ouvertes.fr/hal-01579257

Submitted on 30 Aug 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Auto-encodeur optimisé au sens débit-distorsion : indépendant de la quantification?

Thierry Dumas, Aline Roumy, Christine Guillemot

To cite this version:

Thierry Dumas, Aline Roumy, Christine Guillemot. Auto-encodeur optimisé au sens débit-distorsion :

indépendant de la quantification?. GRETSI 2017, Sep 2017, Juan-les-Pins, France. �hal-01579257�

(2)

Auto-encodeur optimis´ e au sens d´ ebit-distorsion : ind´ ependant de la quantification?

Thierry Dumas , Aline Roumy , Christine Guillemot

INRIA Rennes Bretagne-Atlantique

263 avenue du G´ en´ eral Leclerc, 35042 Rennes, France

[email protected], [email protected], [email protected]

R´ esum´ e – Ce travail s’inscrit dans le cadre de la compression d’image via une transform´ ee apprise par un auto-encodeur. Il essaie d’adapter la quantification ` a cette transform´ ee au lieu de la figer. Nous proposons d’une part d’apprendre conjointement la transform´ ee et la quantification. D’autre part, nous analysons si une multitude de pas de quantification peut s’appliquer lors du test sur une transform´ ee apprise pour un pas. Nous montrons que la seconde approche corrige le d´ efaut du meilleur auto-encodeur pour la compression d’image : devoir effectuer un apprentissage par d´ ebit de compression.

Abstract – This work relates to image compression via a transform learned by an auto-encoder. It tries to adapt the quantization to this transform instead of fixing it. We propose to jointly learn the transform and the quantization. Moreover, we analyze whether different quantization steps can be applied to a transform learned for one step only. We show that the second approach corrects the flaw of the state-of-the-art auto-encoder for image compression: having to learn one transform per compression rate.

1 Introduction

Les normes de codage d’image et les normes de co- dage vid´ eo utilisent une transform´ ee lin´ eaire et inversible pour convertir une image en une repr´ esentation plus com- pacte. Par exemple, dans JPEG, une transform´ ee en cosi- nus discr` ete (DCT) est appliqu´ ee sur des blocs de pixels.

Dans H.265, une DCT est appliqu´ ee sur la diff´ erence entre des blocs de pixels et leur pr´ ediction intra-image. Un gain en compression pourrait ˆ etre obtenu en rempla¸ cant cette DCT par une transform´ ee qui extrait de l’image de l’in- formation conceptuelle. Malheureusement, une telle trans- form´ ee est difficile ` a d´ efinir. Ce probl` eme peut ˆ etre r´ esolu par l’apprentissage. En effet, certains auto-encodeurs pro- fonds sont capables d’apprendre cette transform´ ee [4, 3].

Les approches de compression d’image bas´ ees sur des auto-encodeurs profonds [3, 1] fixent la quantification. C’est-

`

a-dire que les param` etres de quantification ne sont pas optimis´ es. Ceci est surprenant car la quantification est une ´ etape cruciale dans toutes les normes de codage [7, 5]. ` A partir de ce constat, deux questions se posent. (i) Est-ce que l’optimisation des param` etres de quantifica- tion lors de l’apprentissage de l’auto-encodeur est perti- nente ? (ii) Que se passe-t-il lorsque, lors du test, l’auto- encodeur est soumis des quantifications qu’il n’a pas ap- prises ? Nous proposons une m´ ethode pour transformer les param` etres de quantification en param` etres d’appren- tissage. Cette m´ ethode permet de r´ epondre ` a la premi` ere

Ce travail est en partenariat avec la DGA.

question. Par ailleurs, nous analysons la repr´ esentation apprise par un auto-encodeur et cherchons des quantifica- tions ad´ equates lors du test. Ceci s’attaque ` a la deuxi` eme question.

1.1 Notations

Les vecteurs sont not´ es par des lettres minuscules en gras. Les matrices et les tenseurs sont not´ es par des lettres capitales en gras. kXk

2

est la norme de Frobenius de X.

2 Apprentissage joint de la quan- tification et de l’auto-encodeur

Cette section introduit l’auto-encodeur qui, ` a ce jour, donne les meilleurs compromis d´ ebit-distorsion, c’est-` a- dire le mieux adapt´ e ` a la compression d’image. Ensuite, notre proposition d’apprentissage joint de la quantification et de ce type d’auto-encodeur est expliqu´ ee.

2.1 Auto-encodeur pour la compression

Un auto-encodeur est un r´ eseau de neurones qui est s´ epar´ e en deux parties. Un encodeur g e param´ etr´ e par θ prend une image X et g´ en` ere une repr´ esentation Y = g e (X; θ). Un d´ ecodeur g d parametr´ e par φ prend Y et donne X ˆ = g d (Y; φ), une reconstruction de X.

Un algorithme de compression doit s’appliquer ` a des

images de n’importe quelle taille. Dans les auto-encodeurs

(3)

avec des couches enti` erement connect´ ees, le nombre de pa- ram` etres d´ epend de la taille de l’image. Ceci oblige ` a en- traˆıner un auto-encodeur par taille d’image. Par cons´ equent, pour la compression d’image, les architectures avec uni- quement des couches convolutives et des op´ erateurs non- lin´ eaires sont pr´ ef´ erables. Dans ce cas, Y ∈ R h×w×m est une pile de matrices, voir Figure 1. m ∈ N

+

correspond au nombre de noyaux dans la derni` ere couche convolutive de l’encodeur.

Figure 1 – Y dans un auto-encodeur convolutif.

La m´ ethode classique d’apprentissage des auto-encodeurs minimise l’erreur de reconstruction de l’image. [1] cherche en plus ` a minimiser l’entropie de la repr´ esentation de l’image apr` es quantification. Ceci valorise un codage entropique de la repr´ esentation quantifi´ ee. Plus formellement, supposons que, pour i ∈ [|1, m|], les n = h×w coefficients {y ij } j=1...n dans la i

`eme

matrice de Y sont des r´ ealisations d’une va- riable al´ eatoire continue Y i de densit´ e de probabilit´ e p i , voir Figure 1. Ins´ erons une quantification Y ˆ = Q (Y) entre l’encodeur et le d´ ecodeur. Pour i ∈ [|1, m|], les coeffi- cients {ˆ y ij } j=1...n dans la i

`eme

matrice de Y ˆ sont mod´ elis´ es comme des r´ ealisations d’une variable al´ eatoire discr` ete Y ˆ i = Q (Y i ) de fonction de masse ˆ p i . Avec ces notations, la minimisation ` a la fois de l’erreur de reconstruction de l’image et de l’entropie de la repr´ esentation de l’image apr` es quantification est (1).

min

θ,φ

L (θ, φ) L (θ, φ) = E

"

kX − g d (Q (g e (X; θ)) ; φ)k

22

+ γ

m

X

i=1

H i

#

H i = − 1 n

n

X

j=1

log

2

(ˆ p i (ˆ y ij )) , γ ∈ R

+

(1) Pour i ∈ [|1, m|], H i est l’entropie estim´ ee de ˆ Y i . L’esp´ erance E [.] est approxim´ ee par une moyenne sur une base d’ap- prentissage. Malheureusement, la quantification rend (1) inutilisable. En effet, la d´ eriv´ ee de n’importe quelle fonc- tion de quantification Q par rapport ` a son entr´ ee est z´ ero en tout point. Par cons´ equent, θ ne peut pas ˆ etre ap- pris via des m´ ethodes bas´ ees gradient [8]. Pour contour- ner ce probl` eme, [1] choisit pour Q une quantification sca- laire uniforme de pas 1 et donne une approximation de Q dont la d´ eriv´ ee n’est pas nulle partout. Comme alterna-

tive, nous proposons une approximation pour n’importe quelle quantification scalaire uniforme qui peut ˆ etre ap- prise. C’est le propos de la section 2.2.

2.2 Apprentissage de la quantification

Q est divis´ ee en Q

1

, ..., Q m . Pour i ∈ [|1, m|], Q i est une quantification scalaire uniforme de pas δ i ∈ R

+

. Q i s’applique ` a la i

`eme

matrice de Y. Pour i ∈ [|1, m|], ˆ Y i = δ i bY i / δ i e o` u b.e arrondit ` a l’entier le plus proche. Soit Y ˆ i = {..., −δ i , 0, δ i , ...} l’ensemble des symboles de ˆ Y i . Pour i ∈ [|1, m|], pour q ∈ Y ˆ i ,

ˆ p i (q) =

Z q+0.5δ

i

q−0.5δ

i

p i (t) dt = δ i (p i ∗ f i ) (q)

f i est la densit´ e de probabilit´ e de la loi uniforme continue de support [−0.5δ i , 0.5δ i ]. Pour i ∈ [|1, m|], ˜ p i = p i ∗ f i est la densit´ e de probabilit´ e de la variable al´ eatoire continue Y ˜ i = Y i + E i o` u E i est une variable al´ eatoire continue de densit´ e de probabilit´ e f i . Avec les relations pr´ ec´ edentes, (1) peut ˆ etre approxim´ ee par (2).

min

θ,φ

L ˜ (θ, φ, δ

1

, ..., δ m ) L ˜ (θ, φ, δ

1

, ..., δ m ) = E

"

kX − g d (g e (X; θ) + E; φ)k

22

+ γ

m

X

i=1

˜ h i −

m

X

i=1

log

2

(δ i )

! #

˜ h i = − 1 n

n

X

j=1

log

2

(˜ p i (y ij + ε ij )) (2) Pour i ∈ [|1, m|], la i

`eme

matrice de E ∈ R h×w×m contient n r´ ealisations {ε ij } j=1...n de E i . Pour i ∈ [|1, m|], ˜ h i est l’entropie diff´ erentielle de ˜ Y i dans sa forme estim´ ee. Dans les deux termes de la fonction ` a minimiser, la quantifi- cation Q a ´ et´ e remplac´ ee par une approximation dont la d´ eriv´ ee par rapport ` a son entr´ ee ne s’annule nulle part.

Il est d´ esormais possible d’apprendre θ par des m´ ethodes bas´ ees gradient. Par contre, on ne peut pas encore ap- prendre δ

1

, ..., δ m . Les r´ ealisations de E i d´ ependent de mani` ere implicite de δ i . ˜ L (θ, φ, δ

1

, ..., δ m ) n’est donc pas d´ erivable par rapport ` a δ i . Ceci se r´ esout grˆ ace au changement de variable E i = δ i T i o` u T i est une variable al´ etoire suivant la loi uniforme continue de support [−0.5, 0.5]. Maintenant, une minimisation sur δ

1

, ..., δ m est possible, voir (3).

min

θ,φ,δ1

,...,δ

m

L ˜ (θ, φ, δ

1

, ..., δ m )

L ˜ (θ, φ, δ

1

, ..., δ m ) = E

"

kX − g d (g e (X; θ) + ∆T ; φ)k

22

+ γ

m

X

i=1

˜ h i

m

X

i=1

log

2

i )

! #

˜ h i = − 1 n

n

X

j=1

log

2

(˜ p i (y ij + δ i τ ij )) (3)

(4)

Figure 2 – Histogramme normalis´ e de la i

`eme

matrice de Y.

(a) Auto-encodeur via (3), i = 11. (b) Auto-encodeur via (3), i = 38. (c) Auto-encodeur classique, i = 10.

Pour i ∈ [|1, m|], la i

`eme

matrice de T ∈ R h×w×m contient n r´ ealisations {τ ij } j=1...n de T i . Tous les coefficients dans la i

`eme

matrice de ∆ ∈ R h×w×m sont ´ egaux ` a δ i . Un d´ etail a ´ et´ e laiss´ e de cˆ ot´ e jusqu’ici. Pour i ∈ [|1, m|], ˜ p i est inconnu. Comme dans [1], on peut choisir une fonction lin´ eaire par morceaux ˜ f i de param` etres ψ i et apprendre ψ i afin que ˜ f i approxime ˜ p i .

Au final, il y a trois groupes de param` etres : {θ, φ}, {δ

1

, ..., δ m } et {ψ

1

, ..., ψ m }. Ces trois groupes sont ap- pris en alternant trois descentes de gradient stochastique diff´ erentes.

Le but de la section 2 est d’apprendre δ

1

, ..., δ m . Ensuite, lors du test, δ

1

, ..., δ m seront inchang´ es. Avant de passer aux exp´ eriences, l’approche compl´ ementaire est expliqu´ ee.

δ

1

, ..., δ m sont fig´ es lors de l’apprentissage. Par contre, la quantification ´ evolue lors du test. Ceci est la section 3.

3 Quantifier au moment du test

Afin de comprendre comment quantifier la repr´ esentation d’une image donn´ ee par l’auto-encodeur appris, on analyse la distribution des coefficients dans cette repr´ esentation.

On commence par construire un auto-encodeur convolu- tif. g e (., θ) et g d (., φ) sont une succession de trois couches convolutives et d’op´ erateurs non-lin´ eaires. m est ´ egal ` a 64. Cet auto-encodeur est entraˆın´ e sur une base de 24000 images de luminance de taille 256x256 cr´ e´ ee ` a partir d’Ima- geNet [2]. L’objectif d’optimisation est (3) sauf que, ∀i ∈ [|1, m|], δ i = 0.8 n’est pas appris. Apr` es l’apprentissage, des images de luminance de taille 512x768 de la base Ko- dak

1

sont ins´ er´ ees dans l’auto-encodeur. Par exemple, si X d´ esigne la 3

i`eme

image de luminance de Kodak, l’auto- encodeur fournit Y = g e (X, θ). Figure 2(a)(b) montre l’histogramme normalis´ e de la 11

i`eme

matrice de Y et celui de la 38

i`eme

matrice. Toutes les matrices de Y, ` a l’excep- tion de 2 parmi les 64, ont des histogrammes normalis´ es semblables ` a ceux affich´ es. Pour pr´ eciser l’´ etude, ´ ecrivons la densit´ e de probabilit´ e de la distribution de Laplace de moyenne 0 et de param` etre d’´ echelle λ ∈ R

+

:

1. r0k.us/graphics/kodak/

f (x, λ) = 1 2λ exp

− |x|

λ

Pour toutes les matrices de Y, ` a l’exception de 2 parmi les 64, il existe λ i ∈ [0.05, 0.6] tel que l’histogramme norma- lis´ e de la i

`eme

matrice s’accorde avec la courbe de f (., λ i ).

Par exemple, λ

11

= 0.13 pour la 11

i`eme

matrice et λ

38

= 0.2 pour la 38

i`eme

. La distribution de Laplace se retrouve dans les transform´ ees qui offrent de bons compromis d´ ebit- distorsion lorsque la repr´ esentation de l’image subit une quantification ´ evolutive [6]. C’est pourquoi il semble judi- cieux de faire ´ evoluer la quantification scalaire uniforme qui est appliqu´ ee sur la repr´ esentation donn´ ee par l’auto- encodeur lors test. Ceci sera v´ erifi´ e dans la section 4.

Qu’est-ce qui a engendr´ e l’apprentissage de ces distri- butions de Laplace ? Nous avons entraˆın´ e des architec- tures avec diff´ erents op´ erateurs non-lin´ eaires (Leaky ReLU et GDN [1]). Rien ne change. En revanche, si un auto- encodeur classique est appris, i.e en ne minimisant que l’erreur de reconstruction de l’image, ces distributions de Laplace disparaissent. Par exemple, Figure 2(c) montre l’histogramme normalis´ e de la 10

i`eme

matrice de Y g´ en´ er´ e par l’auto-encodeur classique. La contrainte sur l’entropie donne donc naissance ` a ces distributions de Laplace.

4 Exp´ eriences

Pour r´ epondre aux questions trait´ ees par les sections 2 et 3, trois approches sont compar´ ees.

La premi` ere est une r´ ef´ erence. Elle se base sur le proto- cole dans [1]. Plus pr´ ecis´ ement, un auto-encodeur (EAE) est appris pour chaque valeur du coefficient γ ∈ S

1

= {10000.0, 12000.0, 16000.0, 24000.0, 40000.0, 72000.0, 96000.0}

qui nivelle la contrainte de distorsion par rapport ` a la contrainte d’entropie. Ainsi, chaque auto-encodeur est d´ edi´ e

`

a un d´ ebit de compression. ∀i ∈ [|1, m|], δ i = 1.0 n’est pas appris et reste inchang´ e au moment du test.

La seconde approche d´ ecoule de la section 2. Un auto-

encodeur est ´ egalement appris pour chaque valeur γ ∈ S

1

mais, cette fois-ci, ∀i ∈ [|1, m|], δ i est appris. La valeur de

δ i lors du test est celle obtenue ` a la fin de l’apprentissage.

(5)

Figure 3 – Courbes de d´ ebit-distorsion moyenn´ ees sur les 24 images de luminance de Kodak.

La troisi` eme approche correspond ` a la section 3. Un unique auto-encodeur est appris pour γ = 10000.0 et, ∀i ∈ [|1, m|], δ i = 1.0 n’est pas appris. Par contre, δ i croˆıt au moment du test. Dans ce cas uniquement, un seul auto- encodeur est utilis´ e pour plusieurs d´ ebits.

Tous les auto-encodeurs convolutifs ont une architec- ture identique ` a [1]. Ces auto-encodeurs sont appris sur 24000 images de luminance de taille 256x256 cr´ e´ ees ` a par- tir d’ImageNet. Puis, au moment du test, les 24 images de luminance de Kodak sont pass´ ees dans ces auto-encodeurs.

Le d´ ebit est ´ evalu´ e via l’entropie empirique des coefficients quantifi´ es en supposant que ces coefficients sont i.i.d, voir (1). Figure 3 montre des courbes de d´ ebit-distorsion moyen- n´ ees sur ces 24 images. La courbe de JPEG2000 est ob- tenue en utilisant ImageMagick

2

. Il n’y a quasiment pas de diff´ erence entre la premi` ere approche et la seconde.

Nous avons observ´ e que, pendant l’apprentissage, l’auto- encodeur profond arrive sans souci ` a dilater ou contrac- ter les distributions dans la repr´ esentation de l’image. De cette fa¸ con, il trouverait des compromis d´ ebit-distorsion similaires que la quantification soit impos´ ee ou apprise.

En revanche, nous voyons que la troisi` eme approche est aussi performante que la premi` ere en ne demandant qu’un apprentissage. Ceci est critique puisqu’un apprentissage prend 2 jours avec un GPU NVIDIA Quadro K6000.

5 Conclusion

Utiliser une quantification variable au moment du test permet, avec un seul auto-encodeur, de faire une compres- sion aussi performante qu’en apprenant un auto-encodeur par point de d´ ebit. En revanche, l’apprentissage joint de l’auto-encodeur et de la quantification scalaire uniforme semble peu int´ eressant. Pour creuser ce point, cette ap- proche devra ˆ etre g´ en´ eralis´ ee ` a des quantifications non uniformes. Par ailleurs, la base d’apprentissage est construite

2. www.imagemagick.org/script/index.php

`

a partir d’images encod´ ees en JPEG. Il faudra analyser si ceci biaise l’auto-encodeur appris.

R´ ef´ erences

[1] Johannes Ball´ e , Valero Laparra et Eero P. Simon- celli : End-to-end optimized image compression. In ICLR, 2017.

[2] Jia Deng , Wei Dong , Richard Socher , Li-Jia Li , Kai Li et Fei-Fei Li : ImageNet : a large-scale hierarchical image database. In CVPR, 2009.

[3] Karl Gregor , Frederic Besse , Danilo Jimenez Re- zende , Ivo Danihelka et Daan Wierstra : To- wards conceptual compression. arXiv preprint arXiv : 1604.08772, 2016.

[4] Karl Gregor , Ivo Danihelka , Alex Graves et Daan Wierstra : DRAW : a recurrent neural network for image generation. In ICLR, 2015.

[5] Gary J. Sullivan , Jens-Rainer Ohm , Woo-Jin Han et Thomas Wiegand : Overview of the High Efficiency Video Coding (HEVC) standard. IEEE Transactions on Circuits and Systems for Video Technology, 22 (12):

1649–1668, December 2012.

[6] Edmund Y. Lam et Joseph W. Goodman : A mathe- matical analysis of the DCT coefficient distributions for images. IEEE Transactions on Image Processing, 9 (10):1661–1666, October 2000.

[7] Michael W. Marcelli , Margaret A. Lepley , Ali Bil- gin , Thomas J. Flohr , Troy T. Chinen et James H.

Kasner : An overview of quantization in JPEG 2000.

Image Communication, 17 (1):73–84, January 2002.

[8] David E. Rumelhart , Geoffrey E. Hinton et Ro-

nald J. Williams : Learning representations by back-

propagating errors. Nature, 323 (9):533–536, October

1986.

Références

Documents relatifs

Nous utiliserons la repr´ esentation en compl´ ement ` a 2 pour repr´ esenter les nombres n´ egatifs, car c’est la plus utilis´ ee dans les syst` emes informatiques

– La repr´esentativit´e de la station : il faut `a tout prix ´eviter l’usage d’un mˆeme nom pour deux stations diff´erentes.... 2.2 Lev ´e gravim

Un corps magn´etique plac´e dans un champ magn´etique externe H, aura ses p ˆoles magn´etiques plus ou moins align´es sous l’effet de H, produisant un champ H 0 reli´e

a) Comme pr ec edemment, on fait l'hyp oth ese que les enfants choisissent au hasard.. D'autre part, pour une variable normale centr ee r eduite, pour. L' ecart type de la

Calibrer les param` etres de discr´ etisation de la repr´ esentation diffusive pour assurer une bonne pr´ ecision de la solution obtenue (expliciter la d´ emarche adopt´ ee

On pr´ ecisera la nature des facteurs explicatifs ainsi que les hypoth` eses faites2. Les hypoth` eses du mod` ele sont-elles v´

En rempla¸cant les fr´ equences (resp. les effectifs) par les fr´ equences cumul´ ees (resp. les effectifs cumul´ es) on obtient le diagramme en bˆ atons et le polygone des

Effets secondaires d’un m´ edicament sur les performances de conduite Un chercheur est charg´ e d’investiguer les effets sur la performance de conduite de deux nouvelles drogues