Algorithme de Mallat et Falzon - Des algorithmes de contrôle de débit pour un standard de compr

III. Compression

5.3. Des algorithmes de contrôle de débit pour un standard de compression

5.3.3. Algorithme de Mallat et Falzon

5.3.3.1. Aspects théoriques

Les travaux de Mallat et Falzon [29] s'appuient sur une analyse similaire à celle de He et Kim. le débit estimé pour le codage d'une image est décomposé entre la partie Rz utilisée pour coder les coecients nuls et celle Rnz utilisée pour les coecients non-nuls, résultant de la transformation eectuée préalablement sur l'image.

Lien entre ρ et Rz Nous pouvons imaginer un schéma simple pour coder la carte des

coecients non-nuls, c'est-à-dire pour coder les coecients nuls. Nous nous xons un parcours, et si FB[k]est quantié à zéro, nous codons s[k] comme 0, et 1 sinon :

s[k] =

(

0 si ¯FB[k] = 0 1 _{si ¯}F_B[k] 6= 0

Dans ces conditions, le nombre moyen de bits utilisés pour coder un de ces coecients est l'entropie d'une source binaire S de probabilité ρ d'être égale à 0 (et donc ν = 1 − ρ d'être égale à 1) :

H(S) = −ρ log₂ρ − ν log₂ν.

Notons rz le coût moyen par coecient signicatif du codage des coecients nuls :

rz = Rz

νN

Nous n'avons pas ici exploité les corrélations spatiales existantes entre les coecients : l'entropie de S est donc une borne supérieure de rz, et donc :

N ≤ −ρ log2ρ − ν log2ν.

Comme pour x ∈ [0, 1[, nous avons −x log2x ≤ (1 − x) log2e, nous en déduisons que :

Il nous faut ajouter en réalité à cette borne le coût de codage du paramètre ρ, mais d'une part ce coût est constant, et d'autre part, en pratique, l'utilisation des run-lengthdonne une valeur de rz nettement plus basse que cette borne supérieure. De plus, les expériences numériques eectuées par Mallat et Falzon montrent que rz est à peu près constant pour une large catégorie d'images. Nous considérons donc dans la suite que rz est constant.

Approximation non-linéaire À basse résolution, l'hypothèse de quantication haute-

résolution n'est plus valide : en eet, autour de 0, la distribution des coecients est trop piquée pour que nous puissons supposer qu'elle est constante sur cette boîte. Nous allons donc traiter séparément la boîte centrale, qui annule les coecients, et les autres boîtes.

Sullivan [48] a montré que pour une distribution laplacienne, le quanticateur optimal était quasi-uniforme, avec simplement la boîte de quantication zéro d'une taille T dié- rente de la taille ∆ des autres boîtes. Le rapport θ = T/∆ optimal est xe. En pratique, même si les distributions ne sont pas laplaciennes, c'est eectivement un tel schéma de quantication qui est utilisé.

Une autre façon d'envisager ce type de quantication est de considérer que nous ne codons que les νN coecients de plus grande amplitude, en les quantiant, et que nous abandonnons les autres. Nous nous plaçons donc dans le cadre de l'approximation non- linéaire.

Notons rnz le coût moyen par coecient signicatif du codage de ces mêmes coecients :

rnz = R_νNnz

Si νN À 1, les νN coecients signicatifs ont un histogramme normalisé que nous pouvons interpoler continûment par :

p_T(x) = 1

νp(x)1{|x|>T }(x).

Notons XT la variable aléatoire dont pT est la distribution. Comme nous supposons que l'hypothèse de quantication haute-résolution est valable sur les coecients signicatifs, nous avons donc :

rnz = HdXT − log2∆

Décroissance des coecients Dans cette partie, nous utilisons la relation ∼ dans le

sens suivant :

f ∼ g ⇐⇒ g = O(f ) et f = O(g) Nous supposons aussi que νN > 1

² et ν < ² pour un petit ². Nous notons Fr

B[k]les coecients FB[k]réordonnés par ordre d'amplitude décroissante, c'est-à-dire :

Mallat et Falzon font l'hypothèse que la décroissance des coecients peut s'exprimer de la manière suivante :

|F_Br[k]| ∼ k−γ(k), (5.3)

Dans [29], les auteurs supposent que γ est une fonction de k

N et en contraignant sa forme, montre que rnzest une fonction de γ(ν) et de θ. En pratique, γ(ν) est à peu près constant dans le domaine de compression, et donc rnz est constant.

Donnons ici la démonstration plus simple dans le cas où γ est constant et γ > 0.5 [28]. Dans le cas des images à variation totale bornée, une telle hypothèse est vériée, avec

γ = 1_{. Pour des images plus irrégulières, la relation peut se vérier approximativement}

avec 1/2 < γ ≤ 1. Le coecient γ est lié à l'indice de régularité des espaces de Besov [28].

Comme nous mettons à zéro tous les coecients inférieurs à T , nous déduisons de (5.3) que :

νN ∼ T−γ.

Dans la mesure où T et ∆ sont proportionnels, il vient :

νN ∼ ∆−γ. (5.4)

Décomposons maintenant Rnz = Ra+ Rs, où Ra est le nombre de bits utilisés pour coder les amplitudes des coecients signicatifs, et Rs leur signe. Le signe étant une information binaire, son coût de codage ne peut pas dépasser en moyenne par élément 1 bit. Nous avons donc clairement :

0 ≤ Rs≤ νN.

Notons maintenant pj la proportion des coecients signicatifs dans l'amplitude est quantiée à (j + 1/2)∆ + T . Si nous pouvons choisir le code de longueur optimal pour chacun des coecients, de longueur lj = − log₂p_{j, notre budget en bits pour coder les}

amplitudes serait : Ha= −νN +∞ X j=0 pjlog2pj. (5.5)

Soit nj = νN pj le nombre de coecients tombant dans la boîte j. Si |FBr[k]|appartient à cette boîte, alors |Fr

B[k]| ∈ [(j + θ)∆, (j + 1 + θ)∆[. En utilisant l'équation (5.3), nous obtenons :

nj ∼ ((j + θ)∆)−

γ _{− ((j + θ + 1)∆)}−γ1_.

En vertu de l'équation (5.4), ceci signie que :

p_j = nj

νN ∼ (j + θ)

−1

γ − (j + θ + 1)−1γ.

L'expressionP+∞j=0pjlog2pj est donc indépendante de νN, et l'équation (5.5) se simplie en :

En réalité, nous ne connaissons pas a priori la valeur de s, qui dépend de la structure de l'image. Mais rien ne nous empêche de choisir pour dénir les codes un s prédéni (par exemple s = 1/2). Cela introduira une légère inecacité, mais la relation entre Ra et νN restera approximativement linéaire. En conséquence, nous avons :

R_nz= R_a+ R_s∼ νN,

ce qui signie aussi que rnz est constant par rapport à la quantication de l'image (tant que nous restons dans le bas débit).

Pour résumer : Mallat et Falzon ont découpé le débit entre Rz, le nombre de bits nécessaires pour coder les coecients nuls après quantication, et Rnz, celui nécessaire pour coder les coecients signicatifs. Si nous notons respectivement rz et rnzces débits rapportés au nombre de coecients signicatifs, nous constatons que ces deux valeurs sont constantes pour une image donnée.

Notons r∗_{= r}

z+ rnz. Nous avons alors :

R N = Rz+ Rnz N (5.6) = r_zν + r_nzν _(5.7) = r∗(1 − ρ) _(5.8)

Le débit est donc une fonction simple de ρ, plus simple que dans le modèle de He-Kim. Dans le cas γ = 1/2, l'équation (5.8) devient, en utilisant l'équivalence (5.4) :

N ∼ K

1 ∆2,

où K est une constante, à comparer avec le modèle de débit sur lequel s'appuie l'algorithme du TMN.8, donné par l'équation (5.1).

5.3.3.2. Aspects pratiques

En pratique, le paramètre r∗ _{dépend surtout du schéma de compression utilisé (type} de transformée, méthode d'encodage des coecients) mais aussi légèrement du contenu de l'image. On s'autorise à adapter la valeur de r∗ _{en fonction des portions déjà codées} de l'image, par un mécanisme de relaxation. On pourra, dans le cas de la compression vidéo, adapter la valeur de r∗ _{en fonction de la valeur réelle pour l'image précédente.}

Le modèle permet en tout cas d'obtenir très simplement, à partir de l'histogramme des coecients, la valeur du pas de quantication nécessaire pour obtenir un débit donné. Qui plus est, cet algorithme atteint une extrêmement bonne précision de prédiction.

Il est donc vraisemblablement intéressant de voir dans quelle mesure cette précision peut apporter à la compression vidéo, dans la mesure où un algorithme similaire, mais au modèle plus pauvre (le présent modèle n'étant pas présenté dans toute son étendue théorique), bien que potentiellement encore anable, semble donner des résultats relati- vement probants.

Dans le document Mouvement et vidéo : estimation, compression et filtrage morphologique (Page 126-130)