Quantification et encodage - Processus gaussiens pour la séparation de sources et le codage inf

Dans ces conditions, on peut appliquer la même méthode que précédemment pour l’estimation de la matrice ˜A, de manière à obtenir :

b˜

A = ˜SHS˜

−1

SHx,˜ (10.2.5)

où ˜x désigne la matrice de dimension (L + H) × I contenant les observations temporelles des

mélanges, auxquelles on a adjoint H zéros finaux6_{. L’expression des réponses impulsionnelles a}

ij(τ ) se déduit facilement de l’estimée 10.2.5.

10.3 Quantification et encodage

Une fois les paramètres de sources θ et de mixage A estimés, on dispose de tous les éléments nécessaires pour construire l’information annexe 10.0.1. De manière à pouvoir transformer cette information annexe en un flux binaire de données susceptible d’être envoyé au décodeur, il est nécessaire de tout d’abord quantifier les paramètres ainsi trouvés, puis de les encoder. Je désignerai par ¯Θ =θ, ¯¯ A l’information annexe quantifiée.

Comme je l’ai déjà signalé en section 9.3 page 124, le coût en débit dû à une quantification scalaire naïve des paramètres de mixage A est assez faible, compte tenu du fait que le nombre de ces paramètres ne dépend pas de la longueur du signal traité. Par conséquent, la stratégie que j’ai adoptée dans mes travaux pour les transmettre au décodeur a simplement consisté à leur appliquer une quantification uniforme sur 32 bits, puis à encoder la série de codes résultants en utilisant un codage de Huffman [108] (voir section 13.1.3 page 169).

Le problème de la quantification et de l’encodage des paramètres de sources θ est plus délicat. Compte tenu du fait que leur nombre dépend de la longueur du morceau de musique considéré, il est important de parvenir à une stratégie efficace pour leur encodage.

La stratégie que j’ai adoptée pour l’encodage des paramètres θ a reposé sur une heuris- tique, jusqu’à ma collaboration avec Alexey Ozerov, qui lui a donné une base théo- rique solide à l’occasion de notre article commun [161]. Dans cette partie, je donne une autre justification théorique, peut être plus simple, de cette heuristique.

Au cours de mon travail sur la séparation informée, je ne me suis pas préoccupé tout de suite de la théorie sous-jacente au problème de l’encodage des paramètres de sources. La stratégie que j’ai adoptée dans ce but ainsi que pour la création du flux binaire correspondant a longtemps reposé sur des heuristiques [130, 137]. Pour le cas du modèle NTF, j’ai ainsi simplement pro- cédé à une quantification uniforme sur 32 bits des pa- ramètres θ = {W, H, Q} du modèle, suivie d’un enco- dage de Huffman. Dans le cas du modèle CI [130, 136], la stratégie adoptée a consisté à quantifier puis encoder les paramètres θCI 4.2.3 en utilisant simplement les compresseurs d’image standards, de type JPEG [216], appliqués sur les log-spectrogrammes des sources. Ces heuristiques se sont avérées déjà très efficaces, parvenant à des débits de l’ordre de 1 − 5kbps/source7_.

Ce n’est que lors de mon travail en commun avec Alexey Ozerov que nous nous sommes posés la question des bases théoriques de cette étape de quantification puis d’encodage des paramètres de sources, dans le cadre général du codage informé que je présenterai en partie IV. D’une manière intéressante, ces développements ont principalement permis de montrer que les heuristiques suivies jusqu’alors étaient très proches de la manière optimale de procéder. En section 10.3.1, je vais présenter une justification simple de la stratégie générale choisie pour la quantification du modèle, avant de l’appliquer au modèle CI en section 10.3.2, puis au modèle NTF en section 10.3.3, pour lequel je préciserai aussi les différentes méthodes d’encodage que j’ai considérées.

10.3.1 Critère de quantification

Dans cette section, je suppose identifié le modèle de source θ qui permet au mieux de rendre compte des signaux sources s observés. La principale hypothèse que je ferai ici sera d’assimiler

6. On peut aussi envisager de tronquer ˜s.

7. Pour le modèle NTF, le débit dépend principalement du nombre K de composantes. Pour le modèle CI, il dépend du coefficient de qualité utilisé lors de la compression des log-spectrogrammes des sources.

simplement le spectrogramme des sources v (f, n, j) avec la valeur paramétrique de leurs DSP, donnée par le modèle P (f, n, j | θ) 4.1.1 :

∀ (f, n, j) , v (f, n, j) ≈ P (f, n, j | θ) . (10.3.1) Cette hypothèse se justifie simplement en remarquant que c’est précisément l’objectif de l’ap- prentissage de θ que de minimiser l’écart entre le spectrogramme et le modèle, comme on l’a vu en section 4.1 page 57. On peut remarquer que dans le cas du modèle CI, qui n’est rien d’autre qu’une transformée du spectrogramme, l’approximation 10.3.1 est une égalité stricte.

Dans ces conditions, l’objectif de la quantification peut se comprendre comme la détermination des valeurs ¯θ des paramètres quantifiés qui maximisent à nouveau la vraisemblance des sources. La

fonction de coût Ψ ¯θ, v à minimiser reste dans ce cas la même que 4.1.3 page 59 : Ψ ¯θ, v = X

j,f,n

d0 v (f, n, j) | P f, n, j | ¯θ ,

où d0(a | b) est la distance d’Itakura-Saito 3.3.4 page 54 entre a et b. La différence est qu’au lieu

d’utiliser le spectrogramme v des observations, je suggère d’utiliser à la place le modèle P (· | θ), comme l’indique 10.3.1. Cette fonction de coût devient alors :

Ψ ¯θ, θ = X j,f,n

d0 P (f, n, j | θ) | P f, n, j | ¯θ . (10.3.2)

Trouver une manière de quantifier θ qui minimise une telle expression est difficile. Une astuce dans ce but est de voir que si ses deux opérandes sont proches, la distance d’Itakura-Saito peut être approximée par une erreur quadratique entre leurs logarithmes. En effet, lorsque a ≈ b, on a :

d0(a | b) = a b − log a b − 1 ≈ 1 + loga b + 1 2 loga b 2 − loga b − 1 = (log a − log b) 2 2 , (10.3.3)

où cette approximation provient d’un développement limité du deuxième ordre u ≈ 1 + log u +

1 2(log u)

au voisinage de 1 pour u = a_b. En utilisant 10.3.3, le critère 10.3.2 devient : Ψ ¯θ, θ ∝ X

j,f,n

log P (f, n, j | θ) − log P f, n, j | ¯θ2

, (10.3.4)

qui est beaucoup plus facile à mettre en œuvre. En effet, si on décide de mettre en œuvre une procédure de quantification scalaire, c’est une quantification uniforme de log P (f, n, j | θ), de pas constant ∆θ qui minimise l’erreur quadratique.

Ainsi, je viens de montrer moyennant certaines approximations qu’une manière adéquate de quan- tifier θ conduit à une quantification uniforme de log P (· | θ). On va voir à présent que dans les deux cas d’un modèle CI ou NTF, cela peut être accompli simplement.

10.3.2 Modèle par compression d’image

Tel que je l’ai présenté en section 4.2, le modèle CI fait intervenir un tramage des spectrogrammes suivi d’une transformation spectrale comme la transformée de Fourier discrète ou une transformée en ondelettes. Une particularité de ce genre de transformées et de leurs inverses est qu’elles sont basées sur la multiplication du signal par une matrice orthonormée8_{, qui a la propriété}

très intéressante dans notre contexte de préserver la norme Euclidienne9_.

8. Une matrice W est orthonormée si W WH _{est l’identité.}

10.3. QUANTIFICATION ET ENCODAGE 135

Soient en effet a et b deux vecteurs de dimension L × 1 et W une matrice orthonormée de dimension L × L. On a :

kW a − W bk = kW (a − b)k = ka − bk .

Or, compte tenu de l’expression 4.2.4 page 61 de P (· | θ), le critère à minimiser pour ¯θ de-

vient10 _:

Ψ ¯θ, θ =

C−1{θ} − C−1_¯

θ , qui est donc équivalent à

Ψ ¯θ, θ = θ − ¯θ

Par conséquent, pour peu que le modèle CI considéré fasse intervenir des transformées orthonor-

mées appliquées aux log-spectrogrammes des sources et qu’on procède à une quantification scalaire

des paramètres, c’est une quantification uniforme de θ qui est adéquate pour produire ¯θ.

La procédure à suivre pour utiliser le modèle CI de manière optimale serait d’encoder tous les log-spectrogrammes des sources avec un algorithme de type JPEG, modifié de telle manière à ce que la quantification des coefficients spectraux soit uniforme.

Ce n’est en effet pas le cas de JPEG, qui fait intervenir un pas de quantification plus grand pour les grandes fréquences spatiales, partant du constat que la vision humaine est moins sensible à l’introduction de distorsion aux emplacements des transitions sur une image. En utilisant les compresseurs JPEG standards dans [137], j’ai ainsi utilisé une méthode de quantification sous- optimale, mais néanmoins assez efficace et extrêmement facile à appliquer.

Une fois la quantification effectuée et compte tenu du fait que les différents coefficients de ¯θ

peuvent être considérés comme indépendants, on peut appliquer un algorithme de codage entro- pique pour générer le flux binaire correspondant. Dans mon travail, j’ai simplement utilisé celui intégré dans les codeurs d’images que j’ai selectionnés.

10.3.3 Modèle NTF

Si on réécrit le critère 10.3.4 en utilisant l’expression 4.3.2 page 62 du modèle correspondant, on obtient : Ψ ¯θ, θ = X j,f,n log K X k=1 W (f, k) H (n, k) Q (j, k) − log K X k=1 ¯ W (f, k) ¯H (n, k) ¯Q (j, k) !2 , (10.3.5)

qui est difficile à exploiter pour la quantification de θ. Il est plus facile de considérer plutôt le critère Φ ¯θ, θ suivant :

Φ ¯θ, θ = X j,f,n,k

log W (f, k) H (n, k) Q (j, k) − log ¯W (f, k) ¯H (n, k) ¯Q (j, k)2, (10.3.6)

dont on peut démontrer [161] qu’il est une majoration de 10.3.5 : Ψ ¯θ, θ ≤ Φ ¯θ, θ .

Maintenant, si on se souvient que le bruit de quantification est de moyenne nulle, que log ab = log a + log b et qu’on suppose que les coefficients de W , H et Q sont quantifiés indépendamment,

10. Je rappelle que C−1désigne l’ensemble des opérations par lesquelles l’approximation est reconstruite à partir des paramètres dans le modèle CI. Ces opérations font principalement intervenir des transformées fréquentielles inverses.

11. La discussion qui suit sur la quantification et l’encodage des coefficients du modèle NTF est extraite de notre article [161].

les termes croisés dans 10.3.6 s’annuleront en moyenne, pour peu que K × min (J, F, N ) soit suf- fisamment grand. En effet, le bruit de quantification de Q est par exemple indépendant de celui de H et de H lui-même. Par conséquent, on peut réécrire 10.3.6 de la manière suivante :

Φ ¯θ, θ = X j,f,n,k log W (f, k) − log ¯W (f, k)2 + log H (n, k) − log ¯H (n, k)2 + log Q (j, k) − log ¯Q (j, k)2 , soit : Φ ¯θ, θ = JF NX k 1 F log W (f, k) − log ¯W (f, k) 2 + 1 N log H (n, k) − log ¯H (n, k) 2 + 1 J log Q (j, k) − log ¯Q (j, k) 2 (10.3.7) A l’examen de 10.3.7, on voit que si on fait le choix de quantifier indépendamment les coefficients du modèle NTF, il faut utiliser une compression logarithmique. De plus, on peut constater que les termes de W , H et Q apparaissent dans 10.3.7 pondérés de manière différente. Par conséquent, de manière à minimiser 10.3.7, W , H et Q doivent être divisés par la racine carrée de ces poids avant quantification uniforme par le même pas de quantification ∆θ. Alternativement, ils peuvent être quantifiés de manière uniforme en utilisant des pas de quantification différents.

Pour quantifier indépendamment les coefficients θ = {W, H, Q} du modèle NTF, il faut appliquer un compresseur logarithmique suivi d’une quantification scalaire en utilisant les pas de quantifica- tion suivants pour W , H et Q :

∆W = p F/ (J F N )∆θ ∆H = p N/ (J F N )∆θ (10.3.8) ∆Q = p J/ (J F N )∆θ, où ∆θ est un pas de quantification commun pour le modèle.

Dans [130, 137], j’ai procédé à la quantifi- cation uniforme de W , H et Q directement, plutôt que de leur logarithme. Une telle pro- cédure est donc sous-optimale à la lumière de ces développements, ce qui a été confirmé expérimentalement dans [161]. Pour l’encodage des paramètres du modèle, j’ai consi- déré un encodage de Huffman et l’utilisation d’un modèle de mélange de gaussiennes. Ces résultats contrastent avec l’heuristique que j’avais

choisie pour [130, 137], où ces coefficients étaient quan- tifiés sans compression logarithmique préalable. On peut aussi mettre en perspective ces développements par rap- port à ceux de Nikunen et al. dans [151, 152], qui pro- posent d’utiliser un compresseur à loi µ, qui se com- porte de manière logarithmique pour µ élevé. De plus, nous avons montré que les pas de quantification des pa- ramètres W , H et Q se déduisent simplement d’un para- mètre ∆θcommun, alors que [151, 152] procèdent à une optimisation expérimentale de chaque pas de quantification.

Une fois les paramètres NTF quantifiés, ils sont prêts à être encodés. Dans mon travail, j’ai considéré deux types d’encodage. Le premier est un codage de Huffman [108], le deuxième est un codage par modèle de mélange de gaussienne (MMG). Dans ce deuxième cas, abordé dans [161], nous avons considéré pour chaque matrice W , H et Q un MMG à 2 états, appris au sens du maximum de vraisemblance sur log W , log H et log Q ce qui produit en tout 15 paramètres à transmettre au décodeur (2 moyennes, 2 variances et 1 poids pour chacune de ces trois matrices). Il y a des avantages et des inconvénients à considérer l’une ou l’autre de ces techniques d’encodage. Si un encodage de Huffman est optimal, il nécessite la transmission d’un dictionnaire, ce qui peut être coûteux par rapport au faible nombre de paramètres requis par le MMG. Dans la

Dans le document Processus gaussiens pour la séparation de sources et le codage informé (Page 152-156)