• Aucun résultat trouvé

Optimisation convexe pour l'estimation simultanée de réponses acoustiques

N/A
N/A
Protected

Academic year: 2021

Partager "Optimisation convexe pour l'estimation simultanée de réponses acoustiques"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: inria-00594252

https://hal.inria.fr/inria-00594252v2

Submitted on 19 May 2011

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Optimisation convexe pour l’estimation simultanee de

reponses acoustiques

Alexis Benichoux, Emmanuel Vincent, Rémi Gribonval

To cite this version:

Alexis Benichoux, Emmanuel Vincent, Rémi Gribonval. Optimisation convexe pour l’estimation

si-multanee de reponses acoustiques. 23e Colloque du Groupement de Recherche en Traitement du Signal

et des Images, Sep 2011, Bordeaux, France. �inria-00594252v2�

(2)

Optimisation convexe pour l’estimation

simultanée de réponses acoustiques

Alexis Benichoux1, Emmanuel Vincent2, Rémi Gribonval2

1

Université Rennes 1, IRISA - UMR6074, Campus de Beaulieu, 35042 Rennes Cedex, France 2

INRIA, Centre de Rennes - Bretagne Atlantique, Campus de Beaulieu, 35042 Rennes Cedex, France 1

alexis.benichoux@irisa.fr 2

{emmanuel.vincent,remi.gribonval}@inria.fr

Résumé – On s’intéresse à l’estimation de réponses acoustiques à partir de l’enregistrement simultané de plusieurs sources connues. Les techniques existantes nécessitent de pouvoir se ramener au cas où le nombre de sources, connues ou inconnues, est au plus égal au nombre de capteurs. Notre méthode s’affranchit de cette hypothèse dans le cas où les sources sont connues. Pour cela, on propose des modèles statistiques de filtres associés à des log-vraisemblances convexes, puis on met en place des algorithmes d’optimisation convexe pour résoudre le problème inverse, avec les pénalités qui résultent de ces modèles. On fournit une comparaison des différentes pénalités via un jeu d’expériences qui montre que la méthode proposée permet d’obtenir une estimation robuste, et augmente nettement les performances par rapport à l’approche naïve.

Abstract –We consider the estimation of acoustic impulse responses from the simultaneous recording of several known sources. Existing techniques are restricted to the case where the number of sources is at most equal to the number of sensors. We relax this assumption in the case where the sources are known. To this aim, we propose statistical models of the filters associated with a convex log-likelihood, and we propose a convex optimization algorithm to solve the inverse problem, with the resulting penalties. We provide a comparaison between penalties via a set of experiments which shows that the proposed method allows to obtain a robust estimation, and greatly improves performance compared to the naive approach.

1

Introduction

L’enregistrement de réponses de salle s’effectue à ce jour par l’activation successive de sources à des positions dif-férentes [6]. Dans le cas de l’enregistrement des BRIRs (Binaural Room Impulse Responses), l’estimation simul-tanée de plusieurs réponses à partir de l’enregistrement simultané de plusieurs sources permettrait de gagner du temps lorsque le nombre de positions est élevé.

Les méthodes [2] et [12] pour l’estimation des para-mètres des mélanges convolutifs supposent que chaque source est présente seule sur un certain intervalle de temps. Une fois cet intervalle trouvé, les réponses acoustiques (ou filtres) associées sont estimées par la méthode des sous-espaces pour [2] et par optimisation convexe pour [12]. L’Analyse en Composantes Indépendantes (ACI) convo-lutive [10] suppose quant à elle que le nombre de sources est au plus égal au nombre de capteurs.

Nos travaux sont à notre connaissance les premiers qui s’affranchissent de ces deux hypothèses. On propose de prendre en compte la structure a priori des filtres pour faciliter l’inversion, itérative, du système.

La formalisation du problème est décrite dans la par-tie 2. La parpar-tie3 correspond à la recherche de l’a priori de

structure des filtres. La mise en œuvre de l’algorithme ré-solvant le problème posé est détaillée dans la partie 4. Les résultats exposés dans la partie 5 valident la démarche pro-posée, notamment lorsque le système est sous-determiné, ou seulement faiblement surdéterminé.

2

Approche

Le problème est formalisé comme suit : on représente les N sources de longueur T par la matrice S = (Sn[t]) ∈

RN T, les filtres de longueur K par A = (Amn[t]) ∈ RMN K

et les M observations par X = (Xm[t]) ∈ RM(T +K−1). Le

produit matriciel convolutif ⋆ permet d’écrire

X= A ⋆ S. (1) Des travaux antérieurs [7] estiment S lorsque A est connu en exploitant une parcimonie des sources avec des tech-niques d’optimisation convexe. Ici, on adapte cette dé-marche pour estimer A lorsque S est connu en calculant limλ→0Aλ avec Aλ= argminA  1 2kX − A ⋆ Sk 2 2+ λP(A)  . (2)

(3)

Si P est convexe, cette limite est alors solution de min

A P(A) s.t. kX − A ⋆ Sk 2

2= 0. (3)

Cette démarche revient choisir à la solution du système la plus vraissemblable au sens de P. On choisit pour pénal-ité P l’opposé de la log-vraisemblance d’une distribution suggérée par l’analyse statistique d’une famille de filtres.

3

Analyse statistique

d’une famille de filtres

La théorie statistique de l’acoustique des salles [8] traite chaque filtre a(t) comme un signal aléatoire non i.i.d. dont l’amplitude moyenne ρ(t) décroît exponentiellement selon ρ(t) = σ 10−3t/tR, (4)

où tRest le temps de réverbération de la salle exprimé en

échantillons et σ un facteur d’échelle. Cette théorie sup-pose par ailleurs que a(t) suit une distribution gaussienne. D’autres travaux [9] supposent au contraire que a(t) a une amplitude moyenne constante et est parcimonieux car constitué d’échos à des instants distincts. Afin d’évaluer l’impact respectif de la décroissance d’amplitude et de la parcimonie, nous considérons les quatre distributions suiv-antes : laplacienne à amplitude décroissante

P1(t) =

1 2ρ(t)e

−|a(t)|/ρ(t), (5)

gaussienne à amplitude décroissante P2(t) = √ 1

2πρ(t)e

−a2 (t)/2ρ2

(t), (6)

laplacienne à amplitude constante P3(t) =

1 2σe

−|a(t)|/σ, (7)

gaussienne à amplitude constante P4(t) = √1

2πσe

−a2 (t)/2σ2

. (8)

La figure 1 compare la log-vraisemblance moyenne de ces quatre modèles sur un ensemble de 10 000 filtres simulés par la méthode des sources images [3] pour une source et un micro positionnés aléatoirement à 1 m l’un de l’autre dans une salle de taille 10×8×4 m avec tR= 250 ms. Pour

chaque modèle, le facteur d’échelle σ est fixé au sens du maximum de vraisemblance. La modélisation de la varia-tion d’amplitude au cours du temps apparaît comme cru-ciale : en effet, la vraisemblance des modèles P3 et P4est

beaucoup plus faible que celle des modèles P1 et P2 pour

t grand. La modélisation de la parcimonie a un impact plus faible : la vraisemblance de P1 (et dans une moindre

mesure celle de P3) surpasse légèrement celle de P2 pour

t ≤ 60 ms, mais devient similaire pour t > 60 ms. Un zoom montre néanmoins que P2 est légèrement meilleur

que P1 pour t > 60 ms. Ces observations nous conduisent

à proposer un cinquième modèle hybride P5(t) = ( P1(t) si t ≤ 60 ms P2(t) si t > 60 ms. (9) 0 50 100 150 200 250 2 3 4 5 6 7 8 t (ms) log−vraisemblance P 1 P 2 P 3 P 4

Fig. 1: Comparaison des modèles statistiques de filtres (5) à (8) sur un ensemble de filtres générés pour une salle de temps de réverbération égal à 250 ms.

4

Algorithme

Pour résoudre (2) on utilise l’algorithme de seuillage itératif doux FISTA (Fast Iterative Shrinkage-Thresholding Algo-rithm, [4]) qui exploite d’une part la différentiabilité de

L : A 7→ kX − A ⋆ Sk22, (10)

et la convexité et la semi-continuité de Pi = − log Pi

d’autre part. Les opérateurs proximaux [11] permettent de contourner la non différentiabilité de P pour construire des algorithmes efficaces.

Definition 1 Pour P : E → R semi-continue et convexe on a appelle opérateur proximal associé àP la fonction

proxP : x ∈ E 7→ argminy∈E



P(y) +12kx − yk22



Les étapes de FISTA sont decrites dans l’algorithme 1. On a besoin de connaître le gradient de L, sa constante de Lipschitz L, et l’opérateur proximal de P.

Algorithme 1 FISTA 1: A0∈ RMN K, τ0= 1 2: pourk ≤ kmax faire

˜ Ak = proxλ LP  Ak−1∇L(A k1 ) L  τk= 1+√1+4(τk−1)2 2 Ak = ˜Ak+τk1 −1 τk ( ˜Ak− ˜Ak−1) 3: fin pour

Le calcul du gradient de L conduit à l’introduction d’un opérateur adjoint correspondant aux règles de calcul de la convolution ⋆ des matrices à trois dimensions A et S. En notant ˜Sk ∈ RT le retournement de Sk, i.e. pour

1 ≤ t ≤ T , ˜Sk[t] = Sk[T − t + 1], l’adjoint S∗ vérifie X⋆ S∗=( ˜Sn∗ Xm)[t]  m≤M n≤N 1≤t≤K . (11)

(4)

Le gradient de L s’ecrit alors

∇L(A) = (X − A ⋆ S) ⋆ S∗. (12) La constante de Lipschitz de ∇L est la plus grande valeur propre de l’opérateur A 7→ A⋆S⋆S∗, et on l’obtient

numériquement par l’algorithme des puissances itérées, [7, Algorithme 5].

La log-vraisemblance des distributions introduites cor-respond à des normes ℓ1 ou ℓ2, les opérateurs proximaux

correspondants sont alors bien connus [7]. Les pénal-ités introduites sont séparables, c’est à dire que l’on peut raisonner coordonnée par coordonnée [5, Lemme 2.9]. Pour la norme ℓ1on obtient le seuillage doux [7, Proposition 1].

L’opérateur proximal de la norme ℓ2s’obtient directement

en utilisant la différentiabilité, et pour l’introduction du facteur d’échelle on utilise la règle de calcul [5, Lemme 2.6]. En notant pour x ∈ R

x+= max(x, 0), (13) les opérateurs proximaux des log-vraisemblances des dis-tributions (5) à (8) sont proxλP1(A)m,n,t= ρ(t)Am,n,t |ρ(t)Am,n,t|  |Am,n,t| − λ ρ(t) + (14) proxλP2(A)m,n,t= Am,n,t 1 + λ/ρ2 (15) proxλP3(A)m,n,t= Am,n,t |Am,n,t|(|A m,n,t| − λ)+ (16) proxλP4(A)m,n,t= Am,n,t 1 + λ . (17) Pour le modèle hybride (9) on utilise (14) ou (15) selon la valeur de t.

On calcule les minima Aλpour λ ∈ {1, 10−1, . . . , 10−14}

en initialisant l’algorithme FISTA au minimum obtenu pour la valeur précédente. On retient le dernier minimum obtenu, pour λ = 10−14, qu’on considère une bonne

ap-proximation de la limite limλ→0Aλ. Contrairement à ce

ce qu’on pourrait penser de prime abord, cela ne revient pas à annuler la régularisation mais (3) à minimiser le terme de régularisation P(A) sous la contrainte d’égalité. Par exemple la pénalité P4 qui correspond à un

régu-lation par la norme 2, fournit la solution de plus petite norme 2, et donc coïncide avec la pseudo-inversion de Moore-Penrose.

5

Résultats expérimentaux

Le code Matlab permettant de reproduire les deux expéri-ences suivantes est disponible à l’adresse [1].

5.1

Performance en fonction

de la durée du signal

On veut d’abord étudier l’apport des pénalités en fonc-tion de l’inversibilité du problème. Le système comporte

200 400 600 800 1000 1200 −40 −20 0 20 40 60 sous−déterminé surdéterminé ← T c

Durée T des sources (ms)

SNR A out (dB) P 1 P 2 P 3 P 4 P 5 naïf

Fig. 2: Performance moyenne d’estimation de A sur dix enregistrements simulés de trois sources, en fonction de la durée du signal.

M (T + K −1) équations pour MNK variables, il est sous-déterminé si et seulement si T < (N −1)K +1. Il s’agit de faire varier la durée T des sources pour mettre en évidence le rôle de la régularisation quand la solution du système n’est pas unique.

On se place dans le cas N = 3 sources et M = 2 cap-teurs, avec un filtre de K = 2753 échantillons correspon-dant à tR= 250 ms, synthétisé comme en Section 2. On

obtient la valeur critique Tc= 500 ms au delà de laquelle

le système est surdéterminé. On fait varier la taille des sources de T = 45 ms à T = 1300 ms. On dispose de 30 enregistrements de voix de 12 s échantillonnés à 11025 Hz, ce qui permet de moyenner les résultats sur 10 expériences menées avec 3 sources différentes.

Pour mesurer l’erreur entre les filtres estimés Aλ et les

vrais filtres A, on introduit le rapport en décibels SNRoutA (Aλ) = 10 log10

kAk2 2

kAλ− Ak22

. (18) La Figure 2 représente cet indicateur en fonction de la durée des sources, pour chacune des 5 pénalités intro-duites. On remarque que la solution de (1) n’est visible-ment pas unique même en régime surdéterminé, ce qui indique que le système est mal conditionné. En pointillé, on a représenté les résultats obtenus avec une descente de gradient pour la minimisation de L sans pénalité. Cette approche naïve fournit les plus mauvais résultats, elle con-verge vers le minimum local le plus proche de l’initialisation. La minimisation associée P4, qui équivaut à une simple

pseudo-inversion du système linéaire, est également en-dessous des autres pénalités.

L’apport des pénalités P1, P2, P3 et P5 est nettement

visible jusqu’à T = 1300 ms, donc bien au-delà du seuil de sous-détermination Tc. Les pénalités en norme ℓ1,

asso-ciées aux distributions P1et P3obtiennent les meilleurs

(5)

200 400 600 800 1000 1200 −10 0 10 20 30 40 50

Durée T des sources (ms)

SNR A out (dB) surdéterminé sous−déterminé ← Tc P1 P4

Fig.3: Estimation du filtre pour six niveaux de bruitage des observations en fonction de la longueur des sources. des filtres proposée pour P1améliore les résultats par

rap-port à la pénalité ℓ1 classique associée à P3.

5.2

Robustesse au bruit

On reprend les mêmes expériences en ajoutant un bruit additif au mélange convolutif

X= A ⋆ S + W. (19) Pour chaque pénalité et pour chaque durée T , six ex-périences ont été menées pour un rapport signal-à-bruit d’entrée de 30, 40, 50, 60, 70 et 80 dB. On voit Figure 3 que cette perturbation dégrade la performance mais la pénal-ité de norme ℓ1mise à l’échelle correspondant à P1permet

d’obtenir une meilleure estimation que le pseudo-inverse correspondant au modèle P4. Pour T assez grand les deux

pénalités donnent le même résultat.

Comme dans la section précédente, les résultats sont moyennés sur un jeu de dix triplets de sources sonores. Les courbes correspondant aux distributions P1et P4sont

confondues pour le niveau 30 dB. Pour un rapport signal-à-bruit d’entrée supérieur à 40 dB, qui correspond à des conditions d’enregistrement réalisables, on obtient avec P1

un SNR sur les filtres supérieur à 15 dB.

6

Perspectives, conclusion

Pour le problème considéré, l’a priori introduit sous la forme d’une pénalité convexe bien choisie permet d’obtenir une meilleure estimation des filtres qu’une simple déconvo-lution par pseudo-inverse, notamment dans des cas où les sources sont courtes. C’est utile si on veut faire l’hypothèse que le filtre est invariant seulement sur des petits segments de l’enregistrement.

Par ailleurs, on sait que la séparation de sources fonc-tionne mieux si elle est informée par la matrice de filtres [7] : ces travaux ouvrent donc la voie à l’estimation

si-multanée des sources et des filtres en vue d’une nouvelle méthode de séparation.

7

Remerciements

Les auteurs remercient les projets EU FET-Open FP7-ICT-225913-SMALL et ANR-08-EMER-006 ECHANGE.

References

[1] www.irisa.fr/metiss/members/abenicho/filtercs/. [2] A. Aissa-El-Bey, K.A. Abed-Meraim, and Y.

Gre-nier. Blind separation of underdetermined convolu-tive mixtures using their time-frequency representa-tion. IEEE Transactions on Audio Speech and Lan-guage Processing, 15(5):1540, 2007.

[3] J.B. Allen and A. Berkeley. Image method for ef-ficiently simulating small-room acoustics. Journal of the Acoustical Society of America, 65(4):943–950, Apr. 1979.

[4] A. Beck and M. Teboulle. A fast iterative shrinkage-thresholding algorithm for linear inverse problems. SIAM Journal on Imaging Sciences, 2(1):183–202, 2009.

[5] P.L. Combettes and V.R. Wajs. Signal recovery by proximal forward-backward splitting. Multiscale Modeling and Simulation, 4(4):1168–1200, 2006. [6] A. Farina. Simultaneous measurement of impulse

re-sponse and distortion with a swept-sine technique. In Proc. AES 108th Convention, pages 18–22, 2000. [7] M. Kowalski, E. Vincent, and R. Gribonval.

Be-yond the narrowband approximation: Wideband con-vex methods for under-determined reverberant au-dio source separation. IEEE Transactions on Auau-dio, Speech, and Language Processing, 18(7):1818–1829, 2010.

[8] H. Kuttruff. Room Acoustics. Spon Press, New York, 4rd edition edition, 2000.

[9] Y. Lin, J. Chen, Y. Kim, and D.D. Lee. Blind chan-nel identification for speech dereverberation using ℓ1

-norm sparse learning. In Advances in Neural Infor-mation Processing Systems 20, pages 921–928. MIT Press, 2007.

[10] S. Makino, T.W. Lee, and H. Sawada. Blind speech separation. Springer, 2007.

[11] J.J. Moreau. Fonctions convexes duales et points proximaux dans un espace hilbertien. CR Acad. Sci. Paris Sér. A Math, 255:2897–2899, 1962.

[12] P. Sudhakar, S. Arberet, and R. Gribonval. Double sparsity: Towards blind estimation of multiple chan-nels. in Proc. Int. Conf. on Latent Variable Analysis and Signal Separation, pages 571–578, 2010.

Figure

Fig. 1: Comparaison des modèles statistiques de filtres (5) à (8) sur un ensemble de filtres générés pour une salle de temps de réverbération égal à 250 ms.
Fig. 2: Performance moyenne d’estimation de A sur dix enregistrements simulés de trois sources, en fonction de la durée du signal.
Fig. 3: Estimation du filtre pour six niveaux de bruitage des observations en fonction de la longueur des sources.

Références

Documents relatifs

Il faut donc faire un compro- mis, qui dépend de l’application visée, entre le réalisme de la simulation (que l’on peut améliorer en choisissant un modèle plus fin, des

De la même façon que pour les ensembles convexes, on peut trouver un plus petit espace affin contenant un ensemble donné..

Dans le cadre de mon projet d’int´egration au CNRS d´epos´e en 2000, j’ai ainsi tent´e de combi- ner les m´ethodes polynomiales et l’optimisation convexe LMI dans le but

La petite partie du tube secomlaire adjacente au tubé principal constitue une self-induc- tance qui n’est pas dans le schéma électrique et qui modifie d’ailleurs assez

Ce cours est une continuité du cours fait en semestre S5 de la filière Sci- ences Mathématiques et Applications. L’assimilation du cours du semestre S5 concernant les espaces affines

Ce recueil fait partie d’une prochaine série de recueils d’exercices des- tinés aux étudiants de la Licence Mathématiques et Applications en optimi- sation et analyse

Ce recueil est un complément du recueil 1 d’exercices d’analyse convexe et optimisation destinés aux étudiants de la filière Sciences Mathématiques et Applications, semestre 6 de

Puisque (P ) est un problème convexe et la fonction objectif f est strictement convexe, alors x ¯ est un minimum global unique.. Par suite, l’ensemble des solutions est réduit à