HAL Id: hal-00550906
https://hal.archives-ouvertes.fr/hal-00550906
Submitted on 31 Dec 2010
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Validation théorique de la correction des réflexions sur la base d’une représentation en harmoniques sphériques.
Romain Deprez, Rozenn Nicol, Emmanuel Friot
To cite this version:
Romain Deprez, Rozenn Nicol, Emmanuel Friot. Validation théorique de la correction des réflexions
sur la base d’une représentation en harmoniques sphériques.. 10ème Congrès Français d’Acoustique,
Apr 2010, Lyon, France. �hal-00550906�
10`eme Congr`es Fran¸cais d’Acoustique
Lyon, 12-16 Avril 2010
Validation th´eorique de la correction des r´eflexions sur la base d’une repr´esentation en harmoniques sph´eriques
Romain Deprez
1,2, Rozenn Nicol
1, Emmanuel Friot
21Orange Labs, 2 av Pierre Marzin, F-22307 Lannion Cedex,{romain.deprez, rozenn.nicol}@orange-ftgroup.com
2Laboratoire de M´ecanique et d’Acoustique, 31 chemin Joseph Aiguier , F-13402 Marseille Cedex 20, friot@lma.cnrs-mrs.fr
A l’heure de l’introduction dans le grand public de syst` emes de spatialisation sonore offrant une exp´ erience d’´ ecoute plus riche que les syst` emes st´ er´ eophoniques classiques, il apparaˆıt que les perturbations dues au lieu d’´ ecoute augmentent de fa¸ con non-lin´ eaire avec le nombre de haut-parleurs. En effet, le jeu des in- terf´ erences et des r´ eflexions sur les murs engendre potentiellement des incoh´ erences entre la localisation cible et la localisation effectivement per¸ cue des sources virtuelles. La robustesse de la qualit´ e d’´ ecoute et de spatialisation au positionnement des haut-parleurs devient ´ egalement critique. Les solutions classiques actuelles de correction de syst` emes acoustiques consistent g´ en´ eralement en une inversion canal par canal des r´ eponses impulsionnelles, r´ ealis´ ee sous la forme d’un filtrage. Des ´ etudes ont aussi ´ et´ e men´ ees afin de cr´ eer un environnement actif, mais cela n´ ecessite le fonctionnement permanent de nombreux microphones.
L’´ etude pr´ esent´ ee vise, aux travers de simulations, ` a mettre en œuvre et valider une m´ ethode bas´ ee sur une strat´ egie d’inversion appliqu´ ee dans le domaine spatio-fr´ equentiel. L’analyse spatiale repose sur le format Higher Order Ambisonics (HOA) qui offre la possibilit´ e de cr´ eer des filtres spatiaux permettant une correction diff´ erenci´ ee selon l’angle. L’´ etude est r´ ealis´ ee ` a partir de r´ eponses impulsionnelles calcu- l´ ees par un mod` ele d’acoustique virtuelle. Diff´ erents dispositifs d’´ ecoute sont examin´ es. L’´ evaluation des performances du traitement de correction est men´ ee ` a travers un jeu de crit` eres d´ eriv´ es de mesures de la qualit´ e acoustique d’une salle.
1 Introduction
Aujourd’hui les contenus audio spatialis´ es sont de plus en plus largement propos´ es au format multicanal 5.1. Dans le mˆ eme temps, de nouveaux formats (tels que notamment les formats 6.1, 7.1, 10.2 ou 22.2) met- tant en avant une spatialisation enrichie sont en voie d’´ emergence. Ces diff´ erentes solutions ont en commun de reposer sur un nombre croissant de haut-parleurs.
Les progr` es technologiques (miniaturisation des compo- sants, nouvelles technologies de transducteurs, r´ eseau de haut-parleurs...) rendent possible la mise en œuvre d’´ equipements multi haut-parleurs de plus en plus com- plexes, y compris pour le grand public. Ce dernier, de son cˆ ot´ e, multiplie les occasions d’appr´ ecier les attraits de la spatialisation sonore, devenant ainsi demandeur d’une exp´ erience d’´ ecoute plus riche, ce qui l’am` ene ` a int´ egrer dans ses installations des ´ equipements audio multicanaux. D` es lors, ses attentes en termes de qua- lit´ e sont aussi plus fortes, compte tenu du coˆ ut (` a la fois
´ economique et en termes de contrainte) de l’´ equipement.
La cons´ equence de cette ´ evolution est qu’on se re- trouve confront´ e ` a la g´ en´ eralisation d’un probl` eme qui se manifestait hier de fa¸ con plus ”marginale” : l’optimi- sation de la qualit´ e de restitution sonore par un syst` eme multi haut-parleurs dans une salle dont les caract´ eris- tiques acoustiques ne sont pas contrˆ ol´ ees. La cause pre- mi` ere est l’augmentation du nombre de haut-parleurs qui viennent solliciter et alimenter l’effet de salle dont l’interaction avec la sc` ene sonore restitu´ ee n’est alors
plus n´ egligeable et d’autant plus difficile ` a contrˆ oler, en comparaison d’un syst` eme st´ er´ eophonique. Du point de vue de la salle, les sources physiques sont les haut- parleurs, c’est ` a dire que les r´ eflexions g´ en´ er´ ees sont coh´ erentes avec la position des haut-parleurs et n’ont en revanche aucune relation avec les r´ eflexions qu’au- raient cr´ e´ ees les sources virtuelles constituant la sc` ene sonore ` a reproduire (cf figure 1). L’effet de salle du lieu d’´ ecoute est ainsi incoh´ erent avec l’information spatiale des ondes directes associ´ ees aux sources virtuelles. Dans le cas d’un syst` eme st´ er´ eophonique, ce probl` eme peut ˆ etre n´ eglig´ e car les sources virtuelles sont situ´ ees sur le segment constitu´ e par les deux haut-parleurs [1]. Par contre, dans le cas d’un syst` eme multicanal, les sources virtuelles peuvent ˆ etre recr´ e´ ees dans n’importe quelle direction et ` a n’importe quel distance dans le plan des haut-parleurs [2]. La disjonction devient alors potentiel- lement notable. Pour corriger ce probl` eme, l’id´ eal serait d’annuler les r´ eflexions induites par les haut-parleurs dans la salle. En pratique nous nous contenterons de chercher ` a les r´ eduire sur une zone suffisamment ´ eten- due. Il s’agit de la premi` ere ´ etape du traitement associ´ e
`
a la configuration d’´ ecoute (dont la sp´ ecification inclut
les caract´ eristiques de la salle et la disposition des haut-
parleurs) qui constitue le sujet de la pr´ esente ´ etude. La
seconde ´ etape concerne la synth` ese d’un effet de salle
(correspondant ou non ` a la salle d’´ ecoute) coh´ erent avec
les sources virtuelles. Un autre aspect porte sur la cor-
rection de l’onde directe afin de prendre en compte et
de compenser d’´ eventuelles erreurs de positionnement
des haut-parleurs par rapport ` a une configuration id´ eale.
Ces deux derni` eres questions ne seront pas abord´ ees ici.
Le traitement de correction mis en œuvre se base sur une strat´ egie classique d’inversion [3, 4], dans laquelle on utilise l’ensemble des haut-parleurs pour corriger le rendu d’un haut-parleur donn´ e. La sp´ ecificit´ e de la so- lution pr´ esent´ ee r´ eside dans la repr´ esentation des ondes acoustiques au format Higher Order Ambisonics (HOA) dont les propri´ et´ es (d´ ecomposition de l’espace, hi´ erar- chie de la repr´ esentation) offrent plusieurs atouts pour le traitement. La premi` ere partie de l’article rappelle les fondements th´ eoriques et les propri´ et´ es de ce format. En- suite la m´ ethode de correction est d´ ecrite. La quatri` eme partie propose, pour ´ evaluer l’efficacit´ e de la correction, des crit` eres inspir´ es des crit` eres de la qualit´ e acoustique d’une salle. Dans cette ´ etude, la correction est mise en œuvre dans le cadre de simulations num´ eriques de dif- f´ erents configurations d’´ ecoute. Les r´ eponses impulsion- nelles des diff´ erents haut-parleurs sont ainsi calcul´ ees ` a l’aide d’un outil d’acoustique virtuelle se basant sur une m´ ethode des sources images et qui est pr´ esent´ e en cin- qui` eme partie. Enfin, l’analyse des r´ esultats des simula- tions sur la base des crit` eres identifi´ es pr´ ec´ edemmment est donn´ ee avant de conclure.
Figure 1 – Illustration de l’incoh´ erence des r´ eflexions.
En vert, une source virtuelle cr´ e´ ee par le syst` eme orange, avec ses r´ eflexions th´ eoriques associ´ ees (tirets bleus). Les r´ eflexions issues du syst` eme sont en rouge.
On note bien les diff´ erences d’angle et d’intensit´ e (distance aux murs).
2 Harmoniques sph´ eriques et for- mat HOA
Le format HOA est un mod` ele de repr´ esentation d’une onde acoustique qui s’identifie au d´ eveloppement de l’onde sur la base des fonctions propres de l’´ equa- tion des ondes acoustiques en coordonn´ ees sph´ eriques (r :rayon, ϕ : angle d’azimuth, θ : angle d’´ el´ evation) [5].
Ces fonctions propres combinent des fonctions de Bessel sph´ eriques j
m(kr)
1et n
m(kr)
2et/ou des fonctions de
1. Fonctions de Bessel sph´eriques de premi`ere esp`ece.
2. Fonctions de Bessel sph´eriques de seconde esp`ece ou fonction de Neumann.
Hankel sph´ eriques h
+m(kr)
3et h
−m(kr)
4qui d´ ecrivent les d´ ependances radiales, et des harmoniques sph´ eriques Y
mnσ(ϕ, θ) qui d´ ecrivent les d´ ependances angulaires de l’onde acoustique [6]. En g´ en´ eral, la sc` ene sonore ` a re- pr´ esenter ne comporte que des ondes convergentes et le d´ eveloppement de la pression acoustique p(~ r, ω), o` u ω est la pulsation, se ram` ene ` a [5] :
p(~ r, ω) =
+∞
X
m=0
i
mj
m(kr)
m
X
n=0
X
σ=±1
B
mnσ(ω)Y
mnσ(ϕ, θ) (1) Les coefficients B
mnσconstituent la repr´ esentation HOA de l’onde acoustique. Le format Ambisonic propos´ e par Gerzon [7] est un cas particulier de cette repr´ esentation, dans lequel le d´ eveloppement de l’´ equation 1 est limit´ e ` a l’ordre 1 et ne comporte donc que les 4 premi` eres compo- santes. Le format HOA en est ainsi la g´ en´ eralisation aux ordres sup´ erieurs. En pratique la repr´ esentation HOA doit ˆ etre tronqu´ ee ` a un ordre M donn´ e, ce qui conduit
`
a repr´ esenter la sc` ene audio 3D par (M + 1)
2compo- santes B
σmn(m=0, 1, ..., M ; n=0, 1, ..., m ; σ = ±1).
Si on se restreint au plan horizontal (repr´ esentation dite
”2D”, par contraste avec la repr´ esentation ”3D” pr´ ec´ e- dente) et qu’on ne conserve que les harmoniques sph´ e- riques porteurs de l’information spatiale horizontale [5], la repr´ esentation ne comporte que 2M + 1 composantes.
Le format HOA est parfaitement universel au sens o` u il permet de d´ ecrire n’importe quelle onde acous- tique (onde plane ou sph´ erique notamment) [2]. Mais surtout, cette repr´ esentation se caract´ erise par deux pro- pri´ et´ es fondamentales. Il s’agit d’abord d’un format in- d´ ependant des syst` emes de captation et de restitution, d’o` u une flexibilit´ e dans son utilisation. Secundo il s’agit d’une description hi´ erarchique, c’est ` a dire que les com- posantes des premiers ordres (m) suffisent ` a repr´ esenter l’onde acoustique, les composantes des ordres sup´ erieurs ne venant que pr´ eciser l’information spatiale. Cette pro- pri´ et´ e est tr` es utile, car elle permet de faire ´ evoluer la repr´ esentation, a posteriori de la captation, afin de s’adapter aux contraintes notamment de capacit´ e en d´ e- bit du r´ eseau de transmission ou du syst` eme d’´ ecoute disponible. Un autre atout est sa lisibilit´ e, dans la me- sure o` u cette repr´ esentation peut se lire directement en termes de structure spatiale de la sc` ene sonore, offrant une analyse s´ epar´ ee des informations selon 2 axes : la distance (r) et la direction (ϕ, θ). Enfin le d´ eveloppe- ment sur la base des fonctions propres n’est autre qu’une transformation du domaine des coordonn´ ees d’espace (r, ϕ, θ) dans un domaine dual correspondant aux fr´ e- quences spatiales. Les coefficients B
mnσd´ efinissent ainsi le spectre spatial associ´ e ` a l’onde acoustique, ce qui ap- porte une lisibilit´ e suppl´ ementaire ` a la repr´ esentation HOA en termes de fr´ equences (ou de variations) spa- tiales. Les coefficients B
σmnprennent ainsi le sens d’une repr´ esentation duale de la sc` ene sonore, les deux ´ etant li´ es par une transformation et sa r´ eciproque. En outre, il a ´ et´ e montr´ e que ce format ´ etait particuli` erement perti- nent pour l’analyse des premi` eres reflexions d’une salle [8].
3. Fonctions de Hankel sph´eriques de premi`ere esp`ece : onde progressive convergente.
4. Fonctions de Hankel sph´eriques de seconde esp`ece : onde progressive divergente.
3 Principe du traitement de cor- rection
Tous les signaux sont consid´ er´ es dans le domaine spatio-fr´ equentiel, c’est ` a dire que la pression acoustique p(~ r, t) ´ evalu´ ee au point ~ r et ` a l’instant t est d’abord ex- prim´ ee, via une transform´ ee de Fourier, dans le domaine des pulsations ω. Le signal r´ esultant p(~ r, ω) est ensuite d´ ecompos´ e sur la base des harmoniques sph´ eriques en D = (M + 1)
2ou D = 2M + 1 composantes spatiales B
mnσ(ω), respectivement pour une repr´ esentation 3D ou 2D, o` u M d´ efinit l’ordre de troncature de la d´ ecomposi- tion (cf. Section 2).
La premi` ere ´ etape consiste ` a caract´ eriser la configu- ration d’´ ecoute afin de d´ ecrire ` a la fois les propri´ et´ es acoustiques de la salle et le dispositif des haut-parleurs.
Pour ce faire, les r´ eponses impulsionnelles de chaque haut-parleur sont obtenues (par simulation ou mesure) pour une position de r´ ef´ erence qu’on se donne dans la salle. Chaque r´ eponse impulsionnelle est compos´ ee d’une onde directe d´ ecrivant les propri´ et´ es intrins` eques des haut-parleurs, suivie des r´ eflexions g´ en´ er´ ees par la salle et donc repr´ esentatives de cette derni` ere. Pour cette pre- mi` ere ´ etude, on a choisi de se focaliser sur la correction de l’effet de salle. On ´ elimine donc l’onde directe par fe- nˆ etrage temporel pour ne retenir que les L ´ echantillons suivants. Une Transform´ ee de Fourier Discr` ete (DFT) est alors appliqu´ ee pour obtenir le spectre associ´ e sur L bins fr´ equentiels ω
k, k ∈ [1, . . . , L]. Si le syst` eme de res- titution se compose de N haut-parleurs, on r´ eunit ainsi un ensemble de N fonctions de tranfert R
i(ω
k) (l’indice i rep´ erant le i` eme haut-parleur) qui constituent le des- criptif acoustique de la configuration d’´ ecoute. Afin de s´ eparer et d’analyser les diff´ erentes composantes spa- tiales, chaque fonction de transfert est repr´ esent´ ee dans le format HOA. Pour la suite de l’´ etude on se limite ` a une repr´ esentation 2D, ce qui implique donc D = 2M +1 composantes spatiales R
j,i(ω
k) o` u l’indice j parcourt les composantes HOA. Il en r´ esulte pour chaque pulsation, une matrice R(ω
k) de dimension D × N et dont les N colonnes sont form´ ees par les R
i(ω
k), i ∈ [1, . . . , N ], d´ e- velopp´ ees sur D composantes HOA.
La matrice R(ω
k) doit ˆ etre compar´ ee ` a une matrice
”cible” T(ω
k) d´ efinissant l’effet de salle qu’on souhaite obtenir, ` a la place de celui d´ ecrit par R(ω
k). La matrice T(ω
k) est obtenue par une processus analogue ` a celui qu’on vient d’appliquer pour exprimer R(ω
k). Comme cette derni` ere, elle peut ˆ etre issue de mesures dans une salle r´ eelle ou de simulations. Elle peut ˆ etre aussi im- pos´ ee arbitrairement. Dans le cadre de ces simulations par exemple, les r´ eponses cibles sont constitu´ ees des r´ e- ponses directes des haut-parleurs, c’est-` a-dire sans au- cune r´ ev´ erb´ eration.
Le processus de correction consiste ` a appliquer en amont des haut-parleurs une matrice de filtres. Le signal alimentant un haut-parleur n’est alors plus aliment´ e in- d´ ependamment des autres haut-parleurs, mais prend en compte leurs signaux pour compenser les r´ eflexions as- soci´ ees. Ainsi les r´ eflexions g´ en´ er´ ees par un haut-parleur sont corrig´ ees par l’ensemble des autres haut-parleurs.
La matrice de correction c(ω
k) r´ ealise ` a la fois le m´ elange et la pond´ eration des signaux des haut-parleurs. On re- connaˆıt une sorte de g´ en´ eralisation du proc´ ed´ e d’annu-
lation des trajets crois´ es utilis´ es pour la reproduction de signaux binauraux [9]. Pour en illustrer le principe, consid´ erons la correction de la contribution d’un seul haut-parleur. La fonction de transfert cible associ´ ee ` a ce haut-parleur est repr´ esent´ ee par la colonne T
i(ω
k).
Les N haut-parleurs du dispositif sont sollicit´ es pour at- teindre cette cible. Leurs fonctions de transfert effectives sont contenues dans la matrice R(ω
k) et sont alors su- perpos´ ees apr` es pond´ eration par le vecteur c
i(ω
k), de sorte que :
R(ω
k)c
i(ω
k) = T
i(ω
k) (2) Le vecteur c
i(ω
k) se compose des N pond´ erations asso- ci´ ees aux diff´ erents haut-parleurs pour corriger le i` eme haut-parleur. Pour d´ ecrire les corrections de l’ensemble du dispositif, on obtient au final une matrice c(ω
k) de dimension N × N . Chaque vecteur de correction c
i(ω
k) est calcul´ e en utilisant la pseudo-inverse de R(ω
k), ce qui donne, en soulageant la notation des ω
k:
c
i= (R
∗R)
−1· R
∗T
i(3) Dans cette expression, l’op´ erateur
∗d´ efinit une trans- pos´ ee hermitienne (matrices complexes). On note que le proc´ ed´ e permet potentiellement d’adapter une correction diff´ erente selon la composante HOA. Cette possibilit´ e sera examin´ ee ult´ erieurement. Les r´ eponses corrig´ ees sont calcul´ ees en recombinant les composantes HOA apr` es convolution des r´ eponses originelles par les filtres de correction.
Cette m´ ethode convient bien pour des simulations, dont les donn´ ees ne sont pas bruit´ ees. Dans le cas de me- sures dans une salle r´ eelle, il serait plus judicieux d’uti- liser une op´ eration de r´ egularisation, de type Tikhonov, pour effectuer l’inversion. De plus, un autre obstacle au passage ` a des conditions r´ eelles est qu’il sera alors n´ e- cessaire d’effectuer un pr´ e-traitement spatial sur les r´ e- ponses impulsionnelles, afin de r´ eduire voire supprimer les r´ eflexions ne venant pas du plan d´ efini par le cercle de haut-parleurs. Ces r´ eflexions ne peuvent en effet phy- siquement pas ˆ etre contrˆ ol´ ees. Pour ce faire, l’emploi de gabarit de filtre spatiaux de forme toro¨ıdale est envi- sag´ e, leur construction et leur application ne posant pas de probl` emes dans le domaine HOA.
4 Crit` eres d’´ evaluation
La description de la qualit´ e acoustique d’une salle
fournit une palette de crit` eres objectifs capables de
quantifier les propri´ et´ es d’un effet de salle [10, 11]. Ce-
pendant la plupart de ces crit` eres n’est pas tranposable
directement ` a notre probl` eme. Le traitement vise ` a r´ e-
duire l’effet de salle en annulant les r´ eflexions engen-
dr´ ees par les haut-parleurs. L’objectif est de minimiser
l’incoh´ erence entre les r´ eflexions et les sources sonores
virtuelles, afin de pr´ eserver la qualit´ e de la spatialisa-
tion. En pratique, le traitement ne permet pas d’annuler
les r´ eflexions, mais va plutˆ ot ”sculpter” la r´ everb´ eration
pour la rendre plus discr` ete. Il travaille notamment ` a r´ e-
duire l’´ emergence des r´ eflexions. Or cette propri´ et´ e n’est
pas refl´ et´ ee par les crit` eres classiques. Quant ` a la qualit´ e
de spatialisation des sources sonores, cet aspect est as-
sez peu pris en compte. Un premier jeu de crit` eres pour pallier ces lacunes est propos´ e ici.
4.1 Emergence des r´ ´ eflexions
La pr´ esence de r´ eflexions importantes autour du son direct apparaˆıt comme une premi` ere valeur permettant de juger l’apport de la correction. Comme nous ra- vaillons ici sur des r´ eponses impulsionnelles simul´ ees, chaque r´ eflexion se traduit par une impulsion id´ eale ca- ract´ eris´ ee par ses positions dans le temps et dans l’es- pace, ainsi que par son amplitude.
Des mesures d’´ emergence d’´ echos comme le coeffi- cient d’´ echo ou la tangente ajust´ ee, que l’on peut trouver dans [10], ne semblent pas adapt´ ees. Elles s’int´ eressent en effet ` a ´ evaluer si des ´ echos sont bel et bien per¸ cus par l’auditeur. Or, dans le cas pr´ esent,la question n’est pas de savoir si ces r´ eflexions sont individuellement per-
¸cus. On suppose simplement qu’elles jouent un rˆ ole dans l’impression spatiale, et que c’est leur incoh´ erence avec le son direct qui est ressentie.
On pr´ ef` ere comptabiliser, en s’inspirant des recom- mandations de l’ITU [12] pour la composante omnidirec- tionnelle du signal HOA (composante W dans le forma- lisme Ambisonics) et sur une fenˆ etre de 50ms (5ms avant le son direct, 45ms apr` es), le nombre de pics nbPeak dont l’´ energie est inf´ erieure d’au plus 12dB ` a l ’´ ener- gie de l’onde directe. Ces valeurs sont plus exigeantes que celles propos´ ees par l’ITU (15ms et 10dB). L’´ ener- gie moyenne salPeak de ces pics a ´ egalement ´ et´ e calcul´ ee.
Une baisse de ces 2 valeurs sugg` ere que les perturbations li´ ees aux r´ eflexions sont potentiellement r´ eduites.
4.2 Corr´ elation crois´ ee inter-aurale
Les crit` eres pr´ ec´ edents ne permettant pas de rendre compte de la localisalisation des sources, une troisi` eme crit` ere est identifi´ e : il s’agit de l’Inter-Aural Cross Correlation
¯ ou IACC, dont l’int´ erˆ et est rappel´ e dans [10]. De plus, une ´ etude r´ ecente met en
´ evidence sa pertinence en relation avec le format HOA [13]. Si p
R(t) et p
L(t) repr´ esentent respectivement les pressions induites au niveau des oreilles droite et gauche, la fonction normalis´ ee de l’IACC est d´ efinie entre les bornes temporelles t1 et t2 par :
ρ
t1,t2(τ) =
Z
t2t1
p
R(t)p
L(t + τ)dt s
Z
t2t1
[p
R(t)]
2dt · Z
t2t1
[p
L(t)]
2dt (4)
Le coefficient d’IACC s’obtient ensuite en trouvant la valeur maximum selon τ ,
IACC
t1,t2= max
τ