Validation théorique de la correction des réflexions sur la base d'une représentation en harmoniques sphériques.

(1)

HAL Id: hal-00550906

https://hal.archives-ouvertes.fr/hal-00550906

Submitted on 31 Dec 2010

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Validation théorique de la correction des réflexions sur la base d’une représentation en harmoniques sphériques.

Romain Deprez, Rozenn Nicol, Emmanuel Friot

To cite this version:

Romain Deprez, Rozenn Nicol, Emmanuel Friot. Validation théorique de la correction des réflexions

sur la base d’une représentation en harmoniques sphériques.. 10ème Congrès Français d’Acoustique,

Apr 2010, Lyon, France. �hal-00550906�

(2)

10`eme Congr`es Fran¸cais d’Acoustique

Lyon, 12-16 Avril 2010

Validation théorique de la correction des réflexions sur la base d’une représentation en harmoniques sphériques

Romain Deprez

^1,2

, Rozenn Nicol

¹

, Emmanuel Friot

²

1Orange Labs, 2 av Pierre Marzin, F-22307 Lannion Cedex,{romain.deprez, rozenn.nicol}@orange-ftgroup.com

2Laboratoire de M´ecanique et d’Acoustique, 31 chemin Joseph Aiguier , F-13402 Marseille Cedex 20, friot@lma.cnrs-mrs.fr

A l’heure de l’introduction dans le grand public de syst` emes de spatialisation sonore offrant une exp´ erience d’´ ecoute plus riche que les syst` emes st´ er´ eophoniques classiques, il apparaˆıt que les perturbations dues au lieu d’´ ecoute augmentent de fa¸ con non-lin´ eaire avec le nombre de haut-parleurs. En effet, le jeu des in- terf´ erences et des r´ eflexions sur les murs engendre potentiellement des incoh´ erences entre la localisation cible et la localisation effectivement per¸ cue des sources virtuelles. La robustesse de la qualit´ e d’´ ecoute et de spatialisation au positionnement des haut-parleurs devient ´ egalement critique. Les solutions classiques actuelles de correction de syst` emes acoustiques consistent g´ en´ eralement en une inversion canal par canal des r´ eponses impulsionnelles, r´ ealis´ ee sous la forme d’un filtrage. Des ´ etudes ont aussi ´ et´ e men´ ees afin de cr´ eer un environnement actif, mais cela n´ ecessite le fonctionnement permanent de nombreux microphones.

L’´ etude pr´ esent´ ee vise, aux travers de simulations, ` a mettre en œuvre et valider une m´ ethode bas´ ee sur une strat´ egie d’inversion appliqu´ ee dans le domaine spatio-fr´ equentiel. L’analyse spatiale repose sur le format Higher Order Ambisonics (HOA) qui offre la possibilit´ e de cr´ eer des filtres spatiaux permettant une correction diff´ erenci´ ee selon l’angle. L’´ etude est r´ ealis´ ee ` a partir de r´ eponses impulsionnelles calcu- l´ ees par un mod` ele d’acoustique virtuelle. Diff´ erents dispositifs d’´ ecoute sont examin´ es. L’´ evaluation des performances du traitement de correction est men´ ee ` a travers un jeu de crit` eres d´ eriv´ es de mesures de la qualit´ e acoustique d’une salle.

1 Introduction

Aujourd’hui les contenus audio spatialis´ es sont de plus en plus largement propos´ es au format multicanal 5.1. Dans le mˆ eme temps, de nouveaux formats (tels que notamment les formats 6.1, 7.1, 10.2 ou 22.2) met- tant en avant une spatialisation enrichie sont en voie d’´ emergence. Ces diff´ erentes solutions ont en commun de reposer sur un nombre croissant de haut-parleurs.

Les progr` es technologiques (miniaturisation des compo- sants, nouvelles technologies de transducteurs, r´ eseau de haut-parleurs...) rendent possible la mise en œuvre d’´ equipements multi haut-parleurs de plus en plus com- plexes, y compris pour le grand public. Ce dernier, de son cˆ ot´ e, multiplie les occasions d’appr´ ecier les attraits de la spatialisation sonore, devenant ainsi demandeur d’une exp´ erience d’´ ecoute plus riche, ce qui l’am` ene ` a int´ egrer dans ses installations des ´ equipements audio multicanaux. D` es lors, ses attentes en termes de qua- lit´ e sont aussi plus fortes, compte tenu du coˆ ut (` a la fois

´ economique et en termes de contrainte) de l’´ equipement.

La cons´ equence de cette ´ evolution est qu’on se re- trouve confront´ e ` a la g´ en´ eralisation d’un probl` eme qui se manifestait hier de fa¸ con plus ”marginale” : l’optimi- sation de la qualit´ e de restitution sonore par un syst` eme multi haut-parleurs dans une salle dont les caract´ eris- tiques acoustiques ne sont pas contrˆ ol´ ees. La cause pre- mi` ere est l’augmentation du nombre de haut-parleurs qui viennent solliciter et alimenter l’effet de salle dont l’interaction avec la sc` ene sonore restitu´ ee n’est alors

plus n´ egligeable et d’autant plus difficile ` a contrˆ oler, en comparaison d’un syst` eme st´ er´ eophonique. Du point de vue de la salle, les sources physiques sont les haut- parleurs, c’est ` a dire que les r´ eflexions g´ en´ er´ ees sont coh´ erentes avec la position des haut-parleurs et n’ont en revanche aucune relation avec les r´ eflexions qu’au- raient cr´ e´ ees les sources virtuelles constituant la sc` ene sonore ` a reproduire (cf figure 1). L’effet de salle du lieu d’´ ecoute est ainsi incoh´ erent avec l’information spatiale des ondes directes associ´ ees aux sources virtuelles. Dans le cas d’un syst` eme st´ er´ eophonique, ce probl` eme peut ˆ etre n´ eglig´ e car les sources virtuelles sont situ´ ees sur le segment constitu´ e par les deux haut-parleurs [1]. Par contre, dans le cas d’un syst` eme multicanal, les sources virtuelles peuvent ˆ etre recr´ e´ ees dans n’importe quelle direction et ` a n’importe quel distance dans le plan des haut-parleurs [2]. La disjonction devient alors potentiel- lement notable. Pour corriger ce probl` eme, l’id´ eal serait d’annuler les r´ eflexions induites par les haut-parleurs dans la salle. En pratique nous nous contenterons de chercher ` a les r´ eduire sur une zone suffisamment ´ eten- due. Il s’agit de la premi` ere ´ etape du traitement associ´ e

`

a la configuration d’´ ecoute (dont la sp´ ecification inclut

les caract´ eristiques de la salle et la disposition des haut-

parleurs) qui constitue le sujet de la pr´ esente ´ etude. La

seconde ´ etape concerne la synth` ese d’un effet de salle

(correspondant ou non ` a la salle d’´ ecoute) coh´ erent avec

les sources virtuelles. Un autre aspect porte sur la cor-

rection de l’onde directe afin de prendre en compte et

de compenser d’´ eventuelles erreurs de positionnement

(3)

des haut-parleurs par rapport ` a une configuration id´ eale.

Ces deux derni` eres questions ne seront pas abord´ ees ici.

Le traitement de correction mis en œuvre se base sur une strat´ egie classique d’inversion [3, 4], dans laquelle on utilise l’ensemble des haut-parleurs pour corriger le rendu d’un haut-parleur donn´ e. La sp´ ecificit´ e de la so- lution pr´ esent´ ee r´ eside dans la repr´ esentation des ondes acoustiques au format Higher Order Ambisonics (HOA) dont les propri´ et´ es (d´ ecomposition de l’espace, hi´ erar- chie de la repr´ esentation) offrent plusieurs atouts pour le traitement. La premi` ere partie de l’article rappelle les fondements th´ eoriques et les propri´ et´ es de ce format. En- suite la m´ ethode de correction est d´ ecrite. La quatri` eme partie propose, pour ´ evaluer l’efficacit´ e de la correction, des crit` eres inspir´ es des crit` eres de la qualit´ e acoustique d’une salle. Dans cette ´ etude, la correction est mise en œuvre dans le cadre de simulations num´ eriques de dif- f´ erents configurations d’´ ecoute. Les r´ eponses impulsion- nelles des diff´ erents haut-parleurs sont ainsi calcul´ ees ` a l’aide d’un outil d’acoustique virtuelle se basant sur une m´ ethode des sources images et qui est pr´ esent´ e en cin- qui` eme partie. Enfin, l’analyse des r´ esultats des simula- tions sur la base des crit` eres identifi´ es pr´ ec´ edemmment est donn´ ee avant de conclure.

Figure 1 – Illustration de l’incoh´ erence des r´ eflexions.

En vert, une source virtuelle cr´ e´ ee par le syst` eme orange, avec ses r´ eflexions th´ eoriques associ´ ees (tirets bleus). Les r´ eflexions issues du syst` eme sont en rouge.

On note bien les diff´ erences d’angle et d’intensit´ e (distance aux murs).

2 Harmoniques sph´ eriques et for- mat HOA

Le format HOA est un mod` ele de repr´ esentation d’une onde acoustique qui s’identifie au d´ eveloppement de l’onde sur la base des fonctions propres de l’´ equa- tion des ondes acoustiques en coordonn´ ees sph´ eriques (r :rayon, ϕ : angle d’azimuth, θ : angle d’´ el´ evation) [5].

Ces fonctions propres combinent des fonctions de Bessel sph´ eriques j

_m

(kr)

¹

et n

_m

(kr)

²

et/ou des fonctions de

1. Fonctions de Bessel sphériques de première espèce.

2. Fonctions de Bessel sph´eriques de seconde esp`ece ou fonction de Neumann.

Hankel sph´ eriques h

⁺_m

(kr)

³

et h

⁻_m

(kr)

⁴

qui d´ ecrivent les d´ ependances radiales, et des harmoniques sph´ eriques Y

_mn^σ

(ϕ, θ) qui d´ ecrivent les d´ ependances angulaires de l’onde acoustique [6]. En g´ en´ eral, la sc` ene sonore ` a re- pr´ esenter ne comporte que des ondes convergentes et le d´ eveloppement de la pression acoustique p(~ r, ω), o` u ω est la pulsation, se ram` ene ` a [5] :

p(~ r, ω) =

+∞

X

m=0

i

^m

j

m

(kr)

m

X

n=0

X

σ=±1

B

_mn^σ

(ω)Y

_mn^σ

(ϕ, θ) (1) Les coefficients B

_mn^σ

constituent la repr´ esentation HOA de l’onde acoustique. Le format Ambisonic propos´ e par Gerzon [7] est un cas particulier de cette repr´ esentation, dans lequel le d´ eveloppement de l’´ equation 1 est limit´ e ` a l’ordre 1 et ne comporte donc que les 4 premi` eres compo- santes. Le format HOA en est ainsi la g´ en´ eralisation aux ordres sup´ erieurs. En pratique la repr´ esentation HOA doit ˆ etre tronqu´ ee ` a un ordre M donn´ e, ce qui conduit

`

a repr´ esenter la sc` ene audio 3D par (M + 1)

²

compo- santes B

^σ_mn

(m=0, 1, ..., M ; n=0, 1, ..., m ; σ = ±1).

Si on se restreint au plan horizontal (repr´ esentation dite

”2D”, par contraste avec la repr´ esentation ”3D” pr´ ec´ e- dente) et qu’on ne conserve que les harmoniques sph´ e- riques porteurs de l’information spatiale horizontale [5], la repr´ esentation ne comporte que 2M + 1 composantes.

Le format HOA est parfaitement universel au sens o` u il permet de d´ ecrire n’importe quelle onde acous- tique (onde plane ou sph´ erique notamment) [2]. Mais surtout, cette repr´ esentation se caract´ erise par deux pro- pri´ et´ es fondamentales. Il s’agit d’abord d’un format in- d´ ependant des syst` emes de captation et de restitution, d’o` u une flexibilit´ e dans son utilisation. Secundo il s’agit d’une description hi´ erarchique, c’est ` a dire que les com- posantes des premiers ordres (m) suffisent ` a repr´ esenter l’onde acoustique, les composantes des ordres sup´ erieurs ne venant que pr´ eciser l’information spatiale. Cette pro- pri´ et´ e est tr` es utile, car elle permet de faire ´ evoluer la repr´ esentation, a posteriori de la captation, afin de s’adapter aux contraintes notamment de capacit´ e en d´ e- bit du r´ eseau de transmission ou du syst` eme d’´ ecoute disponible. Un autre atout est sa lisibilit´ e, dans la me- sure o` u cette repr´ esentation peut se lire directement en termes de structure spatiale de la sc` ene sonore, offrant une analyse s´ epar´ ee des informations selon 2 axes : la distance (r) et la direction (ϕ, θ). Enfin le d´ eveloppe- ment sur la base des fonctions propres n’est autre qu’une transformation du domaine des coordonn´ ees d’espace (r, ϕ, θ) dans un domaine dual correspondant aux fr´ e- quences spatiales. Les coefficients B

_mn^σ

d´ efinissent ainsi le spectre spatial associ´ e ` a l’onde acoustique, ce qui ap- porte une lisibilit´ e suppl´ ementaire ` a la repr´ esentation HOA en termes de fr´ equences (ou de variations) spa- tiales. Les coefficients B

^σ_mn

prennent ainsi le sens d’une repr´ esentation duale de la sc` ene sonore, les deux ´ etant li´ es par une transformation et sa r´ eciproque. En outre, il a ´ et´ e montr´ e que ce format ´ etait particuli` erement perti- nent pour l’analyse des premi` eres reflexions d’une salle [8].

3. Fonctions de Hankel sphériques de première espèce : onde progressive convergente.

4. Fonctions de Hankel sph´eriques de seconde esp`ece : onde progressive divergente.

(4)

3 Principe du traitement de cor- rection

Tous les signaux sont consid´ er´ es dans le domaine spatio-fr´ equentiel, c’est ` a dire que la pression acoustique p(~ r, t) ´ evalu´ ee au point ~ r et ` a l’instant t est d’abord ex- prim´ ee, via une transform´ ee de Fourier, dans le domaine des pulsations ω. Le signal r´ esultant p(~ r, ω) est ensuite d´ ecompos´ e sur la base des harmoniques sph´ eriques en D = (M + 1)

²

ou D = 2M + 1 composantes spatiales B

_mn^σ

(ω), respectivement pour une repr´ esentation 3D ou 2D, o` u M d´ efinit l’ordre de troncature de la d´ ecomposi- tion (cf. Section 2).

La premi` ere ´ etape consiste ` a caract´ eriser la configu- ration d’´ ecoute afin de d´ ecrire ` a la fois les propri´ et´ es acoustiques de la salle et le dispositif des haut-parleurs.

Pour ce faire, les r´ eponses impulsionnelles de chaque haut-parleur sont obtenues (par simulation ou mesure) pour une position de r´ ef´ erence qu’on se donne dans la salle. Chaque r´ eponse impulsionnelle est compos´ ee d’une onde directe d´ ecrivant les propri´ et´ es intrins` eques des haut-parleurs, suivie des r´ eflexions g´ en´ er´ ees par la salle et donc repr´ esentatives de cette derni` ere. Pour cette pre- mi` ere ´ etude, on a choisi de se focaliser sur la correction de l’effet de salle. On ´ elimine donc l’onde directe par fe- nˆ etrage temporel pour ne retenir que les L ´ echantillons suivants. Une Transform´ ee de Fourier Discr` ete (DFT) est alors appliqu´ ee pour obtenir le spectre associ´ e sur L bins fr´ equentiels ω

_k

, k ∈ [1, . . . , L]. Si le syst` eme de res- titution se compose de N haut-parleurs, on r´ eunit ainsi un ensemble de N fonctions de tranfert R

_i

(ω

_k

) (l’indice i rep´ erant le i` eme haut-parleur) qui constituent le des- criptif acoustique de la configuration d’´ ecoute. Afin de s´ eparer et d’analyser les diff´ erentes composantes spa- tiales, chaque fonction de transfert est repr´ esent´ ee dans le format HOA. Pour la suite de l’´ etude on se limite ` a une repr´ esentation 2D, ce qui implique donc D = 2M +1 composantes spatiales R

j,i

(ω

k

) o` u l’indice j parcourt les composantes HOA. Il en r´ esulte pour chaque pulsation, une matrice R(ω

k

) de dimension D × N et dont les N colonnes sont form´ ees par les R

_i

(ω

_k

), i ∈ [1, . . . , N ], d´ e- velopp´ ees sur D composantes HOA.

La matrice R(ω

_k

) doit ˆ etre compar´ ee ` a une matrice

”cible” T(ω

_k

) d´ efinissant l’effet de salle qu’on souhaite obtenir, ` a la place de celui d´ ecrit par R(ω

_k

). La matrice T(ω

k

) est obtenue par une processus analogue ` a celui qu’on vient d’appliquer pour exprimer R(ω

k

). Comme cette derni` ere, elle peut ˆ etre issue de mesures dans une salle r´ eelle ou de simulations. Elle peut ˆ etre aussi im- pos´ ee arbitrairement. Dans le cadre de ces simulations par exemple, les r´ eponses cibles sont constitu´ ees des r´ e- ponses directes des haut-parleurs, c’est-` a-dire sans au- cune r´ ev´ erb´ eration.

Le processus de correction consiste ` a appliquer en amont des haut-parleurs une matrice de filtres. Le signal alimentant un haut-parleur n’est alors plus aliment´ e in- d´ ependamment des autres haut-parleurs, mais prend en compte leurs signaux pour compenser les r´ eflexions as- soci´ ees. Ainsi les r´ eflexions g´ en´ er´ ees par un haut-parleur sont corrig´ ees par l’ensemble des autres haut-parleurs.

La matrice de correction c(ω

k

) r´ ealise ` a la fois le m´ elange et la pond´ eration des signaux des haut-parleurs. On re- connaˆıt une sorte de g´ en´ eralisation du proc´ ed´ e d’annu-

lation des trajets crois´ es utilis´ es pour la reproduction de signaux binauraux [9]. Pour en illustrer le principe, consid´ erons la correction de la contribution d’un seul haut-parleur. La fonction de transfert cible associ´ ee ` a ce haut-parleur est repr´ esent´ ee par la colonne T

i

(ω

k

).

Les N haut-parleurs du dispositif sont sollicit´ es pour at- teindre cette cible. Leurs fonctions de transfert effectives sont contenues dans la matrice R(ω

k

) et sont alors su- perpos´ ees apr` es pond´ eration par le vecteur c

i

(ω

k

), de sorte que :

R(ω

k

)c

i

(ω

k

) = T

i

(ω

k

) (2) Le vecteur c

i

(ω

k

) se compose des N pond´ erations asso- ci´ ees aux diff´ erents haut-parleurs pour corriger le i` eme haut-parleur. Pour d´ ecrire les corrections de l’ensemble du dispositif, on obtient au final une matrice c(ω

_k

) de dimension N × N . Chaque vecteur de correction c

_i

(ω

_k

) est calcul´ e en utilisant la pseudo-inverse de R(ω

_k

), ce qui donne, en soulageant la notation des ω

_k

:

c

i

= (R

^∗

R)

⁻¹

· R

^∗

T

i

(3) Dans cette expression, l’op´ erateur

^∗

d´ efinit une trans- pos´ ee hermitienne (matrices complexes). On note que le proc´ ed´ e permet potentiellement d’adapter une correction diff´ erente selon la composante HOA. Cette possibilit´ e sera examin´ ee ult´ erieurement. Les r´ eponses corrig´ ees sont calcul´ ees en recombinant les composantes HOA apr` es convolution des r´ eponses originelles par les filtres de correction.

Cette m´ ethode convient bien pour des simulations, dont les donn´ ees ne sont pas bruit´ ees. Dans le cas de me- sures dans une salle r´ eelle, il serait plus judicieux d’uti- liser une op´ eration de r´ egularisation, de type Tikhonov, pour effectuer l’inversion. De plus, un autre obstacle au passage ` a des conditions r´ eelles est qu’il sera alors n´ e- cessaire d’effectuer un pr´ e-traitement spatial sur les r´ e- ponses impulsionnelles, afin de r´ eduire voire supprimer les r´ eflexions ne venant pas du plan d´ efini par le cercle de haut-parleurs. Ces r´ eflexions ne peuvent en effet phy- siquement pas ˆ etre contrˆ ol´ ees. Pour ce faire, l’emploi de gabarit de filtre spatiaux de forme toro¨ıdale est envi- sag´ e, leur construction et leur application ne posant pas de probl` emes dans le domaine HOA.

4 Crit` eres d’´ evaluation

La description de la qualit´ e acoustique d’une salle

fournit une palette de crit` eres objectifs capables de

quantifier les propri´ et´ es d’un effet de salle [10, 11]. Ce-

pendant la plupart de ces crit` eres n’est pas tranposable

directement ` a notre probl` eme. Le traitement vise ` a r´ e-

duire l’effet de salle en annulant les r´ eflexions engen-

dr´ ees par les haut-parleurs. L’objectif est de minimiser

l’incoh´ erence entre les r´ eflexions et les sources sonores

virtuelles, afin de pr´ eserver la qualit´ e de la spatialisa-

tion. En pratique, le traitement ne permet pas d’annuler

les r´ eflexions, mais va plutˆ ot ”sculpter” la r´ everb´ eration

pour la rendre plus discr` ete. Il travaille notamment ` a r´ e-

duire l’´ emergence des r´ eflexions. Or cette propri´ et´ e n’est

pas refl´ et´ ee par les crit` eres classiques. Quant ` a la qualit´ e

de spatialisation des sources sonores, cet aspect est as-

(5)

sez peu pris en compte. Un premier jeu de crit` eres pour pallier ces lacunes est propos´ e ici.

4.1 Emergence des r´ ´ eflexions

La pr´ esence de r´ eflexions importantes autour du son direct apparaˆıt comme une premi` ere valeur permettant de juger l’apport de la correction. Comme nous ra- vaillons ici sur des r´ eponses impulsionnelles simul´ ees, chaque r´ eflexion se traduit par une impulsion id´ eale ca- ract´ eris´ ee par ses positions dans le temps et dans l’es- pace, ainsi que par son amplitude.

Des mesures d’´ emergence d’´ echos comme le coeffi- cient d’´ echo ou la tangente ajust´ ee, que l’on peut trouver dans [10], ne semblent pas adapt´ ees. Elles s’int´ eressent en effet ` a ´ evaluer si des ´ echos sont bel et bien per¸ cus par l’auditeur. Or, dans le cas pr´ esent,la question n’est pas de savoir si ces r´ eflexions sont individuellement per-

¸cus. On suppose simplement qu’elles jouent un rˆ ole dans l’impression spatiale, et que c’est leur incoh´ erence avec le son direct qui est ressentie.

On pr´ ef` ere comptabiliser, en s’inspirant des recom- mandations de l’ITU [12] pour la composante omnidirec- tionnelle du signal HOA (composante W dans le forma- lisme Ambisonics) et sur une fenˆ etre de 50ms (5ms avant le son direct, 45ms apr` es), le nombre de pics nbPeak dont l’´ energie est inf´ erieure d’au plus 12dB ` a l ’´ ener- gie de l’onde directe. Ces valeurs sont plus exigeantes que celles propos´ ees par l’ITU (15ms et 10dB). L’´ ener- gie moyenne salPeak de ces pics a ´ egalement ´ et´ e calcul´ ee.

Une baisse de ces 2 valeurs sugg` ere que les perturbations li´ ees aux r´ eflexions sont potentiellement r´ eduites.

4.2 Corr´ elation crois´ ee inter-aurale

Les crit` eres pr´ ec´ edents ne permettant pas de rendre compte de la localisalisation des sources, une troisi` eme crit` ere est identifi´ e : il s’agit de l’Inter-Aural Cross Correlation

¯ ou IACC, dont l’int´ erˆ et est rappel´ e dans [10]. De plus, une ´ etude r´ ecente met en

´ evidence sa pertinence en relation avec le format HOA [13]. Si p

^R

(t) et p

^L

(t) repr´ esentent respectivement les pressions induites au niveau des oreilles droite et gauche, la fonction normalis´ ee de l’IACC est d´ efinie entre les bornes temporelles t1 et t2 par :

ρ

t₁,t₂

(τ) =

Z

t2

t1

p

^R

(t)p

^L

(t + τ)dt s

Z

t₂

t1

[p

^R

(t)]

²

dt · Z

t₂

t1

[p

^L

(t)]

²

dt (4)

Le coefficient d’IACC s’obtient ensuite en trouvant la valeur maximum selon τ ,

IACC

_t₁_,t₂

= max

τ

|ρ

t1,t2

(τ)|, τ ∈ (−1, 1)ms. (5) Dans notre cas, les signaux p

^R

(t) et p

^L

(t) sont obtenus grˆ ace ` a un outil d´ evelopp´ e ` a Orange Labs [14] et destin´ e

`

a adapter des signaux HOA ` a une ´ ecoute sur casque.

Il consiste ` a simuler des haut-parleurs virtuels autour de l’auditeur et ` a synth´ etiser les signaux au niveau de ses oreilles, en utilisant les fonctions de transfert cor- respondantes d´ efinies comme les Head Related Transfer

Function (HRTF). Les HRTF mises en œuvre ici sont celles d’un sujet de la base priv´ ee d’Orange Labs.

Cet indice mesure le degr´ e de coh´ erence de l’infor- mation spatiale per¸ cue entre les deux oreilles, et par suite donne une id´ ee de la pr´ ecision de localisation de la source sonore en pr´ esence d’un effet de salle. Dans un champ diffus, il vaut 0, car l’´ energie acoustique provient uniform´ ement de toutes les directions de fa¸ con d´ ecorr´ e- l´ ee. En pr´ esence d’une source unique il est en revanche proche de 1, car les deux oreilles per¸ coivent la mˆ eme onde acoustique moyennant les diff´ erences interaurales de temps et d’intensit´ e et la diffraction par le corps de l’auditeur. Ainsi une valeur proche de 1 traduit une im- pression de localisation plus pr´ ecise.

5 Simulations

L’outil RoomSim a ´ et´ e utilis´ e pour simuler les r´ eponses impulsionnelles R

i

(ω

k

). Celui-ci provient de l’adaptation pour Matlab [15] par Campbell et al. [16]

d’un algorithme de calcul de r´ eponses impulsionnelles de salles parall´ el´ epip´ ediques par la m´ ethode des sources images propos´ e initialement par Allen et Berkeley [17].

Pour adapter RoomSim au formalisme HOA, le micro- phone associ´ e ` a la captation de la r´ eponse impulsionnelle est remplac´ e par un jeu de capteurs reproduisant les di- rectivit´ es des harmoniques sph´ eriques afin d’extraire les composantes HOA. Un ensemble de directivit´ es a ´ et´ e d´ efini, afin de repr´ esenter les 25 composantes du d´ eve- loppement HOA jusqu’` a l’ordre 4. Comme cette ´ etude se r´ ef` ere ` a des syst` emes r´ eels existants, il a ´ et´ e choisi de ne pas s’int´ eresser aux ordres sup´ erieurs, car il n’existe pas aujourd’hui de syst` eme de captation pour ces com- posantes.

La salle simul´ ee est cens´ ee repr´ esenter un salon do- mestique ”standard”. Cependant, du fait qu’on se limite

`

a une repr´ esentation 2D, le sol et le plafond ont ´ et´ e consid´ er´ es parfaitement absorbants, c’est ` a dire qu’ils ne g´ en´ erent pas de r´ eflexions.

Trois des murs sont relativement absorbants, le der- nier a les propri´ et´ es de r´ eflexion classique du verre. Deux syst` emes d’´ ecoute diff´ erents sont consid´ er´ es, sur la base d’un cercle de haut-parleurs de rayon r = 2m. Le pre- mier est un dispositif r´ egulier de 8 haut-parleurs, le se- cond de 5 dispos´ es selon la configuration standard ITU.

Dans tous les cas, ils sont consid´ er´ es comme des sources omnidirectionnelles. Les param` etres variant lors de ces simulations sont

– L’ordre ambisonique du domaine de traitement, compris entre 1 et 4, ais´ ement accessible par tron- cature grˆ ace ` a la scalabilit´ e de HOA.

– L’ordre maximal des r´ eflexions consid´ er´ ees, entre 1 et 13. N´ eanmoins, dans une salle de cette dimen- sion, les r´ eflexions d’ordre sup´ erieur ` a 4 arrivent d´ ej` a quasiment toutes avec plus de 100ms de re- tard par rapport ` a l’onde directe.

– La longueur des filtres utilis´ es, entre 512 et 8192.

Ce param` etre est bien entendu d´ eterminant dans

le temps de calcul de l’algorithme, et un filtre de

correction trop long pourrait ˆ etre ` a exclure dans

le cadre d’´ ecoute en temps r´ eel.

(6)

6 R´ esultats

6.1 Auralisation

Afin d’´ evaluer qualitativement l’apport de la m´ e- thode sur la restitution sonore, une sc` ene sonore HOA virtuelle d’ordre 4 a ´ et´ e encod´ ee. Elle contient un son d’ambiance ` a l’arri` ere, de la musique diffus´ ee en proxi- mit´ e sur une configuration st´ er´ eophonique ainsi qu’un bruit percussif r´ ep´ etitif au loin. Cette sc` ene virtuelle est ensuite d´ ecod´ ee sur le cercle de 8 haut-parleurs, ce qui permet d’obtenir les signaux d’alimentation du syst` eme. Ces signaux sont ensuite convolu´ es dans le domaine spatio-fr´ equentiel avec les r´ eponses cibles, originelles et corrig´ ees, ce qui permet d’obtenir le champ HOA global restitu´ e, qui est finalement transform´ e en signaux binauraux grˆ ace ` a la m´ ethode d´ ecrite dans [14]. L’´ ecoute binaurale des versions corrig´ ees et originales fait ressortir assez nettement une plus grande pr´ ecision spatiale de la sc` ene. La coloration due

`

a la salle est ´ egalement tr` es r´ eduite. Ces observations restent ` a confirmer par des tests subjectifs dans le futur.

6.2 Crit` eres objectifs

Tr` es vite, l’ordre maximum des r´ eflexions consid´ er´ ees dans les r´ eponses impulsionnelles est apparu comme un param` etre non pertinent de simulation. Trop bas, il ne conduisait pas ` a des donn´ ees r´ ealistes, et ` a partir d’une certaine valeur, toutes les r´ eflexions ´ etaient situ´ ees dans la r´ eponse tardive de la r´ everb´ eration, bien apr` es 100ms du son direct. Il a donc ´ et´ e choisi de le fixer ` a 10.

Figure 2 – R´ eponse impulsionnelle de base.

Un des r´ esultats de ces simulations est illustr´ e sur les figures 2 et 3. La repr´ esentation utilis´ ee repr´ esente l’´ energie du signal en dB sur une ´ echelle de couleur, en fonction du temps (abscisse) et de l’angle d’incidence (ordonn´ ee). La dynamique d’affichage est de 40 dB. Ces figures sont obtenues pour un haut-parleur du syst` eme en comprenant 8, avec une taille de filtre de 4096 et ` a l’ordre 4.

L’efficacit´ e de la correction propos´ ee apparaˆıt assez clairement de fa¸ con visuelle sur ces repr´ esentations. En plus d’une augmentation l´ eg` ere de l’´ energie moyenne du

Figure 3 – R´ eponse impulsionnelle corrig´ ee.

signal, les r´ esultats objectifs selon les crit` eres expos´ es ` a la partie 4 sont les suivants :

– Dans le cas du syst` eme ` a 8 haut-parleurs (figure 4), on observe une ´ evolution des r´ esultats globa- lement pr´ evisible. Plus le filtre de correction est long, moins on compte de pics et plus l’IACC est

´

elev´ ee. Ainsi, avec des filtres de correction ` a 4096 coefficients et ` a l’ordre 4, on peut proposer une correction objectivement efficace.

– D’autre part, le cas ` a 5 haut-parleurs (figure 5) est plus probl´ ematique. Si les r´ eflexions sont globale- ment r´ eduites avec des filtres suffisants, il n’appa- raˆıt pas possible de les ´ eliminer toutes avec cette m´ ethode simple. Cela provient probablement du fait de l’irr´ egularit´ e de la distribution des haut- parleurs [5].

– Dans tous les cas, l’´ evolution selon l’ordre HOA se r´ ev` ele plus d´ elicate ` a interpr´ eter, car si on peut noter une am´ elioration sur les pics, l’IACC a ten- dance ` a baisser lorsque l’ordre augmente. Pour en comprendre les raisons, il conviendrait d’analyser plus en d´ etail l’impact de l’ordre sur la distribution spatiale de l’´ energie.

Figure 4 – ´ Evolution des r´ esultats selon la taille des filtres de correction : syst` eme ` a 8 haut-parleurs.

Les figures 4 et 5 doivent ˆ etre interpr´ et´ ees comme

ceci : les cercles repr´ esentent les valeurs moyennes sur les

diff´ erents haut-parleurs des crit` eres ´ enonc´ es ` a la partie 4,

selon le param` etre de simulation, ici la taille des filtres de

correction. La taille de chaque cercle est directement as-

soci´ ee au nombre de pics d´ etect´ es nbPeak. L’axe des ab-

(7)

Figure 5 – ´ Evolution des r´ esultats selon la taille des filtres de correction, syst` eme ` a 5 haut-parleurs.

sisses est salPeak, celui des ordonn´ ees l’IACC. Le cercle bleu sans bordure est constitu´ e des valeurs de r´ ef´ erence prises dans le cas du syst` eme non corrig´ e, les cercles rouges cercl´ es sont les issus de diff´ erentes corrections, avec les longueurs de filtres inscrites en ´ etiquette.

7 Conclusion

Cette ´ etude a permis de montrer l’efficacit´ e du trai- tement sur des donn´ ees de simulation pour r´ eduire de fa-

¸

con notable les r´ eflexions d’un syst` eme multicanal dans une salle d’´ ecoute domestique, et la similarit´ e des simu- lations ` a la r´ ealit´ e (cf. figure 6) permet d’envisager le passage ` a des conditions r´ eelles. Il faudra pour ce faire mettre au point une m´ ethode s´ eparant, au sein des r´ e- ponses impulsionnelles, les r´ eflexions provenant du sol et du plafond du reste, ainsi que proposer un algorithme plus robuste pour l’inversion.

Figure 6 – Mesure d’une salle r´ eelle.

Remerciements

Cette ´ etude a ´ et´ e r´ ealis´ ee au sein des laboratoires d’Orange Labs - Lannion.

R´ ef´ erences

[1] Blauert, J., ”Spatial Hearing, The Psychophysics of Human Sound Localization”.

[2] Daniel, J., Nicol, R. and Moreau, S. ”Further in- vestigations of high order ambisonics and wave- field synthesis for holophonic sound imaging”, 114th AES Convention (2003).

[3] Guillaume, M., Grenier, Y. and Richard, G. ”Ite- rative algoriths for multichannel equalization in sound reproduction systems”, ICASSP (2005).

[4] Corteel, E., ”Adaptations de la Wave Field Syn- thesis aux conditions r´ eelles”, Th` ese de Doctorat, Universit´ e de Paris 6 (2004).

[5] Daniel, J. ”Repr´ esentation de champs acoustiques, application ` a la transmission et ` a la reproduction de sc` enes sonores complexes dans un contexte mul- tim´ edia”, Th` ese de Doctorat, Universit´ e de Paris 6 (2000).

[6] Bruneau M., ”Introduction aux th´ eories de l’acous- tique”, Universit´ e du Maine (1983).

[7] Gerzon, M. A., ”General metatheory of auditory lo- calization”, 92nd AES Convention (1992).

[8] Caulkins, T. et al., ”Use of a high spatial resolution microphone to characterize the early reflections ge- nerated by a WFS loudspeaker array”, AES 28th Int. Conf., Pite˚ a(2006).

[9] Gardner, W. G., ”3-D audio using loudspeakers”, Kluwer Academics Publisher (1997).

[10] Jouhaneau, J., ”Acoustique des salles et sonorisa- tion”.

[11] Kahle, E., ”Validation d’un mod` ele objectif de la perception de la qualit´ e acoustique dans un en- semble de salles de concerts et d’op´ eras”, Th` ese de Doctorat, Universit´ e du Maine (1995).

[12] ITU BS.1116, ”Methods for the subject assessment of small impairments in audio systems, including multichannel sound systems.” ITU, Geneva (1998) [13] Rafaely, B. and Avni, A., ”Interaural cross cor-