• Aucun résultat trouvé

Principaux mod`eles audio 3D

Cette partie propose un panorama des principales technologies de spatialisation sonore dispo-nibles aujourd’hui [Nicol et al., 2008]. Chaque technologie est pr´esent´ee sous la forme d’un tableau synth´etique d´ecrivant notamment son principe d’analyse/synth`ese, le nombre de dimensions7 effec-tivement spatialis´ees, les syst`emes de prise et restitution sonore associ´es, les atouts et les d´efauts observ´es.

7Le nombre de dimensions d´efinit le nombre de dimensions g´eom´etriques de la sc`ene audio 3D selon lesquelles une technologie de spatialisation sonore est effectivement capable de faire ´evoluer les sources virtuelles. Un rendu monophonique correspond `a une prise de son par un seul microphone associ´e `a un restitution sur un haut-parleur unique. Mˆeme s’il est traditionnellement oppos´e aux technologies de spatialisation sonore comme le degr´e 0 de spatialisation, il n’est pas totalement d´enu´e d’informations spatiales. L’information de distance des sources sonores, principalement `a travers la perception du rapport entre les ´energies de l’onde directe et de la r´everb´eration, est en effet pr´eserv´ee dans un enregistrement monophonique. Un rendu monophonique poss`ede donc une dimension spatiale : la distance entre l’auditeur et la source, c’est `a dire le rayon dans un syst`eme de coordonn´ees sph´eriques. Par suite on qualifiera la monophonie de spatialisation 1D. A fortiori l’information de distance est aussi pr´esente dans n’importe quel rendu audio 3D. Ainsi la spatialisation minimale attendue d’une technologie ”audio 3D” est sup´erieure `a 1D. A l’information de distance s’ajoute alors l’information en direction correspondant `a deux dimensions et d´ecrite par les angles d’azimut et d’´el´evation dans un syst`eme de coordonn´ees sph´eriques. Au passage il convient de remarquer que dans le pr´esent document on rassemble sous l’appellation g´en´erique ”audio 3D” des technologies qui n’offrent pas forc´ement une spatialisation 3D compl`ete.

Technologie St´er´eophonie

Mod`ele Mod`ele essentiellement perceptif bas´e sur les indices de lat´erali-sation que sont les diff´erences interaurales de temps (ITD) et de niveau (ILD) et qui pilotent la localisation des sources sonores selon l’axe gauche-droite de l’auditeur

Analyse Extraction d’une diff´erence de temps et/ou d’intensit´e entre deux points de l’espace acoustique primaire

Synth`ese Reproduction d’une diff´erence de temps et/ou d’intensit´e entre les oreilles de l’auditeur permettant de localiser une source virtuelle ou fantˆome entre les deux hauts-parleurs : La reproduction st´e-r´eophonique b´en´eficie d’un art´efact de la perception par lequel en pr´esence de deux sources r´eelles (c’est `a dire les hauts-parleurs) l’auditeur per¸coit une source virtuelle unique localis´ee entre les deux sources r´eelles. Il s’agit d’un ph´enom`ene de fusion r´esultant de processus d’analyse de sc`ene auditive [Bregman, 1990].

Nombre de dimensions 1D 1/6 : L’espace des sources virtuelles est limit´e `a la portion du plan horizontal comprise entre les deux hauts-parleurs st´er´eopho-niques.

Prise de son Couple de microphones co¨ıncidents (st´er´eophonie par diff´erence d’intensit´e) ou distants (st´er´eophonie de temps) ou une combinai-son des deux (st´er´eophonie mixte, par exemple couple AB). De nombreux syst`emes sont disponibles

Reproduction sonore Paire de hauts-parleurs dispos´es selon le triangle ´equilat´eral st´e-r´eophonique (Recommandation ITU-R BS. 775-1)

Encodage virtuel Panoramique d’intensit´e (loi des sinus, loi des tangentes) Format associ´e St´er´eophonie (2 signaux)

Compatibilit´e St´er´eo → multicanal 5.1 (upmix : conversion d’un flux st´er´eo en flux 5.1)

Multicanal 5.1 → st´er´eo (downmix : conversion d’un flux 5.1 en flux st´er´eo)

Domaines d’application Prise de son musicale, cin´ema, radio

Atouts Simplicit´e de mise en oeuvre

Spatialisation robuste Format compact (2 signaux)

Le dispositif d’´ecoute st´er´eophonique tend `a devenir l’´equipement de base (PC multim´edia par exemple).

D´efauts Spatialisation restreinte (zone horizontale frontale) Pas de spatialisation en ´el´evation

Technologie Multicanal 5.1 (ainsi que ses futures d´eclinaisons : 6.1, 7.1, 10.2, 22.2...)

Mod`ele Extension de la st´er´eophonie : ajout d’un canal central pour stabi-liser les sources frontales, et de canaux arri`eres pour les ambiances et l’effet de salle

Analyse Extraction de diff´erences d’intensit´e et/ou de temps entre plu-sieurs points de l’espace acoustique primaire (de fa¸con `a couvrir l’ensemble du plan horizontal, en distinguant la zone frontale pri-vil`egi´ee de la zone arri`ere)

Synth`ese reproduction d’une diff´erence de temps et/ou d’intensit´e entre les oreilles de l’auditeur permettant de localiser des sources virtuelles dans le plan horizontal.

Nombre de dimensions 2D

Prise de son Arbres multicanaux : INA 5, Fukada-Tree, OCT-Surround, IRT-Cross, Hamasaki-Square [Theile, 2001]

Reproduction sonore Configuration de 5 hauts-parleurs et un caisson de graves selon la Recommandation ITU-R BS. 775-1

Encodage virtuel Panoramique d’intensit´e

Format associ´e Multicanal 5.1

Compatibilit´e Multicanal 5.1 ↔ st´er´eo (downmix, upmix)

Multicanal 5.1 → binaural (downmix binaural : conversion d’un flux 5.1 en flux binaural)

Ambisonic/HOA → multicanal 5.1 (adaptation d’un flux Ambiso-nic/HOA pour un syst`eme d’´ecoute 5.1)

Multicanal 5.1 → WFS (adaptation d’un flux 5.1 pour un syst`eme d’´ecoute WFS, en synth´etisant 5 ondes planes dans les directions des hauts-parleurs du syst`eme 5.1)

Domaines d’application Prise de son musicale, cin´ema, radio

Atouts Format compact (6 canaux)

Standard

D´efauts Un seul point d’´ecoute optimal (sweet spot)

Pas de spatialisation en ´el´evation

Spatialisation horizontale h´et´erog`ene en fonction de l’azimut : zone frontale privil´egi´ee, zones lat´erales d´efavoris´ees `a cause de l’´ecart angulaire des haut-parleurs

Technologie Ambisonic & Higher Order Ambisonic (HOA) [Gerzon, 1980] [Gerzon, 1985] [Gerzon, 1992a] [Gerzon, 1992b] [Bamford, 1995] [Daniel, 2000]

Mod`ele Mod`ele bas´e sur une d´ecomposition math´ematique de l’onde acous-tique (espace acousacous-tique primaire) utilisant la base des harmo-niques sph´eriques (fonctions propres de l’´equation des ondes acous-tiques en g´eom´etrie sph´erique)

Ambisonic correspond `a la d´ecomposition limit´e `a l’ordre 1, tandis que HOA en est la g´en´eralisation aux ordres sup´erieurs [Daniel, 2000].

Analyse Extraction des coefficients de la d´ecomposition en harmoniques sph´eriques (analyse de la distribution spatiale des ondes acous-tiques, analyse de plus en plus fine au fur et `a mesure que l’ordre des harmoniques augmente)

Synth`ese Projection de la distribution spatiale de l’onde acoustique primaire sur le dispositif de hauts-parleurs, la projection pouvant ˆetre opti-mis´ee au sens d’un ou plusieurs crit`eres de d´ecodage, ce qui donne lieu `a diff´erentes lois de d´ecodage (par exemple : d´ecodage basique, d´ecodage max rE, d´ecodage in phase)

Nombre de dimensions 2D ou 3D

Prise de son Microphone Soundfield (Ambisonic `a l’ordre 1) [Farrar, 1979a] [Farrar, 1979b] [Craven & Gerzon, 1977]

Sph`ere de microphones (HOA) (probl`emes d’´echantillonnage spa-tial et de troncature de la d´ecomposition en harmoniques sph´e-riques) [Moreau, 2006]

Reproduction sonore Dispositif de N (N ≥ 4) hauts-parleurs (distribution r´eguli`ere ou non)

Encodage virtuel Loi de panoramique agissant sur l’intensit´e et la phase des signaux (espace de captation virtuel) simulant un encodage sur la base des harmoniques sph´eriques

Format associ´e B-format (Ambisonic `a l’ordre 1)

HOA ([2M + 1]2 signaux correspondant `a une d´ecomposition `a l’ordre M)

Compatibilit´e Ambisonic/HOA → multicanal 5.1 (adaptation d’un flux Ambiso-nic/HOA pour un syst`eme d’´ecoute 5.1)

Ambisonic/HOA → binaural (downmix binaural : conversion d’un flux 5.1 en flux binaural)

Domaines d’application Utilisation marginale d’Ambisonic `a l’ordre 1 dans le monde audio professionnel

Technologie Ambisonic & Higher Order Ambisonic (HOA) (suite)

Atouts Format audio 3D hi´erarchique (chaque nouvelle composante vient

seulement compl´eter l’information contenue dans les harmoniques inf´erieures) et flexible (le d´ecodage s’adapte au nombre et `a la disposition des hauts-parleurs du dispostif d’´ecoute)

Spatialisation 3D compl`ete

Extension de la zone d’´ecoute avec les ordres sup´erieurs

Possibilit´e de manipuler la sc`ene sonore `a l’issue de l’enregistre-ment

D´efauts Nombre ´elev´e de signaux

Qualit´e audio qui reste `a am´eliorer pour convaincre les ing´enieurs du son

Technologie Holophonie & Wave Field Synthesis (WFS)

[Berkhout, 1988] [Vogel, 1993] [Start, 1997] [Verheijen, 1998] [de Bruijn, 2004] [Nicol, 1999]

Mod`ele Mod`ele bas´e sur le Principe de Huygens : recomposition d’une onde acoustique (espace acoustique primaire) par superposition d’onde-lettes (d´ecomposition physique de l’onde acoustique) [Jessel, 1973] Analyse Extraction des diff´erences de temps et d’intensit´e sur une distri-bution dense et ´etendue de points de l’espace acoustique primaire Synth`ese Chaque haut-parleur ´emet une ondelette convenablement param´e-tr´ee en temps et en intensit´e et qui en se superposant aux onde-lettes g´en´er´ees par les autres hauts-parleurs va reconstituer une copie de l’onde acoustique primaire

Nombre de dimensions 2D ou 3D

Prise de son R´eseau ´etendu de microphones (en th´eorie), pas de syst`eme utilis´e en pratique (encodage virtuel)

Reproduction sonore R´eseau ´etendu de hauts-parleurs (probl`eme d’´echantillonnage spa-tial et de troncature)

Encodage virtuel Contrˆole en amplitude et en temps des signaux (espace de capta-tion virtuel) pour simuler une prise de son par un r´eseau micro-phonique (concept de source notionnelle [Berkhout et al., 1993])

Format associ´e Aucun

Compatibilit´e Holophonie/WFS → binaural (downmix binaural en th´eorie, mais non ´evalu´e)

St´er´eophonie, multicanal 5.1 → holophonie/WFS par synth`ese d’ondes planes

Domaines d’application Technologie exp´erimentale, quelques exemples de mise oeuvre au cin´ema [IOSONO Sound, 2010]

Atouts Spatialisation 2D (voire 3D, mais encore aujourd’hui on dispose

de peu de recul sur le rendu 3D) compl`ete et naturelle : les sources virtuelles sont per¸cues `a la fois pr´esentes et naturelles.

Zone d’´ecoute ´etendue

D´efauts Absence de syst`eme de prise de son associ´e

Technologie Binaural [Møller, 1992]

Mod`ele Mod`ele bas´e sur l’imitation de la perception auditive et visant `a reproduire au niveau des tympans de l’auditeur (espace binaural) les indices de localisation per¸cus en situation d’´ecoute naturelle Analyse Extraction la plus exhaustive possible des indices de localisation

sonore (notamment les diff´erences interaurales de temps et d’in-tensit´e, ainsi que les indices spectraux)

Synth`ese Reproduction des indices de localisation sonore Nombre de dimensions 3D

Prise de son Paire de microphones binauraux plac´es sur une tˆete naturelle ou artificielle

Reproduction sonore Casque

Paire de hauts-parleurs [Gardner, 1997] : par exemple sys-t`eme transaural [Atal & Schroeder, 1966] [Cooper & Bauck, 1989] [Bauck & Cooper, 1996], st´er´eo dipˆole [Kirkeby et al., 1997] Syst`eme de 4 hauts-parleurs [Guastavino et al., 2007]

Encodage virtuel Synth`ese binaurale : mise en œuvre de filtres binauraux reprodui-sant les fonctions de transfert acoustiques entre la source sonore et les tympans de l’auditeur (fonctions de transfert dites HRTF pour Head Related Transfer Function)

Format associ´e Signal binaural (2 canaux)

Compatibilit´e Multicanal 5.1, Ambisonic/HOA → binaural (downmix binaural) Domaines d’application R´ealit´e virtuelle

Outil d’exp´erimentation pour la perception auditive spatiale

Atouts Spatialisation 3D compl`ete et naturelle

Format compact

Restitution au casque (compatible avec les terminaux mobiles)

D´efauts Spatialisation individuelle

Introduction de colorations spectrales qui nuisent `a la transparence des timbres

Technologie Vector Base Amplitude Panning (VBAP) & Vec-tor Base Intensity Panning (VBIP) [Pulkki & Lokki, 1998] [Pernaux et al., 1998]

Mod`ele Projection de la position de la source virtuelle sur une base vecto-rielle constitu´ee par une paire (2D) ou un triplet (3D) de hauts-parleurs (g´en´eralisation de la loi des tangentes utilis´ee en st´er´eo-phonie)

Analyse Sp´ecification de la position de la source virtuelle dans l’espace physique

Synth`ese Combinaison lin´eaire des contributions des 2 (2D) ou 3 (3D) hauts-parleurs les plus proches de la position cible de la source virtuelle (st´er´eophonie locale par panoramique d’intensit´e selon une loi des tangentes)

Nombre de dimensions 2D ou 3D

Prise de son Encodage virtuel seul

Reproduction sonore R´eseau sph´erique de hauts-parleurs

Encodage virtuel Loi de panoramique locale (limit´e `a 2 ou 3 hauts-parleurs), agis-sant en amplitude (VBAP) ou en ´energie (VBIP) selon la loi des tangentes, g´en´eralis´ee `a une reproduction 3D le cas ´ech´eant

Format associ´e Aucun

Compatibilit´e VBAP/VBIP → binaural (downmix binaural)

Domaines d’application Technologie exp´erimentale

Atouts Simplicit´e de mise en œuvre

D´efauts Zone d’´ecoute restreinte (voisinage du centre de la sph`ere de hauts-parleurs)

H´et´erog´enit´e du rendu quand la source virtuelle se d´eplace [Pernaux et al., 1998]

Documents relatifs