• Aucun résultat trouvé

Informations fournies par l’analyse des mélanges

Comme pour l’information relative aux sources, il existe deux façons de modéliser l’information relative à un mélange : exploiter directement les formes d’onde des canaux du mélange, ou en faire une première analyse (front end) qui écarte une partie de l’information inutile. Ce paragraphe rappelle les types de mélanges rencontrés en musique de chambre et quelques analyses courantes. Nous distinguons les analyses spectro-temporelles en monocanal des analyses spatiales en multicanal.

2.2.1 Types de mélanges

Les enregistrements de musique de chambre se trouvent surtout sous deux formes : les enregistre-ments multipistes (huit ou seize pistes en pratique) et les CD audio stéréo.

Enregistrements multipistes

En musique jazz ou pop, les instrumentistes sont souvent enregistrés séparément en studio insono-risé ou en situation de concert avec des instruments électrifiés insensibles aux vibrations acoustiques des autres instruments. Les enregistrements multipistes correspondants ne sont pas vraiment des mélanges, puisque chaque canal contient une source séparée.

En musique classique ou contemporaine, les musiciens jouent ensemble dans une salle de concert et sont enregistrés avec une batterie de micros. La disposition des micros est généralement la suivante [Bar98] : un micro stéréo “lointain” placé à distance des musiciens et un micro mono “d’appoint” à proxi-mité de chacun (éventuellement plusieurs pour les instruments spatialement étendus comme la batterie ou le piano). Les micros d’appoint sont des capsules directives. Le micro lointain peut être de plusieurs types, dont les plus courants sont : XY (deux capsules cardioïdes coïncidentes pointant vers l’instrumen-tiste le plus à gauche et celui le plus à droite), ORTF (deux capsules cardioïdes à une distance de 17 cm formant un angle de 110), binaural (deux capsules omnidirectionnelles séparés par une tête artifi-cielle) et AB étroit (deux capsules omnidirectionnelles à une distance de 40 cm). Le choix est effectué en fonction du style de diffusion voulu : un micro XY ou ORTF est préférable pour une diffusion sur hauts-parleurs, un micro binaural pour une diffusion sur écouteurs à un auditeur précis et un micro ORTF pour une diffusion sur écouteurs à un auditeur quelconque. Le micro ORTF constitue un bon compromis lorsque le style de diffusion n’est pas fixé.

Un enregistrement multipistes de ce type est un mélange sur-déterminé convolutif long variant dans le temps. Les filtres de mélange sont constitués de deux parties : une succession de pics distincts dus aux réflexions précoces localisées sur les murs de la salle, puis un signal plus continu dû aux réflexions tar-dives diffuses formant la réverbération [Ave02]. Généralement l’ensemble des réflexions précoces dure

50 ms environ et la réverbération une seconde ou plus. Les petits mouvements des musiciens (de l’ordre de quelques centimètres) affectent peu les réflexions précoces, qui peuvent donc être plus ou moins pré-dites connaissant la disposition des instruments et des micros et les caractéristiques de la salle. Par contre ces mouvements modifient complètement la réverbération, qui prend un caractère aléatoire. Les signaux des micros d’appoint sont caractérisés par une faible quantité relative d’interférences (phénomène de “repisse”), de réflexions précoces et de réverbération, contrairement au signal du micro lointain.

CD stéréo

Un CD stéréo de jazz ou de pop est un mélange en studio des instruments enregistrés séparément. Une technique de mélange courante consiste à faire un mélange panoramique (panning) à partir de gains positifs, puis à rajouter de la réverbération artificielle au tout [Ave02, Bar98]. Des gains variables ou des filtrages courts peuvent aussi être utilisés. Les mélanges résultants sont donc généralement sous-déterminés et convolutifs (courts ou longs) et varient parfois dans le temps.

Un CD stéréo de musique classique ou contemporaine est réalisé par remixage en studio d’un enre-gistrement multipistes du type décrit ci-dessus. Les signaux mono d’appoint sont utilisés pour corriger à des instants particuliers le volume ou le timbre des instruments sur le signal stéréo lointain. De cette façon la perception des caractéristiques de la salle d’enregistrement et de la disposition spatiale des mu-siciens est préservée [Bar98]. Les CD sont alors des mélanges sous-déterminés convolutifs longs variant dans le temps.

Enregistrements mono

Notons aussi l’existence d’enregistrements mono réalisés par ajout des deux canaux d’un mélange stéréo instantané (provenant lui-même d’un mélange en studio ou d’un enregistrement stéréo XY). Ces enregistrements sont rares en pratique. Mais ils sont très présents dans la littérature sur la transcription, qui prend peu en compte les informations spatiales en stéréo.

2.2.2 Analyse spectro-temporelle

Spectre à court terme

Une première analyse possible de ces différents types de mélanges est d’en extraire les propriétés spectro-temporelles en calculant leur spectre à court terme. Il existe plusieurs définitions non équivalentes de cette quantité. Nous présentons ici la définition par banc de filtres [Ell96].

Soit xi un canal du mélange, (Hf)0≤f ≤F −1 un banc de filtres passe-bande et wT une fenêtre. Le signal xiest découpé en signaux à bande limitée (xf

i)0≤f ≤F −1définis par xfi(u) = +∞ X τ =−∞ Hf(τ )xi(u− τ), (2.4)

puis en signaux à bande limitée et à support fini (xtf

i )0≤f ≤F −1, 0≤t≤T −1 définis par

xtfi (u) = wT(u− tL)xfi(u), (2.5)

où L est le pas entre deux trames successives. Au point temps-fréquence (t, f) (dans la sous-bande f et la trame t), le spectre de log-puissance de xivaut alors log kxtf

i k2, le spectre d’amplitude kxtf

i k et le spectre de puissance kxtf

i k2. Les filtres (Hf)0≤f ≤F −1sont généralement espacés sur une échelle de fréquence linéaire, logarithmique ou ERB [Rom03], avec une largeur de bande proportionnelle à l’espacement entre filtres successifs.

Pour éviter une chute de la log-puissance vers −∞ lorsque kxtf

i k ≈ 0, la valeur calculée peut-être mise à zéro en-dessous d’un certain seuil de silence. Lorsque ce seuil dépend de la fréquence, la log-puissance est alors définie relativement au seuil [Vir03b] par

oitf = log  kxtfi k2 gf2 + 1  , (2.6)

où (gf)0≤f ≤F −1est le seuil de silence en amplitude.

Cepstre

Le spectre de log-puissance peut être paramétré à transformation linéaire près. Par exemple la trans-formée de Fourier inverse du spectre de log-puissance est appelée cepstre. Le cepstre de xidans la trame tet à la “quéfrence” q vaut [Mar99a]

o0itq= 1 F

F −1X

f =0

oitfexp(2iπqf /F ). (2.7)

Les premiers coefficients du cepstre (q = 0, 1, 2 . . .) décrivent l’enveloppe spectrale du son. D’autres changements de paramétrage linéaires peuvent être utiles [Cas02, Ero03].

Corrélogramme

Lorsque les filtres sont à bande large, les spectres à court terme sont trop grossiers pour distinguer les pics spectraux induits par des partiels d’un son instrumental. L’information de périodicité au sein d’un signal à bande limitée xf

i peut alors se calculer grâce à son auto-corrélation locale définie pour le délai l dans la trame t par [Ell96]

citf l=X

u

w2T(u− tL)xfi(u)xfi(u− l). (2.8) L’ensemble des (citf l) forme une représentation à trois dimensions appelée corrélogramme. Dans le cas d’un banc de filtres auditifs (espacement fréquentiel sur l’échelle ERB et largeur de bande égale à un ERB), le corrélogramme permet de rendre compte à la fois des effets de masquage auditif et de perception de la hauteur [Ell96].

2.2.3 Analyse spatiale

Différence de phase et de volume inter-canal

Une deuxième analyse possible d’un mélange est d’en extraire les propriétés spatiales en comparant ses canaux deux par deux. La comparaison se fait habituellement en calculant une différence de phase et de volume en chaque point temps-fréquence. La différence de phase entre les canaux i0 et i au point (t, f )vaut

dphai0itf = ∠hxtfi , xtfi0i, (2.9)

et la différence de volume [Rom03]

dvoli0itf = logkxtfi0k2− log kxtfi k2. (2.10) Ce calcul est valable lorsque le banc de filtres (Hf)0≤f ≤F −1est complexe, c’est-à-dire lorsque les filtres ont une réponse nulle en fréquence négative. Dans le cas d’un banc de filtres réel, dpha

i0itf est le retard pour lequel la corrélation entre xtf

i et xtf

Lorsque les canaux i0 et i correspondent aux deux capsules d’un micro stéréo, l’utilisation de ces quantités dépend du type de micro. Pour un micro XY seule la différence de volume est significative, pour un micro AB étroit seule la différence de phase l’est, et pour un micro binaural ou ORTF les deux quantités le sont. De plus il est possible de relier ces quantités à l’azimut observé en chaque point temps-fréquence (t, f). Par exemple pour un micro ORTF ou AB étroit la différence de phase inter-canal s’exprime en fonction de l’azimut θtfpar la relation de formation de voies (beamforming) [Vis03]

dphai0itf = 2πf d

c sin θtf mod 2π, (2.11)

où f est la fréquence centrale de la sous-bande, d est la distance entre capsules, c la vitesse du son et θtf = ±π/2 correspond à l’axe des capsules. En dessous d’une fréquence critique c/d cette relation permet de déterminer sin θtf en fonction de dpha

i0itf de façon unique, mais au-dessus il peut exister une indétermination qui nécessite l’utilisation de dvol

i0itf conjointement à dpha

i0itf [Vis03]. De façon similaire la localisation auditive fait intervenir les informations de phase en-deçà de 1500 Hz environ et les informa-tions de volume au-delà [Rom03].

Lorsque les canaux i0 et i proviennent d’un mélange synthétique instantané, la différence de volume inter-canal est liée à l’azimut observé θtfpar la loi de mélange panoramique [Pul01]

tan θtf = tan θ0tanhd

vol i0itf

4 , (2.12)

où θ0 ' 30est le demi-angle entre les hauts-parleurs de diffusion.

Cohérence inter-canal

Une autre quantité utile est la cohérence entre les canaux i0 et i définie au point temps-fréquence (t, f )par [Ave02]

dcohi0itf = |hxtfi , xtfi0 i|

kxtfi kkxtfi0 k (2.13)

lorsque le banc de filtres (Hf)0≤f ≤F −1 est complexe, ou par le maximum de la valeur absolue de la corrélation entre xtf

i et xtf

i0 retardé lorsque le banc de filtres est réel. Cette quantité est proche de 1 lorsque le son au point (t, f) est constitué d’une seule source et de ses réflexions précoces. Elle est inférieure lorsque le son est constitué de plusieurs sources ou de réverbération [Ave02].