4.2 La structure des sons et leur perception
4.2.1 Au niveau atomique
Le domaine de l’analyse des signaux non-stationnaire a connu des
avan-cées importantes durant les années 1980 grâce au développement de
mé-thodes d’analyse donnant lieu à des représentations conjointes de type
temps-fréquence ou temps-échelle [Kronland-Martinet et al., 1987;
Flan-drin, 1993]. Ces représentations sont obtenues par décomposition d’un
si-gnal en une somme de fonctions élémentaires ayant de bonnes propriétés
de localisation en temps et en fréquence. Aujourd’hui les représentations
conjointes de signaux sont disponibles dans la majorité des logiciels destinés
au traitement de signaux sonores, et parmi ces représentations, le
spectro-gramme, obtenu par analyse de Fourier à court terme, est probablement la
plus connue. Même si les représentations conjointes constituent des outils
indispensables pour identifier et extraire des paramètres à partir d’un
si-gnal, elles ne reflètent pas toujours la pertinence perceptive des paramètres
et pourraient être optimisées à partir de critères perceptifs. Un phénomène
perceptif qui permet de réduire considérablement la quantité de données est
le phénomène du masquage (qui définit le degré auquel l’audibilité d’un son
est dégradée par la présence d’un ou plusieurs autres sons). Ce phénomène
a été largement étudié dans la littérature et est actuellement utilisé dans
plusieurs applications tel le codage MPEG-1 Audio Layer 3 (MP3)[Pan,
1995].
Jusqu’à présent l’essentiel des travaux sur le masquage était basé sur
l’étude du phénomène dans le domaine fréquentiel [Moore, 2003; Bacon
and Viemeister, 1985]. Des travaux basés sur le masquage temporel
com-plètent ces derniers [Fastl, 1979; Widin and Viemeister, 1979], mais très peu
étudient simultanément l’interaction des phénomènes fréquentiels et
tem-porels du masquage. Cette approche conjointe est pourtant primordiale,
lorsqu’il s’agit de développer des représentations de signaux sonores
cohé-rentes avec la perception. Un tel problème, de nature fondamentale,
né-cessite une approche pluridisciplinaire. Il s’agit en effet de développer et
d’évaluer de nouvelles représentations des signaux audio, de développer de
nouveaux outils basés sur les théories mathématiques des représentations
temps-fréquence (ou temps-échelle) et d’adapter ces représentations à la
perception audio et aux concepts de la psychoacoustique. L’approche
pro-posée ici est basée sur la construction mathématique d’outils de “masquage”
basés sur la théorie des multiplicateurs de Gabor et vise à répondre à des
questions fondamentales telles que : les effets de masquage sont-ils
essen-tiellement de type additif (concept utilisé dans le codage MP3) ? Comment
se caractérise le phénomène de masquage dans le repère temps-fréquence ?
Quelles sont les bases auditives (mécaniques et neurales) qui régissent le
masquage sonore dans les deux domaines ? Comment peut-on minimiser le
nombre de coefficients d’une représentation temps-fréquence tout en
assu-rant une reconstruction perceptivement identique du signal original ? Les
réponses à ces questions permettent in fine le développement d’un “filtre
temps-fréquence de masquage” formalisable du point de vue mathématique
en utilisant le concept de multiplicateurs de Gabor.
Deux équipes de recherche du LMA (Psychoacoustique et Modélisation,
Synthèse et Contrôle de Signaux Sonores et Musicaux ) et une équipe de
l’institution ARI - “Acoustics Research Institute” ont travaillé autour de ce
projet. J’ai dans ce cadre obtenu un soutien dans le cadre des Programme
d’Actions Intégrées (PAI) - AMADEUS, intitulé Représentations
temps-fréquence et perception des sons durant la période 2006 à 2008. Ce projet
fait l’objet de la thèse de Thibaud Necciari.
Durant la période du projet, 2 expériences psychoacoustiques de
mas-quage temps-fréquence ont été menées. Dans les 2 cas, les signaux utilisés
ont été choisis de façon à répondre à une double contrainte : avoir une
lo-calisation optimale à la fois en temps et en fréquence et ne produire
l’acti-vation que d’une des nombreuses fenêtres d’obserl’acti-vation spectro-temporelles
du système auditif. Les “atomes” temps fréquence qui répondent au mieux
à ces contraintes, sont des sinusoïdes modulées par des Gaussiennes d’une
largeur fréquentielle de 600Hz pour une modulation de 4kHz, et une durée
"rectangulaire équivalente" de 1.7 ms.
Dans la première expérience, qui a été menée au LMA, un masque
cen-tré sur 4000Hz à 60dB SL (i.e. 60dB au-dessus du seuil absolu du sujet) a
été utilisé pour étudier l’effet du masquage dans le plan temps-fréquence.
11 séparations de fréquence (allant de -4ERBs à 6ERBs relatives à 4000Hz)
et 5 distances temporelles (0, 5, 10, 20 et 30ms) entre cible et masque ont
été testées. Les résultats de cette expérience montrent que les courbes de
masquage fréquentiel sont conformes aux courbes issues d’expériences
tra-ditionnelles de masquage, et mettent en évidence le fait que le masquage
s’étend beaucoup plus sur la partie haute fréquence du masque, c’est à dire
pour les fréquences cibles supérieures à la fréquence du masque. La
variabi-lité inter individuelle est également plus grande quand les fréquences cibles
sont supérieures à la fréquence du masque. En ce qui concerne le masquage
temporel, il décroît rapidement avec l’augmentation de la séparation
tem-porelle et devient négligeable à partir de 30ms. Cette décroissance est plus
marquée que celle décrite dans la littérature, ce qui peut s’expliquer par
la durée du masque (9.6ms) qui est largement inférieure à celle des
expé-riences traditionnelles (de l’ordre de 300ms). La variabilité inter individuelle
est importante pour une séparation temporelle de 5ms, probablement due
au fait que masque et cible dans ce cas se chevauchent partiellement
intro-duisant des effets de phase (modulation) utilisés comme indice par certains
sujets. Les résultats de la condition temps-fréquence (décalages en temps et
en fréquence) ont montré que le masquage temps-fréquence ne pouvait pas
être déduit en combinant les résultats issus des expériences de masquage
fréquentiel et temporel, suggérant une activité complexe de masquage dans
le plan temps-fréquence (Figure 4) [Necciari et al., 2008, 2010].
Dans la deuxième expérience, qui a été menée à Vienne (ARI),
l’addi-tivité du masquage dans le plan temps-fréquence a été étudiée en utilisant
Figure 4: Valeur moyenne de masquage (en dB) produit par un masque
d’enveloppe Gaussienne en fonction du temps ∆T (en ms) et de fréquence
∆F (en unités ERB). La figure est extrait de la thèse de Thibaud Necciari.
jusqu’à 4 masques d’enveloppes gaussiennes (même signaux que dans
expé-rience 1).
Dans le cas du masquage temporel, les 4 masques sont séparés de la
cible de -24ms (M1), -16ms (M2), -8ms (M3), et 8ms (M4). Le seuil du
masquage a été mesuré pour 5 combinaisons de masques ; M2-M3, M3-M4,
M1-M2-M3, M2-M3-M4 et M1-M2-M3-M4. Les résultats montrent qu’il n’y
a pas de différence systématique liée à la combinaison des masques, et que
le niveau de masquage augmente avec le nombre de masques. Le masquage
est plus important que pour le modèle linéaire additif et dans la condition
ou on a 4 masques, le niveau de masque atteint jusqu’à 26dB de plus que
le modèle linéaire. L’effet non-linéaire observé dans cette condition, montre
que les Gaussiennes utilisées dans cet expérience font l’objet d’une forte
compression de la membrane basilaire.
Dans le cas du masquage fréquentiel, la cible avait une fréquence de
5611Hz et les masques étaient séparés de la cible par -7 ERBs (M1), -5
ERBs (M2), -3 ERBs (M3) et +3 ERBs (M4). Contrairement au masquage
temporel, les combinaisons de masques ont une influence sur le niveau du
masquage. Ainsi, les masques 2-3 contribuent peu au masquage tandis que la
combinaison des masques 3-4 contribue beaucoup. En rajoutant le masque
M1 à la paire 2-3, on augmente le niveau de masquage, ce qui n’est pas le
cas quand on rajoute M2 à la paire 3-4. Pour certaines paires de masques le
phénomène est non-linéaire, pour d’autres non. Les résultats sont cohérents
avec la littérature et montrent que les effets non-linéaires du masquage
interviennent quand on ajoute un masque qui n’a pas de chevauchement
d’énergie avec au moins un des masques avec lequel il est présenté [Laback
et al., 2008].
Malgré le comportement non linéaire des phénomènes de masquage, la
prise en compte des effets de masquage d’un grain temps-fréquence
pré-dominant semble cohérent avec notre perception des sons. Ainsi, les
résul-tats issus de ces tests d’écoute sont actuellement utilisés pour développer
un “modèle temps-fréquence de masquage” dans le but d’optimiser les
re-présentations temps-fréquence en les rapprochant d’un point de vue plus
perceptif.
Dans le document
Vers le sens des sons: Modélisation sonore et contrôle haut niveau
(Page 35-39)