Au niveau atomique - La structure des sons et leur perception

4.2 La structure des sons et leur perception

4.2.1 Au niveau atomique

Le domaine de l’analyse des signaux non-stationnaire a connu des

avan-cées importantes durant les années 1980 grâce au développement de

mé-thodes d’analyse donnant lieu à des représentations conjointes de type

temps-fréquence ou temps-échelle [Kronland-Martinet et al., 1987;

Flan-drin, 1993]. Ces représentations sont obtenues par décomposition d’un

si-gnal en une somme de fonctions élémentaires ayant de bonnes propriétés

de localisation en temps et en fréquence. Aujourd’hui les représentations

conjointes de signaux sont disponibles dans la majorité des logiciels destinés

au traitement de signaux sonores, et parmi ces représentations, le

spectro-gramme, obtenu par analyse de Fourier à court terme, est probablement la

plus connue. Même si les représentations conjointes constituent des outils

indispensables pour identifier et extraire des paramètres à partir d’un

si-gnal, elles ne reflètent pas toujours la pertinence perceptive des paramètres

et pourraient être optimisées à partir de critères perceptifs. Un phénomène

perceptif qui permet de réduire considérablement la quantité de données est

le phénomène du masquage (qui définit le degré auquel l’audibilité d’un son

est dégradée par la présence d’un ou plusieurs autres sons). Ce phénomène

a été largement étudié dans la littérature et est actuellement utilisé dans

plusieurs applications tel le codage MPEG-1 Audio Layer 3 (MP3)[Pan,

1995].

Jusqu’à présent l’essentiel des travaux sur le masquage était basé sur

l’étude du phénomène dans le domaine fréquentiel [Moore, 2003; Bacon

and Viemeister, 1985]. Des travaux basés sur le masquage temporel

com-plètent ces derniers [Fastl, 1979; Widin and Viemeister, 1979], mais très peu

étudient simultanément l’interaction des phénomènes fréquentiels et

tem-porels du masquage. Cette approche conjointe est pourtant primordiale,

lorsqu’il s’agit de développer des représentations de signaux sonores

cohé-rentes avec la perception. Un tel problème, de nature fondamentale,

né-cessite une approche pluridisciplinaire. Il s’agit en effet de développer et

d’évaluer de nouvelles représentations des signaux audio, de développer de

nouveaux outils basés sur les théories mathématiques des représentations

temps-fréquence (ou temps-échelle) et d’adapter ces représentations à la

perception audio et aux concepts de la psychoacoustique. L’approche

pro-posée ici est basée sur la construction mathématique d’outils de “masquage”

basés sur la théorie des multiplicateurs de Gabor et vise à répondre à des

questions fondamentales telles que : les effets de masquage sont-ils

essen-tiellement de type additif (concept utilisé dans le codage MP3) ? Comment

se caractérise le phénomène de masquage dans le repère temps-fréquence ?

Quelles sont les bases auditives (mécaniques et neurales) qui régissent le

masquage sonore dans les deux domaines ? Comment peut-on minimiser le

nombre de coefficients d’une représentation temps-fréquence tout en

assu-rant une reconstruction perceptivement identique du signal original ? Les

réponses à ces questions permettent in fine le développement d’un “filtre

temps-fréquence de masquage” formalisable du point de vue mathématique

en utilisant le concept de multiplicateurs de Gabor.

Deux équipes de recherche du LMA (Psychoacoustique et Modélisation,

Synthèse et Contrôle de Signaux Sonores et Musicaux ) et une équipe de

l’institution ARI - “Acoustics Research Institute” ont travaillé autour de ce

projet. J’ai dans ce cadre obtenu un soutien dans le cadre des Programme

d’Actions Intégrées (PAI) - AMADEUS, intitulé Représentations

temps-fréquence et perception des sons durant la période 2006 à 2008. Ce projet

fait l’objet de la thèse de Thibaud Necciari.

Durant la période du projet, 2 expériences psychoacoustiques de

mas-quage temps-fréquence ont été menées. Dans les 2 cas, les signaux utilisés

ont été choisis de façon à répondre à une double contrainte : avoir une

lo-calisation optimale à la fois en temps et en fréquence et ne produire

l’acti-vation que d’une des nombreuses fenêtres d’obserl’acti-vation spectro-temporelles

du système auditif. Les “atomes” temps fréquence qui répondent au mieux

à ces contraintes, sont des sinusoïdes modulées par des Gaussiennes d’une

largeur fréquentielle de 600Hz pour une modulation de 4kHz, et une durée

"rectangulaire équivalente" de 1.7 ms.

Dans la première expérience, qui a été menée au LMA, un masque

cen-tré sur 4000Hz à 60dB SL (i.e. 60dB au-dessus du seuil absolu du sujet) a

été utilisé pour étudier l’effet du masquage dans le plan temps-fréquence.

11 séparations de fréquence (allant de -4ERBs à 6ERBs relatives à 4000Hz)

et 5 distances temporelles (0, 5, 10, 20 et 30ms) entre cible et masque ont

été testées. Les résultats de cette expérience montrent que les courbes de

masquage fréquentiel sont conformes aux courbes issues d’expériences

tra-ditionnelles de masquage, et mettent en évidence le fait que le masquage

s’étend beaucoup plus sur la partie haute fréquence du masque, c’est à dire

pour les fréquences cibles supérieures à la fréquence du masque. La

variabi-lité inter individuelle est également plus grande quand les fréquences cibles

sont supérieures à la fréquence du masque. En ce qui concerne le masquage

temporel, il décroît rapidement avec l’augmentation de la séparation

tem-porelle et devient négligeable à partir de 30ms. Cette décroissance est plus

marquée que celle décrite dans la littérature, ce qui peut s’expliquer par

la durée du masque (9.6ms) qui est largement inférieure à celle des

expé-riences traditionnelles (de l’ordre de 300ms). La variabilité inter individuelle

est importante pour une séparation temporelle de 5ms, probablement due

au fait que masque et cible dans ce cas se chevauchent partiellement

intro-duisant des effets de phase (modulation) utilisés comme indice par certains

sujets. Les résultats de la condition temps-fréquence (décalages en temps et

en fréquence) ont montré que le masquage temps-fréquence ne pouvait pas

être déduit en combinant les résultats issus des expériences de masquage

fréquentiel et temporel, suggérant une activité complexe de masquage dans

le plan temps-fréquence (Figure 4) [Necciari et al., 2008, 2010].

Dans la deuxième expérience, qui a été menée à Vienne (ARI),

l’addi-tivité du masquage dans le plan temps-fréquence a été étudiée en utilisant

Figure 4: Valeur moyenne de masquage (en dB) produit par un masque

d’enveloppe Gaussienne en fonction du temps ∆T (en ms) et de fréquence

∆F (en unités ERB). La figure est extrait de la thèse de Thibaud Necciari.

jusqu’à 4 masques d’enveloppes gaussiennes (même signaux que dans

expé-rience 1).

Dans le cas du masquage temporel, les 4 masques sont séparés de la

cible de -24ms (M1), -16ms (M2), -8ms (M3), et 8ms (M4). Le seuil du

masquage a été mesuré pour 5 combinaisons de masques ; M2-M3, M3-M4,

M1-M2-M3, M2-M3-M4 et M1-M2-M3-M4. Les résultats montrent qu’il n’y

a pas de différence systématique liée à la combinaison des masques, et que

le niveau de masquage augmente avec le nombre de masques. Le masquage

est plus important que pour le modèle linéaire additif et dans la condition

ou on a 4 masques, le niveau de masque atteint jusqu’à 26dB de plus que

le modèle linéaire. L’effet non-linéaire observé dans cette condition, montre

que les Gaussiennes utilisées dans cet expérience font l’objet d’une forte

compression de la membrane basilaire.

Dans le cas du masquage fréquentiel, la cible avait une fréquence de

5611Hz et les masques étaient séparés de la cible par -7 ERBs (M1), -5

ERBs (M2), -3 ERBs (M3) et +3 ERBs (M4). Contrairement au masquage

temporel, les combinaisons de masques ont une influence sur le niveau du

masquage. Ainsi, les masques 2-3 contribuent peu au masquage tandis que la

combinaison des masques 3-4 contribue beaucoup. En rajoutant le masque

M1 à la paire 2-3, on augmente le niveau de masquage, ce qui n’est pas le

cas quand on rajoute M2 à la paire 3-4. Pour certaines paires de masques le

phénomène est non-linéaire, pour d’autres non. Les résultats sont cohérents

avec la littérature et montrent que les effets non-linéaires du masquage

interviennent quand on ajoute un masque qui n’a pas de chevauchement

d’énergie avec au moins un des masques avec lequel il est présenté [Laback

et al., 2008].

Malgré le comportement non linéaire des phénomènes de masquage, la

prise en compte des effets de masquage d’un grain temps-fréquence

pré-dominant semble cohérent avec notre perception des sons. Ainsi, les

résul-tats issus de ces tests d’écoute sont actuellement utilisés pour développer

un “modèle temps-fréquence de masquage” dans le but d’optimiser les

re-présentations temps-fréquence en les rapprochant d’un point de vue plus

perceptif.

Dans le document Vers le sens des sons: Modélisation sonore et contrôle haut niveau (Page 35-39)