• Aucun résultat trouvé

Concepts communs utilisés par les modèles MP3 et AAC

2.3 Modèles de codage perceptuel par transformée

2.3.1 Concepts communs utilisés par les modèles MP3 et AAC

Cette section du document donne une description des concepts communs utilisés par les modèles de codage MP3 et AAC : l’utilisation de modèles psychoacoustiques et l’exploi- tation de phénomènes de masquage.

Utilisation de la modélisation psychoacoustique

Les modèles perceptuels par transformée utilisent la modélisation psychoacoustique afin de ne pas transmettre de l’information superflue que l’oreille humaine ne peut entendre. L’encodeur effectue une analyse du signal dans le domaine de la transformée afin de créer un modèle psychoacoustique qui décrit le comportement perceptuel de l’oreille humaine en fonction : de la fréquence, de l’intensité et du temps. Cette modélisation psychoacous-

tique tient compte des limites et des faiblesses de l’oreille humaine afin de transmettre uniquement les composantes essentielles du signal.

La figure 2.25 [Rossi, 2007] montre la courbe du seuil d’audition absolu. Cette courbe re- présente le niveau de pression acoustique moyen en dB (décibel) pour qu’un son sinusoïdal pur soit perçu par l’oreille humaine. Puisque chaque individu possède une courbe unique qui varie selon l’âge, la figure 2.25 représente le seuil d’audition absolu moyen.

Fréquence (kHz) 0 2 4 6 8 10 12 14 16 0 20 40 60 80 dB

Figure 2.25 Courbe du seuil d’audition absolu de l’oreille humaine

La figure 2.25 montre que l’oreille humaine possède une plage de sensibilité à des fréquences allant de 20 Hz à 16 kHz et que le niveau de sensibilité diffère selon la fréquence. Le niveau de sensibilité maximale se situe autour de 1kHz à 5 kHz.

La courbe de la figure 2.25 correspond à une écoute dans un environnement calme. En présence de sons multiples, la courbe se modifie et le phénomène de masquage survient. Le phénomène se produit lorsqu’un son empêche la perception d’un autre son qui autrement serait audible. Les modèles perceptuels par transformée exploitent ces phénomènes de masquage afin de réduire l’information à transmettre.

Exploitation des phénomènes de masquage

Il existe deux types de phénomènes de masquage : l’un temporel et l’autre fréquentiel. Le phénomène de masquage temporel provient de l’inertie temporelle du système d’audition tandis que le phénomène de masquage fréquentiel provient du comportement en fréquence de la membrane basilaire de la cochlée au sein de l’oreille interne.

Le masquage temporel se produit avant et après l’apparition d’un son masquant de forte intensité (cf. figure 2.26 [Spanias et al., 2007]). Après un son à fort décibel, l’oreille ne perçoit pas un son à plus faible intensité qu’après d’un certain laps de temps. Le pré-

masquage reste quelques millisecondes (2 ms à 5 ms) tandis que le post-masquage dure plus longtemps (100 ms à 200 ms).

Pré

masquage Masquagesimultané masquagePost

Son masquant 0 20 40 60 dB -50 0 50 100 150 0 50 100 150 200 ms

Figure 2.26 Masquage temporel

Le phénomène de masquage fréquentiel survient lorsqu’une raie fréquentielle de forte in- tensité dissimule les fréquences voisines de plus faibles intensités (cf. figure 2.27 [Rossi, 2007]). La fréquence et l’intensité du signal possèdent une influence sur les caractéristiques du masque. Fréquence (kHz) 0 2 4 6 8 10 12 14 16 0 20 40 60 80 dB

Figure 2.27 Masquage fréquentiel

La figure 2.28 [Brandenburg et Chiariglione, 2003] montre que l’intensité du signal modifie la courbe de masquage sur la largeur du masque.

De plus, la figure 2.29 [Rossi, 2007] montre que l’oreille possède une plus grande sensibilité en basse fréquence ce qui explique des bandes plus étroites. L’oreille interne se comporte comme un filtre passe-bande psychoacoustique centré sur une fréquence. Les largeurs de bande de la figure 2.29 représentent la largeur de bande des filtres auditifs de l’oreille

Fréquence (Hz) 20 50 100 200 500 1k 2k 5k 10k 20k 0 20 40 60 80 100 dB

Figure 2.28 Largeur des masques selon l’intensité

0.25 1 4 8 Fréquence (kHz) 0 2 4 6 8 10 12 14 16 0 20 40 60 80 dB

Figure 2.29 Largeur des masques selon la valeur de la fréquence

interne (la cochlée). Ainsi, l’oreille interne analyse les sons complexes comme un banc de filtres passe-bande.

La figure 2.29 montre que les masques possèdent des largeurs différentes selon la valeur de la fréquence du son pur et qu’elles s’élargissent vers les fréquences plus élevées. Cette évolution non-linéaire des bandes critiques complique le calcul du masque psychoacous- tique. Afin de simplifier les calculs, une transformation de linéarité s’effectue sur les bandes critiques afin de les transposer sur l’échelle bark au lieu de l’unité des hertz.

Linéarisation des largeurs des bandes critiques

L’échelle bark introduit une linéarité pour les bandes critiques dans le spectre. Ainsi, quelle que soit la largeur de la bande critique elle mesurera toujours 1 bark. La figure 2.30 montre les mêmes masques de la figure 2.29 [Rossi, 2007], mais avec l’échelle bark au lieu des fréquences.

Bark 0 5 10 15 20 25 0 20 40 60 80 dB 250 Hz 500 Hz 1 kHz 2 kHz 4 kHz 8 kHz

Figure 2.30 Largeur des masques avec une échelle bark

La figure 2.31 [Pan, 1995] montre les bandes critiques en fréquence et transposées en échelle bark utilisée dans les modèles de codage MPEG.

Échelle bark

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

Fréquence augmente

1718 19 20 21 22 23 24 25 26

Figure 2.31 Largeur des bandes critiques en hertz et en bark

Cette section a décrit la modélisation psychoacoustique et les phénomènes de masquage souvent utilisés par les modèles perceptuels par transformée. Les modèles perceptuels uti- lisent ces concepts afin de créer le modèle psychoacoustique qui définit le seuil de masquage et par conséquent la limite d’audibilité. Le modèle psychoacoustique contient un ensemble de règles qui indique les sons qui seront masqués. Les modèles de codage MP3 et AAC utilisent ces règles afin d’éliminer l’information jugée superflue à ne pas transmettre. Les prochaines sections du document décrivent les principes de fonctionnement du modèle MPEG-1 layer 3 et des modèles de la famille AAC.