Chapitre 2 Le Signal Audio 11
2.2 Caract´erisation d’un signal audio
2.2.1 Propri´et´es acoustiques globales
2.2.3 Propri´et´es acoustiques de bas niveau . . . . 19
2.3 M´ethodes de compression . . . . 19
2.1 Structuration d’un signal audio
2.1.1 Perception du son
Le son que nous entendons est le fruit de vibrations se propageant dans l’air et
inter-cept´ees par notre capteur naturel, l’oreille, `a la mani`ere d’une parabole. Cependant, notre
appareil auditif ne per¸coit les sons que s’ils sont compris dans une gamme de fr´equences
allant de 20Hz `a 20KHz environ. Plus pr´ecis´ement, la bande fr´equentielle que capte le
mieux l’oreille humaine varie entre 2KHz et 6KHz puisque l’impression de l’intensit´e
so-nore diff`ere suivant la fr´equence du signal soso-nore per¸cu. En effet, les niveaux de sensibilit´e
(seuil d’audition minimal) et de douleur (seuil maximal) ne sont pas constant et varient en
fonction de la fr´equence (Figure 2.1).
De plus, dans la partie centrale du champ d’audition o`u elle est la plus sensible, l’appareil
auditif humain arrive `a d´eceler une infime variation de l’intensit´e du niveau sonore entre deux
sons s´epar´es de seulement 3Hz. Cependant, la perception d’un signal audio de faible intensit´e
sera modifi´ee par la pr´esence d’un autre signal audio tr`es intense. Ce son de volume plus ´elev´e
pourra mˆeme empˆecher totalement la perception de sons de faible puissance sonore, c’est ce
que l’on appelle le ph´enom`ene de masquage (Figure 2.2). Ce ph´enom`ene se manifeste dans
2.1. Structuration d’un signal audio
Fig.2.1 – Courbe de Fletcher et Munson
une plage de fr´equence autour du signal sonore intense (masquage fr´equentiel) et pendant
toute la dur´ee de ce signal et mˆeme un peu au del`a (masquage temporel). L’exemple le
plus courant est celui d’un avion passant au dessus d’un nid d’oiseaux. Cet ´ev`enement de
volume sonore tr`es ´elev´e empˆeche alors totalement la perception du chant d’oiseaux et se
prolonge quelques instants apr`es le passage de l’avion le temps que notre oreille se r´eadapte
progressivement `a l’ambiance sonore plus faible.
2.1.2 La num´erisation
L’objectif de la num´erisation d’un signal audio est de convertir ce signal en une s´equence
de nombres binaires, pouvant ˆetre trait´es par informatique. Cela s’effectue en mesurant
l’amplitude de l’onde produite par le son `a des intervalles de temps r´eguliers. On peut alors
d´ecomposer la num´erisation en deux ´etapes :
´
Echantillonnage
Tout d’abord, l’´echantillonnage est le fait de d´ecouper de mani`ere r´eguli`ere le signal
analogique (Figure 2.3) et de pr´elever, en quelque sorte, une image instantan´ee du
signal `a chaque ´echantillon. Ainsi, une s´equence d’´echantillons successifs donne une
repr´esentation de la forme de l’onde de la mˆeme mani`ere que les images d’un film
Fig.2.2 – Masquage des sons per¸cus
projet´ees rapidement donnent l’illusion du mouvement.
Fig.2.3 – Technique d’´echantillonnage
Afin de repr´esenter fid`element le signal, il est imp´eratif de pr´elever un nombre
suf-fisant d’´echantillons `a chaque seconde. Comme on peut le voir dans la Figure 2.4,
si on pr´el`eve trop peu d’´echantillons par rapport `a la p´eriode du signal, l’allure de
la forme d’onde ainsi reconstruite sera diff´erente de la forme d’onde d’origine. Afin
d’´eviter ce ph´enom`ene d’aliasing, et selon le th´eor`eme de Shannon [52], la fr´equence
d’´echantillonnage (nombre d’´echantillons par seconde) doit ˆetre au moins ´egale `a deux
fois la fr´equence maximum composant le signal `a num´eriser. Il faut donc d´efinir une
2.1. Structuration d’un signal audio
bonne p´eriode d’´echantillonnage qui permette de restituer toutes les fr´equences du
si-gnal. Or, la fr´equence maximale que puisse entendre une oreille humaine est de 20KHz.
La fr´equence d’´echantillonnage des CD audio doit alors ˆetre sup´erieure `a 40KHz et est
en g´en´eral fix´ee `a 44,1KHz.
Fig.2.4 – Principe du th´eor`eme de Shannon
Quantification
Ensuite, la chaˆıne d’impulsions est cod´ee. La quantification consiste `a ´evaluer
l’ampli-tude de chacun des ´echantillons du signal et `a placer ces amplitudes sur une ´echelle
de valeurs `a intervalles fixes (Figure 2.5). Cette ´echelle est d´efinie suivant l’amplitude
maximale et minimale possible et divise cet ´ecart d’amplitudes en une s´erie de paliers
de hauteur ´egale. Ce proc´ed´e permet donc d’attribuer `a chaque ´echantillon un mot
binaire en fonction du palier auquel il correspond. En binaire, le nombre de pas de
quantification sera alors ´egal `a 2n, avec n le nombre de bits utilis´es pour repr´esenter
chaque ´echantillon. En ce qui concerne les CD audio, cette valeur est ´egale `a 16 bits,
soit 216= 65536 paliers.
Par cons´equent, le stockage d’une minute de signal audio st´er´eo, cod´e sur 2 octets par
voie et ´echantillonn´e `a 44,1KHz n´ecessitera : 60∗2∗2∗44100 = 10,6M o
2.1.3 La repr´esentation fr´equentielle
Un ph´enom`ene physique d´ependant du temps est d´ecrit par un ou plusieurs signaux.
Cependant, on ne peut interpr´eter ces signaux de fa¸con simple. Le probl`eme est donc de
trouver une mani`ere de d´ecrire leur comportement. Plus particuli`erement, le son est
com-Fig.2.5 – Technique de quantification
pos´e d’une somme de signaux de fr´equences, amplitudes et phases diff´erentes. L’analyse
spectrale regroupe un ensemble de m´ethodes permettant d’analyser un signal dans le
do-maine fr´equentiel. Elle nous permet notamment de d´eterminer la fr´equence fondamentale
ainsi que les fr´equences dites harmoniques qui composent le signal sonore (Figure 2.6).
Fig.2.6 – Repr´esentation spectrale
L’outil math´ematique g´en´eralement utilis´e pour effectuer cette d´ecomposition spectrale
continue est la transform´ee de Fourier. Cette technique permet en effet de d´ecrire la puissance
des fr´equences qui composent le signal audio.
2.2. Caract´erisation d’un signal audio
Un signal audio peut donc ˆetre caract´eris´e par ses propri´et´es temporelles et fr´equentielles.
2.2 Caract´erisation d’un signal audio
Le nombre et la vari´et´e de contenus audio ont ouvert la voie `a de nombreux domaines
de recherche en rapport avec des applications `a vocation industrielle. Ces applications se
heurtent g´en´eralement aux mˆemes probl´ematiques de recherche : ((comment caract´eriser
un document audio ?)) ou ((quelle propri´et´e ou caract´eristique du signal va permettre de
r´esoudre le probl`eme pos´e par l’application ?)). Comme introduit en section 1.2, un signal
audio peut ˆetre caract´eris´e `a partir de propri´et´es appartenant `a diff´erents domaines
d’abs-traction, acoustiques ou culturels par exemple. Une propri´et´e acoustique signifie que cette
information est obtenue `a partir de l’analyse du fichier audio sans r´ef´erence `a une
informa-tion textuelle [48]. Par cons´equent, il s’agit d’une informainforma-tion obtenue `a partir du signal.
Or, parmi les propri´et´es acoustiques du signal, il existe trois facteurs d’´echelle permettant
de d´efinir la mani`ere d’extraire ces descripteurs.
Descripteurs Globaux : Les descripteurs globaux regroupent un panel de propri´et´es qui
d´ecrivent un document audio dans sa totalit´e. Ce qui signifie que chacune de ses
propri´et´es ne peut ˆetre extraite qu’`a partir de l’´etude de toute la dur´ee du signal audio.
Le genre, le rythme, ou encore l’humeur sont, par exemple, des descripteurs globaux.
On remarque que ces descripteurs ont une r´eelle signification pour un utilisateur et ne
n´ecessitent aucune connaissance sp´ecifique. De plus, ces propri´et´es sont d´efinies par
des termes linguistiques et non par des valeurs. En effet le genre peut avoir comme
d´efinition ”rock”, le rythme ”lent et l’humeur ”m´elancolique”. Par cons´equent, ce
genre de descripteur est tr`es utilis´e dans les catalogues des distributeurs ou moteurs
de recherche.
Descripteurs Interm´ediaires : Les descripteurs de niveau interm´ediaire regroupent des
propri´et´es r´esultant de l’analyse de quelques secondes de signal audio. Cela permet
en g´en´eral de d´etecter certains ph´enom`enes acoustiques `a cette ´echelle. On peut donc
segmenter un signal audio par d´etection de texture ou ruptures ce qui permet de s´eparer
le signal en parties bien distinctes. Chaque partie ainsi extraite est class´ee dans une
des cat´egories, d´efinies en fonction de l’application. Ce genre de descripteur est par
exemple utilis´e pour segmenter les ´emissions radio en trois parties (voix-jingle-musique)
ou effectuer un r´esum´e d’extrait musical (chant-instrumental et
introduction-couplet-refrain).
Descripteurs Locaux : Les descripteurs locaux sont calcul´es `a partir de quelques dixi`emes
voir millisecondes du signal et ne sont en g´en´eral compr´ehensibles que pour des experts.
On y retrouve le timbre, la percussivit´e, la hauteur, ... Ces propri´et´es sont g´en´eralement
utilis´ees dans des applications n´ecessitant la gestion de bases de donn´ees de grande
taille.
2.2.1 Propri´et´es acoustiques globales
Un exemple typique d’information acoustique est le tempo, c’est `a dire le nombre de
pulsations par seconde. L’extraction des pulsations et du tempo a longuement int´eress´e la
communaut´e du traitement du signal et certains syst`emes obtiennent `a l’heure actuelle des
performances int´eressantes[51]. D’autres informations plus complexes peuvent ´egalement ˆetre
extraites comme la structure du rythme. Derri`ere le rythme, d’autres perceptions virtuelles
ont ´et´e sujettes `a de nombreuses investigations comme la percussivit´e, la reconnaissance
des instruments[29] , ou encore l’´energie per¸cue[61], voir mˆeme l’humeur[42]. Cependant, `a
notre connaissance, aucune application commerciale n’utilise encore ces descripteurs. Mais
nul doute que l’efficacit´e de ceux-ci s’am´eliorera dans les prochaines ann´ees grˆace `a l’attention
croissante dont ils font l’objet.
Dans le document
Méthodes d'identification pour le contrôle de l'utilisation de documents audio
(Page 29-35)