• Aucun résultat trouvé

Chapitre 2 Le Signal Audio 11

2.2 Caract´erisation d’un signal audio

2.2.1 Propri´et´es acoustiques globales

2.2.3 Propri´et´es acoustiques de bas niveau . . . . 19

2.3 M´ethodes de compression . . . . 19

2.1 Structuration d’un signal audio

2.1.1 Perception du son

Le son que nous entendons est le fruit de vibrations se propageant dans l’air et

inter-cept´ees par notre capteur naturel, l’oreille, `a la mani`ere d’une parabole. Cependant, notre

appareil auditif ne per¸coit les sons que s’ils sont compris dans une gamme de fr´equences

allant de 20Hz `a 20KHz environ. Plus pr´ecis´ement, la bande fr´equentielle que capte le

mieux l’oreille humaine varie entre 2KHz et 6KHz puisque l’impression de l’intensit´e

so-nore diff`ere suivant la fr´equence du signal soso-nore per¸cu. En effet, les niveaux de sensibilit´e

(seuil d’audition minimal) et de douleur (seuil maximal) ne sont pas constant et varient en

fonction de la fr´equence (Figure 2.1).

De plus, dans la partie centrale du champ d’audition o`u elle est la plus sensible, l’appareil

auditif humain arrive `a d´eceler une infime variation de l’intensit´e du niveau sonore entre deux

sons s´epar´es de seulement 3Hz. Cependant, la perception d’un signal audio de faible intensit´e

sera modifi´ee par la pr´esence d’un autre signal audio tr`es intense. Ce son de volume plus ´elev´e

pourra mˆeme empˆecher totalement la perception de sons de faible puissance sonore, c’est ce

que l’on appelle le ph´enom`ene de masquage (Figure 2.2). Ce ph´enom`ene se manifeste dans

2.1. Structuration d’un signal audio

Fig.2.1 – Courbe de Fletcher et Munson

une plage de fr´equence autour du signal sonore intense (masquage fr´equentiel) et pendant

toute la dur´ee de ce signal et mˆeme un peu au del`a (masquage temporel). L’exemple le

plus courant est celui d’un avion passant au dessus d’un nid d’oiseaux. Cet ´ev`enement de

volume sonore tr`es ´elev´e empˆeche alors totalement la perception du chant d’oiseaux et se

prolonge quelques instants apr`es le passage de l’avion le temps que notre oreille se r´eadapte

progressivement `a l’ambiance sonore plus faible.

2.1.2 La num´erisation

L’objectif de la num´erisation d’un signal audio est de convertir ce signal en une s´equence

de nombres binaires, pouvant ˆetre trait´es par informatique. Cela s’effectue en mesurant

l’amplitude de l’onde produite par le son `a des intervalles de temps r´eguliers. On peut alors

d´ecomposer la num´erisation en deux ´etapes :

´

Echantillonnage

Tout d’abord, l’´echantillonnage est le fait de d´ecouper de mani`ere r´eguli`ere le signal

analogique (Figure 2.3) et de pr´elever, en quelque sorte, une image instantan´ee du

signal `a chaque ´echantillon. Ainsi, une s´equence d’´echantillons successifs donne une

repr´esentation de la forme de l’onde de la mˆeme mani`ere que les images d’un film

Fig.2.2 – Masquage des sons per¸cus

projet´ees rapidement donnent l’illusion du mouvement.

Fig.2.3 – Technique d’´echantillonnage

Afin de repr´esenter fid`element le signal, il est imp´eratif de pr´elever un nombre

suf-fisant d’´echantillons `a chaque seconde. Comme on peut le voir dans la Figure 2.4,

si on pr´el`eve trop peu d’´echantillons par rapport `a la p´eriode du signal, l’allure de

la forme d’onde ainsi reconstruite sera diff´erente de la forme d’onde d’origine. Afin

d’´eviter ce ph´enom`ene d’aliasing, et selon le th´eor`eme de Shannon [52], la fr´equence

d’´echantillonnage (nombre d’´echantillons par seconde) doit ˆetre au moins ´egale `a deux

fois la fr´equence maximum composant le signal `a num´eriser. Il faut donc d´efinir une

2.1. Structuration d’un signal audio

bonne p´eriode d’´echantillonnage qui permette de restituer toutes les fr´equences du

si-gnal. Or, la fr´equence maximale que puisse entendre une oreille humaine est de 20KHz.

La fr´equence d’´echantillonnage des CD audio doit alors ˆetre sup´erieure `a 40KHz et est

en g´en´eral fix´ee `a 44,1KHz.

Fig.2.4 – Principe du th´eor`eme de Shannon

Quantification

Ensuite, la chaˆıne d’impulsions est cod´ee. La quantification consiste `a ´evaluer

l’ampli-tude de chacun des ´echantillons du signal et `a placer ces amplitudes sur une ´echelle

de valeurs `a intervalles fixes (Figure 2.5). Cette ´echelle est d´efinie suivant l’amplitude

maximale et minimale possible et divise cet ´ecart d’amplitudes en une s´erie de paliers

de hauteur ´egale. Ce proc´ed´e permet donc d’attribuer `a chaque ´echantillon un mot

binaire en fonction du palier auquel il correspond. En binaire, le nombre de pas de

quantification sera alors ´egal `a 2n, avec n le nombre de bits utilis´es pour repr´esenter

chaque ´echantillon. En ce qui concerne les CD audio, cette valeur est ´egale `a 16 bits,

soit 216= 65536 paliers.

Par cons´equent, le stockage d’une minute de signal audio st´er´eo, cod´e sur 2 octets par

voie et ´echantillonn´e `a 44,1KHz n´ecessitera : 60∗2∗2∗44100 = 10,6M o

2.1.3 La repr´esentation fr´equentielle

Un ph´enom`ene physique d´ependant du temps est d´ecrit par un ou plusieurs signaux.

Cependant, on ne peut interpr´eter ces signaux de fa¸con simple. Le probl`eme est donc de

trouver une mani`ere de d´ecrire leur comportement. Plus particuli`erement, le son est

com-Fig.2.5 – Technique de quantification

pos´e d’une somme de signaux de fr´equences, amplitudes et phases diff´erentes. L’analyse

spectrale regroupe un ensemble de m´ethodes permettant d’analyser un signal dans le

do-maine fr´equentiel. Elle nous permet notamment de d´eterminer la fr´equence fondamentale

ainsi que les fr´equences dites harmoniques qui composent le signal sonore (Figure 2.6).

Fig.2.6 – Repr´esentation spectrale

L’outil math´ematique g´en´eralement utilis´e pour effectuer cette d´ecomposition spectrale

continue est la transform´ee de Fourier. Cette technique permet en effet de d´ecrire la puissance

des fr´equences qui composent le signal audio.

2.2. Caract´erisation d’un signal audio

Un signal audio peut donc ˆetre caract´eris´e par ses propri´et´es temporelles et fr´equentielles.

2.2 Caract´erisation d’un signal audio

Le nombre et la vari´et´e de contenus audio ont ouvert la voie `a de nombreux domaines

de recherche en rapport avec des applications `a vocation industrielle. Ces applications se

heurtent g´en´eralement aux mˆemes probl´ematiques de recherche : ((comment caract´eriser

un document audio ?)) ou ((quelle propri´et´e ou caract´eristique du signal va permettre de

r´esoudre le probl`eme pos´e par l’application ?)). Comme introduit en section 1.2, un signal

audio peut ˆetre caract´eris´e `a partir de propri´et´es appartenant `a diff´erents domaines

d’abs-traction, acoustiques ou culturels par exemple. Une propri´et´e acoustique signifie que cette

information est obtenue `a partir de l’analyse du fichier audio sans r´ef´erence `a une

informa-tion textuelle [48]. Par cons´equent, il s’agit d’une informainforma-tion obtenue `a partir du signal.

Or, parmi les propri´et´es acoustiques du signal, il existe trois facteurs d’´echelle permettant

de d´efinir la mani`ere d’extraire ces descripteurs.

Descripteurs Globaux : Les descripteurs globaux regroupent un panel de propri´et´es qui

d´ecrivent un document audio dans sa totalit´e. Ce qui signifie que chacune de ses

propri´et´es ne peut ˆetre extraite qu’`a partir de l’´etude de toute la dur´ee du signal audio.

Le genre, le rythme, ou encore l’humeur sont, par exemple, des descripteurs globaux.

On remarque que ces descripteurs ont une r´eelle signification pour un utilisateur et ne

n´ecessitent aucune connaissance sp´ecifique. De plus, ces propri´et´es sont d´efinies par

des termes linguistiques et non par des valeurs. En effet le genre peut avoir comme

d´efinition ”rock”, le rythme ”lent et l’humeur ”m´elancolique”. Par cons´equent, ce

genre de descripteur est tr`es utilis´e dans les catalogues des distributeurs ou moteurs

de recherche.

Descripteurs Interm´ediaires : Les descripteurs de niveau interm´ediaire regroupent des

propri´et´es r´esultant de l’analyse de quelques secondes de signal audio. Cela permet

en g´en´eral de d´etecter certains ph´enom`enes acoustiques `a cette ´echelle. On peut donc

segmenter un signal audio par d´etection de texture ou ruptures ce qui permet de s´eparer

le signal en parties bien distinctes. Chaque partie ainsi extraite est class´ee dans une

des cat´egories, d´efinies en fonction de l’application. Ce genre de descripteur est par

exemple utilis´e pour segmenter les ´emissions radio en trois parties (voix-jingle-musique)

ou effectuer un r´esum´e d’extrait musical (chant-instrumental et

introduction-couplet-refrain).

Descripteurs Locaux : Les descripteurs locaux sont calcul´es `a partir de quelques dixi`emes

voir millisecondes du signal et ne sont en g´en´eral compr´ehensibles que pour des experts.

On y retrouve le timbre, la percussivit´e, la hauteur, ... Ces propri´et´es sont g´en´eralement

utilis´ees dans des applications n´ecessitant la gestion de bases de donn´ees de grande

taille.

2.2.1 Propri´et´es acoustiques globales

Un exemple typique d’information acoustique est le tempo, c’est `a dire le nombre de

pulsations par seconde. L’extraction des pulsations et du tempo a longuement int´eress´e la

communaut´e du traitement du signal et certains syst`emes obtiennent `a l’heure actuelle des

performances int´eressantes[51]. D’autres informations plus complexes peuvent ´egalement ˆetre

extraites comme la structure du rythme. Derri`ere le rythme, d’autres perceptions virtuelles

ont ´et´e sujettes `a de nombreuses investigations comme la percussivit´e, la reconnaissance

des instruments[29] , ou encore l’´energie per¸cue[61], voir mˆeme l’humeur[42]. Cependant, `a

notre connaissance, aucune application commerciale n’utilise encore ces descripteurs. Mais

nul doute que l’efficacit´e de ceux-ci s’am´eliorera dans les prochaines ann´ees grˆace `a l’attention

croissante dont ils font l’objet.

Documents relatifs