Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Propri´et´es acoustiques globales

Dans le document Méthodes d'identification pour le contrôle de l'utilisation de documents audio (Page 29-35)

Chapitre 2 Le Signal Audio 11

2.2 Caract´erisation d’un signal audio

2.2.1 Propri´et´es acoustiques globales

2.2.3 Propri´et´es acoustiques de bas niveau . . . . 19

2.3 M´ethodes de compression . . . . 19

2.1 Structuration d’un signal audio

2.1.1 Perception du son

Le son que nous entendons est le fruit de vibrations se propageant dans l’air et

inter-ceptées par notre capteur naturel, l’oreille, à la manière d’une parabole. Cependant, notre

appareil auditif ne per¸coit les sons que s’ils sont compris dans une gamme de fr´equences

allant de 20Hz à 20KHz environ. Plus précisément, la bande fréquentielle que capte le

mieux l’oreille humaine varie entre 2KHz et 6KHz puisque l’impression de l’intensit´e

so-nore diffère suivant la fréquence du signal soso-nore per¸cu. En effet, les niveaux de sensibilité

(seuil d’audition minimal) et de douleur (seuil maximal) ne sont pas constant et varient en

fonction de la fr´equence (Figure 2.1).

De plus, dans la partie centrale du champ d’audition o`u elle est la plus sensible, l’appareil

auditif humain arrive à déceler une infime variation de l’intensité du niveau sonore entre deux

sons séparés de seulement 3Hz. Cependant, la perception d’un signal audio de faible intensité

sera modifiée par la présence d’un autre signal audio très intense. Ce son de volume plus élevé

pourra mˆeme empˆecher totalement la perception de sons de faible puissance sonore, c’est ce

que l’on appelle le phénomène de masquage (Figure 2.2). Ce phénomène se manifeste dans

2.1. Structuration d’un signal audio

Fig.2.1 – Courbe de Fletcher et Munson

une plage de fr´equence autour du signal sonore intense (masquage fr´equentiel) et pendant

toute la durée de ce signal et même un peu au delà (masquage temporel). L’exemple le

plus courant est celui d’un avion passant au dessus d’un nid d’oiseaux. Cet ´ev`enement de

volume sonore très élevé empêche alors totalement la perception du chant d’oiseaux et se

prolonge quelques instants apr`es le passage de l’avion le temps que notre oreille se r´eadapte

progressivement `a l’ambiance sonore plus faible.

2.1.2 La num´erisation

L’objectif de la num´erisation d’un signal audio est de convertir ce signal en une s´equence

de nombres binaires, pouvant ˆetre trait´es par informatique. Cela s’effectue en mesurant

l’amplitude de l’onde produite par le son `a des intervalles de temps r´eguliers. On peut alors

décomposer la numérisation en deux étapes :

´

Echantillonnage

Tout d’abord, l’échantillonnage est le fait de découper de manière régulière le signal

analogique (Figure 2.3) et de pr´elever, en quelque sorte, une image instantan´ee du

signal à chaque échantillon. Ainsi, une séquence d’échantillons successifs donne une

représentation de la forme de l’onde de la même manière que les images d’un film

Fig.2.2 – Masquage des sons per¸cus

projet´ees rapidement donnent l’illusion du mouvement.

Fig.2.3 – Technique d’´echantillonnage

Afin de représenter fidèlement le signal, il est impératif de prélever un nombre

suf-fisant d’´echantillons `a chaque seconde. Comme on peut le voir dans la Figure 2.4,

si on prélève trop peu d’échantillons par rapport à la période du signal, l’allure de

la forme d’onde ainsi reconstruite sera diff´erente de la forme d’onde d’origine. Afin

d’éviter ce phénomène d’aliasing, et selon le théorème de Shannon [52], la fréquence

d’échantillonnage (nombre d’échantillons par seconde) doit être au moins égale à deux

fois la fréquence maximum composant le signal à numériser. Il faut donc définir une

2.1. Structuration d’un signal audio

bonne période d’échantillonnage qui permette de restituer toutes les fréquences du

si-gnal. Or, la fr´equence maximale que puisse entendre une oreille humaine est de 20KHz.

La fréquence d’échantillonnage des CD audio doit alors être supérieure à 40KHz et est

en général fixée à 44,1KHz.

Fig.2.4 – Principe du th´eor`eme de Shannon

Quantification

Ensuite, la chaˆıne d’impulsions est codée. La quantification consiste à évaluer

l’ampli-tude de chacun des échantillons du signal et à placer ces amplitudes sur une échelle

de valeurs à intervalles fixes (Figure 2.5). Cette échelle est définie suivant l’amplitude

maximale et minimale possible et divise cet ´ecart d’amplitudes en une s´erie de paliers

de hauteur égale. Ce procédé permet donc d’attribuer à chaque échantillon un mot

binaire en fonction du palier auquel il correspond. En binaire, le nombre de pas de

quantification sera alors égal à 2n, avec n le nombre de bits utilisés pour représenter

chaque échantillon. En ce qui concerne les CD audio, cette valeur est égale à 16 bits,

soit 216= 65536 paliers.

Par conséquent, le stockage d’une minute de signal audio stéréo, codé sur 2 octets par

voie et échantillonné à 44,1KHz nécessitera : 60∗2∗2∗44100 = 10,6M o

2.1.3 La repr´esentation fr´equentielle

Un phénomène physique dépendant du temps est décrit par un ou plusieurs signaux.

Cependant, on ne peut interpr´eter ces signaux de fa¸con simple. Le probl`eme est donc de

trouver une manière de décrire leur comportement. Plus particulièrement, le son est

com-Fig.2.5 – Technique de quantification

posé d’une somme de signaux de fréquences, amplitudes et phases différentes. L’analyse

spectrale regroupe un ensemble de m´ethodes permettant d’analyser un signal dans le

do-maine fréquentiel. Elle nous permet notamment de déterminer la fréquence fondamentale

ainsi que les fr´equences dites harmoniques qui composent le signal sonore (Figure 2.6).

Fig.2.6 – Repr´esentation spectrale

L’outil mathématique généralement utilisé pour effectuer cette décomposition spectrale

continue est la transform´ee de Fourier. Cette technique permet en effet de d´ecrire la puissance

des fr´equences qui composent le signal audio.

2.2. Caract´erisation d’un signal audio

Un signal audio peut donc être caractérisé par ses propriétés temporelles et fréquentielles.

2.2 Caract´erisation d’un signal audio

Le nombre et la variété de contenus audio ont ouvert la voie à de nombreux domaines

de recherche en rapport avec des applications `a vocation industrielle. Ces applications se

heurtent généralement aux mêmes problématiques de recherche : ₍₍comment caractériser

un document audio ?₎₎ ou ₍₍quelle propriété ou caractéristique du signal va permettre de

résoudre le problème posé par l’application ?₎₎. Comme introduit en section 1.2, un signal

audio peut être caractérisé à partir de propriétés appartenant à différents domaines

d’abs-traction, acoustiques ou culturels par exemple. Une propri´et´e acoustique signifie que cette

information est obtenue à partir de l’analyse du fichier audio sans référence à une

informa-tion textuelle [48]. Par cons´equent, il s’agit d’une informainforma-tion obtenue `a partir du signal.

Or, parmi les propriétés acoustiques du signal, il existe trois facteurs d’échelle permettant

de d´efinir la mani`ere d’extraire ces descripteurs.

Descripteurs Globaux : Les descripteurs globaux regroupent un panel de propri´et´es qui

d´ecrivent un document audio dans sa totalit´e. Ce qui signifie que chacune de ses

propriétés ne peut être extraite qu’à partir de l’étude de toute la durée du signal audio.

Le genre, le rythme, ou encore l’humeur sont, par exemple, des descripteurs globaux.

On remarque que ces descripteurs ont une r´eelle signification pour un utilisateur et ne

nécessitent aucune connaissance spécifique. De plus, ces propriétés sont définies par

des termes linguistiques et non par des valeurs. En effet le genre peut avoir comme

définition ”rock”, le rythme ”lent et l’humeur ”mélancolique”. Par conséquent, ce

genre de descripteur est tr`es utilis´e dans les catalogues des distributeurs ou moteurs

de recherche.

Descripteurs Interm´ediaires : Les descripteurs de niveau interm´ediaire regroupent des

propriétés résultant de l’analyse de quelques secondes de signal audio. Cela permet

en général de détecter certains phénomènes acoustiques à cette échelle. On peut donc

segmenter un signal audio par d´etection de texture ou ruptures ce qui permet de s´eparer

le signal en parties bien distinctes. Chaque partie ainsi extraite est class´ee dans une

des cat´egories, d´efinies en fonction de l’application. Ce genre de descripteur est par

exemple utilis´e pour segmenter les ´emissions radio en trois parties (voix-jingle-musique)

ou effectuer un r´esum´e d’extrait musical (chant-instrumental et

introduction-couplet-refrain).

Descripteurs Locaux : Les descripteurs locaux sont calculés à partir de quelques dixièmes

voir millisecondes du signal et ne sont en général compréhensibles que pour des experts.

On y retrouve le timbre, la percussivité, la hauteur, ... Ces propriétés sont généralement

utilisées dans des applications nécessitant la gestion de bases de données de grande

taille.

2.2.1 Propri´et´es acoustiques globales

Un exemple typique d’information acoustique est le tempo, c’est `a dire le nombre de

pulsations par seconde. L’extraction des pulsations et du tempo a longuement int´eress´e la

communauté du traitement du signal et certains systèmes obtiennent à l’heure actuelle des

performances intéressantes[51]. D’autres informations plus complexes peuvent également être

extraites comme la structure du rythme. Derri`ere le rythme, d’autres perceptions virtuelles

ont été sujettes à de nombreuses investigations comme la percussivité, la reconnaissance

des instruments[29] , ou encore l’énergie per¸cue[61], voir même l’humeur[42]. Cependant, à

notre connaissance, aucune application commerciale n’utilise encore ces descripteurs. Mais

nul doute que l’efficacité de ceux-ci s’améliorera dans les prochaines années grâce à l’attention

croissante dont ils font l’objet.

Dans le document Méthodes d'identification pour le contrôle de l'utilisation de documents audio (Page 29-35)

Télécharger maintenant "Méthodes d'identificat..."

Outline

Documents relatifs