• Aucun résultat trouvé

Le modèle convolutif introduit la relation entre le M`eme signal mélangé et les si-

gnaux source, en supposant un processus de mélange convolutif y compris le retard suivant l’équation 5.1. Ce processus de mélange convolutif peut être simplifié, en trans- formant les mélanges dans le domaine fréquentiel. La convolution linéaire dans le do- maine temporel peut être écrite dans le domaine fréquentiel comme des multiplications pour chaque fréquence tel qu’indiqué dans l’équation 2.8.

À chaque fréquence f, A(f) est une matrice complexe N ×M, X(f) est un vecteur complexe de dimension M × 1, et de même S(f) est un vecteur complexe N × 1. La transformation en fréquence est généralement calculée en utilisant une transformée de Fourier discrète (DFT) dans un délai de taille T à partir de l’instant t :

X (f, t) = DF T (x(t), ...x (t + T − 1)) , (5.4) et de même pour S(f, t). Souvent, une fenêtre est utilisée pour une transformation de Fourier discrète :

X(f, t) =

T −1

τ =0

w(τ )x (t + τ ) e−j2πf τ /T, (5.5)

où la fonction fenêtre w(τ) est choisie pour minimiser le chevauchement entre les bandes de fréquence. En utilisant la transformée de Fourier rapide (FFT) les convolutions peuvent être mises en œuvre efficacement dans le domaine de la transformée de Fourier discrète.

Nous avons utilisé deux types de mélange convolutif pour valider nos expériences. Le premier mélange utilise les filtres Head Related Transfer Function (HRTF), le second représente un mélange anéchoïque.

5.3.1 Modèle de filtres « Head Related Transfer Function » : HRTF

La technique de spatialisation sonore la plus proche de l’écoute naturelle est une technique reposant sur la reproduction au niveau des oreilles d’un auditeur de toutes les informations nécessaires pour la construction d’une image sonore extra-crânienne. Cette synthèse permet une localisation précise des sources sonores en trois dimensions ainsi qu’un rendu fidèle de l’environnement sonore (effet de salle). La diffusion des informations est réalisée grâce à un casque stéréophonique classique contrairement aux autres systèmes qui utilisent des hauts parleurs. L’utilisation d’un casque, et d’un système de suivi de mouvement, permet une immersion totale de l’auditeur dans une scène sonore sans interaction avec le monde extérieur. De plus, cette synthèse est réalisée grâce à des filtres de spatialisation et on peut extraire les indices perceptifs qui gouvernent la localisation sonore. Cette spécificité autorise l’étude psycho-acoustique des indices de localisation.

La technique de reproduction consiste à recréer, directement au niveau de chaque oreille, les signaux correspondants au champ acoustique que l’on souhaite simuler. Du point de vue matériel, cette technique fait donc appel comme nous l’avons cité, à un casque placé sur les oreilles de l’auditeur, permettant de contrôler de façon indépen- dante les signaux envoyés à chacune des oreilles.

Le principe est d’appliquer à la source sonore deux filtres différents pour construire les deux signaux destinés à chaque oreille ; ces filtres étant eux même dépendants de la position souhaitée de la source. Pour donner une impression réaliste, les signaux reconstruits doivent tenir compte de la présence d’un déphasage entre les deux oreilles, mais également des effets de masquage dus à la tête. Pour cela, il est nécessaire de posséder une banque de données rassemblant les différentes fonctions de transfert vers les deux oreilles, depuis un ensemble de points de l’espace. Cet ensemble de filtres est dénommé HRTF. Le fonctionnement du système est résumé dans la figure 5.3.

De scrip tion de la So urce (signa l Mo no)

Filtre G auch e Filtre D roit Position d e la sou rce Base de donnée binaurale (HRTF)

F.5.3 — Schéma de principe de la reproduction des sources au niveau des oreilles du mannequin.

sion et réflexion que subit une onde sonore lors de son trajet entre son point source et l’entrée du canal auditif de l’auditeur. Toutes les informations de spatialisations sont consignées dans les HRTF. Ces derniers sont propres à l’individu et à la position de l’espace simulée. Le principe de la mesure de HRTF est de placer des microphones dans les oreilles et d’enregistrer les signaux qui correspondent à différentes positions de source. Les HRTF sont les fonctions de transfert entre les signaux sources et les signaux au niveau des oreilles.

F. 5.4 — Représentation des signaux sources et des signaux au niveau des oreilles [129].

Les HRTF peuvent être représentées soit par des fonctions complexes soit par une approche traitement du signal qui les représentent comme des filtres ou des réponses impulsionnelles. Les HRTF sont alors considérées comme des systèmes linéaires et inva- riants dans le temps. De plus, provenant de mesures physiques, elles sont représentées par des filtres RIF (Réponse Impulsionnelle Finie), ou FIR en anglais (Finite Impulse Response), causales et stables.

5.3.2 Modèle de mélange anéchoïque

Un mélange anéchoïque est un mélange à «atténuations et décalages temporels» ; les observations sont des combinaisons linéaires des différentes sources qui sont décalées temporellement.

Afin de modéliser un enregistrement d’une scène auditive effectué à l’aide de mi- crophones placés dans une salle dans laquelle les parois sont supposées anéchoïque, on utilise le modèle de mélange suivant :

xm(t) = N



m=1

amsn(t − dmn) 1 ≤ m ≤ M. (5.6)

dmn. Le délai dmnreprésente l’intervalle de temps entre l’émission du son par la source

n et la captation de celui-ci par le microphone m. Ce délai est indéterminable dans l’absolu, mais on peut le caractériser par la différence de temps d’arrivée entre les canaux. Pour fixer cette indétermination, nous supposerons que d1n= 0. Ce type de

mélange inclut le cas où la propagation des ondes sonores se fait selon un trajet unique des sources aux capteurs et le temps de propagation n’est pas négligeable [125] (voir Figure 5.5).

s

1

(t)

s

2

(t)

x

1

(t)

x

2

(t)

F.5.5 — Modèle de mélange anéchoïque [125].

Nous supposons que nous n’avons aucune réflexion, et donc les ondes provenant directement des sources avec leur affaiblissement et leurs délais respectifs sont les seuls signaux reçus par les capteurs. L’équation 5.6 du mélange anéchoïque peut s’écrire de façon approximative dans le domaine de la transformée de Fourier à court terme par l’expression 2.5.