• Aucun résultat trouvé

Finalement, la qualité globale de séparation est mesurée par le SDR (signal to distortion ratio) défini par : SDRj = 10 log I P i=1 T −1 P t=0 yij(t)2 I P i=1 T −1 P t=0 h espatij (t) + einterf ij (t) + eartifij (t) i2. (2.75)

2.6.2 Évaluation en matière de scores perceptifs

La méthode d’évaluation initialement introduite dans [Emiya et al.,2011] puis améliorée dans [Vincent,2012] a pour objectif d’intégrer un aspect perceptif dans le calcul des mesures objectives. Cette méthode propose tout d’abord de calculer les composantes d’erreur de la décomposition (2.68) grâce à un processus d’analyse/synthèse par banc de filtres gammatone de la source estimée ˆ

yij(t), ceci afin d’approcher le traitement effectué par le système auditif.

Ces composantes sont ensuite utilisées pour calculer de nouvelles mesures objectives intégrant un aspect perceptif. L’importance des distorsions individuelles (spatiale, interférences et artéfacts) est évaluée grâce à une mesure de similarité perceptive entre le signal source estimé ˆyij(t) et ce même signal après lui avoir soustrait l’erreur considérée : ˆyij(t) − espat/interf/artifij (t). Une quatrième mesure de distorsion globale est calculée en évaluant la similarité perceptive entre la source esti- mée ˆyij(t) et la vraie source yij(t). On obtient ainsi un vecteur de descripteurs contenant quatre mesures de similarité.

Ces descripteurs sont ensuite utilisés comme vecteur d’entrée de quatre réseaux de neurones indépendants. Chaque réseau fournit en sortie un score exprimé en pourcent permettant d’évaluer les performances de séparation suivant la qualité globale, les distorsions spatiales, les interférences et les artéfacts ; respectivement l’OPS (overall perceptual score), le TPS (target perceptual score), l’IPS (interference perceptual score) et l’APS (artifact perceptual score). Les réseaux de neurones sont entraînés afin de minimiser l’erreur quadratique moyenne entre le score prédit et celui obtenu par un ensemble d’individus dans le cadre d’une évaluation subjective.

2.7

Bases de données

Nous présentons dans cette section les bases de données qui seront utilisées pour évaluer les méthodes de séparation de sources développées dans cette thèse. Nous utilisons les signaux sources de la base de données MASS du MTG [Vinyes,2008]. Les sources sélectionnées sont celles pour lesquelles aucun effet n’a été appliqué d’après les informations fournies avec la base de don- nées. Chaque source étant proposée dans un format stéréophonique, nous les convertissons tout d’abord au format monophonique et les sous-échantillonnons à 16 kHz. Ces sources sont ensuite convoluées avec des filtres de mélanges pour donner des sources images stéréophoniques qui sont finalement sommées pour créer un mélange stéréophonique. On obtient ainsi 8 mélanges décrits dans le tableau 2.1.

Dans cette thèse nous avons utilisé des filtres de mélange correspondant à des réponses de salle synthétiques ou mesurées. Les bases de données créées sont les suivantes :

1. «MASS-Synthétique» :

. Réponses impulsionnelles de salle simulées par la méthode des sources images grâce à la boîte à outils «Roomsimove» [Vincent et Campbell,2008].

. Temps de réverbération : Ajustable.

. Distance entre les sources et le centre de la paire de microphones : 1 m. 2. «MASS-RWCP» :

. Réponses impulsionnelles de salle mesurées et fournies avec [Nakamura et al.,2000]. . Temps de réverbération : 470 ms.

. Distance entre les sources et le centre de la paire de microphones : 2 m. 3. «MASS-MIRD» :

. Réponses impulsionnelles de salle mesurées et fournies avec [Hadad et al.,2014]. . Temps de réverbération : 160, 360 ou 610 ms.

. Distance entre les sources et le centre de la paire de microphones : 1 m.

Il est important de mentionner que toutes les sources sont disjointes spatialement dans les mélanges que nous utilisons.

mélange durée source 1 source 2 source 3 source 4 source 5

1 28 s piano balais basse - -

2 14 s batterie voix piano basse -

3 24 s batterie guitare basse - -

4 28 s batterie voix guitare guitare -

5 18 s basse guitare batterie - -

6 15 s batterie voix guitare basse -

7 25 s batterie voix guitare guitare basse

8 12 s batterie voix basse - -

Modélisation du mélange dans le

domaine fréquentiel

Modèles de réponse en fréquence de

salle

Sommaire

3.1 Introduction . . . 52 3.2 Réponses impulsionnelle et fréquentielle de salle . . . 53 3.3 Modèle de contributions précoces . . . 53 3.3.1 Modèle autorégressif . . . 54 3.3.2 Choix de l’ordre du modèle . . . 55 3.4 Modèle de réverbération tardive . . . 55 3.4.1 Autocovariance et densité spectrale de puissance théoriques . . . 57 3.4.2 Paramétrisation autorégressive à moyenne ajustée . . . 59 3.5 Conclusion . . . 63

3.1

Introduction

Considérons un espace clos dans lequel se trouve une source ponctuelle et un point d’obser- vation distinct identifié par la présence d’un microphone. Comme introduit au chapitre 1, lorsque la source émet un son, le signal capté par le microphone est égal à la convolution du signal source avec une réponse impulsionnelle de salle (RIR d’après l’anglais room impulse response). La RIR décrit la propagation entre les deux points de la salle, cette dernière pouvant être considérée comme un système linéaire invariant dans le temps (si l’on néglige les changements de température, de pression, etc.). Un tel système est en effet totalement caractérisé par sa réponse impulsionnelle, c’est-à-dire le signal en sortie lorsque l’entrée est une impulsion de dirac, qui est l’élément neutre du produit de convolution. En toute rigueur il nous faudrait également prendre en compte l’in- fluence du microphone sur la mesure. Cependant nous négligerons cet aspect par la suite.

0 0.1 0.2 0.3 0.4 0.5 0.5 0.4 0.3 0.2 0.1 0

FIGURE3.1 – Réponse impulsionnelle de salle provenant de la base de donnée RWCP [Nakamura et al.,

2000]. La réponse impulsionnelle a été mesurée dans une salle avec un temps de réverbération d’environ 660 ms.

Une RIR possède une structure bien particulière. Nous pouvons en effet distinguer deux ré- gions comme illustré sur la figure 3.1. La première contient ce que nous appellerons par la suite les contributions précoces. Il s’agit du trajet direct entre la source et le microphone ainsi que les premiers échos associés aux premières réflexions sur les parois et objets de la salle. La seconde région correspond à la réverbération tardive.

Le trajet direct est uniquement caractérisé par la distance entre la source et le microphone et la vitesse de propagation du son (que l’on considérera constante et égale à 340 m/s dans cette thèse). Après le trajet direct arrivent les premières réflexions sur les parois de la salle. L’ensemble des premières contributions varie fortement avec la position de la source et du microphone dans la salle. On considère généralement que les premiers échos complètent l’information de localisation de la source portée par le trajet direct. Ils ont donc une grande importance dans la perception de la scène sonore spatialisée.

La réverbération tardive se met en place après un certain temps de mélange. Cette partie de la RIR est généralement associée au champ sonore diffus, c’est-à-dire que l’on considère avoir atteint un stade de la propagation dans la salle où l’énergie sonore est uniformément répartie dans l’espace et suivant toutes les directions [Schultz,1971].

d’après l’anglais room frequency response). La RFR est définie comme la transformée de Fourier de la RIR. Ces modèles seront ensuite utilisés au chapitre 4 dans le cadre d’une application de séparation de sources où le mélange est représenté dans le domaine fréquentiel. Bien que notre objectif final soit de développer un modèle fréquentiel, notre point de départ concernera toujours la structure bien particulière d’une RIR dans le domaine temporel. Nous voyons très clairement à partir de la figure 3.1 qu’il nous faudra considérer deux approches différentes pour modéliser les contributions précoces et la réverbération tardive. En effet ces deux parties sont structurellement très différentes ; tandis qu’il est envisageable de caractériser chaque première contribution indi- viduellement, nous devrons employer des méthodes statistiques pour modéliser la réverbération tardive du fait de la forte densité d’échos qui lui est associée.

Dans la section 3.2 nous introduisons les notations et définissons le lien entre RIR et RFR. A partir de concepts d’acoustique géométrique des salles nous développerons dans la section 3.3 le modèle de contributions précoces. Celui-ci a été publié dans [Leglaive et al., 2015a,b], dans le cadre d’une application en séparation de sources. Dans la section 3.4 nous emploierons des résultats d’acoustique statistique des salles pour modéliser la réverbération tardive. Le modèle obtenu a été publié dans [Leglaive et al.,2016a]. Nous aboutirons ainsi à un modèle complet de réponse de salle, défini dans le domaine fréquentiel, et qui sera utilisé dans le chapitre 4 pour la séparation de sources.