• Aucun résultat trouvé

GCC-NMF : séparation et rehaussement de la parole en temps-réel à faible latence

N/A
N/A
Protected

Academic year: 2021

Partager "GCC-NMF : séparation et rehaussement de la parole en temps-réel à faible latence"

Copied!
136
0
0

Texte intégral

(1)

UNIVERSITÉ DE SHERBROOKE

Faculté de génie

Département de génie électrique et de génie informatique

GCC-NMF:

SÉPARATION ET REHAUSSEMENT

DE LA PAROLE EN TEMPS-RÉEL

À FAIBLE LATENCE

Thèse de doctorat

Spécialité : génie électrique

Sean U. N. Wood

Sherbrooke (Québec) Canada

(2)
(3)

MEMBRES DU JURY

Jean Rouat

Directeur

Tiago H. Falk

Évaluateur

Philippe Gournay

Évaluateur

Éric Plourde

Évaluateur

(4)
(5)

RÉSUMÉ

Le phénomène du cocktail party fait référence à notre remarquable capacité à nous concen-trer sur une seule voix dans des environnements bruyants. Dans cette thèse, nous conce-vons, implémentons et évaluons une approche computationnelle nommée GCC-NMF pour résoudre ce problème. GCC-NMF combine l’apprentissage automatique non supervisé par la factorisation matricielle non négative (NMF) avec la méthode de localisation spatiale à corrélation croisée généralisée (GCC). Les atomes du dictionnaire NMF sont attribués au locuteur cible ou à l’interférence à chaque instant en fonction de leurs emplacements spatiaux estimés. Nous commençons par étudier GCC-NMF dans le contexte hors ligne, où des mélanges de 10 secondes sont traités à la fois. Nous développons ensuite une variante temps réel de GCC-NMF et réduisons par la suite sa latence algorithmique inhérente de 64 ms à 2 ms avec une méthode asymétrique de transformée de Fourier de courte durée (STFT). Nous montrons que des latences aussi faibles que 6 ms, dans la plage des délais tolérables pour les aides auditives, sont possibles sur les plateformes embarquées actuelles. Nous évaluons la performance de GCC-NMF sur des données publiquement disponibles de la campagne d’évaluation de séparation des signaux SiSEC. La qualité de séparation objective est quantifiée avec les méthodes PEASS, estimant les évaluations subjectives humaines, ainsi que BSS Eval basée sur le rapport signal sur bruit (SNR) traditionnel. Bien que GCC-NMF hors ligne ait moins bien performé que d’autres méthodes du défi SiSEC en termes de métriques SNR, ses scores PEASS sont comparables aux meilleurs résultats. Dans le cas de GCC-NMF en ligne, alors que les métriques basées sur le SNR favorisent à nouveau d’autres méthodes, GCC-NMF surpasse toutes les approches précédentes sauf une en termes de scores PEASS globaux, obtenant des résultats comparables au masque binaire idéale. Nous montrons que GCC-NMF augmente la qualité objective et les métriques d’intelligibilité STOI et ESTOI sur une large gamme de SNR d’entrée de -30 à 20 dB, avec seulement des réductions mineures pour les SNR d’entrée supérieurs à 20 dB.

GCC-NMF présente plusieurs caractéristiques souhaitables lorsqu’on le compare aux ap-proches existantes. Contrairement aux méthodes d’analyse de scène auditive computation-nelle (CASA), GCC-NMF ne nécessite aucune connaissance préalable sur la nature des signaux d’entrée et pourrait donc convenir aux applications de séparation et de débruitage de source dans un grand nombre de domaines. Dans le cas de GCC-NMF en ligne, seule une petite quantité de données non étiquetées est nécessaire pour apprendre le dictionnaire NMF. Cela se traduit par une plus grande flexibilité et un apprentissage beaucoup plus ra-pide par rapport aux approches supervisées, y compris les solutions basées sur NMF et les réseaux neuronaux profonds qui reposent sur de grands ensembles de données étiquetées. Enfin, contrairement aux méthodes de séparation de source aveugle (BSS) qui reposent sur des statistiques de signal accumulées, GCC-NMF fonctionne indépendamment pour chaque trame, ce qui permet des applications en temps réel à faible latence.

Mots-clés : rehaussement de la parole, séparation de la parole, temps-réel, faible latence, multi-canal, apprentissage non-supervisé, GCC, NMF, CASA.

(6)
(7)

ABSTRACT

GCC-NMF: LOW LATENCY REAL-TIME SPEECH SEPARATION AND ENHANCEMENT

The cocktail party phenomenon refers to our remarkable ability to focus on a single voice in noisy environments. In this thesis, we design, implement, and evaluate a computational approach to solving this problem named GCC-NMF. GCC-NMF combines unsupervised machine learning via non-negative matrix factorization (NMF) with the generalized cross-correlation (GCC) spatial localization method. Individual NMF dictionary atoms are attributed to the target speaker or background interference at each point in time based on their estimated spatial locations. We begin by studying GCC-NMF in the offline context, where entire 10-second mixtures are treated at once. We then develop an online, instan-taneous variant of GCC-NMF and subsequently reduce its inherent algorithmic latency from 64 ms to 2 ms with an asymmetric short-time Fourier transform (STFT) windowing method. We show that latencies as low as 6 ms, within the range of tolerable delays for hearing aids, are possible on current hardware platforms.

We evaluate the performance of GCC-NMF on publicly available data from the Signal Separation Evaluation Campaign (SiSEC), where objective separation quality is quantified using the signal-to-noise ratio (SNR)-based BSS Eval and perceptually-motivated PEASS toolboxes. Though offline GCC-NMF underperformed other methods from the SiSEC challenge in terms of the SNR-based metrics, its PEASS scores were comparable with the best results. In the case of online GCC-NMF, while SNR-based metrics again favoured other methods, GCC-NMF outperformed all but one of the previous approaches in terms of overall PEASS scores, achieving comparable results to the ideal binary mask (IBM) baseline. Furthermore, we show that GCC-NMF increases objective speech quality and the STOI and ETOI speech intelligibility metrics over a wide range of input SNRs from -30 dB to 20 dB, with only minor reductions for input SNRs greater than 20 dB.

GCC-NMF exhibits a number of desirable characteristics when compared existing ap-proaches. Unlike computational auditory scene analysis (CASA) methods, GCC-NMF requires no prior knowledge about the nature of the input signals, and may thus be suit-able for source separation and denoising applications in a wide range of fields. In the case of online GCC-NMF, only a small amount of unlabeled data is required to pre-train the NMF dictionary. This results in much greater flexibility and significantly faster training when compared to supervised approaches including NMF and deep neural network-based solutions that rely on large, supervised datasets. Finally, in contrast with blind source separation (BSS) methods that rely on accumulated signal statistics, GCC-NMF operates independently for each time frame, allowing for low latency, real-time applications. Keywords: speech enhancement, speech separation, real-time, low latency, multi-channel, unsupervised learning, GCC, NMF, CASA.

(8)
(9)

À mes chers parents, qui depuis mon tout début ont cultivé un environnement propice à ma croissance.

(10)
(11)

REMERCIEMENTS

Je suis extrêmement reconnaissant pour la multitude de facteurs qui m’ont donné la liberté de poursuivre ce doctorat. Je reconnais que la croissance résultant n’aurait tout simplement pas été réalisée autrement. Je suis éternellement reconnaissant envers ma famille et mes amis proches, y compris ma partenaire, Lucia, qui s’est tenue à mes côtés pendant les hauts et les bas. Je voudrais également remercier chaleureusement mon directeur de thèse, Jean Rouat, les autres membres de mon jury de thèse, Tiago H. Falk, Philippe Gournay et Éric Plourde, et les autres membres du laboratoire NECOTIS, qui ont tous grandement contribué à la qualité de la thèse devant vous.

(12)
(13)

TABLE DES MATIÈRES

1 INTRODUCTION FRANÇAISE 1

1.1 Définition du problème . . . 1

1.1.1 Le problème du cocktail party . . . . 1

1.1.2 Applications dans le monde réel . . . 1

1.1.3 Données d’évaluation . . . 2

1.1.4 Métriques d’évaluation . . . 3

1.2 Approches existantes . . . 4

1.2.1 Séparation de source aveugle (BSS) . . . 4

1.2.2 Analyse de scène auditive computationnelle (CASA) . . . 5

1.2.3 Approches basées sur NMF . . . 5

1.2.4 Approches basées sur l’apprentissage en profondeur . . . 6

1.3 Approche proposée : GCC-NMF . . . 7

1.4 Aperçu de la thèse . . . 8

2 ENGLISH INTRODUCTION 9 2.1 Problem Statement . . . 9

2.1.1 The Cocktail Party Problem . . . 9

2.1.2 Real-world Applications . . . 9

2.1.3 Evaluation Data . . . 10

2.1.4 Evaluation Metrics . . . 10

2.2 Existing Approaches . . . 11

2.2.1 Blind Source Separation (BSS) . . . 12

2.2.2 Computational Auditory Scene Analysis (CASA) . . . 12

2.2.3 NMF-based Approaches . . . 13

2.2.4 Deep Learning Approaches . . . 13

2.3 Proposed Approach : GCC-NMF . . . 14

2.4 Overview of the Thesis . . . 15

3 GCC-NMF EN MODE HORS-LIGNE 17 3.1 Abstract . . . 19

3.2 NMF and Speech Separation . . . 20

3.2.1 The Cocktail Party Problem . . . 20

3.2.2 Speech Separation with NMF . . . 20

3.2.3 Proposed Approach : GCC-NMF . . . 21

3.3 Foundations : NMF and GCC . . . 21

3.3.1 NMF . . . 22

3.3.2 GCC . . . 24

3.4 Blind Speech Separation with GCC-NMF . . . 26

3.4.1 Source Separation System Overview . . . 26

3.4.2 Combining GCC and NMF . . . 26

3.4.3 Coefficient Masking . . . 27 xi

(14)

xii TABLE DES MATIÈRES

3.4.4 Source Reconstruction . . . 32

3.5 Speech Separation and Enhancement Experiments . . . 33

3.5.1 Separation Tasks . . . 34

3.5.2 Evaluation Metrics . . . 34

3.5.3 Concurrent Speaker Separation . . . 35

3.5.4 Speech in Noise . . . 38

3.5.5 Moving Speaker in Noise . . . 39

3.6 Conclusions . . . 41

3.7 Appendix : NMF and Coefficient Sparsity . . . 43

3.8 Acknowledgments . . . 44 4 GCC-NMF EN MODE TEMPS-RÉEL 45 4.1 Abstract . . . 47 4.2 Introduction . . . 48 4.3 Offline GCC-NMF . . . 49 4.3.1 GCC : Generalized cross-correlation . . . 49

4.3.2 NMF : Non-negative matrix factorization . . . 50

4.3.3 Offline GCC-NMF . . . 52 4.3.4 Soft masking GCC-NMF . . . 53 4.4 Online GCC-NMF . . . 53 4.4.1 Dictionary pre-learning . . . 54 4.4.2 Coefficient inference . . . 55 4.4.3 Online localization . . . 55 4.5 Low latency GCC-NMF . . . 55 4.5.1 STFT and latency . . . 56 4.5.2 Asymmetric STFT windowing . . . 57 4.6 Experiments . . . 58 4.6.1 Experimental setup . . . 58 4.6.2 Online GCC-NMF experiments . . . 59

4.6.3 Low latency GCC-NMF experiments . . . 67

4.6.4 Listening test experiments . . . 72

4.7 Real-time implementation . . . 74

4.8 Conclusion . . . 74

4.9 Acknowledgments . . . 75

5 CONCLUSION FRANÇAISE 77 5.1 Résumé . . . 77

5.2 Comparaison avec les approches existantes . . . 77

5.3 Résultats expérimentaux . . . 78

5.4 Contributions open source . . . . 80

5.5 Travail futur . . . 83

5.5.1 Alternatives à NMF et GCC . . . 83

5.5.2 Optimisations matérielles et algorithmiques . . . 83

5.5.3 Evaluation subjective de la qualité et de l’intelligibilité . . . 84

(15)

TABLE DES MATIÈRES xiii

6 ENGLISH CONCLUSION 87

6.1 Summary . . . 87

6.2 Comparison with existing approaches . . . 87

6.3 Experimental findings . . . 88

6.4 Open source contributions . . . 89

6.5 Future work . . . 93

6.5.1 Alternatives to NMF and GCC . . . 93

6.5.2 Hardware and algorithmic optimizations . . . 93

6.5.3 Subjective quality and intelligibility evaluation . . . 94

6.5.4 Applications of GCC-NMF in other fields . . . 94

(16)
(17)

LISTE DES FIGURES

3.1 NMF decomposition of a stereo mixture of speech signals. a) The NMF dictionary Wf d, with cube root compression applied for clarity, consisting of atoms that are non-negative functions of frequency. A subset is shown in detail on the right. b) Non-negative atom coefficients for the left and right channels, Hldt and Hrdt, with their combined magnitude shown on the left, and a subset in detail on the right, with the negative of the left channel Hldt taken to aid visualization of the stereo coefficients. . . 23 3.2 Source localization with GCC-PHAT for a 2 second mixture of 3 speakers.

a-b) Generation of the GCC-PHAT angular spectra shown for six points in time. c) The resulting angular spectrogram for all points in time, rec-tified for clarity, i.e. negative values are set to 0: f (x) = max(0, x). We

note three intermittent horizontal traces corresponding to energy from the stationary speakers. d) The time-averaged GCC-PHAT angular spectrum. Source TDOA estimates τs are highlighted with dotted lines and triangle

markers. . . 25 3.3 GCC-NMF source separation system, see Table 3.1 for variable descriptions.

The separation system comprises an encoding-decoding block, consisting of STFT and NMF, and a coefficient-masking block that interrupts the encoding-decoding process, resulting in an encoding-separation-decoding architecture. Sources are localized using GCC-PHAT (3.3.2), with the coef-ficient masks then built using spatial information of individual atoms provi-ded by GCC-NMF (3.4.2), attributing each atom to a single source at each point in time. Bold arrows emphasize the encoding-decoding process, while double arrows highlight source-specific signals. . . 28 3.4 Computing GCC-NMF angular spectra for a subset of six dictionary atoms

d, at a given time t. A cube root in a) and b) and rectification, i.e. f (x) =

max(0, x), in b) are added for clarity of presentation. a) Dictionary atoms (left) are used as frequency weighting functions in the GCC calculation, pooling spatial information over differing regions of the cross-correlation frequency spectrum (right). b) The resulting atom-weighted GCCs, prior to summation over frequency. c) Summing over frequency yields the ins-tantaneous GCC-NMF angular spectra for each of the six atoms, with the angular locations of three speakers highlighted with dotted lines. While the angular spectra have multiple local maxima, we note their global maxima typically line up with one of the source TDOAs. We also note that the global maxima of certain atoms line up with different source TDOAs suggesting that they encode different sources. . . 29

(18)

xvi LISTE DES FIGURES 3.5 a) GCC-NMF angular spectrograms GNMFdτ t for a random subset of 16

dic-tionary atoms displayed in b) with cube root compression as in previous Figures. For clarity of presentation, angular spectrograms are multiplied by their corresponding coefficients Hdt, such that only active periods are vi-sible, then rectified. Source-specific colors indicate to which of three sources atoms are associated over time, according to the procedure described in Section 3.4.3 (best seen in color). As in Figure 3.4, we note that while the angular spectra often have multiple local maxima, their global maxima are typically aligned with one of the target TDOAs (indicated with dashed lines). 30 3.6 GCC-PHAT TDOA tracking for a 10 second recording of a moving speaker.

The angular spectrogram of the mixture is overlaid with the estimate target TDOA trajectoryτt∗, computed by performing GCC-PHAT localization over

time with a sliding window. . . 32 3.7 Effect of NMF parameters on separation performance on the concurrent

speakers task 3.5.3, as measured with the BSSEval (top) and PEASS (bot-tom) scores described in Section 3.5.2, and Table 3.2. Subplots depict ave-rage scores over the 56 sources of the dev1 SiSEC dataset for varying a) NMF dictionary size b) number of NMF iterations c) sparsity coefficient α.

Default values, i.e. the settings for the non-varying parameters, are shown with dashed-lines. . . 36 3.8 Effect of NMF parameters on separation performance on the speech in

noise task 3.5.4, averaged over the SiSEC 2016 development set for the two-channel mixtures of speech and real-world background noise task [92]. Scores and parameter settings are as presented in Figure 3.7. . . 39 3.9 BSSEval and PEASS separation performance scores for sparse NMF (SNMF)

[51], for varying sparsity coefficientα for a) the concurrent speakers task b)

the speech in noise task. . . 43 4.1 Elements of the GCC-NMF speech enhancement algorithm for a 2-second

mixture of speech and noise. a) The input magnitude spectrogram, avera-ged over the left and right channels for presentation. b) The GCC-PHAT angular spectrogram, with resulting target TDOA estimate indicated with a triangle marker. c) Small subset of the 1024 NMF dictionary atoms Wf d, with corresponding GCC-NMF angular spectrograms GNMF shown in d). GCC-NMF time frames for which an atom is associated with the target (see Section 4.3.3) are colored in black, otherwise it is colored in light blue. The angular spectrogram in b) is rectified for clarity with max(0, x), while

each angular spectrogram in d) is each rectified using its median value with max(median(x), x). . . . 51 4.2 Block diagram of online GCC-NMF consisting of offline dictionary

pre-learning and online speech enhancement. Online, offline, and optional com-ponents are drawn with black, gray, and dotted lines respectively, with relevant equations for each block listed in parentheses. . . 54

(19)

LISTE DES FIGURES xvii 4.3 Comparison of the symmetric and asymmetric STFT window functions for

frame size N. a) Traditional symmetric square root Hann analysis and

syn-thesis window functions and their element-wise product Hann window. b) Asymmetric window functions, where the analysis window has duration N

and is weighted towards the right, while the synthesis window has duration 2M<N, and shares its right edge with the underlying frame. The resulting pointwise product of the analysis and synthesis windows is a Hann window of size 2M that also shares its right edge with the underlying frame. . . . . 57 4.4 Effect of various GCC-NMF parameters on BSS Eval, PEASS, ESTOI, and

STOI metrics averaged over the SiSEC speech in noise dev dataset for a) NMF dictionary size and b) number of frames used for dictionary pre-training, both varying from 27 (128) to 214 (16 384) exponentially ; c) num-ber of NMF pre-training update iterations ; d) numnum-ber of NMF coefficient inference updates performed at runtime. For PEASS and BSS Eval scores, the four scores presented correspond to overall quality, lack of artifacts, interference suppression, and target fidelity. Default parameter values are indicated with vertical gray lines and average scores for the unprocessed mixture signals are indicated with horizontal dashed lines. . . 60 4.5 Effect of GCC-NMF masking function parameters on enhancement quality

and objective intelligibility: a) TDOA window width, b) noise floor, c) win-dow shape as defined in (4.11). Scores are presented as in Figure 4.4, where dashed lines indicate the average scores for the unprocessed mixture signals. 62 4.6 Effect of input SNR on online GCC-NMF speech enhancement performance,

for SNRs varying from -40 to 40 dB. Results for both a narrow (σ = 3/64)

and wide (σ = 1/4) TDOA window are shown. Overall scores are presented

for the PEASS and BSS Eval measures. a) Absolute performance measures with triangle markers for the narrow window case, square markers, and the input score as a solid gray line. b) Performance measure improvements, with zero improvement emphasized with a gray line. . . 63 4.7 Example NMF dictionary atoms and corresponding STFT analysis

win-dows for varying algorithmic latencies for the symmetric windowing (a, b) and asymmetric windowing (c, d) latency reduction strategies. For each al-gorithmic latency value, a subset of 16 randomly chosen dictionary atoms are shown from a total of 1024. For symmetric windowing, the analysis window size decreases with algorithmic latency, while for asymmetric win-dowing, the analysis window size remains constant at 64 ms, while its shape changes as a function of latency. . . 69 4.8 Effect of STFT synthesis window size on GCC-NMF speech enhancement

performance for a) symmetric windowing and b) asymmetric windowing with a fixed analysis window of 64 ms. The PEASS scores correspond to objective measures of overall enhancement quality, target fidelity, interfe-rence suppression, and lack of artifacts, where higher scores are better in all cases. . . 70

(20)

xviii LISTE DES FIGURES 4.9 Real-time GCC-NMF computational requirements with the asymmetric

STFT windowing technique, with a) Effect of dictionary size on GCC-NMF mean empirical processing time for a single frame on various hardware plat-forms given an analysis window size of 64 ms, and b) available processing time for a single frame, given the asymmetric STFT windowing approach, presented for varying synthesis window size and overlap, with the resulting latency as the horizontal axis. . . 72 4.10 Average informal listening test scores of 10 participants for two different

tasks: a) Assessment of the amount of interference suppression with respect to the input mixture for a range of GCC-NMF TDOA window widthsσ, and

b) Assessment of overall quality with respect to the true isolated speaker for the same GCC-NMF variants as in a) compared with other algorithms from the SiSEC challenge and the ideal binary mask (IBM) baseline. . . . 73

5.1 Exemple de sous-section du cahier iPython pour l’exemple de GCC-NMF en ligne pour parole plus bruit, montrant l’entrée et la sortie du système et les widgets sonores jouables. . . . 81 5.2 Plateformes embarquées utilisées pour la démonstration GCC-NMF en temps

réel à l’Interspeech 2017: NVIDIA Jetson TX1 (à gauche) et Raspberry Pi 3 (à droite), avec une pièce de 25 cents canadien pour l’échelle. . . 82 5.3 Interface graphique pour le système de séparation et rehaussement de la

pa-role GCC-NMF en temps réel. Le panneau B offre le contrôle de la fonction de masquage des coefficients, représentée en bleu avec le spectre angulaire GCC-PHAT en gris, ainsi que la taille du dictionnaire NMF et le nombre de mises à jour des coefficients NMF effectués pour chaque trame d’entrée. Les autres panneaux visualisent les éléments du système: le spectrogramme d’entrée (A) et le spectrogramme de sortie (D), en tant que fréquence en fonction du temps; le spectrogramme angulaire GCC-PHAT (C) en tant que TDOA en fonction du temps; le dictionnaire NMF (E), en tant qu’indice d’atome en fonction de la fréquence (ordonné par leurs centroïdes spec-traux); et le masque des coefficients NMF (F), en tant qu’indice d’atome en fonction du temps. Les panneaux sont mis à jour en temps réel dans un style de cascade. . . 82

6.1 Example subsection of the iPython notebook for the online GCC-NMF speech in noise example, depicting system input and output and playable sound widgets. . . 91 6.2 Hardware platforms used for the real-time GCC-NMF demonstration at the

Interspeech 2017: NVIDIA Jetson TX1 (left) and Raspberry Pi 3 (right), with a Canadian quarter for scale. . . 92

(21)

LISTE DES FIGURES xix 6.3 Graphical user interface for the real-time GCC-NMF speech enhancement

system. Panel B offers control of the coefficient masking function, depicted in blue with GCC-PHAT angular spectrum in gray, as well as the NMF dictionary size, and number of NMF coefficient updates performed for each input frame. The other panels visualize elements of the enhancement sys-tem: the input spectrogram (A) and output spectrogram (D), as frequency versus time ; the GCC-PHAT angular spectrogram (C) as TDOA versus time ; the NMF dictionary (E), as atom index versus frequency (ordered by increasing spectral centroid) ; and the NMF coefficient mask (F), as atom index versus time. Panels are updated in real-time in waterfall plot style. . 92

(22)
(23)

LISTE DES TABLEAUX

3.1 GCC-NMF source separation variable descriptions. Subscripts index dimen-sions of multidimensional variables, italicized lowercase symbols used as indexes. . . 27 3.2 Relationship between the PEASS and the BSSEval measures of source

se-paration quality. Both approaches provide an overall score in addition to scores for target preservation, interference suppression, and lack of artifacts including musical noise. For all scores, higher values are better. . . 35 3.3 Mean PEASS and BSSEval separation scores ± standard deviation, taken

over the SiSEC 2016 dev1 underdetermined live speech mixtures dataset [92]. Both PEASS and BSSEval scores correspond to, from left to right, overall quality, target fidelity, interference suppression, and lack of artifacts, as described in Section 3.5.2, and Table 3.2. In all cases, higher scores reflect better performance.1Oracle mixture initialization.2Constrained multilayer NMF. 3 Condition-specific settings.4 Oracle baseline : ideal binary mask. . 37 3.4 Mean source separation scores± standard deviation, taken over the SiSEC

2016 development set for the two-channel mixtures of speech and real-world background noise task. PEASS and BSSEval scores presented as in Table 3.3. Default GCC-NMF parameter settings are used, except for the dictio-nary size which is set to 8192. 1Oracle baseline : ideal binary mask. . . 40 3.5 Mean source separation scores± standard deviation, taken over the SiSEC

2013 development set for the two-channel noisy recordings of a moving speaker task [84]. PEASS and BSSEval scores presented as in Table 3.3. Default GCC-NMF parameter settings are used, except for the dictionary size which is set to 8192. . . 41 4.1 Effects on speech enhancement scores of different elements of GCC-NMF

including : dictionary pre-training vs. mixture-training, coefficient inference vs. no coefficients, offline vs. online localization, and moderate vs. large dictionary sizes. Mean scores± standard deviation are taken over the SiSEC 2106 speech in noise dev dataset. . . . 66 4.2 Mean PEASS and BSSEval scores ± standard deviation for different speech

enhancement algorithms, taken over the SiSEC speech in noise dev da-taset. GCC-NMF methods include the dictionary pre-learning approach with (a) online localization and (b) offline localization, as well as (c) the offline mixture-learned approach, where all methods employ the all-ones NMF coefficients simplification. Other approaches from the SiSEC chal-lenges are presented for comparison, where are computed using the subset of examples as reported in [59], and the ideal binary mask (IBM) is an oracle baseline. . . 68

(24)
(25)

LISTE DES SYMBOLES

Liste des symboles avec définitions anglaises utilisées à travers le texte. Symbole Définition

s Source index

c Channel index

n Time index (input)

t Time index (STFT)

f Frequency index

d NMF Atom index

τ TDOA index

τ∗ Target TDOA estimate

τs Source TDOAs (multiple targets)

xscn Source signals ˆ xscn Source estimates  sxscn Input mixture Vcf t STFT mixture |Vcf t| STFT magnitude  Vcf t STFT phase Wf d NMF dictionary atoms

Hcdt NMF atom activation coefficients Λ NMF reconstructed input

α NMF sparsity coefficient

β NMF β divergence cost function parameter ψf t GCC frequency-weighting function

ψPHATf t GCC-PHAT frequency-weighting function

ψNMFf t GCC-NMF frequency-weighting function Msdt NMF coefficient masks

ˆ

Hscdt NMF masked coefficients

GPHATτ t GCC-PHAT angular spectrogram

GNMFdτ t Atom-specific GCC-NMF angular spectrograms xxiii

(26)
(27)

LISTE DES ACRONYMES

Liste des acronymes anglais utilisés à travers le texte. Acronyme Définition

ACE Acoustic Characterization of Environments challenge AMS Amplitude Modulation Spectra

ASR Automatic Speech Recognition BSS Blind Source Separation

CASA Computational Auditory Scene Analysis ESTOI Extended Short-time Objective Intelligibility GCC Generalized Cross-Correlation

GCC-PHAT GCC Phase Transform IBM Ideal Binary Mask IRM Ideal Ratio Mask

MFCC Mel-frequency Cepstral Coefficients NMF Non-negative Matrix Factorization

SNMF Sparse NMF NMF+S NMF plus sparsity

PEASS Perceptual Evaluation methods for Audio Source Separation OPS Overall PEASS score

TPS Target-related PEASS score IPS Interference-related PEASS score APS Artifact-related PEASS score PLP Perceptual Linear Prediction RASTA Relative Spectral Transform RIR Room Impulse Response

RT60 Reverberation Time

SiSEC Signal Separation Evaluation Campaign SNR Signal to Noise Ratio

SDR Signal to Distortion Ratio

ISR Source Image to Spatial Distortion Ratio SIR Source to Interference Ratio

SAR Source to Artifacts Ratio STFT Short-time Fourier transform STOI Short-time Objective Intelligibility TDOA Time Difference Of Arrival

(28)
(29)

CHAPITRE 1

INTRODUCTION FRANÇAISE

1.1

Définition du problème

1.1.1

Le problème du

cocktail party

Le phénomène cocktail party fait référence à notre remarquable capacité à nous concentrer sur une seule source sonore dans un environnement bruyant, séparant la scène auditive en un avant-plan et un arrière-plan [20, 35]. Malgré de nombreuses recherches depuis plus de 50 ans dans des domaines aussi divers que la psychoacoustique, la physique, les neurosciences, l’ingénierie et l’informatique, les systèmes artificiels sont encore loin de la robustesse du système auditif humain. Alors que de nombreuses approches fonctionnent bien dans des conditions idéales, même les systèmes artificiels les plus robustes ont du mal à gérer les complexités et la diversité des environnements réels. Les principaux défis pour la robustesse dans les environnements réels sont : a) les systèmes de mixage sous-déterminés avec un plus grand nombre de sources sonores que de microphones, b) les systèmes de mixage convolutifs où les microphones reçoivent plusieurs versions retardées et filtrées des sources dues à la propagation par trajets multiples dans l’environnement, c) la présence de bruit non stationnaire à des rapports signal sur bruit potentiellement très faibles, et d) la non-stationnarité de la parole elle-même et les différences entre les locuteurs individuels.

1.1.2

Applications dans le monde réel

Parmi le grand nombre de recherches sur le phénomène cocktail party nous trouvons deux motivations principales : une curiosité scientifique pour comprendre comment les humains sont capables de résoudre le problème, ainsi que les applications potentielles d’un proces-seur de cocktail party artificiel pour les systèmes artificiels et humains. Dans le contexte des systèmes artificiels, les assistants numériques personnels de plus en plus omniprésents que l’on trouve dans les téléphones intelligents, les domiciles et les voitures s’appuient sur de robustes méthodes de rehaussement de la parole pour faciliter la tâche de reconnais-sance automatique de la parole (ASR). La gestion du bruit de fond dans les systèmes ASR est un aspect dominant de la recherche récente, où des matrices de microphones relative-ment grandes ainsi que des algorithmes de filtrage spatial sont actuellerelative-ment requis pour atteindre une performance optimale [21]. Dans cette thèse, nous nous concentrerons

(30)

2 CHAPITRE 1. INTRODUCTION FRANÇAISE tôt sur des applications de processeurs de cocktail party destinés aux auditeurs humains. L’une des conséquences les plus néfastes de la perte auditive chez les humains est une difficulté accrue à comprendre la parole, en particulier dans les environnements bruyants, ce qui entraîne un plus grand risque d’isolement social et de dépression [78]. Alors que les aides auditives actuelles visent à améliorer la compréhension de la parole chez ces patients, elles deviennent gênantes dans les environnements bruyants où elles sont moins capables de supprimer le bruit interférant et amplifient à la fois la parole désirée et le bruit [68]. Une autre application importante pour un processeur cocktail party robuste est la pré-vention de la perte d’audition induite par le bruit sur le lieu de travail, où les auditeurs retirent souvent les dispositifs de protection auditive afin de communiquer efficacement avec les autres. Les chercheurs ont commencé à s’attaquer à ce problème en incorporant des algorithmes de rehaussement de la parole dans les dispositifs de protection auditifs de sorte que les utilisateurs puissent communiquer librement pendant que leur ouïe est protégée [57]. Dans ce travail, nous présentons un nouvel algorithme de séparation et de rehaussement de la parole nommé GCC-NMF. Nous soulignons son utilisation potentielle dans des appareils servant à améliorer l’audition en développant une version en temps réel à faible latence et en étudiant ses performances sur les plateformes embarquées.

1.1.3

Données d’évaluation

Nous évaluons la performance de l’algorithme de séparation et rehaussement de la parole proposé (GCC-NMF) sur les données de la campagne d’évaluation de la séparation des signaux (SiSEC). SiSEC offre des données publiques et des outils d’évaluation permettant une comparaison cohérente entre une variété d’algorithmes dans plusieurs contextes, y compris le rehaussement de la parole, la séparation de la source musicale et la séparation des signaux biomédicaux. Nous nous concentrerons ici sur les deux principaux problèmes étudiés dans le contexte du cocktail party : la séparation de la parole, où les mélanges sont composés de locuteurs qui parlent en même temps dans des environnements réverbérants, et le rehaussement ou débruitage de la parole, enregistré dans des environnements réver-bérants ainsi qu’en champ libre. Les données de séparation de parole sont constituées de 10 secondes de mélanges de 3 ou 4 locuteurs féminins et masculins, enregistrés de façon synchrone par deux microphones séparés de 5 cm et 1 m avec une fréquence d’échantillon-nage de 16 kHz. Pour faciliter l’évaluation des algorithmes de séparation de la parole, chaque voix est enregistrée séparément et mélangée ensuite, de sorte que les enregistre-ments originaux soient disponibles pour la comparaison. Nous notons que la réverbération n’est pas simulée ici, car l’enregistrement est fait directement dans des salles réverbérantes (valeurs RT60 de 130 ms et 250 ms). Les données pour l’évaluation de la parole mélangée

(31)

1.1. DÉFINITION DU PROBLÈME 3 avec le bruit sont composées de 10 secondes d’enregistrements échantillonnés à 16 kHz avec une séparation de microphone de 8,6 cm. Un seul locuteur est ajouté au bruit de fond réel de la même manière que ci-dessus, de sorte que les signaux de parole et de bruit isolés sont disponibles pour une évaluation objective de la qualité et de l’intelligibilité du rehaussement de la parole.

1.1.4

Métriques d’évaluation

La campagne d’évaluation SiSEC utilise deux outils logiciel libre pour quantifier la sépa-ration et l’améliosépa-ration de la parole : BSS Eval, une «boîte à outils pour la mesure de per-formance en séparation de sources aveugles» et les méthodes d’évaluation perceptive pour la séparation de sources audio (PEASS) [30]. Les deux boîtes à outils fournissent quatre mesures de qualité : la qualité de séparation globale, le degré de fidélité de la cible, le ni-veau de suppression des interférences et l’absence d’artefacts perceptuels. Tandis que BSS Eval est basé sur des métriques du type rapport signal sur bruit (SNR) traditionnelles, les métriques PEASS sont conçues pour mieux correspondre aux évaluations humaines quali-tatives. PEASS combine un certain nombre de caractéristiques perceptuellement motivées, y compris la mesure de saillance perceptive PEMO-Q avec un réseau de neurones artificiels pour prédire les vraies évaluations selon la méthode de multiple stimuli avec référence et ancre cachées (MUSHRA) [30]. BSS Eval et PEASS sont des métriques intrusives dans le sens où ils ont besoin de la source et des signaux d’interférence originaux. Alors que la qualité de séparation est une mesure de performance appropriée pour de nombreuses applications, une mesure plus pertinente pour les dispositifs d’écoute assistée est plutôt l’intelligibilité de la parole. Pour quantifier l’intelligibilité, nous nous appuyons sur deux métriques objectives fréquemment utilisées dans la littérature : la métrique de l’intelligibi-lité objective de courte durée (STOI) et la métrique STOI augmentée (ESTOI) qui corrèle mieux avec les tests d’écoutes que son prédécesseur [40]. Bien que les mesures de perfor-mance algorithmique que nous utilisons ici permettent une comparaison à grande échelle de différents modèles et paramètres, elles ne remplacent pas les tests d’écoute humaines. Par exemple, une analyse récente d’un grand nombre de mesures d’intelligibilité objective a révélé que de nombreuses mesures donnent des résultats médiocres sur des ensembles de données autres que ceux utilisés lors de leur développement [109]. Des tests d’écoute et d’intelligibilité subjectifs sont donc prévus pour des travaux futurs.

(32)

4 CHAPITRE 1. INTRODUCTION FRANÇAISE

1.2

Approches existantes

Les approches traditionnelles pour résoudre le problème du cocktail party peuvent être divisées en deux groupes principaux : les approches de séparation de source aveugle (BSS) et les approches d’analyse de scène auditive computationnelle (CASA). Plus récemment, avec l’avènement des algorithmes d’apprentissage automatique modernes et une puissance de calcul accrue, les méthodes qui apprennent à partir des données ont dominé la litté-rature. Ces approches entrent généralement dans la catégorie des méthodes de séparation de sources à base de modèle, car un seul modèle est appris pour chaque source. Initiale-ment, la factorisation matricielle non négative (NMF) a été utilisée pour apprendre des bases de la parole, du bruit ou des composants musicaux isolés, et ensuite pour séparer les mélanges de ces composants pré-appris [66]. Plus récemment, les réseaux de neurones profonds (DNN) qui apprennent à effectuer le rehaussement de la parole par l’apprentis-sage supervisé sur de grands ensembles de données sont de plus en plus répandus dans la littérature [132]. Dans ce travail, nous combinons des méthodes d’apprentissage machine purement non supervisées via NMF avec la technique traditionnelle de regroupement de caractéristiques de type CASA à l’aide de la méthode de localisation spatiale par corréla-tion croisée généralisée (GCC), capturant plusieurs propriétés souhaitables des différentes approches existantes.

1.2.1

Séparation de source aveugle (BSS)

La BSS est un problème de traitement de signal classique où nous visons à récupérer un ensemble de signaux à partir d’un ensemble de combinaisons linéaires de ceux-ci. Dans le contexte de la séparation de sources audio, chaque microphone voit une version instantanée de chaque source multipliée par un scalaire. À condition que le nombre de mélanges soit supérieur ou égal au nombre de sources, les techniques basées sur l’analyse des composantes indépendantes (ICA) peuvent être utilisées pour récupérer les sources originales [10, 39]. Pour gérer des mélanges convolutifs, l’ICA peut être effectué indépendamment à chaque fréquence [94], cependant, le problème d’indétermination de permutation qui en résulte doit ensuite être résolu pour recombiner correctement les estimations de sources à chaque fréquence. L’ICA repose sur l’hypothèse que le mélange est instantané et linéaire, de sorte que l’opération de mélange peut être représentée comme une matrice, et vise à déterminer l’inverse de cette matrice de mélange avec laquelle les sources originales peuvent ensuite être récupérées. Plusieurs formulations existent pour déterminer la matrice de démixage incluant : a) la maximisation de l’indépendance statistique des sources récupérées par la maximisation de l’entropie conjointe des versions non-linéairement transformées des

(33)

1.2. APPROCHES EXISTANTES 5 sources estimées [101], b) la maximisation de l’information mutuelle Shannon entre l’entrée et la sortie d’un réseau déterministe de structure similaire, appelé principe d’optimisation Infomax [58], et c) l’estimation du maximum de vraisemblance en spécifiant des fonctions de densité de probabilité (PDF) marginales des vrais signaux source [67]. Nous notons que puisque les méthodes ICA sont basées sur des propriétés statistiques de signaux, cela pose un problème pour leur applicabilité dans des applications temps réel à faible latence, car les statistiques doivent être accumulées au fil du temps. Une caractéristique très souhaitable de ces approches, cependant, est qu’aucune connaissance préalable de la nature des signaux n’est requise a priori.

1.2.2

Analyse de scène auditive computationnelle (CASA)

Les approches au problème de cocktail de type CASA [14, 80] sont inspirées par l’analyse de scène auditive chez les humains [13]. Ces approches sont basées sur la notion de psychologie de la gestalt selon laquelle l’esprit humain perçoit des objets entiers, où le tout est différent de la somme des parties constituantes [46]. Les algorithmes CASA supposent que les caractéristiques auditives provenant de la même source sonore sont similaires les unes aux autres à la fois en termes de caractéristiques elles-mêmes et de caractéristiques de leurs activations temporelles, y compris l’apparition, la disparition ou les modulations. La scène auditive est d’abord séparée, ou analysée, en éléments constitutifs basés sur des caractéristiques inspirées par la perception humaine telles que la hauteur en fréquence, la localisation spatiale par les différences de niveau interaural, les différences temporelles interaurales et les modulations temporelles. Les caractéristiques sont ensuite regroupées en fonction de leur similarité, par exemple les caractéristiques ayant une apparition ou ITD similaire sont supposées provenir de la même source. Chaque groupe est ensuite resynthétisé indépendamment. Nous nous inspirons ici du paradigme analyse-séparation-synthèse de CASA, mais au lieu d’utiliser des caractéristiques prédéterminées basées sur des connaissances préalables, nous apprendrons automatiquement des caractéristiques de manière purement aveugle et non supervisée via NMF. Les atomes du dictionnaire NMF sont ensuite groupés sur la base des estimations ITD de chaque atome à chaque instant.

1.2.3

Approches basées sur NMF

NMF apprend des représentations basées sur des parties à partir de données d’entrée non négatives de façon purement non supervisée [52]. À titre d’exemple illustratif, lorsqu’on applique NMF à un ensemble d’images de visages, il apprend des parties constitutives qui correspondent à des parties d’yeux, de nez et de bouches [52]. Lorsqu’il est appliqué à des trames de spectrogrammes audio, NMF apprend des spectres atomiques qui codent les

(34)

6 CHAPITRE 1. INTRODUCTION FRANÇAISE caractéristiques spectrales, y compris la hauteur et l’enveloppe spectrale [95]. En étendant les données d’entrée dans le temps, NMF apprend de courts segments spectro-temporels qui codent des motifs spectro-temporels typiques des sources sonores [22]. Les méthodes basées sur NMF ont été largement appliquées dans le contexte de la séparation de la mu-sique et du débruitage de la parole. Le principal défi de ces approches est de déterminer quels atomes appartiennent à quelle source, similaire au défi CASA de regroupement de caractéristiques. Pour les sources sonores simples où un seul atome NMF correspond à une seule source, la séparation est effectuée automatiquement par le processus de décom-position. Cependant, des sources plus complexes sont codées sur plusieurs atomes, et un atome donné peut coder des sources différentes à différents moments dans le temps. Pour résoudre ce problème, la plupart des techniques précédentes ont recours à une approche d’apprentissage supervisé, où des dictionnaires NMF individuels sont appris pour chaque source, de sorte que l’association atome source est connue a priori. En pré-apprenant les dictionnaires NMF, ces approches peuvent fonctionner en temps réel, trame par trame. Les approches non supervisées utilisent à la place la distribution spatiale des sources so-nores, en apprenant des atomes contenant à la fois des informations spatiales et spectrales [75, 100]. Cependant, ces approches ne conviennent pas pour une utilisation en temps réel, car les caractéristiques spatiales ne se généralisent pas à de nouvelles conditions. Dans ce travail, nous combinons les avantages des approches NMF supervisées et non supervisées en pré-apprenant d’abord un seul dictionnaire spectral de manière non supervisée, puis en estimant les emplacements spatiaux des atomes du dictionnaire trame par trame. Cette approche est donc à la fois purement non supervisée et capable de fonctionner en temps réel.

1.2.4

Approches basées sur l’apprentissage en profondeur

Avec l’augmentation de la puissance de calcul et la quantité de données disponibles aux chercheurs, les approches d’apprentissage profond supervisées ont commencé à surpasser les approches traditionnelles dans une grande variété de domaines, notamment la sépara-tion de la parole [37] et le rehaussement de la parole [124]. Les réseaux neuronaux profonds sont des fonctions non linéaires et hiérarchiques dont les paramètres sont appris en opti-misant une fonction de coût sur un ensemble de données d’apprentissage dans le but de généraliser à de nouvelles données. Bien que ces approches aient été initialement appliquées à des ensembles de données simples comme la reconnaissance des chiffres, l’avènement des cartes graphique à usage général (GPGPU) leur ont permis de traiter des ensembles de données beaucoup plus volumineux. Les applications préliminaires des réseaux neuronaux profonds à la séparation des sources visaient à classifier les points temps-fréquence parmi

(35)

1.3. APPROCHE PROPOSÉE : GCC-NMF 7 les sources [122] ou à étendre l’approche basée sur les modèles NMF en utilisant un DNN pour classifier les spectres des sources estimés [33]. Les approches suivantes visaient à apprendre directement les spectres de magnitude de source, le masque de rapport idéal (IRM) ou le masque binaire idéal (IBM), montrant des résultats améliorés par rapport aux approches basées sur des modèles [121, 124]. Les techniques actuelles de rehausse-ment de la parole sont basées sur des réseaux de neurones profonds qui prédisent l’IRM [47], prenant comme entrée une concaténation d’un large éventail de caractéristiques vo-cales traditionnelles, y compris les coefficients cepstraux de fréquence Mel (MFCC), les spectres de modulation d’amplitude (AMS), et les énergies de banc de filtres gamma, la transformation spectrale relative (RASTA), et les caractéristiques de prédiction linéaire perceptuelle (PLP) [18, 120]. Les approches récentes commencent à utiliser des spectres de magnitude de l’ordre de 100 ms directement [19, 119]. Alors que l’on sait que les méthodes d’apprentissage en profondeur améliorent les métriques de prédiction d’intelligibilité, les tests d’écoute humains ont récemment montré que l’intelligibilité peut en fait être réduite en pratique [32]. De plus, malgré le potentiel indéniable des approches d’apprentissage en profondeur pour les applications de traitement de la parole, la grande quantité de données supervisées et de ressources de calcul requises pour leur entraînement les rend prohibitives dans les applications où ces ressources ne sont pas disponibles. Dans ce travail, nous ef-fectuons un apprentissage de dictionnaire NMF non supervisé en utilisant une très petite quantité de données non étiquetées, ouvrant la porte à un large éventail d’applications pour lesquelles de grands ensembles de données supervisés ne sont pas disponibles.

1.3

Approche proposée : GCC-NMF

Dans cette thèse, nous proposons une nouvelle approche pour résoudre le problème du cocktail appelé GCC-NMF. Cet algorithme combine l’apprentissage automatique non su-pervisé via NMF avec le traitement de signal multicanal par la méthode de localisation spatiale à corrélation croisée généralisée (GCC). Un dictionnaire NMF est d’abord appris d’une manière purement non supervisée soit à partir du signal de mélange d’entrée lui-même, ou en pré-entraînnant à partir d’une petite quantité de données provenant d’un ensemble de données différent. Les atomes du dictionnaire individuel sont ensuite asso-ciés au locuteur cible ou à l’interférence à chaque instant en fonction de leur localisation spatiale. Les emplacements spatiaux des atomes individuels sont estimés en utilisant la méthode GCC, où les fréquences sont pondérées par leur magnitude relative pour chaque atome donné. Étant donné que cette approche peut être effectuée indépendamment pour chaque trame, GCC-NMF est bien adapté pour un fonctionnement en temps réel. En

(36)

in-8 CHAPITRE 1. INTRODUCTION FRANÇAISE corporant une technique de fenêtrage asymétrique, les latences dans la plage tolérable pour les prothèses auditives peuvent être atteintes sur les plateformes embarquées actuelles. Le pré-entraînement du dictionnaire NMF nécessite très peu de données, et l’apprentissage du dictionnaire ne prend que quelques secondes à quelques minutes, en fonction de la taille du dictionnaire choisi. GCC-NMF est conceptuellement simple, facile à mettre en œuvre et efficace du point de vue du calcul. Finalement, puisque GCC-NMF ne nécessite aucune connaissance préalable des sources sous-jacentes, il s’agit en fait d’un algorithme géné-rique avec des applications potentielles dans les problèmes de séparation et de débruitage de sources dans une grande variété de domaines.

1.4

Aperçu de la thèse

Le corps principal de cette thèse est constitué de deux articles de revue reproduits dans le chapitre 3 et le chapitre 4 (reformatés pour correspondre à ce document). Le premier article, Blind Speech Separation and Enhancement with NMF [131] introduit GCC-NMF dans le contexte hors-ligne où le mélange entier de 10 secondes est utilisé pour effectuer la séparation ou le rehaussement. Ce travail souligne la flexibilité de GCC-NMF en l’appliquant à trois problèmes du monde réel : a) la séparation des locuteurs concurrents, b) la parole mélangée avec du bruit de fond réel avec un locuteur statique et c) la parole mélangée avec du bruit de fond réel avec un locuteur en mouvement. Le deuxième article,

Low Latency Speech Enhancement with Real-time GCC-NMF [130], adapte GCC-NMF

au contexte en ligne en pré-apprenant le dictionnaire NMF et en inférant ses coefficients d’activation en ligne, trame par trame. Ce travail met en évidence le potentiel d’utilisation dans les prothèses auditives en réduisant la latence algorithmique jusqu’à 2 ms et en évaluant sa performance sur les plateformes embarquées. Finalement, nous présentons une conclusion et proposons des directions de recherche futures pour GCC-NMF dans le chapitre 5 (Chapitre 6 en anglais).

(37)

CHAPTER 2

ENGLISH INTRODUCTION

2.1

Problem Statement

2.1.1

The Cocktail Party Problem

The cocktail party phenomenon refers to our remarkable ability to focus on a single sound source in a noisy environment, teasing the auditory scene into foreground and background streams [20, 35]. Despite a significant amount of research over more than 50 years in fields as diverse as psychoacoustics, physics, neuroscience, engineering, and computer science, artificial systems are still far from matching the human auditory system’s robustness to noise [61, 62]. While many approaches work well in ideal settings, even the most robust artificial systems have trouble coping with the complexities and diversity of real-world environments. The major challenges for robustness in real-world settings include: a) un-derdetermined mixing systems with a greater number of sound sources than microphones, b) convolutive mixing systems where microphones receive multiple delayed and filtered versions of the sources due to multipath propagation through the environment, c) the presence of non-stationary noise at potentially very low signal-to-noise ratios, and d) the non-stationarity of speech itself and differences between individual speakers.

2.1.2

Real-world Applications

The large body of research on the cocktail party phenomenon is driven by two primary motivations: a scientific curiosity to understand how humans are able to solve the problem, and the potential applications of an artificial cocktail party processor for both artificial and human listening systems. In the context of artificial listening systems, the increasingly pervasive digital personal assistants found in smartphones, homes, and cars rely on robust speech enhancement front-ends to the automatic speech recognition (ASR) back-end. Cop-ing with background noise in ASR systems is a dominant aspect of recent research, where relatively large microphone arrays and spatial filtering algorithms are currently required to achieve optimal performance [21]. In this thesis, we will instead focus on cocktail party processor applications aimed at human listeners. One of the most damaging consequences of hearing loss in humans is an increased difficulty understanding speech, particularly in noisy environments, resulting in an increased risk of social isolation and depression [78].

(38)

10 CHAPTER 2. ENGLISH INTRODUCTION While current hearing aids aim to improve speech comprehension for these patients, they become bothersome in noisy environments as they are less able to suppress the interfering noise and amplify both the desired speech and noise [68]. Another important application for a robust artificial cocktail party processor is the prevention of noise-induced hearing loss in the workplace, where listeners often remove hearing protection devices in order to communicate effectively with others [69, 114]. Researchers have begun to address this problem by incorporating speech enhancement algorithms into hearing protection devices such that users may communicate freely while their hearing remains protected [57]. In this work, we present a novel speech separation and enhancement algorithm named GCC-NMF. We highlight its potential use in hearing assistive devices by developing a low latency, real-time version and studying its performance on embedded hardware platforms.

2.1.3

Evaluation Data

We evaluate the performance of the proposed GCC-NMF speech separation and speech en-hancement algorithm on data from the Signal Separation Evaluation Campaign (SiSEC). SiSEC offers publicly available data and evaluation tools allowing for consistent compar-ison between a variety of algorithms in a number of problem settings including speech enhancement, music source separation, and biomedical signal separation. We will focus here on the two main problems studied in the field of the cocktail party problem: speech separation, where mixtures consist of concurrent speakers in reverberant environments, and speech enhancement or denoising, where a single speaker is masked by real-world background noise recorded in both reverberant and free-field environments. The speech separation data consists of ten-second mixtures or 3 and 4 female and male speakers, recorded synchronously by two microphones separated by 5 cm and 1 m with a sam-ple rate of 16 kHz. To facilitate evaluation of speech separation algorithms, each voice is recorded separately and subsequently mixed together, such that the original speech record-ings are available for comparison. We note that reverberation here is not simulated, as the recording is made directly in reverberant rooms (RT60 values of 130 ms and 250 ms). The

speech in noise evaluation data consists of ten-second recordings sampled at 16 kHz with a microphone separation of 8.6 cm. A single speaker is added to real-world background noise in a similar manner as above, such that both the isolated speech and noise signals are available for objective evaluation of speech enhancement quality and intelligibility.

2.1.4

Evaluation Metrics

The SiSEC evaluation campaign uses two open source toolkits to quantify speech separa-tion and enhancement performance: BSS Eval, a "toolbox for performance measurement

(39)

2.2. EXISTING APPROACHES 11 in (blind) source separation" [111], and the Perceptual Evaluation methods for Audio Source Separation (PEASS) toolkit [30]. Both toolkits provide four measures of quality: overall separation quality, degree of target fidelity, amount of interference suppression, and lack of perceptual artifacts. While BSS Eval is based on traditional signal-to-noise (SNR) metrics, the PEASS metrics are designed to better correlate with qualitative human assessments. PEASS combines a number of perceptually-motived features including the PEMO-Q perceptual salience measure with an artificial neural network trained to predict true Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) subjective evalua-tions [30]. Both BSS Eval and PEASS are intrusive metrics in the sense that they require the true source and interference signals. While separation quality is an appropriate per-formance measure for many applications, a more relevant measure for assistive listening devices is speech intelligibility. To quantify intelligibility, we rely on two objective metrics commonly used in the literature: the short-time objective intelligibility (STOI) metric [105] and the extended STOI (ESTOI) metric that better correlates with listening test scores than its predecessor [40]. While the algorithmic performance measures we use here allow for large-scale comparison of different models and parameter settings, they are not a replacement for human listening tests. For example, a recent analysis of a large number of objective intelligibility measures found that many metrics yield poor results on datasets other than those used during development [109]. Subjective listening and intelligibility tests are therefore planned for future work.

2.2

Existing Approaches

Traditional attempts at solving the cocktail party problem can be divided into two main groups, termed blind source separation (BSS) approaches and computational auditory scene analysis (CASA) approaches. More recently, with the advent of modern machine learning algorithms and increased computational power, methods that learn from train-ing data have dominated the literature. These approaches typically fall into the category of model-based source separation methods, as a single model is learned for each source. Initially, non-negative matrix factorization (NMF) was used to learn atomic components of speech, noise, or musical components in isolation, and subsequently used to separate mixtures of the pre-learned components [66]. More recently, deep neural networks (DNNs) that perform speech enhancement via supervised learning on large datasets have been in-creasingly prevalent in the literature [132]. In this work, we combine purely unsupervised machine learning methods via NMF with traditional CASA-type feature grouping

(40)

tech-12 CHAPTER 2. ENGLISH INTRODUCTION nique via the generalized cross-correlation (GCC) spatial localization method, capturing several desirable properties of the various existing approaches.

2.2.1

Blind Source Separation (BSS)

BSS is a classical signal processing problem where we aim to recover a set of signals from a set of linear combinations thereof. In the context of audio source separation, each mi-crophone sees an instantaneous, scaled version of each source. Provided the number of mixtures is greater than or equal to the number of sources, techniques based on inde-pendent component analysis (ICA) may be used to recover the source signals [10, 39]. To handle convolutive mixtures, ICA may instead be performed independently at each frequency [94], however, the resulting permutation indeterminacy problem must then be solved to correctly recombine the frequency-specific source estimates. ICA relies on the assumption that the mixture is instantaneous and linear, such that the mixing operation may be represented as a matrix, and aims to determine the inverse of this mixing matrix with which the original sources may be recovered. Several formulations exist to determine the unmixing matrix including: a) maximization of the statistical independence of the re-covered sources via joint entropy maximization of non-linearly transformed versions of the recovered sources [101], b) maximization of the Shannon mutual information between the input and output of a deterministic network of similar structure, referred to as Infomax optimization principle [58], and c) maximum likelihood estimation by specifying marginal probability density functions (PDFs) of the true source signals [67]. We note that since ICA methods are based on statistical signal properties, this imposes challenges for their applicability in low latency, real-time applications since statistics must be accumulated over time. A very desirable characteristic of these approaches, however, is that no prior knowledge about the nature of the signals is required a priori.

2.2.2

Computational Auditory Scene Analysis (CASA)

CASA approaches to the cocktail party problem [14, 80] are inspired by auditory scene analysis in humans [13] based on the Gestalt psychology notion that the human mind perceives objects as whole, with the whole being other than a collection of its parts [46]. CASA algorithms suppose that the auditory features from the same sound source are similar to each other both in terms of the features themselves and characteristics of their temporal activations including onset, offset, or modulations. The auditory scene is first separated, or analyzed, into constituent parts based on perceptually-inspired features in-cluding pitch, spatial location via the inter-aural level differences (ILD), inter-aural time differences (ITD), and temporal onset and offsets. The features are then grouped based

(41)

2.2. EXISTING APPROACHES 13 on similarity, e.g. features having similar onset or ITD are said to originate from the same source, and each group is resynthesized independently. We take inspiration from the CASA analysis-separation-synthesis paradigm here, though instead of using pre-determined fea-tures based on prior knowledge, we will instead automatically learn feafea-tures in a purely blind, unsupervised fashion via NMF. The dictionary atoms are subsequently grouped based on ITD estimates of each NMF dictionary atom at each point in time.

2.2.3

NMF-based Approaches

NMF learns parts-based representations of non-negative input data in a purely unsuper-vised fashion [52]. As an illustrative example, when applied to a dataset of images of faces, NMF learns atomic parts that correspond to parts of eyes, noses, and mouths [52]. When applied to audio spectrograms frames, NMF learns atomic spectra that encode spectral characteristics including pitch and spectral envelope [95]. By extending the input data across time, NMF learns short spectro-temporal patches that encode spectro-temporal patterns typical of sound sources [22]. NMF-based methods have been widely applied in the context of music separation and speech denoising. The primary challenge of such ap-proaches is to determine which NMF atoms belong to which source, similar to the CASA challenge of feature grouping. For simple sound sources where a single NMF atom corre-sponds to a single source, the separation is performed automatically by the decomposition process. However, more complex sources are encoded across several atoms, and a given atom may encode different sources at different points in time. To tackle this problem, most previous techniques resort to a supervised learning approach, where individual NMF dictionaries are learned for each source, such that the atom-source association is known a priori. By pre-learning the NMF dictionaries, these approaches are able to function in real-time in a frame-by-frame fashion. Unsupervised approaches instead leverage the spatial distribution of sound sources, learning atoms that contain both spatial and spec-tral information [75, 100]. These approaches are unsuitable for real-time use, however, as the spatial characteristics do not generalize to unseen conditions. In this work, we combine the advantages of the supervised and unsupervised NMF-based approaches by first pre-learning a single spectral dictionary in an unsupervised fashion, and subsequently estimating the spatial locations of the dictionary atoms in a frame-by-frame fashion. This approach is therefore both purely unsupervised and able to operate in real-time.

2.2.4

Deep Learning Approaches

With increasing computational power and amount of data available to researchers, su-pervised deep learning approaches have begun to outperform traditional approaches in

(42)

14 CHAPTER 2. ENGLISH INTRODUCTION a wide variety of fields, including speech separation [37] and speech enhancement [124]. Deep neural networks are non-linear, hierarchical functions whose parameters are learned by optimizing a cost function over a training dataset with the goal of generalizing to unseen data. While these approaches were initially applied to simple datasets such as digit recognition, the advent of general-purpose graphics processing units (GPGPU) has allowed them to scale to much bigger datasets, and much more realistic problem settings. Preliminary applications of deep neural networks to source separation aimed to classify time-frequency points among sources [122], or to extend the NMF model-based approach by using a DNN to classify the estimated source spectra [33]. Subsequent approaches aimed to directly learn the source magnitude spectra, ideal ratio mask (IRM), or ideal bi-nary mask (IBM), showing improved results over the model-based approaches [121, 124]. Current state-of-the-art speech enhancement techniques are based on feed-forward deep neural networks that predict the IRM [47], taking as input a concatenation of a wide range of traditional speech features including Mel-frequency cepstral coefficients (MFCCs), am-plitude modulation spectra (AMS), and gamma-tone filterbank energies, relative spectral transform (RASTA), and perceptual linear prediction (PLP) features [18, 120], though recent approaches have begun to use long-duration magnitude spectra on the order of 100 ms directly [19, 119]. While deep learning methods are known to increase predicted intelligibility metrics, human listening tests have recently showed that intelligibility may in fact be decreased in practice [32]. As well, despite the undeniable potential of deep learning approaches for real-world speech processing applications, the large amount of su-pervised data and computational resources required for training do make them prohibitive in application settings where these resources are not available. In this work, we perform unsupervised NMF dictionary learning using only a very small amount of unlabelled data, opening the door to a wide range of applications for which large, supervised datasets are not available.

2.3

Proposed Approach: GCC-NMF

In this thesis, we propose a new approach to solving the cocktail party problem named GCC-NMF. This algorithm combines unsupervised machine learning via NMF with multi-channel signal processing via the generalized cross-correlation (GCC) spatial localization method. An NMF dictionary is first learned in a purely unsupervised fashion either from the input mixture signal itself, or by pre-training using a small amount of data from a different dataset. Individual dictionary atoms are then associated to either the target speaker or interference at each point in time, based on their spatial location. The spatial

(43)

2.4. OVERVIEW OF THE THESIS 15 locations of individual atoms are estimated using the GCC method, where frequencies are weighted by their relative magnitude in the given atom. Since this approach can be performed independently for each time frame, GCC-NMF is well-suited for real-time operation. By incorporating an asymmetric windowing technique, latencies within the tolerable range for hearing aids can be achieved on current hardware platforms. Pre-training the NMF dictionary requires very little data, and dictionary learning takes only a few seconds to a few minutes, depending on the chosen dictionary size. GCC-NMF is conceptually simple, easy to implement, and computationally efficient. Finally, since GCC-NMF requires no prior knowledge about the underlying sources, it is in fact a generic algorithm with potential applications in source separation and denoising problems in a wide variety of fields beyond speech separation and speech enhancement.

2.4

Overview of the Thesis

The main body of this thesis consists of two journal papers reproduced in Chapter 3 and Chapter 4 (reformatted to match this document). The first paper, Blind Speech Separation

and Enhancement with GCC-NMF [131] introduces GCC-NMF in the offline context where

the entire 10 mixture is used to perform separation or enhancement. This work highlights the flexibility of GCC-NMF by applying it to three real-world problems: a) concurrent speaker separation, b) speech in real-world background noise with a static speaker, and c) speech in real-world background noise with a moving speaker. The second paper, Low

Latency Speech Enhancement with Real-time GCC-NMF [130], adapts GCC-NMF to the

online setting by pre-learning the NMF dictionary and inferring its activation coefficients online in a frame-by-frame fashion. This work highlights the potential for real-world use in hearing assistive devices by reducing algorithmic latency to as low as 2 ms and testing its performance on embedded hardware platforms. Finally, we present a conclusion and propose future research directions for GCC-NMF in Chapter 6 (Chapter 5 in French).

(44)
(45)

CHAPITRE 3

GCC-NMF EN MODE HORS-LIGNE

Avant propos

Auteurs et affiliation :

S. U. N. Wood : étudiant au doctorat, Université de Sherbrooke, Faculté de génie, Département de génie électrique et de génie informatique.

J. Rouat : professeur, Université de Sherbrooke, Faculté de génie, Département de génie électrique et de génie informatique.

S. Dupont : professeur, Université de Mons, Faculté Polytechnique de Mons. G. Pironkov : étudiant au doctorat, Université de Mons, Faculté Polytechnique de Mons.

Date d’acceptation : 20 janvier 2017

État de l’acceptation : version finale publiée

Revue : IEEE/ACM Transactions on Audio, Speech, and Language Processing Titre français : Séparation et rehaussement aveugle de la parole avec GCC-NMF Contribution au document : Nous introduisons ici l’algorithme GCC-NMF dans le contexte hors-ligne où le mélange de 10 secondes en entier est utilisé pour faire la séparation ou le rehaussement.

Résumé français :

Nous présentons un algorithme de séparation de source aveugle nommé GCC-NMF qui combine l’apprentissage de dictionnaire non supervisé via la factorisation matricielle non négative (NMF) avec la localisation spatiale via la méthode de corrélation croisée géné-ralisée (GCC). L’apprentissage des dictionnaires est effectué sur le signal de mélange, la séparation étant ensuite réalisée en groupant des atomes du dictionnaire, à chaque instant, en fonction de leur origine spatiale. L’algorithme de séparation de sources qui en résulte est simple mais flexible, ne nécessitant aucune connaissance ou information préalable. La qualité de séparation est évaluée pour trois tâches en utilisant des enregistrements sté-réo de la campagne d’évaluation de séparation de signal SiSEC disponible publiquement : 3 et 4 locuteurs simultanés dans des environnements réverbérants, de la parole

Figure

Figure 3.1 NMF decomposition of a stereo mixture of speech signals. a) The NMF dictionary W f d , with cube root compression applied for clarity, consisting of atoms that are non-negative functions of frequency
Figure 3.2 Source localization with GCC-PHAT for a 2 second mixture of 3 speakers. a-b) Generation of the GCC-PHAT angular spectra shown for six points in time
Figure 3.3 GCC-NMF source separation system, see Table 3.1 for variable de- de-scriptions
Figure 3.4 Computing GCC-NMF angular spectra for a subset of six dictio- dictio-nary atoms d, at a given time t
+7

Références

Documents relatifs