• Aucun résultat trouvé

Les approches traditionnelles pour résoudre le problème du cocktail party peuvent être divisées en deux groupes principaux : les approches de séparation de source aveugle (BSS) et les approches d’analyse de scène auditive computationnelle (CASA). Plus récemment, avec l’avènement des algorithmes d’apprentissage automatique modernes et une puissance de calcul accrue, les méthodes qui apprennent à partir des données ont dominé la litté- rature. Ces approches entrent généralement dans la catégorie des méthodes de séparation de sources à base de modèle, car un seul modèle est appris pour chaque source. Initiale- ment, la factorisation matricielle non négative (NMF) a été utilisée pour apprendre des bases de la parole, du bruit ou des composants musicaux isolés, et ensuite pour séparer les mélanges de ces composants pré-appris [66]. Plus récemment, les réseaux de neurones profonds (DNN) qui apprennent à effectuer le rehaussement de la parole par l’apprentis- sage supervisé sur de grands ensembles de données sont de plus en plus répandus dans la littérature [132]. Dans ce travail, nous combinons des méthodes d’apprentissage machine purement non supervisées via NMF avec la technique traditionnelle de regroupement de caractéristiques de type CASA à l’aide de la méthode de localisation spatiale par corréla- tion croisée généralisée (GCC), capturant plusieurs propriétés souhaitables des différentes approches existantes.

1.2.1

Séparation de source aveugle (BSS)

La BSS est un problème de traitement de signal classique où nous visons à récupérer un ensemble de signaux à partir d’un ensemble de combinaisons linéaires de ceux-ci. Dans le contexte de la séparation de sources audio, chaque microphone voit une version instantanée de chaque source multipliée par un scalaire. À condition que le nombre de mélanges soit supérieur ou égal au nombre de sources, les techniques basées sur l’analyse des composantes indépendantes (ICA) peuvent être utilisées pour récupérer les sources originales [10, 39]. Pour gérer des mélanges convolutifs, l’ICA peut être effectué indépendamment à chaque fréquence [94], cependant, le problème d’indétermination de permutation qui en résulte doit ensuite être résolu pour recombiner correctement les estimations de sources à chaque fréquence. L’ICA repose sur l’hypothèse que le mélange est instantané et linéaire, de sorte que l’opération de mélange peut être représentée comme une matrice, et vise à déterminer l’inverse de cette matrice de mélange avec laquelle les sources originales peuvent ensuite être récupérées. Plusieurs formulations existent pour déterminer la matrice de démixage incluant : a) la maximisation de l’indépendance statistique des sources récupérées par la maximisation de l’entropie conjointe des versions non-linéairement transformées des

1.2. APPROCHES EXISTANTES 5 sources estimées [101], b) la maximisation de l’information mutuelle Shannon entre l’entrée et la sortie d’un réseau déterministe de structure similaire, appelé principe d’optimisation Infomax [58], et c) l’estimation du maximum de vraisemblance en spécifiant des fonctions de densité de probabilité (PDF) marginales des vrais signaux source [67]. Nous notons que puisque les méthodes ICA sont basées sur des propriétés statistiques de signaux, cela pose un problème pour leur applicabilité dans des applications temps réel à faible latence, car les statistiques doivent être accumulées au fil du temps. Une caractéristique très souhaitable de ces approches, cependant, est qu’aucune connaissance préalable de la nature des signaux n’est requise a priori.

1.2.2

Analyse de scène auditive computationnelle (CASA)

Les approches au problème de cocktail de type CASA [14, 80] sont inspirées par l’analyse de scène auditive chez les humains [13]. Ces approches sont basées sur la notion de psychologie de la gestalt selon laquelle l’esprit humain perçoit des objets entiers, où le tout est différent de la somme des parties constituantes [46]. Les algorithmes CASA supposent que les caractéristiques auditives provenant de la même source sonore sont similaires les unes aux autres à la fois en termes de caractéristiques elles-mêmes et de caractéristiques de leurs activations temporelles, y compris l’apparition, la disparition ou les modulations. La scène auditive est d’abord séparée, ou analysée, en éléments constitutifs basés sur des caractéristiques inspirées par la perception humaine telles que la hauteur en fréquence, la localisation spatiale par les différences de niveau interaural, les différences temporelles interaurales et les modulations temporelles. Les caractéristiques sont ensuite regroupées en fonction de leur similarité, par exemple les caractéristiques ayant une apparition ou ITD similaire sont supposées provenir de la même source. Chaque groupe est ensuite resynthétisé indépendamment. Nous nous inspirons ici du paradigme analyse-séparation- synthèse de CASA, mais au lieu d’utiliser des caractéristiques prédéterminées basées sur des connaissances préalables, nous apprendrons automatiquement des caractéristiques de manière purement aveugle et non supervisée via NMF. Les atomes du dictionnaire NMF sont ensuite groupés sur la base des estimations ITD de chaque atome à chaque instant.

1.2.3

Approches basées sur NMF

NMF apprend des représentations basées sur des parties à partir de données d’entrée non négatives de façon purement non supervisée [52]. À titre d’exemple illustratif, lorsqu’on applique NMF à un ensemble d’images de visages, il apprend des parties constitutives qui correspondent à des parties d’yeux, de nez et de bouches [52]. Lorsqu’il est appliqué à des trames de spectrogrammes audio, NMF apprend des spectres atomiques qui codent les

6 CHAPITRE 1. INTRODUCTION FRANÇAISE caractéristiques spectrales, y compris la hauteur et l’enveloppe spectrale [95]. En étendant les données d’entrée dans le temps, NMF apprend de courts segments spectro-temporels qui codent des motifs spectro-temporels typiques des sources sonores [22]. Les méthodes basées sur NMF ont été largement appliquées dans le contexte de la séparation de la mu- sique et du débruitage de la parole. Le principal défi de ces approches est de déterminer quels atomes appartiennent à quelle source, similaire au défi CASA de regroupement de caractéristiques. Pour les sources sonores simples où un seul atome NMF correspond à une seule source, la séparation est effectuée automatiquement par le processus de décom- position. Cependant, des sources plus complexes sont codées sur plusieurs atomes, et un atome donné peut coder des sources différentes à différents moments dans le temps. Pour résoudre ce problème, la plupart des techniques précédentes ont recours à une approche d’apprentissage supervisé, où des dictionnaires NMF individuels sont appris pour chaque source, de sorte que l’association atome source est connue a priori. En pré-apprenant les dictionnaires NMF, ces approches peuvent fonctionner en temps réel, trame par trame. Les approches non supervisées utilisent à la place la distribution spatiale des sources so- nores, en apprenant des atomes contenant à la fois des informations spatiales et spectrales [75, 100]. Cependant, ces approches ne conviennent pas pour une utilisation en temps réel, car les caractéristiques spatiales ne se généralisent pas à de nouvelles conditions. Dans ce travail, nous combinons les avantages des approches NMF supervisées et non supervisées en pré-apprenant d’abord un seul dictionnaire spectral de manière non supervisée, puis en estimant les emplacements spatiaux des atomes du dictionnaire trame par trame. Cette approche est donc à la fois purement non supervisée et capable de fonctionner en temps réel.

1.2.4

Approches basées sur l’apprentissage en profondeur

Avec l’augmentation de la puissance de calcul et la quantité de données disponibles aux chercheurs, les approches d’apprentissage profond supervisées ont commencé à surpasser les approches traditionnelles dans une grande variété de domaines, notamment la sépara- tion de la parole [37] et le rehaussement de la parole [124]. Les réseaux neuronaux profonds sont des fonctions non linéaires et hiérarchiques dont les paramètres sont appris en opti- misant une fonction de coût sur un ensemble de données d’apprentissage dans le but de généraliser à de nouvelles données. Bien que ces approches aient été initialement appliquées à des ensembles de données simples comme la reconnaissance des chiffres, l’avènement des cartes graphique à usage général (GPGPU) leur ont permis de traiter des ensembles de données beaucoup plus volumineux. Les applications préliminaires des réseaux neuronaux profonds à la séparation des sources visaient à classifier les points temps-fréquence parmi

1.3. APPROCHE PROPOSÉE : GCC-NMF 7

Documents relatifs