• Aucun résultat trouvé

Nous présentons ci-dessous la structure du manuscrit ainsi que les principales contributions liées à cette thèse.

1.3.1 Première partie : Introduction et état de l’art

Nous introduisons dans cette partie le problème de séparation de sources ainsi qu’un ensemble d’approches de la littérature qui lui ont été consacré.

Chapitre 2 - Etat de l’art Dans le Chapitre 2 nous dressons un état de l’art du domaine axé sur les approches probabilistes pour la séparation de sources.

Nous commençons par introduire les méthodes par analyse en composantes indépendantes et celles basées sur l’analyse en composantes parcimonieuses.

Nous présentons ensuite un certain nombre de modèles supposant une distribution de proba- bilité non stationnaire des coefficients TF des sources. Nous introduisons les techniques de facto- risation en matrices non-négatives fréquemment utilisées dans le contexte des modèles de source probabilistes.

Nous avons montré au chapitre 1 que la convolution dans le domaine temporel pouvait être approchée par une simple multiplication dans le domaine de la TFCT sous une hypothèse de filtres de mélange courts. Cependant cette approximation n’est pas adaptée pour la séparation de mélanges fortement réverbérants car la réponse impulsionnelle des filtres est dans ce cas longue. Nous verrons que d’autres modèles ont été proposés dans la littérature pour la séparation des mélanges fortement réverbérants.

Nous présenterons ensuite les techniques d’inférence statistique qui seront utilisées dans le développement des méthodes de séparation de sources proposées dans cette thèse.

Finalement nous conclurons ce chapitre par les mesures de qualité de séparation communé- ment employées dans le domaine et les bases de données qui seront utilisées dans cette thèse.

1.3.2 Seconde partie : Modélisation du mélange dans le domaine fréquentiel.

Les travaux développés dans cette partie reposent sur l’approximation du mélange convolutif dans le domaine de la TFCT, sous l’hypothèse de filtres de mélange courts.

Chapitre 3 - Modèles de réponse en fréquence de salle L’objectif du chapitre 3 est d’introduire de nouveaux modèles de réponse en fréquence de salle. Nous distinguons la modélisation des premières contributions (trajet direct et premiers échos) de la réverbération tardive.

Inspiré par le modèle de réponse de salle par sources images nous représentons le trajet direct et les premiers échos de la réponse impulsionnelle de salle comme des impulsions auxquelles sont associés un retard et une atténuation. Cette représentation nous amène à une modélisation autorégressive de la réponse en fréquence de salle associée aux premières contributions. Nous avons utilisé ce modèle pour la séparation des mélanges convolutifs multicanaux et réverbérants dans [Leglaive et al.,2015a,b]. Dans ces deux travaux préliminaires nous ne modélisions pas la réverbération tardive.

D’après la théorie de l’acoustique statistique des salles, la réponse en fréquence associée à la réverbération tardive peut être modélisée comme un processus aléatoire gaussien complexe cen- tré, propre et stationnaire au sens large. Ce processus est donc totalement caractérisé par sa densité spectrale de puissance ou sa fonction d’autocovariance. En utilisant le fait que l’énergie de la ré- verbération tardive décroît exponentiellement au cours du temps, on montre que l’on peut obtenir

des expressions théoriques de ces deux quantités qui dépendent de certains paramètres de salle. Nous vérifions expérimentalement par simulation de Monte-Carlo la validité des expressions théo- riques proposées. Nous montrons finalement que la densité spectrale de puissance et la fonction d’autocovariance peuvent être paramétrés de façon précise par un modèle autorégressif à moyenne ajustée. Ce modèle fréquentiel de réverbération tardive a été publié dans [Leglaive et al.,2016a].

Chapitre 4 - Séparation de sources avec a priori sur la réponse en fréquence des filtres de mélange Dans ce chapitre nous utilisons les modèles de réponse en fréquence de salle intro- duits au chapitre précédent afin de développer deux a priori probabilistes distincts pour les parties précoce et tardive des réponses en fréquence des filtres de mélange.

Dans un premier temps, nous présentons la méthode de séparation de sources proposée dans [Ozerov et Févotte, 2010] qui s’appuie sur un modèle de source gaussien basé sur la factorisa- tion en matrices non-négatives. Dans cette article, la convolution dans le domaine temporel est approchée par une simple multiplication dans le domaine de la TFCT. La réponse en fréquence des filtres est alors estimée uniquement à partir des données observées, grâce à un algorithme espérance-maximisation.

Nous introduisons ensuite la procédure d’estimation proposée permettant de prendre en compte les a priori sur les filtres de mélange. Nous adaptons pour cela l’algorithme espérance-maximisation proposé dans [Ozerov et Févotte,2010] afin d’estimer les filtres au sens du maximum a posteriori.

Finalement nous montrons expérimentalement l’intérêt de cette méthode, qui a fait l’objet d’une publication dans un article de revue [Leglaive et al.,2016b].

1.3.3 Troisième partie : Modélisation du mélange dans le domaine temporel Nous explorons dans cette troisième partie de nouvelles approches pour la séparation de sources permettant de relâcher l’hypothèse de filtres de mélange courts et donc mieux adaptées pour la séparation de mélanges enregistrés en présence de forte réverbération. Nous proposons dans un cadre probabiliste d’inférer les coefficients TF des sources à partir des observations tem- porelles du mélange. Nous utilisons pour cela des techniques d’inférence variationnelle.

Chapitre 5 - Filtres de mélange déterministes Dans ce chapitre, les filtres de mélange dans le domaine temporel sont traités comme des paramètres déterministes uniquement estimés à partir des données observées.

Nous présentons tout d’abord une approche basée sur un modèle de source gaussien. Au cha- pitre précédent il était nécessaire de travailler dans le domaine de la TFCT afin d’approcher la convolution temporelle par une simple multiplication. Nous n’avons désormais plus de telle contrainte et pouvons choisir d’autres transformations TF. Nous considérons ici l’utilisation de la MDCT et de la TFCT à fréquence impaire.

Dans le cas de la MDCT, les résultats expérimentaux oracles2 permettent de montrer le po- tentiel de cette approche pour la séparation de mélanges fortement réverbérants. Ces résultats ont été publiés dans [Leglaive et al.,2017a]. Nous montrons ensuite dans un contexte semi-aveugle, en supposant uniquement la connaissance des filtres de mélange, que la MDCT permet d’obtenir une qualité de séparation similaire à la TFCT à fréquence impaire. Cependant, la MDCT étant à échantillonnage critique, elle permet de réduire fortement le temps de calcul. Ces résultats ont été publiés dans [Leglaive et al.,2017c].

Finalement nous adaptons la technique d’inférence variationnelle proposée au cas d’une mo- délisation des sources reposant sur la distribution t de Student. Nous étudions dans un même cadre 2. Le terme «oracle» signifie que les paramètres de l’algorithme sont initialisés à partir de la vérité terrain, c’est-à- dire de la connaissance des vrais signaux sources et filtres de mélange.

un modèle basé sur une hypothèse de parcimonie des coefficients MDCT des sources et un second exploitant une paramétrisation par factorisation en matrices non-négatives. Cette approche nous permet de montrer l’intérêt d’utiliser à la fois une représentation temporelle du mélange convolutif et un modèle exploitant la dynamique TF des sources. Ces résultats ont été publiés dans [Leglaive et al.,2017b].

Chapitre 6 - Modèle t de Student pour les filtres de mélange Ce chapitre présente un cadre bayésien pour la séparation de sources audio où les filtres de mélange sont également traités comme des variables aléatoires latentes, dans le domaine temporel. Il se base sur l’article de revue [Leglaive et al.,2017d] qui a été soumis et est en phase de relecture au moment de la rédaction de cette thèse.

Comme au chapitre précédent, les coefficients TF des sources sont représentés par des va- riables latentes t de Student dont les paramètres d’échelle sont structurés par un modèle de fac- torisation en matrices non-négatives. Nous exploitons la décroissance exponentielle des réponses impulsionnelles de salle pour guider l’estimation des filtres de mélange grâce à un a priori égale- ment basé sur la distribution t de Student. La lourdeur de la queue de cette loi de probabilité permet de prendre indirectement en compte le trajet direct et les premiers échos des filtres. Nous mon- trons également que cette approche permet d’avoir une représentation temps-fréquence adaptée à chaque source composant le mélange, notamment en terme de résolution.

Nous développons à partir de ce modèle un algorithme d’inférence variationnel. Les résultats expérimentaux montrent le potentiel de cette méthode pour la séparation de mélanges enregistrés en présence de forte réverbération, sans supposer la connaissance des filtres de mélange.

1.3.4 Quatrième partie : Conclusion et perspectives

Cette dernière partie a pour objectif de conclure sur les méthodes de séparation de sources développées dans cette thèse. Nous présentons plusieurs perspectives pour de futurs travaux, es- sentiellement reliées à l’approche détaillée au chapitre 6.