• Aucun résultat trouvé

Dans ce chapitre nous avons proposé deux nouveaux modèles distincts pour les parties précoce et tardive des réponses en fréquence de salle, l’idée principale étant de chercher à transcrire la dynamique temporelle des réponses de salle sous forme de corrélations fréquentielles.

A partir de résultats d’acoustique géométrique des salles, les premières contributions ont été représentées dans le domaine temporel par des impulsions auxquelles correspondent une atténua- tion et un retard. Cette approche nous a amené à modéliser la réponse en fréquence associée aux premières contributions comme un processus AR. En supposant que le trajet direct domine les premiers échos, l’ordre de ce processus AR peut être fixé à 1.

D’après des résultats d’acoustique statistique des salles nous représentons la réverbération tar- dive en fréquence par un processus gaussien complexe, centré, propre et stationnaire au sens large. Nous avons montré qu’il est possible d’exploiter la décroissance exponentielle de la réverbération tardive dans le domaine temporel afin d’obtenir des expressions théoriques des fonctions de den- sité spectrale de puissance et d’autocovariance de ce processus. Nous avons finalement proposé de paramétrer ces deux quantités par un modèle ARMA.

Ces modèles fréquentiels de réponse de salle vont nous permettre dans le chapitre suivant de guider l’estimation des filtres de mélange dans un contexte de séparation de sources.

0 0.05 0.1 0.15 0.2 0.25 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5x 10 −3 temps (s) amplitude

FIGURE3.7 – Réverbération tardive synthétisée à partir du filtrage ARMA(7,2) dans le domaine fréquentiel d’un bruit blanc gaussien complexe propre.

Séparation de sources avec a priori sur

la réponse en fréquence des filtres de

mélange

La méthode de séparation de sources développée dans ce chapitre se base sur l’approche pro- posée dans [Ozerov et Févotte,2010;Ozerov et al.,2011]. Dans cette référence les sources sont représentées comme des variables aléatoires latentes dans le domaine de la TFCT. Les filtres de mélange sont quant à eux considérés comme des paramètres déterministes dans le domaine fré- quentiel, estimés au sens du maximum de vraisemblance, c’est-à-dire à partir des données obser- vées uniquement. L’inférence des sources et l’estimation des paramètres sont effectuées grâce à un algorithme EM. Nous commençons par présenter cette méthode à la section 4.1.

Nous proposons ensuite à la section 4.2 d’utiliser les modèles de réponse en fréquence de salle développés au chapitre précédent afin de définir un a priori probabiliste sur la réponse en fréquence des filtres de mélange. L’approche suivie dans ce chapitre pour définir le modèle est illustrée par la figure 4.1.

Le modèle de filtres de mélange est pris en compte à la section 4.3 afin de modifier l’étape M de l’algorithme EM précédent, dans le but d’estimer les filtres au sens du maximum a posteriori.

Enfin, dans la section 4.4 nous montrons expérimentalement que la prise en compte de l’a priori permet d’améliorer les résultats de séparation de sources. Cette méthode a fait l’objet d’une publication dans un article de revue [Leglaive et al.,2016b].

FIGURE4.1 – Illustration de l’approche suivie dans ce chapitre.

4.1

Modèles et estimation des filtres au sens du maximum de vrai-

semblance

Dans cette section nous présentons le modèle et l’algorithme d’inférence développés dans [Ozerov et Févotte,2010;Ozerov et al.,2011].

4.1.1 Modèle

a) Modèle de mélange

On considère un mélange bruité de J sources sur I canaux exprimé dans le domaine de la TFCT tel que pour tout (f, n) ∈ {0, ..., F − 1} × {0, ..., N − 1} :

où xf n = [xi,f n]>i ∈ CI, sf n = [sj,f n]>j ∈ CJ, Af = [aij,f]i,j ∈ CI×J est la matrice de mélange

formée à partir des réponses en fréquence de salle et bf n = [bi,f n]>i ∈ CI est un bruit blanc

gaussien complexe stationnaire en temps et isotrope spatialement :

bf n∼ Nc(0, Σb,f), Σb,f = σb,f2 II, (4.2)

où σb,f2 > 0 et IIest la matrice identité de taille I. Nc(µ, Σ) représente la loi gaussienne complexe

multivariée propre de densité de probabilité :

Nc(x; µ, Σ) =

1

det(πΣ)exp[−(x − µ)

HΣ−1(x − µ)], (4.3)

avec det(M) le déterminant de la matrice M. Le terme «propre» signifie que la matrice de pseudo- covariance E[(x − µ)(x − µ)>] est nulle [Adali et al.,2011]. De plus, si le vecteur moyenne µ est également nul alors la distribution est à symétrie circulaire.

Il est important de mentionner que ce terme bf nne correspond en général pas à un bruit réel

dans le mélange. Il permet dans le cadre d’un modèle probabiliste d’indiquer que conditionnelle- ment aux variables de sources, le mélange est gaussien.

b) Modèle de source

Les sources sont supposées mutuellement et individuellement indépendantes pour chaque point TF tel que :

sf n ∼ Nc(0, Σs,f n), Σs,f n = diag {vj,f n}j, (4.4)

où diag({cm}m) est la matrice diagonale construite à partir des coefficients cmpour m = 1, ..., M .

Les variances dans le modèle de source (4.4) sont de plus structurées par l’intermédiaire d’un modèle NMF dont nous rappelons l’expression :

vj,f n= (WjHj)f,n, (4.5)

où Wj ∈ R F ×Kj

+ et Hj ∈ R Kj×N

+ avec Kjle rang de la factorisation pour la source j.

4.1.2 Inférence par l’algorithme EM

Dans la méthode originellement proposée dans [Ozerov et Févotte,2010], chaque source sj,f n

est décomposée comme la somme de Kj composantes gaussiennes ck,f n, représentées par une

NMF de rang 1. Ces composantes sont alors considérées comme les variables latentes pour déve- lopper un algorithme EM. Il a ensuite été proposé, notamment par les mêmes auteurs, de consi- dérer directement les sources sj,f ncomme variables latentes [Ozerov et al.,2011]. Cette seconde

approche permet d’accélérer la convergence de l’algorithme EM.

Nous notons donc s = {sf n}f,nl’ensemble des variables latentes et x = {xf n}f,nl’ensemble

des variables observées. θ ={Wj, Hj}j, {Af, σ2b,f}f correspond à l’ensemble des paramètres

du modèle à estimer.

Vraisemblance D’après le modèle présenté à la section 4.1.1, la distribution du mélange est donnée par :

Log-vraisemblance des données complètes A l’étape E de l’algorithme EM nous devons cal- culer l’espérance conditionnelle de la log-vraisemblance des données complètes QMV(θ; θ0) =

Es|x,θ0[ln p(x, s|θ)] où θ 0

représente la valeur courante des paramètres. D’après les équations (4.1), (4.2) et (4.4) la log-vraisemblance des données complètes s’écrit :

ln p(x, s; θ) = −F N (I + J ) ln(π) − F −1 X f =0 N −1 X n=0 h ln det(Σb,f) + (xf n− Afsf n)HΣ−1b,f(xf n− Afsf n) i − J X j=1 F −1 X f =0 N −1 X n=0 h ln[(WjHj)f,n] + |sj,f n|2 (WjHj)f,n i . (4.7)

Distribution a posteriori des sources On sait que sf n et bf n sont deux vecteurs aléatoires

gaussiens indépendants, donc [s>f n, b>f n]> est également un vecteur gaussien. Par linéarité de la

loi normale, sf n xf n  = IJ 0 Af II   sf n bf n 

est également un vecteur aléatoire gaussien. On peut alors montrer d’après les propriétés de la loi gaussienne multivariée que la distribution a posteriori des variables cachées s’écrit :

p(s|x; θ) =Y f,n p(sf n|xf n; θ) où sf n|xf n; θ ∼ Nc(ˆsf n, Σposts,f n), (4.8) avec . ˆsf n = Σs,f nAHf Σ −1 x,f nxf n; . Σposts,f n = Σs,f n− Σs,f nAHf Σ −1 x,f nAfΣs,f n.

Nous remarquons que pour calculer l’estimateur des sources donné par la moyenne a posteriori ˆ

sf n, il est nécessaire d’inverser la matrice de covariance du mélange Σx,f n définie à l’équation

(4.6). La matrice de covariance du bruit dans cette équation permet de prévenir l’inversion d’une matrice mal conditionnée. En effet si dans le cas sous-déterminé la matrice Σs,f na plus de (J − I)

termes diagonaux nuls, alors le rang de AfΣs,f nAHf est inférieur à I. Ce cas de figure peut arriver

dans certaines régions TF où plusieurs sources sont inactives.

Étape E A partir des équations (4.7) et (4.8), on peut calculer l’espérance conditionnelle de la log-vraisemblance des données complètes. La fonction à maximiser à l’étape M s’écrit :

QMV(θ; θ0) c = −N F −1 X f =0 h ln det(Σb,f) + traceΣ−1b,fRˆxx,f− Σ−1b,fAfRˆHxs,f − Σ−1b,fRˆxs,fAHf + Σb,f−1AfRˆss,fAHf i − J X j=1 F −1 X f =0 N −1 X n=0 h ln[(WjHj)f,n] + ˆ pj,f n (WjHj)f,n i , (4.9) où . ˆR··,f = 1 N N −1 X n=0 ˆ R··,f n; . ˆRxx,f n= Es|x,θ0[xf nxHf n] = xf nxHf n;

. ˆRxs,f n = Es|x,θ0[xf nsHf n] = xf nˆsHf n; . ˆRss,f n = Es|x,θ0[sf nsHf n] = Σ post s,f n+ ˆsf nˆsHf n; . ˆpj,f n= Es|x,θ0[|sj,f n|2] = ˆRss,f n  j,j.

Étape M - matrice de mélange En annulant le gradient de QMV(θ; θ0) par rapport à la matrice

de mélange Af on obtient la règle de mise à jour suivante :

Af = ˆRxs,fRˆ−1ss,f. (4.10)

Étape M - covariance du bruit De la même façon on obtient la règle de mise à jour de la matrice de covariance du bruit Σb,f :

Σb,f = trace( ˆRxx,f − AfRˆHxs,f− ˆRxs,fAHf + AfRˆss,fAHf )

II

I . (4.11)

Étape M - paramètres NMF On reconnaît dans l’expression de QM V(θ; θ0) la divergence

d’Itakura-Saito définie à l’équation (2.21), page 31. Les matrices Wj et Hj peuvent alors être

mises à jour en résolvant le problème d’optimisation suivant :

min Wj,Hj≥0 F −1 X f =0 N −1 X n=0 dIS pˆj,f n, (WjHj)f,n. (4.12)

Ce problème peut être résolu grâce aux règles multiplicatives présentées dans [Févotte et al.,2009] et rappelées page 32 aux équations (2.23) et (2.24) (dans le cas β = 0).

4.1.3 Reconstruction des sources

Les sources et les filtres sont estimés à un facteur d’échelle près dépendant de la fréquence. C’est pourquoi nous fournirons en sortie de cet algorithme les sources images estimées :

ˆ

yj,f n= ˆaj,f nˆsj,f n, (4.13)

où ˆsj,f n= (ˆsf n)jest la moyenne a posteriori de la source j au point TF (f, n) et ˆaj,f correspond

à la j-ème colonne de la matrice de mélange estimée. Les signaux temporels peuvent ensuite être reconstruits par TFCT inverse.

Comme indiqué dans [Ozerov et Févotte,2010], à l’inverse des approches basées sur l’ICA par sous-bandes de fréquences (voir section 2.1.2a, page 23), la méthode que nous venons de présenter ne souffre pas du problème de permutation des canaux fréquentiels. Cette propriété provient du couplage entre bandes de fréquences induit par le modèle de source NMF et également de la procédure d’estimation conjointe des paramètres de source et de la matrice de mélange.