Séparation de sources: quand l'acoustique rencontre le machine learning

(1)

HAL Id: hal-01398720

https://hal.inria.fr/hal-01398720

Submitted on 1 Dec 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Séparation de sources: quand l’acoustique rencontre le machine learning

Emmanuel Vincent

To cite this version:

Emmanuel Vincent. Séparation de sources: quand l’acoustique rencontre le machine learning. 13e

Congrès Français d’Acoustique, Apr 2016, Le Mans, France. �hal-01398720�

(2)

S´EPARATION DE SOURCES :

QUAND L’ACOUSTIQUE RENCONTRE LE MACHINE LEARNING

Emmanuel Vincent, Inria Nancy – Grand Est

(3)

La s´eparation de sources: qu’est-ce que c’est?

But: extraire les signaux correspondant aux différentes sources sonores présentes simultanément dans un enregistrement.

`A quoi c¸a sert?

écouter les sources séparées, les remixer,

en extraire de l’information.

CFA – 13/04/2016 2

(4)

Communication parl´ee

La s´eparation de sources permet

de sélectionner la source d’intérêt et réduire le bruit,

d’am´eliorer la reconnaissance de la parole,

(5)

Ing´enierie sonore et ´ecoute interactive

La s´eparation de sources permet

d’upmixer des contenus mono/stéréo en format multicanal, de remixer ces contenus en studio ou à l’écoute,

CFA – 13/04/2016 4

(6)

Commande vocale `a distance et monitoring sonore

La s´eparation de sources permet

de commander `a distance les appareils de la maison connect´ee,

de d´etecter des sons particuliers dans une sc`ene sonore,

(7)

Contenus audiovisuels

La s´eparation de sources permet

de mieux reconnaˆıtre la parole et le locuteur dans les documents parl´es, et ainsi de mieux les indexer.

CFA – 13/04/2016 6

(8)

Et la tomographie et l’holographie dans tout c¸a?

Comme la tomographie et l’holographie, la s´eparation de sources est un probl`eme inverse.

Mais les dimensions et les informations a priori diff`erent. . .

Tomographie Holographie en S´eparation champ proche de sources

Nombre de micros moyen ´elev´e faible

Nombre de sources 1 ´elev´e moyen

Niveau de bruit ´elev´e faible variable

Infos sur les canaux inconnus connus mod`ele

Infos sur les sources connues inconnues mod`ele

(9)

Niveaux d’information sur les canaux et les sources

On parle de s´eparation de sources

aveugle: pas d’info a priori (inapplicable `a l’audio)

faiblement guidée: info générale liée au contexte d’usage, par exemple “les sources sont de la parole”

fortement guidée: info spécifique au signal traité: position spatiale des sources, identité du locuteur, partition

musicale. . .

informée: info très précise encodée et transmise avec l’audio (codage audio multicanal flexible)

CFA – 13/04/2016 8

(10)

´Evolution des recherches

(11)

PRINCIPES G´EN´ERAUX

(12)

De la séparation générale à la séparation audio

Avant 2005, formulation comme un probl`eme inverse lin´eaire:

x t =

∞

X

τ=0

A τ s t−τ

x

t

: I × 1 m´elange

s

t

: J × 1 sources (ponctuelles) A : I × J canal

t: temps (discret)

Remplacée par la formulation plus générale suivante:

x tf =

J

X

j =1

y jtf

y

_jtf

: I × 1 image spatiale de la source j (peut ˆetre diffuse)

t : temps f : fr´equence

But: r´epartir le signal x _tf en chaque point temps-fr´equence entre

les diff´erentes sources.

(13)

Mod`ele gaussien non-stationnaire

Comment mod´eliser y _jtf ?

Théorème: impossible de séparer deux bruits blancs gaussiens stationnaires.

Mod`ele non-gaussien populaire jusqu’en 2010.

Mod`ele gaussien non-stationnaire le plus utilis´e aujourd’hui:

y jtf ∼ N (0, v jtf R jf )

N (.) : gaussienne complexe multivari´ee v

jtf

: spectre de puissance

R

jf

: matrice de covariance spatiale

CFA – 13/04/2016 12

(14)

Matrice de covariance spatiale

La matrice de covariance spatiale encode les trois indices de la perception spatiale (´etudi´es notamment en psycho-acoustique):

R _jf =

r ₁₁ r ₁₂ e ^−iϕ r 12 e ^iϕ r 22

la différence d’intensité intercanale 10 log ₁₀ (r 22 /r 11 ) la différence de phase intercanale ϕ

la coh´erence intercanale r ₁₂ / √

r ₁₁ r ₂₂

(15)

S´eparation en deux ´etapes

Estimation des param`etres (maximum a posteriori):

max θ

X

t,f

log p(θ|x _tf )

o`u θ = {R _jf , v _jtf } .

Estimation des sources (erreur quadratique minimale):

b y jtf = Ω jtf x tf o`u Ω jtf = v jtf R jf ( P

j

⁰

v j

⁰

tf R j

⁰

f ) ⁻¹

Ω jtf est appel´e filtre de Wiener.

CFA – 13/04/2016 14

(16)

Filtre de Wiener mono

En mono, le filtre op`ere comme un masque temps-fr´equence.

Source de parole

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 0.5 1 1.5 2 2.5

dB

0 20 40 60

M ´ elange parole + bruit

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 0.5 1 1.5 2 2.5

dB

0 20 40 60

Filtre de Wiener

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 0.5 1 1.5 2 2.5

dB

−30

−20

−10 0

Signal fi ltr ´ e

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 0.5 1 1.5 2 2.5

dB

0 20 40 60

(17)

Filtre de Wiener multicanal

En multicanal, le filtre effectue conjointement:

un filtrage spectral (masque temps-fr´equence) un filtrage spatial (formation de voies adaptative).

Filtre de Wiener (an ´ echo ¨ı que)

angle (◦)

fr´equence(Hz)

10² 10³ 10⁴

0 45 90 135 180

dB

−30

−20

−10 0 10

Filtre de Wiener (r ´ everb)

angle (◦)

fr´equence(Hz)

10² 10³ 10⁴

0 45 90 135 180

dB

−30

−20

−10 0 10

CFA – 13/04/2016 16

(18)

Formulation explicite du crit`ere d’estimation

Comme toutes les sources sont gaussiennes, leur somme l’est aussi:

x _tf ∼ N (0, Σ _x

_tf

) avec Σ _x

_tf

= X

j

v _jtf R _jf

Le crit`ere du maximum a posteriori se calcule explicitement:

max θ

X

t,f

log p(θ|x _tf ) = max

θ log p(θ) + X

t,f

log p(x _tf |θ)

!

= max

θ log p(θ) − X

t,f

log det(Σ x

tf

) + tr(Σ ⁻¹ _x

_tf

Σ b x

tf

)

!

avec Σ b x

tf

= x tf x ^H _tf la matrice de covariance du m´elange observ´e.

(19)

Algorithme EM g´en´eral

Comment estimer `a la fois v jtf et R jf (pas de solution analytique)?

Algorithme it´eratif esp´erance-maximisation (EM):

étape E: on estime les sources en fonction des paramètres précédents θ ^?

y _jtf |x _tf , θ ^? ∼ N (Ω _jtf x _tf , (I − Ω _jtf )v _jtf R _jf )

étape M: on met à jour les paramètres en fonction des sources max θ E y

jtf

|x

_tf

,θ

^?

X

j,t,f

log p(θ|y _jtf )

!

En pratique, converge vers un optimum local.

CFA – 13/04/2016 18

(20)

Algorithme EM (mod`ele non contraint)

Dans le cas o`u v _jtf et R _jf ne sont pas contraints, on obtient:

´etape E:

Ω _jtf = v _jtf R _jf ( P

j

⁰

v _j

⁰

_tf R _j

⁰

_f ) ⁻¹

R b y

jtf

= Ω jtf R b x

tf

Ω ^H _jtf + (I − Ω jtf )v jtf R jf

´etape M:

R _jf ← 1 T

X

t

R b y

jtf

v _jtf

v _jtf ← tr(R ⁻¹ _jf R b y

jtf

)/I

(21)

MOD´ELISATION SPATIALE

(22)

Vecteur de direction (cas an´echo¨ıque)

En champ an´echo¨ıque, on aurait R _jf = d _jf d ^H _jf o`u d _jf est le vecteur de direction:

d _jf = 1

r _1j e ^−2iπfr

^1j

^/c , . . . , 1

r _Ij e ^−2iπfr

^Ij

^/c

T c : vitesse du son

r

ij

: distance source j

au micro i

(23)

Valeur moyenne de la covariance spatiale (cas r´everb´erant)

Les échos et la réverbération modifient la direction apparente et réduisent la cohérence entre les canaux.

La th´eorie statistique de l’acoustique des salles montre que R jf

vaut en moyenne

µ _R

_jf

= d _jf d ^H _jf + σ ² _ech Ω _f

d

_jf

: vecteur de direction

σ

²_ech

: puissance du champ r´efl´echi Ω

_f

: covariance spatiale d’un champ isotrope (forme analytique)

Permet de définir une distribution a priori p(θ), peu utilisée en pratique (nécessite la position relative des sources).

CFA – 13/04/2016 22

(24)

Recherches actuelles

estimer conjointement la position des sources et les matrices de covariance spatiale associ´ees,

modéliser l’effet de la réverbération d’une trame temporelle sur les suivantes,

mod´eliser la r´eponse de salle entre les sources et les micros en

interpolant les r´eponses enregistr´ees en des points voisins,

mieux mod´eliser les sources et micros mobiles

(25)

MOD´ELISATION SPECTRALE: NMF

(26)

Factorisation matricielle positive

Mod`ele populaire: factorisation matricielle positive (NMF)

v jtf =

K

X

k=1

w jkf h jkt

w

jkf

: spectre de base h

_jkt

: coefficient d’activation

Les spectres de base w _jkf peuvent ˆetre appris

soit pr´ealablement sur un corpus de sources isol´ees,

soit à partir du mélange à séparer.

(27)

Exemple

Source musicale (xylophone)

n (s)

f (kHz)

0 0.5 1 1.5 2

0 5 10 15 20

dB

0 10 20 30 40 50 60 70

n (s)

f (kHz)

0 0.5 1 1.5 2

0 5 10 15 20

dB

0 10 20 30 40 50 60 70

Basis spectra W

j

Frequency index f

Basis index k

5 10 15

50 100 150 200 250

(dB)

0 20 40 60 80

Temporal activations H

j

Basis index k

Time index n 20 40 60 80 5

10 15

(dB)

0 10 20 30 40

Narrowband spectral patterns B

j

Pattern index m 20 40 60 50

100 150 200 250

(dB)

0 10 20 30 40

Spectral pattern weights E

j

Pattern index m

Basis index k

5 10 15

20 40 60

(dB)

0 20 40 60 80

Temporal pattern weights G

j

Basis index k

Pattern index p 50 100 150 5

10 15

(dB)

0 5 10 15 20

Time localized patterns T

j

Pattern index p

Time index n 20 40 60 80 50

100 150

(dB)

0 20 40

CFA – 13/04/2016 26 60

(28)

Algorithme NMF multicanal

´etape E (inchang´ee):

Ω _jtf = v _jtf R _jf ( P

j

⁰

v _j

⁰

_tf R _j

⁰

_f ) ⁻¹

R b y

_jtf

= Ω _jtf R b x

_tf

Ω ^H _jtf + (I − Ω _jtf )v _jtf R _jf

´etape M:

R _jf ← 1 T

X

t

R b y

jtf

v jtf

ξ _jtf ← tr(R ⁻¹ _jf R b y

_jtf

)/I (spectre non contraint, inchang´e) h _kt ← h _kt

P

f w _kf v _jtf ⁻² ξ _jtf P

f w _kf v _jtf ⁻¹ (NMF, mise `a jour

multiplicative

)

(29)

Pour aller plus loin: mod`eles spectraux avanc´es

mod`ele source-filtre

d´ecomposition des spectres de base et des activations en coefficients de structure fine et d’enveloppe.

Basis spectra W_j

Basis index k

5 10 15

50 100 150 200 250

(dB)

0 20 40 60 80

Temporal activations H_j

Basis index k

Time index n 20 40 60 80 5

10 15

(dB)

0 10 20 30 40

Narrowband spectral patterns B j

Pattern index m 20 40 60 50

100 150 200 250

(dB)

0 10 20 30 40

Spectral pattern weights E j

Pattern index m

Basis index k

5 10 15

20 40 60

(dB)

0 20 40 60 80

Temporal pattern weights G j

Basis index k

Pattern index p 50 100 150 5

10 15

(dB)

0 5 10 15 20

Time localized patterns T j

Pattern index p

Time index n 20 40 60 80 50

100 150

(dB)

0 20 40 60

CFA – 13/04/2016 28

(30)

Pour aller plus loin: mod`eles temporels avanc´es

a priori de continuit´e/parcimonie sur h _jkt

spectrogrammes de base (au lieu de simples spectres)

mod`eles de Markov sur h _jkt

(31)

Recherches actuelles

mod´eliser le spectre de phase,

exploiter les redondances (jingles ou musiques de fond, contenus multilingues. . . ),

lorsque c’est possible, interagir avec l’ingénieur du son pour adapter/améliorer le modèle.

CFA – 13/04/2016 30

(32)

MOD´ELISATION SPECTRALE: DNN

(33)

R´eseaux de neurones profonds (DNN)

R´evolution en apprentissage automatique depuis 2006. . . . . . et en audio depuis 2010!

Un DNN est une fonction non-lin´eaire multivari´ee.

Représente le traitement complet (modélisation + estimation des paramètres + filtrage): plus besoin de modèle!

CFA – 13/04/2016 32

(34)

Neurone

Neurone: fonction non-lin´eaire param´etrique simple.

Par ex.: transformation lin´eaire + fonction non-lin´eaire scalaire.

x ₁ x 2

x ₃

y y = f X

i

w _i x _i + b

!

sigmo¨ıde f (x) = 1/(1 + e ^−x ) rectificatrice f (x ) = max(x, 0)

Certains neurones repr´esentent des fonctions plus compliqu´ees

(LSTM, GRU) ou ont plusieurs sorties (softmax).

(35)

R´eseau de neurones

Perceptron multicouches (profond si ≥ 3 couches cach´ees):

Couche cach´ee #1 Entr´ee

(spectres) Couche

cach´ee #2 Sortie

S´EPARATION DE SOURCES :

QUAND L’ACOUSTIQUE RENCONTRE LE MACHINE LEARNING

Emmanuel Vincent, Inria Nancy – Grand Est

PRINCIPES GÉNÉRAUX MODÉLISATION SPATIALE

MOD´ELISATION SPECTRALE: NMF MOD´ELISATION SPECTRALE: DNN

Il existe aussi des DNN r´ecurrents qui exploitent la valeur pass´ee de chaque neurone.

CFA – 13/04/2016 34

(36)

Apprentissage

Param`etres: poids w i et biais b de tous les neurones.

Données: séquence d’entrées x _t et de sorties désirées y _t . Apprentissage: minimiser une fonction de coût c ( b y t , y t ) par descente de gradient

initialisation al´eatoire des param`etres,

calcul récursif du gradient par la formule de r´ etropropagation, somme sur un minibatch et mise à jour des paramètres, plusieurs passes sur les données (´ epoques ),

arrêt quand le coût ne décroit plus sur des données disjointes.

Lourd, requiert une impl´ementation sur carte graphique (GPU).

(37)

Test

Données: séquence d’entrées x _t .

Test: calcul des sorties b y _t (forward pass).

Peut tourner en temps r´eel.

CFA – 13/04/2016 36

(38)

Avantages th´eoriques

Par rapport aux algorithmes précédents basées sur des modèles:

peut mod´eliser des caract´eristiques plus complexes,

tire mieux parti des grandes quantités de données disponibles, plus invariant aux valeurs aberrantes observées,

facile à entraˆıner de façon discriminante, c’est-à-dire pour

maximiser directement la performance de la tˆache souhait´ee.

(39)

Exemple

M ´ elange parole + bruit

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 2 4 6 8 10

dB

0 20 40 60

Filtre de Wiener (NMF)

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 2 4 6 8 10

dB

−20 0

Filtre de Wiener (DNN)

temps (s)

fr´equence(Hz)

10² 10³ 10⁴

0 2 4 6 8 10

dB

−20 0

CFA – 13/04/2016 38

(40)

Algorithme DNN multicanal

´etape E (inchang´ee):

Ω _jtf = v _jtf R _jf ( P

j

⁰

v _j

⁰

_tf R _j

⁰

_f ) ⁻¹

R b _y

_jtf

= Ω _jtf R b _x

_tf

Ω ^H _jtf + (I − Ω _jtf )v _jtf R _jf

´etape M:

R _jf ← 1 T

X

t

R b _y

_jtf

v _jtf

ξ _jtf ← tr (R ⁻¹ _jf R b _y

_jtf

)/I (spectre non contraint, inchang´e)

v _jtf ← DNN(ξ _jtf ^1/2 ) ² (r´eestimation par DNN)

(41)

Sch´ema de traitement

1-ch PSD

speech noise PSD Realignment DNN

(based on TDOA)

6-ch

Multichannel

Speech enhan. 6-ch Averaging

over channels 1-ch 6-ch

Averaging over channels

Single-channel

Speech enhan. 1-ch

CFA – 13/04/2016 40

(42)

R´esultats (parole)

Noisy WER=33.23%

Single-channel DNN WER=36.92%

Delay-and-sum WER=26.30%

DNN post-filter WER=26.54%

Multichannel DNN WER=20.17%

CHiME-3: parole enregistr´ ee dans un bus. Une seule it´ eration de DNN, pas de

post-traitement. Reconnaissance de la parole par GMM-HMM multi-conditions.

(43)

R´esultats (musique)

Angela Thomas Wade - Milk Cow Blues Voix chant´ee estim´ee

CFA – 13/04/2016 42

(44)

Recherches actuelles

améliorer la qualité pour la tâche visée par post-traitement, adapter le DNN aux signaux de test,

mieux simuler les données nécessaires à l’apprentissage,

introduire les connaissances issues des modèles précédents.

(45)

CONCLUSION

(46)

R´esum´e

La s´eparation de sources est un probl`eme inverse.

Pour le résoudre, on emprunte des éléments

`a l’acoustique: acoustique des salles, psycho-acoustique, production de la parole. . .

à l’apprentissage automatique: EM, NMF, DNN. . . Les DNN amènent un changement radical de paradigme: plus besoin de modèle, on apprend le résultat directement!

Il est probable que ce changement de paradigme ´emerge bientˆot

pour d’autres robl`emes de l’acoustique. . .

(47)

R´ef´erences

Articles li´es `a ce tutoriel:

E. Vincent, N. Bertin, R. Gribonval, and F. Bimbot, “From blind to guided audio source separation: How models and side information can improve the separation of sound”, IEEE SPM , 31(3), 2014.

S. Gannot, E. Vincent, S. Markovich-Golan, and A. Ozerov,

“Multi-microphone speech enhancement and source separation”, overview paper to appear in IEEE/ACM TASL , 2016.

A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks”, RR-8740, Inria, 2016.

Listes de diffusion, corpus, logiciels, campagnes d’´evaluation:

https://groups.google.com/forum/#!forum/machinelistening https://wiki.inria.fr/rosp/

https://sisec.inria.fr/

CFA – 13/04/2016 46

Séparation de sources: quand l'acoustique rencontre le machine learning

HAL Id: hal-01398720

https://hal.inria.fr/hal-01398720

Submitted on 1 Dec 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Séparation de sources: quand l’acoustique rencontre le machine learning

Emmanuel Vincent

To cite this version:

Emmanuel Vincent. Séparation de sources: quand l’acoustique rencontre le machine learning. 13e

Congrès Français d’Acoustique, Apr 2016, Le Mans, France. �hal-01398720�

S´EPARATION DE SOURCES :

QUAND L’ACOUSTIQUE RENCONTRE LE MACHINE LEARNING

Emmanuel Vincent, Inria Nancy – Grand Est

La s´eparation de sources: qu’est-ce que c’est?

But: extraire les signaux correspondant aux différentes sources sonores présentes simultanément dans un enregistrement.

`A quoi c¸a sert?

écouter les sources séparées, les remixer,

en extraire de l’information.

Communication parl´ee

La s´eparation de sources permet

de sélectionner la source d’intérêt et réduire le bruit,

d’am´eliorer la reconnaissance de la parole,

Ing´enierie sonore et ´ecoute interactive

La s´eparation de sources permet

d’upmixer des contenus mono/stéréo en format multicanal, de remixer ces contenus en studio ou à l’écoute,

Commande vocale `a distance et monitoring sonore

La s´eparation de sources permet

de commander `a distance les appareils de la maison connect´ee,

de d´etecter des sons particuliers dans une sc`ene sonore,

Contenus audiovisuels

La s´eparation de sources permet

de mieux reconnaˆıtre la parole et le locuteur dans les documents parl´es, et ainsi de mieux les indexer.

Et la tomographie et l’holographie dans tout c¸a?

Comme la tomographie et l’holographie, la s´eparation de sources est un probl`eme inverse.

Mais les dimensions et les informations a priori diff`erent. . .

Tomographie Holographie en S´eparation champ proche de sources

Nombre de micros moyen ´elev´e faible

Nombre de sources 1 ´elev´e moyen

Niveau de bruit ´elev´e faible variable

Infos sur les canaux inconnus connus mod`ele

Infos sur les sources connues inconnues mod`ele

Niveaux d’information sur les canaux et les sources

On parle de s´eparation de sources

aveugle: pas d’info a priori (inapplicable `a l’audio)

faiblement guidée: info générale liée au contexte d’usage, par exemple “les sources sont de la parole”

fortement guidée: info spécifique au signal traité: position spatiale des sources, identité du locuteur, partition

musicale. . .

informée: info très précise encodée et transmise avec l’audio (codage audio multicanal flexible)

´Evolution des recherches

PRINCIPES G´EN´ERAUX

De la séparation générale à la séparation audio

Avant 2005, formulation comme un probl`eme inverse lin´eaire:

x t =

∞

X

τ=0

A τ s t−τ

x

: I × 1 m´elange

s

: J × 1 sources (ponctuelles) A : I × J canal

t: temps (discret)

Remplacée par la formulation plus générale suivante:

x tf =

J

X

j =1

y jtf

y

: I × 1 image spatiale de la source j (peut ˆetre diffuse)

t : temps f : fr´equence

But: r´epartir le signal x tf en chaque point temps-fr´equence entre

les diff´erentes sources.

Mod`ele gaussien non-stationnaire

Comment mod´eliser y jtf ?

Théorème: impossible de séparer deux bruits blancs gaussiens stationnaires.

Mod`ele non-gaussien populaire jusqu’en 2010.

Mod`ele gaussien non-stationnaire le plus utilis´e aujourd’hui:

y jtf ∼ N (0, v jtf R jf )

But: r´epartir le signal x _tf en chaque point temps-fr´equence entre

Comment mod´eliser y _jtf ?

R _jf =

r ₁₁ r ₁₂ e ^−iϕ r 12 e ^iϕ r 22

la différence d’intensité intercanale 10 log ₁₀ (r 22 /r 11 ) la différence de phase intercanale ϕ

la coh´erence intercanale r ₁₂ / √

r ₁₁ r ₂₂

log p(θ|x _tf )

o`u θ = {R _jf , v _jtf } .

f ) ⁻¹

x _tf ∼ N (0, Σ _x

) avec Σ _x

v _jtf R _jf

log p(θ|x _tf ) = max

log p(x _tf |θ)

) + tr(Σ ⁻¹ _x

= x tf x ^H _tf la matrice de covariance du m´elange observ´e.

étape E: on estime les sources en fonction des paramètres précédents θ ^?

y _jtf |x _tf , θ ^? ∼ N (Ω _jtf x _tf , (I − Ω _jtf )v _jtf R _jf )