• Aucun résultat trouvé

Séparation de sources: quand l'acoustique rencontre le machine learning

N/A
N/A
Protected

Academic year: 2021

Partager "Séparation de sources: quand l'acoustique rencontre le machine learning"

Copied!
47
0
0

Texte intégral

(1)

HAL Id: hal-01398720

https://hal.inria.fr/hal-01398720

Submitted on 1 Dec 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Séparation de sources: quand l’acoustique rencontre le machine learning

Emmanuel Vincent

To cite this version:

Emmanuel Vincent. Séparation de sources: quand l’acoustique rencontre le machine learning. 13e

Congrès Français d’Acoustique, Apr 2016, Le Mans, France. �hal-01398720�

(2)

S´EPARATION DE SOURCES :

QUAND L’ACOUSTIQUE RENCONTRE LE MACHINE LEARNING

Emmanuel Vincent, Inria Nancy – Grand Est

(3)

La s´eparation de sources: qu’est-ce que c’est?

But: extraire les signaux correspondant aux diff´erentes sources sonores pr´esentes simultan´ement dans un enregistrement.

`A quoi c¸a sert?

´ecouter les sources s´epar´ees, les remixer,

en extraire de l’information.

CFA – 13/04/2016 2

(4)

Communication parl´ee

La s´eparation de sources permet

de s´electionner la source d’int´erˆet et r´eduire le bruit,

d’am´eliorer la reconnaissance de la parole,

(5)

Ing´enierie sonore et ´ecoute interactive

La s´eparation de sources permet

d’upmixer des contenus mono/st´er´eo en format multicanal, de remixer ces contenus en studio ou `a l’´ecoute,

CFA – 13/04/2016 4

(6)

Commande vocale `a distance et monitoring sonore

La s´eparation de sources permet

de commander `a distance les appareils de la maison connect´ee,

de d´etecter des sons particuliers dans une sc`ene sonore,

(7)

Contenus audiovisuels

La s´eparation de sources permet

de mieux reconnaˆıtre la parole et le locuteur dans les documents parl´es, et ainsi de mieux les indexer.

CFA – 13/04/2016 6

(8)

Et la tomographie et l’holographie dans tout c¸a?

Comme la tomographie et l’holographie, la s´eparation de sources est un probl`eme inverse.

Mais les dimensions et les informations a priori diff`erent. . .

Tomographie Holographie en S´eparation champ proche de sources

Nombre de micros moyen ´elev´e faible

Nombre de sources 1 ´elev´e moyen

Niveau de bruit ´elev´e faible variable

Infos sur les canaux inconnus connus mod`ele

Infos sur les sources connues inconnues mod`ele

(9)

Niveaux d’information sur les canaux et les sources

On parle de s´eparation de sources

aveugle: pas d’info a priori (inapplicable `a l’audio)

faiblement guid´ee: info g´en´erale li´ee au contexte d’usage, par exemple “les sources sont de la parole”

fortement guid´ee: info sp´ecifique au signal trait´e: position spatiale des sources, identit´e du locuteur, partition

musicale. . .

inform´ee: info tr`es pr´ecise encod´ee et transmise avec l’audio (codage audio multicanal flexible)

CFA – 13/04/2016 8

(10)

´Evolution des recherches

(11)

PRINCIPES G´EN´ERAUX

(12)

De la s´eparation g´en´erale `a la s´eparation audio

Avant 2005, formulation comme un probl`eme inverse lin´eaire:

x t =

X

τ=0

A τ s t−τ

x

t

: I × 1 m´elange

s

t

: J × 1 sources (ponctuelles) A : I × J canal

t: temps (discret)

Remplac´ee par la formulation plus g´en´erale suivante:

x tf =

J

X

j =1

y jtf

y

jtf

: I × 1 image spatiale de la source j (peut ˆetre diffuse)

t : temps f : fr´equence

But: r´epartir le signal x tf en chaque point temps-fr´equence entre

les diff´erentes sources.

(13)

Mod`ele gaussien non-stationnaire

Comment mod´eliser y jtf ?

Th´eor`eme: impossible de s´eparer deux bruits blancs gaussiens stationnaires.

Mod`ele non-gaussien populaire jusqu’en 2010.

Mod`ele gaussien non-stationnaire le plus utilis´e aujourd’hui:

y jtf ∼ N (0, v jtf R jf )

N (.) : gaussienne complexe multivari´ee v

jtf

: spectre de puissance

R

jf

: matrice de covariance spatiale

CFA – 13/04/2016 12

(14)

Matrice de covariance spatiale

La matrice de covariance spatiale encode les trois indices de la perception spatiale (´etudi´es notamment en psycho-acoustique):

R jf =

r 11 r 12 e −iϕ r 12 e r 22

la diff´erence d’intensit´e intercanale 10 log 10 (r 22 /r 11 ) la diff´erence de phase intercanale ϕ

la coh´erence intercanale r 12 / √

r 11 r 22

(15)

S´eparation en deux ´etapes

Estimation des param`etres (maximum a posteriori):

max θ

X

t,f

log p(θ|x tf )

o`u θ = {R jf , v jtf } .

Estimation des sources (erreur quadratique minimale):

b y jtf = jtf x tf o`u jtf = v jtf R jf ( P

j

0

v j

0

tf R j

0

f ) −1

jtf est appel´e filtre de Wiener.

CFA – 13/04/2016 14

(16)

Filtre de Wiener mono

En mono, le filtre op`ere comme un masque temps-fr´equence.

Source de parole

temps (s)

fr´equence(Hz)

102 103 104

0 0.5 1 1.5 2 2.5

dB

0 20 40 60

M ´ elange parole + bruit

temps (s)

fr´equence(Hz)

102 103 104

0 0.5 1 1.5 2 2.5

dB

0 20 40 60

Filtre de Wiener

temps (s)

fr´equence(Hz)

102 103 104

0 0.5 1 1.5 2 2.5

dB

−30

−20

−10 0

Signal fi ltr ´ e

temps (s)

fr´equence(Hz)

102 103 104

0 0.5 1 1.5 2 2.5

dB

0 20 40 60

(17)

Filtre de Wiener multicanal

En multicanal, le filtre effectue conjointement:

un filtrage spectral (masque temps-fr´equence) un filtrage spatial (formation de voies adaptative).

Filtre de Wiener (an ´ echo ¨ı que)

angle (◦)

fr´equence(Hz)

102 103 104

0 45 90 135 180

dB

−30

−20

−10 0 10

Filtre de Wiener (r ´ everb)

angle (◦)

fr´equence(Hz)

102 103 104

0 45 90 135 180

dB

−30

−20

−10 0 10

CFA – 13/04/2016 16

(18)

Formulation explicite du crit`ere d’estimation

Comme toutes les sources sont gaussiennes, leur somme l’est aussi:

x tf ∼ N (0, Σ x

tf

) avec Σ x

tf

= X

j

v jtf R jf

Le crit`ere du maximum a posteriori se calcule explicitement:

max θ

X

t,f

log p(θ|x tf ) = max

θ log p(θ) + X

t,f

log p(x tf |θ)

!

= max

θ log p(θ) − X

t,f

log det(Σ x

tf

) + tr(Σ −1 x

tf

Σ b x

tf

)

!

avec Σ b x

tf

= x tf x H tf la matrice de covariance du m´elange observ´e.

(19)

Algorithme EM g´en´eral

Comment estimer `a la fois v jtf et R jf (pas de solution analytique)?

Algorithme it´eratif esp´erance-maximisation (EM):

´etape E: on estime les sources en fonction des param`etres pr´ec´edents θ ?

y jtf |x tf , θ ? ∼ N (Ω jtf x tf , (I − jtf )v jtf R jf )

´etape M: on met `a jour les param`etres en fonction des sources max θ E y

jtf

|x

tf

?

X

j,t,f

log p(θ|y jtf )

!

En pratique, converge vers un optimum local.

CFA – 13/04/2016 18

(20)

Algorithme EM (mod`ele non contraint)

Dans le cas o`u v jtf et R jf ne sont pas contraints, on obtient:

´etape E:

jtf = v jtf R jf ( P

j

0

v j

0

tf R j

0

f ) −1

R b y

jtf

= jtf R b x

tf

H jtf + (I − jtf )v jtf R jf

´etape M:

R jf ← 1 T

X

t

R b y

jtf

v jtf

v jtf ← tr(R −1 jf R b y

jtf

)/I

(21)

MOD´ELISATION SPATIALE

(22)

Vecteur de direction (cas an´echo¨ıque)

En champ an´echo¨ıque, on aurait R jf = d jf d H jf o`u d jf est le vecteur de direction:

d jf = 1

r 1j e −2iπfr

1j

/c , . . . , 1

r Ij e −2iπfr

Ij

/c

T c : vitesse du son

r

ij

: distance source j

au micro i

(23)

Valeur moyenne de la covariance spatiale (cas r´everb´erant)

Les ´echos et la r´everb´eration modifient la direction apparente et r´eduisent la coh´erence entre les canaux.

La th´eorie statistique de l’acoustique des salles montre que R jf

vaut en moyenne

µ R

jf

= d jf d H jf + σ 2 ech f

d

jf

: vecteur de direction

σ

2ech

: puissance du champ r´efl´echi

f

: covariance spatiale d’un champ isotrope (forme analytique)

Permet de d´efinir une distribution a priori p(θ), peu utilis´ee en pratique (n´ecessite la position relative des sources).

CFA – 13/04/2016 22

(24)

Recherches actuelles

estimer conjointement la position des sources et les matrices de covariance spatiale associ´ees,

mod´eliser l’effet de la r´everb´eration d’une trame temporelle sur les suivantes,

mod´eliser la r´eponse de salle entre les sources et les micros en

interpolant les r´eponses enregistr´ees en des points voisins,

mieux mod´eliser les sources et micros mobiles

(25)

MOD´ELISATION SPECTRALE: NMF

(26)

Factorisation matricielle positive

Mod`ele populaire: factorisation matricielle positive (NMF)

v jtf =

K

X

k=1

w jkf h jkt

w

jkf

: spectre de base h

jkt

: coefficient d’activation

Les spectres de base w jkf peuvent ˆetre appris

soit pr´ealablement sur un corpus de sources isol´ees,

soit `a partir du m´elange `a s´eparer.

(27)

Exemple

Source musicale (xylophone)

n (s)

f (kHz)

0 0.5 1 1.5 2

0 5 10 15 20

dB

0 10 20 30 40 50 60 70

n (s)

f (kHz)

0 0.5 1 1.5 2

0 5 10 15 20

dB

0 10 20 30 40 50 60 70

Basis spectra W

j

Frequency index f

Basis index k

5 10 15

50 100 150 200 250

(dB)

0 20 40 60 80

Temporal activations H

j

Basis index k

Time index n 20 40 60 80 5

10 15

(dB)

0 10 20 30 40

Narrowband spectral patterns B

j

Frequency index f

Pattern index m 20 40 60 50

100 150 200 250

(dB)

0 10 20 30 40

Spectral pattern weights E

j

Pattern index m

Basis index k

5 10 15

20 40 60

(dB)

0 20 40 60 80

Temporal pattern weights G

j

Basis index k

Pattern index p 50 100 150 5

10 15

(dB)

0 5 10 15 20

Time localized patterns T

j

Pattern index p

Time index n 20 40 60 80 50

100 150

(dB)

0 20 40

CFA – 13/04/2016 26 60

(28)

Algorithme NMF multicanal

´etape E (inchang´ee):

jtf = v jtf R jf ( P

j

0

v j

0

tf R j

0

f ) −1

R b y

jtf

= jtf R b x

tf

H jtf + (I − jtf )v jtf R jf

´etape M:

R jf ← 1 T

X

t

R b y

jtf

v jtf

ξ jtf ← tr(R −1 jf R b y

jtf

)/I (spectre non contraint, inchang´e) h kth kt

P

f w kf v jtf −2 ξ jtf P

f w kf v jtf −1 (NMF, mise `a jour

multiplicative

)

(29)

Pour aller plus loin: mod`eles spectraux avanc´es

mod`ele source-filtre

d´ecomposition des spectres de base et des activations en coefficients de structure fine et d’enveloppe.

Basis spectra Wj

Frequency index f

Basis index k

5 10 15

50 100 150 200 250

(dB)

0 20 40 60 80

Temporal activations Hj

Basis index k

Time index n 20 40 60 80 5

10 15

(dB)

0 10 20 30 40

Narrowband spectral patterns B j

Frequency index f

Pattern index m 20 40 60 50

100 150 200 250

(dB)

0 10 20 30 40

Spectral pattern weights E j

Pattern index m

Basis index k

5 10 15

20 40 60

(dB)

0 20 40 60 80

Temporal pattern weights G j

Basis index k

Pattern index p 50 100 150 5

10 15

(dB)

0 5 10 15 20

Time localized patterns T j

Pattern index p

Time index n 20 40 60 80 50

100 150

(dB)

0 20 40 60

CFA – 13/04/2016 28

(30)

Pour aller plus loin: mod`eles temporels avanc´es

a priori de continuit´e/parcimonie sur h jkt

spectrogrammes de base (au lieu de simples spectres)

mod`eles de Markov sur h jkt

(31)

Recherches actuelles

mod´eliser le spectre de phase,

exploiter les redondances (jingles ou musiques de fond, contenus multilingues. . . ),

lorsque c’est possible, interagir avec l’ing´enieur du son pour adapter/am´eliorer le mod`ele.

CFA – 13/04/2016 30

(32)

MOD´ELISATION SPECTRALE: DNN

(33)

R´eseaux de neurones profonds (DNN)

R´evolution en apprentissage automatique depuis 2006. . . . . . et en audio depuis 2010!

Un DNN est une fonction non-lin´eaire multivari´ee.

Repr´esente le traitement complet (mod´elisation + estimation des param`etres + filtrage): plus besoin de mod`ele!

CFA – 13/04/2016 32

(34)

Neurone

Neurone: fonction non-lin´eaire param´etrique simple.

Par ex.: transformation lin´eaire + fonction non-lin´eaire scalaire.

x 1 x 2

x 3

y y = f X

i

w i x i + b

!

sigmo¨ıde f (x) = 1/(1 + e −x ) rectificatrice f (x ) = max(x, 0)

Certains neurones repr´esentent des fonctions plus compliqu´ees

(LSTM, GRU) ou ont plusieurs sorties (softmax).

(35)

R´eseau de neurones

Perceptron multicouches (profond si ≥ 3 couches cach´ees):

Couche cach´ee #1 Entr´ee

(spectres) Couche

cach´ee #2 Sortie

S´EPARATION DE SOURCES :

QUAND L’ACOUSTIQUE RENCONTRE LE MACHINE LEARNING

Emmanuel Vincent, Inria Nancy – Grand Est

PRINCIPES G´EN´ERAUX MOD´ELISATION SPATIALE

MOD´ELISATION SPECTRALE: NMF MOD´ELISATION SPECTRALE: DNN

Il existe aussi des DNN r´ecurrents qui exploitent la valeur pass´ee de chaque neurone.

CFA – 13/04/2016 34

(36)

Apprentissage

Param`etres: poids w i et biais b de tous les neurones.

Donn´ees: s´equence d’entr´ees x t et de sorties d´esir´ees y t . Apprentissage: minimiser une fonction de coˆut c ( b y t , y t ) par descente de gradient

initialisation al´eatoire des param`etres,

calcul r´ecursif du gradient par la formule de etropropagation, somme sur un minibatch et mise `a jour des param`etres, plusieurs passes sur les donn´ees (´ epoques ),

arrˆet quand le coˆut ne d´ecroit plus sur des donn´ees disjointes.

Lourd, requiert une impl´ementation sur carte graphique (GPU).

(37)

Test

Donn´ees: s´equence d’entr´ees x t .

Test: calcul des sorties b y t (forward pass).

Peut tourner en temps r´eel.

CFA – 13/04/2016 36

(38)

Avantages th´eoriques

Par rapport aux algorithmes pr´ec´edents bas´ees sur des mod`eles:

peut mod´eliser des caract´eristiques plus complexes,

tire mieux parti des grandes quantit´es de donn´ees disponibles, plus invariant aux valeurs aberrantes observ´ees,

facile `a entraˆıner de fac¸on discriminante, c’est-`a-dire pour

maximiser directement la performance de la tˆache souhait´ee.

(39)

Exemple

M ´ elange parole + bruit

temps (s)

fr´equence(Hz)

102 103 104

0 2 4 6 8 10

dB

0 20 40 60

Filtre de Wiener (NMF)

temps (s)

fr´equence(Hz)

102 103 104

0 2 4 6 8 10

dB

−20 0

Filtre de Wiener (DNN)

temps (s)

fr´equence(Hz)

102 103 104

0 2 4 6 8 10

dB

−20 0

CFA – 13/04/2016 38

(40)

Algorithme DNN multicanal

´etape E (inchang´ee):

jtf = v jtf R jf ( P

j

0

v j

0

tf R j

0

f ) −1

R b y

jtf

= jtf R b x

tf

H jtf + (I − jtf )v jtf R jf

´etape M:

R jf ← 1 T

X

t

R b y

jtf

v jtf

ξ jtf ← tr (R −1 jf R b y

jtf

)/I (spectre non contraint, inchang´e)

v jtf ← DNN(ξ jtf 1/2 ) 2 (r´eestimation par DNN)

(41)

Sch´ema de traitement

1-ch PSD

speech noise PSD Realignment DNN

(based on TDOA)

6-ch

Multichannel

Speech enhan. 6-ch Averaging

over channels 1-ch 6-ch

Averaging over channels

Single-channel

Speech enhan. 1-ch

CFA – 13/04/2016 40

(42)

R´esultats (parole)

Noisy WER=33.23%

Single-channel DNN WER=36.92%

Delay-and-sum WER=26.30%

DNN post-filter WER=26.54%

Multichannel DNN WER=20.17%

CHiME-3: parole enregistr´ ee dans un bus. Une seule it´ eration de DNN, pas de

post-traitement. Reconnaissance de la parole par GMM-HMM multi-conditions.

(43)

R´esultats (musique)

Angela Thomas Wade - Milk Cow Blues Voix chant´ee estim´ee

CFA – 13/04/2016 42

(44)

Recherches actuelles

am´eliorer la qualit´e pour la tˆache vis´ee par post-traitement, adapter le DNN aux signaux de test,

mieux simuler les donn´ees n´ecessaires `a l’apprentissage,

introduire les connaissances issues des mod`eles pr´ec´edents.

(45)

CONCLUSION

(46)

R´esum´e

La s´eparation de sources est un probl`eme inverse.

Pour le r´esoudre, on emprunte des ´el´ements

`a l’acoustique: acoustique des salles, psycho-acoustique, production de la parole. . .

`a l’apprentissage automatique: EM, NMF, DNN. . . Les DNN am`enent un changement radical de paradigme: plus besoin de mod`ele, on apprend le r´esultat directement!

Il est probable que ce changement de paradigme ´emerge bientˆot

pour d’autres robl`emes de l’acoustique. . .

(47)

R´ef´erences

Articles li´es `a ce tutoriel:

E. Vincent, N. Bertin, R. Gribonval, and F. Bimbot, “From blind to guided audio source separation: How models and side information can improve the separation of sound”, IEEE SPM , 31(3), 2014.

S. Gannot, E. Vincent, S. Markovich-Golan, and A. Ozerov,

“Multi-microphone speech enhancement and source separation”, overview paper to appear in IEEE/ACM TASL , 2016.

A. A. Nugraha, A. Liutkus, and E. Vincent, “Multichannel audio source separation with deep neural networks”, RR-8740, Inria, 2016.

Listes de diffusion, corpus, logiciels, campagnes d’´evaluation:

https://groups.google.com/forum/#!forum/machinelistening https://wiki.inria.fr/rosp/

https://sisec.inria.fr/

CFA – 13/04/2016 46

Références

Documents relatifs

Cette problématique se présente quand plusieurs signaux (sources) se propagent dans un envi- ronnement, où ils subissent une transformation et où ils s’additionnent pour composer

peut être utile pour mieux traiter le signal audio que nous allons exploiter dans

Pour chaque type de mélange, les algorithmes sont présentés dans un cadre général, en fonction de l'ordre de leurs statistiques et de leur critère, en fonction de la structure

Pour compter le nombre d’individus, ´etudier leur comportement ainsi que pour leur localisation et leur suivi dans la colonne d’eau, il faut alors ˆetre capable de s´eparer les

Suivant les modèles, on ob- tient alors pour chaque individu de l’échantillon de test soit une estimation de la probabilité conditionnelle de survenue de l’événement de

Suit alors dans le seul manuscrit B 19 un développement qui applique le même type de raisonnement aux autres personnages : y sont exposées les raisons pour

Apr`es avoir pr´esent´e un ´etat de l’art sur le principe du probl`eme de la s´eparation de sources, nous allons d´ecrire dans cette section, quelques approches de s´eparation dans

Le modèle de mélange linéaire (2.2) suggère que la radioactivité contenue dans la séquence d’images peut être expliquée presque entièrement (à l’erreur près) par