Séparation de la voix du locuteur et du fonds muiscal dans des émissions radiodiffusées

(1)

Rapport de Stage I5 Rapport de Stage ATIAM

S´ eparation de la Voix du Locuteur et du Fond Musical dans des Emissions Radiodiffus´ ees

Sylvain ROUSSELLE 13 mars - 13 juillet 2006

Tuteur : Roland BADEAU

ENST 37/39 rue Dareau

75014 PARIS

ESIEE

Cit´ e Descartes - BP 99 2 boulevard Blaise Pascal

93162 NOISY-LE-GRAND Cedex

IRCAM

1 place Igor Stravinsky

75004 PARIS

(2)

2

(3)

Remerciements

Merci ` a Roland Badeau de m’avoir permis de faire ce stage, pour son encadrement et le temps qu’il m’a consacr´ e.

Merci ` a David, Jos´ e, Nadir, et Steeve qui m’ont fait une petite place dans leur bu- reau et sans qui ces quatres mois auraient certainement ´ et´ e moins agr´ eables.

Merci ` a Fabrice pour sa bonne humeur et ses pr´ ecieux conseils concernant l’outil informatique.

Enfin, merci ` a Messieurs Marc Peyrade et Yves Grenier respectivement directeur de l’ENST et responsable du d´ epartement TSI.

3

(4)

4

(5)

Table des mati` eres

Introduction 11

1 Cadre du stage 13

1.1 Le d´ epartement Traitement du Signal et des Images . . . . 13

1.2 Le projet INFOM@GIC . . . . 14

1.2.1 Origine . . . . 14

1.2.2 Objectif . . . . 14

1.2.3 Acteurs . . . . 14

1.2.4 Le sous-projet “Patrimoine Num´ eris´ e” . . . . 15

1.3 Le sujet . . . . 15

2 La s´ eparation de sources 17 2.1 Analyse en Composantes Ind´ ependantes . . . . 17

2.2 S´ eparation de sources mono-capteur . . . . 19

3 Mod´ elisation des signaux 21 3.1 Transform´ ee de Fourier ` a Court Terme . . . . 21

3.2 Mod` eles de M´ elange de Gaussiennes et de Markov Cach´ e . . . . 23

3.2.1 MMG . . . . 23

3.2.2 MMC . . . . 24

3.3 Pr´ etraitements . . . . 24

3.3.1 Accentuation des hautes-fr´ equences . . . . 25

3.3.2 Pond´ eration type “A”(dBA) . . . . 26

3.3.3 Echelle logarithmique . . . . 26

4 S´ eparation des sources 29 4.1 Filtrage de Wiener adaptatif . . . . 29

4.2 Reconstruction par addition-recouvrement . . . . 31

4.3 Mesure de performance . . . . 32

5 Apprentissage des mod` eles 33 5.1 MMG . . . . 33

5.1.1 Esp´ erance . . . . 34

5.1.2 Maximisation . . . . 34

5.2 MMC . . . . 34

5.2.1 Esp´ erance . . . . 34

5

(6)

6 TABLE DES MATI ` ERES

5.2.2 Maximisation . . . . 35

5.3 Probl` emes num´ eriques . . . . 37

6 Adaptations aux donn´ ees 39 6.1 Adaptation des MMGs aux donn´ ees . . . . 39

6.1.1 Modification des mod` eles eux mˆ emes . . . . 39

6.1.2 Adaptation par filtrage . . . . 40

6.2 Apprentissage des MMGs avec filtres adapt´ es . . . . 41

7 Tests et r´ esultats 43 7.1 MMG . . . . 43

7.2 MMC . . . . 45

7.3 Tests avec apprentissage sur corpus . . . . 45

7.3.1 Apprentissage standard . . . . 47

7.3.2 Apprentissage avec filtres adapt´ es . . . . 48

7.4 Tests avec adaptations . . . . 49

7.5 Post-traitement par ACI . . . . 50

7.6 Tests sur signaux r´ eels . . . . 51

7.6.1 S´ eparation chant/musique sur des enregistrements du commerce 51 7.6.2 S´ eparation parole/musique sur des extraits d’´ emissions radiopho- niques . . . . 51

Conclusion 53

A Algorithme de Baum-Welch ou Forward-Backward 55

(7)

Table des figures

2.1 Sch´ ema de principe de la m´ ethode de s´ eparation monocapteur. . . . 20

3.1 Sch´ ema de principe de la TFCT. . . . . 22

3.2 Fenˆ etre de Hamming (en racine carr´ ee) de 40ms ` a 16kHz. . . . 23

3.3 Module et phase de A(z) . . . . 25

3.4 Courbe de pond´ eration type “A”. . . . 26

3.5 Exemple de spectre avant et apr` es pond´ eration type “A”. . . . 27

4.1 Sch´ ema de principe de la m´ ethode OLA. . . . 31 7.1 Enveloppes temporelles du test de s´ eparation pr´ esentateur radio / rock. 46

7

(8)

8 TABLE DES FIGURES

(9)

Liste des tableaux

7.1 R´ esultats de s´ eparations MMG. . . . 44 7.2 Quelques valeurs de SDRs correpondant aux NDSRs de Tab. 7.1. . . . 45 7.3 R´ esultats de s´ eparation MMC. . . . 47 7.4 R´ esultats de s´ eparations sur corpus, apprentissage standard. . . . 48 7.5 R´ esultats de s´ eparations sur corpus, apprentissage avec filltres adapt´ es. 48

9

(10)

10 LISTE DES TABLEAUX

(11)

Introduction

Afin de valider mes diplˆ omes d’Ing´ enieur ESIEE (Ecole Sup´ erieure d’Ing´ enieurs en Electrotechnique et Electronique) et de master recherche ATIAM (Acoustique, Trai- tement du Signal et Informatique Appliqu´ es ` a la Musique), j’ai effectu´ e mon stage de fin d’´ etudes ` a l’ENST (Ecole Nationale Sup´ erieure des T´ el´ ecommunications). J’ai pass´ e quatre mois, du 13 mars au 13 juillet 2006, au sein du d´ epartement TSI sur le site Dareau de l’´ ecole

¹

et travaill´ e, avec mon tuteur Roland Badeau, sur la s´ eparation de sources audio.

Avec l’av` enement des nouvelles technologies et l’explosion de l’informatique, le trai- tement num´ erique du signal a pris une importance consid´ erable dans le monde d’au- jourd’hui. La s´ eparation de sources ne d´ eroge pas ` a cette r` egle. Elle consiste, ` a partir d’un certain nombre d’observations d’une mˆ eme “sc` ene”, ` a retrouver les diff´ erentes sources qui en sont ` a l’origine. En fonction du domaine d’application, la “sc` ene” peut correspondre ` a diff´ erentes choses. On utilise par exemple la s´ eparation de sources en communications radio. Plusieurs ´ emetteurs ´ emettent des signaux diff´ erents, ce sont les sources. Cet ensemble d’ondes forme un signal complexe, la “sc` ene”. On le capte

`

a l’aide de plusieurs antennes intelligemment dispos´ ees qui nous donnent autant de signaux distincts, les observations. L’enjeu est de reconstituer ` a partir de ces infor- mations les diff´ erents signaux initialement ´ emis. On parle de traitement d’antennes.

On utilise aussi la s´ eparation de sources en m´ edecine dans l’analyse des ECGs (Elec- troCardioGrammes) pour l’extraction de battements cardiaques fœtaux ou des MEGs (Magn´ etoEnc´ ephaloGrammes) / EEGs (ElectroEnc´ ephaloGrammes) pour la suppres- sions des signaux ind´ esirables dans l’´ etude de l’activit´ e neuronale du cerveau par exemple.

Ce stage est centr´ e sur la s´ eparation des signaux de parole et de musique dans des enregistrements radiophoniques. Les tˆ aches ` a r´ ealiser ´ etaient les suivantes : ´ etudier les m´ ethodes existantes, choisir celle(s) qui semble(nt) la (les) mieux adapt´ ee(s) au probl` eme, la (les) impl´ ementer, tester et am´ eliorer si possible et n´ ecessaire. Au final, pendant mes quatre mois de stage, je me suis concentr´ e sur une m´ ethode de s´ eparation bas´ ee sur des mod` eles statistiques des sources.

Apr` es une pr´ esentation, chapitre 1, du cadre dans lequel j’ai effectu´ e ce stage de fin d’´ etudes, je pr´ esente, chapitre 2, de mani` ere plus d´ etaill´ ee, la s´ eparation de sources so-

1le site principal ´etant bas´e rue Barrault.

11

(12)

12 Introduction

nores. Je me concentre ensuite sur les diff´ erentes ´ etapes de la m´ ethode ´ etudi´ ee : chapitre

3, la mani` ere de mod´ eliser les diff´ erents signaux mis en jeu ; chapitre 4, la s´ eparation ` a

proprement parler des signaux lorsqu’on dispose de mod` ele des sources ; chapitre 5, la

m´ ethode d’apprentissage des mod` eles utilis´ ee et enfin chapitre 6, quelques d´ etails sur

l’adaptation des mod` eles aux m´ elanges consid´ er´ es. Le chapitre 7 est lui consacr´ e aux

tests et r´ esultats obtenus ` a l’aide de cette m´ ethode de s´ eparation.

(13)

Chapitre 1

Cadre du stage

1.1 Le d´ epartement Traitement du Signal et de l’Image (TSI)

Le d´ epartement TSI de l’ENST a pour missions l’enseignement, la recherche et la formation par la recherche dans les domaines du traitement du signal et des images et de leurs applications, en particulier pour les t´ el´ ecommunications.

Il se divise en cinq groupes, chacun contribuant ` a l’ensemble des missions du d´ epartement : – Traitement et Interpr´ etation des Images (TII)

Ce groupe conduit des recherches sur la mise en oeuvre de sch´ emas complets de traitement, d’analyse et d’interpr´ etation d’images, en particulier de sc` enes com- plexes. Les domaines d’application sont l’imagerie m´ edicale, a´ erienne, satellitaire, radar ou encore la description d’objets tridimensionnels.

– Traitements Statistiques et Applications aux Communications (TSAC)

Les travaux de ce groupe sont ax´ es sur le signal dans les communications, la s´ eparation de sources ou encore la mod´ elisation statistique des signaux.

– Perception, Apprentissage et Mod´ elisation (PAM)

Ce groupe ´ etudie le rˆ ole des facteurs humains dans l’acc` es aux divers types d’in- formations : parole (reconnaissance), image (psychovision), ´ ecrit (structuration de documents), fusion des modalit´ es perceptives dans l’appr´ ehension de l’environne- ment, interfaces multimodales.

– Codage (COD)

Le groupe COD s’int´ eresse aux techniques de compression de sources et ` a leur adaptation aux applications audiovisuelles/multim´ edia (compression audio, co- dage d’images, transmission audiovisuelle, syst` emes temps-r´ eel).

– Audio, Acoustique et Ondes (AAO)

Ce dernier groupe ´ etudie la physique des ondes dans les domaines de l’optique (stockage de l’information) et de l’acoustique (mod´ elisation de la production des

13

(14)

14 CHAPITRE 1. CADRE DU STAGE

sons, perception, antennes acoustiques).

Mon tuteur Roland Badeau appartient au groupe AAO.

1.2 Le projet INFOM@GIC

1.2.1 Origine

Le projet INFOM@GIC, lanc´ e en d´ ecembre 2005, s’inscrit dans le cadre du pˆ ole de comp´ etitivit´ e IMVN (Image, Multim´ edia et Vie Num´ erique). Ce dernier est port´ e par l’Agence R´ egionale du D´ eveloppement (ARD) d’Ile de France dont il est le troisi` eme pˆ ole. Consacr´ e aux technologies de l’information et de la communication, il implique de grands groupes (TF1, Lagard` ere Groupe, France T´ el´ ecom, Eclair, SFP, TSF), des PMEs, des laboratoires et des institutions (LIP6 Paris VI, l’INA, l’IRCAM, T´ el´ ecom Paris, CNAM, ESIEE, ENSTA, ENS Louis-Lumi` ere, Gobelins, FEMIS).

1.2.2 Objectif

INFOM@GIC vise ` a mettre en place, sur une p´ eriode de trois ans, un laboratoire in- dustriel de s´ election, de tests, d’int´ egration et de validation d’applications op´ erationnelles des meilleures technologies franciliennes dans le domaine de l’ing´ enierie des connais- sances.

Ce laboratoire s’appuie sur une plate-forme commune qui doit couvrir les grands domaines de l’analyse d’information quelles que soient les sources (donn´ ees structur´ ees, texte, images et sons) :

– la recherche et l’indexation, – l’extraction de connaissances,

– la fusion d’informations multim´ edias.

Elle inclut des applications pour les secteurs de la e-Education et de la gestion des patrimoines culturels num´ eriques.

1.2.3 Acteurs

Les partenaires du projet sont r´ epartis en quatre cat´ egories : – Industriels : Thal` es (coordinateur), EADS, Xerox ;

– PMEs : Bertin, Europlace, FIST (CNRS-ANVAR), Intuilab, Odile Jacob, Per- timm, Temis, Vecsys ;

– Etablissements publics : CEA, CNRS, INA, ONERA ;

(15)

1.3. LE SUJET 15

– Ecoles et universit´ es : GET/ENST-INT, Paris VI (LIP6, LSTA), Paris VIII (LC&U), Paris IX Dauphine (CEREMADE), Paris XIII (LIPN), Paris-Sud Orsay (LIMSI), Universit´ e de Marne-la-Vall´ ee (IGM), CNRS/LACAN.

D’autres partenaires sont en instance d’int´ egration : Canal+ HiTech, Hi-Store, LIRMM, SINEQUA.

1.2.4 Le sous-projet “Patrimoine Num´ eris´ e”

L’ENST intervient principalement dans le sous-projet “Patrimoine Num´ eris´ e”, pi- lot´ e par l’INA, pour tout ce qui concerne l’acquisition, la description initiale, l’´ edition et la publication de contenus audiovisuels. La contribution de l’ENST est r´ epartie dans trois domaines : les outils d’analyse des s´ equences vid´ eos, la multimodalit´ e voix-image et les outils de traitement de la bande audio. Ce dernier, auquel mon stage est rat- tach´ e, inclut les outils de pr´ etraitement de la bande son, la s´ eparation parole/musique ou encore la segmentation en ´ ev` enements sonores (parole, musique, applaudissements, etc.).

1.3 Le sujet

Ce stage ` a pour titre :

S´ eparation de la voix du locuteur et du fond musical dans des ´ emissions radiodiffus´ ees.

Cette s´ eparation est une ´ etape dans la transcription de donn´ ees radiophoniques.

En effet, la trancription de signaux radiophoniques est loin d’ˆ etre ais´ ee parce qu’elle contient des signaux de diverses natures, principalement parole, musique et parole+musique.

Une premi` ere ´ etape consiste ` a segmenter, manuellement ou automatiquement, les donn´ ees

en suivant ces trois cat´ egories. Les extraits de parole seule ou de musique seule pourrons

d` es lors faire l’objet de transcription. Les zones de m´ elange n´ ecessitent quant ` a elles un

second traitement destin´ e ` a extraire les signaux de parole et de musique. C’est ` a cet

endroit de la chaˆıne de traitement que se positionne mon stage.

(16)

16 CHAPITRE 1. CADRE DU STAGE

(17)

Chapitre 2

La s´ eparation de sources

La s´ eparation de sources correspond ` a une technique de traitement des signaux mul- ticapteurs utilis´ ee dans de nombreux domaines : m´ edecine, radar, audio, etc. On ´ etudie ici uniquement la s´ eparation de sources sonores, objet de ce stage. On distingue deux types de m´ elanges : les m´ elanges lin´ eaires instantan´ es et les m´ elanges convolutifs. Les m´ ethodes de s´ eparation peuvent ˆ etre aveugles ou au contraire n´ ecessiter des connais- sances a priori sur les sources. Enfin, quatre configurations concernant les nombres de sources et d’observations sont possibles :

– d´ etermin´ ee (autant d’observations que de sources), – sur-d´ etermin´ ee (plus d’observations que de sources), – sous-d´ etermin´ ee (moins d’observation que de sources),

– monocapteur (un seul capteur quel que soit le nombre de sources).

On se limitera aux m´ elanges lin´ eaires instantan´ es, le m´ elanges convolutifs pouvant faire l’objet d’une ´ etude ult´ erieure.

Un m´ elange instantan´ e (invariant temporellement) se traduit par l’´ equation sui- vante :

x

_i

(t) =

N

X

j=1

λ

_ij

s

_j

(t) (2.1)

o` u x

_i

(t) est l’´ echantillon ` a l’instant t de l’observation i, s

_j

(t) l’´ echantillon ` a l’instant t de la source j et λ

_ij

le poids de la source j dans l’observation i.

2.1 Analyse en Composantes Ind´ ependantes (ACI)

L’Analyse en Composantes Ind´ ependantes (ACI) [1, 2] est la m´ ethode utilis´ ee pour la s´ eparation aveugle de sources

¹

. Elle est bas´ ee sur l’hypoth` ese, forte mais non d´ enu´ ee de sens, que les sources sont statistiquement mutuellement ind´ ependantes. Le but est ainsi de trouver les estimations de sources qui pr´ esentent une d´ ependance mutuelle minimale.

1Les deux expressions d´esignent d’ailleurs souvent la mˆeme chose.

17

(18)

18 CHAPITRE 2. LA S ´ EPARATION DE SOURCES

On dispose de N sources s

₁

(t), . . . , s

_N

(t) et de M observations x

₁

(t), . . . , x

_M

(t).

Chaque observation x

_i

(t) est un m´ elange des N sources (´ eq. 2.1). L’ind´ ependance sta- tistique des source s’exprime comme suit :

P (s) =

N

Y

i=1

P (s

_i

). (2.2)

Consid´ erant le cas d´ etermin´ e M = N , on peut r´ eecrire la formule de m´ elange sous forme matricielle :

x(t) = Λs(t) (2.3)

avec x(t) le vecteur N × 1 des observations ` a l’instant t, s(t) le vecteur N × 1 des sources (suppos´ ees ind´ ependantes) ` a l’instant t et Λ la matrice N × N de m´ elange.

Estimer les sources revient dans un premier temps ` a estimer la matrice de m´ elange Λ

`

a partir des observations. Ensuite, en consid´ erant que les colonnes de Λ sont lin´ eairement ind´ ependantes, Λ est inversible et on peut facilement obtenir la matrice de s´ eparation Ψ = Λ

⁻¹

.

L’ACI recherche les composantes lin´ eaires, d’un ensemble d’observations (coh´ erentes), dont la d´ ependance mutuelle est minimale. Elle consiste ` a r´ esoudre :

Λ = argmin ˆ

Λ

Γ(λ

⁻¹

x(t)) (2.4)

o` u Γ(u) est une mesure de la d´ ependance des composantes d’un vecteur al´ eatoire u.

L’ACI permet de retrouver les sources ` a quelques indeterminations pr` es, induites par les sym´ etries dans les distributions, concernant le gain et une possible rotation de Λ. De plus, dans le cas stationnaire, l’ACI ne fonctionne pas si plus d’une source est gaussienne (i.e. de densit´ e de probabilit´ e gaussienne). En effet, la r´ esolution de l’´ equation (2.4) passe par l’estimation d’au minimum deux moments

²

d’ordre pair (le moment d’ordre 1 est nul par hypoth` ese et les moments d’ordre impaire par sym´ etrie).

Pour une source gaussienne, seul le moment d’ordre 2 est non-nul ce qui ne permet pas de r´ esoudre le probl` eme.

La premi` ere ´ etape d’une ACI est g´ en´ eralement le blanchiment du vecteur d’observa- tions (on rappelle qu’un vecteur est dit spatialement blanc si sa matrice de covariance est identit´ e). Cette ´ etape permet de r´ eduire la matrice de m´ elange Λ ` a une matrice de rotation et simplifie la r´ esolution de l’´ equation (2.4).

La m´ ethode par ACI peut aussi s’appliquer dans le cas sur-d´ etermin´ e. La seule diff´ erence r´ eside dans le fait que la matrice de m´ elange ne sera plus carr´ ee et donc in- versible. On pourra par exemple utiliser ` a la place la matrice pseudo-inverse de Moore- Penrose [3].

2Généralement on substitue, par soucis de simplicité, les cumulants au moments.

(19)

2.2. S ´ EPARATION DE SOURCES MONO-CAPTEUR 19

Pour les cas sous-d´ etermin´ es, l’ACI est un probl` eme mal-pos´ e et l’utilisation d’une information a priori sur les sources semble in´ evitable. L’ACI permet dans certains cas d’estimer une matrice de m´ elange M xN mais le mod` ele n’est plus inversible puisqu’on recherche N > M sources. L’enjeu est alors, ` a partir de M observations et d’une matrice de m´ elange d´ esormais connue, d’identifier les N sources. On peut par exemple faire l’hypoth` ese qu’il existe une repr´ esentation parcimonieuse (sparse) [4, 5] des sources.

Dans ce cas, le probl` eme devient solvable parce que, dans un domaine transform´ e (ex.

Fourier), chaque ´ echantillon peut-ˆ etre, en premi` ere approximation, associ´ e ` a une unique source. On peut aussi estimer les densit´ es des sources puis rechercher la solution qui mi- nimise l’erreur quadratique moyenne ou encore celle qui maximise la loi a posteriori [6].

Il existe d’autres m´ ethodes de s´ eparation multicapteurs comme celle d´ etaill´ ee dans [7] qui utilise la D´ ecomposition Modale Empirique (Empirical Mode Decomposition - EMD). Cependant ces solutions ne sont pas adapt´ ees au cas tr` es particulier o` u l’on ne dispose que d’une unique observation.

2.2 S´ eparation de sources mono-capteur

Voici le cas le plus complexe. Ici on n’a aucune information spatiale puisqu’un seul capteur est t´ emoin de la sc` ene sonore. On peut citer une m´ ethode de s´ eparation aveugle dans ce cas, l’analyse en sous-espaces ind´ ependants (Independent Subspace Analysis - ISA)[8]. Cette m´ ethode op` ere une d´ ecomposition en sous-espaces ind´ ependants avant d’appliquer une ACI classique. Cependant, dans le cas g´ en´ eral, la s´ eparation ne peut s’effectuer qu’avec certains a priori sur les sources ` a s´ eparer.

Plusieurs m´ ethodes consid` erent des crit` eres spectraux pour discriminer deux signaux audios. Karneb¨ ack dans [9] utilise par exemple un crit` ere d’ondulation basse fr´ equence pour s´ eparer la voix de la musique. Il obtient mˆ eme de meilleurs r´ esultats en lui as- sociant une repr´ esentation MFCC (Mel Frequency Cepstal Coefficients). Julie Rosier dans sa th` ese [10] caract´ erise les diff´ erentes sources par leur fr´ equence fondamentale.

Dans le mˆ eme esprit, les auteurs de [11] utilisent des mod` eles harmoniques des sources pour s´ eparer les diff´ erents instruments d’un m´ elange.

Roweis dans [12] utilise le masquage temps-fr´ equence. Il divise le signal en diff´ erentes sous-bandes fr´ equentielles et applique des gains diff´ erents ` a chacune d’elles, les valeurs de ces gains ´ etant obtenues par apprentissage sur des signaux s´ epar´ es. Dans la conti- nuit´ e, une autre m´ ethode utilise des mod` eles statistiques des sources et un formalisme bayesien [13, 14]. C’est sur cette derni` ere que l’on d´ ecide de s’attarder. En effet, les m´ elanges audio qui font l’objet de ce stage ´ etant de type radiophonique et surtout monophonique, elle semble ˆ etre la mieux adapt´ ee ` a notre probl` eme. La suite de ce rapport permet de la comprendre plus en d´ etails et d’´ evaluer ses performances. L’ACI pr´ esent´ ee plus haut pourra ˆ etre utilis´ ee dans une phase de post-traitement pour, peut- ˆ

etre, am´ eliorer la s´ eparation des sources.

Le principe g´ en´ eral de la m´ ethode choisie est r´ esum´ e par le sch´ ema Fig. 2.1 pour

(20)

20 CHAPITRE 2. LA S ´ EPARATION DE SOURCES

Fig. 2.1 – Sch´ ema de principe de la m´ ethode de s´ eparation monocapteur : v

t

une trame de parole, m

_t

une trame de musique, x

_t

= v

_t

+ m

_t

la trame de m´ elange, X

_t

le spectre correspondant ` a la trame de m´ elange, ˆ V

_t

le spectre estim´ e de la trame de voix, ˆ M

_t

le spectre estim´ e de la trame de musique, ˆ v

t

la trame estim´ ee de voix, ˆ m

t

la trame estim´ ee de musique.

le cas qui nous int´ eresse : une source voix v et une source musique m. Les diff´ erentes

´

etapes seront d´ etaill´ ees d` es le chapitre 3 mais on peut d’ores et d´ ej` a pr´ eciser que le corpus de voix (resp. musique) correspond ` a un ensemble d’extraits sonores contenant exclusivement de la parole (resp. musique) et sens´ e ˆ etre repr´ esentatif de la parole (resp.

musique) en g´ en´ eral. Le bloc “apprentissage” (cf. chap. 5) consiste ` a calculer les pa-

ram` etres du mod` ele de voix (resp. musique). L’op´ eration de TFCT (cf. 3.1) permet

de passer dans le domaine fr´ equentiel dans lequel la s´ eparation s’effectue. L’op´ eration

TFCT

⁻¹

(cf. 4.2) pemet d’en revenir. Le filtrage de Wiener (cf. 4.1) adaptatif est l’´ etape

qui op` ere concr` etement la s´ eparation.

(21)

Chapitre 3

Mod´ elisation des signaux

3.1 Transform´ ee de Fourier ` a Court Terme (TFCT)

La s´ eparation de sources s’effectue dans le domaine fr´ equentiel. On repr´ esente les signaux par leur TFCT dont le calcul peut se d´ ecomposer en 3 ´ etapes ( Fig. 3.1) :

1. d´ ecoupage du signal audio en trames de longueur L avec un certain pourcentage de recouvrement ρ ;

2. multiplication des T trames par une fenˆ etre de pond´ eration w

_a

;

3. calcul de la Transform´ ee de Fourier Discr` ete (TFD) sur N points de chacune d’elles (avec compl´ etion de z´ eros si N > L).

Un recouvrement de 75% signifie par exemple que la trame t+1 contiendra 75% de la trame t et 25% de “nouveaut´ e ”.

La formule d’obtention de l’´ echantillon ` a la fr´ equence f de la trame t est : X

_t

(f ) =

N

X

n=1

w

_a

(n)x(τ

_a

(t) + n)e

^−j2πnf

(3.1) avec τ

_a

(t) , (t − 1)N (1 −

₁₀₀^ρ

) l’instant d’analyse.

Le nombre N de points pour la TFD permet de choisir le niveau de pr´ ecision de la repr´ esentation mais doit rester raisonnable pour limiter la complexit´ e. On choisit ici N = 2048 qui nous paraˆıt ˆ etre un bon compromis.

Le choix de la fenˆ etre et du taux de recouvrement d´ epend de deux choses :

– la r´ esolution souhait´ ee (largeur du lobe principal, amplitude des lobes secon- daires),

– la possibilit´ e ou non de reconstruction du signal temporel ` a partir de la TFCT par la m´ ethode OLA (cf. 4.2).

21

(22)

22 CHAPITRE 3. MOD ´ ELISATION DES SIGNAUX

Fig. 3.1 – Sch´ ema de principe de la TFCT.

La fenˆ etre rectangle est la meilleure en ce qui concerne la largeur du lobe principal mais ses lobes secondaires sont peu att´ enu´ es. En g´ en´ eral, les fenˆ etres de Hamming ou Hann repr´ esentent de bons compromis. Dans [15] , les auteurs mettent d’ailleurs en

´

evidence le fait que les fenˆ etres de Hann et surtout Hamming donnent de meilleurs r´ esultats pour la s´ eparation de sources que celle de Blackman, par exemple, pourtant souvent appr´ eci´ ee pour sa forte r´ ejection des lobes secondaires. Pour la m´ ethode OLA, il existe une condition (´ eq. 4.9) sur les fenˆ etres d’analyse et de synth` ese, de reconstruction parfaite. On cherchera ` a la respecter en choisissant, par exemple, ` a la fois ` a l’analyse et ` a la reconstruction, une fenˆ etre de type racine carr´ ee de Hamming ( Fig. 3.2) avec un recouvrement de 50%.

Pour qu’une repr´ esentation en TFCT soit pertinente, il faut que la longueur de la

fenˆ etre d’analyse corresponde plus ou moins ` a la dur´ ee moyenne de stationnarit´ e locale

du signal ´ etudi´ e. Les valeurs usuelles pour des signaux audio oscillent entre 10ms et

20ms. Cependant, des tests pratiques de s´ eparation sur plusieurs m´ elanges de signaux

nous ont pouss´ e ` a choisir 40ms, la qualit´ e de la s´ eparation diminuant pour des fenˆ etres

plus courtes ou longues. Notons par ailleurs que, dans les articles de r´ ef´ erence, les

auteurs choisissent 47ms [14] voire mˆ eme 93ms [16].

(23)

3.2. MOD ` ELES DE M ´ ELANGE DE GAUSSIENNES ET DE MARKOV CACH ´ E 23

Fig. 3.2 – Fenˆ etre de Hamming (en racine carr´ ee) de 40ms ` a 16kHz (soit 640 ´ echantillons).

3.2 Mod` eles de M´ elange de Gaussiennes (MMG) et de Mar- kov Cach´ e (MMC)

3.2.1 MMG

On mod´ elise la TFCT comme un ensemble de r´ ealisations (i.e. les T spectres) d’un processus vectoriel complexe, gaussien et centr´ e, de matrice de covariance Σ. On rap- pelle la densit´ e de probabilit´ e d’un tel processus :

G (X

_t

; Σ) = 1

π

^N

detΣ exp(−X

_t^T

Σ

⁻¹

X

_t

) (3.2) o` u t est l’indice de la trame consid´ er´ ee et N le nombre de points de TFD, soit la lon- gueur du vecteur al´ eatoire

¹

X

_t

.

Par la suite, on consid` ere uniquement des matrices Σ diagonales. Ce choix est res- trictif mais reste pertinent du fait que Σ est la matrice de covariance d’une TFD et que les valeurs d’une TFD sont asymptotiquement (i.e. quand N = L → ∞) d´ ecorrel´ ees si :

– le processus est SSL (Stationnaire au Sens Large), – w

_a

≡ 1 ;

conditions qui ne sont tout de mˆ eme pas pleinement respect´ ees ici.

1Par abus de notation, on noteXtune r´ealisation du vecteur al´eatoireXt

(24)

24 CHAPITRE 3. MOD ´ ELISATION DES SIGNAUX

La diagonale de Σ correspond au p´ eriodogramme de x

_t

, ` a une constante pr` es, et on notera Σ(f) sa valeur ` a la fr´ equence f.

Dans un deuxi` eme temps on consid` ere que la densit´ e de probabilit´ e se compose de plusieurs gaussiennes, toutes centr´ ees mais de matrices de covariances diff´ erentes Σ

1

` a Σ

K

. Avec ω

k

le poids de la k

^eme^`

gaussienne du m´ elange, ω = {ω

1

, . . . , ω

K

}, Σ = {Σ

₁

, . . . , Σ

K

}, θ = {Σ, ω}, la densit´ e de probabilit´ e du processus devient :

P

^mmgXt

(X

_t

, θ) =

K

X

k=1

ω

_k

G (X

_t

; Σ

_k

). (3.3)

Concernant la g´ en´ eration d’une r´ ealisation, on peut consid´ erer qu’elle se d´ ecompose en deux phases :

– le tirage al´ eatoire de la gaussienne active q(t), la probabilit´ e d’avoir la k

^`^eme

gaus- sienne ´ etant ω

_k

;

– le tirage du vecteur al´ eatoire en consid´ erant que la densit´ e de probabilit´ e de pro- cessus est r´ eduite ` a la gaussienne active.

Un tel mod` ele, bien que plus int´ eressant que la simple distribution gaussienne, semble encore trop simple pour esp´ erer mod´ eliser fid` element un signal audio, entre autres parce qu’il ne prend pas en compte son ´ evolution temporelle. C’est donc logi- quement qu’on s’int´ eresse aux chaˆınes de Markov.

3.2.2 MMC

Afin d’obtenir une repr´ esentation plus fid` ele, on choisit de mod´ eliser la TFCT comme les observations d’une Chaˆıne de Markov Cach´ ee (CMC) d’ordre 1. Les observations sont donc les diff´ erents spectres X

_t

de la TFCT et les donn´ ees cach´ ees du processus de Markov correspondent aux gaussiennes actives q(t) des MMGs (on conserve la mˆ eme notation).

Ce qui diff´ erencie les MMCs des MMGs est le fait que la probabilit´ e d’avoir une gaussienne k active ` a l’intant t (i.e. q(t) = k) d´ epend de la gaussienne active ` a l’instant pr´ ec´ edent t − 1. Cette d´ ependance se traduit par une matrice de transition a qui donne la probabilit´ e de passer de l’´ etat i ` a l’´ etat j :

a

_i,j

= P (q(t) = j|q(t − 1) = i) (3.4) avec i, j ∈ {1, . . . , K}.

3.3 Pr´ etraitements

Afin d’am´ eliorer la s´ eparation, on peut envisager de pr´ etraiter le signal. Principale-

ment deux raisons nous poussent ` a le faire. Premi` erement, les MMGs et MMCs sont des

mod` eles simples qui restent ´ eloign´ es de la r´ ealit´ e d’un signal audio. Un pr´ etraitement

(25)

3.3. PR ´ ETRAITEMENTS 25

peut permettre de faire s’en rapprocher les signaux consid´ er´ es. Deuxi` emement, la qua- lit´ e d’une s´ eparation est avant tout perceptive. Le plus important est qu’elle semble efficace ` a l’´ ecoute. L’oreille humaine pr´ esentant une dynamique tr` es importante et une r´ eponse en fr´ equence non-lin´ eaire, un bon SDR (cf. 4.3) n’est pas gage de qualit´ e audi- tive. Un pr´ etraitement peut permettre d’y rem´ edier.

3.3.1 Accentuation des hautes-fr´ equences

En g´ en´ eral, la puissance d’un signal audio est beaucoup plus importante en basses fr´ equences qu’en hautes fr´ equences. Il y a donc un risque que la s´ eparation soit peu efficace sur ces derni` eres. Une mesure de type SDR ne s’en trouvera pas n´ ecessairement d´ egrad´ e mais l’oreille humaine y sera sensible pour les raisons pr´ ealablement ´ enonc´ ees.

Pour tenter de rendre la s´ eparation plus uniforme, on peut imaginer renforcer les hautes fr´ equences avec un filtre passe-haut du type ( Fig. 3.3) :

A(z) = 1 − 0.98z

⁻¹

. (3.5)

Fig. 3.3 – Module et phase de A(z) .

En appliquant ce filtre, on cherche finalement ` a compenser, tr` es grossi` erement,

la non-lin´ earit´ e de l’oreille. Il paraˆıt donc judicieux de s’int´ eresser ` a la pond´ eration

fr´ equentielle de type “A” qui a ´ et´ e cr´ e´ ee dans ce but.

(26)

26 CHAPITRE 3. MOD ´ ELISATION DES SIGNAUX

3.3.2 Pond´ eration type “A” (dBA)

La pond´ eration (en fr´ equence), ou le filtre (en temps), de type “A” est pr´ evue pour approcher la mani` ere dont l’oreille entend les sons. En quelque sorte, elle permet de mesurer un niveau sonore perceptif et non physique. On peut ainsi utiliser cette pond´ eration pour conditionner nos spectres afin qu’ils soient trait´ es avec prise en compte de la non-lin´ earit´ e de l’oreille. La courbe de pond´ eration “A” est donn´ ee ci-apr` es ( Fig.

3.4) en dB. L’application de la pond´ eration se fait simplement en additionnant nos spectres en dB et cette courbe (exemple Fig. 3.5).

Fig. 3.4 – Courbe de pond´ eration type “A”.

Remarquons que la pond´ eration type “A” est tr` es diff´ erente du filtrage passe-haut pr´ ec´ edemment introduit. Leur point commun r´ eside dans l’att´ enuation importante des basses fr´ equences mais la bande de transition du filtre passe-haut est beaucoup plus large que celle du filtre dBA. On utilisera, bien entendu, soit l’un, soit l’autre, et on peut s’attendre ` a des r´ esultats assez diff´ erents.

3.3.3 Echelle logarithmique

On a vu que la dynamique de l’oreille est tr` es grande. Cependant, il y a peu

de chances que la m´ ethode de s´ eparation soit sensible ` a la mˆ eme dynamique. Une

m´ ethode courante pour compresser la dynamique est le passage au logarithme qui va, ` a

la diff´ erence du filtrage passe-haut, transformer uniform´ ement les spectres. On choisit

la formule suivante :

(27)

3.3. PR ´ ETRAITEMENTS 27

(a) (b)

Fig. 3.5 – Exemple de spectre (a) avant et (b) apr` es pond´ eration type “A” (fr´ equence d’´ echantillonage 16kHz, L = 640,N = 2048).

X

_t^log

= (log(|X

_t

| + ) + cst) e

^φ^t

(3.6) o` u φ

_t

est la phase de X

_t

, une constante positive et petite devant X

_t

qui permet d’´ eviter la valeur z´ ero pour laquelle le logarithme n’est pas d´ efini et cst une constante permettant d’assurer que |X

_t^log

| ≥ 0.

On ne peut pas prendre directement le logarithme du module du spectre, qui don-

nerait des valeurs dans R , car l’algorithme est pr´ evu pour des spectres avec des valeurs

dans R

⁺

(positives ou nulles) qui sont interpr´ et´ ees comme des variances.

(28)

28 CHAPITRE 3. MOD ´ ELISATION DES SIGNAUX

(29)

Chapitre 4

S´ eparation des sources

Dans cette section, on consid` ere que l’on dispose, pour chaque source, d’un mod` ele statistique obtenu lors d’une phase d’apprentissage d´ etaill´ ee dans le chapitre 5.

4.1 Filtrage de Wiener adaptatif

Positionons-nous dans le cas gaussien simple. Consid´ erons que l’on cherche ` a s´ eparer un signal de voix v d’un m´ elange voix/musique y = v +m o` u m est le signal de musique.

On supposera dans un premier temps les signaux stationnaires. Une m´ ethode classique pour s´ eparer deux signaux est le filtrage de Wiener. Il consiste ` a trouver le filtre w tel que l’energie de l’erreur E[(ˆ v(t) − v(t))

²

], avec ˆ v(t) = {w ∗ y}(t) le filtrage de y par w, soit minimale. Si on consid` ere v et m ind´ ependants, la fonction de transfert du filtre au sens des moindres carr´ es est donn´ e par :

W (f ) = Σ

^v

(f )

Σ

^v

(f ) + Σ

^m

(f) (4.1)

o` u Σ

^v

(f ) (resp. Σ

^m

(f )) est la valeur ` a la fr´ equence f de la Densit´ e Spectrale de Puis- sance (DSP) du signal v (resp. m).

Pour le cas d’un m´ elange de gaussiennes, si on connait les indices q

_v

et q

_m

des gaus- siennes actives dans les deux sources, le filtrage de Wiener peut s’appliquer directement en substituant dans la formule les covariances Σ

^v_q_v

et Σ

^m_q_m

aux covariances Σ

^v

et Σ

^m

. Lorsque (q

_v

, q

_m

) sont inconnus, on calcule le filtre comme une somme pond´ er´ ee par les probabilit´ es γ

kv,km

(´ eq. 4.3) des diff´ erents filtres de Wiener possibles [13]. On obtient la formule suivante :

W (f) =

Kv

X

kv=1 Km

X

km=1

γ

_k_v_,k_m

Σ

^v_k_v

(f ) Σ

^v_k

v

(f) + Σ

^m_k

m

(f ) (4.2)

avec

γ

_k_v_,k_m

, P (q

_v

= k

_v

, q

_m

= k

_m

|X

_t

, Σ

_v

, Σ

_m

)

∝ ω

_k^v_v

ω

_k^m_m

G (X

_t

; Σ

^v_k_v

+ Σ

^m_k_m

). (4.3)

29

(30)

30 CHAPITRE 4. S ´ EPARATION DES SOURCES

Pour avoir l’´ egalit´ e dans l’´ equation 4.3, il faut normaliser les γ

_k_v_,k_m

par leur somme S = P

Kv

i=1

P j = 1

^K^m

ω

^v_i

ω

^m_j

G (X

_t

; Σ

^v_j

+ Σ

^m_j

) sur tous les couples (k

_v

, k

_m

).

Dans notre application, les signaux utilis´ es ne sont pas compl` etement stationnaires.

On consid` ere tout de mˆ eme qu’ils le sont localement et on utilise une repr´ esentation en TFCT. Pour chaque spectre X

_t

de la TFCT du m´ elange voix/musique, les probabilit´ es γ

_t,k_v_,k_m

, qui d´ ependent maintenant de t, sont r´ e´ evalu´ ees et le filtre appliqu´ e. On a donc un filtrage de type Wiener qui varie dans le temps et de mani` ere adaptative puisque les γ

_t,k_v_,k_m

d´ ependent des donn´ ees y elle-mˆ emes. Les formules d’estimation de la voix et de la musique pour chaque trame t sont donn´ ees respectivement ´ equation (4.4) et (4.5) :

V ˆ

_t

(f) =

"

_K_v

X

kv=1 Km

X

km=1

γ

_t,k_v_,k_m

Σ

^v_k_v

(f ) Σ

^v_k

v

(f ) + Σ

^m_k

m

(f)

#

X

_t

(f ), (4.4)

M ˆ

_t

(f ) =

"

_K_v

X

kv=1 Km

X

km=1

γ

_t,k_v_,k_m

Σ

^m_k_m

(f ) Σ

^v_k

v

(f ) + Σ

^m_k

m

(f )

#

X

_t

(f) (4.5)

o` u ˆ V

_t

(f ) (resp. ˆ M

_t

(f)) repr´ esente la valeur ` a la fr´ equence f de la trame t de la TFCT estim´ ee du signal de voix v (resp. de musique m).

Ces formules correspondent ` a l’estimateur de la Moyennne a Posteriori (Posterior mean - PM). On peut aussi utiliser l’estimateur du Maximum A Posteriori (MAP) qui consiste ` a choisir le filtre correspondant au γ

_t,k_v_,k_m

(t) maximum, ce qui revient ` a estimer les gaussiennes actives. Les nouvelles expressions sont donn´ ees par les ´ equations (4.6) et (4.7) :

V ˆ

_t

(f ) =

"

Σ

^v_q_ˆ

v(t)

(f) Σ

^v_q_ˆ

v(t)

(f) + Σ

^m_ˆ_q

m(t)

(f)

#

X

_t

(f ), (4.6)

M ˆ

_t

(f ) =

"

Σ

^m_q_ˆ

m(t)

(f) Σ

^x_q_ˆ

v(t)

(f) + Σ

^m_q_ˆ

m(t)

(f)

# X

_t

(f )

= X

_t

(f ) − V ˆ

_t

(f) (4.7)

avec (ˆ q

_v

(t), q ˆ

_m

(t)) = argmax

kv,km

γ

_t,k_v_,k_m

.

Concr` etement, dans le cas MAP, cela consiste, trame par trame, fr´ equence par fr´ equence, ` a r´ epartir l’´ energie de la TFCT du m´ elange entre la voix estim´ ee et la musique estim´ ee selon des proportions impos´ ees par les valeurs ` a la fr´ equence f des gaussiennes actives de chaque mod` ele.

Les deux estimateurs donnent des r´ esultats tr` es similaires, autant ` a l’´ ecoute qu’en

valeur de NSDR (cf.4.3), avec cependant un l´ eger avantage pour l’estimateur MAP. Ce

dernier ´ etant aussi le plus simple ` a calculer, tous les tests ` a venir l’utiliseront exclusi-

vement.

(31)

4.2. RECONSTRUCTION PAR ADDITION-RECOUVREMENT 31

4.2 Reconstruction par addition-recouvrement (Overlap and Add - OLA)

On dispose d’une TFCT X de T trames, on veut reconstituer le signal temporel ˆ

x correspondant. Le principe de reconstruction OLA ( Fig. 4.1), dont la formule est rappel´ ee par l’´ equation (4.8), est relativement simple. On peut le d´ ecomposer en trois

´ etapes :

1. calcul des TFDs inverses ˜ x

_t

de chaque spectre X

_t

;

2. multiplication de chaque ˜ x

_t

par une fenˆ etre de pond´ eration w

_s

dˆ ument choisie ; 3. addition des signaux en tenant compte du recouvrement (le mˆ eme qu’au calcul de

la TFCT).

ˆ x(n) =

T

X

t=1

w

_s

(n − τ

_a

(t))˜ x

_t

(n − τ

_a

(t)) (4.8) La fenˆ etre de synth` ese w

_s

doit, pour une reconstruction parfaite, i.e. ˆ x

_t

= x

_t

si X

_t

n’a pas subi de modification, respecter la condition suivante :

T

X

t=1

w

_a

(n − τ

_a

(t))w

_s

(n − τ

_a

(t)) ≡ 1, ∀n (4.9) o` u on rappelle que w

_a

est la fenˆ etre d’analyse et N le nombre de points des TFDs.

Fig. 4.1 – Sch´ ema de principe de la m´ ethode OLA.

(32)

32 CHAPITRE 4. S ´ EPARATION DES SOURCES

4.3 Mesure de performance

La qualit´ e d’une s´ eparation de sources audio est avant tout perceptuelle. C’est ` a dire que le plus important est que l’auditeur percoive un minimum de d´ efauts dans les signaux s´ epar´ es. N´ eanmoins il reste difficile de mesurer la qualit´ e d’une s´ eparation sur ce seul crit` ere perceptif, d’abord parce qu’il reste subjectif et ensuite parce qu’il faudrait avoir ` a disposition un ensemble d’auditeurs d` es que l’on teste une nouvelle s´ eparation. Il est donc utile d’avoir un moyen num´ erique de comparer entre elles plusieurs s´ eparations.

On d´ ecide d’utiliser le Rapport Source ` a Distorsion (Source to Distortion Ratio - SDR) [17] d´ efini comme suit :

SDR(ˆ s, s) = 10 log

₁₀

hˆ s, si

²

kˆ sk

²

ksk

²

− hˆ s, si

²

(4.10) o` u s est une source quelconque, ˆ s son estim´ ee, h , i repr´ esente le produit scalaire de deux vecteurs et k k

²

l’´ energie d’un signal. Le SDR mesure la qualit´ e d’une estimation.

Lorsque l’estim´ ee ˆ s tend vers le signal original s, le d´ enominateur tend vers z´ ero et le SDR vers l’infini. Un SDR ´ elev´ e traduira donc une bonne estimation.

Pour ´ evaluer la qualit´ e d’une s´ eparation, on utilise le SDR Normalis´ e (Normalized SDR - NSDR). Il mesure l’am´ elioration du SDR lorsqu’on passe du m´ elange ` a la source estim´ ee. Cel` a se traduit, en logarithme, par la diff´ erence entre le SDR calcul´ e avec l’estim´ ee ˆ s et celui calcul´ e en consid´ erant le m´ elange x comme “estim´ ee” :

N SDR(ˆ s, x, s) = SDR(ˆ s, s) − SDR(x, s). (4.11)

(33)

Chapitre 5

Apprentissage des mod` eles

Comme vu pr´ ec´ edemment, la s´ eparation n´ ecessite l’apprentissage d’un mod` ele par source, c’est ` a dire le calcul de ses param` etres θ. Celui-ci s’effectue, pour une source, ` a partir d’un corpus d’extraits repr´ esentatifs et en utilisant l’algorithme EM (Expectation- Maximization ou Esp´ erance-Maximisation).

L’algorithme EM est un algorithme it´ eratif dont le but est de trouver les param` etres qui maximisent la vraisemblance d’un mod` ele. Cependant, il ne garantit pas le maxi- mum global. Il se d´ ecompose en deux ´ etapes, calcul de l’esp´ erance et maximisation de la vraisemblance, r´ ep´ et´ ees alternativement jusqu’` a la convergence.

Une des propri´ et´ es fondamentales de l’algorithme EM est que la vraisemblance aug- mente (ou reste stable) d’une it´ eration ` a l’autre sans jamais d´ ecroˆıtre. De ce fait, on dira que l’algorithme converge lorsque l’augmentation de la vraisemblance devient faible, i.e.

inf´ erieure ` a un ε donn´ e.

Dans cette section on consid` ere l’apprentissage du mod` ele d’une seule source, le calcul ´ etant identique pour toutes les sources.

5.1 MMG

On dispose de T r´ ealisations de notre processus MMG, i.e. tous les spectres qui composent les TFCTs des extraits repr´ esentatifs. Notons que dans le cas de plusieurs extraits distincts, on construit un unique signal form´ e par leur juxtaposition. On cherche l’estimation ˆ θ des param` etres qui maximise localement la log-vraisemblance des obser- vations donn´ ee par l’´ equation (5.1) :

log( P

^mmgX1,...,XT

(X

₁

, . . . , X

_T

; θ)) =

T

X

t=1

log

K

X

k=1

ω

_k

G

k

(X

_t

; Σ

_k

)

!

. (5.1)

33

(34)

34 CHAPITRE 5. APPRENTISSAGE DES MOD ` ELES

5.1.1 Esp´ erance

La premi` ere ´ etape est le calcul des probabilit´ es a posteriori γ

_t,k^(l)

des gaussiennes k connaissant la r´ ealisation t o` u l est l’indice d’it´ eration :

γ

_t,k^(l)

, P (q(t) = k|X

_t

, Σ

^(l)_k

)

= G

k

(X

_t

; Σ

^(l)_k

)ω

_k^(l)

P

K

j=1

ω

_j^(l)

G

j

(X

_t

; Σ

^(l)_j

) . (5.2) 5.1.2 Maximisation

La seconde ´ etape consiste en la r´ eestimation des param` etres du mod` ele, les proba- bilit´ e a priori des classes ω

_k

:

ω

_k^(l)

= P

T

t=1

γ

_t,k^(l−1)

T , (5.3)

et les matrices de covariances Σ

_k

: Σ

^(l)_k

=

P

T

t=1

γ

_t,k^(l−1)

X

_t

X

_t^T

P

T

t=1

γ

_t,k^(l−1)

. (5.4)

Etant donn´ e que l’on consid` ere uniquement des matrices de covariances diagonales, on impose la diagonalit´ e de la r´ eestimation en mettant ` a z´ ero tous les coefficients hors- diagonale dans Σ

^(l)_k

. Du point de vue de l’impl´ ementation, et pour limiter les erreurs de pr´ ecision, on calcul directement la diagonale comme suit :

diag[Σ

^(l)_k

] = P

T

t=1

γ

_t,k^(l−1)

(X

_t

X

_t

) P

T

t=1

γ

_t,k^(l−1)

(5.5) o` u d´ esigne le produit terme ` a terme de deux vecteurs.

5.2 MMC

Dans le MMC, on consid` ere R s´ eries de r´ ealisations, une s´ erie correspondant ` a la TFCT d’un extrait coh´ erent temporellement (` a l’inverse du MMG, on ne consid` ere pas un unique “m´ ega-extrait” compos´ e de tous les extraits). On note r ∈ {1, . . . , R} l’indice de la s´ erie et T

_r

le nombre de r´ ealisations qu’elle comporte.

5.2.1 Esp´ erance

Pour cette premi` ere ´ etape, il y a deux probabilit´ es a posteriori ` a calculer :

(35)

5.2. MMC 35

– la probabilit´ e γ

_t,j,r^(l)

` a l’it´ eration l que l’´ etat de la r´ ealisation t de la s´ erie r soit j connaissant toute la s´ erie r :

γ

_t,j,r^(l)

, P (q

^r

(t) = j|X

₁^r

, . . . , X

_T^r_r

), (5.6) – la probabilit´ e ξ

_t,i,j,r^(l)

` a l’it´ eration l que les ´ etat des r´ ealisations t et t − 1 de la s´ erie

r soient respectivement j et i, connaissant toute la s´ erie r :

ξ

_t,i,j,r^(l)

, P (q

^r

(t) = j, q

^r

(t − 1) = i|X

₁^r

, . . . , X

_T^r_r

). (5.7) Ce calcul n´ ecessite l’utilisation de l’algorithme de Baum-Welch ou forward-backward.

5.2.2 Maximisation

La seconde ´ etape est tr` es similaire au cas du MMG. On r´ eestime les ω

k

qui corres- pondent maintenant aux probabilit´ es initiales de la chaˆıne de Markov :

ω

_k^(l+1)

=

P

R

r=1

γ

_1,k,r^(l)

P

K

j=1

P

R

r=1

γ

_1,j,r^(l)

, (5.8)

les matrices de covariance : Σ

^(l+1)_k

=

P

R r=1

P

Tr

t=1

γ

_t,k,r^(l−1)

X

_t^r

(X

_t^r

)

^T

P

R

r=1

P

Tr

t=1

γ

_t,k,r^(l−1)

, (5.9)

mais on calcule en plus la matrice de transitions : a

^(l+1)_i,j

=

P

R r=1

P

Tr

t=2

ξ

_t,i,j,r^(l)

P

K

j=1

P

R r=1

P

Tr

t=2

ξ

_t,i,j,r^(l)

. (5.10)

Comme pour le MMG, on r´ eestime directement la diagonale de Σ

^(l+1)_k

: diag[Σ

^(l+1)_k

] =

P

R r=1

P

Tr

t=1

γ

_t,k,r^(l−1)

(X

_t^r

X

_t^r

) P

R

r=1

P

Tr

t=1

γ

_t,k,r^(l−1)

. (5.11)

En pratique, la formule de r´ eestimation de ω

_k

nous a pos´ e des probl` emes. Le type de donn´ ees trait´ ees font que les valeurs d´ eg´ en` erent rapidement (cf. 5.3). Pour y rem´ edier, on effectue la r´ eestimation de ces probabilit´ es directement ` a partir de la matrice de transitions a en choisissant son vecteur propre associ´ e ` a sa plus grande valeur propre comme nouveau vecteur ω (en prenant soin de le normaliser pour qu’il corresponde ` a des probabilit´ es).

Montrons la validit´ e de cette solution. On a dans un premier temps :

(36)

36 CHAPITRE 5. APPRENTISSAGE DES MOD ` ELES

ω

_j

, P (q

^r

(t) = j)

= X

j

P (q

^r

(t) = j|q

^r

(t − 1) = i) P (q

^r

(t − 1) = i)

= X

j

a

_i,j

ω

_i

.

Si on consid` ere l’expression matricielle, on a : ω = aω

et on d´ efinit le vecteur ω

^(l)

comme le vecteur propre de la matrice a

^(l)

associ´ e ` a la valeur propre 1.

La valeur propre 1 existe n´ ecessairement puisque la somme de chaque ligne vaut 1 (somme des probabilit´ es d’un mˆ eme ´ ev´ enement). En effet, en notant 1 le vecteur unitaire de dimension K le nombre de sources, on a

a

^(l)

1 = 1 et donc 1 est valeur propre de a

^(l)

.

Prouvons maintenant que 1 est la valeur propre maximale de a

^(l)

. Supposons qu’il existe une valeur propre ν > 1 associ´ ee ` a un vecteur propre p et posons i l’indice du plus grand coefficient de p :

i = argmax(|p

_i

|).

Le coefficient d’indice i de |a

^(l)

p|, not´ e (a

^(l)

p)

_i

, est ν|p

_i

| > |p

_i

|. Comme la somme de chaque ligne de a

^(l)

vaut 1, (a

^(l)

p)

i

est une moyenne pond´ er´ ee des coefficients de p. En particulier, puisque p

i

est le le plus grand coefficient de p,

|(a

^(l)

p)

_i

| ≤ |p

_i

|.

Ainsi, on a

νp

_i

> p

_i

et |(a

^(l)

p)

_i

| ≤ |p

_i

|, ce qui est contradictoire avec (a

^(l)

p)

_i

= νp

_i

.

N´ ecessairement, le cas ν > 1 est impossible et donc 1 est la valeur propre maximale de a

^(l)

.

Cette m´ ethode de r´ eestimation des ω

_k

permet d’´ eviter quasiment tout d´ eg´ en´ erescence

inopin´ ee.

(37)

5.3. PROBL ` EMES NUM ´ ERIQUES 37

5.3 Probl` emes num´ eriques

Les densit´ es de probabilit´ es que l’on calcule ont des valeurs tr` es faibles, en partie

`

a cause de la grande dimension des vecteurs d’observations. Ces densit´ es multipli´ ees entre elles donnent des valeurs qui tendent rapidement vers z´ ero et font d´ eg´ en´ erer l’al- gorithme. Pour palier ` a ce probl` eme, on utilise deux m´ ethodes compl´ ementaires :

– D` es que possible, les calculs sont effectu´ es dans le domaine logarithmique et non lin´ eaire. Par exemple, pour le calcul des d´ eterminants des matrices de covariance diagonales, on pr´ ef` erera calculer la somme des logarithmes des ´ el´ ements de la diagonale plutˆ ot que le produit de ces ´ el´ ements.

– Les diff´ erentes valeurs sont calcul´ ees ` a des facteurs d’´ echelle pr` es. On peut se le permettre d` es que ces valeurs sont destin´ ees ` a ˆ etre normalis´ ees, comme par exemple les probabilit´ es dont la somme doit ˆ etre ´ egale ` a 1.

Appliquons ces solutions au calcul de γ

_t,k^(l)

(´ eq. 5.2). Les matrices de covariance Σ

^(l)_k

´

etant diagonales, la densit´ e de probabilit´ e gaussienne (´ eq. 3.2) peut se calculer comme suit :

G

k

(X

_t

; Σ

^(l)_k

) = 1 π

^N

Q

f

Σ

^(l)_k

(f) exp − X

f

|X

_t

(f )|

²

Σ

^(l)_k

!

. (5.12)

Afin de privil´ egier le domaine logarithmique, on int` egre le facteur multiplicatif d´ ependant de k et l ` a l’exponentielle :

G

k

(X

_t

; Σ

^(l)_k

) = 1

π

^N

exp − X

f

"

|X

_t

(f )|

²

Σ

^(l)_k

+ log(Σ

^(l)_k

(f))

#!

. (5.13)

On notera :

G

^∗k

(X

_t

; Σ

^(l)_k

) = exp − X

f

"

|X

_t

(f )|

²

Σ

^(l)_k

+ log(Σ

^(l)_k

(f))

#!

. (5.14)

On peut ensuite mettre

_π¹N

en facteur du d´ enominateur de γ

_t,k^(l)

puisqu’il est ind´ ependant de k et l :

K

X

j=1

ω

_j^(l)

G

j

(X

_t

; Σ

^(l)_j

) = 1 π

^N

K

X

j=1

ω

^(l)_j

G

^∗j

(X

_t

; Σ

^(l)_j

). (5.15) Au final, on a :

γ

_t,k^(l)

= G

^∗k

(X

t

; Σ

^(l)_k

)ω

_k^(l)

P

K

j=1

ω

^(l)_j

G

^∗j

(X

_t

; Σ

^(l)_j

) . (5.16)

(38)