La bimodalité de la parole au secours de la séparation de sources. ~ Association Francophone de la Communication Parlée

(1)

N

◦

:

⊔⊔⊔⊔⊔⊔⊔⊔⊔⊔

THÈSE

pour obtenirle grade de

DOCTEUR de l'INP Grenoble

Spéialité : Signal, Image, Parole, Téléoms

préparée aux laboratoires

Institut de la Communiation Parlée, UMR CNRS 5009

Laboratoire des Images et des Signaux, UMR CNRS 5083

dans leadre de l'Eole Dotorale

Életronique, Életrotehnique, Automatique et Traitement du Signal

présentée et soutenue publiquement par

Bertrand Rivet

le29 septembre 2006

La bimodalité de la parole

au seours de la séparation de soures

Direteur de thèse :Christian Jutten (LIS)

Co-direteur de thèse :LaurentGirin(ICP)

JURY

M. Éri Moulines, Président

M. Yannik Deville, Rapporteur

Ms. Frédéri Bimbot/RémiGribonval, Rapporteurs

M. Christian Jutten, Direteur de thèse

M. LaurentGirin, Co-direteurde thèse

M. Dinh-Tuan Pham, Éxaminateur

(2)

(3)

Gaston Bahelard,La Formationde l'esprit sientique, 1938.

(4)

(5)

Avanttoutehose,jetiensàremerierJean-LuShwartzetJean-MarChassery

direteurs respetifsde l'Institut de laCommuniation Parlée (ICP) et du Labora-

toiredes Images etdesSignaux(LIS) pourm'avoiraueillidans leurslaboratoires.

JeveuxpartiulièrementremeriermesdeuxpapasdethèseChristianetLaurent:

sans vous ette thèse n'auraitjamais vu le jour.Vous avez su m'enadrer sans être

diretifset meommuniquer l'énergienéessaire pour menerà bien mes reherhes.

Même lorsque le temps m'aura pressé, vous avez toujours su trouver un moment

pour relire de mon manusrit. Si l'envie de ontinuer de vous remerier ne manque

pas, les mots justes sont plus diiles à trouveret nalement les plus simples sont

sûrementlesplus vrais:enoreun grandmeri.Jepenseraiàvousave monChivas

de 18 ans d'âge etmon stylo!

I would like to thank Jonathon Chambers, the leader of the Centre of Digital

Signal Proessing at Cardi University for your are during my stay. I also would

liketo thank Yuliaand Andrew.I was reallyglad by the ollaboration.Thank you

very muhfor your are.

Je souhaite assoier à es remeriements Patrie Petitlair pour avoir été mon

tuteur pédagogique, pour m'avoir fait onane en TP et me laisser enadrer des

TDs, hose susamment rare pour que je prenne le temps de te remerier. Ces

quelques heures d'enseignement aurontété une bouée d'air frais.

Je voudrais également remerier tous les membres de mon jury pour avoir pris

le temps de lire et de ritiquer e manusrit : Eri Moulines pour avoir aepté de

présider e jury, Yannik Deville, Frédéri Bimbot et Rémi Gribonval pour avoir

apporté votre aution et vos remarques en rapportant mon travail et nalement

Dinh-Tuan Pham pour ses préieuses suggestions.

Ungrandmeriàtous euxquej'aiputoyeretappréierpendantmathèse.A

Claire, Julie, Antoine et Mohammad, mes ompagnons de ordée à l'ICP. J'espère

vous retrouver bientt. Meri Anthony, mon olloqui n'a jamais gueulé alors que

tuas eu plus d'une oasionde le faire.Meri Jérémy pour avoir parfois délaisséta

doue pour faire des parties de billard.Claire, le pardonneras-tu? Meri Annemie,

tes mails, ta bonne humeur et ta présene sans faille ont été d'une fraîheur très

appréiable.MeriClaire pour touteses disussionspendantlesformationsobliga-

toires etpour tout e que tuasfait pour moi. Meri Julie,ta gentillesse, ton rire et

tesgâteauxonttoujourségayéplus quelapauseafé.MeriAntoinepoures délires

de n de rédation. Meri Guillaume, on aura bien rigolé pendant les pauses afé.

Meri Virginie, ta fraîheur et ton attention m'auront bien aidé. Meri pour tout

Nino,oupluttMonsieurMedves (j'aifaillirâté masortie!).MeriPopopour tes

(6)

remarques aussi spontanées qu'imprévisibles. Meri David pour tout à la fois nos

remarques sur les enseignements etes soirées en onférene. Enn un grand meri

à tous lesmembres de l'ICPet du LIS.

Je tiens aussi à remerier Alex, Mourroun, Soni, Cédri et Gizmo pour es

esapades parisiennes.

Meri àtoute labande. DjeyetClara pour m'avoirprésenté. Sab, Amande, Cé-

ile,Serge,Djouls,Florent,Tons,Robpouressortiesskisouessoiréesralettes et

tartiettes.Meri Clohettepourtes histoireshors duommun.Meriserruria, toi

la danseuse slave,pour nos disussions. Maisil mefautmaintenant tedire lavérité

sur ton arbregénéalogiquesientique :nonFantn'estpas ton grand-pèreetChiba

n'est pas ton arrière grand-père. Voila'est fait, 'est sûrement dur etviolent mais

'était néessaire. De toute façon j'hte déteste. Meri ma maman préférée, ton

petit snorky a maintenant ni. Meri GrG mon grand frèrepour tout e que l'on

nous aattribué àtord ouàraison. Meri auxmembres du omitéde séletionde la

Cherh'Aquin'aurapassurvéu plusd'unesaison.Enn,un grandmeriauxolo-

atairesdubureau523pourlesbonbons,vousm'avezsauvéd'atroeshypoglyémies.

Pour avoirun exemplaireunique deette thèse,réezvospropresremeriements

en omplétant laliste i-dessous.

Je voudrais remerier pour sa ontribution hors norme sans toi

ette thèse n'auraitpas été intéressante.

Meri àtoi , mon père spirituel /ma mère spirituelle 1

.

Je te remerie pour ta bonne humeur,tes blagues plus drles les

unes que lesautres, tu m'aurasfait rire même dans lesmoments diiles.

Meri pour ton immense ulture et tes disussions d'un niveau

intelletuelqui m'étaient jusqu'àprésent inonnues.

1

(7)

(8)

(9)

Notations mathématiques v

Abréviations vii

Introdution 1

I État de l'art 5

1 Parole audiovisuelle 7

1.1 La parole : un mélangeaudiovisuel . . . 7

1.2 Information vidéoutile . . . 8

1.3 Redondane et omplémentarité de la paroleaudiovisuelle . . . 9

1.3.1 Redondane . . . 10

1.3.2 Complémentarité . . . 10

1.4 Bi-modalitéde laparole en traitement du signal . . . 12

1.4.1 Reonnaissane automatique de la parole . . . 12

1.4.2 Débruitageet séparation de soures audiovisuelles . . . 13

1.4.3 Compressionaudiovisuelle . . . 13

1.5 Conlusion . . . 14

2 Séparation aveugle de soures 15 2.1 Présentation générale de la séparation de soures . . . 16

2.1.1 Formulationmathématique. . . 16

2.1.2 Séparabilitéet indéterminations . . . 17

2.2 Mélanges linéaires instantanés . . . 19

2.2.2 Prinipe de séparation . . . 20

2.2.3 Séparationpar mesuredirete de l'indépendane . . . 25

2.2.4 Séparationpar statistiqued'ordre supérieur . . . 29

2.2.5 Séparationsemi-aveugle . . . 33

2.3 Mélanges onvolutifs . . . 36

2.3.2 Séparationtemporelle . . . 39

2.3.3 Séparationfréquentielle . . . 40

2.4 Séparation de souresde paroleaudiovisuelle . . . 43

2.5 Conlusion . . . 45

(10)

II Modélisation de la multimodalité de la parole 47

3 Modèle audiovisuel de la parole 49

3.1 Paramètres audiovisuels . . . 50

3.1.1 Paramètres visuels . . . 50

3.1.2 Paramètres audio . . . 51

3.2 D'un modèle audiovisuelgénéral... . . 53

3.3 ...vers un modèle audiovisuel spéique . . . 55

3.3.1 Modélisationstatistiqued'un seul son de parole . . . 55

3.3.2 Modélisationstatistiquede laparole ontinue . . . 61

3.3.3 Modélisationaudiovisuelle de la parole ontinue . . . 61

3.3.4 Apprentissage des paramètres du modèle audiovisuel . . . 62

3.4 Corpus . . . 63

3.5 Expérimentations . . . 64

3.5.1 Modélisationaudio . . . 64

3.5.2 Modélisationaudiovisuelle . . . 68

3.6 En résumé . . . 71

4 La parole : un signal parimonieux 73 4.1 Prinipe de la détetion audio d'ativitévoale . . . 73

4.2 Déteteur audiovisuel d'ativitévoale . . . 74

4.2.1 Prinipede ladétetion audiovisuelle d'ativitévoale . . . . 74

4.2.2 Fateur d'amplitude . . . 76

4.2.3 Mise àjour des paramètres du silene . . . 79

4.2.4 Intégration temporelle . . . 81

4.3 Déteteur visuelde silene . . . 82

4.3.1 Prinipede ladétetion visuelle d'ativité voale . . . 83

4.3.2 Déteteur visueld'ativité voale sur images naturelles . . . . 86

4.4 Corpus . . . 90

4.4.1 Corpus Grenoble . . . 90

4.4.2 Corpus Cardi . . . 91

4.5 Expérimentations . . . 93

4.5.1 Déteteur audiovisueld'ativitévoale . . . 93

4.5.2 Déteteur visuelde silene . . . 99

4.6 En résumé . . . 103

III Extration de soure de parole audiovisuelle 105 5 Extration par la résolution des indéterminations 109 5.1 Position du problème . . . 109

5.1.1 Indéterminations . . . 109

5.1.2 Notations . . . 110

5.2 De la ohérene audiovisuelle... . . 112

5.2.1 Indéterminationde permutation . . . 112

5.2.2 Estimationdes fateursd'amplitude. . . 116

5.2.3 Algorithmenal . . . 119

(11)

5.3 ...à laparimonie de la parole. . . 120

5.4 Résultats expérimentaux . . . 122

5.4.1 Extrationpar la ohérene audiovisuelle . . . 122

5.4.2 Extrationpar la parimonie. . . 128

5.5 Conlusion . . . 133

6 Extration direte par la parimonie 137 6.1 Cas des mélanges instantanés omplexes . . . 137

6.2 Cas des mélanges onvolutifsomplexes . . . 142

6.3 Résultats expérimentaux . . . 145

6.3.1 Cas des mélanges instantanés . . . 145

6.3.2 Cas des mélanges onvolutifs. . . 147

6.4 Conlusion . . . 151

Conlusion générale et perspetives 153 Annexes 155 A Distribution de LogRayleigh 157 A.1 Distribution de LogRayleighirulaire . . . 157

A.2 Conséquenes de lanon-irularité. . . 160

A.2.1 Distributionde LogRayleighnon-irulaire . . . 160

A.2.2 Caluldu paramètre de loalisationoptimal . . . 164

A.3 Conditionnement numériquedes paramètres . . . 166

B Algorithme EM 169 B.1 Prinipede l'algorithmeEM . . . 169

B.1.1 AlgorithmeEM standard . . . 170

B.1.2 AlgorithmeEM pénalisé . . . 172

B.2 Algorithme EM pour le modèle audiovisuel . . . 173

B.2.1 Miseà jourdes poids . . . 174

B.2.2 Miseà jourdes paramètres vidéo . . . 175

B.2.3 Miseà jourdes paramètres audio . . . 176

Liste des gures 179

Liste des tableaux 181

Bibliographie 183

(12)

(13)

Fontions et opérateurs

H ( · )

^Proessus ^de ^mélange

G ( · )

^Proessus ^de ^séparation

det( · )

Déterminant d'une matrie

ln( · )

^Logarithme ^népérien ^(ou ^naturel)

log( · )

^Logarithme ^déimal

TF( · )

^Opérateur transformée de Fourier

( · ) ^′

^Dérivation

(.) c

^Estimée

| · |

^Module ^pour ^les^salaires

| · |

^Module ^omposante^par ^omposante^pour ^les^veteurs

| · |

^Cardinal^pour ^un ^ensemble

( · ) ^∗

Conjugaison

( · ) ^T

^Transposition

( · ) ⁺

^Transposition onjugaison

( · ) ^†

Pseudo-inverse d'une matrieretangulaire

( · ) ∗ ( · )

^Produit ^de ^onvolution

( · ) ◦ ( · )

Composition

( · ) ⊕ ( · )

^Somme ^direte^de ^deux ^espaes

( · ) ⊕ ^⊥ ( · )

^Somme ^direteorthogonale de deux espaes

(14)

Variable aléatoire

Pr[ · ]

Probabilitéd'un événement

p[ · ]

^Densité ^de probabilitéd'une variable aléatoire

P[ · ]

^F^ontion^de répartition d'unevariablealéatoire

Ψ[ · ]

^F^ontion^sore ^d'une ^variable ^aléatoire

E[ · ]

^Espérane mathématique

Var[ · ]

^Varianemathématique

H[ · ]

^Entropie ^de ^Shannon

I[ · ]

Informationmutuelle

KL[ ·k· ]

^Divergene ^de Kullbak-Leibler

Φ[ · ]

^F^ontion^de ^ontraste

Φ ^◦ [ · ]

^Fôntion^de ôntraste ôrthogonal

N (µ, Γ)

^Loi^normale ^de ^veteur^moyenne

µ

^et^de ^matrie^de ^ovariane

Γ

Ensembles et espaes

R

Ensembledes réels

C

Ensembledes omplexes

{·} ⁱ

^Ensemble^formé^des ^éléments^dépendants ^de

i

^pour ^tous ^les

i U(n)

^Groupe^des ^matries^unitaires^de ^taille

(n × n)

D(n)

^Ensemble^des ^matries ^diagonales ^de ^taille

n × n

Grandeurs salaires

N f

^Nombre ^de ^fréquenes ^de ^alul ^des transformées de Fourier

N _s

^Nombre ^de ^soures

N o

^Nombre d'observations

Signaux et grandeurs vetorielles

y(t)

^Veteur ^olonne^de ^signaux ^temporel

y i (t) i

^ème ^omposante^du ^veteur

y(t)

Grandeurs matriielles

A

^Matrie

A i,j (i, j)

^ème ^élément ^de ^la^matrie

A I n

^Matrie ^identité ^de ^taille

(n × n)

Π

^Matrie ^de permutationdont latailleest à préiser

Λ( · )

^Matrie ^diagonale^de ^distorsion

(15)

Nous donnons entre parenthèses l'abréviation anglaisesi elleest diérente.

ACI Analyse en omposantes indépendantes (ICA)

ACP Analyse en omposantes prinipales (PCA)

COR aratéristiquesopérationnelles de réeption

dB Déibel

EASI Algorithmeéquivariant adaptatif(Equivariant Adaptative Separa-

tion via Independene)

ECG Eletroardiogramme

iid indépendantet identiquementdistribué

LP Prédition linéaire(Linear Predition)

MMG Modèle multi-gaussien (GMM)

MMLR Modèle multi-LogRayleigh(LRMM)

RAP Reonnaissane automatique de laparole (ASR)

RI Réponse impulsionelle(IR)

RSB Rapportsignal sur bruit (SNR)

RSI Rapportsignal sur interférene (SIR)

SAS Séparation aveugle de soure (BSS)

SOBI Identiation aveugle au seond ordre (Seond Order Blind

Identiation)

TCD Transforméeen osinusdisrète(DCT)

TF Transforméede Fourier (FT)

TFCT Transforméede Fourier àourt terme (STFT)

TFD Transforméede Fourier disrète(DFT)

(16)

(17)

Nevousêtes-vousjamaisdemandépourquoinousavonstantdemalàentendree

queditleonduteurd'unevoiturelorsquenous sommesàl'arrière,surtoutsinotre

environnement devient très bruyant? Nous savons que notre erveau est apable

d'identier etde trier lessons qu'ilperçoit: ilsépare les diérentes soures sonores

etessaied'extraire ellequi nousintéresse. Cependant,lorsque lebruitenvironnant

devient trop fort, ette faulté n'est plus susante. Alors omment expliquer que

danslesmêmesonditionssonoresnousomprenonstrèsbienequeditnotrevoisin?

La réponse nous vient du monde des sienes ognitives. Nous sommes dotés d'une

faulté surprenante, dont pour la plupart d'entre nous ne sommes pas onsients.

Lorsquenousparlonsàquelqu'unetquenousleregardons,notreerveaufusionnee

qu'ilentend ave e qu'il voit,en partiulier lemouvementdes artiulateursvisibles

de la parole,pour nous aider àmieux omprendre : laparole est multimodale.

Formalisée dans le milieu des années 80, par Ch. Jutten, J. Hérault et B. Ans,

alors qu'ils travaillaient sur la apaité du erveau à déoder les informations de

vitesse et de position lors d'un mouvement, la séparation de soures est devenue

un domaineattratif du traitement du signal. Elle onsisteà retrouver des soures

inonnues à partir d'observations qui sont des mélanges de elles-i en exploitant

le moins d'information a priori possible. La séparation de soures, qui peut aussi

être vue omme une généralisation du problème de l'extration d'un signal utile

dansuneobservation bruitée,adenombreuses appliationstantdansledomainedu

traitementdesimages,dessignauxbiomédiaux,destéléommuniationsoudutrai-

tement de laparole. En partiulier, le problème qui onsiste à extraire un louteur

parmiunmélangedonnés'appellelaoktailparty.Lorsquelaséparationde soures

est abordée en faisantl'unique hypothèsed'indépendane mutuelledes soures, elle

s'appuie sur l'analyse en omposanteindépendante(ACI)dont lesbases théoriques

furentposéesaudébutdes années90etquireherhedanslesobservationsàséparer

les omposantes indépendantes entre elles. Mais e n'est pas la seule façon de ré-

soudreleproblème de séparation de soures: ilest possible d'estimer lessouresen

faisantparexemplel'hypothèsedeleurparimoniedansuneertainereprésentation,

equisupposealorsquehaqueomposantedesobservationsestprinipalementdue

àune seule soure ative.Le problème de séparation de souress'apparente alors à

aeter haque omposanteà labonne soure.

Dansette thèse,onpropose uneapprohe originaledu problème del'extration

d'un louteur dans un mélangede plusieurssoures. Cette approhe onsisteà uti-

liserl'informationvisuellerelativeàe louteur. Cetteétudefaitsuite àun premier

travail réalisé par D. Sodoyer dans le adre de mélanges additifs instantanés. Dans

ettethèse,onétudieleasplusdiileetplusréalistedesmélangesonvolutifsdé-

(18)

terminés. Commeonle verra dans ette étude, e adre néessite le développement

de nouvelles tehniques etdes algorithmes assoiés pour faire faeà la plus grande

omplexité du adre envisagé.

Notre ambition dans e travail n'est ertes pas de vouloir imiter le fontionne-

ment de notre erveau, mais de nous inspirerde ses faultés hors du ommun pour

proposerdansettethèsedenouveauxalgorithmesdeséparationdesouresapables

d'exploiter la ohérene entre e que nous entendons et e que nous voyons. Ainsi,

notre travail de thèse porte à la fois sur la modélisation de la multimodalité de la

parole etsur son utilisationomme une aide àla séparation de soures de parole.

Organisation du manusrit

Ce manusrit est omposé de trois parties. La première partie est pour nous

l'oasionde faireun brefétatde l'art des deux domainesabordésdans ettethèse.

La seonde partie est onsarée à lamodélisation de la bi-modalité de la paroleen

vue de son appliation pour l'extration de soure de parole audiovisuelle qui est

abordée dans la troisièmepartie.

Plus préisément,lapremière partieest omposée de deuxhapitres. Lepremier

hapitreest onsaré à la multimodalitéde la parole. Nousrappelons que laparole

n'estpasqu'auditive:elleestaussivisuelleenesensqu'ilexisteuneforteohérene

entre le son prononé et les mouvements des artiulateurs visibles, en partiulier

elui des lèvres. Nous nissons e hapitre par un bref aperçu de l'utilisation de la

bi-modalité de la parole dans les tehniques de traitement du signal appliqué à la

parole (par exemple débruitage,ompression).

Le deuxième hapitre est onsaré à l'introdution à la séparation de soures.

Nous abordonsdans un premiertemps laséparation de soures dans leas des mé-

langes linéaires instantanés en présentant quelques-uns des prinipaux algorithmes

fondés soit sur une mesure direte de l'indépendane, soit sur une approximation

de l'indépendane par lesstatistiquesd'ordresupérieur.Ensuite,nous présentonsla

séparation de soures dans des mélanges onvolutifs soit dans le domainetemporel

soit dans ledomainefréquentiel.

Ladeuxième partie de e manusrit porte sur la modélisationde lamultimoda-

litéde laparole.Danslehapitre3,nousproposonsun modèlestatistiqueaudioqui

dérit eaement un son unique de la parole et que nous appelons modèle à loi

LogRayleigh. Ce noyau sert de base pour onstruire un modèle audio multi-noyaux

apable de modéliser la parole ontinue. Finalement,nous étendons e modèle pu-

rement audio à un modèle audiovisuel liant eaement des paramètres spetraux

auditifs àlaformedes lèvres du louteurpour dela paroleontinue. Unesérie d'ex-

périmentations montre que notre modélisation multi-LogRayleighest plus eae

qu'un modèle général à base de noyaux gaussiens pour aratériser les oeients

audio.

Dans le hapitre 4, nous utilisons le modèle audiovisuel du hapitre préédent

omme base d'un nouveau déteteur d'ativité voale audiovisuel statistique. En-

suite, nous introduisons la notion de détetion de silene (i.e. non ativité voale)

visuelle reposantsur l'hypothèse du mouvement des lèvres pendant laparole :pen-

dantquenousparlons,noslèvresbougenttandisquelorsquenoussommessilenieux,

(19)

La dernière partie de e manusrit est onsarée à l'utilisation de la modélisa-

tion de la bi-modalité de la parole pour extraire une soure partiulière de parole

de mélanges de type onvolutifs. Dans le hapitre 5, nous exploitons tout d'abord

le modèle audiovisuel du hapitre 3 pour résoudre le problème des permutations,

renontrées à haque fréquene, inhérent à tout système de séparation fréquentielle

fondée sur l'indépendane. Ensuite,la détetion des momentsde silenepar lamo-

dalité visuelle seule permet de résoudre e même problème des permutations grâe

àun algorithme plus simple.

Dans le dernier hapitre de notre étude, nous proposons une nouvelle méthode

d'ordre deux pour l'extration d'une soure de parole fondée sur la détetion des

momentsdesileneparlamodalitévisuelle.Pendantlesmomentsdesilenedétetés,

il est possible de déterminer dans les mélanges la diretion de la soure absente

permettantainsi d'extraireette soure en dehors de es momentsde silene.

Pourterminer,troisannexesomplètentemanusrit:lapremièrefournitquelques

élémentsonernantlesstatistiquesd'ordresupérieur.Laseondedétaillelesaluls

del'étudedelaloiLogRayleighquenousproposonsauhapitre3.Danslatroisième,

nousdérivonsl'algorithmeEMde façonàobtenirleséquationsd'apprentissagedes

diérents modèles statistiquesutilisés.

(20)

(21)

État de l'art

(22)

(23)

Parole audiovisuelle

Armer quela parolene serait pas qu'auditivemais aussi visuelle peut sembler

urieux. Pour illustrere phénomène, onsidérons une situationque le leteuraura

ertainement déjà véu. Vous êtes dans un environnement bruyant (une gare par

exemple)et vous disutez ave un ami. Il est très probable qu'instintivementvous

regardiez attentivement votre interlouteur pour mieux omprendre e qu'il vous

raonte. Sans vous en rendre ompte, vous êtes en train de lire sur ses lèvres pour

vous aider à entendre e qu'ilvous dit. Pour résumer ette situation, nous pouvons

reprendre laformulede Bernstein etBenoît [23℄ :

Pour perevoir laparole, plusieurssens valentmieux qu'un.

Dans e hapitre, nous allons brièvement introduire la notion de bimodalité de

la parole. Nous verrons ensuite quel type d'information visuelle est utile avant de

montrerque laparole audiovisuelle est àla foisredondante etomplémentaire.En-

n, nous présenterons suintement quelques-unes des appliations possibles de la

bimodalitéde laparole en traitementdu signal.

1.1 La parole : un mélange audiovisuel

Pour omprendre que la parole n'est pas qu'auditive, mais que l'information

visuelle joue également un grand rle, nous allons nous intéresser aux personnes

malentendantes ousourdes,hezquil'aptitude àentendreest réduiteounulle.Tout

le monde sait qu'elles peuvent, en partie, lire sur les lèvres pour les aider à om-

prendre une disussion. On pourrait penser qu'elles ont développé ette aptitude

pour ompenser leur défaut d'audition, mais e ne sont pourtant pas les seules

personnes apables de leture labiale : la grande majorité des personnes voyantes

a développé ette faulté de façon instintive omme l'ont montré les travaux de

Sumby et Pollak [125℄ ou Erber [52℄. Ces études, suivies par d'autres omme par

exemple [20, 113℄, ontmontré le gain apporté par lavision du louteurà l'audition

de elui-ipourl'intelligibilitévis-à-visdel'auditionseule.Parexemple,lestravaux

d'Erber [52℄etde Benoît[20℄montrent queletauxde reonnaissane orrete de la

parole audiovisuelle est supérieure à elui de la parole audio seule (f. gure 1.1).

Cette supériorité est d'autant plus grande que le signal aoustique est bruité (i.e.

pourdes rapports signauxsurbruit(RSB)petits).QuandleRSBdevienttrèsfaible

(i.e.quelesignal audion'est plusaudible)alorsles performanesde reonnaissane

(24)

(a) (b)

Fig. 1.1 Inuene de la vision dans la reonnaissane de la parole. Taux de re-

onnaissaneorreteauditiveetaudiovisuellede laparoleaoustiquementbruitée:

orpus de 250 mots en anglais (gure 1.1(a)) [52℄ et 18 logatomes en français (-

gure 1.1(b)) [20℄.

orrete des sonstendent vers une valeur orrespondantàelles delaleturelabiale

seule.

De plus, pour illustrer enore une fois l'inuene de la vision du visage d'un

louteur sur e que nous entendons, intéressons-nous à l'eet MGurk [87℄. Cette

illusion audiovisuelle onsiste à superposer un stimulus [ba℄ audio à un stimulus

[ga℄ visuel. Dans es onditions, le onit entre l'audio et la vidéo aboutit à la

pereption d'un [da℄ (l'intensité de l'eet dépendant tout de même du sujet). Bien

queettesituationtendeàmontrerquel'informationvisuelleinuesurlapereption

auditive, ellepeut n'avoir auun eet ommedans leas de lmdoublé : dans une

telle situation la diérene entre l'audio et la vidéo est telle, que le spetateur ne

herhe plus, même instintivement, àintégrerles deux modalités.

Finalement, la vision du visage du louteur permet non seulement de mieux

omprendre mais aussi de mieux déteter la parole dans le bruit [61, 79, 22℄ : le

seuil d'audition est abaissé lorsque les sujets voient le visage du louteur. En eet,

la vision renfore lesindies aoustiques pertinents et donne l'impression de mieux

entendre lapersonne quiparle. C'estette idée que lamodalitévisuellede laparole

peut être utilepourmieux traiterlesignalaudioquenousallonsexploiterdansnotre

étude.

1.2 Information vidéo utile

Maintenant que nous savons que la vision du visage du louteur inue et peut

aidernotreaudition,demandons-nousquellepartiedel'informationvisuelleexploite-

t-on vraiment?

Unepremièreidée intuitiveest de dire queseulesleslèvres sontutiles. Maisei

estdémentiparl'étudedeBenoîtetal.[21℄.Ilsmontrent,paruneétudeomparative

de l'intelligibilité, que les lèvres du louteur ontiennent environ les deux tiers de

(25)

Fig. 1.2 Étude omparative de l'information visuelle. Taux de reonnaissane

orrete en présene de diérentsstimuli visuels [21℄.

onlurequel'informationvisuellen'estpas seulementontenue dans lemouvement

des lèvres mais que d'autres informations sont utiles pour la ompréhension de la

parole.

Ainsi, pour produire les sons, de nombreuses parties de notre onduit voal,

visibles (par exemple la forme des lèvres ou la position de la mâhoire) et non

visibles (par exemplela position de lalangue), entrent en ÷uvre et sont ontrlées.

Il est possible de distinguer visuellement un [i℄ d'un [a℄ oubien un [i℄d'un [y℄ alors

qu'ilest impossibledefaireladiérenevisuelleentre un[y℄etun [u℄.Eneet,dans

lesdeux premiers exemples,laformedes lèvres est diérentepour haun des sons,

diérenede positiondelamâhoireetdiérened'ouvertureetde protrusion,alors

que pour la dernière alternative, seule hange la position de la langue ii invisible,

la forme des lèvres restant quant à elle identique. Tout omme les phonèmes sont

des sons disernables aoustiquement,les visèmes ontété dénis ommedes formes

visuelles disernables [123℄.

En onsidérant les résultats préédents, nous pouvons onlure que les lèvres

du louteur véhiulent la majeure partie utile pour la parole de l'information vi-

suelle.Ainsidansnotreétude,lesparamètresvidéoquenous exploiteronsserontdes

paramètres relatifsàla formedes lèvres.

1.3 Redondane et omplémentarité de la parole

audiovisuelle

Nousvenonsdevoirqu'unegrandepartiedel'informationvisuellequenousutili-

sonspourlaparoleaudiovisuelleestontenuedansleslèvresdulouteur.Intéressons-

(26)

nousmaintenantauxrelationsexistantentre esparamètresvidéoetdesparamètres

audio.

1.3.1 Redondane

Intuitivement, nous pouvons prédire qu'il doit y avoir une ohérene entre les

mouvements du visage du louteur, etplus partiulièrementeux des ses lèvres, et

le son émis. En eet, es deux phénomènes sont produits par un seul et même sys-

tème : lesartiulateurs. Ainsi,[137℄ a pour but de montrer qu'ilexiste une relation

entre laprodutionetlapereptionmultimodaledelaparole.Pourela, lesauteurs

étudient les relations linéaires qui peuvent exister entre le visage du louteur (18

marqueurs plaés sur la fae), son onduit voal (4 apteurs plaés sur la langue)

et le son produit (oeients LSP line spetrum pairs et la puissane du signal).

Leurs études montrent qu'une grande partie de la variane totale de la fae d'un

louteurpeut êtreprédite linéairementàpartir de son onduitvoal(

∼ 90%

^),^mais

que laprédition inverse est aussi vériée (

∼ 80%

^). ^De ^même, ^ils ^montrent ^qu'une

partie(

∼ 75%

⁾^de l'enveloppespetraledessons produitspeutêtre préditelinéaire- mentàpartirduvisage dulouteur.Cependant,es résultatssontàinterpréterave

préaution. En eet, [10℄ montre que si l'on utilise laseule forme des lèvres omme

information visuelle, les résultats de la prédition linéaire de l'enveloppe spetrale

du son produit hutent (

∼ 50%

⁾ ^mais ^qu'ils ^peuvent ^être ^améliorés ⁽

∼ 60%

⁾ ^en

hoisissant une prédition non-linéaire. Tous es travaux montrent ependant qu'il

existe une ertaine ohérene entre la formedes lèvres etles sons produits.

1.3.2 Complémentarité

Laohéreneentre lesonetl'imagen'estpas totale.Eneet,ommenousallons

le voir, il y a également une ertaine omplémentarité entre es deux modalités.

Sans l'avoirmentionnéeexpliitement,nousavons déjàabordé ettenotionde om-

plémentarité. En eet, au paragraphe 1.1 nous avons vu que la multimodalité de

la parole permettait d'améliorer les performanes de reonnaissane par rapport à

la seule modalité auditive. Cette propriété est également illustrée dans [126℄ grâe

aux arbres de onfusions (f. gures 1.3 et 1.4). Cela onsiste à présenter des sti-

muli à des sujets adultes et bien entendants puis de lassier les onfusions faites

entre esstimulienfontiondu niveaude bruitenvironnant.L'analysede esarbres

de onfusion montre que deux onsonnes voisines auditivement,[k℄ et [p℄ ou [m℄ et

[n℄ par exemple, sont bien distintes visuellement. Cette omplémentarité pour les

onsonnes aétémontrée ensuitepourlesvoyelles [113℄.Lagure1.5traduitgéomé-

triquement la distane pereptive auditive et visuelle entre les voyelles du français.

Ces shémas montrent que des voyelles prohes auditivement sont éloignées visuel-

lement.

Finalement, la redondane et laomplémentarité audiovisuelles de la parole ne

sont que partielles et les relations entre les paramètres vidéo et audio ne peuvent

pas être envisagées de façon linéairear omplexes.

(27)

Fig. 1.3 Arbres de onfusion auditive des onsonnes en fontion du RSB (en

dB) [126℄.

Fig.1.4Arbresde onfusionvisuelledesonsonnes. L'éhelle vertialeorrespond

auniveau de regroupement[126℄.

(28)

(a) (b)

Fig. 1.5 Shémas de la géométrie auditive (gure 1.5(a)) et visuelle (-

gure 1.5(b)) [113℄.

1.4 Bi-modalité de la parole en traitement du signal

Comme nous venons de le voir, la parole est (au moins) bimodale ar audiovi-

suelle. Cettepropriétéintrinsèquede laparoleaété miseàprot dansdes systèmes

de traitement du signal de façon à en améliorer les performanes. Nous dérivons

brièvement les exemples de la reonnaissane automatique de la parole, du débrui-

tage de signaux oude laompression.

1.4.1 Reonnaissane automatique de la parole

Unepremièreappliationen traitementdu signalàavoirreoursàlabimodalité

de laparoleestelle delareonnaissane automatiquedelaparole(RAP).Eneet,

omme nous l'avons vu au paragraphe 1.1, l'emploi de la modalité visuelle permet

d'augmenterlessoresdereonnaissanepourlesindividus.Ilaéténatureld'essayer

dereproduireetteaméliorationpourlesproédésautomatiques.Ainsi,denombreux

algorithmes ont été proposés depuis les premiers travaux de Petajan en 1984 [94℄

(f. [104℄pour une revue de la littérature).Ilsont tous lemêmeshéma de prinipe

(f. gure 1.6) : extrationdes paramètresaudio et vidéo, intégration audiovisuelle

de es données puis le système de reonnaissane à proprement parler. La façon

de proéderpour l'intégration audiovisuelledière d'unalgorithme àl'autre. Ainsi,

ertains utilisentune fusiondes paramètres audioet vidéoutilisés [129℄, tandisque

d'autres vont plutt intégrer les déisions obtenues par deux systèmes unimodaux

(audio etvidéo séparément) [49℄ pour reonnaître la paroleaudiovisuelle.

(29)

Fig.1.6 Shéma de prinipede lareonnaissane automatique de laparole.

1.4.2 Débruitage et séparation de soures audiovisuelles

Une autre appliation possible est elle du débruitage ou réhaussement de la

parole. Elle onsiste à estimer le signal de parole originel

s(t)

^à ^partir ^d'une ^ob-

servation bruitée

x(t)

^de ^elui-i ^:

x(t) = s(t) + b(t)

^, ^où

b(t)

^est ^le ^bruit. ^Quand

plusieurs apteurs sont disponibles, le problème de réhaussement de parole peut

s'apparenter à elui de la séparation de soures (f. hapitre 2 pour l'étude de la

séparation de soures). Cette appliationde lamultimodalitéde laparoleoupant

une plae partiulière dans notre étude, nous la développerons plus en détails au

paragraphe2.4.

Puisqu'il existe une ohérene entre le son et l'imaged'une part etque, d'autre

part, les aratéristiques sonores peuvent être partiellement prédites à partir de

l'image, es systèmes de débruitage vont exploiter ette opportunité pour estimer

des ltres de réhaussement [59℄ par une prédition linéaire des paramètres audio à

partir des paramètres vidéo:

a(t) = M 1

v(t)

(1.1)

où

a (t)

^et

v (t)

^sont ^les^veteurs ^des^paramètres ^audio^et^vidéorespetivement et

M

estlamatriede prédition.Cetteidéefutensuiterepriseenutilisantdesoutilsplus

sophistiqués en pré-traitementd'un systèmede reonnaissane de laparole[45, 60℄.

Réemment, e prinipefut étendu àelui de laséparation de souresde paroleau-

diovisuelle [118, 134℄. L'informationvisuelle peut alors être utilisée autravers d'un

modèle statistique audiovisuel

p AV (a(t), v(t))

^reliant ^des ^paramètres ^audio

a(t)

^à

des paramètres vidéo

v(t)

^[118℄. ^Le ^prinipe ônsiste âlors ^à^retrouver ên ^sortie ^du

systèmede séparationleson leplusohérentave lavidéoen maximisantettepro-

babilité audiovisuelle. Ou alors, l'information visuelle est utilisée pour ontraindre

leproblème de séparation [134℄.

1.4.3 Compression audiovisuelle

La dernière appliation dont nous parlerons est elle du odage de la parole

audiovisuelle : elle onsiste à oder onjointement les signaux audio et vidéo [58℄

alors queplus lassiquement lesdeux modalitésde laparole lesont séparément. Le

but est de ompresserde façonplus eae lessignaux pour améliorerlesdébitsde

(30)

transmission en visiophonie par exemple. Cette appliation exploite la redondane

de laparole de façonàne oder qu'une seule foisune informationprésenteà lafois

dans l'audio etla vidéo. Cette appliation est un peu partiulière ar ellepeut être

vue omme faisant le ontraire des autres : la redondane ou la omplémentarité

n'est pas vue ii ommeun atout mais omme une nuisane que l'on herhe sinon

à supprimer tout du moins à minimiser.

1.5 Conlusion

Ce hapitre nous a permis d'avoir un rapide aperçu de lanotion de multimoda-

lité de la parole depuis la pereption jusqu'à son intégration dans des appliations

du traitementdu signalquiexploitentredondaneetomplémentaritéentre lesmo-

dalités auditive et visuelle. Nous pouvons don onlure e hapitre en disant que

la parole n'est pas qu'auditiveet quela modalité visuelle nous permettra de mieux

traiter lessignaux aoustiques.

(31)

Séparation aveugle de soures

Laséparation desoure estun domainerelativementréent dutraitementdu si-

gnal.Introduitedanslemilieudes années80par Ans,HéraultetJutten[7,66℄alors

qu'ilstravaillaient sur un problème biologique, la séparation de soure est très vite

devenue un domaineattratif du traitementdu signal (.f. [77℄ pour des onsidéra-

tions historiques).Le problèmeonsiste àretrouver des signauxutiles (par exemple

signaux de parole oudes signaux émis par des téléphones portables), aussi appelés

soures, àpartirde mélanges,aussi appelés observations,de eux-i. Généralement,

les observations sont des signaux obtenus à partir d'un ensemble de apteurs (mi-

rophonesouantennespar exemple).Unastypiqueest eluidelaoktail party où

lessoures sontdes louteurs etles observations lessignaux enregistrés par des mi-

rophones(.f. gure2.1).Dansun ontexte aveugle 1

,auune onnaissanea priori

n'estdisponiblenisurlessoures,nisur leproessusde mélange (i.e.leontextedes

observations), ette situation est alors appelée séparation aveugle de soure (SAS).

Pour résoudre e problème, une solution possible onsiste à ne faire qu'une seule

hypothèse fondamentale :l'indépendane statistique mutuelledes soures.

Lesuèsde laséparationde souress'expliqueparlepeu d'informationapriori

néessaire pour résoudre e problème etpar levaste hamp d'appliationspossibles

parexempleletraitementdesignauxbiomédiaux (ave entre autresl'extrationde

signaux életroardiogrammes d'un f÷tus [43, 140℄, ou la suppression des artefats

pourl'analysedessignauxéletroenéphalogrammesduerveau [78℄),de signauxvi-

bratoiresdemahinestournantes[25℄,designauxpourlasurveillaned'aéroport[33℄,

designauxde téléommuniation[131℄,designauxaoustiques [130,6℄pourneiter

queelles-là (.f. [69, 5℄pour d'autres appliations).

Danse hapitre,nousprésentons de façonformelleleproblèmede laséparation

de souresavantde voirlesonditions de séparabilitéetlesindéterminationsintrin-

sèquesauproblème.Nousdétailleronsensuitedeux situationstypiques demélanges,

les mélanges instantanés et onvolutifs, en présentant pour haune des situations

lesprinipesde séparation.

1

Sansauuneinformationapriori,nisurlessouresnisurleproessusdemélange,eproblème

n'admetpasdesolution.

(32)

Fig. 2.1 Exemplede laoktail party ave deux soureset deux apteurs.

2.1 Présentation générale de la séparation de soures

Commenousl'avonsbrièvementintroduiti-dessus, leproblèmede laséparation

aveugle de soure onsiste à retrouver, ave le moins de onnaissane a priori, des

signaux utiles qui ont été mélangés. Formalisonsmaintenant etteidée.

2.1.1 Formulation mathématique

Supposons que nous ayons à notre disposition

N o

observations, notées

x(t) = [x 1 (t), · · · , x N o (t)] ^T

^, ^de

N s

^soures, ^notées

s(t) = [s 1 (t), · · · , s N s (t)] ^T

^, ^obtenues ^à

partir d'une fontion de mélange

H ( · )

x (t) = H ( s (t)).

^(2.1)

Dans le as général,

H ( · )

^, ^qui êst ûne âppliation ^de

E N s

^, ^espae ^des ^soures ^de

dimension

N s

^, ^dans

E N o

^, ^espae ^des observations de dimension

N o

^, ^peut ^être ^non-

linéaireetàmémoire(

H : E ^N s → E ^N o

^).^Diverses^situations^peuvent^intervenir^suivant

le nombre

N o

^d'observ^ations relativementau nombre

N s

^de ^soures^:

moins d'observations que de soures

(N o < N s )

^, ^on ^parle ^alors ^de ^mélange

sous-déterminé,

autant d'observationsquede soures

(N o = N s )

^,^le^mélange^est^dit^déterminé,

plus d'observations que de soures

(N o > N s )

^, ^le ^mélange ^est ^qualié ^de ^sur-

déterminé.

Ces trois as supposent des onditions sur

H ( · )

^. ^De ^plus ^si ^le^proessus ^de ^mélange

H ( · )

^est ^linéaire, ^nous ^le ^qualierons ^assez naturellementde mélange linéaire etde mélange non linéaire dans le as ontraire.

Lebut delaSASétantderetrouverlessouresàpartiruniquementdesobserva-

tions

x(t)

êt ên êxploitant l'hypothèse d'indépendane mutuelle des soures 2

, il est

2

Éventuellementd'autresinformationsapriori surlessouresouleproessusdemélangepour-

(33)

Fig. 2.2 Prinipe de laséparation aveugle de soure.

alors néessaire de onstruire une fontion de séparation

G ( · )

^telle ^que ^haune ^de

ses sorties

y(t) = G (x(t))

^(2.2)

ne dépende que d'une soure et une seule. Dans le as général,

G ( · )

^, ^qui ^est ^une

appliationd'un espaede dimension

N o

^dans^un ^espae ^de ^dimension

N s

^,^peut^elle

aussi être non linéaire età mémoire.

Puisque laseule hypothèsedontnous disposonsest l'indépendane mutuelledes

soures, il est naturel d'essayer de herher une fontion de séparation

G ( · )

^tel ^que

son veteur de sortie

y(t)

^ait ^des ^omposantes ^les ^plus indépendantes possible. La gure2.2 montre leshéma synoptique généralde la séparation aveugle de soures.

2.1.2 Séparabilité et indéterminations

Séparabilité

Laquestionprimordialeest maintenantelledelaséparabilité desmélanges (i.e.

l'existene d'une solution) : l'indépendane des omposantes de

y(t)

implique-t- ellenéessairement la séparation des soures? End'autres termes, l'indépendane

des omposantes de

y(t)

implique-t-elle que haune des sorties de la fontion de séparation ne dépend que d'une etune seule soure.

Autrement dit, existe-t-il des transformations

G ( · )

^qui ^sont mélangeantes, 'est- à-diretelle que

( G ◦ H )( · )

^soit^à^Jaobien ^non^diagonal,^et^qui ^préservent ^l'indépen-

dane?Malheureusement,laréponseàettequestionestgénéralementouisaufdans

ertains as partiuliers sur lesquels nous reviendrons ultérieurement : l'indépen-

dane n'est pas susante pour garantir la séparation des soures. Nous illustrons,

i-dessous, ei sur un exemple simple, mais Darmois [41℄ propose une méthode

simple de onstrutionde telles transformations.

Considérons deux soures

s ₁

^et

s ₂

^, indépendantes et identiquement distribuées (iid) normalement telles que

s 1

iid ∼ N (0, 1)

^et

s 2

iid ∼ N (0, 1)

^. ^Supposons ^maintenant

queles observations

x = [x ₁ , x ₂ ] ^T

^vérient

x 1 = cos(θ) s 1 − sin(θ) s 2

x 2 = sin(θ) s 1 + cos(θ) s 2 .

Ces observations sont gaussiennes, puisque sommes de variables aléatoires gaus-

siennesindépendantes, et leur matriede ovariane

C xx

^vérie

C xx , E xx ^T

= I 2 ,

(34)

où

I n

^est^la^matrie^identité^de^taille

(n × n)

^.^Ainsi,^lesobservations

x

^sont^{déorrélées}

et don indépendantes puisque gaussiennes. Dans e as, hoisir

G ( · ) = I 2

^permet

bien d'obtenir des sorties

y

mutuellement indépendantes (

y = x

^). ^Or ^haune ^des

omposantes de

y

^ne ^dépend ^que ^d'une ^seule ^soure ^que ^lorsque

θ

^est ^égal ^à ^zéro

modulo

π/2

^:

θ ≡ 0[π/2]

^. ^Don, ^dans ^tous ^lesâutres âs, ôn ôbtient^des ^sorties^mu-

tuellementindépendantessans pour autantsatisfairelaséparationdes soures. Cei

illustrebienque,d'unemanièregénérale,l'indépendanemutuellesdesomposantes

de

y(t)

^n'implique^pas néessairement laséparation des soures.

Ainsi,nous ne pouvons donnerde résultatsgénérauxsur laséparabilité des mé-

langes : ilnous faudra donfaire une étude auas par as.

Indéterminations

Admettons ependant que le mélange que nous étudions soit séparable, l'exis-

tene d'une solution (i.e. la séparabilité) assure-t-elle son uniité? Pour ela sup-

posons que

y(t)

^soit ûn ^veteur ^solution. Îl â ^été ôbtenu ûniquement ^grâe ^à ûn

ritère d'indépendane de ses omposantes, orette indépendane n'imposeauune

ontraintesurl'ordrede elles-i:si

y(t)

êstûn^veteur^solutionâlors

y ^′ (t) = Π y(t)

^,

où

Π

^est ^une ^matrie ^de permutation, est aussi un veteur solution ar ayant ses omposantes indépendantes. Nous venons de mettre en évidene la première indé-

termination ellede lapermutation : lessouresne pourrontêtre estiméesqu'à une

permutation globaleprès.

Deplusleritèred'indépendanedesomposantesduveteursolution

y (t)

^n'im-

plique auune ontraintesur une éventuelle déformation de elles-i :si

y(t)

^est ^un

veteursolutionalors

y ^′ (t) = Λ(y(t))

^,^où

Λ( · )

^est^une^matrie^diagonale^de^fontions

(linéairesounon),est aussi un veteur solution.Nousvenonsde mettreen évidene

la seonde indétermination elle du fateur d'éhelle : les soures ne pourront être

estimées qu'àune distorsion près.

Dénition 2.1 (Egalité séparante)

Nous dirons que le veteur

x(t)

êst ^égal âu ^sens ^séparant âu ^veteur

y(t)

^, ^e ^que

nous notons

x(t) ∼ = y(t)

^,^si^et^seulement^si

x(t)

^est ^égal^à

y(t)

^à^une permutation

Π

et une distorsiondiagonale

Λ( · )

^près ^:

x (t) ∼ = y (t) ⇐⇒ ^△ ∃ Π, Λ( · ) / x (t) = Π Λ( y (t)).

^(2.3)

Dénition 2.2 (Fontion séparante)

Nous appellerons fontion séparante toute fontion de séparation

G ( · )

^tel ^que ^ses

sorties

y(t) = G (x(t))

^,^où

x(t)

^sont^desobservationsdesoures

s(t)

^,^soient^égales^au

sens séparant auxsoures

s(t)

^:

y(t) ∼ = s(t)

^.^Nous^dirons ^alors,^par ^abus ^de ^langage,

que

( G ◦ H )( · ) = Π Λ( · ) ∼ = I _N _s .

^(2.4)

Nouspouvons donrésumer laséparabilitéetlesdeuxindéterminations,permu-

tation etfateur d'éhelle, de la façonsuivante :

Si une solution au problème de la séparation de soures existe alors elle

vérie

ˆ

s(t) = Π Λ(s(t)) ∼ = s(t).

^(2.5)

(35)

H 11 H 21

H 12 H 22

Fig. 2.3 Coktail party dans le adre de mélanges linéaires instantanés : les a-

naux de transmissionentre les souresetlesapteurs sont modéliséspar de simples

oeients

H _i,j

^.

Cei signie onrètement que, sous laondition d'existene d'une solution etsans

autreinformationapriori quel'indépendane mutuelledes soures, iln'estpossible

au mieux de les estimer qu'à une permutation globale près

Π

^et ^à ^une ^distorsion

diagonaleprès

Λ( · )

^.

Laséparationaveugledesouresonsistedonàherher unefontionséparante

G ( · )

^en^s'appuyant^uniquement^surl'hypothèsefondatriedelaSAS:l'indépendane statistiquemutuelledes soures.

2.2 Mélanges linéaires instantanés

Considéronsmaintenantleaspartiulierdesmélangeslinéairesinstantanésdans

lequel la fontion de mélange

H ( · )

êst ^supposée ^linéaire êt ^sans ^mémoirê ^(f ^Fi-

gure 2.3). Les

N _s

^soures, statistiquementindépendantes, sont don supposées être mélangées de façonlinéaire etinstantanée: haune des

N o

observations peut ainsi s'exprimerpar

x i (t) =

N s

X

j=1

H i,j s j (t), ∀ i ∈ { 1, · · · , N o }

^(2.6)

où les

H i,j

^sont ^des ônstantes ^de ^mélange înonnues. Îl êst ^possible ^de ^réérire ê

modèle sous formematriielle

x(t) = H s(t)

^(2.7)

en faisantapparaître lamatrie de mélange

H

^,^de ^dimension

(N o × N s )

^,^qui ^a^pour

(i, j)

^ème ^élément ^la^onstante

H i,j

^. ^La^séparation ^de ^souresônsisteâlors ^à êstimer

une matrie de séparation

G

^,^de ^dimension

N _s × N _o

^, ^telle ^que ^ses ^sorties

y(t) = G x(t) ∼ = s(t)

^(2.8)

(36)

soientdes estimées des souresoriginales

s(t)

^.^En ^d'autres ^termes,

G

^, ^dont ^les^oef-

ients sont estimés grâe à l'hypothèse d'indépendane des soures, doit être une

matrie séparante.

2.2.1 Séparabilité et indéterminations

Leas des mélangeslinéairesinstantanés(2.7) peut êtrevu ommelarésolution

d'un système linéaire de

N o

^équations ^(elles ^dénissant ^les observations) à

N s

^in-

onnues(lessoures).Dansleontexteaveugle,lesoeientsdeesystèmed'équa-

tions (ii la matrie de mélanges

H

⁾ ^sont ^également ^inonnus. ^Ainsi, ^les ^mélanges

sous-déterminés, sans autre information a priori, ne sont pas séparables puiqu'ils

présententplus d'inonnues(lessoures) qued'équations(les observations).D'autre

part,lesmélangesdéterminésetsur-déterminésadmettentaprioriunesolutiontelle

que

G H ∼ = I N s

^(2.9)

si

H

^est ^de ^rang ^plein. ^Cependant, ^la ^seule indépendane statistique mutuelle des omposantes de

y(t)

^déni ^par ^(2.8) assure-t-elle la séparation du mélange, i.e

G ∼ = H ⁻¹

^ou

G ∼ = H ^†

⁽

^†

^est ^la pseudo-inverse d'une matrie de rang plein) pour respetivement les mélanges déterminés ou sur-déterminés? Autrement dit, existe-

t-il des fontions

G

^non ^séparantes ^qui ^préservent l'indépendane de leurs sorties? Comon[38℄ aprouvé quesiauplusune soureest gaussienne,alors l'indépendane

onjointe(ou paire par paire) des omposantes de

y(t)

^implique^que

G H = Π Λ

^où

Π

^est^une^matrie^de permutationet

Λ

^une^matrie^diagonale.^Ce^théorème, ^qui^est

une onséquene du théorème de Darmois-Skitovihde 1953 [42℄, revient àdire que

si au plus une soure est gaussienne alors le mélangedéterminé (ou sur-déterminé)

est séparable et que lessoures seront estimées à une permutationglobale

Π

^et ^un

gain

Λ

^près. ^Notez ^que ^dans ^le ^as ^linéaire instantané, la distorsion

Λ( · )

^se ^résume

à une simple matrie diagonale : l'indétermination d'éhelle se traduit ii par une

indétermination sur la puissane des souresreonstituées.

2.2.2 Prinipe de séparation

Nous allons maintenant exposer les idées fondamentales utilisées pour eetuer

la séparation des mélanges instantanés linéaires déterminés 3

où

N s = N o

^. ^Nous

supposerons de plus que la matrie de mélangeest de rang plein. La séparation de

soures se résume alors à estimer une matrie de séparation inversible

G

^de ^taille

(N s × N s )

^.

Indépendane statistique et information mutuelle

Rappelons tout d'abord la dénition de l'indépendane statistique.

N

^variables

aléatoires

{ Y _i } 1≤i≤N

^sont mutuellement indépendantes si et seulement si la densité de probabilité onjointe

p Y 1 ,··· ,Y _N [y 1 , · · · , y N ]

^est ^égale ^au ^produit ^des ^densités ^de

3

Lesmélangessur-déterminéspouvantserameneràeasenréduisantlenombred'observations

aunombredesoures.

(37)

probabilitésmarginales

p Y i [y i ]

^de ^haune ^des ^variables ^aléatoires

Y 1 , · · · , Y N ind´ependantes ⇐⇒ ^△ p Y 1 ,···,Y N [y 1 , · · · , y N ] =

Y N i=1

p Y i [y i ].

^(2.10)

Autrement dit, l'indépendane de variables aléatoires se traduit par le fait que la

densitéde probabilité onjointeest séparable oufatorisable.Ainsi,lesdiversesmé-

thodesdeséparationexploitantl'indépendanedevrontêtreonstruitesdetellesorte

queles soures estiméesvérient (ou aumoins approximent) ette propriété.

Néanmoins, l'utilisationdiretedeladénitionde l'indépendane n'estpasaisée

puisque faisant intervenir des fontions multivariées (inonnues). Pour ela, une

mesure salaire de l'indépendane, plus pratique, est la divergene de Kullbak-

Leibler

KL[ ·k· ]

^entre ^deux ^densités ^de probabilité

p[ · ]

^et

q[ · ]

^, ^dénie^par

KL[p k q] ,

Z

p[u] ln p[u]

q[u]

du.

^(2.11)

On peut montrer que ette divergene est une grandeur positive qui s'annule si et

seulementsilesdensités de probabilités

p[ · ]

^et

q[ · ]

^sont^égales.^Ainsi,l'indépendane des omposantes du veteur aléatoire

4

y = [y 1 , · · · , y N ] ^T

^peut ^être ^mesurée ^par

l'information mutuelle

I[y]

^[39℄ ^dénie ^omme ^la ^divergene ^de Kullbak-Leibler entre

p y [ · ]

^et

Q

i p y i [ · ]

^:

I [y] , KL

"

p y

Y N i=1

p y i

#

= Z

p y [u] ln p y [ u ] Q N

i=1 p y i [u i ]

!

du.

^(2.12)

L'informationmutuelle

I [y]

^peut ^être ^exprimée^par

I[y] =

X N i=1

H[y i ] − H[y]

^(2.13)

où

H[y i ]

^et

H[y]

^sont ^lesêntropies ^de ^Shannon⁵ ^marginalesêt ônjointe^respetive-

ment:

H[y] , − Z

p y [u] ln(p y [u]) du, H[y i ] , −

Z

p y i [u i ] ln(p y i [u i ]) du i .

Notons que l'entropie de Shannon peut être exprimée à partir de l'espérane du

logarithme népérien de la densité de probabilité de la variable aléatoire :

H[y] =

− E[ln(p y [y])]

^. L'information mutuelle

I[y]

^quantiant l'indépendane des omposantes du veteur aléatoire

y

^,^de ^nombreux algorithmes de séparation de soures y sontexpliitement ouimpliitementreliés, ommenous allons le voir.

4

Danstoutelasuitedeemanusritetparabusdelangage,nousonfondronslesnotationsde

lavariablealéatoire

Y

^ave^saréalisation

y

^.

5

La dénition de l'entropie de Shannon fait souvent intervenir les logarithmes binaires, en

(38)

De l'analyse en omposantes prinipales à l'analyse en omposantes in-

dépendantes

Denombreuses méthodes dutraitementdusignal seonentrent surl'utilisation

des statistiques d'ordre 2des signaux onsidérés, ommepar exemple le ltragede

Wiener [92℄. Appliquer les statistiques du seond ordre dans le adre de la sépara-

tion de soures, revient àdéorréler les mélanges,'est-à-dire à estimerdes signaux

entrés

z = W x

^tels ^que ^leur ^matrie ^de ^ovariane

C zz = E[zz ^T ]

^soit ^diagonale.

En eet, puisque les soures

s

^sont ^supposées indépendantes (don déorrélées) et sans perte de généralité entrées, alors leur matrie de ovariane

C ss = E[ss ^T ]

^est

diagonale. De plus, haque élémentdiagonal représente la puissane moyenne de la

soure orrespondante. Don pour séparer les soures (i.e. reherher des signaux

indépendants), il est néessaire queles souresestimées

z

^soient déorrélées.

Ladéorrélation,enoreappelée blanhiment ouanalyse en omposantes prini-

pales (ACP), a pour objetif d'estimer des signaux

z

^dont^la ^matrie ^de ^ovariane

est diagonale. Cette déorrélationpeut être réalisée par la déompositionen valeur

proprede lamatriede ovariane

C xx

^des observationsoupar ladéompositionde Cholesky.Eneet,lamatriede ovariane

C xx

^,^qui^est^symétrique^(ouhermitienne silessignauxsontomplexesmaisnousnetraiteronsiiqueleasdessignauxréels),

est diagonalisable:

∃ V ∈ U(N s ), ∃ D ∈ D(N s ) / C xx = V D V ^T ,

^(2.14)

où

U(n)

^est ^le^groupe^des ^matries^unitaires^de ^taille

(n × n)

^et

D(n)

^l'ensemble^des

matries diagonales de taille

(n × n)

^. ^Les ^termes ^diagonaux ^de

D

^sont ^les ^valeurs

propresdelamatriedeovariane

C xx

^et^les^olonnes^de

V

^sont^les^veteurs^propres

assoiés. Ainsi, hoisir une matrie de blanhiment (spatial)

W

^telle ^que

W = D ⁻ ¹ ² V ^T

^(2.15)

permetd'eetuer ladéorrélation.Enimposantde plus, de façonarbitraire,quela

matrie de ovariane

C zz

^, ^des ^signaux ^blanhis ^dénis ^par

z = W x

^, ^soitl'identité, nous obtenons :

C zz = E zz ^T

= W C xx W ^T = I N s

qui est obtenu en remplaçant

W

^par ^son êxpression ^(2.15) êt ên ûtilisant ^la ^dé-

ompositionen valeurs propresde lamatrie de ovariane des observations (2.14).

Remarquons que le fait d'imposer la puissane moyenne des signaux

z

^à ^un, ^re-

vient à xer l'indétermination du fateur d'éhelle : quelle que soit la matrie de

blanhiment

W

^(dénie^par ^(2.15) ^ou ^par ^toute ^matrie^obtenue ^par multipliation à gauhe de (2.15) par une matrie diagonale et/ou une matrie de permutation),

la normalisation de la puissane des signaux estimés permet d'obtenir toujours la

même solution, levant ainsi l'indétermination de gain sans pour autant la résoudre

(sauf dans le as de soures de puissane unité). Les omposantes prinipales sont

don obtenues en projetant lesobservations

x

^sur^les^veteurs ^propres ^de^la ^matrie

de ovariane

C xx

^des ^mélanges fournissant ainsi des signaux déorrélés.

Cependant, bien que la déorrélation soit néessaire à l'indépendane elle n'en

demeure pas moins insusante ommeillustré à la gure 2.4. Malgré leur déorré-

lation, les mélanges blanhis

z

^ne ^sont ^pas ^égaux âu ^sens ^séparan^t âux ^soures. Ên

(39)

−1 −0.5 0 0.5 1

−1

−0.5 0 0.5 1

PSfrag replaements

s 1

s 2

(a) Soures

−2 −1 0 1 2

−1.5

−1

−0.5 0 0.5 1 1.5

PSfrag replaements

x 1

x 2

(b)Mélanges

−2 −1 0 1 2

−2

−1 0 1 2

PSfrag replaements

z 1

z 2

() Mélangesblanhis

Fig.2.4Illustrationde l'ACP.Distributionsonjointes:de deux souresindépen-

dantes uniformément distribuées entre -1 et 1 (Figure 2.4(a)), des deux mélanges

(Figure2.4(b))et des deux mélanges blanhis (Figure2.4()).

eetladéorrélationn'est pas susante pourgarantirlavéraitéde l'égalité(2.10),

e quipeut être vugrâeaudéveloppement deTaylordes fontionsaratéristiques

des densités de probabilités onjointeet marginalesfaisantintervenir lesumulants

roisés quidoivent être nulspour assurer l'indépendane.

Ainsi,Comon[38℄aproposé de généraliserl'analyseen omposantes prinipales,

qui n'impose l'indépendane qu'au seond ordre et dénit par onséquent des di-

retions orthogonales, à l'analyse en omposantes indépendantes (ACI) qui dénit

des diretions indépendantes. Pour être performante, l'ACI devra don reourir à

des statistiques d'ordresupérieur (à deux). Cei montre aussi pourquoi des soures

gaussiennesiid ne peuvent être séparée. Eneet, leur statistiques d'ordresupérieur

àdeux sont entièrement dénies àpartir de leur deux premières statistiques : l'uti-

lisationdes statistiquesd'ordresupérieur n'apporte, danse aspartiulier, auune

informationsupplémentaire.

Unautremoyendemontrerl'insusanedeladéorrélationpourlaséparationde

souresestalgébrique.Pourdéterminerlamatriedeséparation

G

^de^taille

(N s × N s )

^,

en tenant omptedes

N s

indéterminations du gain, xées de façonarbitraire, nous devons estimer

N _s ² − N _s = N _s (N _s − 1)

^paramètres înonnus. Ôr ^les ôntraintes ^de

déorrélation :

E[z i z j ] = 0

^pour ^toutes ^les ^paires

1 ≤ i 6 = j ≤ N s

^, ^ne ^donnent ^que

N s (N s − 1)/2

^équations, ê ^qui êst însusant ^pour ^déterminer

G

^. ^Nous ^pouvons

résumerei endisantqueladéorrélation(indépendane àl'ordredeux)des sorties

nefaitquelamoitiédel'ACI.Bienqu'insusantepoureetuerlaséparationdes

soures,l'ACPpermet,ommenousallonslevoir,desimplierleproblèmedel'ACI

en ontraignant la matrie de séparation

G

^à ^adopter ^une ^struture partiulière.

Ainsi,pour ahever laséparation par ACI, nousdevons estimerune matrie

U

^telle

que

G = U W

^(2.16)

soit une matrie séparante (f. gure 2.5). L'indépendane des signaux estimés

y

impliqueaussileurdéorrélation:

C yy = E yy ^T

= I N s

^,^en^xant^de^façon^arbitraire

lapuissanemoyennedessouresestiméesàl'unité.Lessignauxestimésétantdénis

La bimodalité de la parole au secours de la séparation de sources. ~ Association Francophone de la Communication Parlée

◦

⊔⊔⊔⊔⊔⊔⊔⊔⊔⊔

H ( · )

G ( · )

det( · )

ln( · )

log( · )

TF( · )

( · ) ′

(.) c

| · |

| · |

| · |

( · ) ∗

( · ) T

( · ) +

( · ) †

( · ) ∗ ( · )

( · ) ◦ ( · )

( · ) ⊕ ( · )

( · ) ⊕ ⊥ ( · )

Pr[ · ]

p[ · ]

P[ · ]

Ψ[ · ]

E[ · ]

Var[ · ]

H[ · ]

I[ · ]

KL[ ·k· ]

Φ[ · ]

Φ ◦ [ · ]

N (µ, Γ)

µ

Γ

R

C

{·} i

i

i U(n)

(n × n)

D(n)

n × n

N f

N s

N o

y(t)

y i (t) i

y(t)

A

A i,j (i, j)

A I n

(n × n)

Π

Λ( · )

∼ 90%

∼ 80%

∼ 75%

∼ 50%

∼ 60%

s(t)

x(t)

x(t) = s(t) + b(t)

b(t)

a(t) = M 1

v(t)

a (t)

v (t)

M

p AV (a(t), v(t))

a(t)

v(t)

N o

x(t) = [x 1 (t), · · · , x N o (t)] T

N s

s(t) = [s 1 (t), · · · , s N s (t)] T

H ( · )

x (t) = H ( s (t)).

H ( · )

( · ) ^′

( · ) ^∗

( · ) ^T

( · ) ⁺

( · ) ^†

( · ) ⊕ ^⊥ ( · )

Φ ^◦ [ · ]

{·} ⁱ

N _s

x(t) = [x 1 (t), · · · , x N o (t)] ^T

s(t) = [s 1 (t), · · · , s N s (t)] ^T

H : E ^N s → E ^N o

s ₁

s ₂

x = [x ₁ , x ₂ ] ^T

C xx , E xx ^T

y ^′ (t) = Π y(t)

y ^′ (t) = Λ(y(t))

x (t) ∼ = y (t) ⇐⇒ ^△ ∃ Π, Λ( · ) / x (t) = Π Λ( y (t)).

( G ◦ H )( · ) = Π Λ( · ) ∼ = I _N _s .