• Aucun résultat trouvé

La bimodalité de la parole au secours de la séparation de sources

N/A
N/A
Protected

Academic year: 2021

Partager "La bimodalité de la parole au secours de la séparation de sources"

Copied!
211
0
0

Texte intégral

(1)

HAL Id: tel-00200871

https://tel.archives-ouvertes.fr/tel-00200871

Submitted on 21 Dec 2007

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

sources

Bertrand Rivet

To cite this version:

Bertrand Rivet. La bimodalité de la parole au secours de la séparation de sources. Traitement du signal et de l’image [eess.SP]. Institut National Polytechnique de Grenoble - INPG, 2006. Français.

�tel-00200871�

(2)

N

:

⊔⊔⊔⊔⊔⊔⊔⊔⊔⊔

THÈSE

pour obtenirle grade de

DOCTEUR de l'INP Grenoble

Spéialité : Signal, Image, Parole, Téléoms

préparée aux laboratoires

Institut de la Communiation Parlée, UMR CNRS 5009

Laboratoire des Images et des Signaux, UMR CNRS 5083

dans leadre de l'Eole Dotorale

Életronique, Életrotehnique, Automatique et Traitement du Signal

présentée et soutenue publiquement par

Bertrand Rivet

le29 septembre 2006

La bimodalité de la parole

au seours de la séparation de soures

Direteur de thèse :Christian Jutten (LIS)

Co-direteur de thèse :LaurentGirin(ICP)

JURY

M. Éri Moulines, Président

M. Yannik Deville, Rapporteur

Ms. Frédéri Bimbot/RémiGribonval, Rapporteurs

M. Christian Jutten, Direteur de thèse

M. LaurentGirin, Co-direteurde thèse

M. Dinh-Tuan Pham, Éxaminateur

(3)
(4)

Gaston Bahelard,La Formationde l'esprit sientique, 1938.

(5)
(6)

Avanttoutehose,jetiensàremerierJean-LuShwartzetJean-MarChassery

direteurs respetifsde l'Institut de laCommuniation Parlée (ICP) et du Labora-

toiredes Images etdesSignaux(LIS) pourm'avoiraueillidans leurslaboratoires.

JeveuxpartiulièrementremeriermesdeuxpapasdethèseChristianetLaurent:

sans vous ette thèse n'auraitjamais vu le jour.Vous avez su m'enadrer sans être

diretifset meommuniquer l'énergienéessaire pour menerà bien mes reherhes.

Même lorsque le temps m'aura pressé, vous avez toujours su trouver un moment

pour relire de mon manusrit. Si l'envie de ontinuer de vous remerier ne manque

pas, les mots justes sont plus diiles à trouveret nalement les plus simples sont

sûrementlesplus vrais:enoreun grandmeri.Jepenseraiàvousave monChivas

de 18 ans d'âge etmon stylo!

I would like to thank Jonathon Chambers, the leader of the Centre of Digital

Signal Proessing at Cardi University for your are during my stay. I also would

liketo thank Yuliaand Andrew.I was reallyglad by the ollaboration.Thank you

very muhfor your are.

Je souhaite assoier à es remeriements Patrie Petitlair pour avoir été mon

tuteur pédagogique, pour m'avoir fait onane en TP et me laisser enadrer des

TDs, hose susamment rare pour que je prenne le temps de te remerier. Ces

quelques heures d'enseignement aurontété une bouée d'air frais.

Je voudrais également remerier tous les membres de mon jury pour avoir pris

le temps de lire et de ritiquer e manusrit : Eri Moulines pour avoir aepté de

présider e jury, Yannik Deville, Frédéri Bimbot et Rémi Gribonval pour avoir

apporté votre aution et vos remarques en rapportant mon travail et nalement

Dinh-Tuan Pham pour ses préieuses suggestions.

Ungrandmeriàtous euxquej'aiputoyeretappréierpendantmathèse.A

Claire, Julie, Antoine et Mohammad, mes ompagnons de ordée à l'ICP. J'espère

vous retrouver bientt. Meri Anthony, mon olloqui n'a jamais gueulé alors que

tuas eu plus d'une oasionde le faire.Meri Jérémy pour avoir parfois délaisséta

doue pour faire des parties de billard.Claire, le pardonneras-tu? Meri Annemie,

tes mails, ta bonne humeur et ta présene sans faille ont été d'une fraîheur très

appréiable.MeriClaire pour touteses disussionspendantlesformationsobliga-

toires etpour tout e que tuasfait pour moi. Meri Julie,ta gentillesse, ton rire et

tesgâteauxonttoujourségayéplus quelapauseafé.MeriAntoinepoures délires

de n de rédation. Meri Guillaume, on aura bien rigolé pendant les pauses afé.

Meri Virginie, ta fraîheur et ton attention m'auront bien aidé. Meri pour tout

Nino,oupluttMonsieurMedves (j'aifaillirâté masortie!).MeriPopopour tes

(7)

remarques aussi spontanées qu'imprévisibles. Meri David pour tout à la fois nos

remarques sur les enseignements etes soirées en onférene. Enn un grand meri

à tous lesmembres de l'ICPet du LIS.

Je tiens aussi à remerier Alex, Mourroun, Soni, Cédri et Gizmo pour es

esapades parisiennes.

Meri àtoute labande. DjeyetClara pour m'avoirprésenté. Sab, Amande, Cé-

ile,Serge,Djouls,Florent,Tons,Robpouressortiesskisouessoiréesralettes et

tartiettes.Meri Clohettepourtes histoireshors duommun.Meriserruria, toi

la danseuse slave,pour nos disussions. Maisil mefautmaintenant tedire lavérité

sur ton arbregénéalogiquesientique :nonFantn'estpas ton grand-pèreetChiba

n'est pas ton arrière grand-père. Voila'est fait, 'est sûrement dur etviolent mais

'était néessaire. De toute façon j'hte déteste. Meri ma maman préférée, ton

petit snorky a maintenant ni. Meri GrG mon grand frèrepour tout e que l'on

nous aattribué àtord ouàraison. Meri auxmembres du omitéde séletionde la

Cherh'Aquin'aurapassurvéu plusd'unesaison.Enn,un grandmeriauxolo-

atairesdubureau523pourlesbonbons,vousm'avezsauvéd'atroeshypoglyémies.

Pour avoirun exemplaireunique deette thèse,réezvospropresremeriements

en omplétant laliste i-dessous.

Je voudrais remerier pour sa ontribution hors norme sans toi

ette thèse n'auraitpas été intéressante.

Meri àtoi , mon père spirituel /ma mère spirituelle 1

.

Je te remerie pour ta bonne humeur,tes blagues plus drles les

unes que lesautres, tu m'aurasfait rire même dans lesmoments diiles.

Meri pour ton immense ulture et tes disussions d'un niveau

intelletuelqui m'étaient jusqu'àprésent inonnues.

1

(8)
(9)
(10)

Notations mathématiques v

Abréviations vii

Introdution 1

I État de l'art 5

1 Parole audiovisuelle 7

1.1 La parole : un mélangeaudiovisuel . . . . . . . . . . . . . . . . . . . 7

1.2 Information vidéoutile . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Redondane et omplémentarité de la paroleaudiovisuelle . . . . . . 9

1.3.1 Redondane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.2 Complémentarité . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Bi-modalitéde laparole en traitement du signal . . . . . . . . . . . . 12

1.4.1 Reonnaissane automatique de la parole . . . . . . . . . . . . 12

1.4.2 Débruitageet séparation de soures audiovisuelles . . . . . . . 13

1.4.3 Compressionaudiovisuelle . . . . . . . . . . . . . . . . . . . . 13

1.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Séparation aveugle de soures 15 2.1 Présentation générale de la séparation de soures . . . . . . . . . . . 16

2.1.1 Formulationmathématique. . . . . . . . . . . . . . . . . . . . 16

2.1.2 Séparabilitéet indéterminations . . . . . . . . . . . . . . . . . 17

2.2 Mélanges linéaires instantanés . . . . . . . . . . . . . . . . . . . . . . 19

2.2.1 Séparabilitéet indéterminations . . . . . . . . . . . . . . . . . 20

2.2.2 Prinipe de séparation . . . . . . . . . . . . . . . . . . . . . . 20

2.2.3 Séparationpar mesuredirete de l'indépendane . . . . . . . . 25

2.2.4 Séparationpar statistiqued'ordre supérieur . . . . . . . . . . 29

2.2.5 Séparationsemi-aveugle . . . . . . . . . . . . . . . . . . . . . 33

2.3 Mélanges onvolutifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.1 Séparabilitéet indéterminations . . . . . . . . . . . . . . . . . 38

2.3.2 Séparationtemporelle . . . . . . . . . . . . . . . . . . . . . . 39

2.3.3 Séparationfréquentielle . . . . . . . . . . . . . . . . . . . . . . 40

2.4 Séparation de souresde paroleaudiovisuelle . . . . . . . . . . . . . . 43

2.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

(11)

II Modélisation de la multimodalité de la parole 47

3 Modèle audiovisuel de la parole 49

3.1 Paramètres audiovisuels . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.1.1 Paramètres visuels . . . . . . . . . . . . . . . . . . . . . . . . 50

3.1.2 Paramètres audio . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2 D'un modèle audiovisuelgénéral... . . . . . . . . . . . . . . . . . . . 53

3.3 ...vers un modèle audiovisuel spéique . . . . . . . . . . . . . . . . 55

3.3.1 Modélisationstatistiqued'un seul son de parole . . . . . . . . 55

3.3.2 Modélisationstatistiquede laparole ontinue . . . . . . . . . 61

3.3.3 Modélisationaudiovisuelle de la parole ontinue . . . . . . . . 61

3.3.4 Apprentissage des paramètres du modèle audiovisuel . . . . . 62

3.4 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.5 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.5.1 Modélisationaudio . . . . . . . . . . . . . . . . . . . . . . . . 64

3.5.2 Modélisationaudiovisuelle . . . . . . . . . . . . . . . . . . . . 68

3.6 En résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4 La parole : un signal parimonieux 73 4.1 Prinipe de la détetion audio d'ativitévoale . . . . . . . . . . . . . 73

4.2 Déteteur audiovisuel d'ativitévoale . . . . . . . . . . . . . . . . . 74

4.2.1 Prinipede ladétetion audiovisuelle d'ativitévoale . . . . 74

4.2.2 Fateur d'amplitude . . . . . . . . . . . . . . . . . . . . . . . 76

4.2.3 Mise àjour des paramètres du silene . . . . . . . . . . . . . . 79

4.2.4 Intégration temporelle . . . . . . . . . . . . . . . . . . . . . . 81

4.3 Déteteur visuelde silene . . . . . . . . . . . . . . . . . . . . . . . . 82

4.3.1 Prinipede ladétetion visuelle d'ativité voale . . . . . . . 83

4.3.2 Déteteur visueld'ativité voale sur images naturelles . . . . 86

4.4 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.4.1 Corpus Grenoble . . . . . . . . . . . . . . . . . . . . . . . . 90

4.4.2 Corpus Cardi . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.5 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.5.1 Déteteur audiovisueld'ativitévoale . . . . . . . . . . . . . 93

4.5.2 Déteteur visuelde silene . . . . . . . . . . . . . . . . . . . . 99

4.6 En résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

III Extration de soure de parole audiovisuelle 105 5 Extration par la résolution des indéterminations 109 5.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.1.1 Indéterminations . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.1.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

5.2 De la ohérene audiovisuelle... . . . . . . . . . . . . . . . . . . . . . 112

5.2.1 Indéterminationde permutation . . . . . . . . . . . . . . . . . 112

5.2.2 Estimationdes fateursd'amplitude. . . . . . . . . . . . . . . 116

5.2.3 Algorithmenal . . . . . . . . . . . . . . . . . . . . . . . . . . 119

(12)

5.3 ...à laparimonie de la parole. . . . . . . . . . . . . . . . . . . . . . 120

5.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . 122

5.4.1 Extrationpar la ohérene audiovisuelle . . . . . . . . . . . . 122

5.4.2 Extrationpar la parimonie. . . . . . . . . . . . . . . . . . . 128

5.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

6 Extration direte par la parimonie 137 6.1 Cas des mélanges instantanés omplexes . . . . . . . . . . . . . . . . 137

6.2 Cas des mélanges onvolutifsomplexes . . . . . . . . . . . . . . . . . 142

6.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . 145

6.3.1 Cas des mélanges instantanés . . . . . . . . . . . . . . . . . . 145

6.3.2 Cas des mélanges onvolutifs. . . . . . . . . . . . . . . . . . . 147

6.4 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Conlusion générale et perspetives 153 Annexes 155 A Distribution de LogRayleigh 157 A.1 Distribution de LogRayleighirulaire . . . . . . . . . . . . . . . . . 157

A.2 Conséquenes de lanon-irularité. . . . . . . . . . . . . . . . . . . . 160

A.2.1 Distributionde LogRayleighnon-irulaire . . . . . . . . . . . 160

A.2.2 Caluldu paramètre de loalisationoptimal . . . . . . . . . . 164

A.3 Conditionnement numériquedes paramètres . . . . . . . . . . . . . . 166

B Algorithme EM 169 B.1 Prinipede l'algorithmeEM . . . . . . . . . . . . . . . . . . . . . . . 169

B.1.1 AlgorithmeEM standard . . . . . . . . . . . . . . . . . . . . . 170

B.1.2 AlgorithmeEM pénalisé . . . . . . . . . . . . . . . . . . . . . 172

B.2 Algorithme EM pour le modèle audiovisuel . . . . . . . . . . . . . . . 173

B.2.1 Miseà jourdes poids . . . . . . . . . . . . . . . . . . . . . . . 174

B.2.2 Miseà jourdes paramètres vidéo . . . . . . . . . . . . . . . . 175

B.2.3 Miseà jourdes paramètres audio . . . . . . . . . . . . . . . . 176

Liste des gures 179

Liste des tableaux 181

Bibliographie 183

(13)
(14)

Fontions et opérateurs

H ( · )

Proessus de mélange

G ( · )

Proessus de séparation

det( · )

Déterminant d'une matrie

ln( · )

Logarithme népérien (ou naturel)

log( · )

Logarithme déimal

TF( · )

Opérateur transformée de Fourier

( · )

Dérivation

(.) c

Estimée

| · |

Module pour lessalaires

| · |

Module omposantepar omposantepour lesveteurs

| · |

Cardinalpour un ensemble

( · )

Conjugaison

( · )

T Transposition

( · )

+ Transposition onjugaison

( · )

Pseudo-inverse d'une matrieretangulaire

( · ) ∗ ( · )

Produit de onvolution

( · ) ◦ ( · )

Composition

( · ) ⊕ ( · )

Somme diretede deux espaes

( · ) ⊕

( · )

Somme direteorthogonale de deux espaes

(15)

Variable aléatoire

Pr[ · ]

Probabilitéd'un événement

p[ · ]

Densité de probabilitéd'une variable aléatoire

P[ · ]

Fontionde répartition d'unevariablealéatoire

Ψ[ · ]

Fontionsore d'une variable aléatoire

E[ · ]

Espérane mathématique

Var[ · ]

Varianemathématique

H[ · ]

Entropie de Shannon

I[ · ]

Informationmutuelle

KL[ ·k· ]

Divergene de Kullbak-Leibler

Φ[ · ]

Fontionde ontraste

Φ

[ · ]

Fontionde ontraste orthogonal

N (µ, Γ)

Loinormale de veteurmoyenne

µ

etde matriede ovariane

Γ

Ensembles et espaes

R

Ensembledes réels

C

Ensembledes omplexes

{·}

i Ensembleformédes élémentsdépendants de

i

pour tous les

i U(n)

Groupedes matriesunitairesde taille

(n × n)

D(n)

Ensembledes matries diagonales de taille

n × n

Grandeurs salaires

N

f Nombre de fréquenes de alul des transformées de Fourier

N

s Nombre de soures

N

o Nombre d'observations

Signaux et grandeurs vetorielles

y(t)

Veteur olonnede signaux temporel

y

i

(t) i

ème omposantedu veteur

y(t)

Grandeurs matriielles

A

Matrie

A

i,j

(i, j)

ème élément de lamatrie

A I

n Matrie identité de taille

(n × n)

Π

Matrie de permutationdont latailleest à préiser

Λ( · )

Matrie diagonalede distorsion

(16)

Nous donnons entre parenthèses l'abréviation anglaisesi elleest diérente.

ACI Analyse en omposantes indépendantes (ICA)

ACP Analyse en omposantes prinipales (PCA)

COR aratéristiquesopérationnelles de réeption

dB Déibel

EASI Algorithmeéquivariant adaptatif(Equivariant Adaptative Separa-

tion via Independene)

ECG Eletroardiogramme

iid indépendantet identiquementdistribué

LP Prédition linéaire(Linear Predition)

MMG Modèle multi-gaussien (GMM)

MMLR Modèle multi-LogRayleigh(LRMM)

RAP Reonnaissane automatique de laparole (ASR)

RI Réponse impulsionelle(IR)

RSB Rapportsignal sur bruit (SNR)

RSI Rapportsignal sur interférene (SIR)

SAS Séparation aveugle de soure (BSS)

SOBI Identiation aveugle au seond ordre (Seond Order Blind

Identiation)

TCD Transforméeen osinusdisrète(DCT)

TF Transforméede Fourier (FT)

TFCT Transforméede Fourier àourt terme (STFT)

TFD Transforméede Fourier disrète(DFT)

(17)

Références

Documents relatifs

La bonne isolation de chaque source, les artefacts réduits et plus généralement la bonne qualité audio des signaux estimés permet tout à fait de procéder à un rehaussement ou

La tâche « convertir 600 dizaines en milliers » sollicite une relation entre unités non consécutives (entre dizaines et milliers). Utiliser un tableau de

Cette fenêtre est déplacée pas à pas, c'est-à-dire déplacée d’un vecteur au suivant (Figure 1.2). Dans cette méthode, lorsque les éléments audio à comparer sont courts

peut être utile pour mieux traiter le signal audio que nous allons exploiter dans

la  souffrance  est  une  composante  fondamentale  de  l’existence  comme  le  destin  ou  la  mort.  Pour 

Voiceless labial-velar fricative Alveolo-palatal fricatives Voiced labial-velar approximant Voiced alveolar lateral flap Voiced labial-palatal approximant

Pour traiter le probl`eme de la non stationnarit´e du bruit et du signal de parole, nous proposons d’utiliser des m´ethodes bas´ees sur l’utilisation de dictionnaires de DSP,

On étudie un filtre pour lequel on observe le signal d’entrée en trait plein et le signal de sortie en pointillés sur l’oscillogramme.. Le signal d’entrée peut être décomposé