HAL Id: tel-00200871
https://tel.archives-ouvertes.fr/tel-00200871
Submitted on 21 Dec 2007
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
sources
Bertrand Rivet
To cite this version:
Bertrand Rivet. La bimodalité de la parole au secours de la séparation de sources. Traitement du signal et de l’image [eess.SP]. Institut National Polytechnique de Grenoble - INPG, 2006. Français.
�tel-00200871�
N
◦
:
⊔⊔⊔⊔⊔⊔⊔⊔⊔⊔
THÈSE
pour obtenirle grade de
DOCTEUR de l'INP Grenoble
Spéialité : Signal, Image, Parole, Téléoms
préparée aux laboratoires
Institut de la Communiation Parlée, UMR CNRS 5009
Laboratoire des Images et des Signaux, UMR CNRS 5083
dans leadre de l'Eole Dotorale
Életronique, Életrotehnique, Automatique et Traitement du Signal
présentée et soutenue publiquement par
Bertrand Rivet
le29 septembre 2006
La bimodalité de la parole
au seours de la séparation de soures
Direteur de thèse :Christian Jutten (LIS)
Co-direteur de thèse :LaurentGirin(ICP)
JURY
M. Éri Moulines, Président
M. Yannik Deville, Rapporteur
Ms. Frédéri Bimbot/RémiGribonval, Rapporteurs
M. Christian Jutten, Direteur de thèse
M. LaurentGirin, Co-direteurde thèse
M. Dinh-Tuan Pham, Éxaminateur
Gaston Bahelard,La Formationde l'esprit sientique, 1938.
Avanttoutehose,jetiensàremerierJean-LuShwartzetJean-MarChassery
direteurs respetifsde l'Institut de laCommuniation Parlée (ICP) et du Labora-
toiredes Images etdesSignaux(LIS) pourm'avoiraueillidans leurslaboratoires.
JeveuxpartiulièrementremeriermesdeuxpapasdethèseChristianetLaurent:
sans vous ette thèse n'auraitjamais vu le jour.Vous avez su m'enadrer sans être
diretifset meommuniquer l'énergienéessaire pour menerà bien mes reherhes.
Même lorsque le temps m'aura pressé, vous avez toujours su trouver un moment
pour relire de mon manusrit. Si l'envie de ontinuer de vous remerier ne manque
pas, les mots justes sont plus diiles à trouveret nalement les plus simples sont
sûrementlesplus vrais:enoreun grandmeri.Jepenseraiàvousave monChivas
de 18 ans d'âge etmon stylo!
I would like to thank Jonathon Chambers, the leader of the Centre of Digital
Signal Proessing at Cardi University for your are during my stay. I also would
liketo thank Yuliaand Andrew.I was reallyglad by the ollaboration.Thank you
very muhfor your are.
Je souhaite assoier à es remeriements Patrie Petitlair pour avoir été mon
tuteur pédagogique, pour m'avoir fait onane en TP et me laisser enadrer des
TDs, hose susamment rare pour que je prenne le temps de te remerier. Ces
quelques heures d'enseignement aurontété une bouée d'air frais.
Je voudrais également remerier tous les membres de mon jury pour avoir pris
le temps de lire et de ritiquer e manusrit : Eri Moulines pour avoir aepté de
présider e jury, Yannik Deville, Frédéri Bimbot et Rémi Gribonval pour avoir
apporté votre aution et vos remarques en rapportant mon travail et nalement
Dinh-Tuan Pham pour ses préieuses suggestions.
Ungrandmeriàtous euxquej'aiputoyeretappréierpendantmathèse.A
Claire, Julie, Antoine et Mohammad, mes ompagnons de ordée à l'ICP. J'espère
vous retrouver bientt. Meri Anthony, mon olloqui n'a jamais gueulé alors que
tuas eu plus d'une oasionde le faire.Meri Jérémy pour avoir parfois délaisséta
doue pour faire des parties de billard.Claire, le pardonneras-tu? Meri Annemie,
tes mails, ta bonne humeur et ta présene sans faille ont été d'une fraîheur très
appréiable.MeriClaire pour touteses disussionspendantlesformationsobliga-
toires etpour tout e que tuasfait pour moi. Meri Julie,ta gentillesse, ton rire et
tesgâteauxonttoujourségayéplus quelapauseafé.MeriAntoinepoures délires
de n de rédation. Meri Guillaume, on aura bien rigolé pendant les pauses afé.
Meri Virginie, ta fraîheur et ton attention m'auront bien aidé. Meri pour tout
Nino,oupluttMonsieurMedves (j'aifaillirâté masortie!).MeriPopopour tes
remarques aussi spontanées qu'imprévisibles. Meri David pour tout à la fois nos
remarques sur les enseignements etes soirées en onférene. Enn un grand meri
à tous lesmembres de l'ICPet du LIS.
Je tiens aussi à remerier Alex, Mourroun, Soni, Cédri et Gizmo pour es
esapades parisiennes.
Meri àtoute labande. DjeyetClara pour m'avoirprésenté. Sab, Amande, Cé-
ile,Serge,Djouls,Florent,Tons,Robpouressortiesskisouessoiréesralettes et
tartiettes.Meri Clohettepourtes histoireshors duommun.Meriserruria, toi
la danseuse slave,pour nos disussions. Maisil mefautmaintenant tedire lavérité
sur ton arbregénéalogiquesientique :nonFantn'estpas ton grand-pèreetChiba
n'est pas ton arrière grand-père. Voila'est fait, 'est sûrement dur etviolent mais
'était néessaire. De toute façon j'hte déteste. Meri ma maman préférée, ton
petit snorky a maintenant ni. Meri GrG mon grand frèrepour tout e que l'on
nous aattribué àtord ouàraison. Meri auxmembres du omitéde séletionde la
Cherh'Aquin'aurapassurvéu plusd'unesaison.Enn,un grandmeriauxolo-
atairesdubureau523pourlesbonbons,vousm'avezsauvéd'atroeshypoglyémies.
Pour avoirun exemplaireunique deette thèse,réezvospropresremeriements
en omplétant laliste i-dessous.
Je voudrais remerier pour sa ontribution hors norme sans toi
ette thèse n'auraitpas été intéressante.
Meri àtoi , mon père spirituel /ma mère spirituelle 1
.
Je te remerie pour ta bonne humeur,tes blagues plus drles les
unes que lesautres, tu m'aurasfait rire même dans lesmoments diiles.
Meri pour ton immense ulture et tes disussions d'un niveau
intelletuelqui m'étaient jusqu'àprésent inonnues.
1
Notations mathématiques v
Abréviations vii
Introdution 1
I État de l'art 5
1 Parole audiovisuelle 7
1.1 La parole : un mélangeaudiovisuel . . . . . . . . . . . . . . . . . . . 7
1.2 Information vidéoutile . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Redondane et omplémentarité de la paroleaudiovisuelle . . . . . . 9
1.3.1 Redondane . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Complémentarité . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Bi-modalitéde laparole en traitement du signal . . . . . . . . . . . . 12
1.4.1 Reonnaissane automatique de la parole . . . . . . . . . . . . 12
1.4.2 Débruitageet séparation de soures audiovisuelles . . . . . . . 13
1.4.3 Compressionaudiovisuelle . . . . . . . . . . . . . . . . . . . . 13
1.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Séparation aveugle de soures 15 2.1 Présentation générale de la séparation de soures . . . . . . . . . . . 16
2.1.1 Formulationmathématique. . . . . . . . . . . . . . . . . . . . 16
2.1.2 Séparabilitéet indéterminations . . . . . . . . . . . . . . . . . 17
2.2 Mélanges linéaires instantanés . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Séparabilitéet indéterminations . . . . . . . . . . . . . . . . . 20
2.2.2 Prinipe de séparation . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Séparationpar mesuredirete de l'indépendane . . . . . . . . 25
2.2.4 Séparationpar statistiqued'ordre supérieur . . . . . . . . . . 29
2.2.5 Séparationsemi-aveugle . . . . . . . . . . . . . . . . . . . . . 33
2.3 Mélanges onvolutifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Séparabilitéet indéterminations . . . . . . . . . . . . . . . . . 38
2.3.2 Séparationtemporelle . . . . . . . . . . . . . . . . . . . . . . 39
2.3.3 Séparationfréquentielle . . . . . . . . . . . . . . . . . . . . . . 40
2.4 Séparation de souresde paroleaudiovisuelle . . . . . . . . . . . . . . 43
2.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
II Modélisation de la multimodalité de la parole 47
3 Modèle audiovisuel de la parole 49
3.1 Paramètres audiovisuels . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.1 Paramètres visuels . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.2 Paramètres audio . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 D'un modèle audiovisuelgénéral... . . . . . . . . . . . . . . . . . . . 53
3.3 ...vers un modèle audiovisuel spéique . . . . . . . . . . . . . . . . 55
3.3.1 Modélisationstatistiqued'un seul son de parole . . . . . . . . 55
3.3.2 Modélisationstatistiquede laparole ontinue . . . . . . . . . 61
3.3.3 Modélisationaudiovisuelle de la parole ontinue . . . . . . . . 61
3.3.4 Apprentissage des paramètres du modèle audiovisuel . . . . . 62
3.4 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5.1 Modélisationaudio . . . . . . . . . . . . . . . . . . . . . . . . 64
3.5.2 Modélisationaudiovisuelle . . . . . . . . . . . . . . . . . . . . 68
3.6 En résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4 La parole : un signal parimonieux 73 4.1 Prinipe de la détetion audio d'ativitévoale . . . . . . . . . . . . . 73
4.2 Déteteur audiovisuel d'ativitévoale . . . . . . . . . . . . . . . . . 74
4.2.1 Prinipede ladétetion audiovisuelle d'ativitévoale . . . . 74
4.2.2 Fateur d'amplitude . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.3 Mise àjour des paramètres du silene . . . . . . . . . . . . . . 79
4.2.4 Intégration temporelle . . . . . . . . . . . . . . . . . . . . . . 81
4.3 Déteteur visuelde silene . . . . . . . . . . . . . . . . . . . . . . . . 82
4.3.1 Prinipede ladétetion visuelle d'ativité voale . . . . . . . 83
4.3.2 Déteteur visueld'ativité voale sur images naturelles . . . . 86
4.4 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4.1 Corpus Grenoble . . . . . . . . . . . . . . . . . . . . . . . . 90
4.4.2 Corpus Cardi . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.5 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5.1 Déteteur audiovisueld'ativitévoale . . . . . . . . . . . . . 93
4.5.2 Déteteur visuelde silene . . . . . . . . . . . . . . . . . . . . 99
4.6 En résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
III Extration de soure de parole audiovisuelle 105 5 Extration par la résolution des indéterminations 109 5.1 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.1 Indéterminations . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1.2 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2 De la ohérene audiovisuelle... . . . . . . . . . . . . . . . . . . . . . 112
5.2.1 Indéterminationde permutation . . . . . . . . . . . . . . . . . 112
5.2.2 Estimationdes fateursd'amplitude. . . . . . . . . . . . . . . 116
5.2.3 Algorithmenal . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.3 ...à laparimonie de la parole. . . . . . . . . . . . . . . . . . . . . . 120
5.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.4.1 Extrationpar la ohérene audiovisuelle . . . . . . . . . . . . 122
5.4.2 Extrationpar la parimonie. . . . . . . . . . . . . . . . . . . 128
5.5 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
6 Extration direte par la parimonie 137 6.1 Cas des mélanges instantanés omplexes . . . . . . . . . . . . . . . . 137
6.2 Cas des mélanges onvolutifsomplexes . . . . . . . . . . . . . . . . . 142
6.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . . . . 145
6.3.1 Cas des mélanges instantanés . . . . . . . . . . . . . . . . . . 145
6.3.2 Cas des mélanges onvolutifs. . . . . . . . . . . . . . . . . . . 147
6.4 Conlusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Conlusion générale et perspetives 153 Annexes 155 A Distribution de LogRayleigh 157 A.1 Distribution de LogRayleighirulaire . . . . . . . . . . . . . . . . . 157
A.2 Conséquenes de lanon-irularité. . . . . . . . . . . . . . . . . . . . 160
A.2.1 Distributionde LogRayleighnon-irulaire . . . . . . . . . . . 160
A.2.2 Caluldu paramètre de loalisationoptimal . . . . . . . . . . 164
A.3 Conditionnement numériquedes paramètres . . . . . . . . . . . . . . 166
B Algorithme EM 169 B.1 Prinipede l'algorithmeEM . . . . . . . . . . . . . . . . . . . . . . . 169
B.1.1 AlgorithmeEM standard . . . . . . . . . . . . . . . . . . . . . 170
B.1.2 AlgorithmeEM pénalisé . . . . . . . . . . . . . . . . . . . . . 172
B.2 Algorithme EM pour le modèle audiovisuel . . . . . . . . . . . . . . . 173
B.2.1 Miseà jourdes poids . . . . . . . . . . . . . . . . . . . . . . . 174
B.2.2 Miseà jourdes paramètres vidéo . . . . . . . . . . . . . . . . 175
B.2.3 Miseà jourdes paramètres audio . . . . . . . . . . . . . . . . 176
Liste des gures 179
Liste des tableaux 181
Bibliographie 183
Fontions et opérateurs
H ( · )
Proessus de mélangeG ( · )
Proessus de séparationdet( · )
Déterminant d'une matrieln( · )
Logarithme népérien (ou naturel)log( · )
Logarithme déimalTF( · )
Opérateur transformée de Fourier( · )
′ Dérivation(.) c
Estimée| · |
Module pour lessalaires| · |
Module omposantepar omposantepour lesveteurs| · |
Cardinalpour un ensemble( · )
∗ Conjugaison( · )
T Transposition( · )
+ Transposition onjugaison( · )
† Pseudo-inverse d'une matrieretangulaire( · ) ∗ ( · )
Produit de onvolution( · ) ◦ ( · )
Composition( · ) ⊕ ( · )
Somme diretede deux espaes( · ) ⊕
⊥( · )
Somme direteorthogonale de deux espaesVariable aléatoire
Pr[ · ]
Probabilitéd'un événementp[ · ]
Densité de probabilitéd'une variable aléatoireP[ · ]
Fontionde répartition d'unevariablealéatoireΨ[ · ]
Fontionsore d'une variable aléatoireE[ · ]
Espérane mathématiqueVar[ · ]
VarianemathématiqueH[ · ]
Entropie de ShannonI[ · ]
InformationmutuelleKL[ ·k· ]
Divergene de Kullbak-LeiblerΦ[ · ]
Fontionde ontrasteΦ
◦[ · ]
Fontionde ontraste orthogonalN (µ, Γ)
Loinormale de veteurmoyenneµ
etde matriede ovarianeΓ
Ensembles et espaes
R
Ensembledes réelsC
Ensembledes omplexes{·}
i Ensembleformédes élémentsdépendants dei
pour tous lesi U(n)
Groupedes matriesunitairesde taille(n × n)
D(n)
Ensembledes matries diagonales de taillen × n
Grandeurs salaires
N
f Nombre de fréquenes de alul des transformées de FourierN
s Nombre de souresN
o Nombre d'observationsSignaux et grandeurs vetorielles
y(t)
Veteur olonnede signaux temporely
i(t) i
ème omposantedu veteury(t)
Grandeurs matriielles
A
MatrieA
i,j(i, j)
ème élément de lamatrieA I
n Matrie identité de taille(n × n)
Π
Matrie de permutationdont latailleest à préiserΛ( · )
Matrie diagonalede distorsionNous donnons entre parenthèses l'abréviation anglaisesi elleest diérente.
ACI Analyse en omposantes indépendantes (ICA)
ACP Analyse en omposantes prinipales (PCA)
COR aratéristiquesopérationnelles de réeption
dB Déibel
EASI Algorithmeéquivariant adaptatif(Equivariant Adaptative Separa-
tion via Independene)
ECG Eletroardiogramme
iid indépendantet identiquementdistribué
LP Prédition linéaire(Linear Predition)
MMG Modèle multi-gaussien (GMM)
MMLR Modèle multi-LogRayleigh(LRMM)
RAP Reonnaissane automatique de laparole (ASR)
RI Réponse impulsionelle(IR)
RSB Rapportsignal sur bruit (SNR)
RSI Rapportsignal sur interférene (SIR)
SAS Séparation aveugle de soure (BSS)
SOBI Identiation aveugle au seond ordre (Seond Order Blind
Identiation)
TCD Transforméeen osinusdisrète(DCT)
TF Transforméede Fourier (FT)
TFCT Transforméede Fourier àourt terme (STFT)
TFD Transforméede Fourier disrète(DFT)